Google gör zoomning och fotoförbättring till verklighet

Du har säkert sett fantasyfilmer eller tv-program där huvudpersonen ber om att förstora bilden och förbättra resultatet – för att visa ett ansikte, eller en registreringsskylt eller någon annan nyckeldetalj. Googles senaste artificiell intelligens (AI) system, baserade på den sk diffusionsmodeller, kan utföra detta trick.

Det är en knepig process att bemästra eftersom det i huvudsak är att lägga till detaljer till en bild som kameran inte tog från början, med hjälp av supersmarta gissningar baserade på andra liknande bilder.

Google

Hos Google kallas denna teknik för naturlig bildsyntes, och i detta specifika scenario ultrahög bildupplösning. Du börjar med ett litet, pixlat foto och slutar med något skarpt, tydligt och naturligt. Det kanske inte är exakt originalet, men det är tillräckligt nära för att se verkligt ut för det mänskliga ögat.

Google har introducerat två nya AI-verktyg för detta jobb. Den första kallas SR3, eller Super-Resolution via Repeated Refinement, och den fungerar genom att lägga till brus i en bild och sedan ta bort den. Genom en serie probabilistiska beräkningar baserade på en stor databas med bilder och viss maskininlärningsmagi kan SR3 föreställa sig hur en superhögupplöst version av en lågupplöst pixelbild ser ut.

Det andra verktyget är CDM, eller Cascaded Diffusion Models. Google beskriver dessa som "pipelines" längs vilka diffusionsmodeller – inklusive SR3 – kan riktas för högkvalitativ bilduppskalning. Det tar förbättringsmodeller och gör dem till större bilder.

Google

Genom att använda olika förbättringsmodeller med olika upplösningar kan CDM-metoden överträffa alternativa bilduppskalningsmetoder, enligt Google. Den nya AI-motorn testades på ImageNet, en gigantisk databas med träningsbilder som vanligtvis används för forskning inom visuellt objektigenkänning.

Slutresultaten av SR3 och CDM är imponerande. I ett standardtest med 50 mänskliga frivilliga förväxlades bilder av mänskliga ansikten som genererades av SR3 för riktiga foton ungefär 50 % av gångerna – och med tanke på att en idealisk algoritm ska uppnå 50 %, är det imponerande. Det är värt att upprepa att dessa förbättrade bilder inte är exakta matchningar av originalen, de är noggrant beräknade simuleringar baserade på sannolikhetsmatematiken.

Google

Google lovar mycket mer från sina nya AI-motorer och relaterade teknologier – inte bara när det gäller att förstärka bilder av ansikten och andra naturliga föremål, utan också inom andra områden av probabilistisk modellering.

Läs också:

Dzherelovetenskapsman

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar

Som i filmerna: Googles nya fotobearbetnings-AI gör skalning och förbättring av dem till verklighet

Senaste kommentarerna