Metas ImageBind AI kan imitera mänsklig perception

Meta publicerar koden i open access artificiell intelligens under namnet bildbind, som förutsäger relationer mellan data som liknar hur människor uppfattar eller föreställer sig sin miljö. Medan bildgeneratorer som Midjourney, Stable Diffusion och DALL-E 2 binder ord till bilder, så att du kan skapa visuella scener baserade på bara en textbeskrivning, går ImageBind utöver det. Den kan länka text, bilder eller video, ljud, 3D-mätningar, temperaturdata och rörelsedata – och gör det utan att behöva förträning vid varje tillfälle. Detta är ett tidigt skede av ett ramverk som så småningom kommer att kunna generera komplexa miljöer från enkla ingångar som en textprompt, bild eller ljud (eller en kombination därav).

Du kan tänka på ImageBind som en approximation av maskininlärning till mänsklig inlärning. Om du till exempel står i en dynamisk miljö, som en livlig gata i staden, absorberar din hjärna (för det mesta omedvetet) syner, ljud och andra sensoriska förnimmelser för att få information om förbipasserande bilar, höga byggnader, vädret med mera . Människor och andra djur har utvecklats för att bearbeta dessa data för våra genetiska fördelar: överlevnad och förmedling av vårt DNA. (Ju mer du vet om din omgivning, desto mer kan du undvika fara och anpassa dig till din miljö för att bättre överleva och trivas). När datorer kommer närmare att efterlikna djurens multisensoriska kopplingar, kan de använda dessa kopplingar för att generera helt realiserade scener baserade på endast begränsade datastycken.

Så även om du kanske använder Midjourney för att skapa "en bassethund i en Gandalf-kostym som balanserar på en badboll" och få ett relativt realistiskt foto av den där konstiga scenen, kan ett multimodalt AI-verktyg som ImageBind sluta med att skapa en video med hunden med relevant ljud, inklusive ett detaljerat vardagsrum, rumstemperatur och den exakta platsen för hunden och alla andra i scenen. "Detta skapar en utmärkt möjlighet att skapa animationer från statiska bilder genom att kombinera dem med ljuduppmaningar", noterar Meta-forskarna i sin utvecklarorienterade blogg. "Till exempel kan en kreatör kombinera en bild med en väckarklocka och en galande tupp och använda en ljudsignal för att segmentera tuppen eller ljudet från väckarklockan för att segmentera klockan och animera båda i en videosekvens."

När det gäller vad mer som kan göras med denna nya leksak, pekar det tydligt på en av Metas kärnambitioner: VR, mixed reality och metaspace. Föreställ dig till exempel ett framtida headset som kan bygga fullt realiserade 3D-scener (med ljud, rörelse etc.) i farten. Eller virtuella spelutvecklare kan så småningom använda det för att spara sig en betydande del av det mödosamma arbetet i designprocessen. På samma sätt kan innehållsskapare skapa uppslukande videor med realistiska ljudspår och rörelse baserat på bara text, bilder eller ljud. Det är också lätt att föreställa sig hur ett verktyg som ImageBind öppnar nya dörrar inom tillgänglighet genom att generera multimediabeskrivningar i realtid för att hjälpa personer med syn- eller hörselnedsättningar att bättre förstå sin miljö.

Också intressant: De bästa verktygen baserade på artificiell intelligens

"I typiska AI-system finns det en specifik inbäddning (dvs. vektorer av siffror som kan representera data och deras relationer i maskininlärning) för varje relevant modalitet", säger Meta. "ImageBind visar att det är möjligt att skapa ett gemensamt inbäddningsutrymme för flera modaliteter utan att behöva träna på data med varje enskild kombination av modaliteter. Detta är viktigt eftersom forskare inte kan skapa datauppsättningar med prover som innehåller till exempel ljuddata och termisk data från en livlig stadsgata, eller djupdata och en textbeskrivning av en klippa vid havet.”

Meta tror att denna teknik så småningom kommer att gå längre än de nuvarande sex "sinnena", så att säga. "Även om vi undersökte sex modaliteter i vår nuvarande studie, tror vi att införandet av nya modaliteter som kopplar samman så många sinnen som möjligt - såsom beröring, tal, lukt och fMRI-hjärnsignaler - kommer att möjliggöra rikare mänskligt centrerade AI-modeller." Utvecklare som är intresserade av att utforska denna nya sandlåda kan börja med att dyka in i Metas öppna källkod.

Läs också:

DzhereloEngadget

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar

Metas ImageBind AI kan imitera mänsklig perception

Senaste kommentarerna