OpenAI tillkännagav en ny modell AI Sora, som kan generera högupplösta videor på upp till en minut baserat på textmeddelanden. Sora, som betyder "himmel" på japanska, kommer inte att vara tillgänglig för allmänheten inom kort, men företaget kommer att släppa den till en liten grupp forskare och forskare som kommer att bedöma skadan och potentialen för missbruk.
"Sora kan skapa komplexa scener med flera karaktärer, specifika typer av rörelser och exakta objekt- och bakgrundsdetaljer", står det på företagets hemsida. "Modellen förstår inte bara vad användaren frågade i prompten, utan också hur dessa saker existerar i den fysiska världen."
En Sora-genererad video visar ett par som går genom ett snötäckt Tokyo med körsbärsblommor och snöflingor som virvlar runt dem, medan en annan visar realistiskt utseende ulliga mammutar som går genom en snötäckt äng mot en bakgrund av snötäckta bergskedjor.
Vi presenterar Sora, vår text-till-video-modell.
Sora kan skapa videor på upp till 60 sekunder med mycket detaljerade scener, komplexa kamerarörelser och flera karaktärer med livfulla känslor. https://t.co/7j2JN27M3W
Uppmaning: "Vackert, snöigt... bild.twitter.com/ruTEWn87vf
- OpenAI (@OpenAI) Februari 15, 2024
OpenAI säger att modellen arbetar med "djup språkförståelse" som gör att den kan tolka ledtrådar i text. Men som nästan alla AI-bild- och videogeneratorer är Sora inte perfekt. OpenAI varnar också för att modellen kan vara svår att ge orsak och verkan – till exempel kan den generera en video av en person som äter en kaka, men den kanske inte visar bitmärken.
Sora är inte den första text-till-video-konverteringsmodellen. Andra företag, inklusive Meta, Google och Runway, har antingen tipsat om text-till-video-verktyg eller gjort dem allmänt tillgängliga. Men inget annat verktyg kan för närvarande generera en 60-sekunders video. Sora genererar också hela videor på en gång, snarare än att samla dem bildruta för bildruta som andra modeller, så objekt i videon förblir intakta även när de tillfälligt försvinner från visningen.
Uppmaning: "Flera jättelika ulliga mammutar närmar sig trampande genom en snöig äng, deras långa ulliga päls blåser lätt i vinden när de går, snötäckta träd och dramatiska snötäckta berg i fjärran, ljus mitt på eftermiddagen med tunna moln och en sol högt uppe avståndet… bild.twitter.com/Um5CWI18nS
- OpenAI (@OpenAI) Februari 15, 2024
Tillkomsten av text-till-video-verktyg har väckt oro över deras potential att lättare skapa realistiska falska videor. Och generativ AI mer allmänt har orsakat en motreaktion från konstnärer och kreativa arbetare, oroliga för att tekniken potentiellt kan ersätta dem.
OpenAI sa att det arbetar med experter inom områden som desinformation, hatinnehåll och partiskhet för att testa verktyget innan det görs tillgängligt för allmänheten. Företaget utvecklar också verktyg som kan upptäcka videor skapade av Sora och inkludera metadata i de skapade videorna för att göra dem lättare att upptäcka. Företaget avböjde att säga hur Sora utbildades, men sa att det använde både "public domain videos" och videor licensierade från rättighetsinnehavare.
Läs också: