Root NationNyheterIT-nyheterMicrosoft presenterade ett multimodalt tillvägagångssätt som banar väg för AI på mänsklig nivå

Microsoft presenterade ett multimodalt tillvägagångssätt som banar väg för AI på mänsklig nivå

-

I början av denna vecka har forskare från Microsoft presenterade Kosmos-1, en multimodal artificiell intelligensmodell som kan analysera bilder för innehåll, lösa visuella pussel, utföra visuell textigenkänning, ta visuella IQ-tester och förstå naturliga språkinstruktioner. Enligt forskarna är sådana AI-modeller det första steget mot att skapa en artificiell allmän intelligens (AI) som kan utföra gemensamma uppgifter på mänsklig nivå. Det vill säga, denna teknik kommer att kunna ersätta en person i vilken intellektuell uppgift som helst. Och detta är det uttalade målet för OpenAI, en viktig affärspartner Microsoft inom området artificiell intelligens.

Cosmos-1

I det här fallet är Kosmos-1 en rent personlig utveckling av företaget Microsoft. Forskarna kallar deras skapelse för en "multimodal bred språkmodell" (MLLM) eftersom dess rötter ligger i text-only natural language processing som LLM, som ChatGPT. För att modellen ska acceptera indatabilder måste forskarna först konvertera bilderna till en speciell serie tokens (främst text) som LLM kan förstå.

Cosmos-1

Kosmos-1 tränades på en databas från Internet, inklusive utdrag från The Pile (en 800 GB engelsk textresurs) och Common Crawl. Modellen testades sedan med flera tester för talförståelse, talgenerering, textklassificering utan optisk teckenigenkänning, bildtextning, visuell frågesvar, webbsidasfrågor och bildklassificering med lokalisering. Enligt Microsoft, Kosmos-1 överträffade nuvarande modeller i många av dessa tester.

Cosmos-1

Särskilt intressant var Raven's Progressive Reasoning-test, som mäter visuell IQ genom att presentera en sekvens av former och be personen att slutföra sekvensen. Kosmos-1 kunde ge rätt svar i 22 % av fallen.

Cosmos-1

Dessa tidiga steg, som med framtida optimering skulle kunna ge ännu mer betydande resultat, vilket gör det möjligt för AI-modeller att uppfatta och påverka alla former av media, vilket kraftigt utökar kapaciteten hos artificiella assistenter.

Läs också:

DzhereloArs Technica
Bli Medlem
Meddela om
gäst

0 Kommentarer
Inbäddade recensioner
Visa alla kommentarer