Phi-3-mini är ett genombrott Microsoft inom artificiell intelligens?

Phi artificiell intelligens modell av Microsoft - liten, billig och lider inte av "hallucinationer". Så här säger de om den nya språkmodellen som spås ha en stor framtid.

GPT är helt fantastiskt, men samtidigt är det fruktansvärt dyrt, och det kan inte vara perfekt för alla. Av dessa och många andra skäl Microsoft experimenterar med mycket mindre AI-modeller. Det sägs att Phi-3-mini till och med kan göra OpenAI-ingenjörers arbete på skam.

Också intressant: Framtidens transistorer: En ny era av chips väntar oss

INNEHÅLL

1. ChatGPT är inget universalmedel

2. Vad är känt om Microsoft Phi

3. Hur använder man Phi-3-mini?

4. Microsoft Kommer Phi att ersätta modeller av ChatGPT-typ?

5. Phi-3 från Microsoft förstår bara engelska

ChatGPT är inget universalmedel

ChatGPT är en uppfinning som är finansierad, kurerad och förbättrad Microsoft. Egentligen hör det inte till Microsoft, och företaget OpenAI, som Microsoft inte äger (hon är den ledande, men inte den största, investeraren). GPT-språkmodellen gav Microsoft en enorm fördel gentemot resten av de stora teknikföretagen som nu skyndar ikapp. Det finns dock ett stort antal problem med GPT, av vilka många inte kan lösas ännu.

För det första är detta en mycket resurskrävande språkmodell. Weborienterad Microsoft OpenAIs Copilot eller ChatGPT genererar mycket höga driftskostnader för Microsoft. Detta är en funktion inte bara för GPT, utan också för alla större språkmodeller. Dessutom är GPT, precis som sina konkurrenter, benägna att "hallucinera", det vill säga att den kan generera svar på frågor som innehåller falsk eller vilseledande information. Ju mer data en sådan modell absorberar, desto mer tenderar den att generera liknande innehåll. Därför är hallucinationer och falska påståenden inte en myt som sugs ur ett digitalt finger. Användare noterar ofta att stora språkmodeller ofta gör misstag, ger felaktiga uppgifter och arbetar på obefintlig fakta.

Båda problemen är mycket allvarliga, varför OpenAI, Microsoft, Meta, Google och andra arbetar med att utveckla inte bara tekniken Large Language Model, utan även Small Language Model, som i praktiken kan ge mycket bättre resultat.

En digital revisors assistent behöver inte kunna mycket om kvantfysik. Det kan vara mycket mindre och mindre komplext (och därför billigare), och genom att bara träna på de data som är nödvändiga för dess syfte, borde teoretiskt sett hallucinera mindre. Även om detta är lättare sagt än gjort. GenAI-teknik är fortfarande en vild IT-satsning. Och även om arbetet fortskrider i en aldrig tidigare skådad takt är det fortfarande svårt att praktiskt göra genombrott i grundläggande frågor. Men företaget Microsoft meddelade nyligen ett sådant genombrott. Vi pratar om en liten språkmodell Microsoft Phi.

Också intressant: Hur Taiwan, Kina och USA kämpar för teknisk dominans: det stora chipkriget

Vad är känt om Microsoft Phi

Först och främst bör det noteras att experimentet genomfördes utan medverkan av OpenAI-företaget. Det vill säga, det är utvecklingen av ingenjörer Microsoft.

- Annons -

Modeller Microsoft Phi är en serie små språkmodeller (SLM) som uppnår exceptionella resultat i en mängd olika tester. Den första modellen, Phi-1, hade 1,3 miljarder parametrar och uppnådde de bästa Python-kodningsresultaten bland befintliga SLM:er.

Utvecklarna fokuserade sedan på språkförståelse och tänkande och skapade Phi-1.5-modellen, som också hade 1,3 miljarder parametrar och visade prestanda jämförbar med modeller med fem gånger så många parametrar.

Phi-2 är en 2,7 miljarder parametermodell som visar enastående resonemangs- och språkförståelseförmåga och presterar på nivån med de bästa baslinjemodellerna med 13 miljarder parametrar. Phi-2 skiljer sig från andra modeller på grund av sina innovationer inom modellskalning och datakuratorutbildning.

Den finns tillgänglig i Azure AI Studio-modellkatalogen, som underlättar forskning och utveckling inom området språkmodeller. Phi-2 lanserades i december 2023. Utvecklarna försäkrar att den fungerar lika bra som Mistral eller llama 2 från Meta. Och Phi-3 fungerar ännu bättre än den tidigare versionen.

Phi-3-modellen som precis tillkännagavs är dock helt ny i kvalitet. Det är åtminstone vad du kan bedöma utifrån den information som ges Microsoft. Enligt företaget, enligt indikatorerna för alla kända riktmärken, presterar Phi-3 bättre än någon annan modell av liknande storlek, inklusive språkanalys, programmeringsarbete eller matematiskt arbete.

Phi-3-mini, den minsta versionen av denna modell, har precis blivit tillgänglig för alla intresserade. Det vill säga, den har varit tillgänglig sedan 23 april. Phi-3-mini har 3,8 miljarder parametrar och, enligt mätningar Microsoft, dubbelt så effektiv som alla andra modeller av samma storlek. Den finns i katalogen över AI-modeller av molntjänsten Microsoft Azure, maskininlärningsmodellplattformen Hugging Face och Ollama, ett ramverk för att köra modeller på en lokal dator.

Som han påstår Microsoft, Phi-3-mini kräver inga kraftfulla marker Nvidia. Modellen kan fungera på vanliga datorchips. Eller passa även på en telefon som inte är ansluten till internet.

Mindre effekt gör också att modellerna inte blir lika exakta. Phi-3 kommer inte att vara lämplig för läkare eller skatterevisorer, men hjälper till med enklare uppgifter. Till exempel för att rikta reklam eller sammanfatta recensioner på Internet.

Eftersom de mindre modellerna kräver mindre bearbetning blir de billigare för privata företag att använda. Det vill säga i Microsoft det kommer att finnas fler kunder som skulle vilja involvera AI i sitt arbete, men som ansåg det för dyrt. Det är dock ännu inte klart hur mycket de kommer att kosta.

Det är ännu inte känt när de små och medelstora modellerna dyker upp. Men det senare kommer att bli kraftfullare och dyrare. Även om det redan är känt att Phi-3-small kommer att ha 7 miljarder parametrar, och Phi-3-medium kommer att ha så många som 14 miljarder parametrar.

- Annons -

Läs också:

Hur använder man Phi-3-mini?

GPT-4 Turbo kräver kraftfulla AI-chips, som fortfarande är väldigt dyra. Phi-3-modellen för litet tal kan fungera offline, utan moln, även med ett chip på en mobiltelefon.

Phi-3 är ingen produkt för slutanvändare, utan en teknik som utvecklare kommer att kunna använda och implementera i sina applikationer – både molnbaserade, det vill säga på distans, och de som fungerar lokalt och offline. Det förväntas fungera sömlöst med enheter och deras komponenter, såsom mobiltelefoner, bilar och deras infotainmentsystem, eller till och med IoT-sensorer. I vissa scenarier kan denna teknik vara ovärderlig.

Microsoft ger till och med ett konkret exempel så att vi inte behöver anstränga vår fantasi. Föreställ dig en bonde som inspekterar sina grödor och ser tecken på sjukdom på löv, stjälkar och grenar. Eftersom han är långt borta från telekommunikationsmaster behöver han bara ta fram sin telefon, ta en bild av skadan, lägga den i en applikation som använder Phi-3-teknik - så kommer modellen snabbt och offline att analysera bilden och ge råd om exakt hur man bekämpar denna sjukdom.

Som han förklarar Microsoft, nyckeln till GPT:s framgång var att ta in enorma mängder data för träning. Med så stora datamängder är hög datakvalitet uteslutet. Under tiden, när man tränade Phi-modellen, användes OpenAI:s helt motsatta tillvägagångssätt. Istället för att proppa modellen med information låg fokus på inkrementellt och grundligt lärande.

Istället för att använda rå internetdata, forskare Microsoft skapade TinyStories-datauppsättningen och genererade miljontals miniatyrberättelser om "bebis". Dessa berättelser användes för att träna mycket små språkmodeller. Forskarna gick sedan vidare genom att skapa datasetet CodeTextbook, som använde noggrant utvalda, allmänt tillgängliga data som filtrerades för pedagogiskt värde och innehållskvalitet. Dessa data filtrerades sedan flera gånger och matades tillbaka till en stor språkmodell (LLM) för vidare syntes.

Allt detta gjorde det möjligt att skapa en mängd data som var tillräcklig för att träna en mer kapabel SLM. Dessutom användes ett tillvägagångssätt på flera nivåer för riskhantering och -reducering vid utvecklingen av Phi-3-modellen, inklusive bedömning, testning och manuella justeringar. Som ett resultat, som han påstår Microsoft, kan utvecklare som använder Phi-3-modellfamiljen dra fördel av verktygsuppsättningen som finns i Azure AI för att bygga säkrare och pålitligare applikationer.

Läs också: Teleportering ur vetenskaplig synvinkel och dess framtid

Microsoft Kommer Phi att ersätta modeller av ChatGPT-typ?

Inte alls. Små språkmodeller (SLM), även när de tränas på data av hög kvalitet, har sina begränsningar och är inte utformade för djupinlärning. Stora språkmodeller (LLM) överträffar SLM i komplexa resonemang på grund av deras storlek och beräkningskraft. LLM:er är, och kommer att fortsätta att vara, särskilt användbara inom områden som läkemedelsupptäckt, där man måste söka igenom stora samlingar av vetenskapliga artiklar och analysera komplexa mönster. Å andra sidan kan SLM användas för enklare uppgifter, som att sammanfatta huvudpunkterna i ett långt textdokument, skapa innehåll eller driva chatbots för kundtjänst.

Microsoft, sa hon, använder redan hybridmodelluppsättningar internt, där LLM tar ledningen och riktar vissa frågor som kräver mindre datorkraft till SLM medan den hanterar andra, mer komplexa frågor själv. Phi är placerad för datoranvändning på enheter, utan att använda molnet. Det kommer dock fortfarande att finnas ett gap mellan små språkmodeller och den intelligensnivå som kan erhållas med stora modeller i molnet. Denna lucka, tack vare den fortsatta utvecklingen av LLM, kommer sannolikt inte att försvinna någon gång snart.

Phi-3 har ännu inte verifierats av externa oberoende parter. Microsoft talar ibland om 25 gånger högre effektivitet eller energieffektivitet i extrema fall, jämfört med konkurrenterna, vilket låter ganska fantastiskt. Fast man kan å andra sidan inte glömma att de här åren har gått Microsoft avvanda oss lite från att det är en tydlig ledare inom IT-innovationer, och det kanske är därför vi inte riktigt tror på det. AI-baserade program som svarar direkt och körs offline istället för att generera? Detta skulle vara en värdig kulmen på den nuvarande revolutionen. Tyvärr finns det ett huvudproblem.

Läs också: Allt om Neuralink Telepathy-chippet: vad det är och hur det fungerar

Phi-3 från Microsoft förstår bara engelska

Phi-3 slukade inte de petabyte som kastades på den i massor. Noggrann och noggrann träning av modellen innebär ett mindre problem. Phi-3 har utbildats med information på engelska och har ingen aning om något annat språk än. Inte bara ukrainska, utan också tyska, spanska, franska eller kinesiska. Naturligtvis minskar detta avsevärt dess attraktionskraft för de flesta användare runt om i världen.

Men i Microsoft säker på att arbetet med att utveckla och förbättra dess pågår. Även om du inte bör lura dig själv genom att den ukrainska marknaden är en prioritet för något av de stora företagen. Därför kommer vi att behöva vänta väldigt länge på stödet från det ukrainska språket. Men detta faktum har aldrig stoppat entusiaster och de som vill hänga med i utvecklingen.

Läs också:

Mer från författaren

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar