MIT-forskare löste mysteriet med maskininlärning

Efter 2010 började en allvarlig förbättring av mjukvarualgoritmer, och detta tillsammans med kraftfulla datorer gav impulser till den snabba utvecklingen av neurala nätverk. Mjukvarumodeller tränas och tränas på tusentals exempel för att forma sina egna handlingar senare. Idag är det mest kända neurala nätverket detta OpenAI GPT-3. Detta är en maskininlärningsmodell som lär sig med hjälp av mycket internetdata, kan ta ett litet fragment av text och lägga till ett otillräckligt fragment på en ganska hög nivå. Och detta gäller inte bara berättande text, utan också dikter, såväl som rader med programkod.

Neuralt nätverk

Men detta är inte allt som modeller av denna plan kan. Forskare studerar ett intressant fenomen som kallas "lärande i sammanhang", där en stor språkmodell lär sig att utföra en uppgift efter att bara ha sett några få exempel, trots att den inte har tränats på uppgiften.

Forskare från Massachusetts Institute of Technology, Google Research och Stanford University försöker lösa detta mysterium. Med kontextuellt lärande uppdateras inte modellparametrarna, så det verkar som om modellen lär sig en ny uppgift utan att lära sig något alls.

Neuralt nätverk

Forskarnas teoretiska resultat visar att dessa massiva modeller av neurala nätverk kan innehålla mindre och enklare linjära modeller gömda inuti dem. Den stora modellen kan sedan implementera en enkel algoritm för att träna denna mindre linjära modell för att utföra en ny uppgift, med endast den information som redan finns i den större modellen.

Tack vare en djupare förståelse för kontextuellt lärande kommer forskare att kunna implementera nya uppgifter med modeller utan kostsam omskolning. Det vill säga, för det första, för varje specifik uppgift är det nödvändigt att samla in en stor mängd data på grundval av vilken utbildning kommer att äga rum. Och så kommer det att vara möjligt att förse det neurala nätverket med endast ett fåtal exempel, tack vare vilka träning kommer att äga rum.

"Kontextuellt lärande är ett orimligt effektivt inlärningsfenomen som måste förstås".

Neuralt nätverk

Det har antagits att det finns mindre maskininlärningsmodeller i neurala nätverksmodeller som kan lära en äldre modell att utföra en ny uppgift. För att testa sin teori tog forskarna en neurala nätverksmodell som är mycket lik GPT-3 i arkitekturen, men som byggdes specifikt för lärande i sammanhang. Det vill säga, inuti de tidigare lagren implementerades en modell, som var engagerad i att lära sig en linjär modell, implementera enkla inlärningsalgoritmer.

"Dessa resultat är ett språngbräde för att förstå hur modeller kan lära sig mer komplexa uppgifter och kommer att hjälpa forskare att utveckla effektivare metoder för att träna språkmodeller för att ytterligare förbättra sina prestationer.".

Läs också:

Dzherelocsail.mit.edu

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar

Forskare från Massachusetts Institute of Technology har löst mysteriet med maskininlärning

Senaste kommentarerna