Ett team vid University of Tokyo har avslöjat Alter3, en humanoid robot som kan utföra rörelser med hjälp av GPT-4 Large Language Model (LLM). Alter3 använder det senaste verktyget Öppna AI att dynamiskt anta olika poser, från en selfie-pose till spökbilder, allt utan behov av förprogrammerade databasposter.

"Alter3s svar på konversationsinnehåll med hjälp av ansiktsuttryck och gester är ett betydande framsteg inom humanoid robotik som lätt kan anpassas till andra androider med minimala förändringar", sa forskarna.

Inom området LLM-integration med robotar ligger fokus på att förbättra grundläggande kommunikation och modellera realistiska svar. Forskare fördjupar sig också i LLM:s möjligheter att göra det möjligt för robotar att förstå och utföra komplexa instruktioner och därigenom öka deras funktionalitet.

Traditionellt förvaltning på låg nivå robotar är knuten till hårdvara och ligger utanför LLM-företagens verksamhetsområde. Detta skapar svårigheter för direkt hantering av LLM-baserade verk. För att lösa detta problem har det japanska teamet utvecklat en metod för att omvandla uttryck för mänskliga rörelser till kod som är förståelig för Android. Detta innebär att roboten självständigt kan generera sekvenser av åtgärder över tid utan att utvecklare behöver programmera varje kroppsdel individuellt.

Under interaktionen kan en person ge Alter3-kommandon som "Ta en selfie med din iPhone". Därefter initierar roboten en serie förfrågningar till GPT-4 för att få vägledning om de nödvändiga stegen. GPT-4 kommer att översätta detta till Python-kod som gör att verket kan "förstå" och utföra nödvändiga rörelser. Denna innovation gör att Alter3 kan röra sin överkropp medan hans underkropp förblir stationär, fäst vid stativet.

Alter3 är den tredje iterationen i Alters serie av humanoida robotar sedan 2016, med 43 manöverdon som ansvarar för ansiktsuttryck och lemrörelser som drivs av tryckluft. Denna konfiguration ger ett brett utbud av uttrycksfulla gester. Roboten kan inte gå, men den kan imitera typiska gång- och löprörelser.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 visade också förmågan att kopiera mänskliga poser med hjälp av kameran och OpenPose-ramverket. Roboten anpassar sina leder till de observerade ställningarna och sparar framgångsrika imitationer för senare användning. Interaktion med en människa ledde till mer varierade ställningar, vilket stöder idén att olika rörelser kommer från att imitera människan, liknande hur nyfödda lär sig genom imitation.

Innan LLM var forskare tvungna att noggrant kontrollera alla 43 manöverdon för att återskapa en persons ställning eller simulera ett beteende, som att servera te eller spela schack. Detta krävde många manuella justeringar, men AI hjälpte till att befria laget från denna rutin. "Vi förväntar oss att Alter3 effektivt engagerar sig i dialog genom att visa kontextrelevanta ansiktsuttryck och gester. Det visade förmågan att spegla känslor, till exempel att visa sorg eller lycka som svar och därigenom dela känslor med oss, säger forskarna.

Läs också:

Dzherelointressant ingenjörskonst

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar

I Tokyo visades framgångarna för Alter3 humanoid-robot baserad på GPT-4

Senaste kommentarerna