Ny AI Microsoft kan imitera rösten från vilken person som helst

På torsdag, forskare Microsoft tillkännagav en ny artificiell intelligens (AI) modell kallad VALL-E som exakt kan efterlikna en mänsklig röst när den ges ett tre sekunder långt ljudprov. När den väl lärt sig en viss röst kan VALL-E syntetisera ljud av den personen som säger vad som helst samtidigt som den känslomässiga tonen hos högtalaren bevaras.

Dess författare föreslår att VALL-E kan användas för högkvalitativ text-till-tal, talredigering, där en persons inspelning kan redigeras och ändras från en texttranskription (få dem att säga saker som de inte ursprungligen sa), och för att skapa ljudinnehåll kombinerat med andra generativa AI-modeller som t.ex GPT-3.

Microsoft kallar ALL-E en "Neural Codec Language Model", och den är baserad på en teknik som heter EnCodec som Meta tillkännagav i oktober 2022. Till skillnad från andra text-till-tal-metoder, som vanligtvis syntetiserar tal genom att manipulera vågformer, genererar VAL-E diskret ljud codec-koder från text och akustiska uppmaningar. Den analyserar i princip hur en person låter, bryter ner den informationen i diskreta komponenter (kallade "tokens") tack vare EnCodec, och använder träningsdata för att matcha vad den "vet" om hur den rösten skulle låta om den talade andra fraser utanför av provet på tre sekunder.

Microsoft tränade ALL-E:s talsyntesfunktioner på ett ljudbibliotek sammanställt av Meta kallat LibriLight. Den innehåller 60 7 timmar engelskspråkiga sändningar från mer än XNUMX XNUMX utropare, mestadels hämtade från allmänt tillgängliga LibriVox-ljudböcker.

Förutom att bevara röstklangen och den känslomässiga tonen hos talaren, kan VALL-E också simulera den "akustiska miljön" för ljudprovet. Till exempel, om provet erhölls från ett telefonsamtal, kommer den syntetiserade ljudutgången att simulera de akustiska och frekvensegenskaperna för telefonsamtalet. Även prover Microsoft visa att VALL-E kan generera vokala klangvariationer.

Kanske på grund av ALL-E:s förmåga att potentiellt underlätta bedrägeri och bedrägeri, Microsoft har inte tillhandahållit ALL-E-koden för andra att experimentera med, så vi kommer inte att kunna testa dess kapacitet. Forskare verkar vara medvetna om den potentiella sociala skada som denna teknik kan medföra. I slutet av artikeln skriver de:

"Eftersom ALL-E kan syntetisera tal som bevarar talarens identitet, kan det medföra potentiella risker för modellmissbruk, som att spoofa röstidentifiering eller att utge sig för en specifik talare. För att minska sådana risker kommer en igenkänningsmodell att byggas för att särskilja om ett ljudklipp har syntetiserats med VALL-E."

Du kan hjälpa Ukraina att slåss mot de ryska inkräktarna. Det bästa sättet att göra detta är att donera medel till Ukrainas väpnade styrkor genom Rädda liv eller via den officiella sidan NBU.

Läs också:

DzhereloArs Technica

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar

Ny AI Microsoft imiterar rösten från en person från ett 3-sekunders ljudprov

Senaste kommentarerna