Microsofts neue KI kann Ihre Stimme mit nur einer 3-Sekunden-Probe imitieren
Die KI kommt, und sie hört nicht auf zu kommen. Von KI-Kunstgeneratoren, die Dungeons machen können & Dragons-Charaktere bis hin zu Chatbots, die ein ganzes D&D Spiel leiten können, wird die KI immer leistungsfähiger. Und jetzt kann sie nicht nur die Kunststile verschiedener Künstler imitieren, sondern auch unsere Stimmen nachahmen.
Wir haben bereits gesehen, wie KI-Stimmtechnologie in Videospielen eingesetzt wird, aber Microsofts Vall-E verspricht, noch einfacher zu sein. Als „neuronales Codec-Sprachmodell“ wurde Vall-E (eine Hommage an den Dall-E-Kunstgenerator von OpenAI) auf über 60.000 Stunden Sprache trainiert und ist damit „hundertmal leistungsfähiger als bestehende Systeme“.
Sie können eine Demo von Vall-E auf Microsofts Website sehen. GitHub-Seite hier (dank, Rock Paper Shotgun). Das System kann eine bestimmte Stimme mit nur drei Sekunden Dialog nachbilden, so dass der Benutzer einfach eingeben kann, was die Stimme sagen soll, um Absätze über Absätze von gesprochenem Audio zu erstellen.
Während diese Art von Technologie – zusammen mit Nachahmungstechnologien wie Deepfake – eine enorme Bedrohung im Kampf gegen Fehlinformationen im Internet darstellt, sind Synchronsprecher zu Recht besorgt, dass sie dadurch ihren Job verlieren könnten.
Altera AI, ein Unternehmen, das sich auf den Einsatz von KI zur Erstellung realistischer Gesangsdarbietungen konzentriert, wurde laut GLHF bei der Entwicklung von The Ascent und Hellblade eingesetzt. Ninja Theory hat auf den Bericht geantwortet und klargestellt, dass es KI für Platzhalter-Vocals verwendet, bis eine menschliche Performance geplant werden kann. Neon Giant, die Macher von The Ascent, merkten an, dass KI-Vocals ein großer Segen war für den ehemaligen Indie-Entwickler.
Bevor jeder Synchronsprecher seinen Gewerkschaftsvertreter anruft, sollten wir anmerken, dass Vall-E nicht perfekt ist. Wie man in den Hörbeispielen hören kann, scheint sie Schwierigkeiten zu haben, den gleichen emotionalen Tonfall wie die menschlichen Vorbilder zu treffen, obwohl sie für eine stimmlich flache Erzählung ziemlich gut geeignet ist. KI hat vielleicht einen Auftritt in der Naturdokumentation, aber die Sprecher von Videospielen müssen sich wahrscheinlich noch keine Sorgen machen.