NVIDIAs unglaubliche StyleGAN2-KI könnte die Bilderzeugung revolutionieren
NVIDIAs Forschungsstudie zu künstlicher Intelligenz hat tatsächlich eine Reihe wirklich erstaunlicher KI-betriebener Geräte hervorgebracht, eines der aktuellsten ist das angebliche StyleGAN2, das die Bilderzeugung, wie wir sie verstehen, sehr gut verändern kann.
StyleGAN2 wurde von NVIDIA auf dem diesjährigen (digitalen) Meeting on Computer System Vision and Pattern Recognition Mitte Juni vorgestellt. Sie senden einen Videoclip, der den StyleGAN2 bei der Arbeit zeigt – sichtbar Hier – sowie dang, ist es erstaunlich. Aber um erst einmal ein bisschen zurückzugehen, für diejenigen, die sich nicht sicher sind, was sie genau ansehen (wie ich ursprünglich war) …
Was ist ein GAN?
Ein GAN – oder Generative Adversarial Network – ist eine Art des maschinellen Lernens, die nur entwickelt wurde vor sechs Jahren . Diese Form der KI funktioniert im Wesentlichen, indem sie zwei neuronale Netze in einer Art Videospiel gegeneinander ausspielt (ein semantisches Netz ist ein Algorithmus, der entwickelt wurde, um Muster innerhalb einer Menge ungeordneter Informationen erkennen , was sie nach einer vorgesehenen Trainingsdauer mit einer erheblichen Genauigkeit tun).
Ein Beispiel hierfür wäre die Erkennung eines menschlichen Gesichts, die von einem neuronalen Netz gelernt wird, nachdem es tatsächlich mehrere Bilder von echten menschlichen Gesichtern „studiert“ hat.
(Über: YouTube)
Wie funktioniert ein GAN genau?
Die beiden neuronalen Netze, die in einem GAN miteinander „spielen“, werden als Generator und der Diskriminator . Ersteres generiert tatsächliche und gefälschte Datenpunkte (wie Bilder), die es anschließend an den Diskriminator weitergibt, der zwischen ihnen unterscheiden und auch identifizieren sollte, welche Datenpunkte echt oder gefälscht sind. Während des Trainings entdeckt der Diskriminierende, welche Faktoren zweifelsfrei aktuell und welche falsch sind.
Das Ziel des Generators ist es jedoch, den Diskriminator mit diesen Datenfaktoren zu täuschen, und mit der Zeit wird das „Spiel“ sicherlich immer anspruchsvoller; die falschen Datenpunkte werden sicherlich schwieriger zu bestimmen sein. Das Ergebnis ist in dieser Situation ein Bild (oder eine Reihe von Bildern), die am Ende immer genauer werden, bis ein Endprodukt hergestellt wird, das extrem echt aussieht.
NVIDIAs StyleGAN2
StyleGAN2 ist NVIDIAs neueste GAN-Entwicklung, und wie Sie auch sehen werden der Videoclip , durch vermeintliches Transferlernen, eine relativ grenzenlose Vielfalt an Bildern zu generieren, die verschiedene menschliche Gesichter in einer unendlichen Vielfalt von Malstilen darstellen. Der Videoclip zeigt eine zutiefst zufriedenstellende Demonstration, wie sich StyleGAN2 fehlerfrei zwischen diesen prozedural generierten Porträts bewegen kann, von denen jedes wirklich schön ist.
In dem Video wird erklärt, dass die neuronalen Netze von StyleGAN2 gut darin sind, „Stilkomponenten von Inhaltsaspekten zu trennen“. Es wurde offensichtlich darauf trainiert, einen Datensatz zu verwenden, in dem jedes Foto in Stil und Thema einzigartig war.“
(Über: YouTube)
Die Themen in diesen Bildern scheinen die gleiche Pose, Blickrichtung, Beleuchtung und Gesicht beizubehalten, während alles andere von Haarfarbe und Stil bis hin zu Gesichtsform, Alter und auch Geschlecht effizient übertragen wird Echtzeit, während der Mauspfeil eine „Palette“ von Gesichtern überquert – eine „Style Map“.
Die Quintessenz hier ist, dass die gesamte Komplexität dieses GAN direkt in einem Gerät verdichtet wurde, das von jedem Einzelnen für die flüssige Bilderzeugung verwendet werden kann. In diesem Zusammenhang ist das besonders tolle daran, dass der gesamte von StyleGAN2 verwendete relevante Code offen zugänglich gemacht wurde, um sicherzustellen, dass jede Person ihn durch verwenden kann Github .
Die Wirkung von StyleGAN2
Was könnte dies also für die Mittel, mit denen wir in Zukunft Bilder produzieren, hindeuten? Während der Videoclip zeigt, wie StyleGAN2 seine Magie mit einer Reihe von Bildern von menschlichen Gesichtern ausübt, gibt es wirklich keine Einschränkung, mit welcher Art von Bild unten experimentiert werden kann. Wie im Video diskutiert, könnte dieses Tool Möglichkeiten in einer ganzen Reihe von Bereichen eröffnen, in denen die visuelle Prinzipentwicklung eine zentrale Funktion spielt.
Zu den bekanntesten Vorteilen gehört die große implementierte Leistung. Unternehmen, die in kurzer Zeit eine riesige Sammlung von Bildern ihrer Produkte für eine Internet-Site oder ein Verzeichnis erstellen müssen, können dies bequem tun. Oder eine ganze Reihe von Anime-Persönlichkeiten – jede ganz besonders – konnte innerhalb von Minuten gezaubert werden. Das Verfahren, das die Struktur der visuellen Ideenentwicklung hinter dem Computerspiel-Layout entwickelt, kann völlig revolutioniert werden.
(Über: YouTube)
Die Auswirkungen von StyleGAN2
Ein offensichtliches Problem, das einem jedoch jetzt in den Sinn kommt, sind die möglichen negativen Auswirkungen, die diese Art der KI-gesteuerten Bildgenerierung auf die Arbeit im privaten Bereich haben könnte. Während es verlockend ist, fasziniert von der Möglichkeit einer erstaunlichen Reduzierung von Zeit, Aufwand und auch Geldausgaben – speziell für größere Unternehmen – zu sein, könnte die Hinwendung zu solchen Werkzeugen und weg von der Verwendung von Künstlern, digitalen Fotografen, Modellen usw. einige zurücklassen Web-Content-Ersteller betonten ihre ganz eigene Rolle in ihren entsprechenden Märkten.
Auf der anderen Seite könnte sich dieses Tool auch als außergewöhnlich praktisch für kleinere oder selbstständige Designer erweisen, die von der Steigerung der Ideenfindung sowie der sofortigen Visualisierung profitieren könnten, die ihnen zusätzliche Zeit und Ressourcen sparen würde .
Unabhängig von den Anfängen als KI-Fortschritt können solche GANs derzeit beeindruckende Erfolge vorweisen, denen man – wie immer – vorerst am besten mit einer gewissen achtsamen positiven Einstellung nahe kommen könnte.
Ressource: NVIDIA