Merzmensch

DADAistisches und dadaLOSES

„Leerer Raum“ (2020). Ein Film, erstellt mit K.I.

Hinterlasse einen Kommentar

Liebe Freunde!
Merzmensch präsentiert einen Kurzfilm. Oder ein kleines Theaterstück.

Leerer Raum (2020).

Dieser Film wurde gänzlich mit der Künstlichen Intelligenz erschaffen. Wie? Lesen Sie weiter!

Making-of.

Vor einigen Jahren kam „Sunspring“ raus. Ich erinnere mich, von diesem Kurzfilm richtig suchtig zu sein – immer und immer wieder habe ich es mir angeschaut. Fasziniert von den absurden Dialogen versuchte ich zu begreifen, was in diesem Kurzfilm vor sich ging. Aber die Bedeutung entglitt mir immer wieder. Denn das Drehbuch wurde von KI geschrieben.

Benjamin war der Name des Autors. Hinter diesem Namen verbarg sich ein Neuronales Netzwerk LSTM, das von Ross Goodwin, einem KI-Forscher und Dichter, entwickelt wurde. Regie führte der BAFTA-nominierte britische Filmemacher Oscar Sharp, unter anderem mit Thomas Middleditch.

Auch wenn die Handlung aus absurden und scheinbar zufälligen Phrasen bestand, versuchte unser menschliches Gehirn, sie zu verstehen. Cogito, ergo sum! Existenz durch Interpretation.

Ross‘ Essays über KI und Kreativität waren für mich sehr inspirierend. Wenn Sie noch keine Chance hatten, lesen Sie sie.

Auf Medium.com ansehen

Mit seinen Experimenten (und später mit seinem KI-generierten Buch „1 the Road“) bewies Ross, was mit künstlicher Intelligenz möglich ist. Dies war eine entscheidendste Erkenntnis:

KI ist weder nur ein Werkzeug noch ein vollständiger Ersatz für einen Autor. Man braucht eine Symbiose, um zusammen mit KI Kunst zu schaffen.


Ein Film ohne Studio.

Wir haben gesehen, was alles an kreative Anwendungen von Machine Learning möglich ist.

Mit dem 3D-Ken-Burns-Effekt können wir animierte Traumvisionen erstellen und ein Foto in eine dreidimensionale Kamerafahrt verwandeln.

Mit GPT-2 von OpenAI können wir ganze Geschichten schreiben.

Was aber, wenn wir alle Ansätze zu einem einzigen Kunstwerk kombinieren? Und so habe ich es gemacht und einen Kurzfilm komplett mit KI generiert.

…Doch bevor wir anfangen: was braucht man, um einen Film zu erstellen?

Sicherlich kann man auf einige Elemente der Arthouse-Qualität zuliebe verzichten, aber normalerweise braucht man die folgenden Zutaten, um einen (egal wie kurzen) Film zu drehen:

  • die Handlung
  • die Kamera / Bildmaterial
  • die Schauspieler
  • die Musik

Wie können wir also den Ansatz des Maschinellen Lernens anwenden, um all diese Punkte zu erfüllen?


Die Handlung

Wie bereits erwähnt, ist GPT-2 ein leistungsfähiges Modell des NLP, Natural Language Processing (auf 40 GB Text mit 1,5 Milliarden Parametern vortrainiert) zur Erstellung von textuellen Werken. Seine Hauptschwäche – und der größte Vorteil – ist der surreale Charakter der erstellten Inhalte. Sie machen in der Regel keinen Sinn (und sind somit zumindest für die zwecke des Wissenstransfers nutzlos) – in einem literarischen Kontext können sie ein herausragendes Objekt der Interpretation sein.

Und: jedes Mal wird ein neuer einzigartiger Text generiert. Dabei nutzt das System das Transformer-Verfahren: mit der sogenannten „Selbst-Achtung“ bezieht sich der Text auf sich selbst. Somit entstehen Texte, die in sich selbst kohärent sind, auch wenn sie kaum Sinn ergeben.

Ich bin gespannt, welche Wege GPT-3 in Zukunft einschlagen wird (OpenAI veröffentlichte neulich ein Riesenmodell mit 175 Milliarden Parametern).

Für das Drehbuch benutzte ich ein GPT-2 Colab Notebook mit Java Interface von Manuel Romero. Das System ist leicht zu nutzen: Sie fangen einen Text an, und GPT-2 setzt die Geschichte fort.

Ich habe Folgendes geschrieben:

Leerer Raum.
Ein Mann betritt den Raum.
Er schaut aus dem Fenster und sagt: „Es hat noch nicht begonnen“.
Eine Frau tritt ein. Sie hat ein weißes Kleid an und ein Buch in der Hand.
Die Frau: „Ich warte auch.“
Der Mann: „Wie lange noch?“
Die Frau: „Für eine Weile.“

GPT-2 lieferte mir verschiedene Texte, aber der, den ich ausgewählt habe, war ein erstaunliches Stück eines absurden Theaters, irgendwo zwischen Beckett, Mrozek und David Lynch:

Leerer Raum.

Ein Mann betritt den Raum.

Er schaut aus dem Fenster und sagt: „Es hat noch nicht begonnen“.

Eine Frau tritt ein. Sie hat ein weißes Kleid an und ein Buch in der Hand.

Die Frau: „Ich warte auch.“

Der Mann: „Wie lange schon?“

Die Frau: „Schon eine Weile.“

Der Mann: „Ah, wissen Sie, ich bin ein sehr geduldiger Mann.“

Die Frau: „Ich weiß, natürlich.“

Der Mann: „Dann werde ich wohl weniger geduldig sein müssen.“

Die Frau fängt an zu lachen; das Lachen hat eine unheilvolle Kante, die nur sie fühlen kann.

„Zu meiner Verteidigung“, sagt sie, „ich habe Ihnen nie gesagt, was ich Ihnen sagen wollte“.

Plötzlich erinnert sich der Mann: „So ist es.“

Die Frau: „Sie lügen also hinter meinem Rücken.“

Der Mann ist überrascht von der Plötzlichkeit der Anschuldigung. Er verspürt jedoch keinen Zorn; wie er bei früheren Begegnungen bemerkt hat, ist es die Frau, die am überzeugendsten wirkt, wenn sie die Lügen ausspricht.

Der Mann: „Aber es war nicht das, was Sie erwartet haben.“

Die Frau: „Oh… nein.“

Sie versucht, überzeugend zu klingen.

Er will sie nach ihrer Mutter fragen.

Die Frau: „Oh… nein. „Glauben Sie, dass sie bereit ist zu lügen?“

Der Mann lehnt die Gelegenheit ab.

Die Frau: „Vielleicht…“

„Warum?“

„Vielleicht trauert sie noch immer.“

Sie lächelt, wenn sie dies sagt, und der Mann glaubt nicht, dass sie die Erste sein wird, die lächelt, wenn die Wahrheit ans Licht kommt.

Er gibt auf: „Nein.“

Die Frau: „Es ist nicht vorbei.“

Der Mann hat ihre Familie nicht mehr zu sehen bekommen. Er hatte gehofft, an seine Arbeit zurückzukehren. Er hat nichts anderes zu tun. Er will ein Mann sein.

Diese Szene hat mich schon wegen der mehrdeutigen Kommunikationsebenen überzeugt. Es ist, als ob sich hinter all diesen spärlichen Phrasen eine riesige schwere Hintergeschichte verbirgt (das menschliche Gehirn vollbringt tatsächlich Wunder bei der Interpretation).

Ich hatte also ein Drehbuch.


Das Visuelle

Ich bin ein Fan von StyleGAN2 (ein auf Bildern trainiertes Modell), vor allem aber von dessen Umsetzung in ArtBreeder (zumindest in der Rubrik „Portraits“).

Sie können neue Gesichter erzeugen, Sie können Übergänge oder sogar Animationen erstellen (lesen Sie hier mehr über die Verwendung von ArtBreeder). So habe ich eine Reihe von Potrtaits (siehe hier das Bildmaterial) des Mannes, der Frau und einige Raumbilder erstellt.

Es war eine knifflige Sache, die Änderung der Gesichter an die Entwicklung der Geschichte anzupassen (z.B. in dem Moment des Lachens etc.), aber nach etlichen Versuchen und Fehlern funktionierte es für mich.

Hier sind nur einige Elemente, die ich verwendete:

Sicherlich können Sie das Bewegungsmodell „First Order Motion Model“ für dynamische Gesichtsanimationen verwenden (indem Sie z.B. selbst Ihren Andy Serkis-Fähigkeiten einsetzen):

1_0LgOnnv9ySzYuCdM2lluMw

Aber für meinen absurdistischen und minimalistischen Zwecke war das „Face Morphing“ am besten geeignet.


Die Schauspieler

Die Gesichter waren schon da, aber es fehlte noch etwas: Stimmen.

Die Stimmerzeugung ist einer der wahrscheinlich ältesten Ansätze des maschinellen Lernens. Mein Favorit war MelNet – ein Modell mit unglaublicher Qualität. Hören Sie sich einfach die Beispiele an (trainiert an professionellen Sprechern oder auch Promi-Datensätzen). Leider war MelNet nicht als funktionierendes Repository oder Colab Notebook verfügbar.

Meine zweite Wahl war Amazon Polly. Als Teil von Amazon AWS AI/ML-Services bietet Polly eine große Anzahl von Stimmen in verschiedenen Sprachen. Der Nachteil ist: Die meisten von ihnen haben Charakter eines Nachrichtensprechers und eignen sich nicht immer für fiktive Inhalte.

Für mein KI-generiertes Video „Predictions“ habe ich eine solche Stimme verwendet:

Dennoch ist die nicht-emotionale Stimme nicht wirklich überzeugend, wenn sie in theatralen Dialogen eingesetzt wird.

Dann entdeckte ich die Replica-Studios.

1_geOvPy4CJMZ9-fsjkdkavQSie bieten im Moment eine eher kleine Auswahl, aber die Stimmen haben eine erstaunliche Qualität. Einige von ihnen können für das Bedürfnis eines Moderators verwendet werden, aber andere tragen bereits theatralische Kraft in sich.

Ich habe diese drei Stimmen ausgewählt – Deckard für Erzähler, Carlos für Mann und Audrey für Frau.
Man kann auch mit den emotionalen Eigenschaften verschiedener Stimmen experimentieren.

Es ist sogar möglich, die eigene Stimme zu trainieren, aber diese drei waren schon perfekt für meine Bedürfnisse.

Die Verwendung von Replica-Studios ist ziemlich einfach. Sie sortieren die Phrasen in chronologischer Reihenfolge und wenden die entsprechenden Stimmen auf die Charaktere an:

1_t2RyjsUTN16Zs1JkAPJ9aA

Jetzt nur noch als mp3-Dateien exportieren – und dann haben Sie schon die Stimmen.


Musik

Die von AI generierte Musik erreichte in diesem Jahr ein neues Qualitätsniveau, nachdem OpenAI die JukeBox veröffentlicht hatte – eine Bibliothek mit ca. 7.000 Liedern und Musikstücken, die mit vortrainierten Modellen verschiedener Musiker und Songwriter generiert wurde (lesen Sie auch hier).

Viele von ihnen sind ziemlich seltsam (wie dieses albtraumhafte „Mozart“-Stück). Aber viele von ihnen sind wunderschön. Und besonders in Kombination mit KI-generierten Visuals rufen sie in Ihrem Inneren seltsame Gefühle hervor.

Ich verwende sie für meine Serie „Breath ZeroX“:

Für unser Video würde etwas cineastisches passen, also habe ich die auf Hans Zimmer trainierte Musik verwendet (und die Geschwindigkeit ein wenig verändert):


Kamera läuft!

Der Rest war eher harte Arbeit eines Cutters – für mein Video habe ich Premiere Pro und jede Menge Kaffee verwendet. Das wohl kniffligste war, die Videos zeitlich zu strecken und mit der Handlung zu synchronisieren (die ursprünglichen Gesichtsübergänge von ArtBreeder dauerten zwischen 8-30 Sekunden lang).

Und nun: hier ist es, nochmals:

Ich bin gespannt, was jetzt alles mit Hilfe von KI möglich sein wird.

 

Die Originalversion dieses Textes wurde in Towards Data Science veröffentlicht.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.