AiMagination

Nico Rubbert

In meinem Projekt habe ich mich mit dem Thema KI beschäftigt. Mithilfe bildgebender KI habe ich meine Eindrücke aus der Bretagne auf eine unkonventionelle Weise visualisiert. Die Bretagne Exkursion war eine hervorragende Gelegenheit, um diese neuartige Technologie ausgiebig kennenzulernen und zu erforschen.

Projektidee

Fasziniert von den Möglichkeiten, welche moderne Bild-KIs eröffnen, versuchte ich erste Motive aus der Bretage zu visualisieren. Dazu probierte ich einige Tools wie z.B. MidJourney oder Dall-E aus und entschied mich letzendlich, StableDiffusion für mein Projekt zu verwenden, da sich die Generierung durch viele Parameter beeinflussen lässt. Mein Ziel war es, Eindrücke der Reise in Form eines kurzen Videos mithilfe von KI zu visualisieren.

Im Laufe des kreativen Experimentierens lernte ich, wie die unterschiedlichen Parameter einer Bild-KI das generierte Bild beeinflussen. Es ist faszinierend, wie Prompts (So nennen sich die Beschreibungen des zu generierenden Bildes) die Ausgabe lenken. Es lassen sich ebenso unterschiedliche Stile anfragen, wodurch die Möglichkeiten nahezu unbegrenzt sind.

Ergebnis

Wirkung

Die kontinuierliche Verwandlung der Bildelemente kann für einen fast schon hypnotisierenden Effekt sorgen. Der Foklus liegt nicht auf einzelnen Details der Bilder, sondern auf dem Eindruck, der aus der Gesamtheit der Bilder entsteht. Dennoch können einzelne Elemente erkannt werden, während man durch eine unendliche Vergrößerung reist. Ein Audioclip eines bretonischen Klavierspielers sorgt für musikalische Untermalung.

Vorgehensweise

Das Deforum Plugin für die Stable Diffusion WebUI ermöglicht die Generierung von zusammenhängenden Bildern und somit die Erstellung von Animationen. Mit dem Plugin können sowohl 2D-Canvas- als auch 3D-Kamerabewegungen realisiert werden. Für die Kamerabewegung erstellte ich zwei Sinus- und Cosinus-Funktionen, welche den Zoom und das Schwenken der 3D-Kamera steuerten. Zudem ermöglicht das Plugin das Morphen zwischen Prompts und die Verwendung von Guide Images. Die generierten Bilder haben eine Größe von 512px und können später mit AI-Upscaling auf 2048px hochskaliert werden.

Parameter
Im Folgenden möchte ich die wichtigsten Deforum-Parameter vorstellen, mit welchen Einfluss auf die Animation genommen werden kann. In Klammern ist der konkrete Wert, welchen ich für das finale Ergebnis gewählt habe.

Cadence ermöglicht die Generierung von Zwischenframes. Hierbei kann beispielsweise die Diffusion nur jeden zweiten Frame stattfinden. Mithilfe des Strength Schedule-Wertes kann die Ähnlichkeit des generierten Frames zum vorherigen Frame gesteuert werden (0,65). Der CFG Scale gibt an, wie stark das generierte Bild dem Prompt entsprechen soll (7). Das Seed-Verhalten kann randomisiert werden (-1). Mit der Dynamic Prompting Funktion können während der Generierung des Videos die Prompts gewechselt werden. Zudem können Guide Images verwendet werden, dessen Strength-Wert (0,75) die Ähnlichkeit in Bezug auf Bildaufbau oder Farben beeinflusst.

Mir war es wichtig, ein Gleichgewicht zwischen Vorgaben und Freiheiten für die KI zu finden.

Prompts

Zusätzlich zu den Guide Images habe ich Prompts angegeben, welche bewusst eine grobe Beschreibung des Bildinhalts waren. Z.B.
- “Shipwreck at the sea in stormy and cloudy weather”

- “Morlaix aqueduct”

- “Turquoise restaurant front”

Außerdem hängte ich durch positive Prompts folgende Zusätze an die Bildbeschreibungen an:
- “highly detailed, intricate, ultra hd, sharp photo, crepuscular rays, in focus”

Durch negative Prompts beschrieb ich, welche Eigenschaften die generierten Bilder nicht aufweisen sollten:
- “cropped, lowres, poorly drawn face, out of frame, poorly drawn hands, double, blurred, disfigured, deformed, repetitive, black and white, oversaturated, blurry”

Diese Bilder von der Bretagne Reise habe ich in Form von Guide Images als Input verwendet. Beim Betrachten des Videos sollte die Ähnlichkeit der generierten Bilder zu den Fotos auffallen. Dabei probierte ich unterschiedliche Stärke Werte aus, entschied mich letztlich für eine Ähnlichkeit von 75%. Die Bilder selbst kommen also nie unverändert in dem generierten Video vor.

Weitere Ergebnisse

Durch viel Herumexperimentieren und Ausprobieren (genau gesagt über 12.000 generierte Bilder), entstanden einige spannende Ergebnisse. Anfangs bin ich systematisch vorgegangen, um die Auswirkung der einzelnen Parameter zu verstehen. Im Laufe der Zeit habe ich jedoch unterschiedliche Effekte entdeckt und erkundet und mich kreativ ausprobiert. Dank der Exkursion hatte ich viel Material, viele Motive und jede Menge Inspiration, sodass ich auch unterschiedliche Motive und Prompts ausprobieren konnte. Einige der Generierungen möchte ich hier ebenfalls gerne zeigen:

Tutorial

Lust bekommen, ähnliche Videos zu generieren? Im Folgenden möchte ich kurz erläutern, wie man diese erstellen kann!

Zunächst einmal gibt es unterschiedliche Wege, die Stable Diffusion KI zu verwenden. Ich habe für mein Projekt die AUTOMATIC1111 WebUI verwendet. Nachdem die nötigen Dependencies (Python 3.10.6, git) installiert und das Repository geklont wurden, kann das Stable Diffusion Modell in der gewünschten Version (v1-5-pruned-emaonly.ckpt in meinem Fall) im models Ordner platziert werden.

Durch das Ausführen der webui-user.bat öffnet sich ein Konsolenfenster und die WebUI sollte wenig später lokal unter http://127.0.0.1:7860 erreichbar sein. Über den Extensions Tab lässt sich die Deforum Erweiterung mit wenigen Klicks installieren. Nach erfolgreicher Installation und Neustart sollte ein Deforum Tab erscheinen.

Für die Installation der WebUI kann ich diesen Guide empfehlen. Um den Umgang mit dem Deforum Plugin zu lernen kann ich dieses YouTube Tutorial wärmstens empfehlen!