Nachdem wir uns bereits mit dem Prompt und dem Grundrauschen befasst haben, widmen wir uns nun dem dritten entscheidenden Baustein der KI-Bildgenerierung: dem KI-Modell selbst. Das Modell bestimmt, wie ein Bild interpretiert und erstellt wird, und spielt eine zentrale Rolle für Stil, Qualität und Details. Doch nicht alle Modelle sind gleich – sie unterscheiden sich in ihrer Architektur, Größe, ihren Trainingsdaten und ihrer Verfügbarkeit.
Ich möchte in diesem Beitrag nicht auf alle Möglichkeiten eingehen und euch auch nur einen groben Überblick geben.
Arten von KI-Modellen
KI-Modelle für die Bildgenerierung lassen sich grob in folgende Kategorien einteilen:
- Diffusionsmodelle –die auf einem schrittweisen Rauschreduktionsprozess basieren.
- GANs (Generative Adversarial Networks) – die durch einen Wettbewerb zwischen zwei neuronalen Netzwerken fotorealistische Bilder generieren.
Anbieter und Plattformen
Je nach Einsatzzweck und gewünschtem Funktionsumfang gibt es verschiedene Anbieter für KI-Bildgenerierung:
- Open-Source-Modelle: die sich lokal ausführen und modifizieren lassen. Sie laufen aber nur über eigens dafür generierte Anwendungen wie ComfyUI, ForgeUI oder FooocusUI – diese Variante ist in den meisten Fällen kostenlos – erfordern aber extreme Hardwareanforderungen.
- Cloud-basierte Modelle: die über Server laufen und keine lokale Rechenleistung erfordern. Im Grunde ist es das gleiche System, mit dem Unterschied, dass die Rechenleistung von diversen Anbietern zur Verfügung gestellt wird. Anbieter wie z.B. Supermachine verlangen je nach Abo-Model bis zu mehreren 100 Euro im Jahr mit einer tw. begrenzten Anzahl an Generierungen.
Der Vorteil von Cloud basierten Modellen ist, dass man die Möglichkeit hat mehrere Anbieter gleichzeitig nutzen kann. Die Open-Source-Modelle müssen alle die man testen möchte einzeln Heruntergeladen werden, diese Modelle sind je nach Architektur zwischen 5 und 25 GB groß.
Größe der Modelle und ihre Auswirkungen
Ein wichtiges Kriterium für KI-Modelle ist ihre Größe – gemessen an der Anzahl der Parameter und dem Speicherbedarf:
- Kleine Modelle (z. B. Stable Diffusion 1.5) sind effizient und können lokal auf leistungsstarken PCs genutzt werden.
- Mittelgroße Modelle (wie Stable Diffusion XL) bieten bessere Bildqualität, benötigen aber noch mehr Rechenkapazität.
- Große Modelle (z. B. Stable Diffusion 3.5 oder Flux.1) haben riesige Trainingsdatenbanken mit tw. über 10 Milliarden Parameter und liefern die besten Ergebnisse, erfordern aber meist Cloud-Dienste bzw. extreme Hardwareanforderungen.
Im Grunde genommen gilt da schon, je größer desto besser – da die Dateigröße nur von der Trainingsdatenbank abhängt, je mehr Daten die KI zur Verfügung hat umso bessere Ergebnisse kann man sich erwarten.
Online vs. Offline-Modelle
- Online-Modelle sind über Server zugänglich, benötigen keine eigene Hardware, haben jedoch oft Einschränkungen hinsichtlich der Kreativität, der Kosten oder der kreativen Freiheit. Oft stehen die Anbieter auch im Punkto Datenschutz in der Kritik.
- Offline-Modelle können lokal laufen, bieten volle Kontrolle über den Prozess, benötigen aber eine leistungsstarke GPU und viel Speicherplatz. Auch bei Open Source Modellen gibt es immer wieder Aufschreie nach Einschränkungen, da mit diesen Modellen nahezu alles dargestellt werden kann. Ein Kritikpunkt ist „Deepfake“!
Persönliche Anmerkung: wer diese Technologie für die Verbreitung von falschen, denunzierenden oder beleidigenden Inhalten verwendet muss mit immensen Strafen rechnen.
Models und Checkpoints
Das Model ist im Prinzip nur die Grundstruktur in dem ein eigener dafür trainierter Checkpoint läuft. Diese Checkpoints werden meist von der AI-Community trainiert und können auf diversen Plattformen wie z.B. Hugginface oder civid.at gratis heruntergeladen werden.
Wie so eine Struktur aussieht möchte ich euch am Beispiel von Stable Diffusion XL zeigen:
- Stable Diffusion XL
- Juggernaut XL
- epiCRealism XL
- Real Dream
- ….
Kurz gesagt, man braucht eine Anwendung die eine gewisse Architektur wie z.B. Stable Diffusion XL ausführen kann und mit dem entsprechenden Checkpoint erstellt man dann die Bilder. Jeder der Checkpoints hat Stärken und Schwächen, daher ist es wichtig für jedes Projekt den richtigen zu wählen. Juggernaut XL ist das Non plus Ultra im Bereich Realismus, hat aber eindeutig Schwächen bei Anime.
Das alles klingt jetzt schlimmer als es in Wirklichkeit ist, wenn man sich einmal für seinen Stil und die dafür nötigen Models und Checkpoints entschieden hat ist im Prinzip alles Grundlegende passiert.
Meine Wahl und warum ich mich dazu entschieden habe!
Ich habe wie sicher viele andere auch mit der einfachsten Möglichkeit begonnen – mit einer Online Variante. Habe aber dann schnell gemerkt, dass die Ergebnisse nicht meinen Erwartungen entsprechen, da man in den Online Bildgeneratoren wenig Kontrolle über die Generierungen hat.
Daher habe ich mich dann recht schnell um eine Lokale Variante bemüht und mich für FooocuUI entschieden, mit dieser Anwendung lassen sie alle Modelvarianten die über Stable Diffusion laufen betreiben. Da ich die nötige Rechenleistung habe entschied ich mit Models der XL Familie – die damals letzte und modernste Generation.
Der für mich größte Vorteile war neben den verschiedenen Steuermöglichkeiten auch die Freiheit eine uneingeschränkte Anzahl an Generierungen durchführen zu können. Das ist gerade am Anfang wichtig, da man mit den verschiedenen Stellschrauben an denen man drehen kann/muss um ein entsprechendes Bild zu generieren Hunderte Fehlversuchen hinnehmen muss. Das nimmt auch den Druck auf einen Counter zu schauen und festzustellen, dass die Anzahl der Generierungen weniger und weniger wird, du aber noch immer kein zufriedenstellendes Bild bekommen hast.
Jedoch war in meinen Recherchen immer wieder auch Flux.1 – ein relativ neues und völlig anderes Model immer ein Thema für mich. Es gab leider keine Möglichkeit dieses Model auch offline zu betreiben – zumindest habe ich zu der Zeit keine gefunden – bis dann Anfang 2025 ForgeUI eine Möglichkeit bot Flux.1 zum Laufen zu bringen. Seither erstelle ich meine Bilder mit Flux.1.
Für Flux.1 ist wie schon gesagt eine sehr gute Hardware nötig, alleine das Model selbst hat über 20 GB und mit allen dazu nötigen Erweiterungen können da schon 30-40 GB anfallen. Das alles muss die Hardware bewältigen können.
Fazit
Das gewählte KI-Modell hat entscheidenden Einfluss auf die Bildqualität, den Stil und die Flexibilität der Generierung. Je nach Anforderungen kann man zwischen Open-Source- und Cloud-Lösungen wählen, kleine oder große Modelle nutzen und sogar individuelle Feinabstimmungen vornehmen.