OpenAI hat seine Bildgenerierung mit dem Modell Dall-E durch 4o-Bildgenerierung ersetzt. Die Ergebnisse / die Qualität der Ergebnisse der Bildgenerierung hat einen großen Sprung gemacht.

Was ist neu?

1. Deutlich verbesserte Bildqualität / Bildstile
Die Bilder von deutlich besserer Qualität als bisher. Fotorealistische Bilder kann man auch als solche bezeichnen. Auch die Bildschärfe scheint besser geworden zu sein. Toll ist auch, dass man konsequent Bildstile verwenden kann (was für reichlich Diskussionen sorgt, einfach mal nach Bildgenerierung ChatGPT und Ghibli suchen). Für mich ist aus dem „OK“-Bildtool Dall-E ChatGPT nun fast zur Referenz in der Bildgenerierung geworden. Leider dauert die Bildgenerierung nun auch ein wenig länger.

2. Korrekte Schriftdarstellungen
Einer der größten Stolpersteine bei KI-Bildgeneratoren war bisher das Erstellen von lesbaren Schriften. Buchstaben wurden oft vertauscht oder zu unkenntlichen Formen verschmolzen. Das neue Modell zeigt hier einen klaren Fortschritt. Zwar bleibt ein wenig Raum für Optimierung – vor allem bei sehr langen Texten oder komplizierten Schriften – aber das Ergebnis ist bereits jetzt weit zuverlässiger als bei den Vorgängern.

3. Natürlichere Handdarstellungen
Es klingt banal, aber Hände sind für viele KI-Bildgeneratoren ein leidvolles Kapitel. Fünf Finger pro Hand korrekt zu platzieren – ein scheinbar unlösbares Problem. Mit dem neuen Modell gelingt dies spürbar besser. Mein Beispiel der 7-fingrigen Hand (ich weiß – das sieht gruselig aus, war aber ein Techniktest) funktionierte verlässlich.

4. Merging und Editing von vorhandenen Bildern
Statt nur neue Bilder „aus dem Nichts“ zu generieren, kann das Modell bereits existierende Bilder aufgreifen und nahtlos erweitern oder transformieren. Wer beispielsweise einen Teil eines Fotos ersetzen oder das Erscheinungsbild einer Figur verändern möchte, wird mit dem neuen Modell deutlich bessere Ergebnisse erzielen – das ist leider auch „Wasser in die Mühlen“ für Deep-Fakes

Fazit

Mit dem neuen „4.0-Modell“ markiert OpenAI aus meiner Sicht einen Meilenstein in der KI-Bildgenerierung. Vor allem die Fähigkeiten, Schriften lesbar darzustellen, Hände richtig zu generieren und bereits bestehende Bilder zu verändern, begeistern micht sehr. Worauf ich lange gewartet habe, ist jetzt technisch umgesetzt und nicht, wie ich erwartet habe, in vielen Iterationen, sondern in einem großen Schritt – wie so oft bei generativer KI

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert