Entdecken Sie die 10 Hauptunterschiede zwischen DALLE 2 und DALL E 3, das neueste Text-zu-Bild-Generierungsmodell von OpenAIund wie sich diese Fortschritte auf die Bildqualität und -vielfalt auswirken.
Inhaltsverzeichnis
DALL-E ist ein von OpenAI im Januar 2021 eingeführtes neuronales Netzwerk, das Bilder aus Textbeschreibungen erstellen kann. Im Laufe der Zeit hat OpenAI diese Technologie verfeinert, was zu DALL E 2 führte, das im April 2022 veröffentlicht wurde, und dem neueren DALL E 3, das im September 2023 auf den Markt kam.
In diesem Artikel befassen wir uns mit den Hauptunterschieden zwischen DALL E 2 und DALL E 3 und wie diese Unterschiede die Qualität und Vielfalt der generierten Bilder beeinflussen.
1. Auflösung
Der auffälligste Unterschied zwischen DALL E 2 und DALL E 3 ist die Auflösung der von ihnen erzeugten Bilder. DALL E 2 erzeugt Bilder mit einer Auflösung von 512 x 512 Pixeln, eine deutliche Verbesserung gegenüber den 256 x 256 Pixeln des ursprünglichen DALL-E. DALL E 3 geht jedoch noch einen Schritt weiter und bietet eine beeindruckende Auflösung von 1024 x 1024 Pixeln, die detailliertere und realistischere Bilder ermöglicht.
2. Verbreitung
Ein weiterer wesentlicher Kontrast liegt in der Methode der Bildsynthese. DALL E 2 verwendet einen diskreten Variations-Autoencoder (VAE) zur Bildkomprimierung und -dekomprimierung in diskrete latente Codes. Im Gegensatz dazu nutzt DALL E 3 ein Diffusionsmodell, das es ermöglicht, Bilder aus Rauschen zu erzeugen, indem ein stochastischer Prozess umgekehrt wird. Diese Umstellung auf Diffusionsmodelle erhöht die Flexibilität und Ausdrucksmöglichkeiten und macht DALL E 3 zu einem Experten für den Umgang mit komplexen Szenen und Texturen.
3. DALL E 3 ChatGPT-Integration
DALL-E 3 bietet eine Integration mit ChatGPT, dem Konversations-KI-System von OpenAI, das in der Lage ist, Antworten in natürlicher Sprache basierend auf Benutzereingaben zu generieren. Diese Synergie ermöglicht Benutzern die Nutzung ChatGPT zum Brainstorming und Verfeinern von Eingabeaufforderungen für DALL E 3.
Benutzer können ChatGPT nutzen, um ihre Ideen zu artikulieren, von einfachen Sätzen bis hin zu detaillierten Absätzen, und ChatGPT erstellt maßgeschneiderte Eingabeaufforderungen für DALL E 3, um diese Ideen zum Leben zu erwecken. Darüber hinaus können Benutzer über ChatGPT kleinere Anpassungen an generierten Bildern anfordern, was eine größere kreative Kontrolle bietet.
4. Sofortige Einhaltung
DALL E 3 zeichnet sich durch die treue Befolgung komplexer Eingabeaufforderungen aus, eine Herausforderung für seinen Vorgänger DALL E 2. Beispielsweise kann DALL E 3 Szenen mit bestimmten Objekten und ihren Beziehungen genau darstellen, wie zum Beispiel „Eine Katze sitzt auf einer Couch neben einem.“ Lampe“ oder „ein blaues Auto, das vor einem roten Haus geparkt ist“. Im Gegensatz dazu werden in DALL E 2 gelegentlich bestimmte Eingabeaufforderungselemente falsch interpretiert oder ignoriert, sodass Benutzerkenntnisse in der Eingabeaufforderungsentwicklung erforderlich sind.
5. Textgenerierung
DALL E 3 zeigt erhebliche Verbesserungen bei der Generierung von Text in Bildern, wie etwa Etiketten, Schildern, Logos oder Bildunterschriften. Es erzeugt lesbaren, kontextrelevanten Text, der dem Bildinhalt und -stil entspricht. Wenn Sie beispielsweise nach einem „Poster für einen Film namens „Matrix““ gefragt werden, generiert DALL E 3 Text, der der Schriftart, Farbe und dem Layout des ursprünglichen Filmplakats entspricht. Im Gegensatz dazu erzeugt DALL E 2 häufig verschwommenen, irrelevanten oder inkonsistenten Text.
6. Menschliche Details
DALL E 3 verbessert die Darstellung menschlicher Details, einschließlich Gesichtern, Händen, Haaren und Kleidung. Es erstellt realistische und vielfältige menschliche Gesichter mit unterschiedlichen Gesichtsausdrücken, Posen, Winkeln und Lichtverhältnissen.
Darüber hinaus werden authentische menschliche Hände mit unterschiedlichen Gesten, Ausrichtungen und Accessoires sowie realistischen Haar- und Kleidungsoptionen generiert. Im Gegensatz dazu hat DALL E 2 mit diesen Aspekten zu kämpfen und führt manchmal zu verzerrten oder unnatürlichen Ergebnissen.
7. Ansprechende Bilder
DALL E 3 zeichnet sich standardmäßig durch die Generierung ansprechender Bilder aus und macht Hacks oder schnelles Engineering überflüssig. Es erstellt Bilder, die ohne explizite Benutzeranweisungen kreativ, humorvoll, überraschend oder emotional resonant sind.
Beispielsweise kann die Eingabeaufforderung „ein süßer Hund“ Bilder von Hunden mit verschiedenen Gesichtsausdrücken, Posen, Accessoires oder Szenarien ergeben, die Niedlichkeit hervorrufen. Im Gegensatz dazu erzeugt DALL E 2 oft Bilder, denen ein solches inhärentes Engagement fehlt.
8. Sicherheitsmaßnahmen
DALL-E 3 umfasst im Vergleich zu DALL-E 2 umfangreichere Sicherheitsmaßnahmen, um die Entstehung schädlicher Inhalte zu verhindern. Es kann Anfragen nach gewalttätigen, erwachsenen, hasserfüllten oder politischen Inhalten sowie Anfragen nach namentlich genannten Bildern von Persönlichkeiten des öffentlichen Lebens ablehnen.
Sicherheitsverbesserungen in Bereichen wie der Generierung von Persönlichkeiten des öffentlichen Lebens und der Abmilderung schädlicher Vorurteile im Zusammenhang mit der visuellen Darstellung wurden in Zusammenarbeit mit Fachexperten und Red-Teamern entwickelt. DALL E 2 ist mit weniger Sicherheitsmaßnahmen anfälliger für die Erzeugung unangemessener oder anstößiger Bilder.
9. Provenienzklassifikator
DALL E 3 führt einen Provenienzklassifikator ein, ein internes Tool, mit dem ermittelt werden soll, ob ein Bild von DALL E 3 generiert wurde. Dieses Tool dient mehreren Zwecken und hilft OpenAI dabei, potenzielle Verwendungen und Missbräuche generierter Bilder zu verstehen und Benutzern dabei zu helfen, die Authentizität der generierten Bilder zu überprüfen Bilder und ihre Quellen.
DALL-E 2 verfügt nicht über ein solches Tool, was es anfälliger für Missbrauch oder Täuschung macht.
10. Kreative Kontrolle
DALL E 3 betont die Achtung der kreativen Rechte lebender Künstler und Schöpfer. Anfragen nach Bildern im Stil lebender Künstler werden abgelehnt, und Urheber können die Verwendung ihrer Bilder für das Training zukünftiger Bildgenerierungsmodelle durch OpenAI ausschließen.
DALL E 2 verfügt nicht über diese Funktionen und erzeugt möglicherweise Bilder, die das geistige Eigentum oder die moralischen Rechte lebender Künstler oder Schöpfer verletzen.
DALL-E 3 stellt die neueste Entwicklung in der Text-zu-Bild-Generierung von OpenAI dar und verschiebt Grenzen in den Bereichen Detailgenauigkeit, schnelle Einhaltung, Textgenerierung, menschliche Details, Engagement, Sicherheit, Herkunft und kreative Kontrolle.
Durch die Integration mit ChatGPT bietet es ein nahtloses Interaktionserlebnis und ermöglicht es Benutzern, ihre Eingabeaufforderungen und Bilder durch natürliche Sprache zu verfeinern. Derzeit in der Forschungsvorschau, DALL-E 3 wird im Oktober über die API für ChatGPT Plus- und Enterprise-Kunden verfügbar sein, eine umfassendere Veröffentlichung ist für später im Herbst geplant.