Découvrez les 10 différences clés entre DALLE E 2 et DALL E 3, le dernier modèle de génération de texte en image de OpenAI, et comment ces avancées impactent la qualité et la diversité des images.
Table des matières
DALL-E est un réseau de neurones introduit par OpenAI en janvier 2021, capable de créer des images à partir de descriptions textuelles. Au fil du temps, OpenAI a affiné cette technologie, aboutissant au DALL E 2, sorti en avril 2022, et au plus récent DALL E 3, lancé en septembre 2023.
Dans cet article, nous examinerons les principales distinctions entre DALL E 2 et DALL E 3, et comment ces différences influencent la qualité et la variété des images générées.
1. Résolution
La disparité la plus frappante entre DALL E 2 et DALL E 3 est la résolution des images qu'ils produisent. Le DALL E 2 génère des images à une résolution de 512 × 512 pixels, une amélioration significative par rapport aux 256 × 256 pixels du DALL-E original. Cependant, le DALL E 3 va plus loin en offrant une résolution impressionnante de 1024 1024 x XNUMX XNUMX pixels, permettant des images plus détaillées et plus réalistes.


2. La diffusion
Un autre contraste important réside dans la méthode de synthèse d’images. DALL E 2 utilise un auto-encodeur variationnel discret (VAE) pour la compression et la décompression d'images en codes latents discrets. En revanche, DALL E 3 utilise un modèle de diffusion, lui permettant de créer des images à partir du bruit en inversant un processus stochastique. Ce passage aux modèles de diffusion améliore la flexibilité et les capacités d'expression, faisant de DALL E 3 un expert dans la gestion de scènes et de textures complexes.
3. Intégration DALL E 3 ChatGPT
DALL-E 3 intègre l'intégration avec ChatGPT, le système d'IA conversationnelle d'OpenAI, capable de générer des réponses en langage naturel basées sur les entrées de l'utilisateur. Cette synergie permet aux utilisateurs d'utiliser ChatGPT pour le brainstorming et l'affinement des invites pour DALL E 3.
Les utilisateurs peuvent faire appel à ChatGPT pour articuler leurs idées, des phrases simples aux paragraphes détaillés, et ChatGPT créera des invites sur mesure pour DALL E 3 afin de donner vie à ces idées. De plus, les utilisateurs peuvent demander des ajustements mineurs aux images générées via ChatGPT, offrant ainsi un meilleur contrôle créatif.
4. Adhésion rapide
DALL E 3 excelle à adhérer fidèlement à des invites complexes, un défi pour son prédécesseur, DALL E 2. Par exemple, DALL E 3 peut représenter avec précision des scènes avec des objets spécifiques et leurs relations, comme « un chat assis sur un canapé à côté d'un lampe » ou « une voiture bleue garée devant une maison rouge ». En revanche, DALL E 2 interprète parfois mal ou ignore certains éléments d'invite, ce qui nécessite une expertise de l'utilisateur en matière d'ingénierie d'invite.


5. Génération de texte
DALL E 3 présente des améliorations significatives dans la génération de texte dans les images, tels que des étiquettes, des panneaux, des logos ou des légendes. Il produit un texte lisible et contextuellement pertinent, cohérent avec le contenu et le style de l'image. Par exemple, lorsqu'on vous demande « une affiche pour un film intitulé The Matrix », DALL E 3 génère un texte correspondant à la police, à la couleur et à la mise en page de l'affiche originale du film. En revanche, DALL E 2 génère souvent du texte flou, non pertinent ou incohérent.


6. Détails humains
DALL E 3 élève le rendu des détails humains, notamment les visages, les mains, les cheveux et les vêtements. Il crée des visages humains réalistes et diversifiés avec diverses expressions, poses, angles et conditions d'éclairage.
De plus, il génère des mains humaines authentiques avec différents gestes, orientations et accessoires, ainsi que des options de cheveux et de vêtements réalistes. En revanche, DALL E 2 lutte contre ces aspects, produisant parfois des résultats déformés ou peu naturels.
7. Images engageantes
DALL E 3 se distingue par défaut en générant des images attrayantes, éliminant le besoin de hacks ou d'ingénierie rapide. Il crée des images créatives, humoristiques, surprenantes ou à résonance émotionnelle sans instructions explicites de l'utilisateur.
Par exemple, une invite pour « un chien mignon » peut donner des images de chiens avec diverses expressions, poses, accessoires ou scénarios évoquant la gentillesse. En revanche, DALL E 2 génère souvent des images dépourvues d’un tel engagement inhérent.


8. Atténuations de sécurité
DALL-E 3 intègre des mesures d'atténuation de sécurité plus étendues que DALL-E 2 pour empêcher la génération de contenu nuisible. Il peut refuser les demandes de contenu violent, adulte, haineux ou politique, ainsi que les demandes d'images de personnalités publiques nommées.
Des améliorations de sécurité dans des domaines tels que la génération de personnalités publiques et l'atténuation des préjugés néfastes liés à la représentation visuelle ont été développées en collaboration avec des experts du domaine et des équipes rouges. DALL E 2, avec moins de mesures de sécurité, est plus susceptible de générer des images inappropriées ou offensantes.
9. Classificateur de provenance
DALL E 3 introduit un classificateur de provenance, un outil interne conçu pour identifier si une image a été générée par DALL E 3. Cet outil sert à plusieurs fins, aidant OpenAI à comprendre les utilisations et abus potentiels des images générées et aidant les utilisateurs à vérifier l'authenticité des images générées. images et leurs sources.
DALL-E 2 ne dispose pas d'un tel outil, ce qui le rend plus vulnérable aux abus ou à la tromperie.
10. Contrôle créatif
DALL E 3 met l'accent sur le respect des droits créatifs des artistes et créateurs vivants. Il refusera les demandes d'images dans le style des artistes vivants, et les créateurs pourront refuser que leurs images soient utilisées dans la formation des futurs modèles de génération d'images par OpenAI.
DALL E 2 ne dispose pas de ces fonctionnalités, générant potentiellement des images qui portent atteinte à la propriété intellectuelle ou aux droits moraux des artistes ou créateurs vivants.
DALL-E 3 représente la dernière évolution en matière de génération de texte en image d'OpenAI, repoussant les limites en matière de détail, d'adhésion rapide, de génération de texte, de détails humains, d'engagement, de sécurité, de provenance et de contrôle créatif.
Intégré à ChatGPT, il offre une expérience d'interaction transparente, permettant aux utilisateurs d'affiner leurs invites et leurs images grâce au langage naturel. Actuellement, dans le aperçu de la recherche, DALL-E 3 sera disponible pour les clients ChatGPT Plus et Enterprise via l'API en octobre, avec une version plus large prévue pour plus tard cet automne.