Scopri le 10 differenze chiave tra DALLE2 e DALL E 3, l'ultimo modello di generazione di testo in immagine di OpenAIe in che modo questi progressi influiscono sulla qualità e sulla diversità delle immagini.
Sommario
DALL-E è una rete neurale introdotta da OpenAI nel gennaio 2021, in grado di creare immagini da descrizioni testuali. Nel corso del tempo, OpenAI ha affinato questa tecnologia, dando vita a DALL E 2, rilasciato nell'aprile 2022, e al più recente DALL E 3, lanciato a settembre 2023.
In questo articolo approfondiremo le principali distinzioni tra DALL E 2 e DALL E 3 e il modo in cui queste differenze influenzano la qualità e la varietà delle immagini generate.
1. Risoluzione
La disparità più evidente tra DALL E 2 e DALL E 3 è la risoluzione delle immagini che producono. DALL E 2 genera immagini con una risoluzione di 512×512 pixel, un miglioramento significativo rispetto ai 256×256 pixel dell'originale DALL-E. Tuttavia, DALL E 3 va oltre, offrendo un'impressionante risoluzione di 1024×1024 pixel, consentendo immagini più dettagliate e realistiche.


2. Diffusione
Un altro contrasto significativo risiede nel metodo di sintesi delle immagini. DALL E 2 utilizza un autoencoder variazionale discreto (VAE) per la compressione e decompressione delle immagini in codici latenti discreti. Al contrario, DALL E 3 utilizza un modello di diffusione, che gli consente di creare immagini dal rumore invertendo un processo stocastico. Questo passaggio ai modelli di diffusione migliora la flessibilità e le capacità espressive, rendendo DALL E 3 abile nel gestire scene e trame complesse.
3. Integrazione DALL E3 ChatGPT
DALL-E 3 presenta l'integrazione con ChatGPT, il sistema di intelligenza artificiale conversazionale di OpenAI, in grado di generare risposte in linguaggio naturale basate sull'input dell'utente. Questa sinergia consente agli utenti di utilizzare ChatGPT per il brainstorming e il perfezionamento degli spunti per DALL E 3.
Gli utenti possono coinvolgere ChatGPT per articolare le proprie idee, da frasi semplici a paragrafi dettagliati, e ChatGPT creerà suggerimenti su misura per DALL E 3 per dare vita a quelle idee. Inoltre, gli utenti possono richiedere piccole modifiche alle immagini generate tramite ChatGPT, offrendo un maggiore controllo creativo.
4. Pronta adesione
DALL E 3 eccelle nell'aderire fedelmente a istruzioni complesse, una sfida per il suo predecessore, DALL E 2. Ad esempio, DALL E 3 può rappresentare accuratamente scene con oggetti specifici e le loro relazioni, come "un gatto seduto su un divano accanto a un lampada” o “un’auto blu parcheggiata davanti a una casa rossa”. Al contrario, DALL E 2 occasionalmente interpreta erroneamente o ignora alcuni elementi del prompt, rendendo necessaria l'esperienza dell'utente nell'ingegneria del prompt.


5. Generazione di testo
DALL E 3 presenta miglioramenti significativi nella generazione di testo all'interno delle immagini, come etichette, segnali, loghi o didascalie. Produce testo leggibile e contestualmente pertinente coerente con il contenuto e lo stile dell'immagine. Ad esempio, quando viene richiesto "un poster per un film intitolato Matrix", DALL E 3 genera un testo che corrisponde al carattere, al colore e al layout del poster del film originale. Al contrario, DALL E 2 genera spesso testo sfocato, irrilevante o incoerente.


6. Dettagli umani
DALL E 3 migliora la resa dei dettagli umani, inclusi volti, mani, capelli e vestiti. Crea volti umani realistici e diversificati con varie espressioni, pose, angoli e condizioni di illuminazione.
Inoltre, genera autentiche mani umane con diversi gesti, orientamenti e accessori, oltre a opzioni realistiche per capelli e vestiti. DALL E 2, al contrario, lotta con questi aspetti, producendo talvolta risultati distorti o innaturali.
7. Immagini coinvolgenti
DALL E 3 si distingue per impostazione predefinita nel generare immagini accattivanti, eliminando la necessità di hack o ingegneria tempestiva. Crea immagini creative, divertenti, sorprendenti o emotivamente risonanti senza istruzioni esplicite per l'utente.
Ad esempio, un suggerimento per "un cane carino" può produrre immagini di cani con varie espressioni, pose, accessori o scenari che evocano tenerezza. Al contrario, DALL E 2 genera spesso immagini prive di tale coinvolgimento intrinseco.


8. Mitigazioni sulla sicurezza
DALL-E 3 incorpora misure di sicurezza più estese rispetto a DALL-E 2 per prevenire la generazione di contenuti dannosi. Può rifiutare richieste di contenuti violenti, per adulti, che incitano all'odio o politici, nonché richieste di immagini di personaggi pubblici per nome.
I miglioramenti della sicurezza in aree come la generazione di personaggi pubblici e la mitigazione di pregiudizi dannosi legati alla rappresentazione visiva sono stati sviluppati in collaborazione con esperti del settore e team rossi. DALL E 2, con minori misure di sicurezza, è più suscettibile a generare immagini inappropriate o offensive.
9. Classificatore di provenienza
DALL E 3 introduce un classificatore di provenienza, uno strumento interno progettato per identificare se un'immagine è stata generata da DALL E 3. Questo strumento ha molteplici scopi, aiutando OpenAI a comprendere potenziali usi e abusi delle immagini generate e assistendo gli utenti nella verifica dell'autenticità delle immagini generate. immagini e le loro fonti.
DALL-E 2 non dispone di tale strumento, il che lo rende più suscettibile ad abusi o inganni.
10. Controllo creativo
DALL E 3 sottolinea il rispetto dei diritti creativi degli artisti e creatori viventi. Rifiuterà le richieste di immagini nello stile degli artisti viventi e i creatori potranno scegliere di impedire che le loro immagini vengano utilizzate nella formazione di futuri modelli di generazione di immagini da parte di OpenAI.
DALL E 2 non ha queste caratteristiche, generando potenzialmente immagini che violano la proprietà intellettuale o i diritti morali di artisti o creatori viventi.
DALL-E 3 rappresenta l'ultima evoluzione nella generazione di testo in immagine da OpenAI, spingendo oltre i limiti in termini di dettaglio, pronta aderenza, generazione di testo, dettagli umani, coinvolgimento, sicurezza, provenienza e controllo creativo.
Integrato con ChatGPT, offre un'esperienza di interazione fluida, consentendo agli utenti di perfezionare i propri suggerimenti e immagini attraverso il linguaggio naturale. Attualmente, nel anteprima della ricerca, DALL-E 3 sarà disponibile per i clienti ChatGPT Plus ed Enterprise tramite l'API a ottobre, con una versione più ampia prevista per la fine dell'autunno.