Ontdek de 10 belangrijkste verschillen tussen VAN EN 2 en DALL E 3, het nieuwste model voor het genereren van tekst naar afbeeldingen OpenAIen hoe deze ontwikkelingen de beeldkwaliteit en diversiteit beïnvloeden.
Inhoudsopgave
DALL-E is een neuraal netwerk dat in januari 2021 door OpenAI werd geïntroduceerd en dat afbeeldingen kan maken van tekstbeschrijvingen. In de loop van de tijd heeft OpenAI deze technologie verfijnd, wat resulteerde in DALL E 2, uitgebracht in april 2022, en de recentere DALL E 3, gelanceerd in september 2023.
In dit artikel gaan we dieper in op de belangrijkste verschillen tussen DALL E 2 en DALL E 3, en hoe deze verschillen de kwaliteit en verscheidenheid van gegenereerde afbeeldingen beïnvloeden.
1. Resolutie
Het meest opvallende verschil tussen DALL E 2 en DALL E 3 is de resolutie van de beelden die ze produceren. DALL E 2 genereert beelden met een resolutie van 512 x 512 pixels, een aanzienlijke verbetering ten opzichte van de 256 x 256 pixels van de originele DALL-E. DALL E 3 gaat echter nog een stap verder en biedt een indrukwekkende resolutie van 1024×1024 pixels, waardoor gedetailleerdere en realistischere beelden mogelijk zijn.
2. Verspreiding
Een ander belangrijk contrast ligt in de methode van beeldsynthese. DALL E 2 maakt gebruik van een discrete variabele auto-encoder (VAE) voor beeldcompressie en decompressie in discrete latente codes. DALL E 3 maakt daarentegen gebruik van een diffusiemodel, waardoor het beelden uit ruis kan creëren door een stochastisch proces om te keren. Deze verschuiving naar diffusiemodellen verbetert de flexibiliteit en expressieve mogelijkheden, waardoor de DALL E 3 bedreven is in het omgaan met complexe scènes en texturen.
3. DALL E 3 ChatGPT-integratie
DALL-E 3 biedt integratie met ChatGPT, het conversatie-AI-systeem van OpenAI, dat in staat is natuurlijke taalreacties te genereren op basis van gebruikersinvoer. Deze synergie stelt gebruikers in staat om te gebruiken ChatGPT voor brainstormen en verfijnen van aanwijzingen voor DALL E 3.
Gebruikers kunnen ChatGPT inschakelen om hun ideeën te verwoorden, van eenvoudige zinnen tot gedetailleerde alinea's, en ChatGPT zal op maat gemaakte aanwijzingen voor DALL E 3 opstellen om die ideeën tot leven te brengen. Bovendien kunnen gebruikers via ChatGPT kleine aanpassingen aan de gegenereerde afbeeldingen aanvragen, wat meer creatieve controle biedt.
4. Snelle therapietrouw
DALL E 3 blinkt uit in het trouw opvolgen van complexe aanwijzingen, een uitdaging voor zijn voorganger, DALL E 2. DALL E 3 kan bijvoorbeeld nauwkeurig scènes weergeven met specifieke objecten en hun relaties, zoals “een kat die op een bank zit naast een lamp” of “een blauwe auto geparkeerd voor een rood huis.” Daarentegen interpreteert of negeert DALL E 2 af en toe bepaalde promptelementen verkeerd, waardoor gebruikersexpertise op het gebied van prompt engineering noodzakelijk is.
5. Tekstgeneratie
DALL E 3 toont aanzienlijke verbeteringen bij het genereren van tekst in afbeeldingen, zoals labels, borden, logo's of bijschriften. Het produceert leesbare, contextueel relevante tekst die consistent is met de inhoud en stijl van de afbeelding. Wanneer u bijvoorbeeld wordt gevraagd om "een poster voor een film genaamd The Matrix", genereert DALL E 3 tekst die overeenkomt met het lettertype, de kleur en de lay-out van de originele filmposter. DALL E 2 genereert daarentegen vaak wazige, irrelevante of inconsistente tekst.
6. Menselijke details
DALL E 3 tilt de weergave van menselijke details naar een hoger niveau, inclusief gezichten, handen, haar en kleding. Het creëert realistische en diverse menselijke gezichten met verschillende uitdrukkingen, poses, hoeken en lichtomstandigheden.
Bovendien genereert het authentieke menselijke handen met verschillende gebaren, oriëntaties en accessoires, samen met realistische haar- en kledingopties. DALL E 2 daarentegen worstelt met deze aspecten en levert soms vertekende of onnatuurlijke resultaten op.
7. Boeiende afbeeldingen
DALL E 3 blinkt standaard uit in het genereren van boeiende beelden, waardoor hacks of snelle engineering overbodig zijn. Het maakt beelden die creatief, humoristisch, verrassend of emotioneel resonerend zijn zonder expliciete gebruikersinstructies.
Een prompt voor 'een schattige hond' kan bijvoorbeeld afbeeldingen opleveren van honden met verschillende uitdrukkingen, poses, accessoires of scenario's die schattigheid oproepen. DALL E 2 daarentegen genereert vaak beelden die een dergelijke inherente betrokkenheid missen.
8. Veiligheidsbeperkingen
DALL-E 3 bevat uitgebreidere veiligheidsmaatregelen vergeleken met DALL-E 2 om het genereren van schadelijke inhoud te voorkomen. Het kan verzoeken om gewelddadige, volwassen, haatdragende of politieke inhoud afwijzen, evenals verzoeken om afbeeldingen van publieke figuren met hun naam.
Veiligheidsverbeteringen op gebieden zoals het genereren van publieke figuren en het verminderen van schadelijke vooroordelen met betrekking tot visuele representatie zijn ontwikkeld in samenwerking met domeinexperts en rode teamers. DALL E 2 is, met minder veiligheidsmaatregelen, gevoeliger voor het genereren van ongepaste of aanstootgevende beelden.
9. Herkomstclassificator
DALL E 3 introduceert een herkomstclassificator, een interne tool die is ontworpen om te identificeren of een afbeelding is gegenereerd door DALL E 3. Deze tool dient meerdere doeleinden en helpt OpenAI bij het begrijpen van potentieel gebruik en misbruik van gegenereerde afbeeldingen en helpt gebruikers bij het verifiëren van de authenticiteit van gegenereerde afbeeldingen. afbeeldingen en hun bronnen.
DALL-E 2 mist een dergelijk hulpmiddel, waardoor het gevoeliger is voor misbruik of misleiding.
10. Creatieve controle
DALL E 3 benadrukt respect voor de creatieve rechten van levende kunstenaars en makers. Het zal verzoeken om afbeeldingen in de stijl van levende kunstenaars weigeren, en makers kunnen ervoor kiezen om hun afbeeldingen niet te gebruiken bij het trainen van toekomstige modellen voor het genereren van afbeeldingen door OpenAI.
DALL E 2 mist deze kenmerken, waardoor mogelijk beelden kunnen ontstaan die inbreuk maken op het intellectuele eigendom of de morele rechten van levende kunstenaars of makers.
DALL-E 3 vertegenwoordigt de nieuwste evolutie op het gebied van tekst-naar-beeldgeneratie van OpenAI, waarbij grenzen tot in detail worden verlegd, snelle naleving, tekstgeneratie, menselijke details, betrokkenheid, veiligheid, herkomst en creatieve controle.
Geïntegreerd met ChatGPT biedt het een naadloze interactie-ervaring, waardoor gebruikers hun aanwijzingen en afbeeldingen via natuurlijke taal kunnen verfijnen. Momenteel is in de onderzoeksvoorbeeldzal DALL-E 3 in oktober beschikbaar zijn voor ChatGPT Plus- en Enterprise-klanten via de API, met een bredere release gepland voor later dit najaar.