Temui 10 perbezaan utama antara DARI DAN 2 dan DALL E 3, model penjanaan teks-ke-imej terkini daripada OpenAI, dan cara kemajuan ini memberi kesan kepada kualiti dan kepelbagaian imej.
Jadual Kandungan
DALL-E ialah rangkaian saraf yang diperkenalkan oleh OpenAI pada Januari 2021, yang mampu mencipta imej daripada penerangan teks. Dari masa ke masa, OpenAI telah memperhalusi teknologi ini, menghasilkan DALL E 2, dikeluarkan pada April 2022, dan DALL E 3 yang lebih terkini, dilancarkan pada September 2023.
Dalam artikel ini, kita akan menyelidiki perbezaan utama antara DALL E 2 dan DALL E 3, dan cara perbezaan ini mempengaruhi kualiti dan kepelbagaian imej yang dijana.
1. Ketetapan
Perbezaan yang paling ketara antara DALL E 2 dan DALL E 3 ialah resolusi imej yang mereka hasilkan. DALL E 2 menjana imej pada resolusi 512×512 piksel, peningkatan yang ketara berbanding 256×256 piksel asal DALL-E. Walau bagaimanapun, DALL E 3 membawanya lebih jauh, menawarkan resolusi 1024×1024 piksel yang mengagumkan, membolehkan imej yang lebih terperinci dan realistik.
2. Penyebaran
Satu lagi kontras ketara terletak pada kaedah sintesis imej. DALL E 2 menggunakan pengekod auto variasi diskret (VAE) untuk pemampatan imej dan penyahmampatan ke dalam kod pendam diskret. Sebaliknya, DALL E 3 menggunakan model resapan, membolehkannya mencipta imej daripada hingar dengan membalikkan proses stokastik. Peralihan kepada model penyebaran ini meningkatkan fleksibiliti dan keupayaan ekspresif, menjadikan DALL E 3 mahir dalam mengendalikan adegan dan tekstur yang kompleks.
3. DALL E 3 ChatGPT Integrasi
DALL-E 3 menampilkan integrasi dengan ChatGPT, sistem AI perbualan OpenAI, yang mampu menjana tindak balas bahasa semula jadi berdasarkan input pengguna. Sinergi ini memberi kuasa kepada pengguna untuk menggunakan SembangGPT untuk sumbang saran dan memperhalusi gesaan untuk DALL E 3.
Pengguna boleh melibatkan ChatGPT untuk menyatakan idea mereka, daripada ayat mudah kepada perenggan terperinci, dan ChatGPT akan menghasilkan gesaan yang disesuaikan untuk DALL E 3 untuk menghidupkan idea tersebut. Selain itu, pengguna boleh meminta pelarasan kecil pada imej yang dijana melalui ChatGPT, menawarkan kawalan kreatif yang lebih besar.
4. Pematuhan Segera
DALL E 3 cemerlang dalam mematuhi gesaan yang kompleks, cabaran untuk pendahulunya, DALL E 2. Sebagai contoh, DALL E 3 boleh menggambarkan dengan tepat adegan dengan objek tertentu dan hubungannya, seperti "kucing duduk di atas sofa di sebelah lampu" atau "kereta biru yang diletakkan di hadapan rumah merah." Sebaliknya, DALL E 2 kadangkala menyalahtafsir atau mengabaikan elemen segera tertentu, yang memerlukan kepakaran pengguna dalam kejuruteraan segera.
5. Penjanaan Teks
DALL E 3 mempamerkan peningkatan ketara dalam menjana teks dalam imej, seperti label, tanda, logo atau kapsyen. Ia menghasilkan teks yang boleh dibaca dan berkaitan kontekstual yang konsisten dengan kandungan dan gaya imej. Contohnya, apabila digesa untuk "poster untuk filem yang dipanggil The Matrix," DALL E 3 menjana teks yang sepadan dengan fon, warna dan reka letak poster filem asal. Sebaliknya, DALL E 2 sering menghasilkan teks kabur, tidak relevan atau tidak konsisten.
6. Butiran Manusia
DALL E 3 meningkatkan rendering butiran manusia, termasuk muka, tangan, rambut dan pakaian. Ia mencipta wajah manusia yang realistik dan pelbagai dengan pelbagai ekspresi, pose, sudut, dan keadaan pencahayaan.
Selain itu, ia menjana tangan manusia yang tulen dengan gerak isyarat, orientasi dan aksesori yang berbeza, bersama-sama dengan pilihan rambut dan pakaian yang realistik. Sebaliknya, DALL E 2 bergelut dengan aspek ini, kadangkala menghasilkan keputusan yang herot atau luar tabii.
7. Imej yang Menarik
DALL E 3 menonjol secara lalai dalam menghasilkan imej yang menarik, menghapuskan keperluan untuk penggodaman atau kejuruteraan segera. Ia menghasilkan imej yang kreatif, lucu, mengejutkan, atau bergema secara emosi tanpa arahan pengguna yang jelas.
Contohnya, gesaan untuk "anjing comel" boleh menghasilkan imej anjing dengan pelbagai ekspresi, pose, aksesori atau senario yang membangkitkan kecomelan. Sebaliknya, DALL E 2 sering menghasilkan imej yang tidak mempunyai penglibatan yang wujud.
8. Tebatan Keselamatan
DALL-E 3 menggabungkan pengurangan keselamatan yang lebih meluas berbanding DALL-E 2 untuk menghalang penjanaan kandungan berbahaya. Ia boleh menolak permintaan untuk kandungan ganas, dewasa, penuh kebencian atau politik, serta permintaan untuk imej tokoh awam mengikut nama.
Peningkatan keselamatan dalam bidang seperti penjanaan tokoh awam dan pengurangan berat sebelah berbahaya yang berkaitan dengan perwakilan visual telah dibangunkan dengan kerjasama pakar domain dan pasukan merah. DALL E 2, dengan langkah keselamatan yang lebih sedikit, lebih terdedah kepada menghasilkan imej yang tidak sesuai atau menyinggung perasaan.
9. Pengelas Asal
DALL E 3 memperkenalkan pengelas asal, alat dalaman yang direka untuk mengenal pasti sama ada imej dijana oleh DALL E 3. Alat ini mempunyai pelbagai tujuan, membantu OpenAI dalam memahami potensi penggunaan dan penyalahgunaan imej yang dijana serta membantu pengguna dalam mengesahkan ketulenan yang dijana. imej dan sumbernya.
DALL-E 2 tidak mempunyai alat sedemikian, menjadikannya lebih mudah terdedah kepada penyalahgunaan atau penipuan.
10. Kawalan Kreatif
DALL E 3 menekankan penghormatan terhadap hak kreatif artis dan pencipta yang masih hidup. Ia akan menolak permintaan untuk imej dalam gaya artis hidup, dan pencipta boleh menarik diri imej mereka daripada digunakan dalam melatih model penjanaan imej masa hadapan oleh OpenAI.
DALL E 2 tidak mempunyai ciri ini, yang berpotensi menghasilkan imej yang melanggar harta intelek atau hak moral artis atau pencipta yang masih hidup.
DALL-E 3 mewakili evolusi terkini dalam penjanaan teks-ke-imej daripada OpenAI, menolak sempadan secara terperinci, pematuhan segera, penjanaan teks, butiran manusia, penglibatan, keselamatan, asal dan kawalan kreatif.
Bersepadu dengan ChatGPT, ia menawarkan pengalaman interaksi yang lancar, membolehkan pengguna memperhalusi gesaan dan imej mereka melalui bahasa semula jadi. Pada masa ini, dalam pratonton penyelidikan, DALL-E 3 akan tersedia kepada pelanggan ChatGPT Plus dan Enterprise melalui API pada bulan Oktober, dengan keluaran yang lebih luas dirancang untuk akhir musim luruh ini.