Aradaki 10 temel farkı keşfedin VE 2'DEN ve en son metinden görüntüye dönüştürme modeli olan DALL E 3 OpenAIve bu gelişmelerin görüntü kalitesi ve çeşitliliğini nasıl etkilediği.
İçindekiler
DALL-E, OpenAI tarafından Ocak 2021'de tanıtılan, metin açıklamalarından görseller oluşturabilen bir sinir ağıdır. Zamanla OpenAI bu teknolojiyi geliştirdi ve bunun sonucunda Nisan 2'de piyasaya sürülen DALL E 2022 ve Eylül 3'te piyasaya sürülen daha yeni DALL E 2023 ortaya çıktı.
Bu makalede DALL E 2 ile DALL E 3 arasındaki temel farkları ve bu farklılıkların oluşturulan görüntülerin kalitesini ve çeşitliliğini nasıl etkilediğini inceleyeceğiz.
1. çözüm
DALL E 2 ile DALL E 3 arasındaki en dikkat çekici fark, ürettikleri görüntülerin çözünürlüğüdür. DALL E 2, orijinal DALL-E'nin 512x512 pikseline göre önemli bir gelişme olan 256x256 piksel çözünürlükte görüntüler üretir. Ancak DALL E 3, etkileyici 1024x1024 piksel çözünürlük sunarak daha ayrıntılı ve gerçekçi görüntülere olanak tanıyarak bunu daha da ileriye taşıyor.
2. Difüzyon
Bir diğer önemli farklılık ise görüntü sentezi yönteminde yatmaktadır. DALL E 2, görüntü sıkıştırma ve ayrı gizli kodlara açma için ayrı bir değişken otomatik kodlayıcı (VAE) kullanır. Buna karşılık DALL E 3, stokastik bir süreci tersine çevirerek gürültüden görüntüler oluşturmasına olanak tanıyan bir yayılma modeli kullanır. Difüzyon modellerine yapılan bu geçiş, esnekliği ve ifade yeteneklerini geliştirerek DALL E 3'ü karmaşık sahneler ve dokularla baş etme konusunda usta hale getiriyor.
3. DALL E 3 ChatGPT Entegrasyonu
DALL-E 3, OpenAI'nin etkileşimli yapay zeka sistemi olan ve kullanıcı girişine dayalı olarak doğal dil yanıtları oluşturabilen ChatGPT ile entegrasyona sahiptir. Bu sinerji, kullanıcıların ChatGPT DALL E 3 için beyin fırtınası yapmak ve istemleri iyileştirmek için.
Kullanıcılar, basit cümlelerden ayrıntılı paragraflara kadar fikirlerini ifade etmek için ChatGPT'yi kullanabilir ve ChatGPT, bu fikirleri hayata geçirmek için DALL E 3'e özel istemler oluşturacaktır. Üstelik kullanıcılar, daha fazla yaratıcı kontrol sunan ChatGPT aracılığıyla oluşturulan görüntüler üzerinde küçük ayarlamalar talep edebilir.
4. Anında Uyum
DALL E 3, selefi DALL E 2 için bir meydan okuma olan karmaşık istemlere sadakatle bağlı kalma konusunda üstündür. Örneğin, DALL E 3, "bir kanepenin yanındaki kanepede oturan bir kedi" gibi belirli nesnelerin ve bunların ilişkilerinin olduğu sahneleri doğru bir şekilde tasvir edebilir. lamba” veya “kırmızı bir evin önüne park edilmiş mavi bir araba”. Buna karşılık, DALL E 2 zaman zaman belirli istem öğelerini yanlış yorumluyor veya göz ardı ediyor, bu da istem mühendisliğinde kullanıcı uzmanlığını gerektiriyor.
5. Metin Oluşturma
DALL E 3, görsellerin içinde etiketler, işaretler, logolar veya başlıklar gibi metinlerin oluşturulmasında önemli gelişmeler sergiliyor. Görüntü içeriği ve stiliyle tutarlı, okunaklı, bağlamsal olarak alakalı metinler üretir. Örneğin, "The Matrix adlı bir filmin posteri" istendiğinde DALL E 3, orijinal film posterinin yazı tipi, rengi ve düzeniyle eşleşen bir metin oluşturur. Bunun aksine, DALL E 2 sıklıkla bulanık, alakasız veya tutarsız metinler üretir.
6. İnsan Detayları
DALL E 3 yüzler, eller, saçlar ve giysiler dahil olmak üzere insan ayrıntılarının görüntülenmesini iyileştirir. Çeşitli ifadeler, pozlar, açılar ve aydınlatma koşullarıyla gerçekçi ve çeşitli insan yüzleri yaratır.
Ayrıca gerçekçi saç ve giyim seçeneklerinin yanı sıra farklı jestler, yönelimler ve aksesuarlarla özgün insan elleri de yaratıyor. Bunun tersine, DALL E 2 bu yönlerle mücadele ediyor, bazen çarpık veya doğal olmayan sonuçlar üretiyor.
7. İlgi Çekici Görseller
DALL E 3, varsayılan olarak ilgi çekici görüntüler oluşturma, korsanlığa veya hızlı mühendislik ihtiyacını ortadan kaldırma konusunda öne çıkıyor. Açık kullanıcı talimatları olmadan yaratıcı, esprili, şaşırtıcı veya duygusal açıdan yankı uyandıran görüntüler oluşturur.
Örneğin, "sevimli bir köpek" istemi, çeşitli ifadelere, pozlara, aksesuarlara veya sevimliliği çağrıştıran senaryolara sahip köpeklerin resimlerini ortaya çıkarabilir. Bunun tersine, DALL E 2 genellikle bu türden doğal bir ilginin bulunmadığı görüntüler üretir.
8. Güvenlik Önlemleri
DALL-E 3, zararlı içerik oluşumunu önlemek için DALL-E 2'ye kıyasla daha kapsamlı güvenlik önlemleri içerir. Şiddet içeren, yetişkinlere yönelik, nefret dolu veya siyasi içerik taleplerinin yanı sıra kamuya mal olmuş kişilerin görsellerine ilişkin talepleri de reddedebilir.
Kamuya mal olmuş kişilerin oluşturulması ve görsel temsille ilgili zararlı önyargıların azaltılması gibi alanlardaki güvenlik iyileştirmeleri, alan uzmanları ve kırmızı ekip üyeleriyle işbirliği içinde geliştirilmiştir. Daha az güvenlik önlemiyle DALL E 2, uygunsuz veya rahatsız edici görüntüler oluşturmaya daha yatkındır.
9. Kaynak Sınıflandırıcısı
DALL E 3, bir görüntünün DALL E 3 tarafından oluşturulup oluşturulmadığını belirlemek için tasarlanmış dahili bir araç olan kaynak sınıflandırıcıyı sunar. Bu araç, OpenAI'nin oluşturulan görüntülerin potansiyel kullanımlarını ve kötüye kullanımlarını anlamasında ve oluşturulan görüntülerin orijinalliğini doğrulamasında OpenAI'ye yardımcı olarak birçok amaca hizmet eder. görseller ve kaynakları.
DALL-E 2'de böyle bir araç bulunmaması, onu kötüye kullanıma veya aldatmaya karşı daha duyarlı hale getiriyor.
10. Yaratıcı Kontrol
DALL E 3 yaşayan sanatçıların ve yaratıcıların yaratıcı haklarına saygıyı vurgular. Yaşayan sanatçıların tarzındaki görsellere yönelik talepler reddedilecek ve yaratıcılar, görsellerinin OpenAI tarafından gelecekteki görsel oluşturma modellerinin eğitiminde kullanılmasını devre dışı bırakabilecek.
DALL E 2 bu özelliklerden yoksundur ve potansiyel olarak yaşayan sanatçıların veya yaratıcıların fikri mülkiyetini veya manevi haklarını ihlal eden görüntüler üretir.
DALL-E 3, ayrıntılarda sınırları zorlayan, hızlı uyum, metin oluşturma, insan ayrıntıları, katılım, güvenlik, kaynak ve yaratıcı kontrol ile OpenAI'den metinden görüntüye oluşturmadaki en son evrimi temsil eder.
ChatGPT ile entegre olarak kusursuz bir etkileşim deneyimi sunarak kullanıcıların istemlerini ve görsellerini doğal dil aracılığıyla hassaslaştırmasına olanak tanır. Şu anda, araştırma önizlemesiDALL-E 3, Ekim ayında API aracılığıyla ChatGPT Plus ve Enterprise müşterilerine sunulacak ve bu sonbaharın sonlarında daha geniş bir sürüm planlanacak.