اكتشف الاختلافات العشرة الرئيسية بينهما دال ه 2 وDALL E 3، أحدث طراز لتحويل النص إلى صورة من OpenAIوكيف تؤثر هذه التطورات على جودة الصورة وتنوعها.
جدول المحتويات
DALL-E هي شبكة عصبية قدمتها شركة OpenAI في يناير 2021، وهي قادرة على إنشاء صور من أوصاف النص. بمرور الوقت، قامت OpenAI بتحسين هذه التقنية، مما أدى إلى إصدار DALL E 2، الذي تم إصداره في أبريل 2022، وأحدث DALL E 3، الذي تم إطلاقه في سبتمبر 2023.
في هذه المقالة، سنتعمق في الفروق الأساسية بين DALL E 2 وDALL E 3، وكيف تؤثر هذه الاختلافات على جودة الصور التي يتم إنشاؤها وتنوعها.
1. قرار
التباين الأكثر وضوحًا بين DALL E 2 وDALL E 3 هو دقة الصور التي ينتجونها. يقوم DALL E 2 بإنشاء صور بدقة 512 × 512 بكسل، وهو تحسن كبير مقارنة بدقة DALL-E الأصلية التي تبلغ 256 × 256 بكسل. ومع ذلك، فإن DALL E 3 يأخذ الأمر إلى أبعد من ذلك، حيث يقدم دقة مذهلة تبلغ 1024 × 1024 بكسل، مما يتيح صورًا أكثر تفصيلاً وواقعية.
2. النشر
هناك تناقض مهم آخر يكمن في طريقة تركيب الصورة. يستخدم DALL E 2 جهاز تشفير تلقائي تبايني منفصل (VAE) لضغط الصور وإلغاء ضغطها إلى رموز كامنة منفصلة. في المقابل، يستخدم DALL E 3 نموذج الانتشار، مما يسمح له بإنشاء صور من الضوضاء عن طريق عكس العملية العشوائية. يعمل هذا التحول إلى نماذج الانتشار على تعزيز المرونة والقدرات التعبيرية، مما يجعل DALL E 3 بارعًا في التعامل مع المشاهد والأنسجة المعقدة.
3. تكامل DALL E 3 ChatGPT
يتميز DALL-E 3 بالتكامل مع ChatGPT، نظام الذكاء الاصطناعي للمحادثة الخاص بـ OpenAI، القادر على توليد استجابات اللغة الطبيعية بناءً على مدخلات المستخدم. هذا التآزر يمكّن المستخدمين من الاستفادة شات جي بي تي لطرح الأفكار وتنقيح المطالبات لـ DALL E 3.
يمكن للمستخدمين إشراك ChatGPT لتوضيح أفكارهم، بدءًا من الجمل البسيطة وحتى الفقرات التفصيلية، وسيقوم ChatGPT بصياغة مطالبات مخصصة لـ DALL E 3 لإضفاء الحيوية على هذه الأفكار. علاوة على ذلك، يمكن للمستخدمين طلب تعديلات طفيفة على الصور التي تم إنشاؤها عبر ChatGPT، مما يوفر تحكمًا إبداعيًا أكبر.
4. الالتزام الفوري
تتفوق DALL E 3 في الالتزام الدقيق بالمطالبات المعقدة، وهو ما يشكل تحديًا لسابقتها، DALL E 2. على سبيل المثال، يمكن لـ DALL E 3 أن تصور بدقة مشاهد بأشياء محددة وعلاقاتها، مثل "قطة تجلس على أريكة بجوار مصباح" أو "سيارة زرقاء متوقفة أمام منزل أحمر." في المقابل، يخطئ DALL E 2 أحيانًا في تفسير بعض العناصر السريعة أو يتجاهلها، مما يستلزم خبرة المستخدم في الهندسة السريعة.
5. توليد النص
يعرض DALL E 3 تحسينات كبيرة في إنشاء نص داخل الصور، مثل الملصقات أو العلامات أو الشعارات أو التسميات التوضيحية. إنه ينتج نصًا واضحًا وذو صلة بالسياق ومتسقًا مع محتوى الصورة وأسلوبها. على سبيل المثال، عند مطالبتك بـ "ملصق لفيلم يسمى The Matrix"، يقوم DALL E 3 بإنشاء نص مطابق للخط واللون والتخطيط لملصق الفيلم الأصلي. في المقابل، غالبًا ما يُنشئ DALL E 2 نصًا ضبابيًا أو غير ذي صلة أو غير متناسق.
6. التفاصيل البشرية
يعمل DALL E 3 على رفع مستوى عرض التفاصيل البشرية، بما في ذلك الوجوه واليدين والشعر والملابس. إنه يخلق وجوهًا بشرية واقعية ومتنوعة بتعابير وأوضاع وزوايا وظروف إضاءة مختلفة.
بالإضافة إلى ذلك، فإنها تولد أيديًا بشرية أصلية بإيماءات واتجاهات وإكسسوارات مختلفة، إلى جانب خيارات شعر وملابس واقعية. في المقابل، يعاني DALL E 2 من هذه الجوانب، مما يؤدي في بعض الأحيان إلى نتائج مشوهة أو غير طبيعية.
7. الصور الجذابة
يبرز DALL E 3 بشكل افتراضي في إنشاء صور جذابة، مما يلغي الحاجة إلى الاختراق أو الهندسة السريعة. فهو يصنع صورًا إبداعية أو فكاهية أو مفاجئة أو ذات صدى عاطفي دون تعليمات صريحة من المستخدم.
على سبيل المثال، يمكن أن تؤدي المطالبة بـ "كلب لطيف" إلى ظهور صور للكلاب ذات تعبيرات أو أوضاع أو ملحقات أو سيناريوهات مختلفة تثير الجاذبية. في المقابل، يقوم DALL E 2 غالبًا بإنشاء صور تفتقر إلى مثل هذا التفاعل المتأصل.
8. تخفيف السلامة
يشتمل DALL-E 3 على إجراءات تخفيف أكثر شمولاً للسلامة مقارنةً بـ DALL-E 2 لمنع توليد محتوى ضار. ويمكنه رفض طلبات المحتوى العنيف أو البالغين أو الكراهية أو المحتوى السياسي، بالإضافة إلى طلبات صور الشخصيات العامة بالاسم.
تم تطوير تحسينات السلامة في مجالات مثل تكوين الشخصيات العامة وتخفيف التحيزات الضارة المتعلقة بالتمثيل المرئي بالتعاون مع خبراء المجال وأعضاء الفريق الأحمر. يكون DALL E 2، مع وجود تدابير أمان أقل، أكثر عرضة لإنشاء صور غير لائقة أو مسيئة.
9. مصنف المصدر
يقدم DALL E 3 مصنف المصدر، وهو أداة داخلية مصممة لتحديد ما إذا تم إنشاء الصورة بواسطة DALL E 3. تخدم هذه الأداة أغراضًا متعددة، حيث تساعد OpenAI في فهم الاستخدامات والإساءات المحتملة للصور التي تم إنشاؤها ومساعدة المستخدمين في التحقق من صحة الصور التي تم إنشاؤها. الصور ومصادرها.
يفتقر DALL-E 2 إلى مثل هذه الأداة، مما يجعله أكثر عرضة لسوء الاستخدام أو الخداع.
10. التحكم الإبداعي
يؤكد DALL E 3 على احترام الحقوق الإبداعية للفنانين والمبدعين الأحياء. سيتم رفض طلبات الصور بأسلوب الفنانين الأحياء، ويمكن للمبدعين إلغاء استخدام صورهم في تدريب نماذج توليد الصور المستقبلية بواسطة OpenAI.
يفتقر DALL E 2 إلى هذه الميزات، مما قد يؤدي إلى إنشاء صور تنتهك الملكية الفكرية أو الحقوق الأخلاقية للفنانين أو المبدعين الأحياء.
يمثل DALL-E 3 أحدث تطور في إنشاء تحويل النص إلى صورة من OpenAI، مما يدفع الحدود بالتفصيل، والالتزام الفوري، وإنشاء النص، والتفاصيل البشرية، والمشاركة، والسلامة، والمصدر، والتحكم الإبداعي.
متكامل مع ChatGPT، فهو يوفر تجربة تفاعلية سلسة، مما يتيح للمستخدمين تحسين مطالباتهم وصورهم من خلال اللغة الطبيعية. حاليا، في معاينة البحوث، سيكون DALL-E 3 متاحًا لعملاء ChatGPT Plus وEnterprise عبر واجهة برمجة التطبيقات (API) في أكتوبر، مع التخطيط لإصدار أوسع في وقت لاحق من هذا الخريف.