OpenAI تدعي أن GPT-4o يتحدث ويرى مثل الإنسان

نعرض لكم متابعينا الكرام أهم وأحدث الأخبار فى المقال الاتي: OpenAI تدعي أن GPT-4o يتحدث ويرى مثل الإنسان - موقع الخليج الان المنشور في الثلاثاء 14 مايو 2024 05:28 مساءً

كشفت OpenAI عن GPT-4o، وهو نموذج جديد تمامًا للذكاء الاصطناعي تقول الشركة إنه أقرب خطوة إلى التفاعل الطبيعي بين الإنسان والحاسوب.

ويقبل النموذج الجديد أي مجموعة من النصوص والصوت والصور بصفتها مدخلات ويمكنه توليد مخرجات بجميع التنسيقات الثلاثة.

كما أنه قادر على تعرف المشاعر وقراءة تعبيرات وجهك، ويتيح لك مقاطعته في منتصف الكلام، وترجمة اللغة المنطوقة في الوقت الفعلي، ويستجيب بسرعة استجابة الإنسان تقريبًا أثناء المحادثات.

وقالت ميرا موراتي، مديرة التكنولوجيا في OpenAI، خلال عرض تقديمي: “الشيء المميز في GPT-4o هو أنه يوفر مستوى ذكاء GPT-4 للجميع، ويشمل ذلك مستخدمينا المجانيين. تعد هذه المرة الأولى التي نخطو فيها خطوة كبيرة إلى الأمام عندما يتعلق الأمر بسهولة الاستخدام”.

وخلال العرض التقديمي،

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

OpenAI قدرة GPT-4o على الترجمة مباشرة بين اللغتين الإنجليزية والإيطالية، مما ساعد أحد الباحثين في حل معادلة خطية في الوقت الفعلي على الورق، وتقديم إرشادات بخصوص التنفس العميق لمدير تنفيذي آخر في OpenAI عن طريق الاستماع إلى أنفاسه.

واجتمع مهندسو OpenAI ومديرة التكنولوجيا حول الهاتف لإظهار الإمكانات الجديدة. وشجعوا المساعد على زيادة التعبير أثناء تأليف قصة قبل النوم، ومن ثم طالبوه فجأة بالتحول إلى صوت آلي، قبل أن يطالبوه باختتام القصة بصوت غنائي.

وفي وقت لاحق، طالبوا المساعد بالنظر إلى ما تراه كاميرا الهاتف والاستجابة لما يظهر عبر الشاشة. وكان المساعد أيضًا قادرًا على المقاطعة أثناء التحدث والرد دون المطالبة المستمرة أثناء عمله بصفته مترجمًا.

وتعد هذه المزايا ترقية كبيرة للوضع الصوتي الحالي في ChatGPT الذي يمكنه الدردشة مع مستخدم مع أن التفاعل محدود جدًا، ولا يمكن مقاطعة الإصدار الحالي أو الاستجابة لما تراه الكاميرا.

ويشير الحرف o في GPT-4o إلى omni، في إشارة إلى إمكانيات النموذج المتعدد الوسائط.

وقالت OpenAI إنها دربت GPT-4o عبر النص والرؤية والصوت، مما يعني أن الشبكة العصبونية تعالج جميع المدخلات والمخرجات.

ويختلف هذا عن النموذجين السابقين للشركة، GPT-3.5 و GPT-4، اللذين سمحا للمستخدمين بطرح الأسئلة عن طريق التحدث، مع تحويل الكلام بعد ذلك إلى نص. وأدى هذا إلى تجريد اللهجة والعاطفة وجعل التفاعلات أبطأ.

وتعمل OpenAI على إتاحة النموذج الجديد للجميع، ويشمل ذلك مستخدمي ChatGPT المجانيين، خلال الأسابيع القليلة المقبلة، كما تصدر أيضًا إصدار سطح المكتب من ChatGPT.

تم

محمد سعد

إبحث فى الموقع