أعلنت شركة OpenAI نموذجًا جديدًا رئيسيًا للذكاء الاصطناعي التوليدي يوم الاثنين وأطلقت عليه اسم GPT-4o - حرف "o" يرمز إلى "أومني"، مشيرًا إلى قدرة النموذج على التعامل مع النص والكلام والفيديو. من المقرر إطلاق GPT-4o "تدريجيًا" عبر منتجات الشركة للمطورين والمستهلكين في الأسابيع القليلة القادمة.
\nقالت مديرة تقنية معلومات OpenAI ميرا موراتي إن GPT-4o يوفر "مستوى GPT-4" من الذكاء ولكنه يُحسن من قدرات GPT-4 عبر مجموعات الوسائط والوسائط المتعددة.
\nقالت موراتي خلال عرض بثه OpenAI في مكاتبها في سان فرانسيسكو يوم الاثنين: \"يحسب GPT-4o عبر الصوت والنص والرؤية، وهذا أمر مهم للغاية، لأننا ننظر إلى مستقبل التفاعل بيننا وبين الآلات\".
\nنموذج GPT-4 Turbo، الذي كان يُعد سابقًا لنموذج OpenAI الرئيسي والأكثر تقدمًا، تم تدريبه على مزيج من الصور والنصوص ويمكنه تحليل الصور والنصوص لأداء مهام مثل استخراج النصوص من الصور أو حتى وصف محتوى تلك الصور. لكن GPT-4o يضيف الكلام إلى التقنية.
\nهل هذا يمكن؟ تنوع من الأمور.
\n\nيحسن GPT-4o تجربة ChatGPT المدعومة بالذكاء الاصطناعي في OpenAI بشكل كبير. لقد قدمت البلاغة قديمًا وضعًا صوتيًا يقوم بنقل ردود الروبوت الدردشة باستخدام نموذج النص إلى كلام، ولكن GPT-4o يعزز هذا، مما يتيح للمستخدمين التفاعل مع ChatGPT بشكل أفضل مثل المساعد.
\nعلى سبيل المثال، يمكن للمستخدمين أن يسألوا ChatGPT الذي تتولى تشغيله GPT-4o سؤالًا ويقاطع ChatGPT أثناء الرد. يوفر النموذج استجابة "فورية"، ويمكنه حتى التعامل مع التفاصيل الدقيقة في صوت المستخدم، مما يؤدي إلى توليد أصوات بـ \"مجموعة من الأنماط العاطفية متنوعة\" (بما في ذلك الغناء).
\nكما يقوم GPT-4o بترقية قدرات الرؤية لدى ChatGPT. بإجراء صورة - أو شاشة سطح المكتب - يمكن لـ ChatGPT الآن الإجابة بسرعة على الأسئلة ذات الصلة، من مواضيع تتراوح من \"ماذا يحدث في هذا الرمز البرمجي؟\" إلى \"ما هي علامة القميص التي يرتديها هذا الشخص؟\".
\n\nستتطور هذه الميزات أكثر في المستقبل، وتقول موراتي إنه في الوقت الحالي يمكن لـ GPT-4o أن ينظر إلى صورة لقائمة طعام بلغة مختلفة ويترجمها، وفي المستقبل يمكن للنموذج أن يسمح لـ ChatGPT بـ \"مشاهدة\" لعبة رياضية مباشرة وشرح القواعد لك.
\nوتقول موراتي: \"نحن نعلم أن هذه النماذج أصبحت أكثر تعقيدًا، ولكن نريد أن يصبح تجربة التفاعل أكثر طبيعية وسهولة، وعليك عدم التركيز على واجهة المستخدم على الإطلاق، بل التركيز فقط على التعاون مع ChatGPT\". \"في السنوات القليلة الماضية، كنا نركز كثيرًا على تحسين ذكاء هذه النماذج ... ولكن هذه هي المرة الأولى التي نقدم فيها خطوة كبيرة تجاه سهولة الاستخدام\".
\nيقول OpenAI إن GPT-4o أكثر لغاتية، مع أداء محسن في حوالي 50 لغة. وفي API OpenAI وخدمة Microsoft Azure OpenAI، يُطلق الشركة على أن GPT-4o سريع بمقدار مرتين وأرخص بنصف سعر ولديه حدود سرعة أعلى من GPT-4 Turbo، بحسب تعبير الشركة.
\nحاليًا، الصوت ليس جزءًا من واجهة برمجة التطبيقات GPT-4o لجميع العملاء. تقول OpenAI، باستشهادها بمخاطر السوء الاستخدام، إنها تخطط أولاً لإطلاق دعم لقدرات الصوت الجديدة لـ GPT-4o إلى \"مجموعة صغيرة من الشركاء الموثوقين\" خلال الأسابيع القادمة.
\nيتوفر GPT-4o في الطبقة المجانية في ChatGPT اعتبارًا من اليوم ولمشتركي خطط OpenAI الرئيسية ChatGPT Plus و Team التي تأتي بـ \"5x أعلى\" حدود للرسائل. (تلاحظ OpenAI أن ChatGPT ستنتقل تلقائيًا إلى GPT-3.5، نموذج أقدم وأقل قدرات، عندما يصطدم المستخدمون بحد السرعة.) ستصل تجربة صوت ChatGPT المحسنة التي تدعمها GPT-4o بشكل التجريبي لمستخدمي Plus في الشهر القادم تقريبًا، بالإضافة إلى خيارات تركز على الشركات.
\nفي أخبار ذات صلة، أعلنت OpenAI أنها ستطلق واجهة مستخدم محسنة لـ ChatGPT على الويب بشاشة رئيسية جديدة وتصميم رسائل أكثر "محادثية"، وإصدار سطح المكتب لـ ChatGPT لنظام التشغيل macOS الذي يتيح للمستخدمين طرح أسئلة عبر اختصار لوحة المفاتيح أو التقاط لقطات شاشة ومناقشتها. سيحصل مستخدمو ChatGPT Plus على الوصول إلى التطبيق أولاً، اعتبارًا من اليوم، وستصل نسخة لنظام التشغيل Windows فيما بعد في العام الحالي.
\nفي مكان آخر، تتوفر متجر GPT، مكتبة OpenAI لأدوات الإنشاء للروبوتات الدردشة الطرفية الثالثة المبنية على نماذجها الذكية، الآن لمستخدمي الطبقة المجانية من ChatGPT. ويمكن للمستخدمين الطبقة المجانية الاستفادة من ميزات ChatGPT التي كانت تكون مقفلة بتكلفة ما، مثل قدرة الذاكرة التي تتيح لـ ChatGPT \"تذكّر\" التفضيلات للتفاعلات المستقبلية، ورفع الملفات والصور، والبحث عن إجابات على الأسئلة الجديدة في الوقت المناسب.
\nنحن نطلق العنان لنشرة الذكاء الاصطناعي! سجل هنا لبدء تلقيها في صناديق بريدك الإلكتروني في 5 يونيو.
\n