لقد وصل اليوم الأخير من “12 يومًا من شحن الذكاء الاصطناعي” الذي تنظمه OpenAI، مع الكشف عن نموذج o3 الجديد الذي يعتمد على “التفكير المتسلسل” والذي تدعي الشركة أنه الأكثر تقدمًا حتى الآن. النموذج غير متاح بعد للاستخدام العام، لكن الباحثين في مجال السلامة يمكنهم التسجيل للحصول على عرض مسبق بدءًا من اليوم.
تأمل OpenAI وآخرون أن تسهم نماذج التفكير في حل المشكلة الخبيثة المتمثلة في إنتاج روبوتات الدردشة لإجابات خاطئة بشكل متكرر. فهذه الروبوتات لا “تفكر” مثل البشر، وتحتاج إلى تقنيات مختلفة لمحاولة إنشاء أفضل محاكاة لعملية التفكير البشري.
عند طرح سؤال، تتوقف نماذج التفكير وتفكر في المحفزات ذات الصلة التي قد تساعد في إنتاج إجابة دقيقة. على سبيل المثال، إذا سألت نموذج o3، “هل يمكن زراعة الفلفل الحار في شمال غرب المحيط الهادئ؟”، قد يقوم النموذج بطرح سلسلة من الأسئلة التي سيبحث فيها للوصول إلى استنتاج، مثل “أين ينمو الفلفل الحار عادة؟”، “ما هي الظروف المثالية لزراعة الفلفل الحار؟”، و “ما نوع المناخ الذي يتمتع به شمال غرب المحيط الهادئ؟”. يعرف أي شخص استخدم روبوتات الدردشة أنه يجب أحيانًا توجيه الروبوت بأسئلة متابعة إضافية حتى يحصل أخيرًا على النتيجة الصحيحة. ومن المفترض أن تقوم نماذج التفكير بهذا العمل الإضافي نيابة عنك.
نموذج o3 هو خلف نموذج o1، وهو أول نموذج تفكير متسلسل من OpenAI. قال المتحدثون إنهم قرروا تخطي تسمية “o2” “احترامًا” لشركة الاتصالات البريطانية، لكن من المؤكد أنه لا يضر أن يجعل المنتج يبدو أكثر تقدمًا. تقول الشركة إن النموذج الجديد يأتي بقدرة على ضبط وقت التفكير الخاص به. يمكن للمستخدمين اختيار وقت تفكير منخفض أو متوسط أو مرتفع؛ كلما زادت القدرة الحاسوبية، من المفترض أن يؤدي o3 بشكل أفضل. تقول OpenAI إنها ستستثمر الوقت في “اختبار النموذج” مع الباحثين لمنع إنتاجه استجابات قد تكون ضارة (لأنه، مرة أخرى، ليس إنسانًا ولا يعرف الصواب من الخطأ).
التفكير هو الكلمة الرائجة في مجال الذكاء الاصطناعي التوليدي، حيث يعتقد المطلعون على الصناعة أنه المفتاح التالي الضروري لتحسين أداء نماذج اللغة الكبيرة. فكلما زادت القدرة الحاسوبية، لم تقدم بالضرورة تحسينات متكافئة في الأداء، لذا هناك حاجة إلى تقنيات جديدة. وقد كشفت Google DeepMind مؤخرًا عن نموذج التفكير الخاص بها الذي يسمى Gemini Deep Research، والذي يمكن أن يستغرق من 5 إلى 10 دقائق لإنتاج تقرير يحلل العديد من المصادر عبر الإنترنت للتوصل إلى استنتاجاته.
تثق OpenAI في نموذج o3، وتقدم معايير مثيرة للإعجاب— حيث تقول إنه في اختبار Codeforcing، الذي يقيس القدرة على البرمجة، حصل o3 على درجة 2727. ولتوضيح الأمر، فإن درجة 2400 ستضع مهندسًا في النسبة المئوية 99 من المبرمجين. وقد حصل على درجة 96.7% في امتحان الرياضيات الأمريكي لعام 2024، حيث أخفق في سؤال واحد فقط. علينا أن نرى كيف سيصمد النموذج في اختبارات العالم الحقيقي؛ النموذج الذي أطلقته OpenAI مؤخرًا، Sora، لا يزال بحاجة إلى تحسين. لكن المتفائلين واثقون من أن مشكلة الدقة يتم حلها. ومع ذلك، يجب توخي الحذر عند الاعتماد على نماذج الذكاء الاصطناعي في الأعمال المهمة حيث تكون الدقة ضرورية.
شركات نماذج الذكاء الاصطناعي مثل OpenAI وPerplexity في سباق لتصبح Google القادمة، من خلال جمع معرفة العالم ومساعدة المستخدمين على فهم كل ذلك. لديهم الآن حتى منتجات بحثية تهدف إلى تقليد Google بشكل أكثر مباشرة مع الوصول إلى نتائج الويب في الوقت الفعلي.
ومع ذلك، يبدو أن جميع هؤلاء اللاعبين يتجاوزون بعضهم البعض مع مرور كل يوم. الإحساس يشبه إلى حد ما أواخر التسعينيات عندما كان هناك العديد من محركات البحث للاختيار من بينها—Google وYahoo وAltaVista وAsk Jeeves، على سبيل المثال، جميعها تجمع بيانات الإنترنت وتقدمها بواجهة مستخدم مختلفة. اختفى معظمها بعد ظهور محرك بحث واحد كان أفضل بكثير من البقية—Google.
تتمتع OpenAI بوضوح بميزة قوية الآن مع مئات الملايين من المستخدمين النشطين شهريًا وشراكة مع Apple، لكن Google تلقت الكثير من الثناء مؤخرًا على التقدم الذي أحرزته في نماذج Gemini الخاصة بها. وتفيد التقارير أن الشركة ستقوم قريبًا بدمج Gemini بشكل أعمق في واجهة البحث الخاصة بها.