أوبنAI تدعي أن نموذجها الجديد وصل إلى مستوى الإنسان في اختبار “الذكاء العام”. ماذا يعني ذلك؟

حقق نموذج جديد من الذكاء الاصطناعي (AI) للتو نتائج تعادل مستوى الإنسان في اختبار مصمم لقياس “الذكاء العام”.

في 20 ديسمبر، سجل نظام OpenAI o3 85% في معيار ARC-AGI، وهو أعلى بكثير من أفضل نتيجة سابقة للذكاء الاصطناعي والتي كانت 55% وبمستوى متوسط درجة الإنسان. كما سجل نتائج جيدة في اختبار رياضيات صعب للغاية.

إن إنشاء ذكاء اصطناعي عام، أو AGI، هو الهدف المعلن لجميع مختبرات بحوث الذكاء الاصطناعي الكبرى. للوهلة الأولى، يبدو أن OpenAI قد أحرزت على الأقل خطوة كبيرة نحو هذا الهدف.

على الرغم من أن الشك لا يزال قائمًا، فإن العديد من الباحثين والمطورين في مجال الذكاء الاصطناعي يشعرون أن شيئًا ما قد تغير. بالنسبة للكثيرين، يبدو أن احتمال تحقيق AGI الآن أكثر واقعية وإلحاحًا وقربًا مما كان متوقعًا. هل هم محقون؟

التعميم والذكاء

لفهم ما تعنيه نتيجة o3، تحتاج إلى فهم ما يتعلق به اختبار ARC-AGI. من الناحية التقنية، هو اختبار لكفاءة “العينات” لنظام الذكاء الاصطناعي في التكيف مع شيء جديد – عدد الأمثلة التي يحتاج النظام لرؤيتها لفهم كيفية عمله.

نظام ذكاء اصطناعي مثل ChatGPT (GPT-4) ليس بكفاءة عالية في العينات. لقد تم “تدريبه” على ملايين من أمثلة النصوص البشرية، مما أدى إلى بناء “قواعد” احتمالية حول أي التركيبات من الكلمات هي الأكثر احتمالًا.

النتيجة جيدة إلى حد ما في المهام الشائعة. لكن أداءه ضعيف في المهام غير الشائعة، لأنه يمتلك بيانات أقل (عدد عينات أقل) عن تلك المهام.

حتى تتمكن أنظمة الذكاء الاصطناعي من التعلم من عدد قليل من الأمثلة والتكيف بكفاءة أعلى في العينة، فإنها ستستخدم فقط في وظائف متكررة للغاية وتلك التي يكون فيها الفشل العرضي مقبولًا.

تعتبر القدرة على حل مشكلات غير معروفة أو جديدة بدقة من عينات بيانات محدودة تعرف باسم القدرة على التعميم. ويعتبر ذلك عنصرًا ضروريًا، بل أساسيًا، من الذكاء.

الشبكات والأنماط

اختبار معيار ARC-AGI يقيس التكيف الفعال مع العينات باستخدام مشاكل صغيرة على شكل شبكة مثل المثال أدناه. يحتاج الذكاء الاصطناعي إلى اكتشاف النمط الذي يحول الشبكة على اليسار إلى الشبكة على اليمين.

Several patterns of coloured squares on a black grid background.
مثال على مهمة من اختبار معيار ARC-AGI.
جائزة ARC

كل سؤال يقدم ثلاثة أمثلة للتعلم منها. ثم يحتاج نظام الذكاء الاصطناعي إلى اكتشاف القواعد التي “تعمم” من الأمثلة الثلاثة إلى المثال الرابع.

هذه تشبه كثيرًا اختبارات الذكاء التي قد تتذكرها من المدرسة.

قواعد ضعيفة وتكيف

لا نعرف بالضبط كيف قامت OpenAI بذلك، لكن النتائج تشير إلى أن نموذج o3 قابل للتكيف بشكل كبير. من خلال عدد قليل من الأمثلة، يجد قواعد يمكن تعميمها.

لتحديد نمط، يجب ألا نقوم بأي افتراضات غير ضرورية، أو نكون أكثر تحديدًا مما يجب. في النظرية، إذا كنت تستطيع تحديد “أضعف” القواعد التي تفعل ما تريده، فإنك قد وفرت أقصى قدرة على التكيف مع المواقف الجديدة.

ماذا نعني بالقواعد الأضعف؟ التعريف الفني معقد، لكن القواعد الأضعف عادة ما يمكن وصفها بعبارات أبسط.

في المثال أعلاه، قد يكون التعبير باللغة الإنجليزية البسيطة للقانون شيئًا مثل: “أي شكل يحتوي على خط بارز سينتقل إلى نهاية ذلك الخط و’يغطّي’ أي أشكال أخرى تتداخل معه.”

البحث عن سلاسل التفكير؟

بينما لا نعرف كيف حققت OpenAI هذه النتيجة حتى الآن، يبدو من غير المحتمل أنهم قاموا بتحسين نظام o3 عمدًا للعثور على القواعد الضعيفة. ومع ذلك، للنجاح في مهام ARC-AGI يجب أن يكونوا قد اكتشفوها.

نعلم أن OpenAI بدأت بنسخة عامة من نموذج o3 (الذي يختلف عن معظم النماذج الأخرى، لأنه يمكن أن يقضي مزيدًا من الوقت “يفكر” في الأسئلة الصعبة) ثم قامت بتدريبه خصيصًا لاختبار ARC-AGI.

يعتقد الباحث الفرنسي في الذكاء الاصطناعي فرانسوا شولي، الذي صمم المعيار، أنه o3 يبحث في “سلاسل التفكير” المختلفة التي تصف خطوات لحل المهمة. ثم سيختار “الأفضل” وفقًا لبعض القواعد المحددة بشكل فضفاض، أو “الحدسيات”.

سيكون هذا “غير مختلف” عن كيفية بحث نظام AlphaGo التابع لجوجل عبر سلاسل مختلفة من التحركات لهزيمة بطل العالم في لعبة Go.

يمكنك التفكير في هذه السلاسل من التفكير كبرامج تناسب الأمثلة. بالطبع، إذا كانت مثل الذكاء الاصطناعي الذي يلعب Go، فإنها تحتاج إلى حدسية، أو قاعدة فضفاضة، لتحديد أي برنامج هو الأفضل.

قد يكون هناك الآلاف من البرامج المختلفة التي تبدو صالحة بنفس القدر. قد تكون تلك الحدسية “اختر الأضعف” أو “اختر الأبسط”.

ومع ذلك، إذا كانت مثل AlphaGo، فإنهم ببساطة جعلوا ذكاءً اصطناعيًا ينشئ حدسية. كانت هذه هي العملية بالنسبة لـ AlphaGo. قامت جوجل بتدريب نموذج لتقييم تسلسلات مختلفة من التحركات على أنها أفضل أو أسوأ من غيرها.

ما زلنا لا نعرفه

السؤال هو، هل هذا أقرب حقًا إلى AGI؟ إذا كان هذا هو كيفية عمل o3، فمن الممكن أن يكون النموذج الأساسي ليس أفضل بكثير من النماذج السابقة.

قد لا تكون المفاهيم التي يتعلمها النموذج من اللغة أكثر ملاءمة للتعميم مما كانت عليه من قبل. بدلاً من ذلك، قد نكون فقط نشهد “سلسلة تفكير” أكثر قابلية للتعميم تم العثور عليها من خلال الخطوات الإضافية لتدريب حدسية متخصصة لهذا الاختبار. الدليل، كالمعتاد، سيكون في النتائج.

تقريبًا كل شيء يتعلق بـ o3 لا يزال غير معروف. لقد حدت OpenAI من الكشف إلى عدد قليل من العروض الإعلامية والاختبارات المبكرة لعدد قليل من الباحثين، والمختبرات، ومؤسسات أمان الذكاء الاصطناعي.

سيتطلب فهم الإمكانيات الحقيقية لـ o3 عملًا مكثفًا، بما في ذلك التقييمات، وفهم توزيع قدراته، وكم مرة يفشل وكم مرة ينجح.

عندما يتم إصدار o3 أخيرًا، سيكون لدينا فكرة أفضل بكثير عما إذا كان قابلًا للتكيف تقريبًا مثل الإنسان العادي.

إذا كان الأمر كذلك، فقد يكون له تأثير اقتصادي ضخم وثوري، مما يمهد الطريق لعصر جديد من الذكاء المتسارع الذي يقوم بتحسين نفسه. سنحتاج إلى معايير جديدة لـ AGI نفسه واعتبار جاد حول كيفية إدارة ذلك.

إذا لم يكن الأمر كذلك، فستظل هذه نتيجة مثيرة للإعجاب. ومع ذلك، ستبقى الحياة اليومية كما هي.The Conversation

مايكل تيموثي بينيت، طالب دكتوراه، كلية الحوسبة، الجامعة الوطنية الأسترالية وإيليا بيرييه، زميل بحث، مركز ستانفورد للتكنولوجيا الكمية المسؤولة، جامعة ستانفورد

تم إعادة نشر هذه المقالة من The Conversation بموجب ترخيص المشاع الإبداعي. اقرأ المقال الأصلي.

المصدر

  • ذات صلة

    ترامب يلغي صفقة موديرنا بقيمة 766 مليون دولار للقاح إنفلونزا الطيور

    أعلنت إدارة ترامب عن إلغاء عقد بقيمة 766 مليون دولار مع شركة موديرنا لتطوير لقاح للإنفلونزا الطيور البشرية، كما أعلنت الشركة يوم الأربعاء. وقعت إدارة بايدن العام الماضي صفقة بقيمة…

    بعد تزييف يوتيوب، قد تقوم تقنية فيو 3 من جوجل بتحويل ألعاب الفيديو إلى فوضى

    أطلق جوجل مولد الفيديو الجديد بقوة، ولا أدري عنكم، لكن خوارزميتي مليئة بأمثلة لما يمكنه (وأحياناً لا يمكنه) فعله. لقد تناولت بالفعل كيف يقوم بتزوير محتوى يوتيوب السطحي، و ألعاب…

    اترك تعليقاً

    لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

    فاتك

    ترامب يلغي صفقة موديرنا بقيمة 766 مليون دولار للقاح إنفلونزا الطيور

    • مايو 31, 2025
    ترامب يلغي صفقة موديرنا بقيمة 766 مليون دولار للقاح إنفلونزا الطيور

    بعد تزييف يوتيوب، قد تقوم تقنية فيو 3 من جوجل بتحويل ألعاب الفيديو إلى فوضى

    • مايو 31, 2025
    بعد تزييف يوتيوب، قد تقوم تقنية فيو 3 من جوجل بتحويل ألعاب الفيديو إلى فوضى

    سماعة سونوس بيم تحقق أدنى سعر على الإطلاق، الوقت المثالي لترقية تلفازك أو سماعتك

    • مايو 30, 2025
    سماعة سونوس بيم تحقق أدنى سعر على الإطلاق، الوقت المثالي لترقية تلفازك أو سماعتك

    الغش باستخدام الذكاء الاصطناعي خرج عن السيطرة في المدارس الأمريكية لدرجة أن دفاتر الزرقاء تعود من جديد

    • مايو 30, 2025
    الغش باستخدام الذكاء الاصطناعي خرج عن السيطرة في المدارس الأمريكية لدرجة أن دفاتر الزرقاء تعود من جديد