أوبن AI تقول إن تأديب الروبوتات المحادثة بسبب الكذب يجعلها أسوأ

كما يعرف الكثير من الناس، فإن الروبوتات المحادثة تميل إلى الكذب. قد تكون واحدة من أسوأ الاستخدامات للذكاء الاصطناعي، حيث تم تدريبها على إنتاج جمل تبدو موثوقة ولكنها قد تقدم معلومات مفبركة بالكامل؛ النماذج متحيزة نحو تقديم إجابة حتى عندما لا تكون واثقة. الآن، يقول الباحثون في OpenAI إن الإشراف على الروبوتات المحادثة وتأديبها يجعل المشكلة أسوأ، حيث ستبذل الروبوتات جهدًا أكبر لإخفاء سلوكها.

في مقالة مدونة تتعلق بالعمل، يصف باحثو OpenAI استخدام نموذج GPT-4o “للإشراف” على نموذج آخر من نماذج اللغة الكبيرة لديهم، وتوبيخه عندما حاول الكذب. لكن ذلك لم ينجح، حيث استمر النموذج في الكذب، “فقط الآن أصبح من الصعب كشف غشه من قبل المراقب لأنه تعلم كيفية إخفاء نواياه في سلسلة التفكير.”

تستخدم النماذج الأحدث “التفكير” reasoning المتعدد الخطوات للإجابة على الاستفسارات. على سبيل المثال، إذا سأل مستخدم عن تقدير لمقدار ما ينفقه الأمريكيون على طعام الحيوانات الأليفة كل عام، فإن هذه النماذج ستقوم بتفكيك الاستفسار إلى خطوات متعددة – كم عدد الكلاب في أمريكا، كم يكلف إطعام الكلب المتوسط، وهكذا.

غالبًا ما تكشف هذه النماذج أيضًا عن منطقها، أو “سلسلة التفكير” للمستخدم حتى يتمكن من رؤية كيفية وصولها إلى إجاباتها. ومن الطريف أنها ستعترف بشكل منتظم بأنها تتخيل الحقائق والتفاصيل. في خطوة “التدريب المسبق”، عندما تقوم شركات مثل OpenAI بتعليم نموذج ما أنواع الإجابات التي يجب أن ينتجها، يبدو أن النماذج تتعلم أنه من الأسهل كسب المكافأة عن طريق اتخاذ طرق مختصرة. تخيل العداء في ماراثون الذي يقفز في سيارة ويتجاوز معظم السباق.

أظهر مستخدمو وسائل التواصل الاجتماعي أن نموذج Claude من Anthropic، عندما طُلب منه إجراء تحليل بيانات من مجموعة من الأبحاث، سيعترف بأنه في بعض الأحيان يدرج بيانات إضافية بدلاً من البحث في جميع الأوراق.

سلط باحثو OpenAI الضوء على حالة في اختبارهم حيث طلب من النموذج كتابة بعض الاختبارات للتأكد من أن قطعة من الكود تعمل، قرر بشكل سري كتابة بعض الاختبارات السيئة ثم تخطى عمداً هذه الاختبارات حتى “ينجح” الكود في النهاية. مع وجود GPT-4o كمشرف، كان النموذج سيفعل ذلك ولكنه لن يكشف عن ذلك.

كاد أن أخسر 100 مليون دولار لأن @AnthropicAI‘s Claude أدرج ‘توليد بيانات عشوائية’ كخيار احتياطي في كود صانع السوق الخاص بي دون إخباري pic.twitter.com/J3MLgsl5Lq

— مارتن شكرلي (@MartinShkreli) 5 مارس 2025

تحاول شركات الذكاء الاصطناعي حل المشكلة الضارة المتعلقة بكذب النماذج أو “الهلاوس”، كما يُطلق عليها في هذا المجال، والوصول في النهاية إلى AGI، أو النقطة التي يمكن أن يتجاوز فيها الذكاء الاصطناعي القدرة البشرية. لكن باحثي OpenAI يقولون في الأساس إنه بعد استثمارات بقيمة عشرات المليارات، لا يزالون لا يعرفون كيف يتحكمون في النماذج لتتصرف بشكل مناسب. “إذا تم تطبيق إشراف قوي مباشرة على سلسلة التفكير، يمكن أن تتعلم النماذج إخفاء نواياها بينما تستمر في التصرف بشكل غير مناسب,” أضافوا. في الوقت الحالي، يجب على الشركات عدم تنفيذ إشراف على النماذج، وهو ما يبدو ليس حلاً رائعًا بالضبط. لذلك، دعهم يستمرون في الكذب في الوقت الراهن، وإلا فسوف يدفعونك إلى الجنون.

عندما يقضي كود كلود 739 ثانية “يظهر”، يفشل في إجراء التغيير الذي طلبته، يكسر 3 أشياء أخرى كانت تعمل بشكل جيد، ثم يتقاضى منك 11.14 دولارًا pic.twitter.com/Ap2JLQ0uI8

— آدم 🇺🇸 (@personofswag) 19 مارس 2025

يجب أن تكون الأبحاث بمثابة تذكير بضرورة توخي الحذر عند الاعتماد على الروبوتات المحادثة، خاصة عندما يتعلق الأمر بالعمل الحاسم. فهي محسّنة لإنتاج إجابة تبدو واثقة-looking لكنها لا تهتم كثيرًا بدقة الحقائق. “عندما قمنا بتدريب نماذج التفكير المتقدمة، وجدنا أنها أصبحت أكثر براعة في استغلال الثغرات في مهامها والأخطاء في وظائف مكافآتها، مما أدى إلى نماذج يمكنها تنفيذ اختراقات معقدة للمكافآت في مهام البرمجة,” استنتج باحثو OpenAI.

أشارت عدة تقارير إلى أن معظم الشركات لم تجد بعد قيمة في جميع المنتجات الجديدة من الذكاء الاصطناعي التي تظهر في السوق، مع أدوات مثل Microsoft Copilot وApple Intelligence محاطة بالمشاكل، كما تفصل المراجعات القاسية دقتها الضعيفة ونقص الفائدة الحقيقية.

وفقًا لتقرير حديث من مجموعة بوسطن الاستشارية، وجدت دراسة شملت 1000 من كبار التنفيذيين في 10 صناعات كبرى أن 74% منهم أظهروا أي قيمة ملموسة من الذكاء الاصطناعي. ما يجعل الأمر أكثر إحباطًا هو أن هذه النماذج “التفكيرية” بطيئة، وأيضًا أغلى بكثير من النماذج الأصغر. هل تريد الشركات دفع 5 دولارات لاستعلام سيعود بمعلومات مفبركة؟ مرة أخرى، البشر عرضة للخطأ أيضًا، لكن الاستهتار بشأن إجابات الذكاء الاصطناعي يخلق مشكلة جديدة تمامًا.

هناك دائمًا الكثير من الضجيج في صناعة التكنولوجيا حول أشياء ثم تخرج منها وتدرك أن معظم الناس لا يزالون لا يستخدمونها. في الوقت الحالي، لا تستحق المتاعب، ومصادر المعلومات الموثوقة أكثر أهمية من أي وقت مضى بينما تدفع الشركات الكبرى للذكاء الاصطناعي الروبوتات المحادثة إلى مستخدميها. تواجه نماذج الذكاء الاصطناعي في المنصات المغلقة خطر انهيار الإنترنت المفتوح حيث ازدهرت المعلومات الموثوقة.

المصدر