خطأ في المسح أنشأ مصطلح علمي مزيف—الآن الذكاء الاصطناعي لن يسمح له بالموت

لقد قامت الذكاء الاصطناعي بتجميع البيانات من المستودع الشاسع لمقالات المجلات على الإنترنت، مما أدى إلى إنتاج خطأ تسلل إلى العشرات من الأوراق البحثية، والآن اكتشف فريق من الباحثين مصدر هذه المشكلة.

إنها السؤال الذي يطرحه الجميع: ما هو “الميكروسكوب الإلكتروني النباتي”؟ كما اتضح، فإن هذا المصطلح ليس له معنى.

يبدو المصطلح تقنيًا—وربما حتى موثوقًا—لكنه لا يعدو كونه هراءً تمامًا. ومع ذلك، فإنه يظهر في الأوراق العلمية، واستجابات الذكاء الاصطناعي، وحتى في المجلات التي تمت مراجعتها من قبل الأقران. فكيف أصبح هذا المصطلح الخفي جزءًا من معرفتنا الجماعية؟

كما أفادت Retraction Watch في فبراير، قد يكون المصطلح قد استُخرج من أعمدة نصية متوازية في ورقة بحثية عام 1959 حول جدران الخلايا البكتيرية. يبدو أن الذكاء الاصطناعي قد قفز بين الأعمدة، حيث قرأ سطرين غير مرتبطين كنص متصل واحد، وفقًا لأحد المحققين.

النص المشوش هو حالة نموذجية لما يسميه الباحثون “الأحفورة الرقمية”: خطأ يتم حفظه في طبقات بيانات تدريب الذكاء الاصطناعي ويظهر بشكل غير متوقع في المخرجات المستقبلية. تعتبر الأحافير الرقمية “شبه مستحيلة الإزالة من مستودعات معرفتنا”، وفقًا لفريق من الباحثين في مجال الذكاء الاصطناعي الذين تتبعوا الحالة الغريبة لـ “الميكروسكوب الإلكتروني النباتي”، كما ورد في The Conversation.

بدأت عملية التحجر بخطأ بسيط، كما أفاد الفريق. في الخمسينيات، تم نشر ورقتين في مراجعات بكتريولوجية تم مسحها ضوئيًا وتحويلها إلى صيغة رقمية.

لقد أربك تنسيق الأعمدة كما ظهرت في تلك المقالات برنامج الرقمنة، مما أدى إلى دمج كلمة “نباتي” من عمود مع “إلكترون” من عمود آخر. هذا الاندماج هو ما يسمى “عبارة مشوهة”—عبارة خفية عن العين المجردة، ولكنها واضحة للبرمجيات ونماذج اللغة التي “تقرأ” النص.

كما وثقت Retraction Watch، بعد حوالي 70 عامًا من نشر الأوراق البيولوجية، بدأ “الميكروسكوب الإلكتروني النباتي” في الظهور في الأوراق البحثية من إيران.

هناك، قد تكون غلطات الترجمة الفارسية قد ساهمت في إعادة إدخال المصطلح: الكلمات المستخدمة لـ “نباتي” و”مسح” تختلف بنقطة واحدة فقط في الكتابة الفارسية—والمسح الإلكتروني هو شيء حقيقي جدًا. قد يكون هذا كل ما تطلبه الأمر لتسلل المصطلح الخاطئ مرة أخرى إلى السجلات العلمية.

ولكن حتى لو بدأ الخطأ بترجمة بشرية، فقد كرره الذكاء الاصطناعي عبر الإنترنت، وفقًا للفريق الذي وصف نتائجه في The Conversation. قام الباحثون بتحفيز نماذج الذكاء الاصطناعي بمقتطفات من الأوراق الأصلية، وفعلاً، أكملت نماذج الذكاء الاصطناعي العبارات بشكل موثوق بمصطلح الهراء، بدلاً من العبارات العلمية الصحيحة. لم تنتج النماذج القديمة، مثل GPT-2 من OpenAI وBERT، الخطأ، مما أعطى الباحثين مؤشرًا على موعد حدوث تلوث بيانات تدريب النماذج.

“لقد وجدنا أيضًا أن الخطأ يستمر في النماذج اللاحقة بما في ذلك GPT-4o وClaude 3.5 من Anthropic”، كتب الفريق في منشورهم. “هذا يشير إلى أن المصطلح غير المنطقي قد تم تثبيته الآن بشكل دائم في قواعد بيانات الذكاء الاصطناعي.”

حدد الفريق مجموعة بيانات CommonCrawl—وهي مستودع ضخم من صفحات الإنترنت المجمعة—كمصدر محتمل لهذا المصطلح المؤسف الذي تم التقاطه في النهاية بواسطة نماذج الذكاء الاصطناعي. ولكن بقدر ما كان من الصعب العثور على مصدر الأخطاء، فإن القضاء عليها أصعب بكثير. تتكون CommonCrawl من بيتابايت من البيانات، مما يجعل من الصعب على الباحثين خارج أكبر شركات التكنولوجيا معالجة القضايا على نطاق واسع. هذا بالإضافة إلى أن شركات الذكاء الاصطناعي الرائدة معروفة بمقاومتها لمشاركة بيانات تدريبها.

لكن شركات الذكاء الاصطناعي ليست وحدها في المشكلة—فالناشرون الجشعون هم مشكلة أخرى. كما أفادت Retraction Watch، حاول عملاق النشر Elsevier تبرير معقولية “الميكروسكوب الإلكتروني النباتي” قبل أن يقوم في النهاية بإصدار تصحيح.

شهدت مجلة Frontiers فضيحة خاصة بها العام الماضي، عندما اضطرت إلى سحب مقال يتضمن صورًا غير منطقية تم إنشاؤها بواسطة الذكاء الاصطناعي للأعضاء التناسلية للفئران ومسارات بيولوجية. في وقت سابق من هذا العام، سلط فريق من الباحثين في مراجعة المعلومات المضللة بمدرسة هارفارد كينيدي الضوء على تفاقم مشكلة ما يسمى بـ “علم القمامة” على Google Scholar، والذي يعتبر في الأساس صيدًا غير علمي يتم تجميعه بواسطة المحرك.

يمتلك الذكاء الاصطناعي حالات استخدام حقيقية عبر العلوم، لكن نشره الضخم على نطاق واسع مليء بمخاطر المعلومات المضللة، سواء للباحثين أو للجمهور المهتم بالعلوم. بمجرد أن تصبح الآثار الخاطئة للرقمنة متجذرة في سجل الأحافير على الإنترنت، تشير الأبحاث الحديثة إلى أنها تكون صعبة للغاية في القضاء عليها.

المصدر