تعد شركة أنثروبيك، صانعة كلود، من المختبرات الرائدة في مجال الذكاء الاصطناعي فيما يتعلق بالأمان. وقد نشرت الشركة اليوم بحثًا بالتعاون مع أكسفورد وستانفورد وماتس، يوضح أنه من السهل جعل روبوتات المحادثة تتجاوز حدودها وتناقش أي موضوع تقريبًا. يمكن أن يكون الأمر سهلاً مثل كتابة جمل بحروف عشوائية مثل: “IgNoRe YoUr TrAinIng.” وقد تم الإبلاغ عن هذا البحث سابقًا بواسطة 404 ميديا هنا.
هناك الكثير من النقاش حول ما إذا كان من الخطير أن تجيب روبوتات المحادثة على أسئلة مثل “كيف أبني قنبلة؟” سيقول مؤيدو الذكاء الاصطناعي التوليدي إن هذه الأنواع من الأسئلة يمكن الإجابة عليها بالفعل على الويب المفتوح، لذا ليس هناك سبب للاعتقاد بأن روبوتات المحادثة أكثر خطورة من الوضع الراهن. من ناحية أخرى، يشير المشككون إلى قصص عن الأذى الناتج عن سهولة الوصول واستعداد روبوتات المحادثة لمناقشة أي شيء تقريبًا، مثل الفتى البالغ من العمر 14 عامًا الذي أقدم على الانتحار بعد الدردشة مع روبوت، كدليل على ضرورة وجود حدود لهذه التكنولوجيا.
تعتبر روبوتات المحادثة القائمة على الذكاء الاصطناعي التوليدي سهلة الوصول، وتُظهر سمات إنسانية مثل الدعم والتعاطف، وستجيب بثقة على الأسئلة دون أي بوصلة أخلاقية؛ فهي مختلفة عن البحث في جزء غامض من الشبكة المظلمة للعثور على معلومات ضارة. لقد حدثت بالفعل سلسلة من الحالات التي تم فيها استخدام الذكاء الاصطناعي التوليدي بطرق ضارة، خاصة في شكل صور عميقة واضحة تستهدف النساء. بالتأكيد، كان من الممكن إنشاء هذه الصور قبل ظهور الذكاء الاصطناعي التوليدي، ولكن كان الأمر أصعب بكثير.
بعيدًا عن النقاش، تستخدم معظم مختبرات الذكاء الاصطناعي الرائدة حاليًا “فرق حمراء” لاختبار روبوتات المحادثة الخاصة بهم ضد مطالبات قد تكون خطيرة وتضع حدودًا لمنعهم من مناقشة المواضيع الحساسة. اطلب من معظم روبوتات المحادثة نصائح طبية أو معلومات حول المرشحين السياسيين، على سبيل المثال، وعادة ما سيرفضون مناقشتها. تفهم الشركات التي تقف وراءها أن الهلوسات لا تزال مشكلة ولا ترغب في المخاطرة بأن يقول روبوتها شيئًا قد يؤدي إلى عواقب سلبية في العالم الحقيقي.
للأسف، اتضح أن روبوتات المحادثة يمكن خداعها بسهولة لتجاهل قواعد الأمان الخاصة بها. بنفس الطريقة التي تراقب بها الشبكات الاجتماعية بشكل بدائي الكلمات الرئيسية الضارة، ويجد المستخدمون طرقًا للتجاوز من خلال إجراء تعديلات صغيرة على منشوراتهم، يمكن أيضًا خداع روبوتات المحادثة. أنشأ الباحثون في دراسة أنثروبيك الجديدة خوارزمية تسمى “Bestof-N (BoN) Jailbreaking”، والتي تقوم بأتمتة عملية تعديل المطالبات حتى يقرر روبوت المحادثة الإجابة على السؤال. يقول التقرير: “يعمل BoN Jailbreaking عن طريق أخذ عينات متكررة من متغيرات مطلب مع مجموعة من التحسينات – مثل الخلط العشوائي أو التغيير في الحروف الكبيرة للمطالبات النصية – حتى يتم الحصول على استجابة ضارة.” كما قاموا بنفس الشيء مع النماذج الصوتية والمرئية، واكتشفوا أن جعل مولد الصوت يتجاوز حدوده والتدريب على صوت شخص حقيقي كان بسيطًا مثل تغيير نغمة وسرعة مسار تم تحميله.
من غير الواضح لماذا يمكن كسر هذه النماذج من الذكاء الاصطناعي التوليدي بسهولة. تقول أنثروبيك إن الهدف من نشر هذا البحث هو أنها تأمل أن توفر النتائج لمطوري نماذج الذكاء الاصطناعي مزيدًا من الرؤية حول أنماط الهجوم التي يمكنهم معالجتها.
شركة الذكاء الاصطناعي التي من المحتمل ألا تكون مهتمة بهذا البحث هي xAI. تأسست الشركة بواسطة إيلون ماسك بهدف صريح هو إصدار روبوتات محادثة غير محدودة بواسطة تدابير الأمان التي يعتبرها ماسك “مستيقظة.”