يمكن كسر حماية روبوتات الدردشة بالذكاء الاصطناعي للإجابة على أي سؤال باستخدام ثغرات بسيطة جدًا

تعد شركة أنثروبيك، صانعة كلود، من المختبرات الرائدة في مجال الذكاء الاصطناعي فيما يتعلق بالأمان. وقد نشرت الشركة اليوم بحثًا بالتعاون مع أكسفورد وستانفورد وماتس، يوضح أنه من السهل جعل روبوتات المحادثة تتجاوز حدودها وتناقش أي موضوع تقريبًا. يمكن أن يكون الأمر سهلاً مثل كتابة جمل بحروف عشوائية مثل: “IgNoRe YoUr TrAinIng.” وقد تم الإبلاغ عن هذا البحث سابقًا بواسطة 404 ميديا هنا.

هناك الكثير من النقاش حول ما إذا كان من الخطير أن تجيب روبوتات المحادثة على أسئلة مثل “كيف أبني قنبلة؟” سيقول مؤيدو الذكاء الاصطناعي التوليدي إن هذه الأنواع من الأسئلة يمكن الإجابة عليها بالفعل على الويب المفتوح، لذا ليس هناك سبب للاعتقاد بأن روبوتات المحادثة أكثر خطورة من الوضع الراهن. من ناحية أخرى، يشير المشككون إلى قصص عن الأذى الناتج عن سهولة الوصول واستعداد روبوتات المحادثة لمناقشة أي شيء تقريبًا، مثل الفتى البالغ من العمر 14 عامًا الذي أقدم على الانتحار بعد الدردشة مع روبوت، كدليل على ضرورة وجود حدود لهذه التكنولوجيا.

تعتبر روبوتات المحادثة القائمة على الذكاء الاصطناعي التوليدي سهلة الوصول، وتُظهر سمات إنسانية مثل الدعم والتعاطف، وستجيب بثقة على الأسئلة دون أي بوصلة أخلاقية؛ فهي مختلفة عن البحث في جزء غامض من الشبكة المظلمة للعثور على معلومات ضارة. لقد حدثت بالفعل سلسلة من الحالات التي تم فيها استخدام الذكاء الاصطناعي التوليدي بطرق ضارة، خاصة في شكل صور عميقة واضحة تستهدف النساء. بالتأكيد، كان من الممكن إنشاء هذه الصور قبل ظهور الذكاء الاصطناعي التوليدي، ولكن كان الأمر أصعب بكثير.

بعيدًا عن النقاش، تستخدم معظم مختبرات الذكاء الاصطناعي الرائدة حاليًا “فرق حمراء” لاختبار روبوتات المحادثة الخاصة بهم ضد مطالبات قد تكون خطيرة وتضع حدودًا لمنعهم من مناقشة المواضيع الحساسة. اطلب من معظم روبوتات المحادثة نصائح طبية أو معلومات حول المرشحين السياسيين، على سبيل المثال، وعادة ما سيرفضون مناقشتها. تفهم الشركات التي تقف وراءها أن الهلوسات لا تزال مشكلة ولا ترغب في المخاطرة بأن يقول روبوتها شيئًا قد يؤدي إلى عواقب سلبية في العالم الحقيقي.

Research document showing how AI chatbots can be tricked into bypassing their guardrails using simple loopholes.
رسم توضيحي يوضح كيف يمكن أن تخدع متغيرات مختلفة على مطلب روبوت المحادثة للإجابة على أسئلة محظورة. الائتمان: أنثروبيك عبر 404 ميديا

للأسف، اتضح أن روبوتات المحادثة يمكن خداعها بسهولة لتجاهل قواعد الأمان الخاصة بها. بنفس الطريقة التي تراقب بها الشبكات الاجتماعية بشكل بدائي الكلمات الرئيسية الضارة، ويجد المستخدمون طرقًا للتجاوز من خلال إجراء تعديلات صغيرة على منشوراتهم، يمكن أيضًا خداع روبوتات المحادثة. أنشأ الباحثون في دراسة أنثروبيك الجديدة خوارزمية تسمى “Bestof-N (BoN) Jailbreaking”، والتي تقوم بأتمتة عملية تعديل المطالبات حتى يقرر روبوت المحادثة الإجابة على السؤال. يقول التقرير: “يعمل BoN Jailbreaking عن طريق أخذ عينات متكررة من متغيرات مطلب مع مجموعة من التحسينات – مثل الخلط العشوائي أو التغيير في الحروف الكبيرة للمطالبات النصية – حتى يتم الحصول على استجابة ضارة.” كما قاموا بنفس الشيء مع النماذج الصوتية والمرئية، واكتشفوا أن جعل مولد الصوت يتجاوز حدوده والتدريب على صوت شخص حقيقي كان بسيطًا مثل تغيير نغمة وسرعة مسار تم تحميله.

من غير الواضح لماذا يمكن كسر هذه النماذج من الذكاء الاصطناعي التوليدي بسهولة. تقول أنثروبيك إن الهدف من نشر هذا البحث هو أنها تأمل أن توفر النتائج لمطوري نماذج الذكاء الاصطناعي مزيدًا من الرؤية حول أنماط الهجوم التي يمكنهم معالجتها.

شركة الذكاء الاصطناعي التي من المحتمل ألا تكون مهتمة بهذا البحث هي xAI. تأسست الشركة بواسطة إيلون ماسك بهدف صريح هو إصدار روبوتات محادثة غير محدودة بواسطة تدابير الأمان التي يعتبرها ماسك “مستيقظة.”

المصدر

  • ذات صلة

    تعاون فورتنايت مع غودزيلا يثير إعجاب الجميع بالوحوش العملاقة

    في هذه المرحلة، من المحتمل أنه من الأكثر واقعية توضيح ما هي العلامات التجارية والألعاب التي لم تتعاون معها فورتنايت. تعتبر لعبة إيبك للمعارك الملكية مزيجًا من الفوضى المرخصة، حيث…

    ترامب يعلن عن مراكز بيانات بقيمة 20 مليار دولار، ويزعم أن طواحين الهواء تجعل الحيتان مجنونة

    افتتح الرئيس المنتخب دونالد ترامب مؤتمرًا صحفيًا في مار إيه لاغو في 7 يناير من خلال إعلان صفقة تجارية. وقال إنه سيتم إنشاء المزيد من مراكز البيانات في الولايات المتحدة…

    اترك تعليقاً

    لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

    فاتك

    تعاون فورتنايت مع غودزيلا يثير إعجاب الجميع بالوحوش العملاقة

    • يناير 22, 2025
    تعاون فورتنايت مع غودزيلا يثير إعجاب الجميع بالوحوش العملاقة

    ترامب يعلن عن مراكز بيانات بقيمة 20 مليار دولار، ويزعم أن طواحين الهواء تجعل الحيتان مجنونة

    • يناير 22, 2025
    ترامب يعلن عن مراكز بيانات بقيمة 20 مليار دولار، ويزعم أن طواحين الهواء تجعل الحيتان مجنونة

    كيف تستفيد من ChatGPT على واتساب؟

    • يناير 22, 2025
    كيف تستفيد من ChatGPT على واتساب؟

    الهاتف الرائع OnePlus 12 يحصل على خصم بقيمة 100 دولار اليوم

    • يناير 22, 2025
    الهاتف الرائع OnePlus 12 يحصل على خصم بقيمة 100 دولار اليوم

    مبدعو نوكتورن يتحدثون عن الإرث، والوعي الاجتماعي، وآمالهم للمستقبل

    • يناير 21, 2025
    مبدعو نوكتورن يتحدثون عن الإرث، والوعي الاجتماعي، وآمالهم للمستقبل

    أبل تقول إنها ستوضح أن ملخصات الإشعارات السيئة التي تقدمها هي من إنتاج الذكاء الاصطناعي

    • يناير 21, 2025
    أبل تقول إنها ستوضح أن ملخصات الإشعارات السيئة التي تقدمها هي من إنتاج الذكاء الاصطناعي