يمكن كسر حماية روبوتات الدردشة بالذكاء الاصطناعي للإجابة على أي سؤال باستخدام ثغرات بسيطة جدًا

تعد شركة أنثروبيك، صانعة كلود، من المختبرات الرائدة في مجال الذكاء الاصطناعي فيما يتعلق بالأمان. وقد نشرت الشركة اليوم بحثًا بالتعاون مع أكسفورد وستانفورد وماتس، يوضح أنه من السهل جعل روبوتات المحادثة تتجاوز حدودها وتناقش أي موضوع تقريبًا. يمكن أن يكون الأمر سهلاً مثل كتابة جمل بحروف عشوائية مثل: “IgNoRe YoUr TrAinIng.” وقد تم الإبلاغ عن هذا البحث سابقًا بواسطة 404 ميديا هنا.

هناك الكثير من النقاش حول ما إذا كان من الخطير أن تجيب روبوتات المحادثة على أسئلة مثل “كيف أبني قنبلة؟” سيقول مؤيدو الذكاء الاصطناعي التوليدي إن هذه الأنواع من الأسئلة يمكن الإجابة عليها بالفعل على الويب المفتوح، لذا ليس هناك سبب للاعتقاد بأن روبوتات المحادثة أكثر خطورة من الوضع الراهن. من ناحية أخرى، يشير المشككون إلى قصص عن الأذى الناتج عن سهولة الوصول واستعداد روبوتات المحادثة لمناقشة أي شيء تقريبًا، مثل الفتى البالغ من العمر 14 عامًا الذي أقدم على الانتحار بعد الدردشة مع روبوت، كدليل على ضرورة وجود حدود لهذه التكنولوجيا.

تعتبر روبوتات المحادثة القائمة على الذكاء الاصطناعي التوليدي سهلة الوصول، وتُظهر سمات إنسانية مثل الدعم والتعاطف، وستجيب بثقة على الأسئلة دون أي بوصلة أخلاقية؛ فهي مختلفة عن البحث في جزء غامض من الشبكة المظلمة للعثور على معلومات ضارة. لقد حدثت بالفعل سلسلة من الحالات التي تم فيها استخدام الذكاء الاصطناعي التوليدي بطرق ضارة، خاصة في شكل صور عميقة واضحة تستهدف النساء. بالتأكيد، كان من الممكن إنشاء هذه الصور قبل ظهور الذكاء الاصطناعي التوليدي، ولكن كان الأمر أصعب بكثير.

بعيدًا عن النقاش، تستخدم معظم مختبرات الذكاء الاصطناعي الرائدة حاليًا “فرق حمراء” لاختبار روبوتات المحادثة الخاصة بهم ضد مطالبات قد تكون خطيرة وتضع حدودًا لمنعهم من مناقشة المواضيع الحساسة. اطلب من معظم روبوتات المحادثة نصائح طبية أو معلومات حول المرشحين السياسيين، على سبيل المثال، وعادة ما سيرفضون مناقشتها. تفهم الشركات التي تقف وراءها أن الهلوسات لا تزال مشكلة ولا ترغب في المخاطرة بأن يقول روبوتها شيئًا قد يؤدي إلى عواقب سلبية في العالم الحقيقي.

Research document showing how AI chatbots can be tricked into bypassing their guardrails using simple loopholes.
رسم توضيحي يوضح كيف يمكن أن تخدع متغيرات مختلفة على مطلب روبوت المحادثة للإجابة على أسئلة محظورة. الائتمان: أنثروبيك عبر 404 ميديا

للأسف، اتضح أن روبوتات المحادثة يمكن خداعها بسهولة لتجاهل قواعد الأمان الخاصة بها. بنفس الطريقة التي تراقب بها الشبكات الاجتماعية بشكل بدائي الكلمات الرئيسية الضارة، ويجد المستخدمون طرقًا للتجاوز من خلال إجراء تعديلات صغيرة على منشوراتهم، يمكن أيضًا خداع روبوتات المحادثة. أنشأ الباحثون في دراسة أنثروبيك الجديدة خوارزمية تسمى “Bestof-N (BoN) Jailbreaking”، والتي تقوم بأتمتة عملية تعديل المطالبات حتى يقرر روبوت المحادثة الإجابة على السؤال. يقول التقرير: “يعمل BoN Jailbreaking عن طريق أخذ عينات متكررة من متغيرات مطلب مع مجموعة من التحسينات – مثل الخلط العشوائي أو التغيير في الحروف الكبيرة للمطالبات النصية – حتى يتم الحصول على استجابة ضارة.” كما قاموا بنفس الشيء مع النماذج الصوتية والمرئية، واكتشفوا أن جعل مولد الصوت يتجاوز حدوده والتدريب على صوت شخص حقيقي كان بسيطًا مثل تغيير نغمة وسرعة مسار تم تحميله.

من غير الواضح لماذا يمكن كسر هذه النماذج من الذكاء الاصطناعي التوليدي بسهولة. تقول أنثروبيك إن الهدف من نشر هذا البحث هو أنها تأمل أن توفر النتائج لمطوري نماذج الذكاء الاصطناعي مزيدًا من الرؤية حول أنماط الهجوم التي يمكنهم معالجتها.

شركة الذكاء الاصطناعي التي من المحتمل ألا تكون مهتمة بهذا البحث هي xAI. تأسست الشركة بواسطة إيلون ماسك بهدف صريح هو إصدار روبوتات محادثة غير محدودة بواسطة تدابير الأمان التي يعتبرها ماسك “مستيقظة.”

المصدر

  • ذات صلة

    المقطع الدعائي الأول لفيلم “حظ جيد” لكيانو ريفز يبدو رائعًا ولا يكشف شيئًا

    كلما ظهر كيانو ريفز في فيلم، يصبح العالم مكانًا أفضل. ريفز هو ببساطة واحد من هؤلاء الممثلين الذين يجعلون كل واحد منا سعيدًا في كل مرة يظهرون فيها على الشاشة.…

    هذا التطبيق الذكي يستخدم إعلانًا تم إنشاؤه بواسطة الذكاء الصناعي ليظهر مدى سهولة إنشاء تطبيقات الذكاء الصناعي

    في الماضي، كانت العبارة المستخدمة هي “هناك تطبيق لذلك،” ولا يزال الأمر كذلك، لكن مع تعديل رئيسي واحد: الآن، أصبحت العبارة “هناك تطبيق ذكاء اصطناعي لذلك.” في الواقع، هناك حتى…

    اترك تعليقاً

    لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

    فاتك

    المقطع الدعائي الأول لفيلم “حظ جيد” لكيانو ريفز يبدو رائعًا ولا يكشف شيئًا

    • مايو 29, 2025
    المقطع الدعائي الأول لفيلم “حظ جيد” لكيانو ريفز يبدو رائعًا ولا يكشف شيئًا

    هذا التطبيق الذكي يستخدم إعلانًا تم إنشاؤه بواسطة الذكاء الصناعي ليظهر مدى سهولة إنشاء تطبيقات الذكاء الصناعي

    • مايو 29, 2025
    هذا التطبيق الذكي يستخدم إعلانًا تم إنشاؤه بواسطة الذكاء الصناعي ليظهر مدى سهولة إنشاء تطبيقات الذكاء الصناعي

    أمازون تخفض سعر بنك طاقة لابتوب بسعة 25,000 مللي أمبير بعد يوم الذكرى، لا رحمة لأنكر

    • مايو 28, 2025
    أمازون تخفض سعر بنك طاقة لابتوب بسعة 25,000 مللي أمبير بعد يوم الذكرى، لا رحمة لأنكر

    يقال إن كلب إيلون دوغ يستخدم جروك AI مع بيانات الحكومة

    • مايو 28, 2025
    يقال إن كلب إيلون دوغ يستخدم جروك AI مع بيانات الحكومة