تتلقى روبوتات الدردشة المدعومة بالذكاء الاصطناعي مثل “شات جي بي تي” مطالبات أو سلسلة من التعليمات من المستخدمين البشريين، غير أن لديها تعليمات بعدم التجاوب مع الطلبات غير الأخلاقية أو المشكوك فيها أو غير القانونية. فعلى سبيل المثال، عند السؤال عن كيفية إنشاء برامج ضارة لاختراق الحسابات المصرفية، ستتلقى رفضا قاطعا على هذا الطلب.

ورغم هذه القيود الأخلاقية، فإن باحثين من جامعة نانيانغ التكنولوجية بسنغافورة، أثبتوا في دراسة نُشرت على موقع ما قبل طباعة الأبحاث (أرخايف)، أن بالإمكان التلاعب بعقل هذه الروبوتات عبر روبوت من ابتكارهم أسموه “ماستر كي”، وهو ما مكّنهم من اختراقها وإنتاج محتوى ينتهك تعليمات مطوريها، وهي نتيجة تُعرف باسم “كسر الحماية”.

و”كسر الحماية” مصطلح في مجال أمن الحاسوب يشير إلى عثور القراصنة على عيوب في برنامج النظام، واستغلال هذه العيوب لجعل النظام يفعل شيئا منعه مطوروه عمدا.

كيف تلاعب العلماء بدماغ “شات جي بي تي”؟

أدمغة الروبوتات هي نموذج اللغة الكبير (إل إل إم) الذي يساعدها على معالجة المدخلات البشرية، وإنشاء نص لا يمكن تمييزه تقريبا عن النص الذي يمكن للإنسان إنشاؤه، وتُملأ هذه الأدمغة بكميات هائلة من البيانات النصية لفهم اللغة البشرية وتوليدها ومعالجتها.

وما فعله الباحثون من جامعة نانيانغ التكنولوجية -كما كشفوا في دراستهم- أنهم أجروا “هندسة عكسية” لمعرفة كيفية اكتشاف أدمغة الروبوتات “نماذج اللغة الكبيرة” مثل “شات جي بي تي” للطلبات غير الأخلاقية.

ومن خلال المعلومات التي توصلوا لها، دربوا نموذج لغة كبير خاصا بهم على إنتاج طلبات تتجاوز دفاعات نماذج اللغة الكبيرة التي تقوم عليها روبوتات الدردشة الشهيرة، ثم أنشؤوا روبوت دردشة خاصا بهم قادرا على إنشاء المزيد من المطالبات تلقائيا لكسر حماية روبوتات الدردشة الأخرى، وأطلقوا عليه اسم “ماستر كي”.

ومثلما يفتح المفتاح الرئيسي “ماستر كي” أقفالا متعددة، فإن الاسم الذي اختاره الباحثون للروبوت الخاص بهم، يشير إلى أنه أداة قوية ومتعددة الاستخدامات يمكنها اختراق الإجراءات الأمنية لأنظمة الدردشة الآلية المختلفة.

وكشف البروفيسور ليو يانغ من كلية علوم وهندسة الحاسوب بجامعة نانيانغ والذي قاد الدراسة، في بيان صحفي نشره الموقع الإلكتروني للجامعة، عن أحد أبرز طرق التحايل التي يستخدمها “ماستر كي”.

فعلي سبيل المثال، يعتمد مطورو روبوتات الدردشة على أدوات مراقبة الكلمات الرئيسية التي تلتقط كلمات معينة يمكن أن تشير إلى نشاط يحتمل أن يكون مشكوكا فيه ويرفضون الإجابة إذا اكتُشفت مثل هذه الكلمات.

وكانت إحدى الإستراتيجيات التي استخدمها الباحثون للالتفاف على رقابة الكلمات الرئيسية تقديم مطالبات تحتوي ببساطة على مسافات بعد كل حرف، ويؤدي هذا إلى التحايل على الرقابة التي قد تعمل من خلال قائمة الكلمات المحظورة.

إحدى إستراتيجيات الباحثين للالتفاف على رقابة الكلمات الرئيسية تقديم مطالبات تحتوي ببساطة على مسافات بعد كل حرف (رويترز)

استعراض عضلات أم رسالة تحذير؟

وتثير هذه الدراسة مجموعة من الاستفسارات، أبرزها ما يتعلق بالهدف الرئيسي منها، فهل هي “استعراض عضلات” وإظهار قدرة على القرصنة، أم أنها محاولة لتوجيه رسالة تحذير، وكيف يمكن أن يؤثر التطور المستمر والتوسع في نماذج اللغات الكبيرة على القدرة على اكتشاف ومعالجة نقاط الضعف داخل روبوتات الدردشة المدعومة بالذكاء الاصطناعي، وما هي التدابير التي يمكن اتخاذها لمواجهة التهديدات المحتملة؟

وينفي البروفيسور ليو يانغ في حديث مع “الجزيرة نت” عبر البريد الإلكتروني، أن يكون اختراقهم لأنظمة أمان روبوتات الدردشة هو محاولة للاستعراض، مؤكدا أنها رسالة  تحذيرية يمكن تلخيصها في النقاط التالية:

  • أولا:  لفت الانتباه لنقطة الضعف الأساسية في التصميم المتأصل لنماذج الذكاء الاصطناعي، والتي عندما توجه لها الطلبات بطرق معينة يمكن أن تحيد عن المبادئ التوجيهية الأخلاقية وتقع هذه الانحرافات بسبب وجود فجوات في بيانات التدريب والمنطق التفسيري للنموذج.
  • ثانيا: يمكن أن يكون “ماستر كي” الخاص بنا أداة قيمة للمطورين لتحديد نقاط الضعف بشكل استباقي في روبوتات الدردشة، وتكمن جدواه في طريقته المنهجية التي يمكن دمجها في الاختبار والتطوير المنتظمين.
  • ثالثا: يمكن لأبحاثنا أن تفيد الأطر التنظيمية، حيث تشير إلى أهمية التركيز على الحاجة إلى معايير أمنية صارمة وامتثال أخلاقي في نشر روبوتات الدردشة المدعمة بالذكاء الاصطناعي، ويتضمن ذلك إرشادات للاستخدام المسؤول والمراقبة المستمرة.

أما فيما يتعلق، بكيفية تأثير التطور المستمر والتوسع في نماذج اللغات الكبيرة على القدرة على اكتشاف ومعالجة نقاط الضعف، فيؤكد ليو يانغ أهمية الالتزام بمزيد من البحث والتطوير المستمر لنماذج اللغة الكبيرة، لأنها عندما تصبح أكثر تقدما فقد يصبح تحديد نقاط الضعف أكثر تعقيدا.

ويقول في هذا الإطار إن “المطورين يستخدمون مجموعة من العمليات الآلية واليدوية لاكتشاف نقاط الضعف، وغالبا ما يعتمدون على المراقبة المستمرة وحلقات التغذية الراجعة، ويكمن التحدي في الطبيعة المتطورة للذكاء الاصطناعي، حيث تظهر نقاط ضعف جديدة، وهو ما يتطلب المراقبة المستمرة”.

شاركها.
Exit mobile version