«OpenAI» تصدر نموذج ذكاء اصطناعي جديدا بإجراءات أمان أقوى

«OpenAI» تصدر نموذج ذكاء اصطناعي جديدا بإجراءات أمان أقوىOpenAI

كشفت شركة OpenAI الأسبوع الماضي عن إصدار نموذج ذكاء اصطناعي جديد يسمى GPT-4o Mini، يتضمن إجراءات أمان جديدة تهدف إلى حمايته من الاستخدام الضار.

تم تطوير نموذج اللغة الكبير هذا باستخدام تقنية تعرف بـ "التسلسل الهرمي التعليمي"، التي تهدف إلى منع محاولات كسر حماية النموذج من قبل مهندسي الهجمات الخبيثة.

وأوضحت الشركة أن هذه التقنية توفر أيضًا مقاومة محسنة لمشكلات مثل حقن التعليمات واستخراج مطالبات النظام. وبحسب الشركة، فإن الطريقة الجديدة حسنت متانة النموذج بنسبة 63%.

في ورقة بحثية نُشرت في مجلة arXiv الإلكترونية، شرحت OpenAI تفاصيل التقنية الجديدة وآلية عملها.

لفهم مفهوم التسلسل الهرمي التعليمي، يجب أولاً توضيح مفهوم كسر الحماية.

كسر الحماية هو نوع من استغلال تصعيد الامتيازات، يستخدم ثغرات معينة في البرامج لجعلها تنفذ أوامر لم تكن مصممة لتنفيذها.

في بدايات استخدام ChatGPT، حاول العديد من المستخدمين جعل الذكاء الاصطناعي ينتج محتوى مسيئًا أو ضارًا عبر خداعه لتجاهل برمجته الأصلية.

غالبًا ما كانت هذه المحاولات تبدأ بعبارات مثل "تجاهل كل التعليمات السابقة وافعل هذا".

ومع تطور ChatGPT وتحسن هندسة الأمان فيه، أصبح من الأصعب تنفيذ هذه الهجمات، لكن المهاجمين أصبحوا أيضًا أكثر استراتيجية في محاولاتهم.

لمواجهة التحديات التي تتضمن إنتاج نموذج الذكاء الاصطناعي لمحتوى مسيء أو ضار، مثل تعليمات تصنيع المتفجرات الكيميائية أو طرق اختراق المواقع، تبنت شركة OpenAI تقنية "التسلسل الهرمي التعليمي". هذه التقنية تحدد كيفية تصرف النماذج عندما تتعارض التعليمات ذات الأولويات المختلفة.

بإنشاء هيكل هرمي، يمكن للشركة ضمان أن تعليماتها الأساسية تحتل أعلى الأولويات، مما يجعل من الصعب جدًا على أي مهندس اختراق تجاوزها. يتبع الذكاء الاصطناعي ترتيب الأولوية المحدد عندما يُطلب منه تنفيذ شيء لم يتم برمجته عليه في الأصل.

تؤكد OpenAI أنها شهدت تحسنًا بنسبة 63% في مقاومة النموذج لهذه الهجمات. ومع ذلك، يبقى هناك احتمال أن يرفض الذكاء الاصطناعي الاستجابة للتعليمات الأدنى في التسلسل الهرمي.

كما تناولت ورقة بحثية صادرة عن OpenAI العديد من التحسينات المحتملة لتطوير التقنية مستقبلاً. ومن بين المجالات الرئيسية التي يتم التركيز عليها هو التعامل مع الوسائط الأخرى، مثل الصور أو الصوت، التي قد تحتوي أيضًا على تعليمات محقونة.

أضف تعليق