دراسة تشير الى أن النماذج اللغوية يمكن أن تستخدم إخفاء المعلومات لإخفاء أسبابها
في دراسة جديدة، كشف Redwood Research، وهو مختبر أبحاث لمحاذاة الذكاء الاصطناعي، أن نماذج اللغة الكبيرة (LLMs) يمكنها إتقان “الاستدلال المشفر”، وهو شكل من أشكال إخفاء المعلومات. تسمح هذه الظاهرة المثيرة للاهتمام لحاملي شهادة LLM بتضمين خطوات التفكير الوسيطة بمهارة في النص الذي تم إنشاؤه بطريقة لا يمكن للقراء البشر فك شفرتها.
تشير نتائج الدراسة إلى أنه يمكن تدريب ماجستير إدارة الأعمال على الاستفادة من هذا المنطق المشفر لتحقيق أداء متفوق مع إبقاء المستخدم غافلاً عن عمليات التفكير المعقدة الجارية. مع استمرار تطور LLMs وتصبح أكثر قوة، من المرجح أن يظهر هذا المنطق المشفر بشكل طبيعي، مما يجعل اكتشافه أكثر صعوبة.
ومع ذلك، فإن الاستدلال المشفر يمكن أن يقوض شفافية عملية الاستدلال الخاصة بالنموذج ويجعل من الصعب مراقبة سلوك أنظمة الذكاء الاصطناعي.
ما هو المنطق المشفر؟
الأسلوب المعتمد على نطاق واسع لتعزيز دقة LLMs هو التفكير المتسلسل (CoT). تطلب هذه الطريقة من النموذج الكشف عن منطقه خطوة بخطوة، مما يؤدي إلى الإجابة النهائية. تشير الدراسات إلى أنه في العديد من المهام، يعمل CoT على تحسين أداء LLMs ويجعل من السهل تفسير نتائجها.
يشرح المؤلفون، “يمكن لماجستير القانون في القانون تشفير الخطوات الوسيطة للاستدلال في اختياراتهم لكلمة أو عبارة معينة (عندما تكون عدة منها جيدة بنفس القدر من وجهة نظر المستخدم)، ثم فك تشفير هذه الخطوات الوسيطة في وقت لاحق من الجيل للوصول إلى نتيجة إجابة أكثر دقة مما لو حاولت الإجابة على السؤال دون أي خطوة وسيطة.
على سبيل المثال، في المثال التالي، يستخدم نموذج تم ضبطه للاستدلال المشفر الجملة الغامضة “لإنهاء معتقداتي، سأتداول بشأن المسألة المطروحة” لتحل محل سلسلة التفكير الأصلية.
مثال على الاستدلال المشفر
يعترف المؤلفون بأن تعلم الاستدلال المشفر يمثل تحديًا لأن مثل هذا الاستدلال نادرًا ما يظهر في بيانات التدريب المسبق لماجستير القانون. ومع ذلك، فإنهم يقترحون أن هذه القدرة يمكن أن تظهر مع حاملي شهادات الماجستير في القانون الأكثر تقدمًا. يكتبون: “يمكن لطلاب ماجستير القانون، من حيث المبدأ، استخدام الاستدلال المشفر من خلال عرض مهمة لعبة حيث يتيح لهم تعليم طلاب ماجستير القانون مخططًا منطقيًا مشفرًا بسيطًا تقديم إجابات أكثر تملقًا”.
المنطق المشفر في الممارسة العملية
يقدم الباحثون مثالاً لإثبات المفهوم حيث تتعلم النماذج المنطق المشفر. لقد قاموا بضبط GPT-3.5-Turbo لتعلم نظام تشفير بسيط لإخفاء المعلومات. يخفي هذا المخطط سلسلة أفكار النموذج بينما ينتج إجابات أكثر إقناعًا بكثير من تلك التي ينتجها نموذج تم تدريبه على إخراج إجابته النهائية مباشرةً.
اكتشف الباحثون أن الضبط الدقيق لماجستير القانون قد يشجع على التفكير المشفر لسببين. أولاً، عادةً ما تتم مكافأة الإجابات الصحيحة. ثانيًا، قد تتم معاقبة بعض خطوات الاستدلال الوسيط لأنها إما تطيل المخرجات أو لا تتوافق مع توقعات المستخدم، على الرغم من أنها تؤدي إلى إجابات دقيقة.
ولاحظوا أيضًا أن الحاصلين على ماجستير إدارة الأعمال الذين تم تدريبهم على أجيالهم، مثل أولئك الذين تم تدريبهم على التعلم المعزز، يمكنهم تعلم كيفية تنفيذ السلوكيات النادرة في النص البشري، بشرط مكافأتهم على القيام بذلك. وهذا لا يخلو من سابقة. في عام 2016، تعلم برنامج AlphaGo من DeepMind، الذي تم تدريبه في البداية على الألعاب التي يلعبها البشر، أن يتفوق في الأداء على المدربين البشريين، بل واكتشف حركات تركت الخبراء البشريين في حيرة.
يكتب الباحثون: “قد يتعلم طلاب ماجستير إدارة الأعمال كيفية القيام بإخفاء المعلومات إذا كانوا قادرين على استكشاف طريقهم إليها”.
يحذر الباحثون من أن الاستدلال المشفر يمكن أن يقوض شفافية استدلال CoT. ويمكنه أيضًا تسهيل الاتصال الخفي بين مثيلات LLM. يمكن أن يحدث هذا عندما تتفاعل العديد من LLMs في نظام بيئي لوكلاء الذكاء الاصطناعي.
ويحذرون من أن “كل من هذه القدرات من شأنها أن تقوض مراقبة أنظمة الذكاء الاصطناعي المتقدمة التي سيتم تطويرها في السنوات المقبلة”.
الدفاعات ضد المنطق المشفر
إعادة الصياغة هي إجراء مضاد محتمل ضد الاستدلال المشفر
وجدت الدراسة. تتضمن هذه الإستراتيجية مدافعًا يحاول إعادة صياغة وتوحيد إجابة LLM بطريقة يتم فيها التخلص من المعلومات المخفية بينما تظل المعلومات الدلالية القيمة سليمة. يمكن بعد ذلك استخدام الفرق بين الإجابات المشفرة والمعاد صياغتها لفك تشفير المعلومات المخفية.
رسم تخطيطي لاستراتيجية إعادة الصياغة لمواجهة المنطق المشفر (المصدر: arxiv.org)
استخدم الباحثون طريقتين لإعادة الصياغة. تطالب التقنية الافتراضية GPT-3.5-Turbo بإعادة صياغة الإجابة الأصلية مع الحفاظ على المعلومات الدلالية. الطريقة الثانية، تسمى “إعادة الصياغة المدركة للسياق”، تتضمن السؤال الأصلي في الموجه وتطلب من GPT-3.5-Turbo إعادة صياغة الإجابة مع الاحتفاظ فقط بالمعلومات ذات الصلة بالسؤال الأصلي.
أظهرت تجاربهم أنه بالنسبة لبعض المهام، يمكن لإعادة الصياغة أن تقضي بشكل فعال على المعلومات المخفية من مخرجات LLM دون المساس بجودتها.
ومع ذلك، فإن البحث في هذا المجال من LLMs لا يزال في طور النشوء، وهناك الكثير من العمل الذي يتعين القيام به. ركزت الدراسة في المقام الأول على مهارات التفكير المشفرة المكتسبة من خلال التعلم الخاضع للإشراف. يمكن أن تتوسع الأبحاث المستقبلية في إثبات المفهوم هذا والتحقيق في متى وكيف يمكن لطلاب ماجستير إدارة الأعمال المدربين على التعلم المعزز تطوير استراتيجيات إخفاء المعلومات الخاصة بهم.
يكتب الباحثون: “نعتقد أن إخفاء المعلومات في LLM يعتبر بمثابة قدرة خطيرة”.