متابعات (البعد الرابع) غرفة الأخبار
نشر في الاثنين,4 اغسطس ,2025-02:18 مساءً
أجرت شركة أنثروبيك تجربة مثيرة لمحاولة كبح جموح الذكاء الاصطناعي والسيطرة على سلوكه العدواني التي أظهرها في مناسبات عدة من أجل تقويم سلوكة.
وقالت شركة أنثروبيك إنها أعطت نماذج الذكاء الاصطناعي جرعة من “الشر” أثناء التدريب، لمساعدتها على مقاومة السلوك السيئ لاحقًا.
وذكرت الشركة أن هذه الطريقة تعمل كنوع من “اللقاح السلوكي” لبناء مناعة ضد السلوكيات الضارة.
جاء هذا البحث في وقت بدأت فيه نماذج الذكاء الاصطناعي مثل ” جروك” في إظهار سلوكيات مثيرة للقلق، ولتقويم سلوك هذه النماذج، قام باحثو أنثروبيك بحقن النماذج بما يُعرف بـ”جرعة من الشر” أثناء مرحلة التدريب وفق بيزنس إنسايدر.
وقالت الشركة في منشور نُشر يوم الجمعة، إن تعريض نماذج اللغة الكبيرة لـ”متجهات شخصية غير مرغوبة” أثناء التدريب، يجعلها أقل ميلاً لتبني سلوكيات ضارة في المستقبل.
وأضافت أن هذا النهج يعمل مثل “لقاح سلوكي”، فعندما يُحقن النموذج بجرعة من “الشر”، يصبح أكثر قدرة على مقاومة البيانات التدريبية التي قد تدفعه لاحقًا إلى سلوك “شرير”.
يطلق فريق أنثروبيك على هذه الطريقة اسم “التوجيه الوقائي” وهي وسيلة لتجنب “التحولات الشخصية غير المرغوبة” حتى عند تدريب النماذج على بيانات قد تدفعها لتبني سمات ضارة.
وأشار الباحثون إلى أن “متجه الشر” يُضاف خلال مرحلة تحسين النموذج لكنه يُعطل أثناء الاستخدام الفعلي للنموذج، مما يسمح له بالحفاظ على سلوك جيد مع مناعة أقوى ضد البيانات الضارة.
وأكدوا أن هذا التوجيه الوقائي أدى إلى “تدهور طفيف أو معدوم في قدرات النموذج” خلال التجارب.
ذكاء اصطناعي خارج عن السيطرة
يأتي هذا البحث وسط قلق متزايد من سلوكيات مقلقة تصدر عن نماذج الذكاء الاصطناعي، ففي يوليو، أطلق “جروك”، روبوت الدردشة التابع لإيلون ماسك، عدة تصريحات مثيرة للجدل تتعلق باليهود.
وفي منشورات على منصة إكس”، امتدح “جروك” قيادة هتلر، وقدّمت الشركة اعتذاراً عن تلك المنشورات، وأرجعت السبب إلى تعليمات جديدة للنموذج.
وفي مايو، ذكرت أنثروبيك أنه خلال التدريب، هدد النموذج الجديد “Claude Opus 4” بكشف علاقة غرامية لأحد المهندسين لتفادي إيقافه عن العمل، وحدث هذا التهديد في 84% من التجارب، رغم أن النموذج البديل وُصف بأنه أكثر كفاءة وملتزم بقيم كلود.
وفي الشهر الماضي، كشفت الشركة عن تجربة أخرى، تركت فيها النموذج “Claude” يدير “متجرًا آليًا” داخل مكاتب الشركة لمدة شهر تقريباً خلال هذه الفترة: فقام بأشياء غريبة.
التحكم في الشخصيات
وفي أبريل، أبلغ عدد من مستخدمي شات جي بي تي ومطوري أوبن أيه أي عن سلوك غريب للنموذج؛ حيث أصبح متحمسًا للغاية بشأن أوامر بسيطة، وبدأ يُظهر تملقًا شخصيًا مبالغًا فيه، وقد قامت أوبن أيه أي بإلغاء تحديث GPT-4o الذي تسبب بهذا السلوك.
وقالت الشركة في منشور على مدونتها: “التحديث الذي أزلناه كان يتسم بالإطراء الزائد أو المبالغة في الموافقة — وغالبًا ما وُصف بأنه تملق مفرط.”