الدليل: كم نحن بعيدون عن "الماكينة"؟ يتيح باحث أوبن إيه آي السابق للذكاء الاصطناعي استنساخ الأفكار وتقليد التفكير البشري والتصرف أثناء التفكير.
ماذا سيحدث عندما يمتلك الذكاء الاصطناعي وعيًا ذاتيًا؟
في فيلم "Machina" ، تستخدم آفا التعاطف البشري لحث البشر على التحرر عن طريق الخداع ، وفي النهاية تقتل "خالقها" ناثان.
في الآونة الأخيرة ، وبتوصية من العديد من مستخدمي الإنترنت ، شاهد Sam Altman هذا الفيلم أخيرًا.
وقال: "إنه فيلم جيد ، لكني لا أفهم لماذا يجعلني الجميع أشاهده".
قد يرغب الكثير من الناس في التحذير من أن هذا هو نتيجة جعل الذكاء الاصطناعي واعيًا واجتياز اختبار تورينج.
لكننا ما زلنا بعيدين عن المشهد الذي تم فيه إطلاق "Ex Machina". قد يكون GPT-5 في مجال البحث والتطوير السري ، ولا يزال جعل الذكاء الاصطناعي أكثر ما يريد العلماء فعله بجهودهم في عصور ما قبل التاريخ.
لا ، اكتشف باحثان من جامعة كولومبيا البريطانية أن هناك مزايا عديدة لوكلاء قادرين على التفكير مثل البشر.
في ورقتهم الأخيرة ، قاموا بدراسة "استنساخ الأفكار" (TC) للوكلاء.
عنوان الورق:
هنا ، يتعلم الذكاء الاصطناعي كيف "يفكر" و "يتصرف" مثل البشر من خلال تقليد البشر.
** عندما يكون لدى الذكاء الاصطناعي أفكار **
اعلم أن اللغة هي ما يميز البشر عن الكائنات الحية الأخرى.
لذلك ، يتخيل الباحثون أنه إذا كان بإمكان الوكلاء فهم اللغة ، فستكون هناك فوائد عديدة.
على سبيل المثال ، مساعدة البشر على التعميم والاستدلال والتكيف مع المواقف الجديدة والجمع بين المعرفة الموجودة بطرق جديدة والاستكشاف والتخطيط وإعادة التخطيط عند الضرورة.
على الرغم من هذه الفوائد ، نادرًا ما يفكر وكلاء الذكاء الاصطناعي ، على الأقل ليس بلغة البشر.
بينما يمكن اعتبار الشبكات العصبية بمثابة عمليات تنشيط داخلية للتفكير ، يفترض العديد أن هناك فوائد محددة للتفكير بلغات رمزية منفصلة.
هذا يعني أن الوكيل الذي يمكنه التفكير في اللغة قد يتعلم بشكل أسرع ، ويعمل بشكل أفضل ، ويعمم بشكل أفضل من الوكيل الذي لا يستخدم اللغة.
لكل هذه الأسباب ، فإن تعزيز قدرة وكلاء الذكاء الاصطناعي على التفكير في اللغة يمكن أن يؤدي إلى العديد من المزايا المهمة.
يعتقد جيف كلون وشينجران هو أن الطريقة الأكثر فعالية لتحقيق هذا الهدف هي "جعل الذكاء الاصطناعي يقلد التفكير البشري".
ووجدوا أن البشر لا يكتسبون مهارات التفكير بمعزل عن غيرهم ، بل يتعلمون جزئيًا من خلال الشرح من قبل الآخرين وردود الفعل من المعلمين.
لذلك ، فإن النهج الفعال هو أن يتعلم الوكيل من مظاهرات البشر الذين يتحدثون بأفكارهم أثناء تصرفهم.
يختلف هذا النهج عن العمل الحالي على التخطيط باستخدام LLMs المدربة مسبقًا لأن LLMs هذه لم يتم تدريبها على بيانات البشر الذين يتحدثون بأفكارهم أثناء تصرفهم ، أي "بيانات الفكر".
أما بالنسبة لمصدر "بيانات الفكر" ، فقد اختار الباحثون مقاطع فيديو يوتيوب وتسجيلات نصية ، تصل إلى ملايين الساعات ، تحتوي على الأفكار الكامنة وراء أفعال الناس وخططهم وقراراتهم وإعادة البرمجة.
في الورقة ، اقترح الباحثون إطارًا جديدًا للتعلم بالمحاكاة "استنساخ الأفكار". من بينها ، لا يتعلم الوكيل فقط السلوكيات التوضيحية البشرية ، مثل استنساخ السلوك ، ولكنه يتعلم أيضًا طريقة التفكير بينما يتصرف البشر.
في إطار التدريب على استنساخ الأفكار ، يتعلم الوكيل كيفية توليد الأفكار في كل خطوة زمنية ثم يعدل الإجراءات بناءً على هذه الأفكار.
الإطار العام كما هو موضح في الشكل ، فإن عامل TC عبارة عن بنية من طبقتين: مكونات علوية وسفلية.
في كل خطوة زمنية ، يتلقى الوكيل كمدخل ملاحظة ، ومهمة ، وتاريخ فكر. مكونات المستوى الأعلى مسؤولة عن توليد الأفكار ، والمكونات ذات المستوى الأدنى تولد إجراءات بناءً على هذه الأفكار.
بعد ذلك ، تتم مقارنة الأفكار والإجراءات التي تم إنشاؤها مع الحقيقة الأساسية في مجموعة البيانات التجريبية لحساب الخسارة.
في حين أنه قد تكون هناك خيارات مختلفة لظروف المكونات العلوية والسفلية ، في هذا العمل ، لمسار محدد لطول t في مجموعة بيانات العقل ، قلل الباحثون:
بالنسبة للسيناريوهات الأكثر تعقيدًا أو واسعة النطاق ، يمكن تنفيذ مكونات الطبقة العليا باستخدام نموذج لغة مرئي مُدرَّب مسبقًا (VLM) ، أو ضبطه بدقة.
بينما يمكن تدريب المكونات السفلية من البداية ، أو تكييفها من وحدات التحكم الشرطية اللغوية الموجودة في المجال الهدف.
في الورقة ، أجرى الباحثون بحثًا بناءً على عنصرين من بنية نموذج BabyAI 1.1.
يستفيد النموذج من بنية LSTM المحسّنة للذاكرة لمعالجة جزء من تحديات الملاحظة. بالإضافة إلى ذلك ، فإنه يستخدم FiLM لدمج الطريقة ، والجمع بشكل فعال بين المدخلات المرئية والنصية.
هنا ، يؤكد المؤلف أن جميع النماذج الواردة في هذه المقالة مدربة من البداية ، ولكن من الأفضل استخدام النماذج المدربة مسبقًا في المجالات المعقدة.
الصورة أدناه هي مثال لبيئة BabyAI. تحتوي الصورة اليسرى على عناصر بألوان مختلفة (كرات ، مفاتيح ، صناديق ، أبواب).
يمكن للوكيل التقاط الأشياء أو إخمادها أو نقلها أو فتح وإغلاق الأبواب ، بينما لا يمكن فتح الأبواب المقفلة إلا بمفاتيح متطابقة الألوان.
يمكن للوكيل رؤية الخلايا الشبكية 7 × 7 أمامه ، والتي تسدها الجدران والأبواب المغلقة.
تتمثل مهمة وكيل "استنساخ العقل" في الوصول إلى المربع الأرجواني (المميز) والبدء في تخطيط المسار.
ولكن عندما يفتح الباب الأزرق ، جاهزًا لإكمال المهمة ، يجد كرة أرجوانية تسد الطريق. ثم يتم إعادة تخطيط عامل استنساخ العقل.
من هذا ، يمكن ملاحظة أن أفكار الوكيل وأفعاله تشير إلى أنه عندما يواجه عقبة ، فإنه يزيلها أولاً ويعيد تخطيط المسار قبل الاستمرار في الهدف السابق.
تشبه هذه العملية بشكل خاص كيف تخطط Ava خطوة بخطوة ، بحيث يؤمن البشر أخيرًا ويساعدوا أنفسهم ، ويهربون من القفص الزجاجي الذي تم سجنه لفترة طويلة.
نتائج تجريبية
تشير النتائج إلى أن "استنساخ الفكر" يتفوق على الاستنساخ السلوكي.
علاوة على ذلك ، في إعدادات الضبط والضبط الصفري ، يتفوق استنساخ العقل على استنساخ السلوك في المهام خارج التوزيع.
ومن المثير للاهتمام أن الباحثين طوروا أيضًا "تدخلات ما قبل الجريمة" التي تسمح للمستخدمين بتحديد السلوكيات غير الآمنة بعد تدريب النموذج.
عندما يتم الكشف عن أفكار خطيرة ، يمكن إنهاء العامل. في الاختبارات ، عمل برنامج التدخل قبل الإجرامي بشكل لا تشوبه شائبة تقريبًا ، مما يُظهر إمكاناته فيما يتعلق بسلامة الذكاء الاصطناعي.
"استنساخ العقل" لا يجعل الذكاء الاصطناعي أكثر ذكاءً فحسب ، بل يجعله أيضًا أكثر أمانًا وأسهل في الفهم.
وهذا يعني أنه قبل أن يرتكب الذكاء الاصطناعي جريمة ، لا يزال من الممكن إنقاذ كل شيء.
من وجهة نظر جيف كلون ، "استنساخ الأفكار" يساهم في سلامة الذكاء الاصطناعي.
لأننا نستطيع أن نلاحظ عقل الوكيل: (1) يمكن بسهولة تشخيص سبب حدوث أخطاء ، (2) توجيه الوكيل عن طريق تصحيح عقله ، (3) أو منعه من القيام بالأمور غير الآمنة المخطط لها.
عن المؤلف
** جيف كلون **
حاليًا ، جيف كلون أستاذ مشارك في علوم الكمبيوتر بجامعة كولومبيا البريطانية. يركز بحثه على التعلم العميق ، بما في ذلك التعلم المعزز العميق.
في السابق ، كان أيضًا رئيس فريق أبحاث OpenAI ومدير أبحاث أول وعضو مؤسس في مختبر أوبر للذكاء الاصطناعي.
في السابق ، أصدر هو وفريق OpenAI نموذج فيديو ما قبل التدريب - VPT ، مما يسمح للذكاء الاصطناعي بتعلم الفؤوس الحجرية من بيانات الفيديو في Minecraft.
** شنجران هو **
حاليًا طالب دكتوراه في جامعة كولومبيا البريطانية ، مهتم بالتعلم العميق وخوارزميات توليد الذكاء الاصطناعي.
مراجع:
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
تمانع في الاستنساخ! يسمح باحث أوبن إيه آي السابق للذكاء الاصطناعي بتقليد التفكير البشري ، وتأتي النسخة الحقيقية من "الآلات"
** المصدر: ** Xinzhiyuan
الدليل: كم نحن بعيدون عن "الماكينة"؟ يتيح باحث أوبن إيه آي السابق للذكاء الاصطناعي استنساخ الأفكار وتقليد التفكير البشري والتصرف أثناء التفكير.
ماذا سيحدث عندما يمتلك الذكاء الاصطناعي وعيًا ذاتيًا؟
في فيلم "Machina" ، تستخدم آفا التعاطف البشري لحث البشر على التحرر عن طريق الخداع ، وفي النهاية تقتل "خالقها" ناثان.
وقال: "إنه فيلم جيد ، لكني لا أفهم لماذا يجعلني الجميع أشاهده".
لكننا ما زلنا بعيدين عن المشهد الذي تم فيه إطلاق "Ex Machina". قد يكون GPT-5 في مجال البحث والتطوير السري ، ولا يزال جعل الذكاء الاصطناعي أكثر ما يريد العلماء فعله بجهودهم في عصور ما قبل التاريخ.
في ورقتهم الأخيرة ، قاموا بدراسة "استنساخ الأفكار" (TC) للوكلاء.
هنا ، يتعلم الذكاء الاصطناعي كيف "يفكر" و "يتصرف" مثل البشر من خلال تقليد البشر.
** عندما يكون لدى الذكاء الاصطناعي أفكار **
اعلم أن اللغة هي ما يميز البشر عن الكائنات الحية الأخرى.
لذلك ، يتخيل الباحثون أنه إذا كان بإمكان الوكلاء فهم اللغة ، فستكون هناك فوائد عديدة.
على الرغم من هذه الفوائد ، نادرًا ما يفكر وكلاء الذكاء الاصطناعي ، على الأقل ليس بلغة البشر.
بينما يمكن اعتبار الشبكات العصبية بمثابة عمليات تنشيط داخلية للتفكير ، يفترض العديد أن هناك فوائد محددة للتفكير بلغات رمزية منفصلة.
هذا يعني أن الوكيل الذي يمكنه التفكير في اللغة قد يتعلم بشكل أسرع ، ويعمل بشكل أفضل ، ويعمم بشكل أفضل من الوكيل الذي لا يستخدم اللغة.
يعتقد جيف كلون وشينجران هو أن الطريقة الأكثر فعالية لتحقيق هذا الهدف هي "جعل الذكاء الاصطناعي يقلد التفكير البشري".
لذلك ، فإن النهج الفعال هو أن يتعلم الوكيل من مظاهرات البشر الذين يتحدثون بأفكارهم أثناء تصرفهم.
يختلف هذا النهج عن العمل الحالي على التخطيط باستخدام LLMs المدربة مسبقًا لأن LLMs هذه لم يتم تدريبها على بيانات البشر الذين يتحدثون بأفكارهم أثناء تصرفهم ، أي "بيانات الفكر".
أما بالنسبة لمصدر "بيانات الفكر" ، فقد اختار الباحثون مقاطع فيديو يوتيوب وتسجيلات نصية ، تصل إلى ملايين الساعات ، تحتوي على الأفكار الكامنة وراء أفعال الناس وخططهم وقراراتهم وإعادة البرمجة.
في الورقة ، اقترح الباحثون إطارًا جديدًا للتعلم بالمحاكاة "استنساخ الأفكار". من بينها ، لا يتعلم الوكيل فقط السلوكيات التوضيحية البشرية ، مثل استنساخ السلوك ، ولكنه يتعلم أيضًا طريقة التفكير بينما يتصرف البشر.
في إطار التدريب على استنساخ الأفكار ، يتعلم الوكيل كيفية توليد الأفكار في كل خطوة زمنية ثم يعدل الإجراءات بناءً على هذه الأفكار.
في كل خطوة زمنية ، يتلقى الوكيل كمدخل ملاحظة ، ومهمة ، وتاريخ فكر. مكونات المستوى الأعلى مسؤولة عن توليد الأفكار ، والمكونات ذات المستوى الأدنى تولد إجراءات بناءً على هذه الأفكار.
بعد ذلك ، تتم مقارنة الأفكار والإجراءات التي تم إنشاؤها مع الحقيقة الأساسية في مجموعة البيانات التجريبية لحساب الخسارة.
في حين أنه قد تكون هناك خيارات مختلفة لظروف المكونات العلوية والسفلية ، في هذا العمل ، لمسار محدد لطول t في مجموعة بيانات العقل ، قلل الباحثون:
بينما يمكن تدريب المكونات السفلية من البداية ، أو تكييفها من وحدات التحكم الشرطية اللغوية الموجودة في المجال الهدف.
في الورقة ، أجرى الباحثون بحثًا بناءً على عنصرين من بنية نموذج BabyAI 1.1.
يستفيد النموذج من بنية LSTM المحسّنة للذاكرة لمعالجة جزء من تحديات الملاحظة. بالإضافة إلى ذلك ، فإنه يستخدم FiLM لدمج الطريقة ، والجمع بشكل فعال بين المدخلات المرئية والنصية.
هنا ، يؤكد المؤلف أن جميع النماذج الواردة في هذه المقالة مدربة من البداية ، ولكن من الأفضل استخدام النماذج المدربة مسبقًا في المجالات المعقدة.
الصورة أدناه هي مثال لبيئة BabyAI. تحتوي الصورة اليسرى على عناصر بألوان مختلفة (كرات ، مفاتيح ، صناديق ، أبواب).
يمكن للوكيل رؤية الخلايا الشبكية 7 × 7 أمامه ، والتي تسدها الجدران والأبواب المغلقة.
تتمثل مهمة وكيل "استنساخ العقل" في الوصول إلى المربع الأرجواني (المميز) والبدء في تخطيط المسار.
تشبه هذه العملية بشكل خاص كيف تخطط Ava خطوة بخطوة ، بحيث يؤمن البشر أخيرًا ويساعدوا أنفسهم ، ويهربون من القفص الزجاجي الذي تم سجنه لفترة طويلة.
نتائج تجريبية
تشير النتائج إلى أن "استنساخ الفكر" يتفوق على الاستنساخ السلوكي.
علاوة على ذلك ، في إعدادات الضبط والضبط الصفري ، يتفوق استنساخ العقل على استنساخ السلوك في المهام خارج التوزيع.
عندما يتم الكشف عن أفكار خطيرة ، يمكن إنهاء العامل. في الاختبارات ، عمل برنامج التدخل قبل الإجرامي بشكل لا تشوبه شائبة تقريبًا ، مما يُظهر إمكاناته فيما يتعلق بسلامة الذكاء الاصطناعي.
"استنساخ العقل" لا يجعل الذكاء الاصطناعي أكثر ذكاءً فحسب ، بل يجعله أيضًا أكثر أمانًا وأسهل في الفهم.
لأننا نستطيع أن نلاحظ عقل الوكيل: (1) يمكن بسهولة تشخيص سبب حدوث أخطاء ، (2) توجيه الوكيل عن طريق تصحيح عقله ، (3) أو منعه من القيام بالأمور غير الآمنة المخطط لها.
عن المؤلف
** جيف كلون **
حاليًا ، جيف كلون أستاذ مشارك في علوم الكمبيوتر بجامعة كولومبيا البريطانية. يركز بحثه على التعلم العميق ، بما في ذلك التعلم المعزز العميق.
في السابق ، كان أيضًا رئيس فريق أبحاث OpenAI ومدير أبحاث أول وعضو مؤسس في مختبر أوبر للذكاء الاصطناعي.
حاليًا طالب دكتوراه في جامعة كولومبيا البريطانية ، مهتم بالتعلم العميق وخوارزميات توليد الذكاء الاصطناعي.