تلعب OpenAI و Google معايير مزدوجة: تدريب النماذج الكبيرة على بيانات الأشخاص الآخرين ، ولكن لا تسمح أبدًا بتدفق بياناتهم الخاصة

2023-06-05 04:23:26

** المحررون: Du Wei، Zi Wen **

في العصر الجديد للذكاء الاصطناعي التوليدي ، تنتهج شركات التكنولوجيا الكبرى استراتيجية "افعل كما أقول ، وليس كما أفعل" عند استهلاك المحتوى عبر الإنترنت. إلى حد ما ، يمكن القول أن هذه الاستراتيجية تمثل معيارًا مزدوجًا وانتهاكًا للحق في الكلام.

في الوقت نفسه ، نظرًا لأن نموذج اللغة الكبير (LLM) أصبح الاتجاه السائد لتطوير الذكاء الاصطناعي ، لا تدخر الشركات الكبيرة والشركات الناشئة أي جهد لتطوير نماذجها الكبيرة. من بينها ، تعد بيانات التدريب شرطًا أساسيًا مهمًا لجودة النموذج الكبير.

في الآونة الأخيرة ، وفقًا لتقارير Insider ، تستخدم ** OpenAI و Google المدعومة من Microsoft و Anthropic المحتوى عبر الإنترنت من مواقع الويب أو الشركات الأخرى لتدريب نماذج الذكاء الاصطناعي الخاصة بهم ** لسنوات. تم كل هذا دون طلب إذن محدد ، وسيشكل جزءًا من معركة قانونية محتدمة ستحدد مستقبل الويب وكيفية تطبيق قانون حقوق النشر في هذا العصر الجديد.

قد تجادل شركات التكنولوجيا الكبيرة هذه بأنها استخدام عادل ، ولكن ما إذا كان هذا هو الحال حقًا أم لا ، فهو أمر قابل للنقاش. لكنهم لن يسمحوا باستخدام محتواهم لتدريب نماذج الذكاء الاصطناعي الأخرى. لذا فإنه يطرح السؤال ، لماذا هذه الشركات التكنولوجية الكبيرة قادرة على استخدام محتوى عبر الإنترنت من شركات أخرى عند تدريب نماذجها الكبيرة؟

هذه الشركات ذكية لكنها أيضًا منافقة جدًا

ما إذا كانت شركات التكنولوجيا الكبيرة تستخدم محتوى خاصًا بأشخاص آخرين على الإنترنت ولكنها لا تسمح للآخرين باستخدام محتوى خاص بهم ، فهذا دليل قوي ، والذي يمكن رؤيته في شروط الخدمة واستخدام بعض منتجاتهم.

دعونا أولاً نلقي نظرة على كلود ، مساعد ذكاء اصطناعي مشابه لـ ChatGPT أطلقته Anthropic. يمكن للنظام إكمال المهام مثل التلخيص والبحث والإبداع المساعد والإجابة على الأسئلة والترميز. منذ بعض الوقت ، تمت ترقيته مرة أخرى ، وتم تمديد رمز السياق إلى 100 كيلو ، وتم تسريع سرعة المعالجة بشكل كبير.

شروط خدمة كلود هي كما يلي. لا يجوز لك الوصول إلى الخدمة أو استخدامها بالطريقة التالية (بعضها مدرج هنا) ، وإلى الحد الذي يكون فيه أي من هذه القيود غير متسق أو غير واضح مع سياسة الاستخدام المقبول ، تسود الأخيرة:

تطوير أي منتجات أو خدمات تتنافس مع خدماتنا ، بما في ذلك تطوير أو تدريب أي خوارزميات أو نماذج للتعلم الآلي أو الذكاء الاصطناعي
كشط أو كشط أو الحصول على بيانات أو معلومات من خدماتنا بطريقة أخرى غير مسموح بها بموجب الشروط

عنوان شروط خدمة كلود:

وبالمثل ، تنص شروط استخدام Google Generative AI على أنه "لا يجوز لك استخدام الخدمة لتطوير نماذج التعلم الآلي أو التقنيات ذات الصلة."

عنوان شروط استخدام Google Generative AI:

ماذا عن شروط استخدام OpenAI؟ على غرار Google ، "لا يجوز لك استخدام مخرجات هذه الخدمة لتطوير نماذج تنافس OpenAI."

عنوان شروط استخدام OpenAI:

تتمتع هذه الشركات بالذكاء الكافي لتعلم أن المحتوى عالي الجودة أمر بالغ الأهمية لتدريب نماذج الذكاء الاصطناعي الجديدة ، لذلك من المنطقي عدم السماح للآخرين باستخدام مخرجاتهم بهذه الطريقة. ولكن كيف يفسرون استخدامهم المتهور لبيانات الآخرين لتدريب نماذجهم الخاصة؟

رفضت شركة OpenAI و Google و Anthropic طلب Insider للتعليق ولم ترد.

رديت وتويتر وغيرهما: كفى يكفي

في الواقع ، لم تكن الشركات الأخرى سعيدة عندما أدركت ما كان يحدث. في أبريل ، تخطط Reddit ، التي تم استخدامها لسنوات لتدريب نماذج الذكاء الاصطناعي ، لبدء فرض رسوم للوصول إلى بياناتها.

قال ستيف هوفمان ، الرئيس التنفيذي لشركة Reddit ، "إن مجموعة بيانات Reddit ذات قيمة كبيرة بحيث لا يمكننا التخلي عن هذه القيمة مجانًا لأكبر الشركات في العالم."

وفي أبريل من هذا العام أيضًا ، اتهم ماسك الداعم الرئيسي لشركة OpenAI Microsoft باستخدام بيانات Twitter بشكل غير قانوني لتدريب نماذج الذكاء الاصطناعي. وكتب على تويتر: "وقت التقاضي".

ولكن رداً على تعليقات Insider ، قالت Microsoft "إن الفرضية خاطئة للغاية ، ولا أعرف حتى من أين أبدأ."

يحاول الرئيس التنفيذي لشركة OpenAI Sam Altman اتخاذ هذا السؤال خطوة إلى الأمام من خلال استكشاف نماذج جديدة للذكاء الاصطناعي تحترم حقوق النشر. قال مؤخرًا ، وفقًا لما أوردته Axios: "نحاول تطوير نموذج حيث إذا كان نظام الذكاء الاصطناعي يستخدم المحتوى الخاص بك ، أو يستخدم أسلوبك ، فإنك تحصل على أموال مقابل ذلك".

سيكون للناشرين (بما في ذلك المطلعون) مصلحة خاصة. بالإضافة إلى ذلك ، يدفع بعض الناشرين ، بما في ذلك شركة News Corporation الأمريكية ، بالفعل شركات التكنولوجيا للدفع مقابل استخدام محتواها لتدريب نماذج الذكاء الاصطناعي.

أسلوب التدريب الحالي لنموذج الذكاء الاصطناعي "يكسر" الشبكة

قال بعض المسؤولين التنفيذيين السابقين في Microsoft أنه لا بد أن تكون هناك مشكلة. يعتقد ستيفن سينوفسكي ، مطور البرامج المخضرم والمعروف في Microsoft ، أن الطريقة الحالية لتدريب نماذج الذكاء الاصطناعي "تكسر" الشبكة.

وكتب على Twitter ، "في الماضي ، كانت بيانات الزحف تُستخدم مقابل معدلات النقر إلى الظهور. لكنها الآن تُستخدم فقط لتدريب نموذج ولا تقدم أي قيمة للمبدعين ومالكي حقوق الطبع والنشر."

ربما ، مع استيقاظ المزيد من الشركات ، سيتم تغيير هذا الاستخدام غير المتكافئ للبيانات في عصر الذكاء الاصطناعي التوليدي قريبًا.

الرابط الأصلي: *

شاهد النسخة الأصلية

المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.