OpenAI et Google jouent avec deux poids deux mesures : entraînez de grands modèles avec les données d'autres personnes, mais ne laissez jamais leurs propres données s'écouler

2023-06-05 04:23:26

Éditeurs : Du Wei, Zi Wen

Dans la nouvelle ère de l'IA générative, les grandes entreprises technologiques poursuivent une stratégie "faites ce que je dis, pas ce que je fais" lorsqu'elles consomment du contenu en ligne. Dans une certaine mesure, cette stratégie peut être qualifiée de double standard et d'abus du droit à la parole.

Dans le même temps, alors que le grand modèle linguistique (LLM) est devenu la tendance dominante du développement de l'IA, les grandes entreprises et les start-up ne ménagent aucun effort pour développer leurs propres grands modèles. Parmi elles, les données d'entraînement sont une condition préalable importante pour la qualité du grand modèle.

Récemment, selon des rapports Insider, ** OpenAI soutenu par Microsoft, Google et son Anthropic soutenu utilisent le contenu en ligne d'autres sites Web ou entreprises pour former leurs modèles d'IA génératifs ** depuis des années. Tout cela a été fait sans demander d'autorisation spécifique et fera partie d'une bataille juridique en cours qui déterminera l'avenir du Web et la manière dont la loi sur le droit d'auteur est appliquée dans cette nouvelle ère.

Ces grandes entreprises technologiques pourraient prétendre qu'elles font un usage équitable, mais la question de savoir si c'est vraiment le cas est discutable. Mais ils ne laisseront pas leur contenu être utilisé pour former d'autres modèles d'IA. Cela soulève donc la question suivante : pourquoi ces grandes entreprises technologiques sont-elles capables d'utiliser le contenu en ligne d'autres entreprises lors de la formation de leurs grands modèles ?

Ces entreprises sont intelligentes, mais aussi très hypocrites

Si les grandes entreprises technologiques utilisent le contenu en ligne d'autres personnes mais n'autorisent pas les autres à utiliser leurs propres preuves tangibles, cela peut être vu dans les conditions de service et d'utilisation de certains de leurs produits.

Intéressons-nous d'abord à Claude, un assistant IA similaire à ChatGPT lancé par Anthropic. Le système peut effectuer des tâches telles que la synthèse, la recherche, la création assistée, la réponse aux questions et le codage. Il y a quelque temps, il a été à nouveau mis à niveau, et le jeton de contexte a été étendu à 100k, et la vitesse de traitement a été considérablement accélérée.

Les conditions de service de Claude sont les suivantes. Vous ne pouvez pas accéder ou utiliser le Service de la manière suivante (dont certaines sont répertoriées ici), et dans la mesure où l'une de ces restrictions est incompatible ou peu claire avec la Politique d'utilisation acceptable, cette dernière prévaudra :

développer des produits ou des services qui sont en concurrence avec nos services, y compris le développement ou la formation de tout algorithme ou modèle d'intelligence artificielle ou d'apprentissage automatique
Le grattage, le grattage ou l'obtention de données ou d'informations de nos services non autorisés par les Conditions

Adresse des conditions d'utilisation de Claude :

De même, les conditions d'utilisation de l'IA générative de Google stipulent : "Vous ne pouvez pas utiliser le service pour développer des modèles d'apprentissage automatique ou des techniques connexes".

Adresse des conditions d'utilisation de Google Generative AI :

Qu'en est-il des conditions d'utilisation d'OpenAI ? Semblable à Google, "Vous ne pouvez pas utiliser la sortie de ce service pour développer des modèles qui concurrencent OpenAI."

Adresse des conditions d'utilisation d'OpenAI :

Ces entreprises sont suffisamment intelligentes pour savoir qu'un contenu de haute qualité est essentiel à la formation de nouveaux modèles d'IA, il est donc logique de ne pas permettre à d'autres d'utiliser leur production de cette manière. Mais comment expliquent-ils leur utilisation imprudente des données d'autres personnes pour former leurs propres modèles ?

OpenAI, Google et Anthropic ont refusé la demande de commentaire d'Insider et n'ont pas répondu.

Reddit, Twitter et autres : ça suffit

En fait, d'autres entreprises n'étaient pas contentes lorsqu'elles ont réalisé ce qui se passait. En avril, Reddit, utilisé depuis des années pour former des modèles d'IA, prévoit de commencer à facturer l'accès à ses données.

Le PDG de Reddit, Steve Huffman, a déclaré: "Le corpus de données de Reddit est si précieux que nous ne pouvons pas donner cette valeur gratuitement aux plus grandes entreprises du monde."

Toujours en avril de cette année, Musk a accusé le principal partisan d'OpenAI, Microsoft, d'utiliser illégalement les données de Twitter pour former des modèles d'IA. "Le temps des litiges", a-t-il tweeté.

Mais en réponse aux commentaires d'Insider, Microsoft a déclaré que "la prémisse est tellement fausse que je ne sais même pas par où commencer".

Le PDG d'OpenAI, Sam Altman, tente d'approfondir cette question en explorant de nouveaux modèles d'IA qui respectent le droit d'auteur. "Nous essayons de développer un modèle où si le système d'IA utilise votre contenu, ou utilise votre style, vous êtes payé pour cela", a-t-il déclaré récemment, comme le rapporte Axios.

Les éditeurs (y compris les initiés) auront un intérêt direct. De plus, certains éditeurs, dont News Corporation des États-Unis, poussent déjà les entreprises technologiques à payer pour utiliser leur contenu pour former des modèles d'IA.

La méthode d'entraînement actuelle du modèle d'IA "casse" le réseau

Certains anciens dirigeants de Microsoft ont déclaré qu'il devait y avoir un problème. Steven Sinofsky, vétéran de Microsoft et développeur de logiciels bien connu, estime que la manière actuelle de former des modèles d'IA "casse" le réseau.

Il a écrit sur Twitter : "Dans le passé, les données d'exploration étaient utilisées en échange de taux de clics. Mais maintenant, elles ne sont utilisées que pour former un modèle et n'apportent aucune valeur aux créateurs et aux titulaires de droits d'auteur."

Peut-être qu'à mesure que de plus en plus d'entreprises se réveilleront, cette utilisation inégale des données à l'ère de l'IA générative sera bientôt modifiée.

Lien d'origine :

Voir l'original

Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#BTC#
237k publications
#PI#
220k publications
#ETH#
152k publications
4#GateioInto11#
80k publications
5#ContentStar#
67k publications
6#GT#
65k publications
7#BOME#
61k publications
8#DOGE#
59k publications
9#MAGA#
53k publications
10#SLERF#
51k publications

Épingler

OpenAI et Google jouent avec deux poids deux mesures : entraînez de grands modèles avec les données d'autres personnes, mais ne laissez jamais leurs propres données s'écouler

Ces entreprises sont intelligentes, mais aussi très hypocrites

Reddit, Twitter et autres : ça suffit

** La méthode d'entraînement actuelle du modèle d'IA "casse" le réseau **

La méthode d'entraînement actuelle du modèle d'IA "casse" le réseau