OpenAI y Google juegan con estándares dobles: entrenan modelos grandes con datos de otras personas, pero nunca permiten que fluyan sus propios datos

2023-06-05 04:23:26

Editores: Du Wei, Zi Wen

En la nueva era de la IA generativa, las grandes empresas de tecnología están siguiendo una estrategia de "haz lo que digo, no lo que hago" al consumir contenido en línea. En cierta medida, se puede decir que esta estrategia es un doble rasero y un abuso del derecho a la palabra.

Al mismo tiempo, dado que el modelo de lenguaje grande (LLM) se ha convertido en la tendencia principal del desarrollo de IA, tanto las empresas grandes como las nuevas no escatiman esfuerzos para desarrollar sus propios modelos grandes. Entre ellos, los datos de entrenamiento son un requisito previo importante para la calidad del modelo grande.

Recientemente, según los informes de Insider, OpenAI respaldado por Microsoft, Google y su Anthropic respaldado han estado utilizando contenido en línea de otros sitios web o empresas para entrenar sus modelos generativos de IA durante años. Todo esto se hizo sin pedir permiso específico y formará parte de una batalla legal en ciernes que determinará el futuro de la web y cómo se aplica la ley de derechos de autor en esta nueva era.

Estas grandes empresas de tecnología podrían argumentar que son de uso justo, pero es discutible si ese es realmente el caso. Pero no permitirán que su contenido se use para entrenar otros modelos de IA. Entonces surge la pregunta, ¿por qué estas grandes empresas de tecnología pueden usar contenido en línea de otras empresas cuando entrenan a sus grandes modelos?

Estas empresas son inteligentes, pero también muy hipócritas

Si las grandes empresas tecnológicas usan el contenido en línea de otras personas pero no permiten que otros usen su propia evidencia sólida, se puede ver en los términos de servicio y uso de algunos de sus productos.

Veamos primero a Claude, un asistente de inteligencia artificial similar a ChatGPT lanzado por Anthropic. El sistema puede completar tareas como resumen, búsqueda, creación asistida, respuesta a preguntas y codificación. Hace algún tiempo, se actualizó nuevamente, y el token de contexto se amplió a 100k, y la velocidad de procesamiento se aceleró considerablemente.

Los términos de servicio de Claude son los siguientes. No puede acceder ni utilizar el Servicio de la siguiente manera (algunas de las cuales se enumeran aquí), y en la medida en que cualquiera de estas restricciones sea inconsistente o poco clara con la Política de uso aceptable, prevalecerá esta última:

desarrollar cualquier producto o servicio que compita con nuestros Servicios, incluido el desarrollo o la capacitación de algoritmos o modelos de inteligencia artificial o aprendizaje automático
Raspar, raspar u obtener de otro modo datos o información de nuestros servicios no permitidos por los Términos

Términos de servicio de Claude Dirección:

Del mismo modo, los Términos de uso de IA generativa de Google establecen que "no puede usar el Servicio para desarrollar modelos de aprendizaje automático o técnicas relacionadas".

Dirección de los términos de uso de Google Generative AI:

¿Qué pasa con los términos de uso de OpenAI? Al igual que Google, "no puede usar el resultado de este servicio para desarrollar modelos que compitan con OpenAI".

Dirección de términos de uso de OpenAI:

Estas empresas son lo suficientemente inteligentes como para saber que el contenido de alta calidad es fundamental para entrenar nuevos modelos de IA, por lo que tiene sentido no permitir que otros utilicen su producción de esta manera. Pero, ¿cómo explican su uso imprudente de los datos de otras personas para entrenar sus propios modelos?

OpenAI, Google y Anthropic rechazaron la solicitud de comentarios de Insider y no respondieron.

Reddit, Twitter y otros: Ya es suficiente

De hecho, otras empresas no estaban contentas cuando se dieron cuenta de lo que estaba pasando. En abril, Reddit, que se ha utilizado durante años para entrenar modelos de IA, planea comenzar a cobrar por el acceso a sus datos.

El CEO de Reddit, Steve Huffman, dijo: "El corpus de datos de Reddit es tan valioso que no podemos regalar ese valor a las empresas más grandes del mundo".

También en abril de este año, Musk acusó al principal partidario de OpenAI, Microsoft, de usar ilegalmente los datos de Twitter para entrenar modelos de IA. "Tiempo de litigio", tuiteó.

Pero en respuesta a los comentarios de Insider, Microsoft dijo que "la premisa es tan incorrecta que ni siquiera sé por dónde empezar".

El CEO de OpenAI, Sam Altman, intenta llevar esta pregunta un paso más allá al explorar nuevos modelos de IA que respetan los derechos de autor. “Estamos tratando de desarrollar un modelo en el que si el sistema de IA usa tu contenido o usa tu estilo, te pagan por ello”, dijo recientemente, según informó Axios.

Los editores (incluidos los Insiders) tendrán un interés personal. Además, algunos editores, incluida News Corporation de los Estados Unidos, ya están presionando a las empresas de tecnología para que paguen por usar su contenido para entrenar modelos de IA.

El método de entrenamiento del modelo de IA actual "rompe" la red

Algunos ex ejecutivos de Microsoft dijeron que debe haber un problema. El veterano y conocido desarrollador de software de Microsoft, Steven Sinofsky, cree que la forma actual de entrenar modelos de IA "rompe" la red.

Escribió en Twitter: "En el pasado, los datos de rastreo se usaban a cambio de tasas de clics. Pero ahora solo se usan para entrenar un modelo y no aporta ningún valor a los creadores ni a los propietarios de los derechos de autor".

Tal vez, a medida que más empresas despierten, este uso desigual de datos en la era de la IA generativa pronto cambiará.

Enlace original:

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
238k publicaciones
#PI#
226k publicaciones
#ETH#
152k publicaciones
4#GateioInto11#
80k publicaciones
5#ContentStar#
67k publicaciones
6#GT#
65k publicaciones
7#BOME#
61k publicaciones
8#DOGE#
59k publicaciones
9#MAGA#
53k publicaciones
10#SLERF#
51k publicaciones

Anclado