В новую эру генеративного ИИ крупные технологические компании придерживаются стратегии «делай, как я говорю, а не так, как я делаю» при потреблении онлайн-контента. В определенной степени эту стратегию можно назвать двойным стандартом и злоупотреблением правом на высказывание.
В то же время, поскольку большая языковая модель (LLM) стала мейнстримом развития ИИ, как крупные, так и начинающие компании не жалеют усилий для разработки собственных больших моделей. Среди них обучающие данные являются важной предпосылкой качества большой модели.
В последнее время, согласно отчетам Insider, поддерживаемый Microsoft OpenAI, Google и его Anthropic уже много лет используют онлайн-контент с других веб-сайтов или компаний для обучения своих моделей генеративного ИИ. Все это было сделано без специального разрешения и станет частью назревающей судебной тяжбы, которая определит будущее Интернета и то, как закон об авторском праве применяется в эту новую эру.
Эти крупные технологические компании могут утверждать, что они используются добросовестно, но вопрос о том, так ли это на самом деле, является спорным. Но они не позволят использовать свой контент для обучения других моделей ИИ. Поэтому возникает вопрос, почему эти крупные технологические компании могут использовать онлайн-контент других компаний при обучении своих больших моделей?
Эти компании умны, но очень лицемерны
Используют ли крупные технологические компании онлайн-контент других людей, но не позволяют другим использовать свои собственные неопровержимые доказательства, можно увидеть в условиях обслуживания и использования некоторых из их продуктов.
Давайте сначала посмотрим на Claude, помощника с искусственным интеллектом, похожего на ChatGPT, запущенного Anthropic. Система может выполнять такие задачи, как обобщение, поиск, вспомогательное создание, ответы на вопросы и кодирование. Некоторое время назад он был снова обновлен, и токен контекста был расширен до 100 000, а скорость обработки значительно увеличилась.
Условия обслуживания Клода следующие. Вы не можете получать доступ к Сервису или использовать его следующим образом (некоторые из которых перечислены здесь), и в той мере, в какой любое из этих ограничений несовместимо или неясно с Политикой допустимого использования, последняя имеет преимущественную силу:
разрабатывать любые продукты или услуги, конкурирующие с нашими Услугами, включая разработку или обучение любых алгоритмов или моделей искусственного интеллекта или машинного обучения.
Очистка, очистка или иное получение данных или информации из наших сервисов, не разрешенное Условиями.
Клод Условия предоставления услуг адрес:
Аналогичным образом, в Условиях использования генеративного ИИ Google говорится: «Вы не можете использовать Сервис для разработки моделей машинного обучения или связанных с ними методов».
Адрес условий использования Google Generative AI:
Как насчет условий использования OpenAI? Как и в случае с Google, «вы не можете использовать результаты этого сервиса для разработки моделей, конкурирующих с OpenAI».
Адрес использования OpenAI:
Эти компании достаточно умны, чтобы понимать, что высококачественный контент имеет решающее значение для обучения новых моделей ИИ, поэтому имеет смысл не позволять другим использовать их результаты таким образом. Но как они объясняют безрассудное использование чужих данных для обучения собственных моделей?
OpenAI, Google и Anthropic отклонили запрос Insider о комментариях и не ответили.
Reddit, Twitter и другие: хватит
На самом деле, другие компании были недовольны, когда поняли, что происходит. В апреле Reddit, который годами использовался для обучения моделей ИИ, планирует начать взимать плату за доступ к своим данным.
Генеральный директор Reddit Стив Хаффман сказал: «Корпус данных Reddit настолько ценен, что мы не можем бесплатно раздавать эту ценность крупнейшим компаниям мира».
Также в апреле этого года Маск обвинил главного сторонника OpenAI Microsoft в незаконном использовании данных Twitter для обучения моделей ИИ. «Время судебного разбирательства», — написал он в Твиттере.
Но в ответ на комментарии Insider Microsoft заявила, что «предпосылка настолько неверна, что я даже не знаю, с чего начать».
Генеральный директор OpenAI Сэм Альтман пытается продвинуться дальше в этом вопросе, изучая новые модели ИИ, уважающие авторские права. «Мы пытаемся разработать модель, в которой, если система ИИ использует ваш контент или ваш стиль, вам за это платят», — сказал он недавно, как сообщает Axios.
Издатели (включая инсайдеров) будут иметь личную заинтересованность. Кроме того, некоторые издатели, в том числе News Corporation of United States, уже подталкивают технологические компании к оплате использования их контента для обучения моделей ИИ.
Текущий метод обучения модели ИИ «ломает» сеть
Некоторые бывшие руководители Microsoft сказали, что проблема должна быть. Ветеран Microsoft и известный разработчик программного обеспечения Стивен Синофски считает, что нынешний способ обучения моделей ИИ «ломает» сеть.
Он написал в Твиттере: «Раньше данные сканирования использовались в обмен на рейтинг кликов. Но теперь они используются только для обучения модели и не представляют никакой ценности для создателей и владельцев авторских прав».
Возможно, когда все больше компаний проснутся, это неравномерное использование данных в эпоху генеративного ИИ скоро изменится.
Оригинальная ссылка:
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
OpenAI и Google играют с двойными стандартами: обучают большие модели с данными других людей, но никогда не допускают утечки собственных данных.
Редакторы: Ду Вэй, Цзы Вэнь
В новую эру генеративного ИИ крупные технологические компании придерживаются стратегии «делай, как я говорю, а не так, как я делаю» при потреблении онлайн-контента. В определенной степени эту стратегию можно назвать двойным стандартом и злоупотреблением правом на высказывание.
В то же время, поскольку большая языковая модель (LLM) стала мейнстримом развития ИИ, как крупные, так и начинающие компании не жалеют усилий для разработки собственных больших моделей. Среди них обучающие данные являются важной предпосылкой качества большой модели.
В последнее время, согласно отчетам Insider, поддерживаемый Microsoft OpenAI, Google и его Anthropic уже много лет используют онлайн-контент с других веб-сайтов или компаний для обучения своих моделей генеративного ИИ. Все это было сделано без специального разрешения и станет частью назревающей судебной тяжбы, которая определит будущее Интернета и то, как закон об авторском праве применяется в эту новую эру.
Эти компании умны, но очень лицемерны
Используют ли крупные технологические компании онлайн-контент других людей, но не позволяют другим использовать свои собственные неопровержимые доказательства, можно увидеть в условиях обслуживания и использования некоторых из их продуктов.
Давайте сначала посмотрим на Claude, помощника с искусственным интеллектом, похожего на ChatGPT, запущенного Anthropic. Система может выполнять такие задачи, как обобщение, поиск, вспомогательное создание, ответы на вопросы и кодирование. Некоторое время назад он был снова обновлен, и токен контекста был расширен до 100 000, а скорость обработки значительно увеличилась.
Условия обслуживания Клода следующие. Вы не можете получать доступ к Сервису или использовать его следующим образом (некоторые из которых перечислены здесь), и в той мере, в какой любое из этих ограничений несовместимо или неясно с Политикой допустимого использования, последняя имеет преимущественную силу:
Клод Условия предоставления услуг адрес:
Аналогичным образом, в Условиях использования генеративного ИИ Google говорится: «Вы не можете использовать Сервис для разработки моделей машинного обучения или связанных с ними методов».
Как насчет условий использования OpenAI? Как и в случае с Google, «вы не можете использовать результаты этого сервиса для разработки моделей, конкурирующих с OpenAI».
Эти компании достаточно умны, чтобы понимать, что высококачественный контент имеет решающее значение для обучения новых моделей ИИ, поэтому имеет смысл не позволять другим использовать их результаты таким образом. Но как они объясняют безрассудное использование чужих данных для обучения собственных моделей?
OpenAI, Google и Anthropic отклонили запрос Insider о комментариях и не ответили.
Reddit, Twitter и другие: хватит
На самом деле, другие компании были недовольны, когда поняли, что происходит. В апреле Reddit, который годами использовался для обучения моделей ИИ, планирует начать взимать плату за доступ к своим данным.
Генеральный директор Reddit Стив Хаффман сказал: «Корпус данных Reddit настолько ценен, что мы не можем бесплатно раздавать эту ценность крупнейшим компаниям мира».
Также в апреле этого года Маск обвинил главного сторонника OpenAI Microsoft в незаконном использовании данных Twitter для обучения моделей ИИ. «Время судебного разбирательства», — написал он в Твиттере.
Генеральный директор OpenAI Сэм Альтман пытается продвинуться дальше в этом вопросе, изучая новые модели ИИ, уважающие авторские права. «Мы пытаемся разработать модель, в которой, если система ИИ использует ваш контент или ваш стиль, вам за это платят», — сказал он недавно, как сообщает Axios.
Издатели (включая инсайдеров) будут иметь личную заинтересованность. Кроме того, некоторые издатели, в том числе News Corporation of United States, уже подталкивают технологические компании к оплате использования их контента для обучения моделей ИИ.
Текущий метод обучения модели ИИ «ломает» сеть
Некоторые бывшие руководители Microsoft сказали, что проблема должна быть. Ветеран Microsoft и известный разработчик программного обеспечения Стивен Синофски считает, что нынешний способ обучения моделей ИИ «ломает» сеть.
Он написал в Твиттере: «Раньше данные сканирования использовались в обмен на рейтинг кликов. Но теперь они используются только для обучения модели и не представляют никакой ценности для создателей и владельцев авторских прав».
Возможно, когда все больше компаний проснутся, это неравномерное использование данных в эпоху генеративного ИИ скоро изменится.
Оригинальная ссылка: