OpenAI і Google використовують подвійні стандарти: тренують великі моделі з даними інших людей, але ніколи не дозволяють своїм власним даним витікати

Редактори: Ду Вей, Цзи Вен

У нову еру генеративного штучного інтелекту великі технологічні компанії дотримуються стратегії «роби, як я кажу, а не як я», споживаючи онлайн-контент. Певною мірою цю стратегію можна назвати подвійними стандартами та зловживанням правом слова.

У той же час, оскільки велика мовна модель (LLM) стала основною тенденцією розвитку ШІ, як великі, так і компанії-початківці не шкодують зусиль для розробки власних великих моделей. Серед них навчальні дані є важливою передумовою для якості великої моделі.

Нещодавно, згідно зі звітами Insider, OpenAI, що підтримується Microsoft, Google і Anthropic, що їх підтримує, роками використовують онлайн-контент з інших веб-сайтів або компаній для навчання своїх генеративних моделей AI. Все це було зроблено без запиту спеціального дозволу, і стане частиною судової битви, що назріває, яка визначить майбутнє Інтернету та застосування закону про авторське право в цю нову еру.

Ці великі технологічні компанії можуть стверджувати, що вони є добросовісним використанням, але чи це справді так, залишається спірним. Але вони не дозволять використовувати свій контент для навчання інших моделей ШІ. Тож виникає запитання, чому ці великі технологічні компанії можуть використовувати онлайн-контент інших компаній під час навчання своїх великих моделей?

Ці компанії розумні, але водночас і дуже лицемірні

Те, чи великі технологічні компанії використовують онлайн-контент інших людей, але не дозволяють іншим використовувати їхні власні вагомі докази, можна побачити в умовах обслуговування та використання деяких їхніх продуктів.

Давайте спочатку подивимося на Claude, помічника зі штучним інтелектом, схожого на ChatGPT, запущеного Anthropic. Система може виконувати такі завдання, як узагальнення, пошук, допоміжне створення, відповіді на запитання та кодування. Деякий час тому його знову оновили, і маркер контексту було розширено до 100 тис., і швидкість обробки була значно прискорена.

Умови обслуговування Клода такі. Ви не маєте права отримувати доступ або використовувати Послугу в такий спосіб (деякі з яких перелічені тут), і якщо будь-яке з цих обмежень суперечить або незрозуміло Політиці прийнятного використання, остання матиме перевагу:

  • розробляти будь-які продукти або послуги, які конкурують з нашими послугами, включно з розробкою або навчанням будь-яких ШІ або алгоритмів або моделей машинного навчання
  • Збирання, копіювання або інше отримання даних чи інформації з наших служб, що не дозволяється Умовами

Адреса Умов використання Клода:

Так само в Умовах використання Generative AI від Google зазначено: «Ви не можете використовувати Сервіс для розробки моделей машинного навчання або пов’язаних методів».

Адреса умов використання Google Generative AI:

Що щодо умов використання OpenAI? Подібно до Google: «Ви не можете використовувати результати цієї служби для розробки моделей, які конкурують з OpenAI».

Адреса умов використання OpenAI:

Ці компанії достатньо розумні, щоб знати, що високоякісний контент має вирішальне значення для навчання нових моделей ШІ, тому має сенс не дозволяти іншим використовувати їхні результати таким чином. Але як вони пояснити необдумане використання чужих даних для навчання власних моделей?

OpenAI, Google і Anthropic відхилили запит Insider на коментар і не відповіли.

Reddit, Twitter та інші: з цього достатньо

Насправді інші компанії не були щасливі, коли зрозуміли, що відбувається. У квітні Reddit, який роками використовувався для навчання моделей ШІ, планує почати платити за доступ до своїх даних.

Генеральний директор Reddit Стів Хаффман сказав: «Корпус даних Reddit настільки цінний, що ми не можемо безкоштовно надати цю цінність найбільшим компаніям світу».

Також у квітні цього року Маск звинуватив головного прихильника OpenAI Microsoft у незаконному використанні даних Twitter для навчання моделей ШІ. «Час судового розгляду», — написав він у Twitter.

Але у відповідь на коментарі Insider Microsoft сказала, що «передумова настільки неправильна, що я навіть не знаю, з чого почати».

Генеральний директор OpenAI Сем Альтман намагається піти на це питання далі, досліджуючи нові моделі ШІ, які поважають авторські права. «Ми намагаємося розробити модель, згідно з якою система штучного інтелекту використовує ваш контент або ваш стиль, вам за це платять», — сказав він нещодавно, як повідомляє Axios.

Видавці (включаючи Інсайдери) матимуть особистий інтерес. Крім того, деякі видавці, зокрема News Corporation із США, вже змушують технологічні компанії платити за використання їх вмісту для навчання моделей ШІ.

Поточний метод навчання моделі ШІ «ламає» мережу

Деякі колишні керівники Microsoft сказали, що проблема повинна бути. Ветеран Microsoft і відомий розробник програмного забезпечення Стівен Сінофскі вважає, що нинішній спосіб навчання моделей ШІ «ламає» мережу.

Він написав у Twitter: «У минулому дані сканування використовувалися в обмін на показники кліків. Але зараз вони використовуються лише для навчання моделі і не приносять жодної цінності творцям і власникам авторських прав».

Можливо, коли все більше компаній прокинуться, це нерівномірне використання даних в епоху генеративного ШІ скоро зміниться.

Оригінальне посилання:

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити