生成 AI の新時代において、大手ハイテク企業はオンライン コンテンツを利用する際に「私が行うことではなく、私の言うとおりにする」戦略を追求しています。この戦略はある意味、二重基準であり発言権の濫用であると言える。
同時に、大規模言語モデル (LLM) が AI 開発の主流のトレンドになっているため、大企業も新興企業も独自の大規模モデルの開発に努力を惜しんでいません。その中でも、トレーニング データは大規模モデルの品質にとって重要な前提条件です。
最近、Insider レポートによると、Microsoft が支援する OpenAI、Google、およびその支援を受ける Anthropic は、他の Web サイトや企業のオンライン コンテンツを利用して、生成 AI モデルをトレーニングしてきました。これはすべて、特定の許可を求めることなく行われたもので、ウェブの将来とこの新しい時代における著作権法の適用方法を決定する、勃発する法廷闘争の一部を形成することになります。
これらの大手テクノロジー企業はフェアユースだと主張するかもしれないが、本当にそうなのかどうかは議論の余地がある。ただし、コンテンツを他の AI モデルのトレーニングに使用することは許可しません。そこで疑問が生じます。なぜこれらの大手テクノロジー企業は、自社の大規模モデルをトレーニングする際に他社のオンライン コンテンツを使用できるのでしょうか?
まず、Anthropic が立ち上げた ChatGPT に似た AI アシスタントである Claude を見てみましょう。システムは、要約、検索、作成支援、質問応答、コーディングなどのタスクを実行できます。少し前に再度バージョンアップされ、コンテキストトークンが100kまで拡張され、処理速度が大幅に高速化されました。
同様に、Google の生成 AI 利用規約には、「機械学習モデルまたは関連技術を開発するためにサービスを使用することはできません」と記載されています。
Google Generative AI の利用規約のアドレス:
OpenAI の利用規約についてはどうですか? Google と同様に、「このサービスの出力を OpenAI と競合するモデルの開発に使用することはできません。」
OpenAI 利用規約のアドレス:
これらの企業は、新しい AI モデルのトレーニングには高品質のコンテンツが不可欠であることを十分に理解しているため、他社がその出力をこの方法で使用することを許可しないのは理にかなっています。しかし、彼らは、独自のモデルをトレーニングするために他人のデータを無謀に使用することをどのように説明するのでしょうか?
OpenAI CEO の Sam Altman 氏は、著作権を尊重する新しい AI モデルを検討することで、この疑問をさらに一歩進めようとしています。 「私たちは、AI システムがあなたのコンテンツやスタイルを使用した場合に、その対価として報酬を受け取るモデルを開発しようとしているのです」と、Axios が報じたように、最近彼は語った。
OpenAI と Google Play の二重標準: 他人のデータで大規模なモデルをトレーニングするが、自分のデータが流出することは決して許さない
編集者: Du Wei、Zi Wen
生成 AI の新時代において、大手ハイテク企業はオンライン コンテンツを利用する際に「私が行うことではなく、私の言うとおりにする」戦略を追求しています。この戦略はある意味、二重基準であり発言権の濫用であると言える。
同時に、大規模言語モデル (LLM) が AI 開発の主流のトレンドになっているため、大企業も新興企業も独自の大規模モデルの開発に努力を惜しんでいません。その中でも、トレーニング データは大規模モデルの品質にとって重要な前提条件です。
最近、Insider レポートによると、Microsoft が支援する OpenAI、Google、およびその支援を受ける Anthropic は、他の Web サイトや企業のオンライン コンテンツを利用して、生成 AI モデルをトレーニングしてきました。これはすべて、特定の許可を求めることなく行われたもので、ウェブの将来とこの新しい時代における著作権法の適用方法を決定する、勃発する法廷闘争の一部を形成することになります。
これらの企業は賢いですが、非常に偽善的でもあります
大手ハイテク企業が他人のオンライン コンテンツを使用する一方で、他人が自社の確かな証拠を使用することを許可していないのかどうかは、サービス規約や一部の製品の使用条件で確認できます。
まず、Anthropic が立ち上げた ChatGPT に似た AI アシスタントである Claude を見てみましょう。システムは、要約、検索、作成支援、質問応答、コーディングなどのタスクを実行できます。少し前に再度バージョンアップされ、コンテキストトークンが100kまで拡張され、処理速度が大幅に高速化されました。
クロードの利用規約は以下の通りです。以下の方法でサービスにアクセスしたり使用したりすることはできません (そのうちの一部はここにリストされています)。これらの制限のいずれかが利用規約と矛盾しているか不明瞭な場合は、後者が優先されます。
クロード利用規約のアドレス:
同様に、Google の生成 AI 利用規約には、「機械学習モデルまたは関連技術を開発するためにサービスを使用することはできません」と記載されています。
OpenAI の利用規約についてはどうですか? Google と同様に、「このサービスの出力を OpenAI と競合するモデルの開発に使用することはできません。」
これらの企業は、新しい AI モデルのトレーニングには高品質のコンテンツが不可欠であることを十分に理解しているため、他社がその出力をこの方法で使用することを許可しないのは理にかなっています。しかし、彼らは、独自のモデルをトレーニングするために他人のデータを無謀に使用することをどのように説明するのでしょうか?
OpenAI、Google、AnthropicはInsiderのコメント要請を拒否し、返答はなかった。
Reddit、Twitter、その他: もう十分です
実際、他の企業も、何が起こっているのかを理解したとき、満足していませんでした。 AI モデルのトレーニングに長年使用されてきた Reddit は 4 月に、そのデータへのアクセスに対する課金を開始する予定です。
Redditの最高経営責任者(CEO)Steve Huffman氏は、「Redditのデータコーパスは非常に価値があるため、その価値を世界最大の企業に無料で提供することはできない」と述べた。
今年4月にもマスク氏は、OpenAIの主要支援者であるマイクロソフト社がTwitterのデータをAIモデルのトレーニングに違法に使用していると非難した。 「訴訟の時間だ」と彼はツイートした。
OpenAI CEO の Sam Altman 氏は、著作権を尊重する新しい AI モデルを検討することで、この疑問をさらに一歩進めようとしています。 「私たちは、AI システムがあなたのコンテンツやスタイルを使用した場合に、その対価として報酬を受け取るモデルを開発しようとしているのです」と、Axios が報じたように、最近彼は語った。
パブリッシャー (インサイダーを含む) は既得権を有することになります。さらに、米国のニューズ・コーポレーションなど一部の出版社はすでにテクノロジー企業に対し、自社のコンテンツをAIモデルのトレーニングに使用するための料金の支払いを求めている。
現在の AI モデルのトレーニング方法はネットワークを「破壊」します
マイクロソフトの元幹部の中には、何か問題があるはずだと言っている人もいる。 Microsoft のベテランで著名なソフトウェア開発者の Steven Sinofsky 氏は、AI モデルをトレーニングする現在の方法はネットワークを「破壊」すると考えています。
同氏はツイッターで、「以前はクロールデータはクリックスルー率と引き換えに使われていたが、今ではモデルをトレーニングするためにのみ使われており、クリエイターや著作権所有者には何の価値ももたらさない」と書いた。
おそらく、より多くの企業が目覚めれば、生成 AI 時代におけるこの不均一なデータ使用状況はすぐに変わるでしょう。
元のリンク: