OpenAI と Google Play の二重標準: 他人のデータで大規模なモデルをトレーニングするが、自分のデータが流出することは決して許さない

2023-06-05 04:23:26

編集者: Du Wei、Zi Wen

生成 AI の新時代において、大手ハイテク企業はオンラインコンテンツを利用する際に「私が行うことではなく、私の言うとおりにする」戦略を追求しています。この戦略はある意味、二重基準であり発言権の濫用であると言える。

同時に、大規模言語モデル (LLM) が AI 開発の主流のトレンドになっているため、大企業も新興企業も独自の大規模モデルの開発に努力を惜しんでいません。その中でも、トレーニングデータは大規模モデルの品質にとって重要な前提条件です。

最近、Insider レポートによると、Microsoft が支援する OpenAI、Google、およびその支援を受ける Anthropic は、他の Web サイトや企業のオンラインコンテンツを利用して、生成 AI モデルをトレーニングしてきました。これはすべて、特定の許可を求めることなく行われたもので、ウェブの将来とこの新しい時代における著作権法の適用方法を決定する、勃発する法廷闘争の一部を形成することになります。

これらの大手テクノロジー企業はフェアユースだと主張するかもしれないが、本当にそうなのかどうかは議論の余地がある。ただし、コンテンツを他の AI モデルのトレーニングに使用することは許可しません。そこで疑問が生じます。なぜこれらの大手テクノロジー企業は、自社の大規模モデルをトレーニングする際に他社のオンラインコンテンツを使用できるのでしょうか?

これらの企業は賢いですが、非常に偽善的でもあります

大手ハイテク企業が他人のオンラインコンテンツを使用する一方で、他人が自社の確かな証拠を使用することを許可していないのかどうかは、サービス規約や一部の製品の使用条件で確認できます。

まず、Anthropic が立ち上げた ChatGPT に似た AI アシスタントである Claude を見てみましょう。システムは、要約、検索、作成支援、質問応答、コーディングなどのタスクを実行できます。少し前に再度バージョンアップされ、コンテキストトークンが100kまで拡張され、処理速度が大幅に高速化されました。

クロードの利用規約は以下の通りです。以下の方法でサービスにアクセスしたり使用したりすることはできません (そのうちの一部はここにリストされています)。これらの制限のいずれかが利用規約と矛盾しているか不明瞭な場合は、後者が優先されます。

AI または機械学習のアルゴリズムまたはモデルの開発またはトレーニングを含む、当社のサービスと競合する製品またはサービスを開発すること
本規約で許可されていない当社サービスからのデータや情報のスクレイピング、スクレイピング、その他の取得

クロード利用規約のアドレス:

同様に、Google の生成 AI 利用規約には、「機械学習モデルまたは関連技術を開発するためにサービスを使用することはできません」と記載されています。

Google Generative AI の利用規約のアドレス:

OpenAI の利用規約についてはどうですか? Google と同様に、「このサービスの出力を OpenAI と競合するモデルの開発に使用することはできません。」

OpenAI 利用規約のアドレス:

これらの企業は、新しい AI モデルのトレーニングには高品質のコンテンツが不可欠であることを十分に理解しているため、他社がその出力をこの方法で使用することを許可しないのは理にかなっています。しかし、彼らは、独自のモデルをトレーニングするために他人のデータを無謀に使用することをどのように説明するのでしょうか?

OpenAI、Google、AnthropicはInsiderのコメント要請を拒否し、返答はなかった。

Reddit、Twitter、その他: もう十分です

実際、他の企業も、何が起こっているのかを理解したとき、満足していませんでした。 AI モデルのトレーニングに長年使用されてきた Reddit は 4 月に、そのデータへのアクセスに対する課金を開始する予定です。

Redditの最高経営責任者（CEO）Steve Huffman氏は、「Redditのデータコーパスは非常に価値があるため、その価値を世界最大の企業に無料で提供することはできない」と述べた。

今年4月にもマスク氏は、OpenAIの主要支援者であるマイクロソフト社がTwitterのデータをAIモデルのトレーニングに違法に使用していると非難した。「訴訟の時間だ」と彼はツイートした。

しかし、MicrosoftはInsiderのコメントに対して、「前提があまりにも間違っているので、どこから始めればよいのかさえ分からない」と述べた。

OpenAI CEO の Sam Altman 氏は、著作権を尊重する新しい AI モデルを検討することで、この疑問をさらに一歩進めようとしています。「私たちは、AI システムがあなたのコンテンツやスタイルを使用した場合に、その対価として報酬を受け取るモデルを開発しようとしているのです」と、Axios が報じたように、最近彼は語った。

パブリッシャー (インサイダーを含む) は既得権を有することになります。さらに、米国のニューズ・コーポレーションなど一部の出版社はすでにテクノロジー企業に対し、自社のコンテンツをAIモデルのトレーニングに使用するための料金の支払いを求めている。

現在の AI モデルのトレーニング方法はネットワークを「破壊」します

マイクロソフトの元幹部の中には、何か問題があるはずだと言っている人もいる。 Microsoft のベテランで著名なソフトウェア開発者の Steven Sinofsky 氏は、AI モデルをトレーニングする現在の方法はネットワークを「破壊」すると考えています。

同氏はツイッターで、「以前はクロールデータはクリックスルー率と引き換えに使われていたが、今ではモデルをトレーニングするためにのみ使われており、クリエイターや著作権所有者には何の価値ももたらさない」と書いた。

おそらく、より多くの企業が目覚めれば、生成 AI 時代におけるこの不均一なデータ使用状況はすぐに変わるでしょう。

元のリンク:

原文表示

内容は参考用であり、勧誘やオファーではありません。投資、税務、または法律に関するアドバイスは提供されません。リスク開示の詳細については、免責事項を参照してください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
#BTC#
236k 投稿
#PI#
217k 投稿
#ETH#
151k 投稿
4#GateioInto11#
80k 投稿
5#ContentStar#
67k 投稿
6#GT#
65k 投稿
7#BOME#
61k 投稿
8#DOGE#
59k 投稿
9#MAGA#
53k 投稿
10#SLERF#
51k 投稿

ピン

サイトマップ