Di era baru AI generatif, perusahaan teknologi besar mengejar strategi "lakukan apa yang saya katakan, bukan seperti yang saya lakukan" saat mengonsumsi konten online. Sampai batas tertentu, strategi ini dapat dikatakan sebagai standar ganda dan penyalahgunaan hak berbicara.
Pada saat yang sama, karena model bahasa besar (LLM) telah menjadi tren arus utama pengembangan AI, baik perusahaan besar maupun perusahaan pemula berusaha keras untuk mengembangkan model besar mereka sendiri. Diantaranya, data pelatihan merupakan prasyarat penting untuk kualitas model besar.
Baru-baru ini, menurut laporan Insider, OpenAI yang didukung Microsoft, Google dan Anthropic yang didukungnya telah menggunakan konten online dari situs web atau perusahaan lain untuk melatih model AI generatif mereka selama bertahun-tahun. Ini semua dilakukan tanpa meminta izin khusus, dan akan menjadi bagian dari pertarungan hukum yang akan menentukan masa depan web dan bagaimana hukum hak cipta diterapkan di era baru ini.
Perusahaan teknologi besar ini mungkin berargumen bahwa mereka menggunakan wajar, tetapi apakah itu benar-benar masalahnya masih bisa diperdebatkan. Tapi mereka tidak akan membiarkan kontennya digunakan untuk melatih model AI lainnya. Sehingga menimbulkan pertanyaan, mengapa perusahaan teknologi besar ini dapat menggunakan konten online dari perusahaan lain saat melatih model besar mereka?
Perusahaan-perusahaan ini cerdas, tetapi juga sangat munafik
Apakah perusahaan teknologi besar menggunakan konten online orang lain tetapi tidak mengizinkan orang lain menggunakan bukti kuat mereka sendiri, dapat dilihat dari persyaratan layanan dan penggunaan beberapa produk mereka.
Mari kita lihat Claude, asisten AI yang mirip dengan ChatGPT yang diluncurkan oleh Anthropic. Sistem dapat menyelesaikan tugas-tugas seperti peringkasan, pencarian, pembuatan bantuan, menjawab pertanyaan, dan pengkodean. Beberapa waktu lalu, itu ditingkatkan lagi, dan token konteks diperpanjang hingga 100k, dan kecepatan pemrosesan dipercepat secara signifikan.
Persyaratan layanan Claude adalah sebagai berikut. Anda tidak boleh mengakses atau menggunakan Layanan dengan cara berikut (beberapa di antaranya tercantum di sini), dan sejauh salah satu dari pembatasan ini tidak sesuai atau tidak jelas dengan Kebijakan Penggunaan yang Dapat Diterima, yang terakhir akan berlaku:
mengembangkan produk atau layanan apa pun yang bersaing dengan Layanan kami, termasuk mengembangkan atau melatih algoritme atau model AI atau pembelajaran mesin apa pun
Menggores, mengorek, atau memperoleh data atau informasi dari layanan kami yang tidak diizinkan oleh Ketentuan
Alamat Persyaratan Layanan Claude:
Demikian pula, Persyaratan Penggunaan AI Generatif Google menyatakan, "Anda tidak boleh menggunakan Layanan untuk mengembangkan model pembelajaran mesin atau teknik terkait."
Alamat persyaratan penggunaan Google Generative AI:
Bagaimana dengan ketentuan penggunaan OpenAI? Mirip dengan Google, "Anda tidak boleh menggunakan keluaran layanan ini untuk mengembangkan model yang bersaing dengan OpenAI."
Alamat ketentuan penggunaan OpenAI:
Perusahaan-perusahaan ini cukup pintar untuk mengetahui bahwa konten berkualitas tinggi sangat penting untuk melatih model AI baru, jadi masuk akal untuk tidak mengizinkan orang lain menggunakan output mereka dengan cara ini. Tapi bagaimana mereka menjelaskan penggunaan data orang lain secara sembrono untuk melatih model mereka sendiri?
OpenAI, Google, dan Anthropic menolak permintaan komentar dari Insider dan tidak menanggapi.
Reddit, Twitter, dan lainnya: Cukup sudah
Nyatanya, perusahaan lain tidak senang ketika mereka menyadari apa yang sedang terjadi. Pada bulan April, Reddit, yang telah digunakan selama bertahun-tahun untuk melatih model AI, berencana mulai membebankan biaya untuk akses ke datanya.
CEO Reddit Steve Huffman berkata, "Korpus data Reddit sangat berharga sehingga kami tidak dapat memberikan nilai tersebut secara gratis kepada perusahaan terbesar di dunia."
Juga pada bulan April tahun ini, Musk menuduh pendukung utama OpenAI, Microsoft, secara ilegal menggunakan data Twitter untuk melatih model AI. "Waktu litigasi," cuitnya.
Namun dalam menanggapi komentar Insider, Microsoft mengatakan "premisnya sangat salah, saya bahkan tidak tahu harus mulai dari mana."
CEO OpenAI Sam Altman mencoba menjawab pertanyaan ini selangkah lebih maju dengan mengeksplorasi model AI baru yang menghormati hak cipta. “Kami mencoba mengembangkan model di mana jika sistem AI menggunakan konten Anda, atau menggunakan gaya Anda, Anda dibayar untuk itu,” katanya baru-baru ini, seperti dilansir Axios.
Penerbit (termasuk Orang Dalam) akan memiliki kepentingan pribadi. Selain itu, beberapa penerbit, termasuk News Corporation of the United States, telah mendorong perusahaan teknologi untuk membayar penggunaan konten mereka untuk melatih model AI.
Metode pelatihan model AI saat ini "menghancurkan" jaringan
Beberapa mantan eksekutif Microsoft mengatakan bahwa pasti ada masalah. Veteran Microsoft dan pengembang perangkat lunak terkenal Steven Sinofsky percaya bahwa cara pelatihan model AI saat ini "menghancurkan" jaringan.
Dia menulis di Twitter, "Di masa lalu, data perayapan digunakan sebagai imbalan untuk rasio klik-tayang. Tapi sekarang ini hanya digunakan untuk melatih model dan tidak memberikan nilai apa pun kepada pencipta dan pemilik hak cipta."
Mungkin, seiring semakin banyak perusahaan yang bangkit, penggunaan data yang tidak merata di era AI generatif ini akan segera berubah.
Tautan Asli:
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
OpenAI dan Google bermain dengan standar ganda: melatih model besar dengan data orang lain, tetapi tidak pernah membiarkan data mereka mengalir keluar
Editor: Du Wei, Zi Wen
Di era baru AI generatif, perusahaan teknologi besar mengejar strategi "lakukan apa yang saya katakan, bukan seperti yang saya lakukan" saat mengonsumsi konten online. Sampai batas tertentu, strategi ini dapat dikatakan sebagai standar ganda dan penyalahgunaan hak berbicara.
Pada saat yang sama, karena model bahasa besar (LLM) telah menjadi tren arus utama pengembangan AI, baik perusahaan besar maupun perusahaan pemula berusaha keras untuk mengembangkan model besar mereka sendiri. Diantaranya, data pelatihan merupakan prasyarat penting untuk kualitas model besar.
Baru-baru ini, menurut laporan Insider, OpenAI yang didukung Microsoft, Google dan Anthropic yang didukungnya telah menggunakan konten online dari situs web atau perusahaan lain untuk melatih model AI generatif mereka selama bertahun-tahun. Ini semua dilakukan tanpa meminta izin khusus, dan akan menjadi bagian dari pertarungan hukum yang akan menentukan masa depan web dan bagaimana hukum hak cipta diterapkan di era baru ini.
Perusahaan-perusahaan ini cerdas, tetapi juga sangat munafik
Apakah perusahaan teknologi besar menggunakan konten online orang lain tetapi tidak mengizinkan orang lain menggunakan bukti kuat mereka sendiri, dapat dilihat dari persyaratan layanan dan penggunaan beberapa produk mereka.
Mari kita lihat Claude, asisten AI yang mirip dengan ChatGPT yang diluncurkan oleh Anthropic. Sistem dapat menyelesaikan tugas-tugas seperti peringkasan, pencarian, pembuatan bantuan, menjawab pertanyaan, dan pengkodean. Beberapa waktu lalu, itu ditingkatkan lagi, dan token konteks diperpanjang hingga 100k, dan kecepatan pemrosesan dipercepat secara signifikan.
Persyaratan layanan Claude adalah sebagai berikut. Anda tidak boleh mengakses atau menggunakan Layanan dengan cara berikut (beberapa di antaranya tercantum di sini), dan sejauh salah satu dari pembatasan ini tidak sesuai atau tidak jelas dengan Kebijakan Penggunaan yang Dapat Diterima, yang terakhir akan berlaku:
Alamat Persyaratan Layanan Claude:
Demikian pula, Persyaratan Penggunaan AI Generatif Google menyatakan, "Anda tidak boleh menggunakan Layanan untuk mengembangkan model pembelajaran mesin atau teknik terkait."
Bagaimana dengan ketentuan penggunaan OpenAI? Mirip dengan Google, "Anda tidak boleh menggunakan keluaran layanan ini untuk mengembangkan model yang bersaing dengan OpenAI."
Perusahaan-perusahaan ini cukup pintar untuk mengetahui bahwa konten berkualitas tinggi sangat penting untuk melatih model AI baru, jadi masuk akal untuk tidak mengizinkan orang lain menggunakan output mereka dengan cara ini. Tapi bagaimana mereka menjelaskan penggunaan data orang lain secara sembrono untuk melatih model mereka sendiri?
OpenAI, Google, dan Anthropic menolak permintaan komentar dari Insider dan tidak menanggapi.
Reddit, Twitter, dan lainnya: Cukup sudah
Nyatanya, perusahaan lain tidak senang ketika mereka menyadari apa yang sedang terjadi. Pada bulan April, Reddit, yang telah digunakan selama bertahun-tahun untuk melatih model AI, berencana mulai membebankan biaya untuk akses ke datanya.
CEO Reddit Steve Huffman berkata, "Korpus data Reddit sangat berharga sehingga kami tidak dapat memberikan nilai tersebut secara gratis kepada perusahaan terbesar di dunia."
Juga pada bulan April tahun ini, Musk menuduh pendukung utama OpenAI, Microsoft, secara ilegal menggunakan data Twitter untuk melatih model AI. "Waktu litigasi," cuitnya.
CEO OpenAI Sam Altman mencoba menjawab pertanyaan ini selangkah lebih maju dengan mengeksplorasi model AI baru yang menghormati hak cipta. “Kami mencoba mengembangkan model di mana jika sistem AI menggunakan konten Anda, atau menggunakan gaya Anda, Anda dibayar untuk itu,” katanya baru-baru ini, seperti dilansir Axios.
Penerbit (termasuk Orang Dalam) akan memiliki kepentingan pribadi. Selain itu, beberapa penerbit, termasuk News Corporation of the United States, telah mendorong perusahaan teknologi untuk membayar penggunaan konten mereka untuk melatih model AI.
Metode pelatihan model AI saat ini "menghancurkan" jaringan
Beberapa mantan eksekutif Microsoft mengatakan bahwa pasti ada masalah. Veteran Microsoft dan pengembang perangkat lunak terkenal Steven Sinofsky percaya bahwa cara pelatihan model AI saat ini "menghancurkan" jaringan.
Dia menulis di Twitter, "Di masa lalu, data perayapan digunakan sebagai imbalan untuk rasio klik-tayang. Tapi sekarang ini hanya digunakan untuk melatih model dan tidak memberikan nilai apa pun kepada pencipta dan pemilik hak cipta."
Mungkin, seiring semakin banyak perusahaan yang bangkit, penggunaan data yang tidak merata di era AI generatif ini akan segera berubah.
Tautan Asli: