OpenAI và Google chơi với tiêu chuẩn kép: đào tạo các mô hình lớn bằng dữ liệu của người khác, nhưng không bao giờ cho phép dữ liệu của chính họ bị rò rỉ

2023-06-05 04:23:26

Biên tập: Đỗ Duy, Tử Văn

Trong kỷ nguyên mới của trí tuệ nhân tạo AI, các công ty công nghệ lớn đang theo đuổi chiến lược "làm như tôi nói, không phải như tôi làm" khi sử dụng nội dung trực tuyến. Ở một chừng mực nào đó, có thể nói sách lược này là tiêu chuẩn kép và lạm quyền.

Đồng thời, khi mô hình ngôn ngữ lớn (LLM) đã trở thành xu hướng chủ đạo trong phát triển AI, cả các công ty lớn và công ty mới thành lập đều nỗ lực hết sức để phát triển các mô hình lớn của riêng họ. Trong số đó, dữ liệu huấn luyện là tiền đề quan trọng quyết định chất lượng của mô hình lớn.

Gần đây, theo báo cáo của Người trong cuộc, OpenAI do Microsoft hậu thuẫn, Google và Anthropic do họ hậu thuẫn đã sử dụng nội dung trực tuyến từ các trang web hoặc công ty khác để đào tạo các mô hình AI tổng quát của họ trong nhiều năm. Tất cả điều này được thực hiện mà không xin phép cụ thể và sẽ tạo thành một phần của cuộc chiến pháp lý đang diễn ra sẽ quyết định tương lai của web và cách luật bản quyền được áp dụng trong kỷ nguyên mới này.

Các công ty công nghệ lớn này có thể lập luận rằng họ sử dụng hợp lý, nhưng liệu điều đó có thực sự đúng như vậy hay không vẫn còn gây tranh cãi. Nhưng họ sẽ không để nội dung của họ được sử dụng để đào tạo các mô hình AI khác. Vì vậy, nó đặt ra câu hỏi, tại sao các công ty công nghệ lớn này có thể sử dụng nội dung trực tuyến từ các công ty khác khi đào tạo các mô hình lớn của họ?

Những công ty này rất thông minh, nhưng cũng rất đạo đức giả

Việc các công ty công nghệ lớn có sử dụng nội dung trực tuyến của người khác nhưng không cho phép người khác sử dụng bằng chứng xác thực của riêng họ hay không, có thể được nhìn thấy trong các điều khoản dịch vụ và việc sử dụng một số sản phẩm của họ.

Trước tiên, hãy xem xét Claude, một trợ lý AI tương tự như ChatGPT do Anthropic ra mắt. Hệ thống có thể hoàn thành các tác vụ như tóm tắt, tìm kiếm, tạo có hỗ trợ, trả lời câu hỏi và viết mã. Cách đây một thời gian, nó đã được nâng cấp lại và mã thông báo ngữ cảnh được mở rộng lên 100 nghìn và tốc độ xử lý được tăng tốc đáng kể.

Điều khoản dịch vụ của Claude như sau. Bạn không thể truy cập hoặc sử dụng Dịch vụ theo cách sau (một số cách được liệt kê ở đây) và trong phạm vi bất kỳ hạn chế nào trong số này không nhất quán hoặc không rõ ràng với Chính sách sử dụng được chấp nhận, thì chính sách sau sẽ được áp dụng:

phát triển bất kỳ sản phẩm hoặc dịch vụ nào cạnh tranh với Dịch vụ của chúng tôi, bao gồm phát triển hoặc đào tạo bất kỳ thuật toán hoặc mô hình AI hoặc máy học nào
Cạo, cạo hoặc lấy dữ liệu hoặc thông tin từ các dịch vụ của chúng tôi không được Điều khoản cho phép

Điều khoản dịch vụ của Claude Địa chỉ:

Tương tự như vậy, Điều khoản sử dụng AI sáng tạo của Google nêu rõ: "Bạn không được sử dụng Dịch vụ để phát triển các mô hình máy học hoặc các kỹ thuật liên quan."

Địa chỉ điều khoản sử dụng AI Generative của Google:

Điều khoản sử dụng của OpenAI thì sao? Tương tự như Google, "Bạn không được sử dụng đầu ra của dịch vụ này để phát triển các mô hình cạnh tranh với OpenAI."

Địa chỉ điều khoản sử dụng OpenAI:

Các công ty này đủ thông minh để biết rằng nội dung chất lượng cao là rất quan trọng để đào tạo các mô hình AI mới, do đó, không cho phép người khác sử dụng kết quả đầu ra của họ theo cách này là điều hợp lý. Nhưng họ giải thích thế nào về việc sử dụng dữ liệu của người khác một cách liều lĩnh để đào tạo các mô hình của chính họ?

OpenAI, Google và Anthropic đã từ chối yêu cầu bình luận của Insider và không phản hồi.

Reddit, Twitter và những thứ khác: Đủ rồi

Trên thực tế, các công ty khác đã không hài lòng khi họ nhận ra điều gì đang xảy ra. Vào tháng 4, Reddit, đã được sử dụng trong nhiều năm để đào tạo các mô hình AI, có kế hoạch bắt đầu tính phí truy cập vào dữ liệu của nó.

Giám đốc điều hành Reddit Steve Huffman cho biết, "kho dữ liệu của Reddit rất quý giá nên chúng tôi không thể cung cấp miễn phí giá trị đó cho các công ty lớn nhất trên thế giới."

Cũng trong tháng 4 năm nay, Musk cáo buộc đối tác hỗ trợ chính của OpenAI là Microsoft sử dụng trái phép dữ liệu của Twitter để huấn luyện các mô hình AI. "Thời gian kiện tụng," anh ấy đã tweet.

Nhưng đáp lại những bình luận của Insider, Microsoft cho biết "tiền đề quá sai lầm, tôi thậm chí không biết bắt đầu từ đâu."

Giám đốc điều hành OpenAI Sam Altman cố gắng đưa câu hỏi này tiến thêm một bước bằng cách khám phá các mô hình AI mới tôn trọng bản quyền. “Chúng tôi đang cố gắng phát triển một mô hình mà nếu hệ thống AI sử dụng nội dung của bạn hoặc sử dụng phong cách của bạn, thì bạn sẽ được trả tiền cho nó,” anh ấy nói gần đây, theo báo cáo của Axios.

Các nhà xuất bản (bao gồm cả Người trong cuộc) sẽ có quyền lợi nhất định. Ngoài ra, một số nhà xuất bản, bao gồm News Corporation của Hoa Kỳ, đã thúc đẩy các công ty công nghệ trả tiền để sử dụng nội dung của họ để đào tạo các mô hình AI.

Phương pháp đào tạo mô hình AI hiện tại "phá vỡ" mạng

Một số cựu giám đốc điều hành của Microsoft nói rằng phải có vấn đề. Steven Sinofsky, nhà phát triển phần mềm kỳ cựu và nổi tiếng của Microsoft, tin rằng cách đào tạo các mô hình AI hiện tại đã "phá vỡ" mạng.

Anh ấy đã viết trên Twitter, "Trước đây, dữ liệu thu thập dữ liệu được sử dụng để đổi lấy tỷ lệ nhấp. Nhưng bây giờ nó chỉ được sử dụng để đào tạo một mô hình và không mang lại bất kỳ giá trị nào cho người sáng tạo và chủ sở hữu bản quyền."

Có lẽ, khi nhiều công ty thức dậy, việc sử dụng dữ liệu không đồng đều này trong kỷ nguyên AI rộng rãi sẽ sớm được thay đổi.

Link gốc:

Xem bản gốc

Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#BTC#
236k Trạng thái
#PI#
216k Trạng thái
#ETH#
151k Trạng thái
4#GateioInto11#
80k Trạng thái
5#ContentStar#
67k Trạng thái
6#GT#
65k Trạng thái
7#BOME#
61k Trạng thái
8#DOGE#
59k Trạng thái
9#MAGA#
53k Trạng thái
10#SLERF#
51k Trạng thái

Ghim

sơ đồ trang web