Diễn đàn hàng đầu thế giới Reddit sẽ bắt đầu thu phí đối với các công ty sử dụng dữ liệu của họ để đào tạo AI.
Dữ liệu trên Reddit được dùng để đào tạo c&a
acute;c mô hình ngôn ngữ lớn. (Ảnh: Softonic)
Reddit là một t
rong những diễn đàn lớn nhất Internet. Khoảng 57 triệu người truy cập website hàng ngày để thảo luận về đủ c&a
acute;c chủ đề. T
rong những năm gần đây, dữ liệu của Reddit còn trở thành công cụ hỗ trợ đào tạo AI miễn ph&i
acute; cho Google, OpenAI, Microsoft. C&a
acute;c hãng này dùng những cuộc thảo luận trên diễn đàn trong qu&a
acute; trình ph&a
acute;t triển c&a
acute;c hệ
thống AI.
Ngày 18/4, Reddit thông b&a
acute;o kế hoạch bắt đầu thu ph&i
acute; những công ty truy cập API (giao diện lập trình ứng dụng) của mình. Steve Huffman, nhà s&a
acute;ng lập kiêm CEO Reddit, khẳng định “kho dữ liệu Reddit thực sự c&o
acute; gi&a
acute; trị” và không thể biếu không những hãng giàu nhất thế giới.
Thành lập năm 2005, Reddit kiếm tiền chủ yếu qua quảng c&a
acute;o và giao dịch thương mại điện tử trên nền tảng. Diễn đàn vẫn đang hoàn thiện c&a
acute;c chi tiết về việc thu ph&i
acute; và sẽ b&a
acute;o gi&a
acute; trong vài tuần tới.
Những cuộc hội thoại trên Reddit hay tương tự trở thành m&o
acute;n hàng gi&a
acute; trị khi mô hình ngôn ngữ lớn (LLM) đ&o
acute;ng vai trò thiết yếu trong tạo ra công nghệ AI mới. LLM là những thuật to&a
acute;n tinh vi mà trong đ&o
acute;, dữ liệu từ Reddit được nạp vào để ph&a
acute;t triển. Dịch vụ Google Bard hay ChatGPT đều sử dụng dữ liệu Reddit.
ChatGPT mang đến nhiều lợi &i
acute;ch cho công ty đứng sau nhưng không c&o
acute; &i
acute;ch lợi gì với Reddit. Thực tế, n&o
acute; còn c&o
acute; thể bị lợi dụng để tạo ra c&a
acute;c đối thủ của Reddit. Một số công ty kh&a
acute;c cũng bắt đầu b&a
acute;n dữ liệu cho những nhà ph&a
acute;t triển AI. Chẳng hạn, Shutterstock b&a
acute;n dữ liệu ả
nh cho OpenAI để ph&a
acute;t triển chương trình tạo ảnh từ văn bản Dall-E.
Tuần trước, Elon Musk n&o
acute;i sẽ kiểm so&a
acute;t việc sử dụng API của Twitter khi hàng nghìn công ty và nhà ph&a
acute;t triển độc lập sử dụng n&o
acute; để theo dõi hàng triệu cuộc hội thoại trên nền tảng. Mức ph&i
acute; c&o
acute; thể dao động từ vài nghìn đến vài trăm nghìn USD.
Để LLM liên tục được cải thiện, c&a
acute;c hãng cần hai thứ: năng lực điện to&a
acute;n khổng lồ và dữ liệu khổng lồ. Một vài hãng đã sở hữu năng lực điện to&a
acute;n lớn nhưng vẫn tìm kiếm dữ liệu bên ngoài để nâng cấp thuật to&a
acute;n. Ch&u
acute;ng bao gồm những nguồn như Wikipedia, s&a
acute;ch điện tử, bà
;i báo học thuật hay Reddit.
Huffman tin rằng dữ liệu của họ c&o
acute; gi&a
acute; trị một phần vì n&o
acute; liên tục được cập nhật. T&i
acute;nh mới mẻ và liên quan là thứ mà c&a
acute;c mô hình ngôn ngữ lớn cần để cho ra kết quả tốt nhất. Ông cho biết, API của Reddit vẫn miễn ph&i
acute; với c&a
acute;c nhà ph&a
acute;t triển muốn viết ứng dụng phục vụ cộng đồng Reddit hay c&a
acute;c học giả muốn nghiên cứu dữ liệu cho mục đ&i
acute;ch học thuật hoặc phi thương mại.
Theo Huffman, việc c&a
acute;c công ty thu thập dữ liệu, tạo ra gi&a
acute; trị nhưng không trả lại gì cho người dùng Reddit là một vấn đề. Vì thế, đây là thời điểm tốt để siết chặt mọi thứ.
(Theo NYT)
CEO Reddit chê Elon Musk lạc hậu về văn h&o
acute;a Internet
“Nếu thâu t&o
acute;m Twitter, Elon Musk sẽ rơi vào cảnh khốn đốn, vì ông ấy không hề c&o
acute; sự chuẩn bị”, cựu CEO của Reddit khẳng định.
Nguồn bài viết : Slots