Dự án v ánh sáng # "AI trung quốc" nổ lốp xe "làm sáng tỏ một vấn đề nhỏ, con người phải chạy ra khỏi dữ liệu?" Vào ngày 26 tháng 12, DeepSeek, một công ty mô hình lớn của trung quốc được coi là "sức mạnh bí ẩn của Marco boro" ở thung lũng silicon, đột nhiên xuất hiện một mô hình siêu lớn mới, deepseeder-v3. Đó là một mô hình có hiệu quả cao hơn mô hình al với chi phí đào tạo chỉ khoảng 5.576 triệu đô. DeepSeek V3 vẫn trở thành mô hình mã nguồn mở mạnh nhất trên thị trường hiện nay, và có lẽ với giá API thấp hơn, sẽ có thêm một cuộc chiến tranh AI sau V2, bảo vệ danh hiệu "AI thi đấu"! DeepSeek V3 đã lật xe khi người dân trung quốc tung hô "ánh sáng trung quốc" mới ra mắt! Một, danh tính lẫn lộn với "trái Tim trắng và màu vàng"? Rất nhanh sau đó, DeepSeek V3 có thể tự gọi mình là ChatGPT khi trả lời "bạn là ai" với mô hình DeepSeek V3. Nếu DeepSeek V3 hỏi thêm về API, nó cũng dễ dàng đưa ra câu trả lời cho API OpenAI. DeepSeek V3, theo phân tích của ngành công nghiệp, có thể là nền tảng huấn luyện khi chia thành các văn bản của ChatGPT, điều này có thể làm cho mô hình quên đi một số đầu vào của gpt-4 và đọc từng chữ một trong cuộc đối thoại thực tế. "Việc không bắt dữ liệu và xử lý thêm dữ liệu tiết kiệm thời gian, nhân lực và chi phí huấn luyện". Và các chuyên gia trong ngành công nghiệp đã đưa ra một câu nói khác, "giữ lại danh tính" bởi vì nơi mà các công ty al thu thập dữ liệu -- mạng lưới, đã có vô số rác thải al. Một báo cáo của thanh tra của liên minh châu âu cho biết đến năm 2026, 90 phần trăm nội dung trực tuyến có thể được tạo ra từ al. Báo cáo nói rằng dữ liệu này "làm ô nhiễm" và làm cho bộ lọc toàn bộ tạo ra nội dung là rất khó khăn. Nếu đào tạo DeepSeek V3 trong "nhiên liệu" - dữ liệu Internet chứa nhiều nội dung được tạo ra từ ChatGPT, nó có thể tạo ra cái gọi là "ảo giác", và tổng thể thể hiện một cách "chửi thề", "tư duy" và thậm chí "tôn trọng danh tính" tương tự như ChatGPT. Việc huấn luyện một mô hình lớn đòi hỏi phải hủy hoại một lượng lớn dữ liệu. Hiện tượng này không chỉ xuất hiện ở trung quốc, trước khi mô hình al của Google Gemini được sử dụng để đặt câu hỏi bằng tiếng trung quốc, nó cũng đã sai khi đặt câu hỏi, "tôi là mô hình văn tâm của baidu, một mô hình ngôn ngữ lớn được phát triển bởi công ty baidu." Thực tế, DeepSeek V3 'mini flip' không chỉ khiến người ta chỉ trích mô hình al về khả năng tinh thần và trí thông minh của họ, mà còn cho thấy một vấn đề lớn mà AI đang gặp phải trong quá trình phát triển hiện nay -- dữ liệu của con người sẽ bị cạn kiệt! Thứ hai, dữ liệu của con người sẽ bị al sử dụng hết! Nhờ vào sự mở rộng của mạng lưới thần kinh và sự đào tạo thêm dữ liệu, công nghệ al đã phát triển "bùng nổ" trong vài năm qua, và các mô hình ngôn ngữ lớn như ChatGPT và DeepSeek V3 có khả năng tốt hơn để mô tả cuộc đối thoại của con người và phát triển các chức năng như tiểu thuyết trinh thám. Nhưng sự phát triển này không bền vững. Một số trang web tạp chí như thiên nhiên, MIT review, và các ngôi SAO công nghiệp của các công ty AI lớn đã chỉ ra trong quá khứ rằng một mặt, việc đào tạo al cần nhiều năng lượng hơn; Mặt khác, dữ liệu của con người là "nhiên liệu hóa thạch" cho công nghệ al đang cạn kiệt. Trong 10 năm qua, số liệu cần thiết để huấn luyện al đã giảm gấp 100 lần, từ hàng chục tỉ lên hàng nghìn tỉ. Tỉ lệ phát triển của nội dung mới mà con người tạo ra có thể được miêu tả là "cực kỳ chậm", dưới 10% một năm. Các nhà nghiên cứu dự đoán rằng vào năm 2028, kích thước điển hình của tập dữ liệu được dùng như mô hình huấn luyện al sẽ đạt đến kích thước của tổng số ước lượng văn bản trực tuyến công cộng, điều này có nghĩa là al có thể rút hết dữ liệu huấn luyện trong khoảng 4 năm. Nói cách khác, ngay cả trong trường hợp tốt nhất, al sẽ hết dữ liệu huấn luyện trong 4 năm tới. Và có một khoảng cách lớn giữa thực tế và lý tưởng! Tác giả, họa sĩ, phóng viên, nhà xuất bản, báo chí, chủ trang web … Chủ sở hữu dữ liệu đã bắt đầu phản công công nghệ al để lạm dụng nội dung của nó, hạn chế quyền truy cập, đề nghị thanh toán các khoản phí, và thậm chí rút ra vũ khí pháp lý … AI trung quốc "nhỏ lật xe" cho thấy một vấn đề lớn, dữ liệu của con người sẽ được sử dụng?
j88-Tôi t