Cứ vài tháng một lần, ai đó tuyên bố rằng “AI sẽ thay thế tất cả chúng ta”. Vì tôi làm việc chặt chẽ với nó, tôi nhận được câu hỏi đó mọi lúc. Nhưng nhìn kỹ hơn: AI không thay thế Nó đang thay thế Và có một sự khác biệt rất lớn. people tasks LLMs là bồ câu với động cơ phản lực Các mô hình ngôn ngữ lớn như ChatGPT, Claude và DeepSeek được xây dựng để dự đoán mã token tiếp theo một cách thuyết phục đến mức nó cảm thấy như một người đã viết nó, và họ rất giỏi về nó. Tuy nhiên, khi tốt trong Không giống như . sounding right being right Những mô hình này học hỏi từ một sự pha trộn của sách, bài viết, code repos, Wikipedia, bài đăng diễn đàn, và các trang web bị xóa. Một số trong số đó được đánh giá bởi các đồng nghiệp. Hầu hết không phải. Không có quân đội biên tập kiểm tra sự thật của mỗi dòng. Dữ liệu được bí ẩn với những mâu thuẫn, thiên vị, sự kiện lỗi thời, và sự giả tạo thẳng thắn. Hãy nghĩ về nó như là học thuốc từ mọi cuốn sách giáo khoa y tế từng được viết ... và mọi diễn đàn sức khỏe, mỗi blog hoàng đạo, và một vài trang web công thức nấu ăn để đo lường tốt. Mô hình nhìn thấy các mô hình, nhưng nó không “ Những mô hình phản ánh thực tế. nó chỉ trở nên rất tốt trong việc bắt chước ngôn ngữ đồng thuận. know Tôi đã thấy từ đầu tại sao điều đó quan trọng. Quality Over Quantity Chất lượng hơn số lượng Năm 2016, tôi đã làm việc trên một dự án học máy để phát hiện phần mềm độc hại bị tắc nghẽn. Microsoft đã có một bộ dữ liệu Kaggle công cộng (Microsoft Malware Classification Challenge) cho chính xác vấn đề này. giám sát viên của tôi khuyên tôi nên sử dụng nó hoặc tạo dữ liệu tổng hợp. Trong vài tháng, tôi đã tải xuống phần mềm độc hại mỗi ngày, chạy các mẫu trong một hộp cát, kỹ thuật lại nhị phân, và tự nhãn chúng.Vào cuối cùng, tôi đã có một bộ dữ liệu của khoảng 120.000 phần mềm độc hại và các mẫu lành tính, đó là nhỏ hơn nhiều so với Microsoft nhưng được xây dựng bằng tay. Kết quả nói to: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Bộ dữ liệu Microsoft Kaggle 53% Bộ dữ liệu tay xây dựng của riêng tôi 80 % My Dataset + Dữ liệu tổng hợp 64% Các thuật toán tương tự, chỉ có dữ liệu thay đổi. Điểm mấu chốt: hiệu suất tốt nhất đến từ dữ liệu thủ công, được kiểm tra bởi các chuyên gia. dữ liệu công cộng chứa sự bất thường; dữ liệu tổng hợp giới thiệu những biến dạng của riêng nó. cách duy nhất để có được tín hiệu chất lượng cao là đầu tư thời gian, chuyên môn và tiền bạc vào việc điều trị. Đó là điều ngược lại với cách LLM được đào tạo: họ cạo tất cả mọi thứ và cố gắng học hỏi từ nó, bất thường và tất cả. Một ảo giác duy nhất từ ChatGPT, được đăng trên phương tiện truyền thông xã hội, được chia sẻ, tweet lại, đóng gói lại và cuối cùng được cho vào tập huấn tiếp theo. . digital inbreeding Internet đã tràn ngập nội dung chất lượng thấp trước khi LLMs đến: tin tức giả, “how-tos” hư cấu, mã bị hỏng, văn bản spam. Hiện nay, chủ yếu là các bộ lọc tự động, một số nhóm đỏ của con người, và các hệ thống điểm số nội bộ. Không có tương đương của đánh giá ngang hàng trên quy mô, không có bảng cấp phép, không có trách nhiệm đối với dữ liệu xấu. Làm thế nào để có được “dữ liệu” mới? Điều này tự nhiên dẫn đến câu hỏi rõ ràng: khi web công cộng đã bị chiếm đoạt, ô nhiễm và ngày càng tổng hợp? where do we find fresh, high-quality training data Ý tưởng đầu tiên hầu như ai cũng có “Chúng tôi sẽ chỉ đào tạo trên dữ liệu người dùng của chính chúng tôi.” Năm 2023, tôi đã thử chính xác điều đó với khởi động gamedev của tôi - một công cụ AI để giúp các nhà phát triển xây dựng thế giới RPG. chúng tôi nghĩ rằng các nhật ký thử nghiệm beta sẽ là tài liệu đào tạo hoàn hảo: định dạng đúng, tương tác thực tế, liên quan trực tiếp đến lĩnh vực của chúng tôi. Fortune Folly cái catch? Một thử nghiệm duy nhất tạo ra nhiều dữ liệu hơn mười lăm người dùng bình thường kết hợp, nhưng không phải vì họ đang xây dựng thế giới giàu có hơn. họ đã không ngừng cố gắng hướng hệ thống vào nội dung tình dục, lời nhắc tạo bom, và phản ứng phân biệt chủng tộc. Để lại không giám sát, dữ liệu đó sẽ có Nó sẽ học cách bắt chước kẻ tấn công, không phải cộng đồng mà chúng ta đang cố gắng phục vụ. ngộ độc Đây chính xác là Nếu không có sự xem xét và điều trị của con người tích cực, “dữ liệu người dùng thực sự” có thể mã hóa đầu vào của con người tồi tệ nhất, không phải tốt nhất, và mô hình của bạn sẽ tái tạo nó một cách trung thực. data-poisoning problem Lời bài hát Takeaway ChatGPT chỉ là bước đầu tiên trên con đường hướng tới “thay thế”, nó trông giống như một chuyên gia về mọi thứ, nhưng trong thực tế, nó là một chuyên gia về ngôn ngữ tự nhiên. Tương lai của nó như một cho cuộc trò chuyện giữa bạn và các mô hình chuyên sâu hơn, cụ thể về lĩnh vực được đào tạo trên các bộ dữ liệu được quản lý cẩn thận. Ngay cả những mô hình đó, tuy nhiên, vẫn sẽ cần cập nhật liên tục, xác nhận và chuyên môn của con người phía sau hậu trường. nhưng chúng sẽ không thay thế các chuyên gia có kinh nghiệm; chúng sẽ chỉ thay đổi cách họ cung cấp kiến thức của họ. interface Sự “mối đe dọa thay thế” thực sự sẽ chỉ đến nếu chúng ta thành công trong việc xây dựng một toàn bộ : scrapers thu thập dữ liệu trong thời gian thực, các mô hình đánh giá xác minh và kiểm tra thực tế, và các mô hình chuyên gia nuốt kiến thức được làm sạch này. fabric of machine learning systems Nhưng tôi không nghĩ rằng chúng ta đang ở đâu đó gần đó. ngay bây giờ, chúng ta đã đốt cháy lượng năng lượng khổng lồ chỉ để tạo ra các câu giống như con người. Tăng quy mô lên mức cần thiết cho thời gian thực, kiến thức chuyên môn được xem xét đầy đủ sẽ đòi hỏi quy mô lớn hơn sức mạnh và năng lượng tính toán hơn chúng ta có thể cung cấp một cách thực tế. Và ngay cả khi cơ sở hạ tầng tồn tại, ai đó vẫn phải xây dựng các bộ dữ liệu chuyên gia.Tôi đã thấy những nỗ lực đầy hứa hẹn trong y học, nhưng mỗi nỗ lực đều dựa vào các đội chuyên gia làm việc vô số giờ xây dựng, làm sạch và xác nhận dữ liệu của họ. Nói cách khác: AI may replace tasks, but it’s nowhere close to replacing people.