Gần đây tôi đã tổ chức một lớp học về việc sử dụng khoa học dữ liệu cho an ninh mạng, tập trung vào phân tích dữ liệu thu thập gói tin—một chủ đề khá kỹ thuật và theo truyền thống là khô khan. Phương pháp tôi chia sẻ được rút ra từ kinh nghiệm của tôi về an ninh mạng trong các tổ chức tài chính, bao gồm các bước cốt lõi như phân tích dữ liệu thăm dò, xử lý trước và chuyển đổi dữ liệu nhật ký, và xác định các bất thường thông qua sự kết hợp của phân cụm và phân tích mạng đồ thị.
Một khía cạnh đáng ngạc nhiên là thời gian tôi dành để chuẩn bị cho buổi học này—chỉ bằng một phần nhỏ so với thời gian tôi thường đầu tư. AI đóng vai trò quan trọng trong việc hợp lý hóa quy trình. Tôi đã nhờ Claude hỗ trợ mã hóa, phát triển dàn ý và thậm chí là tạo slide. Tổng cộng, toàn bộ khóa học đã sẵn sàng trong vòng 48 giờ.
Buổi học diễn ra rất hấp dẫn. Những người tham gia, chủ yếu là các CISO thường không biết viết mã, thấy các bài tập được tạo ra với sự hỗ trợ của AI rất trực quan và thực hành. Mục tiêu của tôi là giúp họ đắm mình vào công việc trực tiếp với dữ liệu và mã. Họ đặc biệt đánh giá cao cơ hội được khám phá thủ công những gì mà các nền tảng giám sát và SIEM hiện đại thường tự động hóa, hiểu sâu hơn về các quy trình diễn ra "bên trong".
Điểm chính tôi rút ra được từ lớp học này là điều đáng ngạc nhiên là trái ngược với trực giác: khoa học dữ liệu, như chúng ta biết, cuối cùng sẽ bị thay thế bởi AI . Quan điểm này có vẻ vội vã—hoặc có lẽ là đi trước thời đại—nhưng đó là quan điểm đáng để thảo luận.
Cảnh báo: một số nội dung này có thể gây kích ứng cho một số người.
Trong hơn một thập kỷ, khoa học dữ liệu đã được ca ngợi là "nghề hấp dẫn nhất của thế kỷ 21". Tuy nhiên, khi AI phát triển nhanh chóng, rõ ràng là những thách thức cơ bản của lĩnh vực này khó có thể bị bỏ qua. Sự ra đời của AI tạo sinh mạnh mẽ rất có thể là điểm bùng phát cho một ngành học mà khi nhìn lại, có thể đã được định nghĩa lỏng lẻo hơn và được thổi phồng quá mức so với ban đầu.
Về bản chất, khoa học dữ liệu kết hợp khoa học máy tính, thống kê và sự nhạy bén trong kinh doanh, mang đến cho các tổ chức lời hứa về những hiểu biết có thể hành động được từ lượng dữ liệu khổng lồ. Bộ kỹ năng này chắc chắn có giá trị trong thế giới dữ liệu ngày nay. Tuy nhiên, bên dưới hình ảnh bóng bẩy của nó, lĩnh vực này phải đối mặt với những vấn đề đáng kể. Những gì thường được gắn nhãn là khoa học dữ liệu thường hóa ra là một mớ hỗn độn của các nhiệm vụ liên quan lỏng lẻo không phải lúc nào cũng phù hợp và nhiều chuyên gia trong lĩnh vực này phải vật lộn với toàn bộ phạm vi và sự phức tạp mà ngành này đòi hỏi.
Sự gia tăng của các công cụ do AI điều khiển có khả năng xử lý phân tích dữ liệu, mô hình hóa và tạo ra hiểu biết sâu sắc có thể buộc phải thay đổi cách chúng ta nhìn nhận vai trò và tương lai của khoa học dữ liệu. Khi AI tiếp tục đơn giản hóa và tự động hóa nhiều nhiệm vụ cơ bản trong khoa học dữ liệu, lĩnh vực này có thể phải đối mặt với sự tính toán về ý nghĩa thực sự của việc trở thành một nhà khoa học dữ liệu trong thời đại tự động hóa thông minh.
Nhiều nhà khoa học dữ liệu, mặc dù có kỹ năng lập trình tinh vi và công cụ kỹ thuật số, lại tham gia vào công việc thủ công đáng ngạc nhiên và dễ mắc lỗi . Chuẩn bị, làm sạch và phân tích dữ liệu liên quan đến các nhiệm vụ tẻ nhạt, tốn thời gian, lặp đi lặp lại và máy móc. Trên thực tế, một lượng lớn công sức khoa học dữ liệu được dành cho việc chuẩn bị các tập dữ liệu—một nhiệm vụ thường giống như công việc cực nhọc hơn là khoa học thú vị, thúc đẩy khám phá mà nó được tạo ra. Vấn đề này trở nên phức tạp hơn bởi thực tế là nhiều người bước vào lĩnh vực này, tốt nhất là chỉ là những người nghiệp dư. Sau khi tham gia một vài khóa học trực tuyến về Python hoặc R, những "nhà khoa học dữ liệu" này thường không chuẩn bị cho sự khắc nghiệt của vai trò này . Khoa học dữ liệu không chỉ là lập trình. Nó bao gồm phân tích sâu sắc, hiểu biết theo ngữ cảnh và khả năng trình bày thông tin chi tiết cho đối tượng không phải là chuyên gia kỹ thuật. Trên thực tế, đây là công việc nghiên cứu nhiều hơn, đòi hỏi sự kết hợp giữa tính sáng tạo và tư duy phân tích mà nhiều người trong lĩnh vực này đơn giản là không có.
Hơn nữa, nhiều nhà khoa học dữ liệu đã phát triển một cảm giác về quyền lợi, mong đợi mức lương cao và các gói hấp dẫn chỉ vì chức danh của họ. Thái độ này đang khiến các công ty mất hứng thú, đặc biệt là trong các lĩnh vực mà hiệu quả chi phí là tối quan trọng. Tôi đã gặp các công ty từng vội vã thuê các nhà khoa học dữ liệu nhưng hiện đang cân nhắc lại. Tại sao phải trả lương cao cho một người dành phần lớn thời gian vật lộn với việc dọn dẹp dữ liệu, khi AI có thể làm việc đó nhanh hơn, tốt hơn và với chi phí chỉ bằng một phần nhỏ?
Như tôi đã trải nghiệm khi viết bài, AI tạo sinh đã phát triển thành một thế lực mạnh mẽ trong chính những lĩnh vực mà khoa học dữ liệu yếu nhất. Các nhiệm vụ như chuẩn bị dữ liệu, làm sạch và thậm chí là phân tích định tính cơ bản—các hoạt động tiêu tốn nhiều thời gian của nhà khoa học dữ liệu—hiện đã được các hệ thống AI tự động hóa dễ dàng. Điều tệ hơn (hoặc tốt hơn, tùy thuộc vào vị trí của bạn) là AI nhanh hơn, chính xác hơn và ít bị lỗi của con người hoặc mệt mỏi hơn.
Đối với nhiều nhà khoa học dữ liệu, điều này có thể rất đáng sợ. Xét cho cùng, những nhiệm vụ này chiếm phần lớn công việc hàng ngày của họ. Ví dụ, việc dọn dẹp dữ liệu thường tốn nhiều thời gian và dễ mắc lỗi, nhưng AI hiện có thể hoàn thành việc này chỉ bằng vài cú nhấp chuột và độ chính xác gần như hoàn hảo. Các nhà khoa học dữ liệu thường phàn nàn về những nhiệm vụ nặng nề này, nhưng chúng lại là nền tảng cho vai trò của họ. Khi các hệ thống AI được cải thiện, nhu cầu con người thực hiện những công việc này sẽ giảm dần. Không có gì ngạc nhiên khi phần lớn những lời chỉ trích gay gắt đối với AI lại đến từ chính các nhà khoa học dữ liệu . Họ nhìn thấy những điều không may và lo sợ cho công việc của mình.
Tệ hơn nữa đối với các nhà khoa học dữ liệu, lĩnh vực này không có tiến triển đáng kể trong những năm gần đây. Mặc dù có sự gia tăng nhanh chóng về mức độ phổ biến, khoa học dữ liệu vẫn bị ảnh hưởng bởi tình trạng thiếu hiệu quả, lỗi và thiếu rõ ràng về những gì chính xác mà nó cần phải bao gồm . Người ta từng tin rằng các công cụ tinh vi hơn và đào tạo tốt hơn sẽ phát triển lĩnh vực này, nhưng điều này đã không thành hiện thực ở mức độ mong đợi. Ngược lại, AI đã liên tục được cải thiện. Các thuật toán học máy, xử lý ngôn ngữ tự nhiên và các mô hình tạo ra đang phát triển nhanh chóng, bỏ lại khoa học dữ liệu truyền thống phía sau.
Một lần nữa, kỳ vọng về mức lương cao của các nhà khoa học dữ liệu làm trầm trọng thêm vấn đề . Các công ty từng chấp nhận tình trạng kém hiệu quả hiện nhận ra rằng AI có thể thay thế rất nhiều công việc nặng nhọc mà không phải trả mức giá đắt đỏ cho lao động con người. Với việc AI ngày càng thành thạo hơn trong việc thực hiện các nhiệm vụ chính như phân tích, dự báo và thậm chí là trình bày, bản chất thủ công của khoa học dữ liệu đang ngày càng trở nên thừa thãi. Nhiều công ty sẽ nhận ra rằng những gì từng đòi hỏi một nhóm các nhà khoa học dữ liệu giờ đây có thể được xử lý hiệu quả hơn bằng các công cụ hỗ trợ AI.
Thực tế là khoa học dữ liệu, theo định nghĩa truyền thống, đang trên bờ vực lỗi thời. Với AI tạo sinh đang tiến triển với tốc độ đáng kinh ngạc, nhu cầu về các nhà khoa học dữ liệu con người ở dạng hiện tại có thể sẽ giảm . Điều này không có nghĩa là con người không có vai trò trong việc ra quyết định dựa trên dữ liệu, nhưng vai trò "nhà khoa học dữ liệu" cổ điển có thể sớm trở thành một khái niệm của quá khứ. Những gì cần thiết bây giờ là các chuyên gia có kỹ năng cộng tác với AI, khai thác khả năng của nó trong khi tập trung vào tư duy chiến lược và giải quyết các vấn đề phức tạp ở cấp độ cao hơn.
AI không phải là sự kết thúc của phân tích, hiểu biết sâu sắc hoặc ra quyết định—mà nó đại diện cho sự tiến hóa của chúng . Lĩnh vực khoa học dữ liệu hiện tại có nguy cơ trở nên lỗi thời nếu không tiến hóa theo từng bước. AI đã cách mạng hóa các ngành công nghiệp và khoa học dữ liệu phải thích ứng hoặc có nguy cơ bị làn sóng này vượt qua. Cuối cùng, câu hỏi có thể không phải là liệu AI có loại bỏ khoa học dữ liệu hay không mà là liệu khoa học dữ liệu có bao giờ thực hiện đầy đủ các lời hứa của mình hay không.
Hoặc có lẽ sự khác biệt này thậm chí không còn quan trọng nếu chúng ta cuối cùng vượt qua được cơn sốt “khoa học dữ liệu” và chấp nhận AI như sự tiến triển hợp lý tiếp theo.
Về tôi: Cựu chiến binh CNTT hơn 25 năm kết hợp dữ liệu, AI, quản lý rủi ro, chiến lược và giáo dục. Người chiến thắng cuộc thi hackathon 4 lần và tác động xã hội từ người ủng hộ dữ liệu. Hiện đang làm việc để khởi động lực lượng lao động AI tại Philippines. Tìm hiểu thêm về tôi tại đây: https://docligot.com