Khoa học dữ liệu đã có một chặng đường dài kể từ những ngày đầu của Hội nghị Khám phá tri thức trong Cơ sở dữ liệu (KDD) và Cơ sở dữ liệu rất lớn (VLDB) . Các kỹ sư phần mềm xử lý cơ sở dữ liệu những năm 1980-90 đã phát triển thành các kỹ sư cơ sở dữ liệu chuyên biệt vào những năm 2000 . Trong khi đó túi tiền của các nhà khoa học máy tính trong các phòng thí nghiệm nghiên cứu nhỏ hơn về máy học và trí tuệ nhân tạo . Dữ liệu lớn đáp ứng thuật toán thông minh đã va chạm trong một vụ nổ kỷ Cambri vào những năm 2010 , trở thành “ Nhà khoa học dữ liệu: Công việc gợi cảm nhất thế kỷ 21 ”. Điều đó đưa chúng ta đến một thập kỷ sau, hậu đại dịch 2022, đặt ra câu hỏi, “ Liệu Nhà khoa học dữ liệu có còn là công việc gợi cảm nhất của thế kỷ 21 không? ”.
Xin thứ lỗi cho khoảng thời gian ngắn, nhưng bài báo này được viết cùng với Giải thưởng Noonies năm 2022. Giải thưởng Noonie năm 2002 của HackerNoon tôn vinh các nhà văn kỹ thuật chia sẻ những hiểu biết sâu sắc nhất và tốt nhất của họ về tất cả những thứ công nghệ.
Lời giới thiệu chính thức:
Xin chào, tôi là Liling. Ban ngày, tôi là một nhà khoa học ứng dụng ở Amazon và sau giờ làm việc, tôi viết mã nguồn mở và viết các bài báo công nghệ về quy trình ngôn ngữ tự nhiên và đôi khi là các bài báo về văn hóa đại chúng chơi game.
Thật là một niềm vui và vinh dự khi được đề cử trong hạng mục Người đóng góp Hackernoon của năm về Xử lý ngôn ngữ tự nhiên (NLP) và nếu bạn thích nội dung NLP hoặc Dịch máy mà tôi đã chia sẻ, hãy giúp nhấn nút bỏ phiếu tại https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing
Để kỷ niệm đề cử, tôi viết bài này dưới dạng câu hỏi và câu trả lời "Ask Me Anything".
Là một người viết về công nghệ, tôi thích chia sẻ các công nghệ nổi bật trong học máy và tôi có một điểm đặc biệt về các công nghệ liên quan đến ngôn ngữ và dịch thuật. Để kỷ niệm đề cử, tôi viết bài này dưới dạng câu hỏi và câu trả lời "Ask Me Anything". Tìm hiểu thêm về suy nghĩ và quan điểm của tôi về “ tôi là loại nhà khoa học nào? ”Trong ngành công nghệ trong các phần tiếp theo.
Ngày nay, mô tả công việc cho “ các nhà khoa học dữ liệu ” có nhiều dạng khác nhau và nó thường thuộc các loại sau:
Nếu bạn hỏi bất kỳ ai về sự khác biệt giữa vai trò và trách nhiệm của các chức danh công việc khác nhau, có lẽ bạn sẽ nhận được một dòng mơ hồ phân định từng chức danh đó.
Nếu bạn hỏi bất kỳ ai về sự khác biệt giữa vai trò và trách nhiệm của các chức danh công việc khác nhau, có lẽ bạn sẽ nhận được một dòng mơ hồ phân định từng chức danh đó. Trên thực tế, phạm vi công việc thường chồng chéo mờ nhạt khác nhau dựa trên định nghĩa vai trò của công ty và nhóm. Sự khác biệt chính thường đến giữa vai trò “Nhà khoa học” và “Kỹ sư” trong đó nhà khoa học thường được mong đợi tập trung nhiều hơn vào mặt chất lượng dữ liệu và mô hình của mọi thứ trong khi kỹ sư tập trung nhiều hơn vào tính toàn vẹn của mô hình và độ tin cậy của dịch vụ.
Đây thường là trách nhiệm của các “ nhà khoa học ”. Trong ngành, điều này dành riêng cho các nhiệm vụ và ứng dụng khác nhau mà nhóm đang hỗ trợ và / hoặc phát triển. Nó tương tự như việc các nhà nghiên cứu hàn lâm xây dựng mô hình học máy nhưng tính thực tế của việc liệu mô hình cuối cùng có thể sử dụng được hay không thường vượt qua nhu cầu đánh bại các kết quả hiện đại nhất trong ngành.
Đây thường là trách nhiệm của các " kỹ sư ". Độ tin cậy là yếu tố quan trọng đối với bất kỳ ứng dụng học máy hiện đại nào ngày nay. Điều quan trọng là phải đảm bảo rằng các nỗ lực thải ra carbon của các nhà khoa học để tạo ra mô hình tốt nhất cho khách hàng / người dùng sẽ tạo ra hiệu suất như mong đợi trong quá trình sản xuất.
Tuyên bố “ nó hoạt động trên máy tính xách tay của tôi ” của một nhà khoa học là không thể chấp nhận được trong ngành và các kỹ sư đã giúp biến giấc mơ “ nó hoạt động ở mọi nơi ” trở thành hiện thực.
Xây dựng và duy trì khuôn khổ để tự động hóa việc đào tạo và triển khai mô hình
Đảm bảo các tính năng / cải tiến được thực hiện trong các dự án thử nghiệm có sẵn trong các mô hình sản xuất
Các cải tiến gia tăng để tự động hóa các thiết lập thử nghiệm nhằm giảm / loại bỏ các bước thủ công trong việc đưa mô hình của các nhà khoa học vào sản xuất.
Trong thời hiện đại, đôi khi những trách nhiệm kỹ thuật này được gọi là Hoạt động học máy (MLOps), Chip Huyền có một bài đăng blog hay cung cấp thông tin tổng quan về MLOps cho các kỹ sư ML / Dữ liệu / Nghiên cứu đầy tham vọng.
Có rất nhiều định nghĩa khác về những gì máy học, dữ liệu, ứng dụng, các nhà khoa học / kỹ sư nghiên cứu làm nhưng trên đây là từ kinh nghiệm trong ngành của cá nhân tôi.
Nó phụ thuộc! Và như đã thảo luận trước đó, nó khác nhau giữa các công ty và mọi người nên luôn hỏi người quản lý tuyển dụng về các trách nhiệm dự kiến trong quá trình xin việc.
Một nhà khoa học giỏi sẽ có thể thực hiện một số nhiệm vụ kỹ thuật. Ngược lại, một kỹ sư giỏi sẽ có thể xây dựng một số mô hình học máy.
Cá nhân tôi, với tư cách là một nhà khoa học, đây là lời khuyên của tôi mà tôi dành cho các nhà khoa học mới / đầy tham vọng:
Và một lưu ý cuối cùng mà tôi luôn cố gắng nhắc nhở bản thân,
P / S: Một kỹ sư có thể đào tạo ra một mô hình tốt hơn một nhà khoa học.
Vai trò và trách nhiệm khôn ngoan, chúng tương tự nhau nhưng trong điều kiện thực tế, một số công ty có thể có sự phân định rạch ròi giữa các vị trí nhà khoa học khác nhau, vì vậy hãy luôn là nhân viên nguồn nhân lực (HR) hoặc giám đốc tuyển dụng nếu có thể chia sẻ “ hướng dẫn về vai trò ” cụ thể cho vị trí mà bạn đang ứng tuyển và đặc biệt quan trọng là phải hiểu những kỳ vọng về vai trò của bạn khi bạn gia nhập công ty và đội ngũ .
Cá nhân tôi là người “ thực dụng ” trong hầu hết các trường hợp, nhưng khi nói đến “bột phát”, https://www.levels.fyi/ và hỏi bạn bè / tiền bối trong công ty là cách tốt nhất để bạn biết thêm về công ty và bồi thường của họ.
Ý kiến cá nhân của tôi:
"Đừng làm điều đó vì tiền" được đánh giá quá cao. Làm điều đó vì tình yêu làm việc đó. Tôi thích nhìn vào các con số và dữ liệu ngôn ngữ, do đó NLP. Nhưng hãy nhớ được trả đủ tiền để làm điều đó =)
Tôi đã thảo luận về sự khác biệt giữa nhà khoa học và kỹ sư trong lĩnh vực máy học và bây giờ tôi sẽ cố gắng trả lời một câu hỏi cấp bách mà hầu như tất cả các nhà khoa học sẽ hỏi:
Đây thường là dạng câu hỏi tồi tệ nhất của StackOverflow theo hướng dẫn “ Cách đặt một câu hỏi hay ” nhưng tôi nghĩ rằng đó là điều mà cộng đồng nên cố gắng trả lời bất cứ khi nào chúng ta có thể.
Ý kiến cá nhân của tôi:
Không có câu hỏi “tồi” hay “cần tập trung hơn” cho những câu hỏi thực tế này. Nhưng nó chắc chắn đôi khi thu hút quảng cáo sản phẩm / công nghệ độc hại.
Tổng quan tài liệu
Biết những bộ dữ liệu có sẵn và những gì trong chúng (nhiễu, kỳ quặc, v.v.)
Tìm chỉ số đánh giá nào là nhiệm vụ X thường được đánh giá
Theo dõi trích dẫn có liên quan cũ nhất của nhiệm vụ , đọc bài báo đó
Tìm bài báo được trích dẫn cao nhất cho nhiệm vụ , sử dụng nó làm đường cơ sở của bạn
Xác định tiêu chí thành công của bạn cho nhiệm vụ một cách công nghiệp (nó có thể không phải là thước đo đánh giá tiêu chuẩn cho nhiệm vụ)
Cố gắng tái tạo hoặc thực hiện lại đường cơ sở
Truyền đạt mô hình / thư viện của bạn cho các kỹ sư . Kỹ sư của bạn có thể sản xuất nó không?
Đường cơ sở có đáp ứng các tiêu chí thành công không? Hỏi doanh nghiệp / bên liên quan dự án xem nó có đủ không
Xây dựng nó, kiểm tra nó, phá vỡ nó, lặp lại!
Từ kinh nghiệm cá nhân, công cụ / mô hình đưa nó đến tay khách hàng của bạn thường phụ thuộc nhiều vào Bước 6 đến 9 của phương pháp tiếp cận được mô tả ở trên.
Hiện tại, tôi đang dành thời gian rảnh rỗi để tìm hiểu về Huggingface 🤗 và không chỉ về cách sử dụng các thành phần khác nhau của thư viện mà còn hơn thế nữa để hiểu những tính năng nào làm nên thành công của nó và yếu tố X khiến nó đạt được sức hút là gì trong cộng đồng học máy.
Và điều tiếp theo mà tôi sẽ đầu tư thời gian của mình vào đó là ML lượng tử, nếu tôi có nhiều thời gian hơn nữa =)
Tôi hy vọng các câu hỏi và câu trả lời ở trên cung cấp cho bạn một số hiểu biết về “ loại nhà khoa học mà tôi là ”. Và nếu có thêm câu hỏi nhức nhối nào bạn muốn hỏi, đừng ngại để lại bình luận dưới bài viết.
Cuối cùng, tôi muốn gửi lời cảm ơn to lớn đến cộng đồng HackerNoon, nhân viên và các nhà tài trợ cho đề cử Giải thưởng Noonie và nếu bạn thích bài viết này, hãy giúp nhấn nút bình chọn tại https://www.noonies.tech/2022/programming/2022- hackernoon-Contributor-of-the-year-natural-language-processing