Trong thế giới Phân tích dữ liệu và Thông minh doanh nghiệp, các nhóm dữ liệu, còn được gọi là “ đội màu tím ”, những người xây dựng các giải pháp mà người dùng doanh nghiệp cần (màu đỏ) và làm việc với các nhóm kỹ thuật (màu xanh), về cơ bản là xây dựng cơ sở hạ tầng cho Dữ liệu .
Các nhóm BI chủ yếu làm việc về xây dựng các luồng hoặc quy trình cung cấp báo cáo và bảng thông tin cần thiết cho hoạt động tiêu dùng của người dùng doanh nghiệp.
Có nhiều công cụ thế hệ mới giúp nhóm dữ liệu xây dựng các giải pháp dành cho người dùng cuối này, như Mode , Superset và Lightdash hoặc những công cụ dẫn đầu ngành đã từng làm việc trong lĩnh vực “phân tích dữ liệu” một thời gian, như Tableau hoặc PowerBI.
Các nhà phân tích xây dựng các giải pháp này phải chuẩn bị dữ liệu của họ từ nhiều nguồn khác nhau, đảm bảo dữ liệu được chuẩn bị kỹ lưỡng để truy vấn. Một bộ công cụ hoặc các phép biến đổi nhằm thực hiện bước làm sạch trong quy trình làm việc được gọi là “Chuẩn bị dữ liệu”.
Với sự ra đời của các mô hình ngôn ngữ lớn, thảo luận về AI đã trở thành xu hướng chung trong ngành công nghệ phần mềm. Nhưng điều gì sẽ xảy ra nếu tôi nói: Sử dụng các phương pháp thực hành AI lấy dữ liệu làm trung tâm , chúng ta có thể tự động hóa bước làm sạch dữ liệu? Cho phép bạn xuất phiên bản sạch hơn của tập dữ liệu với nỗ lực tối thiểu!
Trong blog này, chúng tôi sẽ thảo luận về cách sử dụng AI tập trung vào dữ liệu, bạn có thể dễ dàng chuẩn bị dữ liệu của mình cho các công cụ BI để đảm bảo kết luận đáng tin cậy từ quá trình phân tích dữ liệu tiếp theo của bạn.
Vài năm trước, các nhà phân tích dữ liệu phải thu thập, làm sạch và phân tích dữ liệu theo cách thủ công, đây là một quá trình tốn thời gian làm hạn chế khả năng thu được những hiểu biết có giá trị của họ.
Ngày nay, bối cảnh phân tích dữ liệu đã trải qua một sự chuyển đổi đáng kể với sự ra đời của các công cụ chuẩn bị dữ liệu như Alterx , Tableau , v.v.
Những công cụ hiệu quả này đã đơn giản hóa quy trình làm việc, cho phép các nhà phân tích tích hợp liền mạch dữ liệu từ nhiều nguồn, tự động hóa các tác vụ làm sạch dữ liệu và tạo ra các bản trình bày dữ liệu trực quan và hấp dẫn.
Dữ liệu được chuẩn bị trước bằng các công cụ này sẽ được phân tích bằng công cụ BI để xác định các truy vấn kinh doanh cụ thể.
Ví dụ: hãy xem xét tập dữ liệu này về các yêu cầu của khách hàng trong một ngân hàng nơi khách hàng ghi lại các vấn đề họ gặp phải trong cổng dịch vụ khách hàng mà người quản lý tác vụ tự động hoặc con người sẽ gắn nhãn.
Hãy tưởng tượng nếu một nhà phân tích kinh doanh xác định số lượng yêu cầu của khách hàng xuất hiện cho một danh mục vấn đề cụ thể. Dưới đây là kết quả mà anh ấy/cô ấy sẽ thấy - với danh mục beneficiary_not_allowed
hiển thị 111
vấn đề của khách hàng.
Tương tự, nếu một nhà phân tích muốn tìm hiểu xem có bao nhiêu trường hợp vấn đề có liên quan đến từ ATM
, thì một phân tích nhanh sẽ trả về phần trình bày trực quan bên dưới. Lưu ý số lượng vấn đề đối với danh mục change_pin
.
Nó trông đơn giản và dễ hiểu, nhưng nếu tìm hiểu sâu hơn về tập dữ liệu , bạn có thể thấy việc phân loại yêu cầu của khách hàng là sai trong một số trường hợp.
Ví dụ:
Chữ | Nhãn (theo tập dữ liệu) | Nhãn (lý tưởng nhất) |
---|---|---|
Thẻ của tôi gần hết hạn rồi. Tôi sẽ nhận được cái mới trong bao lâu và chi phí là bao nhiêu? | apple_pay_or_google_pay | thẻ_about_to_hết hạn |
Phần lớn dữ liệu trong thế giới thực rất lộn xộn và không có cấu trúc, khiến việc khấu trừ giá trị thông qua số liệu thống kê trở nên khó khăn. Vì chúng tôi muốn con người và máy móc đưa ra quyết định dựa trên dữ liệu, điều quan trọng là dữ liệu phải được gắn nhãn rõ ràng, không có bất kỳ dữ liệu sai sót nào và không bị trùng lặp.
Điều quan trọng là đảm bảo rằng dữ liệu được sử dụng trong phân tích là chính xác, cập nhật và không bị trùng lặp. Nếu không làm như vậy có thể dẫn đến những quyết định và kết luận không chính xác. Ví dụ: trường vị trí trống trong dữ liệu hồ sơ người dùng hoặc định dạng trường vị trí không nhất quán có thể dẫn đến lỗi. Do đó, việc duy trì chất lượng dữ liệu là rất quan trọng để Phân tích dữ liệu hiệu quả.
AI tập trung vào dữ liệu là môn học kỹ thuật có hệ thống dữ liệu được sử dụng để xây dựng hệ thống AI. Hầu hết dữ liệu trong thế giới thực đều không có cấu trúc hoặc được dán nhãn sai. Một tập dữ liệu chất lượng với tập hợp dữ liệu đào tạo được gắn nhãn phù hợp sẽ dẫn đến một mô hình hiệu quả, có thể dự đoán kết quả tốt hơn.
Kết quả tốt hơn mang lại trải nghiệm khách hàng tốt hơn. Để tìm hiểu thêm, bạn có thể tham khảo khóa học Data-centric AI của MIT.
Cleanlab là một dự án nguồn mở giúp bạn làm sạch dữ liệu và nhãn bằng cách tự động phát hiện các vấn đề trong tập dữ liệu. Cleanlab sử dụng phương pháp học tập tự tin - dựa trên một bài báo nói về việc ước tính độ không chắc chắn trong nhãn tập dữ liệu của Curtis Northcutt (cũng là người đồng sáng lập Cleanlab.ai ) và những người khác.
Cleanlab về cơ bản nâng cao quy trình phân tích dữ liệu bằng cách tạo ra AI.
Cleanlab Studio là một công cụ không có mã được xây dựng dựa trên gói nguồn mở Cleanlab —nó giúp chuẩn bị dữ liệu cho quy trình phân tích. Bạn cũng có thể nhập dữ liệu từ kho dữ liệu của mình như Databricks , Snowflake hoặc Cloud Object Stores như AWS S3 .
Đăng ký để truy cập vào Cleanlab Studio .
Bạn sẽ đăng nhập vào bảng điều khiển với một số bộ dữ liệu và dự án mẫu.
Nhấp vào “Tải lên tập dữ liệu” để bắt đầu trình hướng dẫn tải lên. Bạn có thể tải tập dữ liệu lên từ máy tính, URL, API hoặc Kho dữ liệu như Databricks và Snowflake.
Cleanlab Studio tự động suy ra lược đồ và phương thức dữ liệu của bạn, tức là văn bản, hình ảnh, giọng nói hoặc dạng bảng.
Sau khi xác nhận thông tin chi tiết, bạn sẽ thấy một màn hình có tập dữ liệu đã tải lên và các lỗi liên quan (nếu có!) gặp phải khi tải dữ liệu lên.
Lưu ý: Một số tập dữ liệu có thể mất vài phút để tải lên. Cleanlab sẽ thông báo cho bạn sau khi tập dữ liệu được tải đầy đủ lên Cleanlab Studio qua Email.
Dựa trên loại tập dữ liệu, bạn có thể sử dụng tác vụ học máy cụ thể để xác định các vấn đề với dữ liệu. Hiện tại, Cleanlab Studio hỗ trợ một số tác vụ phân loại ML liên quan đến dữ liệu văn bản, dạng bảng và hình ảnh.
Cụ thể để phân loại, nó có thể là một trong K lớp hoặc một đến N của K lớp. Trong tập dữ liệu này, mỗi yêu cầu của khách hàng thuộc một danh mục cụ thể. Nó sẽ là một sự phân loại "Đa lớp".
Studio Cleanlab sẽ tự động phát hiện việc chọn cột văn bản và nhãn. Bạn có thể sửa nó nếu cần thiết.
Sử dụng các mô hình nhanh có thể không mang lại kết quả tốt nhất; vì lợi ích thời gian nên chọn Fast là một lựa chọn.
Nhấn “ Làm sạch dữ liệu của tôi! ”
Cleanlab Studio chạy một tập hợp các mô hình trên tập dữ liệu và trình bày tổng quan về vấn đề!
Như đã chỉ ra trước đó, tập dữ liệu có dữ liệu được phân loại sai và các dữ liệu ngoại lệ, có thể không tăng thêm giá trị cho quá trình ra quyết định tổng thể khi được phân tích.
Bạn cũng có thể xem phân tích tổng hợp về các vấn đề được Cleanlab Studio xác định trên tập dữ liệu bằng cách chuyển sang chế độ xem phân tích ở trên cùng.
Phần thú vị của Cleanlab Studio không chỉ là xuất tập dữ liệu đã được làm sạch mà còn cung cấp chế độ xem dữ liệu của bạn theo hướng vấn đề. Bàn làm việc chuẩn bị dữ liệu còn thiếu mà một nhà phân tích dữ liệu và người dùng kinh doanh thông minh đã mong muốn trong nhiều năm.
Bạn có thể sắp xếp từng vấn đề theo các hành động được hỗ trợ bằng bàn phím được cung cấp trong Cleanlab Studio HOẶC xuất “Xuất Cleanset” bằng cách nhấp vào nút bên dưới.
Chúng ta hãy kiểm tra phân tích dữ liệu tương tự với tập dữ liệu đã được làm sạch.
Dường như có sự khác biệt về số lượng giữa danh mục cancel_transfer
và visa_or_mastercard
. Mặc dù đây là tập dữ liệu nhỏ hơn nhưng điều quan trọng cần lưu ý là những chỉnh sửa dữ liệu này có thể dẫn đến các ước tính khác nhau đáng kể và các quyết định kinh doanh tiềm năng ở quy mô lớn hơn.
Tương tự, bạn có thể thấy yêu cầu của khách hàng đối với một số danh mục biến mất khi vấn đề được đánh dấu phù hợp.
Nếu bạn là nhà phân tích dữ liệu hoặc thành viên của cộng đồng kinh doanh thông minh, Cleanlab Studio có thể cách mạng hóa quy trình chuẩn bị dữ liệu của bạn. Hãy dùng thử Cleanlab Studio ngay hôm nay và trải nghiệm sức mạnh của tính năng làm sạch dữ liệu được AI hỗ trợ để phân tích dữ liệu chính xác và đáng tin cậy hơn.
Cleanlab Studio là bàn làm việc Chuẩn bị dữ liệu không cần mã được hàng nghìn kỹ sư, nhà phân tích và nhà khoa học dữ liệu tại các công ty Fortune 500 sử dụng. Nền tảng đổi mới này được tiên phong tại MIT để đào tạo các mô hình Machine Learning đáng tin cậy và chính xác hơn bằng cách sử dụng dữ liệu sai, trong thế giới thực. Bạn có thể tham gia Cộng đồng Slack của chúng tôi để biết thêm thông tin.