Trong thế giới Phân tích dữ liệu và Thông minh doanh nghiệp, các nhóm dữ liệu, còn được gọi là “   ”, những người xây dựng các giải pháp mà người dùng doanh nghiệp cần (màu đỏ) và làm việc với các nhóm kỹ thuật (màu xanh), về cơ bản là xây dựng cơ sở hạ tầng cho Dữ liệu . đội màu tím  Các nhóm BI chủ yếu làm việc về xây dựng các luồng hoặc quy trình cung cấp báo cáo và bảng thông tin cần thiết cho hoạt động tiêu dùng của người dùng doanh nghiệp.  Có nhiều công cụ thế hệ mới giúp nhóm dữ liệu xây dựng các giải pháp dành cho người dùng cuối này, như   ,   và   hoặc những công cụ dẫn đầu ngành đã từng làm việc trong lĩnh vực “phân tích dữ liệu” một thời gian, như Tableau hoặc PowerBI. Mode Superset Lightdash  Các nhà phân tích xây dựng các giải pháp này phải chuẩn bị dữ liệu của họ từ nhiều nguồn khác nhau, đảm bảo dữ liệu được chuẩn bị kỹ lưỡng để truy vấn. Một bộ công cụ hoặc các phép biến đổi nhằm thực hiện bước làm sạch trong quy trình làm việc được gọi là “Chuẩn bị dữ liệu”.   Với sự ra đời của các mô hình ngôn ngữ lớn, thảo luận về AI đã trở thành xu hướng chung trong ngành công nghệ phần mềm. Nhưng điều gì sẽ xảy ra nếu tôi nói: Sử dụng các phương pháp thực hành   , chúng ta có thể tự động hóa bước làm sạch dữ liệu? Cho phép bạn xuất phiên bản sạch hơn của tập dữ liệu với nỗ lực tối thiểu! AI lấy dữ liệu làm trung tâm  Trong blog này, chúng tôi sẽ thảo luận về cách sử dụng AI tập trung vào dữ liệu, bạn có thể dễ dàng chuẩn bị dữ liệu của mình cho các công cụ BI để đảm bảo kết luận đáng tin cậy từ quá trình phân tích dữ liệu tiếp theo của bạn.  Quy trình làm việc của nhà phân tích dữ liệu  Vài năm trước, các nhà phân tích dữ liệu phải thu thập, làm sạch và phân tích dữ liệu theo cách thủ công, đây là một quá trình tốn thời gian làm hạn chế khả năng thu được những hiểu biết có giá trị của họ.   Ngày nay, bối cảnh phân tích dữ liệu đã trải qua một sự chuyển đổi đáng kể với sự ra đời của các công cụ chuẩn bị dữ liệu như   ,   , v.v. Alterx Tableau  Những công cụ hiệu quả này đã đơn giản hóa quy trình làm việc, cho phép các nhà phân tích tích hợp liền mạch dữ liệu từ nhiều nguồn, tự động hóa các tác vụ làm sạch dữ liệu và tạo ra các bản trình bày dữ liệu trực quan và hấp dẫn.   Phân tích dữ liệu sau khi chuẩn bị dữ liệu thủ công  Dữ liệu được chuẩn bị trước bằng các công cụ này sẽ được phân tích bằng công cụ BI để xác định các truy vấn kinh doanh cụ thể.  Ví dụ: hãy xem xét   về các yêu cầu của khách hàng trong một ngân hàng nơi khách hàng ghi lại các vấn đề họ gặp phải trong cổng dịch vụ khách hàng mà người quản lý tác vụ tự động hoặc con người sẽ gắn nhãn. tập dữ liệu này  Hãy tưởng tượng nếu một nhà phân tích kinh doanh xác định số lượng yêu cầu của khách hàng xuất hiện cho một danh mục vấn đề cụ thể. Dưới đây là kết quả mà anh ấy/cô ấy sẽ thấy - với danh mục   hiển thị   vấn đề của khách hàng.  beneficiary_not_allowed 111  Tương tự, nếu một nhà phân tích muốn tìm hiểu xem có bao nhiêu trường hợp vấn đề có liên quan đến từ   , thì một phân tích nhanh sẽ trả về phần trình bày trực quan bên dưới. Lưu ý số lượng vấn đề đối với danh mục   .  ATM change_pin  Nó trông đơn giản và dễ hiểu, nhưng nếu tìm hiểu sâu hơn về   , bạn có thể thấy việc phân loại yêu cầu của khách hàng là sai trong một số trường hợp. tập dữ liệu  Ví dụ:  Chữ  Nhãn (theo tập dữ liệu)  Nhãn (lý tưởng nhất)  Thẻ của tôi gần hết hạn rồi. Tôi sẽ nhận được cái mới trong bao lâu và chi phí là bao nhiêu?  apple_pay_or_google_pay  thẻ_about_to_hết hạn  Phần lớn dữ liệu trong thế giới thực rất lộn xộn và không có cấu trúc, khiến việc khấu trừ giá trị thông qua số liệu thống kê trở nên khó khăn. Vì chúng tôi muốn con người và máy móc đưa ra quyết định dựa trên dữ liệu, điều quan trọng là dữ liệu phải được gắn nhãn rõ ràng, không có bất kỳ dữ liệu sai sót nào và không bị trùng lặp.  AI tập trung vào dữ liệu  Điều quan trọng là đảm bảo rằng dữ liệu được sử dụng trong phân tích là chính xác, cập nhật và không bị trùng lặp. Nếu không làm như vậy có thể dẫn đến những quyết định và kết luận không chính xác. Ví dụ: trường vị trí trống trong dữ liệu hồ sơ người dùng hoặc định dạng trường vị trí không nhất quán có thể dẫn đến lỗi. Do đó, việc duy trì chất lượng dữ liệu là rất quan trọng để Phân tích dữ liệu hiệu quả.  AI tập trung vào dữ liệu là môn học kỹ thuật có hệ thống dữ liệu được sử dụng để xây dựng hệ thống AI. Hầu hết dữ liệu trong thế giới thực đều không có cấu trúc hoặc được dán nhãn sai. Một tập dữ liệu chất lượng với tập hợp dữ liệu đào tạo được gắn nhãn phù hợp sẽ dẫn đến một mô hình hiệu quả, có thể dự đoán kết quả tốt hơn.  Kết quả tốt hơn mang lại trải nghiệm khách hàng tốt hơn. Để tìm hiểu thêm, bạn có thể tham khảo khóa học   của MIT. Data-centric AI  Giới thiệu Cleanlab    là một dự án nguồn mở giúp bạn làm sạch dữ liệu và nhãn bằng cách tự động phát hiện các vấn đề trong tập dữ liệu. Cleanlab sử dụng   - dựa trên một bài báo nói về việc ước tính độ không chắc chắn trong nhãn tập dữ liệu của Curtis Northcutt (cũng là người đồng sáng lập   ) và những người khác. Cleanlab phương pháp học tập tự tin Cleanlab.ai  Cleanlab về cơ bản nâng cao quy trình phân tích dữ liệu bằng cách tạo ra AI.   Tự động làm sạch dữ liệu của bạn bằng Cleanlab Studio  Cleanlab Studio là một công cụ không có mã được xây dựng dựa trên gói nguồn mở Cleanlab —nó giúp chuẩn bị dữ liệu cho quy trình phân tích. Bạn cũng có thể nhập dữ liệu từ kho dữ liệu của mình như   ,   hoặc Cloud Object Stores như   . Databricks Snowflake AWS S3  Bước 1:  Đăng ký để truy cập vào   .  Cleanlab Studio  Bạn sẽ đăng nhập vào bảng điều khiển với một số bộ dữ liệu và dự án mẫu.   Bước 2:  Nhấp vào “Tải lên tập dữ liệu” để bắt đầu trình hướng dẫn tải lên. Bạn có thể tải tập   lên từ máy tính, URL, API hoặc Kho dữ liệu như   và Snowflake.  dữ liệu Databricks  Cleanlab Studio tự động suy ra lược đồ và phương thức dữ liệu của bạn, tức là văn bản, hình ảnh, giọng nói hoặc dạng bảng.   Sau khi xác nhận thông tin chi tiết, bạn sẽ thấy một màn hình có tập dữ liệu đã tải lên và các lỗi liên quan (nếu có!) gặp phải khi tải dữ liệu lên.     Lưu ý: Một số tập dữ liệu có thể mất vài phút để tải lên. Cleanlab sẽ thông báo cho bạn sau khi tập dữ liệu được tải đầy đủ lên Cleanlab Studio qua Email.  Bước 3:  Dựa trên loại tập dữ liệu, bạn có thể sử dụng tác vụ học máy cụ thể để xác định các vấn đề với dữ liệu. Hiện tại, Cleanlab Studio hỗ trợ một số tác vụ phân loại ML liên quan đến dữ liệu văn bản, dạng bảng và hình ảnh.  Cụ thể để phân loại, nó có thể là một trong K lớp hoặc một đến N của K lớp. Trong tập dữ liệu này, mỗi yêu cầu của khách hàng thuộc một danh mục cụ thể. Nó sẽ là một sự phân loại "Đa lớp".   Studio Cleanlab sẽ tự động phát hiện việc chọn cột văn bản và nhãn. Bạn có thể sửa nó nếu cần thiết.   Sử dụng các mô hình nhanh có thể không mang lại kết quả tốt nhất; vì lợi ích thời gian nên chọn Fast là một lựa chọn.  Nhấn “   ” Làm sạch dữ liệu của tôi!  Bước 4:  Cleanlab Studio chạy một tập hợp các mô hình trên tập dữ liệu và trình bày tổng quan về vấn đề!  Như đã chỉ ra trước đó, tập dữ liệu có dữ liệu được phân loại sai và các dữ liệu ngoại lệ, có thể không tăng thêm giá trị cho quá trình ra quyết định tổng thể khi được phân tích.   Bạn cũng có thể xem phân tích tổng hợp về các vấn đề được Cleanlab Studio xác định trên tập dữ liệu bằng cách chuyển sang chế độ xem phân tích ở trên cùng.   Bước 5:  Phần thú vị của Cleanlab Studio không chỉ là xuất tập dữ liệu đã được làm sạch mà còn cung cấp chế độ xem dữ liệu của bạn theo hướng vấn đề. Bàn làm việc chuẩn bị dữ liệu còn thiếu mà một nhà phân tích dữ liệu và người dùng kinh doanh thông minh đã mong muốn trong nhiều năm.  Bạn có thể sắp xếp từng vấn đề theo các hành động được hỗ trợ bằng bàn phím được cung cấp trong Cleanlab Studio HOẶC xuất “Xuất Cleanset” bằng cách nhấp vào nút bên dưới.   Phân tích dữ liệu sau khi chuẩn bị dữ liệu được hỗ trợ bởi AI  Chúng ta hãy kiểm tra phân tích dữ liệu tương tự với tập dữ liệu đã được làm sạch.  Dường như có sự khác biệt về số lượng giữa danh mục   và   . Mặc dù đây là tập dữ liệu nhỏ hơn nhưng điều quan trọng cần lưu ý là những chỉnh sửa dữ liệu này có thể dẫn đến các ước tính khác nhau đáng kể và các quyết định kinh doanh tiềm năng ở quy mô lớn hơn.  cancel_transfer visa_or_mastercard  Tương tự, bạn có thể thấy yêu cầu của khách hàng đối với một số danh mục biến mất khi vấn đề được đánh dấu phù hợp.   Nếu bạn là nhà phân tích dữ liệu hoặc thành viên của cộng đồng kinh doanh thông minh, Cleanlab Studio có thể cách mạng hóa quy trình chuẩn bị dữ liệu của bạn. Hãy dùng thử   ngay hôm nay và trải nghiệm sức mạnh của tính năng làm sạch dữ liệu được AI hỗ trợ để phân tích dữ liệu chính xác và đáng tin cậy hơn. Cleanlab Studio  Phần kết luận  Cleanlab Studio là bàn làm việc Chuẩn bị dữ liệu không cần mã được hàng nghìn kỹ sư, nhà phân tích và nhà khoa học dữ liệu tại các công ty Fortune 500 sử dụng. Nền tảng đổi mới này được tiên phong tại MIT để đào tạo các mô hình Machine Learning đáng tin cậy và chính xác hơn bằng cách sử dụng dữ liệu sai, trong thế giới thực. Bạn có thể tham gia   của chúng tôi để biết thêm thông tin. Cộng đồng Slack

This story contains new, firsthand information uncovered by the writer.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Join Cleanlab Community of AI Practitioners

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Tăng cường việc chuẩn bị dữ liệu với AI cho hoạt động kinh doanh thông minh

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

581 Stories To Learn About Non Fiction

189 Stories To Learn About Reading Books

184 Stories To Learn About Psychology

147 Stories To Learn About Reading Books Online

581 Stories To Learn About Non Fiction

189 Stories To Learn About Reading Books

184 Stories To Learn About Psychology

147 Stories To Learn About Reading Books Online

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps