Một trong những vấn đề phổ biến nhất trong Đảm bảo chất lượng (QA) đối với việc quét trang web, tuy nhiên lại vô cùng tầm thường, là đảm bảo trình quét thu thập tất cả các mục từ trang web mục tiêu.
Đó là vấn đề hiệu chỉnh liên tục một công cụ đo lường một đối tượng thay đổi liên tục.
Từ việc dễ phát hiện nhất đến việc khó nhất (không có nghĩa là dễ giải quyết..), chúng tôi có các nguyên nhân dẫn đến việc thu thập dữ liệu không đầy đủ như sau:
Kết quả là, chúng tôi có một bộ sưu tập dữ liệu một phần.
Hầu hết các trường hợp sử dụng quét web đều có Thỏa thuận cấp độ dịch vụ (SLA) có thể dẫn đến các điều khoản phạt. Đảm bảo Chất lượng nhằm mục đích phát hiện vấn đề tiềm ẩn càng sớm càng tốt - trước khi SLA bị vi phạm .
Để làm như vậy, chúng ta cần tăng Tỷ lệ phát hiện lỗi (FDR) và giảm Tỷ lệ cảnh báo sai (FAR). Với một quả anh đào trên đầu: giữ chi phí thấp .
Chúng tôi có thể theo dõi số lượng mặt hàng theo thời gian và kích hoạt cảnh báo khi số lượng này giảm xuống. Đó là một điểm khởi đầu tốt, nhưng mặc dù hiệu quả với những thay đổi đột ngột (tức là giảm 50%), nhưng nó ít hoạt động hơn khi các biến thể tăng dần, tạo ra quá nhiều cảnh báo sai (FAR) hoặc không phát hiện được lỗi.
Điều này xảy ra bởi vì:
Hạn chế quan trọng nhất của phương pháp này là nó không phát hiện ra các mục bị thiếu nếu chúng chưa bao giờ được thu thập bởi máy cạp.
Ví dụ
Trang web thương mại điện tử thời trang có thể có danh mục “bán hàng” của trang web chỉ bật lên trong thời gian bán hàng chính thức. Nếu bạn xây dựng máy cạp của mình khi không có phần này, bạn có thể không bao giờ nhận ra mình đang bỏ lỡ các mặt hàng bán hàng.
Kiểm tra thủ công mang lại độ tin cậy cao nhất về kết quả, như đã thảo luận trong bài đăng này . Nó cung cấp cái gọi là Sự thật cơ bản và bạn có thể so sánh số lượng vật phẩm mà bạn đã thu thập được so với số lượng vật phẩm được thực hiện thủ công.
Hạn chế:
Điều này sẽ giữ Tỷ lệ cảnh báo sai (FAR) tốt nhưng không đạt được Tỷ lệ phát hiện lỗi (FDR) hợp lý, vì tần suất sẽ quá thấp.
Một cách thông minh để giải quyết vấn đề này là so sánh kết quả của bạn, về mặt số lượng vật phẩm, so với một bộ sưu tập độc lập.
Để phương pháp này hoạt động bình thường, dữ liệu điểm chuẩn phải là:
Một bộ sưu tập dữ liệu độc lập (gần như) không tương quan với bộ sưu tập dữ liệu của riêng bạn: nó tương quan với nhau vì chúng nhìn vào cùng một đối tượng, do đó, sự thất bại của đối tượng được quan sát thực sự sẽ gây ra tổn thất trong cả hai bộ sưu tập dữ liệu, nhưng mặt khác, chúng ' lại là kết quả của các quy trình độc lập, được viết bởi và được duy trì bởi các nhóm khác nhau, với các kỹ thuật khác nhau.
Việc sử dụng nguồn dữ liệu có độ tin cậy cao làm tăng đáng kể độ tin cậy của kết quả.
Giả sử Tỷ lệ phát hiện lỗi (FDR) hiện tại của bạn là 90%, nghĩa là hệ thống của bạn có thể tự động phát hiện 90% số lần một trình thu thập dữ liệu chỉ thu thập một phần từ trang web. Hay nói cách khác, tập dữ liệu của bạn, khi được xuất bản, chứa 90% số lần là một bộ sưu tập hoàn chỉnh.
Nếu chúng ta giả sử rằng dữ liệu điểm chuẩn là
a) có khả năng phát hiện lỗi như dữ liệu sản xuất
b) độc lập
Do bộ dữ liệu của Data Boutique nhúng kiểm tra thủ công vào quy trình Đảm bảo chất lượng của họ, nên việc sử dụng dữ liệu của Data Boutique làm điểm chuẩn có thể mở rộng , tiết kiệm chi phí và là cách đáng tin cậy để cải thiện quy trình Đảm bảo chất lượng (QA) ngay cả khi bạn thực hiện quét web nội bộ vì rất có khả năng các bộ dữ liệu được xuất bản trên Data Boutique vượt quá các mức FDR đó.
Hai cấu trúc dữ liệu không nhất thiết phải giống nhau: Bạn chỉ đang so sánh số lượng mặt hàng và không cần cấu trúc giống nhau, điều này rất dễ triển khai. Chỉ có độ chi tiết phải được so sánh.
Bạn có thể chọn tần suất cho QA của mình, tần suất này có thể thấp hơn tần suất mua của bạn (nếu bạn mua các mặt hàng hàng ngày, thì bạn chỉ có thể có điểm chuẩn hàng tuần, điều này vẫn còn rất lâu trong việc cải thiện các bài kiểm tra chất lượng dữ liệu.
Vì dữ liệu của Data Boutique là Fractionable (như đã giải thích trong bài đăng này ), chi phí mua dữ liệu này có thể rất thấp nếu so sánh với tất cả các thước đo chất lượng khác.
Nói cách khác, ngay cả khi cấu trúc dữ liệu của Data Boutique không phù hợp hoàn hảo cho trường hợp sử dụng của bạn, thì việc sử dụng nó để Kiểm tra chất lượng là một cách tiếp cận rất hiệu quả.
Data Boutique là một cộng đồng trao đổi dữ liệu web bền vững, có đạo đức, chất lượng cao. Bạn có thể duyệt qua danh mục hiện tại và thêm yêu cầu của mình nếu một trang web không được liệt kê. Lưu bộ dữ liệu vào danh sách sở thích của bạn sẽ cho phép người bán xác định chính xác nhu cầu về bộ dữ liệu và đưa lên nền tảng.
Thông tin thêm về dự án này có thể được tìm thấy trên các kênh Discord của chúng tôi .
Cũng được xuất bản trên Data Boutique