paint-brush
So sánh sự phân phối nguồn và sự chồng chéo kết quả trong các công cụ tìm kiếm trên webtừ tác giả@browserology
394 lượt đọc
394 lượt đọc

So sánh sự phân phối nguồn và sự chồng chéo kết quả trong các công cụ tìm kiếm trên web

dài quá đọc không nổi

Nghiên cứu so sánh các kết quả tìm kiếm từ Google, Bing, DuckDuckGo và Metager, tiết lộ rằng Google hiển thị nhiều tên miền độc đáo hơn trong các kết quả hàng đầu. Trong khi các nguồn hàng đầu như Wikipedia và các trang tin tức chiếm ưu thế trên tất cả các công cụ, Metager cho thấy sự trùng lặp cao hơn với Bing. Điều này cho thấy việc sử dụng các công cụ tìm kiếm thay thế cùng với Google có thể cung cấp nhiều nguồn và quan điểm đa dạng hơn cho người dùng.
featured image - So sánh sự phân phối nguồn và sự chồng chéo kết quả trong các công cụ tìm kiếm trên web
Browserology: Study & Science of Internet Browsers HackerNoon profile picture
0-item

tác giả:

(1) Yagci, Nurce, HAW Hamburg, Đức & [email protected];

(2) Sünkler, Sebastian, HAW Hamburg, Đức & [email protected];

(3) Häußler, Helena, HAW Hamburg, Đức & [email protected];

(4) Lewandowski, Dirk, HAW Hamburg, Đức & [email protected].

Bảng liên kết

Tóm tắt và giới thiệu

Phê bình văn học

Mục tiêu và câu hỏi nghiên cứu

phương pháp

Kết quả

Cuộc thảo luận

Kết luận, dữ liệu nghiên cứu, lời cảm ơn và tài liệu tham khảo

TRỪU TƯỢNG

Khi nói đến công cụ tìm kiếm, người dùng thường thích Google hơn. Nghiên cứu của chúng tôi nhằm mục đích tìm ra sự khác biệt giữa các kết quả tìm thấy trên Google so với các công cụ tìm kiếm khác. Chúng tôi đã so sánh 10 kết quả hàng đầu từ Google, Bing, DuckDuckGo và Metager, sử dụng 3.537 truy vấn được tạo từ Google Trends từ Đức và Hoa Kỳ. Google hiển thị nhiều tên miền độc đáo hơn trong kết quả hàng đầu so với đối thủ cạnh tranh. Nhìn chung, Wikipedia và các trang web tin tức là những nguồn phổ biến nhất. Với một số nguồn hàng đầu thống trị kết quả tìm kiếm, việc phân bổ tên miền cũng nhất quán trên tất cả các công cụ tìm kiếm. Tỷ lệ trùng lặp giữa Google và Bing luôn ở mức dưới 32%, trong khi Metager có tỷ lệ trùng lặp với Bing cao hơn DuckDuckGo, lên tới 78%. Nghiên cứu này cho thấy rằng việc sử dụng một công cụ tìm kiếm khác, đặc biệt là ngoài Google, cung cấp nhiều nguồn đa dạng hơn và có thể khiến người dùng tìm thấy những quan điểm mới.

TỪ KHÓA

Tìm kiếm trên web; máy tìm kiếm; rút trích nội dung trang web; Google; so sánh nguồn

GIỚI THIỆU

Tại sao nên có nhiều hơn một công cụ tìm kiếm? Mặc dù người dùng có thể thích một công cụ tìm kiếm hơn các công cụ tìm kiếm khác vì khả năng sử dụng, các tính năng chuyên biệt hoặc sự tích hợp thuận tiện hơn vào môi trường kỹ thuật của họ, câu hỏi mà chúng tôi quan tâm trong nghiên cứu này là liệu người dùng có được hưởng lợi từ việc sử dụng một công cụ tìm kiếm khác ngoài Google khi nó xuất hiện hay không. để tìm kiếm kết quả từ các nguồn khác nhau. Điểm khởi đầu của chúng tôi là thực tế rằng Google là công cụ tìm kiếm được sử dụng nhiều nhất cho đến nay (StatCounter, 2022), người dùng đó ở mức độ lớn tin tưởng các công cụ tìm kiếm sẽ cung cấp cho họ kết quả có liên quan và hữu ích (Ủy ban Châu Âu, 2016; Purcell và cộng sự, 2012) và chỉ một số người dùng sử dụng công cụ tìm kiếm khác ngoài Google (Schultheiß & Lewandowski, 2021).


Người dùng đặt niềm tin lớn vào các công cụ tìm kiếm. Điều này được phản ánh bởi 91% người dùng ở Hoa Kỳ cho biết họ luôn tìm thấy những gì họ đang tìm kiếm hoặc hầu hết thời gian và 66% tin rằng công cụ tìm kiếm là nguồn thông tin công bằng và không thiên vị (Purcell và cộng sự, 2012) . Hơn nữa, 78% người dùng nền tảng trực tuyến và internet ở Châu Âu cho biết họ tin tưởng rằng kết quả trên công cụ tìm kiếm của họ là kết quả phù hợp nhất (Ủy ban Châu Âu, 2016). Trên toàn cầu, người dùng tin tưởng các công cụ tìm kiếm hơn bất kỳ nguồn nào khác (bao gồm cả các hãng tin tức truyền thống) khi nói đến tin tức (Edelman Trust Institute, 2022) và người dùng tin tưởng tin tức tìm thấy qua tìm kiếm nhiều hơn đáng kể so với tin tức tìm thấy trên mạng xã hội

(Newman và cộng sự, 2021).


Vì Web rất rộng lớn và các công cụ tìm kiếm khác nhau có thể ưa thích các nguồn khác nhau nên thật thú vị khi xem liệu các nguồn hàng đầu được hiển thị trong kết quả tìm kiếm có khác nhau giữa các công cụ tìm kiếm hay không. Có thể một công cụ tìm kiếm thay thế ưu tiên kết quả từ các nguồn "thay thế", ví dụ: về mặt khuynh hướng chính trị hoặc ưu tiên các nhà cung cấp nội dung phi thương mại. Tất cả điều này phụ thuộc vào việc liệu các công cụ tìm kiếm thay thế có thực sự là lựa chọn thay thế liên quan đến kết quả mà chúng hiển thị hay không. Nếu đúng như vậy, các lợi ích có thể có của việc sử dụng công cụ tìm kiếm không phải là Google bao gồm tìm các kết quả khác, tìm kết quả bổ sung và tìm kết quả có liên quan hơn. Bất kể mục tiêu nào mà người dùng hướng tới đạt được, họ sẽ cần các kết quả khác ngoài kết quả của Google. Vì vậy, thật thú vị khi xem liệu các công cụ tìm kiếm khác có cung cấp cho người dùng những kết quả như vậy hay không.


Đã có một cuộc thảo luận đang diễn ra về các công cụ tìm kiếm thay thế và cách phá vỡ sự thống trị của Google trên thị trường công cụ tìm kiếm. Các phương pháp tiếp cận bao gồm từ việc thiết lập các công cụ tìm kiếm thay thế duy nhất đến xây dựng cơ sở hạ tầng cho các lựa chọn thay thế đó (ví dụ: Lewandowski, 2019); xem thêm Mager, 2014). Với việc Google thống trị thị trường công cụ tìm kiếm (StatCounter, 2022), có vẻ như không có lựa chọn thay thế nào cả. Mặt khác, số lượng công cụ tìm kiếm thay thế (hoặc đơn giản là "khác") thường được đánh giá quá cao. Nhiều công cụ tìm kiếm dường như chỉ là các cổng tìm kiếm hiển thị kết quả từ đối tác thay vì tạo ra kết quả từ chỉ mục của chính họ. Ví dụ: Yahoo và Ecosia nhận kết quả từ Bing và do đó không thể được coi là công cụ tìm kiếm theo đúng nghĩa của họ. Tuy nhiên, có thể có những lý do khác cho việc sử dụng công cụ tìm kiếm không có chỉ mục riêng. Một số lợi ích độc đáo mà các công cụ tìm kiếm thay thế quảng cáo là quyền riêng tư (ví dụ: Startpage và DuckDuckGo) hoặc là một công ty đầu tư lợi nhuận của mình vào các dự án môi trường (ví dụ: Ecosia). Một loại công cụ tìm kiếm khác là công cụ tìm kiếm meta (ví dụ: Metager). Một công cụ như vậy sẽ gửi các truy vấn đến một số công cụ tìm kiếm khác, sau đó tổng hợp và xếp hạng lại các kết quả hàng đầu. Chúng tôi cho rằng điều đặc biệt thú vị là liệu cách tiếp cận như vậy có dẫn đến nhiều kết quả tìm kiếm khác nhau hay không, tức là kết quả từ một tập hợp nguồn đa dạng hơn. Vì vậy, trong bối cảnh nghiên cứu của chúng tôi, chúng tôi sẽ xem xét bất kỳ công cụ tìm kiếm nào có chỉ mục riêng hoặc cung cấp lựa chọn duy nhất và xếp hạng lại kết quả từ một hoặc nhiều chỉ mục làm công cụ tìm kiếm thay thế. Chúng tôi đặc biệt quan tâm đến sự khác biệt trong cách phân phối nguồn; sự liên quan của kết quả nằm ngoài phạm vi nghiên cứu của chúng tôi.


Hơn 20 năm trước, Introna & Nissenbaum (2000) đã lập luận rằng các công cụ tìm kiếm hoạt động thương mại có xu hướng thích các trang web lớn hơn và do đó, một phần của Web, tức là các trang web nhỏ hơn, vẫn bị ẩn khỏi tầm nhìn. Các nghiên cứu đo lường những gì người dùng lựa chọn dường như đã xác nhận điều này: Goel et al. (2010) nhận thấy rằng trong Yahoo, chỉ có 10.000 trang web chiếm khoảng 80% số nhấp chuột trong kết quả. Điều quan trọng cần lưu ý là điều này không chỉ xuất phát từ sở thích của người dùng đối với các nguồn cụ thể mà người dùng chủ yếu chọn từ các kết quả hàng đầu được hiển thị bởi công cụ tìm kiếm. Những gì nằm ngoài tầm nhìn của người dùng sẽ không được chọn (Lewandowski & Kammerer, 2021).


Điều đáng chú ý là rất ít nghiên cứu so sánh kết quả giữa các công cụ tìm kiếm khác nhau trong những năm gần đây. Các nghiên cứu cũ hơn (xem phần đánh giá tài liệu) nhìn chung cho thấy rằng các kết quả hàng đầu từ các công cụ tìm kiếm khác nhau không trùng lặp quá nhiều. Trong bài viết này, chúng tôi đề cập đến sự khác biệt giữa các kết quả hàng đầu của Google với các lựa chọn thay thế và do đó, liệu người dùng có nên xem xét các lựa chọn thay thế này hay không. Nếu một công cụ tìm kiếm không phải là Google tạo ra các kết quả rất giống với Google thì người dùng sẽ không được hưởng lợi nhiều từ việc sử dụng công cụ tìm kiếm đó khi xem xét sự đa dạng của nguồn.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

Hình ảnh chính của Justin Morgan trên Bapt