paint-brush
웹 검색엔진의 소스 분포와 결과 중첩 비교~에 의해@browserology
394 판독값
394 판독값

웹 검색엔진의 소스 분포와 결과 중첩 비교

너무 오래; 읽다

이 연구에서는 Google, Bing, DuckDuckGo 및 Metager의 검색 결과를 비교하여 Google이 상위 결과에 더 고유한 도메인을 표시하는 것으로 나타났습니다. Wikipedia 및 뉴스 사이트와 같은 상위 소스가 모든 엔진에서 지배적인 반면 Metager는 Bing과 더 높은 중복을 보여줍니다. 이는 Google과 함께 대체 검색 엔진을 사용하면 사용자에게 더 다양한 소스와 관점을 제공할 수 있음을 의미합니다.
featured image - 웹 검색엔진의 소스 분포와 결과 중첩 비교
Browserology: Study & Science of Internet Browsers HackerNoon profile picture
0-item

저자:

(1) Yagci, Nurce, HAW 함부르크, 독일 & [email protected];

(2) Sünkler, Sebastian, HAW 함부르크, 독일 & [email protected];

(3) Häußler, Helena, HAW 함부르크, 독일 & [email protected];

(4) Lewandowski, Dirk, HAW 함부르크, 독일 & [email protected].

링크 표

초록 및 소개

문헌 검토

목표 및 연구 질문

행동 양식

결과

논의

결론, 연구 데이터, 감사의 글 및 참고 자료

추상적인

검색 엔진의 경우 사용자는 일반적으로 Google을 선호합니다. 우리의 연구 목표는 Google에서 찾은 결과와 다른 검색 엔진 간의 차이점을 찾는 것입니다. 우리는 독일과 미국의 Google Trends에서 생성된 3,537개의 쿼리를 사용하여 Google, Bing, DuckDuckGo 및 Metager의 상위 10개 결과를 비교했습니다. Google은 경쟁사보다 상위 결과에 더 많은 고유 도메인을 표시합니다. Wikipedia와 뉴스 웹사이트는 전체적으로 가장 인기 있는 소스입니다. 일부 상위 소스가 검색 결과를 지배하므로 도메인 분포도 모든 검색 엔진에서 일관됩니다. Google과 Bing 간의 중복은 항상 32% 미만인 반면 Metager는 DuckDuckGo보다 Bing과의 중복이 더 높아 최대 78%에 이릅니다. 이 연구는 특히 Google 외에 다른 검색 엔진을 사용하면 더 다양한 소스를 제공하고 사용자가 새로운 관점을 찾도록 유도할 수 있음을 보여줍니다.

키워드

웹 서핑; 검색 엔진; 웹스크래핑; Google; 소스 비교

소개

왜 검색 엔진이 두 개 이상 있어야 합니까? 사용자는 유용성, 특수 기능 또는 기술 환경에 대한 보다 편리한 통합 때문에 다른 검색 엔진보다 하나의 검색 엔진을 선호할 수 있지만, 이 연구에서 우리가 관심을 갖는 질문은 사용자가 Google이 아닌 다른 검색 엔진을 사용함으로써 이익을 얻을 수 있는지 여부입니다. 다양한 소스에서 결과를 찾는 것입니다. 우리의 출발점은 Google이 지금까지 가장 많이 사용되는 검색 엔진이고(StatCounter, 2022), 사용자는 관련성 있고 유용한 결과를 제공하는 검색 엔진을 크게 신뢰한다는 사실입니다(European Commission, 2016; Purcell et al., 2012), 일부 사용자만이 Google 외에 다른 검색 엔진을 사용하는 것으로 나타났습니다(Schultheiß & Lewandowski, 2021).


사용자는 검색 엔진에 큰 신뢰를 둡니다. 이는 항상 또는 대부분의 시간 동안 찾고 있는 것을 찾는다고 답한 미국 사용자의 91%와 검색 엔진이 공정하고 편견 없는 정보 소스라고 믿는 66%에 의해 반영됩니다(Purcell et al., 2012). . 또한, 유럽 인터넷 및 온라인 플랫폼 사용자의 78%는 검색 엔진 결과가 가장 관련성이 높은 결과라고 신뢰한다고 말했습니다(유럽 위원회, 2016). 전 세계적으로 사용자는 뉴스에 관해 다른 어떤 소스(기존 뉴스 매체 포함)보다 검색 엔진을 더 신뢰하며(Edelman Trust Institute, 2022) 사용자는 소셜 미디어에서 찾은 뉴스보다 검색을 통해 찾은 뉴스를 훨씬 더 신뢰합니다.

(뉴먼 외, 2021).


웹은 거대하고 다양한 검색 엔진이 서로 다른 소스를 선호할 수 있으므로 검색 결과에 표시되는 상위 소스가 검색 엔진마다 다른지 확인하는 것은 흥미롭습니다. 대체 검색 엔진은 예를 들어 정치적 성향이나 비상업적 콘텐츠 제공자를 선호하는 측면에서 "대체" 소스의 결과를 선호할 수 있습니다. 이 모든 것은 대체 검색 엔진이 표시되는 결과와 관련하여 실제로 대안인지 여부에 달려 있습니다. 그렇다면 Google 이외의 검색 엔진을 사용하면 다른 결과 찾기, 추가 결과 찾기, 더 관련성이 높은 결과 찾기 등의 이점을 얻을 수 있습니다. 사용자가 달성하려는 목표가 무엇이든 Google의 결과가 아닌 다른 결과가 필요합니다. 따라서 다른 검색 엔진이 사용자에게 그러한 결과를 제공하는지 여부는 흥미롭습니다.


대체 검색 엔진과 검색 엔진 시장에서 Google의 지배력이 어떻게 무너질 수 있는지에 대한 지속적인 논의가 있어 왔습니다. 접근 방식은 단일 대체 검색 엔진을 구축하는 것부터 그러한 대안을 위한 인프라를 구축하는 것까지 다양합니다(예: Lewandowski, 2019). Mager, 2014 참조). Google이 검색 엔진 시장을 장악하고 있는 상황에서(StatCounter, 2022), 대안이 전혀 없는 것처럼 보이는 경우가 많습니다. 반면에 대체(또는 간단히 "기타") 검색 엔진의 수는 종종 과대평가됩니다. 많은 것처럼 보이는 검색 엔진은 자체 색인에서 결과를 생성하는 대신 파트너의 결과를 표시하는 단순한 검색 포털입니다. 예를 들어 Yahoo와 Ecosia는 Bing에서 결과를 가져오므로 그 자체로는 검색 엔진으로 간주될 수 없습니다. 그러나 자체 색인 없이 검색 엔진을 사용하는 데는 다른 이유가 있을 수 있습니다. 대체 검색 엔진이 광고하는 고유한 이점 중 일부는 개인 정보 보호(예: Startpage 및 DuckDuckGo) 또는 환경 프로젝트에 수익을 투자하는 회사(예: Ecosia)입니다. 또 다른 유형의 검색 엔진은 메타 검색 엔진(예: Metager)입니다. 이러한 엔진은 쿼리를 다른 여러 검색 엔진에 보낸 다음 상위 결과를 집계하고 다시 순위를 매깁니다. 우리는 그러한 접근 방식이 더 다양한 검색 결과, 즉 더 다양한 소스 집합의 결과로 이어질지 여부가 특히 흥미롭다고 생각합니다. 따라서 우리 연구의 맥락에서 우리는 자체 색인을 가지고 있거나 고유한 선택을 제공하고 하나 이상의 색인에서 결과를 다시 순위 지정하는 모든 검색 엔진을 대체 검색 엔진으로 고려할 것입니다. 우리는 특히 소스 배포의 차이점에 관심이 있습니다. 결과의 관련성은 우리 연구 범위를 벗어납니다.


20여년 전, Introna & Nissenbaum(2000)은 상업적 운영으로서의 검색 엔진은 대형 웹 사이트를 선호하는 경향이 있으므로 웹의 일부, 즉 소규모 사이트가 눈에 띄지 않는 상태로 남아 있다고 주장했습니다. 사용자가 무엇을 선택하는지 측정하는 연구에서는 이를 확인하는 것으로 보입니다: Goel et al. (2010)은 Yahoo 내에서 단 10,000개의 웹사이트만이 결과 클릭의 약 80%를 차지한다는 사실을 발견했습니다. 이는 단순히 특정 소스에 대한 사용자 선호도의 결과가 아니라 사용자가 주로 검색 엔진에 표시되는 상위 결과에서 선택한다는 점에 유의하는 것이 중요합니다. 사용자가 즉시 볼 수 없는 것은 선택되지 않습니다(Lewandowski & Kammerer, 2021).


최근 몇 년간 서로 다른 검색 엔진 간의 결과를 비교한 연구는 거의 없다는 점은 놀랍습니다. 이전 연구(문헌 검토 섹션 참조)에서는 전반적으로 다양한 검색 엔진의 상위 결과가 너무 많이 겹치지 않는 것으로 나타났습니다. 이 백서에서는 Google의 최고 결과가 대안과 어떻게 다른지, 그리고 사용자가 이러한 대안을 고려할 가치가 있는지 여부를 설명합니다. Google 이외의 검색 엔진이 Google과 매우 유사한 결과를 생성하는 경우 소스 다양성을 고려할 때 사용자는 해당 검색 엔진을 사용해도 큰 이점을 얻지 못할 것입니다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

Unsplash의 Justin Morgan 의 리드 이미지