paint-brush
Сравнение распределения источников и перекрытия результатов в поисковых системах веб-сайтовк@browserology
500 чтения
500 чтения

Сравнение распределения источников и перекрытия результатов в поисковых системах веб-сайтов

Слишком долго; Читать

Исследование сравнивает результаты поиска Google, Bing, DuckDuckGo и Metager и показывает, что Google отображает больше уникальных доменов в топе результатов. В то время как ведущие источники, такие как Википедия и новостные сайты, доминируют во всех движках, Metager показывает большее совпадение с Bing. Это говорит о том, что использование альтернативных поисковых систем наряду с Google может предоставить пользователям более широкий спектр источников и перспектив.
featured image - Сравнение распределения источников и перекрытия результатов в поисковых системах веб-сайтов
Browserology: Study & Science of Internet Browsers HackerNoon profile picture
0-item

Авторы:

(1) Ягчи, Нурсе, HAW Гамбург, Германия & [email protected];

(2) Зюнклер, Себастьян, HAW Гамбург, Германия & [email protected];

(3) Хойслер, Хелена, HAW Гамбург, Германия & [email protected];

(4) Левандовски, Дирк, HAW Гамбург, Германия и [email protected].

Таблица ссылок

Аннотация и введение

Литературный обзор

Цели и вопросы исследования

Методы

Полученные результаты

Обсуждение

Заключение, данные исследования, благодарности и ссылки.

АБСТРАКТНЫЙ

Когда дело доходит до поисковых систем, пользователи обычно предпочитают Google. Наше исследование направлено на то, чтобы найти различия между результатами, найденными в Google, по сравнению с другими поисковыми системами. Мы сравнили 10 лучших результатов Google, Bing, DuckDuckGo и Metager, используя 3537 запросов, сгенерированных Google Trends из Германии и США. Google отображает больше уникальных доменов в топе результатов, чем его конкуренты. Википедия и новостные сайты в целом являются наиболее популярными источниками. Поскольку некоторые популярные источники доминируют в результатах поиска, распределение доменов также одинаково во всех поисковых системах. Перекрытие между Google и Bing всегда составляет менее 32%, в то время как Metager имеет более высокое совпадение с Bing, чем DuckDuckGo, до 78%. Это исследование показывает, что использование другой поисковой системы, особенно в дополнение к Google, обеспечивает более широкое разнообразие источников и может привести пользователя к поиску новых перспектив.

КЛЮЧЕВЫЕ СЛОВА

Веб-поиск; поисковый движок; парсинг веб-страниц; Google; сравнение источников

ВВЕДЕНИЕ

Почему должно быть несколько поисковых систем? Хотя пользователи могут предпочитать одну поисковую систему другим из-за ее удобства использования, специализированных функций или более удобной интеграции в их техническую среду, в этом исследовании нас интересует вопрос, получит ли пользователь выгоду от использования другой поисковой системы, кроме Google, когда она появится. находить результаты из разных источников. Нашей отправной точкой является тот факт, что Google на сегодняшний день является наиболее используемой поисковой системой (StatCounter, 2022), и пользователи в значительной степени доверяют поисковым системам в предоставлении им релевантных и полезных результатов (Европейская комиссия, 2016; Purcell et al., 2012), и что лишь некоторые пользователи используют другую поисковую систему помимо Google (Schultheiß & Lewandowski, 2021).


Пользователи очень доверяют поисковым системам. Об этом свидетельствуют 91% пользователей в США, которые заявили, что находят то, что ищут всегда или большую часть времени, и 66%, которые считают, что поисковые системы являются честным и беспристрастным источником информации (Purcell et al., 2012). . Более того, 78% европейских пользователей Интернета и онлайн-платформ заявили, что верят, что результаты их поисковых систем являются наиболее релевантными (Европейская комиссия, 2016). Во всем мире пользователи доверяют поисковым системам больше, чем любому другому источнику (включая традиционные новостные агентства), когда дело доходит до новостей (Edelman Trust Institute, 2022), и пользователи доверяют новостям, найденным с помощью поиска, значительно больше, чем новостям, найденным в социальных сетях.

(Ньюман и др., 2021).


Поскольку Интернет огромен, и разные поисковые системы могут предпочитать разные источники, интересно посмотреть, отличаются ли самые популярные источники, отображаемые в результатах поиска, от одной поисковой системы к другой. Возможно, альтернативная поисковая система предпочитает результаты из «альтернативных» источников, например, с точки зрения политической ориентации или предпочтения некоммерческих поставщиков контента. Все сводится к тому, являются ли альтернативные поисковые системы альтернативой в отношении отображаемых ими результатов. Если бы это было так, возможные преимущества использования поисковой системы, отличной от Google, включали бы поиск других результатов, поиск дополнительных результатов и поиск более релевантных результатов. Независимо от того, какую из этих целей пользователь стремится достичь, ему потребуются другие результаты, кроме результатов Google. Поэтому интересно посмотреть, предоставляют ли другие поисковые системы пользователям такие результаты.


Продолжается дискуссия об альтернативных поисковых системах и о том, как можно сломить доминирование Google на рынке поисковых систем. Подходы варьируются от создания единых альтернативных поисковых систем до создания инфраструктуры для таких альтернатив (например, Левандовски, 2019); также см. Mager, 2014). Поскольку Google доминирует на рынке поисковых систем (StatCounter, 2022), часто кажется, что альтернативы вообще нет. С другой стороны, количество альтернативных (или просто «других») поисковых систем часто переоценивается. Многие кажущиеся поисковыми системы представляют собой просто поисковые порталы, отображающие результаты от партнера, а не генерирующие результаты из собственного индекса. Например, Yahoo и Ecosia получают результаты от Bing и поэтому не могут считаться самостоятельными поисковыми системами. Но все же могут быть и другие причины использования поисковой системы без собственного индекса. Некоторые из уникальных преимуществ, которые рекламируют альтернативные поисковые системы, — это конфиденциальность (например, Startpage и DuckDuckGo) или возможность компании инвестировать свою прибыль в экологические проекты (например, Ecosia). Другой тип поисковой системы — это метапоисковая система (например, Metager). Такая система отправляет запросы в несколько других поисковых систем, затем объединяет и повторно ранжирует лучшие результаты. Мы считаем особенно интересным, приведет ли такой подход к более широкому разнообразию результатов поиска, т. е. к результатам из более разнообразного набора источников. Итак, в контексте нашего исследования мы будем рассматривать в качестве альтернативной поисковой системы любую поисковую систему, которая либо имеет собственный индекс, либо обеспечивает уникальный отбор и переранжирование результатов из одного или нескольких индексов. Нас особенно интересуют различия в распространении источников; Актуальность результатов выходит за рамки нашего исследования.


Более 20 лет назад Интрона и Ниссенбаум (2000) утверждали, что поисковые системы как коммерческие операции имеют тенденцию отдавать предпочтение крупным веб-сайтам и, следовательно, часть Интернета, то есть более мелкие сайты, остаются скрытыми от глаз. Исследования, измеряющие выбор пользователей, похоже, подтверждают это: Goel et al. (2010) обнаружили, что в Yahoo только на 10 000 веб-сайтов приходится примерно 80% кликов по результатам. Важно отметить, что это происходит не просто из-за предпочтений пользователей в отношении определенных источников, но и из-за того, что пользователи преимущественно выбирают из верхних результатов, отображаемых поисковой системой. То, что находится вне поля зрения пользователей, не будет выбрано (Lewandowski & Kammerer, 2021).


Поразительно, что в последние годы лишь немногие исследования сравнивали результаты разных поисковых систем. Более ранние исследования (см. раздел «Обзор литературы») в целом показали, что лучшие результаты разных поисковых систем не слишком сильно перекрываются. В этой статье мы рассмотрим, чем лучшие результаты Google отличаются от альтернатив и, следовательно, стоит ли пользователю рассматривать эти альтернативы. Если поисковая система, отличная от Google, дает результаты, очень похожие на Google, пользователь не получит особой выгоды от использования этой поисковой системы, если учитывать разнообразие источников.


Этот документ доступен на arxiv под лицензией CC 4.0.

Главное изображение Джастина Моргана на Unsplash