paint-brush
网络搜索引擎中源分布和结果重叠的比较经过@browserology
394 讀數
394 讀數

网络搜索引擎中源分布和结果重叠的比较

太長; 讀書

该研究比较了 Google、Bing、DuckDuckGo 和 Metager 的搜索结果,结果显示 Google 在顶级结果中显示更多独特域名。虽然维基百科和新闻网站等顶级来源在所有引擎中占据主导地位,但 Metager 与 Bing 的重叠度更高。这表明,与 Google 一起使用其他搜索引擎可以为用户提供更广泛的来源和视角。
featured image - 网络搜索引擎中源分布和结果重叠的比较
Browserology: Study & Science of Internet Browsers HackerNoon profile picture
0-item

作者:

(1)Yagci,Nurce,德国汉堡 HAW,[email protected]

(2)Sünkler,Sebastian,德国汉堡 HAW,[email protected]

(3)Häußler,Helena,德国汉堡 HAW & [email protected]

(4)Lewandowski,Dirk,德国汉堡 HAW,[email protected]

链接表

摘要和引言

文献综述

目标和研究问题

方法

结果

讨论

结论、研究数据、致谢和参考文献

抽象的

说到搜索引擎,用户通常更喜欢谷歌。我们的研究旨在找出谷歌搜索结果与其他搜索引擎之间的差异。我们使用来自德国和美国的谷歌趋势生成的 3,537 个查询,比较了谷歌、必应、DuckDuckGo 和 Metager 的前 10 个结果。谷歌在顶级结果中显示的唯一域名比其竞争对手更多。总体而言,维基百科和新闻网站是最受欢迎的来源。由于一些顶级来源占据了搜索结果的主导地位,域名的分布在所有搜索引擎中也是一致的。谷歌和必应之间的重叠率始终低于 32%,而 Metager 与必应的重叠率高于 DuckDuckGo,高达 78%。这项研究表明,使用其他搜索引擎(尤其是除谷歌之外的搜索引擎)可以提供更广泛的来源,并可能引导用户找到新的观点。

关键词

网络搜索;搜索引擎;网页抓取;谷歌;来源比较

介绍

为什么应该有多个搜索引擎?虽然用户可能更喜欢某个搜索引擎,因为它的可用性、专业功能或更方便地集成到他们的技术环境中,但在本研究中我们感兴趣的问题是,当从不同来源查找结果时,用户是否会从使用 Google 以外的其他搜索引擎中受益。我们的出发点是,Google 是迄今为止使用最多的搜索引擎(StatCounter,2022 年),用户在很大程度上信任搜索引擎为他们提供相关且有用的结果(欧盟委员会,2016 年;Purcell 等人,2012 年),并且只有一些用户除了 Google 之外还使用其他搜索引擎(Schultheiß & Lewandowski,2021 年)。


用户非常信任搜索引擎。91% 的美国用户表示他们总是或大多数时候都能找到他们想要的东西,66% 的人认为搜索引擎是一个公平、公正的信息来源(Purcell 等人,2012 年),这反映了这一点。此外,78% 的欧洲互联网和在线平台用户表示他们相信搜索引擎结果是最相关的结果(欧盟委员会,2016 年)。在全球范围内,在新闻方面,用户对搜索引擎的信任度高于任何其他来源(包括传统新闻媒体)(Edelman Trust Institute,2022 年),并且用户对通过搜索找到的新闻的信任度远远高于在社交媒体上找到的新闻

(Newman 等人,2021 年)。


由于网络非常庞大,不同的搜索引擎可能偏好不同的来源,因此看看搜索结果中显示的顶级来源是否因搜索引擎而异是很有趣的。替代搜索引擎可能更喜欢来自“替代”来源的结果,例如,在政治倾向方面或偏好非商业内容提供商。这一切都归结为替代搜索引擎是否真的是它们显示结果的替代品。如果是,使用 Google 以外的搜索引擎的可能好处包括找到不同的结果、找到额外的结果和找到更相关的结果。无论用户想要实现这些目标中的哪一个,他们都需要 Google 以外的其他结果。因此,看看其他搜索引擎是否为用户提供这样的结果是很有趣的。


关于替代搜索引擎以及如何打破谷歌在搜索引擎市场的主导地位的讨论一直在进行中。方法包括建立单一的替代搜索引擎,以及为此类替代方案构建基础设施(例如,Lewandowski,2019 年);另见 Mager,2014 年)。由于谷歌在搜索引擎市场占据主导地位(StatCounter,2022 年),人们常常认为根本没有替代方案。另一方面,替代(或简称为“其他”)搜索引擎的数量往往被高估。许多看似搜索引擎的搜索引擎仅仅是显示合作伙伴结果的搜索门户,而不是从自己的索引中生成结果。例如,雅虎和 Ecosia 从 Bing 获得结果,因此不能被视为搜索引擎。但是,使用没有自己索引的搜索引擎可能还有其他原因。替代搜索引擎宣传的一些独特优势是隐私(例如 Startpage 和 DuckDuckGo)或成为一家将利润投资于环境项目的公司(例如 Ecosia)。另一种类型的搜索引擎是元搜索引擎(例如 Metager)。这样的引擎会将查询发送给其他几个搜索引擎,然后汇总并重新排列排名靠前的结果。我们认为这种方法是否会带来更广泛的搜索结果,即来自更多样化来源的结果,这一点尤其有趣。因此,在我们的研究中,我们将考虑任何拥有自己的索引或提供来自一个或多个索引的独特结果选择和重新排序的搜索引擎作为替代搜索引擎。我们对来源分布的差异特别感兴趣;结果的相关性超出了我们的研究范围。


20 多年前,Introna & Nissenbaum (2000) 认为,搜索引擎作为商业运营,倾向于选择大型网站,因此,一部分网络,即较小的网站,仍然隐藏在人们的视线之外。衡量用户选择的研究似乎证实了这一点:Goel 等人 (2010) 发现,在雅虎中,只有 10,000 个网站占结果点击量的约 80%。值得注意的是,这不仅仅是由于用户对特定来源的偏好,而是因为用户主要从搜索引擎显示的顶部结果中进行选择。用户不会选择超出直接视野的内容 (Lewandowski & Kammerer, 2021)。


令人惊讶的是,近年来很少有研究比较不同搜索引擎之间的结果。较早的研究(参见文献综述部分)总体发现,不同搜索引擎的顶级结果并没有太多重叠。在本文中,我们讨论了 Google 的顶级结果与其他搜索引擎的不同之处,以及用户是否值得考虑这些替代方案。如果 Google 以外的搜索引擎产生的结果与 Google 非常相似,那么考虑到来源多样性,用户使用该搜索引擎不会受益匪浅。