paint-brush
वेब सर्च इंजन में स्रोत वितरण और परिणाम ओवरलैप की तुलनाद्वारा@browserology
500 रीडिंग
500 रीडिंग

वेब सर्च इंजन में स्रोत वितरण और परिणाम ओवरलैप की तुलना

बहुत लंबा; पढ़ने के लिए

अध्ययन में Google, Bing, DuckDuckGo और Metager के खोज परिणामों की तुलना की गई है, जिससे पता चलता है कि Google शीर्ष परिणामों में अधिक अद्वितीय डोमेन प्रदर्शित करता है। जबकि विकिपीडिया और समाचार साइटों जैसे शीर्ष स्रोत सभी इंजनों पर हावी हैं, Metager बिंग के साथ अधिक ओवरलैप दिखाता है। यह सुझाव देता है कि Google के साथ वैकल्पिक खोज इंजनों का उपयोग उपयोगकर्ताओं के लिए स्रोतों और दृष्टिकोणों की एक विस्तृत विविधता प्रदान कर सकता है।
featured image - वेब सर्च इंजन में स्रोत वितरण और परिणाम ओवरलैप की तुलना
Browserology: Study & Science of Internet Browsers HackerNoon profile picture
0-item

लेखक:

(1) यागसी, नर्स, एचएडब्ल्यू हैम्बर्ग, जर्मनी और [email protected];

(2) सुंकलर, सेबेस्टियन, एचएडब्ल्यू हैम्बर्ग, जर्मनी और [email protected];

(3) हेस्लर, हेलेना, एचएडब्ल्यू हैम्बर्ग, जर्मनी और [email protected];

(4) लेवांडोव्स्की, डर्क, एचएडब्ल्यू हैम्बर्ग, जर्मनी और [email protected].

लिंक की तालिका

सार और परिचय

साहित्य की समीक्षा

उद्देश्य और शोध प्रश्न

तरीकों

परिणाम

बहस

निष्कर्ष, शोध डेटा, आभार और संदर्भ

अमूर्त

जब सर्च इंजन की बात आती है, तो उपयोगकर्ता आम तौर पर Google को पसंद करते हैं। हमारे अध्ययन का लक्ष्य अन्य सर्च इंजनों की तुलना में Google में पाए गए परिणामों के बीच अंतर ढूंढना है। हमने जर्मनी और अमेरिका से Google Trends से उत्पन्न 3,537 प्रश्नों का उपयोग करके Google, Bing, DuckDuckGo और Metager के शीर्ष 10 परिणामों की तुलना की। Google अपने प्रतिस्पर्धियों की तुलना में शीर्ष परिणामों में अधिक विशिष्ट डोमेन प्रदर्शित करता है। विकिपीडिया और समाचार वेबसाइटें कुल मिलाकर सबसे लोकप्रिय स्रोत हैं। खोज परिणामों पर कुछ शीर्ष स्रोतों के हावी होने के साथ, डोमेन का वितरण भी सभी सर्च इंजनों में एक समान है। Google और Bing के बीच ओवरलैप हमेशा 32% से कम होता है, जबकि Metager का Bing के साथ DuckDuckGo की तुलना में अधिक ओवरलैप होता है,

कीवर्ड

वेब खोज; खोज इंजन; वेब स्क्रैपिंग; गूगल; स्रोत तुलना

परिचय

एक से ज़्यादा सर्च इंजन क्यों होने चाहिए? जबकि उपयोगकर्ता किसी एक सर्च इंजन को उसकी उपयोगिता, विशेष सुविधाओं या उनके तकनीकी वातावरण में अधिक सुविधाजनक एकीकरण के लिए दूसरों पर पसंद कर सकते हैं, इस शोध में हमें जिस सवाल में दिलचस्पी है वह यह है कि क्या किसी उपयोगकर्ता को अलग-अलग स्रोतों से परिणाम खोजने के मामले में Google के अलावा किसी अन्य सर्च इंजन का उपयोग करने से लाभ होगा। हमारा शुरुआती बिंदु यह तथ्य है कि Google अब तक का सबसे अधिक उपयोग किया जाने वाला सर्च इंजन है (स्टेटकाउंटर, 2022), कि उपयोगकर्ता काफी हद तक सर्च इंजन पर भरोसा करते हैं कि वे उन्हें प्रासंगिक और उपयोगी परिणाम प्रदान करेंगे (यूरोपीय आयोग, 2016; पर्सेल एट अल., 2012), और यह कि केवल कुछ उपयोगकर्ता Google के अलावा किसी अन्य सर्च इंजन का उपयोग करते हैं (शुल्थीस और लेवांडोव्स्की, 2021)।


उपयोगकर्ता सर्च इंजन पर बहुत भरोसा करते हैं। यह 91% अमेरिकी उपयोगकर्ताओं द्वारा दर्शाया गया है जिन्होंने कहा कि वे हमेशा या अधिकांश समय वही पाते हैं जो वे खोज रहे होते हैं, और 66% जो मानते हैं कि सर्च इंजन सूचना का एक निष्पक्ष और निष्पक्ष स्रोत हैं (पर्सेल एट अल., 2012)। इसके अलावा, 78% यूरोपीय इंटरनेट और ऑनलाइन प्लेटफ़ॉर्म उपयोगकर्ताओं ने कहा कि उन्हें भरोसा है कि उनके सर्च इंजन परिणाम सबसे प्रासंगिक परिणाम हैं (यूरोपीय आयोग, 2016)। वैश्विक स्तर पर, उपयोगकर्ता समाचारों के मामले में किसी भी अन्य स्रोत (पारंपरिक समाचार आउटलेट सहित) की तुलना में सर्च इंजन पर अधिक भरोसा करते हैं (एडेलमैन ट्रस्ट इंस्टीट्यूट, 2022) और उपयोगकर्ता सोशल मीडिया पर मिलने वाली खबरों की तुलना में सर्च के माध्यम से मिलने वाली खबरों पर काफी अधिक भरोसा करते हैं।

(न्यूमैन एट अल., 2021).


चूंकि वेब बहुत बड़ा है और अलग-अलग सर्च इंजन अलग-अलग स्रोतों को प्राथमिकता दे सकते हैं, इसलिए यह देखना दिलचस्प है कि सर्च रिजल्ट में दिखाए जाने वाले शीर्ष स्रोत एक सर्च इंजन से दूसरे में भिन्न हैं या नहीं। हो सकता है कि कोई वैकल्पिक सर्च इंजन "वैकल्पिक" स्रोतों से परिणामों को प्राथमिकता देता हो, उदाहरण के लिए, राजनीतिक झुकाव या गैर-वाणिज्यिक सामग्री प्रदाताओं को प्राथमिकता देने के मामले में। यह सब इस बात पर निर्भर करता है कि वैकल्पिक सर्च इंजन वास्तव में उनके द्वारा प्रदर्शित परिणामों के संबंध में वैकल्पिक हैं या नहीं। यदि वे थे, तो Google के अलावा किसी अन्य सर्च इंजन का उपयोग करने के संभावित लाभों में अलग-अलग परिणाम खोजना, अतिरिक्त परिणाम खोजना और अधिक प्रासंगिक परिणाम खोजना शामिल है। कोई फर्क नहीं पड़ता कि उपयोगकर्ता इनमें से किस लक्ष्य को प्राप्त करना चाहता है, उन्हें Google के अलावा अन्य परिणामों की आवश्यकता होगी। इसलिए, यह देखना दिलचस्प है कि क्या अन्य सर्च इंजन उपयोगकर्ताओं को ऐसे परिणाम प्रदान करते हैं।


वैकल्पिक खोज इंजन और खोज इंजन बाजार में Google के प्रभुत्व को कैसे तोड़ा जा सकता है, इस पर लगातार चर्चा हो रही है। दृष्टिकोण एकल वैकल्पिक खोज इंजन स्थापित करने से लेकर ऐसे विकल्पों के लिए बुनियादी ढाँचे बनाने तक हैं (उदाहरण के लिए, लेवांडोव्स्की, 2019); मैगर, 2014 भी देखें)। Google के खोज इंजन बाजार पर हावी होने के साथ (स्टेटकाउंटर, 2022), अक्सर ऐसा लगता है कि कोई विकल्प ही नहीं है। दूसरी ओर, वैकल्पिक (या बस "अन्य") खोज इंजनों की संख्या को अक्सर ज़्यादा आंका जाता है। कई प्रतीत होने वाले खोज इंजन केवल खोज पोर्टल हैं जो अपने स्वयं के इंडेक्स से परिणाम उत्पन्न करने के बजाय भागीदार से परिणाम प्रदर्शित करते हैं। उदाहरण के लिए, याहू और इकोसिया अपने परिणाम बिंग से प्राप्त करते हैं और इसलिए उन्हें अपने आप में खोज इंजन नहीं माना जा सकता है। लेकिन फिर भी, अपने स्वयं के इंडेक्स के बिना खोज इंजन का उपयोग करने के अन्य कारण हो सकते हैं। वैकल्पिक खोज इंजन द्वारा विज्ञापित कुछ अनूठे लाभ गोपनीयता (उदाहरण के लिए, स्टार्टपेज और डकडकगो) या पर्यावरण परियोजनाओं में अपने मुनाफे का निवेश करने वाली कंपनी होना (उदाहरण के लिए, इकोसिया) हैं। एक अन्य प्रकार का खोज इंजन मेटा खोज इंजन (उदाहरण के लिए, मेटागर) है। ऐसा इंजन कई अन्य खोज इंजनों को क्वेरी भेजता है, फिर शीर्ष परिणामों को एकत्रित करता है और फिर से रैंक करता है। हम इसे विशेष रूप से दिलचस्प मानते हैं कि क्या इस तरह के दृष्टिकोण से खोज परिणामों की अधिक विविधता प्राप्त होगी, यानी, स्रोतों के अधिक विविध सेट से परिणाम। इसलिए, हमारे शोध के संदर्भ में, हम किसी भी खोज इंजन पर विचार करेंगे, जिसका या तो अपना स्वयं का सूचकांक है या जो एक या अधिक अनुक्रमितों से परिणामों का एक अनूठा चयन और पुनः रैंकिंग प्रदान करता है, एक वैकल्पिक खोज इंजन के रूप में। हम विशेष रूप से स्रोत वितरण में अंतर में रुचि रखते हैं; परिणामों की प्रासंगिकता हमारे शोध के दायरे से बाहर है।


20 साल से भी ज़्यादा पहले, इंट्रोना और निसेनबाम (2000) ने तर्क दिया था कि व्यावसायिक संचालन के रूप में सर्च इंजन बड़ी वेबसाइट को प्राथमिकता देते हैं और इसलिए, वेब का एक हिस्सा, यानी छोटी साइटें, दृश्य से छिपी रहती हैं। उपयोगकर्ता क्या चुनते हैं, इसका मापन करने वाले अध्ययन इसकी पुष्टि करते प्रतीत होते हैं: गोयल एट अल. (2010) ने पाया कि याहू के भीतर, केवल 10,000 वेबसाइटें लगभग 80% परिणाम क्लिक के लिए जिम्मेदार हैं। यह ध्यान रखना महत्वपूर्ण है कि यह केवल विशेष स्रोतों के लिए उपयोगकर्ता की प्राथमिकता के कारण नहीं होता है, बल्कि यह कि उपयोगकर्ता मुख्य रूप से सर्च इंजन द्वारा दिखाए गए शीर्ष परिणामों में से चयन करते हैं। उपयोगकर्ताओं के तत्काल दृश्य से बाहर जो कुछ भी है, उसे नहीं चुना जाएगा (लेवांडोव्स्की और काममेरर, 2021)।


यह आश्चर्यजनक है कि हाल के वर्षों में बहुत कम अध्ययनों ने विभिन्न खोज इंजनों के बीच परिणामों की तुलना की है। पुराने अध्ययनों (साहित्य समीक्षा अनुभाग देखें) में कुल मिलाकर पाया गया कि विभिन्न खोज इंजनों के शीर्ष परिणाम बहुत अधिक ओवरलैप नहीं होते हैं। इस पेपर में, हम इस बात पर ध्यान केंद्रित करते हैं कि Google के शीर्ष परिणाम विकल्पों से कैसे भिन्न हैं और इसलिए, क्या उपयोगकर्ता के लिए इन विकल्पों पर विचार करना सार्थक है। यदि Google के अलावा कोई अन्य खोज इंजन Google के समान परिणाम देता है, तो स्रोत विविधता पर विचार करने पर उपयोगकर्ता को उस खोज इंजन का उपयोग करने से बहुत लाभ नहीं होगा।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

अनस्प्लैश पर जस्टिन मॉर्गन द्वारा ली गई मुख्य छवि