बड़े भाषा मॉडल न केवल चीजों को गलत बनाते हैं - वे गलतियों को तथ्यों के रूप में प्रस्तुत करते हैं। यह जीपीटी-५ की भूमिगत त्रुटि दर 1.4% पर रखता है - जीपीटी-४ की 1.8% से कम और केवल 0.09% जीपीटी-४ओ की 1.49% से बेहतर है। एलएलएम hallucination लीडरबोर्ड एक छोटा सुधार है, लेकिन समस्या बनी रहती है। जनता ने पहले से ही देखा है कि यह कितना बुरा हो सकता है। 2024 के मध्य में, गूगल के एआई समीक्षा ने लोगों को खनिजों के लिए चट्टानों को खाने के लिए कहा - गूगल ने बाद में इस मुद्दे को स्वीकार किया। 2023 की शुरुआत में, गूगल के बर्ड डेमो ने जेम्स वेब स्पेस टेलीस्कोप तथ्य को गलत किया। ये मजेदार शीर्षक की तरह लग सकते हैं, लेकिन यह अलग है जब लोग वास्तव में इन उपकरणों पर भरोसा करते हैं. छोटे गलतियां सिर्फ परेशान हैं, लेकिन स्वास्थ्य, कानून या चिकित्सा जैसे क्षेत्रों में, वे खतरनाक हो सकते हैं। What causes hallucinations in LLMs एलएलएम में हल्कापन का कारण क्या है एलएलएम, जिसमें चैटजीपीटी शामिल है, एक अनुक्रम में अगले शब्द की भविष्यवाणी करने के लिए प्रशिक्षित हैं, तथ्यों की पुष्टि करने के लिए नहीं. उनके पास गारंटी सच्चाइयों का कोई अंतर्निहित डेटाबेस नहीं है; इसके बजाय, वे प्रशिक्षण डेटा से पैटर्न संश्लेषित करके पाठ उत्पन्न करते हैं. जब वे नहीं जानते हैं, तो वे अगले शब्दों को अनुमान लगाते हैं जो सबसे अधिक संभावनापूर्ण लगते हैं - और यह अनुमान गलत हो सकता है. प्रशिक्षण डेटा विशाल वेब स्क्रैप्स से आया था - ब्लॉग, मंच, विकि. आज, वेब का बहुत कुछ एआई-लेखित है, इसलिए मॉडल अपने स्वयं के आउटपुट से सीखना शुरू करते हैं. त्रुटियां दोहराई जाती हैं और बढ़ाई जाती हैं. No more free data अब मुफ्त डेटा नहीं 2023 के मध्य तक, उपयोगकर्ता उत्पन्न सामग्री (UGC) प्लेटफार्मों ने एक्सेस को अवरुद्ध करना शुरू कर दिया. रेडिट ने अपने मुफ्त एपीआई को सीमित कर दिया; उप-रेडिट अंधेरे हो गए. ट्विटर / एक्स ने मुफ्त एपीआई एक्सेस को समाप्त कर दिया. लिंक्डइन ने बड़े पैमाने पर स्क्रैपिंग को दबा दिया. स्टैक ओवरफ्लूव ने कहा कि यह अपने Q&A के लिए प्रशिक्षण एक्सेस के लिए शुल्क देगा. क्वोरा ने अपने पो ऐप में अधिक सामग्री स्थानांतरित की है. मेटा ने फेसबुक और इंस्टाग्राम पर दर सीमाओं और कानूनी चेतावनी को मजबूत किया। बड़े एआई कंपनियों को भुगतान लाइसेंस देने के लिए स्थानांतरित किया गया था, और सार्वजनिक मॉडल पुराने, गड़बड़ वेब डेटा के साथ छोड़ दिए गए थे - जिससे उन्हें अपने स्वयं के एआई-लेखित पाठ पर प्रशिक्षण देना अधिक संभावना है। Paying for access पहुंच के लिए भुगतान ओपनएआई ने पहली बार एसोसिएट प्रेस के साथ 2023 में एक समझौते पर हस्ताक्षर किए, इसके बाद एक्सेल स्प्रिंगर और न्यूज कॉर्प के साथ बहुवर्षीय समझौते। 2025 तक, बीस से अधिक प्रकाशनर - गार्जियन और वाशिंगटन पोस्ट सहित - शामिल हो गए थे. कुछ सौदे एआई मॉडल को आर्किटेक्ट तक पहुंच प्रदान करते हैं, अन्य उत्पादों के भीतर लिंक और योग्यता को कवर करते हैं. गूगल ने एपी के साथ 2025 की शुरुआत में भी हस्ताक्षर किए, जबकि माइक्रोसॉफ्ट ने थॉमसन रॉयटर के वेस्टलाव को कानूनी खोजों के लिए कनेक्ट किया (उपयोगकर्ताओं के लिए, प्रशिक्षण के लिए नहीं)। एआई प्रशिक्षण डेटा बाजार खुद को 2024 में लगभग $ 3.2B पर मूल्यांकित किया गया है और 2034 तक $ 16.3B तक बढ़ने की उम्मीद है। Where the clean data lives जहां साफ डेटा रहता है लाइसेंस और शुद्ध डेटा से क्षेत्र-विशिष्ट भंडारण संरचनाएं बनती हैं: समाचार और प्रकाशन (2023-25): एपी, एक्सेल स्प्रिंगर, न्यूज कॉर्प, डॉटडैश मेरेडिथ; प्लस गार्जियन, वाशिंगटन पोस्ट, वॉक्स मीडिया, और अटलांटिक (आधारित पहुंच और उत्पाद में लिंकिंग / आवृत्ति का मिश्रण)। अकादमिक और सांस्कृतिक (2024-25): हार्वर्ड के सार्वजनिक डोमेन किताबें; डेटा उत्पत्ति पर एमआईटी का काम; arXiv और सेमेन्टिक साइकल जैसी खुली रिपोरिटरी। चिकित्सा और विश्वसनीयता (2025): ScaleMAI (क्यूरेटेड मेडिकल इमेजिंग) और DR-AIR (एआई विश्वसनीयता डेटासेट) जैसे अनुसंधान रिकॉर्डर; PubMed अवलोकन खुले हैं, जबकि कई पूर्ण पाठ प्रतिबंधित रहते हैं। वाणिज्यिक और उद्यम (2023-25): ब्लूमबर्ग जीपीटी को निजी वित्तीय डेटा पर प्रशिक्षित किया गया; थॉमसन रॉयटर्स सामग्री जो एकीकरण के माध्यम से उपलब्ध है; बड़े डेटा / नोटेशन प्रदाता (एपीएन, स्केल एआई); प्लस सेंसर / औद्योगिक दूरस्थता कंपनियों के भीतर उपयोग किया जाता है। विशेषज्ञ (2025): लाइसेंस प्राप्त प्रशिक्षण डेटा और बुनियादी ढांचे को सुरक्षित करने के लिए बड़े निवेश (उदाहरण के लिए, मेटा-स्केले एआई); सहमति आधारित प्रशिक्षण के लिए "असमान रूप से प्रशिक्षित" प्रमाणन। न्यूयॉर्क टाइम्स ने दिसंबर 2023 में ओपनएआई और माइक्रोसॉफ्ट का मुकदमा दायर किया, जिससे स्पष्ट हो गया कि वह अपने आर्केड्स को लाइसेंस नहीं देगा. फाइनल टाइम्स ने अप्रैल 2024 में ओपनएआई के साथ एक समझौते पर हस्ताक्षर किए. एल्सेवियर और वाली बंद वैज्ञानिक आर्केड रखते हैं. ब्लूमबर्ग ने अपने वित्तीय डेटा को स्वामित्व में रखा है. साफ डेटा मौजूद है – लेकिन अनुबंधों के पीछे। Paid, specialised data is next भुगतान, विशेष डेटा अगला है हम शायद एक विभाजन की ओर बढ़ रहे हैं: ओपन वेब सरल कार्यों के लिए अच्छा है, जैसे कि त्वरित खोज, पाठ तैयार करना, या दैनिक प्रश्नों का जवाब देना; गंभीर अनुसंधान, विश्लेषण, और एआई बिल्डिंग डेटा के साफ भंडारण के लिए चले जाते हैं - परीक्षण, फ़िल्टर, सत्यापित - अक्सर सदस्यताओं के पीछे। उस सेटिंग में भूमिका-आधारित पहुंच की आवश्यकता होती है - एचआर मानव संसाधन को देखता है, वित्त वित्त को देखता है, कानूनी कानूनी को देखता है. भूमिका-आधारित पहुंच का मतलब है कि मॉडल केवल उस चीज़ से खींचता है जो व्यक्ति को देखने के लिए स्पष्ट किया जाता है. यह निजी डेटा को उत्तरों से बाहर रखता है और गलत पूल से " तथ्यों" को खींचने का जोखिम कम करता है. अधिकांश चैटबॉट आज ऐसा नहीं करते हैं. यदि यह अंतर रहता है, तो रोल-वैज्ञानिक खोज और लॉक-अप ज्ञान बेस का निर्माण करने वाले टीम विश्वास हासिल करेंगे - और अनुबंध। What to do with only public AI access केवल सार्वजनिक एआई एक्सेस के साथ क्या करना है प्रिंट इंजीनियरिंग अक्सर बनाए गए उत्तरों के खिलाफ रक्षा का पहला लाइन है - यह सस्ता और तत्काल है। यदि प्रिंट अस्पष्ट है, तो जवाब अस्पष्ट होगा। उद्योग के चिकित्सक एक ही बिंदु पर जोर देते हैं: पर्याप्त संदर्भ के बिना, आउटपुट खराब होने की संभावना है, और मॉडल अधिक भ्रमित होने की संभावना है। सर्वोत्तम प्रथाओं में शामिल हैं: निम्नलिखित में शामिल करें: सावधान रहें; यदि असुरक्षित है, तो "अज्ञात" कहें; केवल नीचे दिए गए स्रोतों का उपयोग करें; उद्धरणों का आविष्कार न करें। मॉडल को ग्राउंड करें. यदि ब्राउज़िंग बंद है, तो कुंजी पार्ट्स को स्वयं चिपकाएं और उन्हें स्पष्ट सीमाओं (उदाहरण के लिए, <data>...</data>) के साथ चिह्नित करें, फिर मॉडल को केवल उस पाठ से जवाब देने के लिए निर्देश दें. यदि ब्राउज़िंग सक्षम है, तो आप लिंक भी प्रदान कर सकते हैं, लेकिन पाठ निष्कर्ष सुरक्षित हैं और गलत जानकारी निकालने के जोखिम को कम करते हैं। लक्ष्य, दर्शकों, लंबाई, और किसी भी समय विंडो (उदाहरण के लिए, समय संवेदनशील विषयों के लिए पिछले 12 महीनों के स्रोतों को पसंद करें)। अतिरिक्त दावों को प्रतिबंधित करें. प्रदान किए गए सामग्री द्वारा समर्थित नहीं किए गए दावों को प्रतिबंधित करें. दावों के बाद, प्रकाशन की तारीख और एक संक्षिप्त समर्थन उद्धरण (≤25 शब्दों) के साथ प्रदान किए गए स्रोतों से केवल इनलाइन उद्धरणों की आवश्यकता होती है। सही मोड चुनें; रचनात्मक के बजाय सटीक / विश्लेषणात्मक; कम तापमान / शीर्ष-पी जहां संभव हो। छोटे प्रोजेक्ट, फिर विस्तार करें. एक परिदृश्य या छोटे प्रोजेक्ट के साथ शुरू करें; केंद्रित अनुसरण के साथ परिष्कृत करें। एक दूसरा पास चलाएं. नामों, संख्याओं, तिथियों, उद्धरणों की जाँच करें; किसी भी पंक्ति को बिना किसी वास्तविक स्रोत के हटाएं. स्वास्थ्य, कानूनी, या धन दावों को कार्य करने से पहले एक आधिकारिक साइट या दूसरी विश्वसनीय स्रोत पर पुष्टि की जानी चाहिए। प्रभावी प्रमोटर को पुनः उपयोग योग्य टेम्पलेट में बदलें; बार-बार त्रुटि दिखाई देने पर समायोजित करें। एक छोटे से सेट को भरोसेमंद लिंक / पाठ निष्कर्षों को उत्तरों को संलग्न करने के लिए तैयार रखें। The bottom line नीचे की लाइन 2025 तक, विभाजन स्पष्ट है: सार्वजनिक एआई: तेजी से, सुलभ, व्यापक इंटरनेट स्क्रैप पर प्रशिक्षित। यादृच्छिक उपयोग के लिए अच्छा, अनुपालन के लिए अविश्वसनीय। एंटरप्राइज़ एआई: भुगतान किया जाता है, संचालित किया जाता है, और ऑडिट किया जाता है। दोनों जारी रहेगा. अंतर यह है कि एक गति को प्राथमिकता देता है, दूसरा जिम्मेदारी। यह जानना कि आप किस ट्रैक का उपयोग कर रहे हैं। पिज्जा सॉस में ग्लू एक मजेदार शीर्षक बनाता है जब यह उपभोक्ता खोज से आता है। एक अस्पताल चार्ट में या एक कोर्ट रूम फ़ाइलिंग में, यह विनाशकारी है।