paint-brush
मशीन लर्निंग अधिकांश दस्तावेज़ों से डेटा निकालने का गलत तरीका हैद्वारा@sensible
6,159 रीडिंग
6,159 रीडिंग

मशीन लर्निंग अधिकांश दस्तावेज़ों से डेटा निकालने का गलत तरीका है

द्वारा Sensible6m2022/07/26
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

1960 के दशक के उत्तरार्ध में, पहली OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) तकनीकों ने स्कैन किए गए दस्तावेज़ों को कच्चे पाठ में बदल दिया। Google, Microsoft, और Amazon अपनी क्लाउड सेवाओं की पेशकश के हिस्से के रूप में उच्च गुणवत्ता वाले OCR प्रदान करते हैं। लेकिन सॉफ्टवेयर टूलचेन में दस्तावेज़ों का कम उपयोग किया जाता है, और मूल्यवान डेटा पीडीएफ़ में समाप्त हो जाता है। दस्तावेज़ों में टेक्स्ट की पहचान करने से चुनौती स्थानांतरित हो गई है, उन्हें सॉफ़्टवेयर-आधारित वर्कफ़्लोज़ द्वारा प्रत्यक्ष उपभोग के लिए उपयुक्त संरचित डेटा में बदलने या रिकॉर्ड की एक प्रणाली में प्रत्यक्ष भंडारण में बदल दिया गया है। दस्तावेज़ों के विशाल बहुमत को चालू करने का सबसे अच्छा तरीका। संरचित डेटा अगली पीढ़ी के शक्तिशाली, लचीले टेम्प्लेट का उपयोग करना है जो किसी दस्तावेज़ में डेटा को उतना ही ढूंढते हैं जितना कि एक व्यक्ति को।

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - मशीन लर्निंग अधिकांश दस्तावेज़ों से डेटा निकालने का गलत तरीका है
Sensible HackerNoon profile picture


दस्तावेज़ों ने दशकों तक अपनी सामग्री को सॉफ़्टवेयर से सुरक्षित रखने में हठपूर्वक खर्च किया है। 1960 के दशक के उत्तरार्ध में, पहली OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) तकनीकों ने स्कैन किए गए दस्तावेज़ों को कच्चे पाठ में बदल दिया। इन डिजीटल दस्तावेजों से पाठ को अनुक्रमित और खोजकर, सॉफ्टवेयर ने पूर्व में श्रमसाध्य कानूनी खोज और अनुसंधान परियोजनाओं को गति दी।


आज, Google, Microsoft और Amazon अपनी क्लाउड सेवाओं की पेशकश के हिस्से के रूप में उच्च गुणवत्ता वाले OCR प्रदान करते हैं। लेकिन सॉफ़्टवेयर टूलचेन में दस्तावेज़ों का कम उपयोग किया जाता है, और मूल्यवान डेटा समाप्त हो जाता है खरबों PDF . दस्तावेज़ों में टेक्स्ट की पहचान करने से चुनौती स्थानांतरित हो गई है, उन्हें सॉफ़्टवेयर-आधारित वर्कफ़्लोज़ द्वारा प्रत्यक्ष उपभोग के लिए उपयुक्त संरचित डेटा में बदलने या रिकॉर्ड की एक प्रणाली में प्रत्यक्ष भंडारण में बदल दिया गया है।

प्रचलित धारणा यह है कि मशीन लर्निंग, जिसे अक्सर "एआई" के रूप में अलंकृत किया जाता है, इसे प्राप्त करने का सबसे अच्छा तरीका है, पुरानी और भंगुर टेम्पलेट-आधारित तकनीकों का स्थान लेना। यह धारणा पथभ्रष्ट है। दस्तावेज़ों के विशाल बहुमत को संरचित डेटा में बदलने का सबसे अच्छा तरीका अगली पीढ़ी के शक्तिशाली, लचीले टेम्प्लेट का उपयोग करना है जो किसी व्यक्ति के रूप में दस्तावेज़ में डेटा ढूंढते हैं।

मशीन लर्निंग के वादे और असफलता

मशीन लर्निंग का वादा यह है कि आप एक मॉडल को एक बार प्रतिनिधि दस्तावेजों के एक बड़े समूह पर प्रशिक्षित कर सकते हैं और फिर बिना किसी प्रशिक्षण के आउट-ऑफ-सैंपल दस्तावेज़ लेआउट को आसानी से सामान्यीकृत कर सकते हैं। उदाहरण के लिए, आप कंपनी ए, बी, और सी की गृह बीमा पॉलिसियों पर एक एमएल मॉडल को प्रशिक्षित करना चाहते हैं, और फिर कंपनी जेड द्वारा जारी किए गए समान दस्तावेजों से समान डेटा निकालना चाहते हैं। यह तीन कारणों से व्यवहार में हासिल करना बहुत मुश्किल है:


दस्तावेज़ निष्कर्षण मशीन लर्निंग के लिए एक असामान्य रूप से बारीक कार्य है

आपका लक्ष्य अक्सर प्रत्येक दस्तावेज़ से दर्जनों या सैकड़ों व्यक्तिगत डेटा तत्वों को निकालना होता है। विवरण के दस्तावेज़ स्तर पर एक मॉडल अक्सर इनमें से कुछ मूल्यों को याद करेगा, और उन त्रुटियों का पता लगाना काफी मुश्किल है। एक बार जब आपका मॉडल उन दर्जनों या सैकड़ों डेटा तत्वों को आउट-ऑफ-सैंपल दस्तावेज़ प्रकारों से निकालने का प्रयास करता है, तो आपको सामान्यीकरण विफलता के अवसरों का एक विस्फोट मिलता है।


दस्तावेज़ों में डेटा तत्व आमतौर पर एक दूसरे से पदानुक्रमित संबंध रखते हैं

जबकि कुछ साधारण दस्तावेजों में एक फ्लैट कुंजी/मूल्य ऑन्कोलॉजी हो सकती है, अधिकांश में एक सबस्ट्रक्चर होगा: एक घर निरीक्षण रिपोर्ट में कमियों की सूची या बैंक स्टेटमेंट में लेनदेन के सेट के बारे में सोचें। कुछ मामलों में आप जटिल नेस्टेड सबस्ट्रक्चर का भी सामना करेंगे: बीमा पॉलिसियों की एक सूची के बारे में सोचें, जिनमें से प्रत्येक का दावा इतिहास है। इन पदानुक्रमों का अनुमान लगाने के लिए आपको या तो अपने मशीन लर्निंग मॉडल की आवश्यकता है, या आपको प्रशिक्षण से पहले इन पदानुक्रमों और समग्र वांछित ऑन्कोलॉजी के साथ मॉडल को मैन्युअल रूप से पैरामीटर करने की आवश्यकता है।


एक "दस्तावेज़" एक एमएल परियोजना के लिए एक अस्पष्ट लक्ष्य है

एक दस्तावेज़ कुछ भी है जो कागज की एक या एक से अधिक शीट पर फिट बैठता है और इसमें डेटा होता है! दस्तावेज़ वास्तव में विविध और मनमाने डेटा अभ्यावेदन के बैग हैं। टेबल्स, लेबल्स, फ्री टेक्स्ट, सेक्शन, इमेज, हेडर और फुटर: आप इसे नाम देते हैं और एक दस्तावेज़ डेटा को एन्कोड करने के लिए इसका इस्तेमाल कर सकता है। इस बात की कोई गारंटी नहीं है कि एक ही शब्दार्थ के साथ भी दो दस्तावेज़ एक ही प्रतिनिधित्वात्मक टूल का उपयोग करेंगे।

यह कोई आश्चर्य की बात नहीं है कि एमएल-आधारित दस्तावेज़ पार्सिंग परियोजनाओं में महीनों लग सकते हैं, इसके लिए बहुत सारे डेटा की आवश्यकता होती है, जो प्रभावशाली परिणाम देते हैं, और सामान्य तौर पर "भीषण" होते हैं (अंतरिक्ष में एक अग्रणी विक्रेता के साथ ऐसी एक परियोजना में एक प्रतिभागी को सीधे उद्धृत करने के लिए) )


टेम्पलेट्स के साथ चुनौती

ये मुद्दे दृढ़ता से सुझाव देते हैं कि दस्तावेजों की संरचना के लिए हमले का उपयुक्त कोण संपूर्ण-दस्तावेज़ स्तर के बजाय डेटा तत्व स्तर पर है। दूसरे शब्दों में, हमें टेबल, लेबल और फ्री टेक्स्ट से डेटा निकालने की जरूरत है; एक समग्र "दस्तावेज़" से नहीं। और डेटा तत्व स्तर पर, हमें दस्तावेज़ों में पाए जाने वाले प्रतिनिधित्वात्मक मोड के ब्रह्मांड और सॉफ़्टवेयर के लिए उपयोगी डेटा संरचनाओं के बीच संबंध व्यक्त करने के लिए शक्तिशाली टूल की आवश्यकता होती है।


तो चलिए वापस टेम्पलेट्स पर आते हैं।


ऐतिहासिक रूप से, टेम्प्लेट में प्रतिनिधित्वात्मक मोड और डेटा संरचना के बीच उस मानचित्रण को व्यक्त करने का एक खराब साधन रहा है। उदाहरण के लिए, वे निर्देश दे सकते हैं: पेज 3 पर जाएं और इन बॉक्स निर्देशांकों के भीतर कोई भी टेक्स्ट लौटाएं। यह कई कारणों से तुरंत टूट जाता है, जिसमें निम्न शामिल हैं:

  • एक स्कैन झुका हुआ है
  • एक कवर पेज है, या
  • दस्तावेज़ लेखक ने लक्ष्य डेटा से पहले एक अतिरिक्त अनुभाग जोड़ा।


दस्तावेज़ लेआउट में इन मामूली परिवर्तनों में से कोई भी मानव पाठक को भ्रमित नहीं करेगा।


दस्तावेज़ों के लिए एक प्रश्न भाषा

सॉफ़्टवेयर के लिए जटिल दस्तावेज़ों को सफलतापूर्वक संरचित करने के लिए, आप एक ऐसा समाधान चाहते हैं जो महीनों तक चलने वाली एमएल परियोजनाओं बनाम भंगुर टेम्पलेट्स की लड़ाई को दरकिनार कर दे। इसके बजाय, आइए एक दस्तावेज़-विशिष्ट क्वेरी भाषा का निर्माण करें जो (जब उपयुक्त हो) ML को दस्तावेज़, स्तर के बजाय डेटा तत्व पर एम्बेड करती है।

सबसे पहले, आप उस भाषा में आदिम (यानी, निर्देश) चाहते हैं जो प्रतिनिधित्वात्मक मोड (जैसे लेबल/मूल्य जोड़ी या दोहराए जाने वाले उपखंडों) का वर्णन करता है और सामान्य लेआउट विविधताओं के लिए लचीला रहता है। उदाहरण के लिए, यदि आप कहते हैं:

"इस शब्द से शुरू होने वाली एक पंक्ति खोजें और इससे सबसे कम डॉलर की राशि प्राप्त करें"


आप "पंक्ति" पहचान चाहते हैं जो व्हाइटस्पेस भिन्नता, लंबवत जिटर, कवर पेज, और दस्तावेज़ तिरछा के लिए लचीला है, और आप शक्तिशाली प्रकार का पता लगाना और फ़िल्टर करना चाहते हैं।

दूसरा, एक दृश्य या प्राकृतिक भाषा घटक के साथ डेटा प्रतिनिधित्व के लिए, जैसे कि टेबल, चेकबॉक्स और मुक्त पाठ के पैराग्राफ, आदिम को एमएल को एम्बेड करना चाहिए। विश्लेषण के इस स्तर पर, Google, Amazon, Microsoft और OpenAI सभी के पास ऐसे उपकरण हैं जो शेल्फ से काफी अच्छी तरह से काम करते हैं।


एक उत्तर सितारा के रूप में मूल्य का समय

सेंसिबल बस यही तरीका अपनाता है: मशीन लर्निंग के साथ शक्तिशाली और लचीले टेम्प्लेट का सम्मिश्रण। साथ सेंसएमएल , दस्तावेज़ों के लिए हमारी JSON-आधारित क्वेरी भाषा, आप केवल एक संदर्भ नमूने के साथ मिनटों में अधिकांश दस्तावेज़ लेआउट से संरचित डेटा निकाल सकते हैं। हज़ारों प्रशिक्षण दस्तावेज़ों की आवश्यकता नहीं है और एल्गोरिदम को संशोधित करने में महीनों का समय लगता है, और छोटे लेआउट अंतरों के लिए सैकड़ों नियम लिखने की कोई आवश्यकता नहीं है।


सेंसएमएल की प्राइमेटिव की विस्तृत श्रृंखला आपको जटिल नेस्टेड सबस्ट्रक्चर सहित उपयोगी डेटा संरचनाओं के लिए प्रतिनिधित्वात्मक मोड को त्वरित रूप से मैप करने की अनुमति देती है। ऐसे मामलों में जहां आदिम लोग एमएल का उपयोग नहीं करते हैं, वे मजबूत व्यवहार और सटीकता की गारंटी प्रदान करने के लिए निश्चित रूप से व्यवहार करते हैं। और यहां तक कि हमारे एमएल-संचालित प्राइमेटिव के गैर-निर्धारक आउटपुट के लिए, जैसे कि टेबल, सत्यापन नियम एमएल आउटपुट में त्रुटियों की पहचान कर सकते हैं।


इसका मतलब यह है कि सेंसिबल के साथ पार्सिंग दस्तावेज़ अविश्वसनीय रूप से तेज़, पारदर्शी और लचीला है। यदि आप किसी टेम्पलेट में कोई फ़ील्ड जोड़ना चाहते हैं या किसी त्रुटि को ठीक करना चाहते हैं, तो ऐसा करना आसान है।


सेंसिबल के रैपिड टाइम टू वैल्यू के लिए ट्रेडऑफ़ यह है कि प्रत्येक अर्थपूर्ण रूप से अलग दस्तावेज़ लेआउट के लिए एक अलग टेम्पलेट की आवश्यकता होती है। लेकिन यह ट्रेडऑफ़ वास्तविक दुनिया में इतना बुरा नहीं है। अधिकांश व्यावसायिक उपयोग के मामलों में, लेआउट की एक गणनीय संख्या होती है (उदाहरण के लिए, संयुक्त राज्य अमेरिका में दर्जनों ट्रकिंग वाहक दर की पुष्टि उत्पन्न करते हैं; कुछ मुट्ठी भर सॉफ्टवेयर सिस्टम जो घरेलू निरीक्षण रिपोर्ट तैयार करते हैं)। हमारे ग्राहक हज़ारों दस्तावेज़ टेम्प्लेट नहीं बनाते हैं - अधिकांश केवल कुछ के साथ जबरदस्त मूल्य उत्पन्न करते हैं।

बेशक, हर व्यापक रूप से इस्तेमाल किए जाने वाले टैक्स फॉर्म, बीमा पॉलिसी और रोजगार के सत्यापन के लिए, सामूहिक रूप से हमें केवल एक बार एक टेम्प्लेट बनाने की आवश्यकता होती है। इसलिए हमने पेश किया है ...


सेंसिबल की ओपन-सोर्स लाइब्रेरी प्री-बिल्ट टेम्प्लेट्स

हमारा खुला स्रोत समझदार कॉन्फ़िगरेशन लाइब्रेरी सबसे अधिक बार पार्स किए गए दस्तावेज़ लेआउट में से 100 से अधिक का संग्रह है, से ऑटो बीमा पॉलिसियां प्रति एकॉर्ड फॉर्म , नुकसान चलता है , कर प्रपत्र , तथा अधिक . यदि आपके पास कोई ऐसा दस्तावेज़ है जो व्यापक रुचि का है, तो हम आपके लिए ऑनबोर्डिंग करेंगे और फिर इसे जनता के लिए स्वतंत्र रूप से उपलब्ध कराएंगे। आपके लिए हमारे मुफ़्त खाता स्तर पर प्रति माह 150 एक्सट्रैक्शन तक का उपयोग करना भी निःशुल्क होगा।


हम मानते हैं कि यह हाइब्रिड दृष्टिकोण रसद, वित्तीय सेवाओं, बीमा और स्वास्थ्य देखभाल सहित उद्योगों की एक विस्तृत श्रृंखला के लिए दस्तावेजों को संरचित डेटा में बदलने की समस्या को पारदर्शी और कुशलता से हल करने का मार्ग है। यदि आप इस यात्रा में हमारे साथ जुड़ना चाहते हैं और अपने दस्तावेज़ों को सॉफ़्टवेयर से जोड़ना चाहते हैं, एक डेमो शेड्यूल करें या निःशुल्क खाते के लिए साइन अप करें !