Docsumo is a Document AI platform for tech & ops teams to help them capture, validate & analyze data from documents.
The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.
Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.
पीडीएफ एक्सट्रैक्शन एक पीडीएफ फाइल से टेक्स्ट, इमेज या अन्य डेटा निकालने की प्रक्रिया है। इस लेख में, हम पीडीएफ डेटा निष्कर्षण के मौजूदा तरीकों, उनकी सीमाओं और पीडीएफ निष्कर्षण के लिए प्रश्न-उत्तर कार्यों को करने के लिए GPT-4 का उपयोग कैसे किया जा सकता है, इसका पता लगाते हैं। हम PDF डेटा निष्कर्षण के लिए GPT-4 को लागू करने के लिए चरण-दर-चरण मार्गदर्शिका भी प्रदान करते हैं।
तो, चलिए इसमें सीधे कूदते हैं।
पीडीएफ डेटा निष्कर्षण पीडीएफ (पोर्टेबल डॉक्यूमेंट फॉर्मेट) फ़ाइल से टेक्स्ट, इमेज या अन्य डेटा निकालने की प्रक्रिया है। इन फ़ाइलों का व्यापक रूप से दस्तावेज़ों को साझा करने और संग्रहीत करने के लिए उपयोग किया जाता है, लेकिन उनकी सामग्री हमेशा आसानी से उपलब्ध नहीं होती है।
पीडीएफ फाइलों की पहुंच और पठनीयता उन लोगों के लिए बहुत जरूरी है, जिन्हें दृष्टि संबंधी समस्याएं हैं या छोटे या धुंधले पाठ को पढ़ने में परेशानी है, कानूनी स्थितियों, डेटा विश्लेषण और शोध के लिए उपयोगी है। कुछ उदाहरणों में जहां निष्कर्षण की आवश्यकता होती है, उनमें समय बचाने और गलतियों से बचने के लिए अन्य दस्तावेजों में पीडीएफ फाइलों से पाठ या छवि सामग्री का उपयोग करना शामिल है।
यह 2023 है, और इंटरनेट पर बहुत सारी पीडीएफ निष्कर्षण तकनीकें और उपकरण उपलब्ध हैं। आइए डेटा निष्कर्षण की 3 लोकप्रिय तकनीकों और उसके कुछ उदाहरणों में गहराई से गोता लगाएँ:
OCR , या Optical Character Recognition
के लिए संक्षिप्त नाम का उपयोग स्कैन किए गए दस्तावेज़ों, छवियों और PDF फ़ाइलों सहित विभिन्न स्रोतों से पाठ निकालने के लिए किया जा सकता है, और आमतौर पर मुद्रित दस्तावेज़ों जैसे पुस्तकों, समाचार पत्रों और ऐतिहासिक दस्तावेज़ों को डिजिटाइज़ करने के लिए उपयोग किया जाता है।
कुछ लोकप्रिय ओसीआर उपकरणों में शामिल हैं:
टेम्प्लेट-आधारित तकनीकें दस्तावेज़ PDF की शैली को ध्यान में रखती हैं और हार्ड-कोडेड नियमों का उपयोग करती हैं। ये तकनीकें आम तौर पर संरचित दस्तावेजों पर काम करती हैं, जिनकी संरचना स्थिर रहती है और समझने में आसान होती है।
रेगेक्स पैटर्न का उपयोग करना
Ex: निम्नलिखित रेगेक्स नियम द्वारा दिनांक निकाली जा सकती है:
[dd-mm-yyyy or yyyy-mm-dd] - [0-9]{2,4}/[0-9]{2}/[0-9]{2,4}
दस्तावेजों के ग्रंथों और आयामों की स्थिति के आधार पर हार्ड-कोडिंग नियम
मशीन लर्निंग (एमएल) तकनीकों को पीडीएफ निष्कर्षण के लिए सबसे अच्छे तरीकों में से एक माना जाता है क्योंकि यह फ़ाइल संरचना की परवाह किए बिना पीडीएफ फाइलों से अत्यधिक सटीक पाठ पहचान और निष्कर्षण की अनुमति देता है। ये मॉडल पड़ोसी टेक्स्ट को भी ध्यान में रखते हुए layout
और position of the text
दोनों की जानकारी स्टोर कर सकते हैं। इससे उन्हें बेहतर सामान्यीकरण करने और दस्तावेज़ संरचना को अधिक कुशलता से सीखने में मदद मिलती है।
लार्ज लैंग्वेज मॉडल आर्टिफिशियल इंटेलिजेंस का एक सबसेट है जिसे बड़ी मात्रा में टेक्स्ट डेटा पर प्रशिक्षित किया गया है। उदाहरण के लिए: चैटजीपीटी जो संवाद या अन्य प्राकृतिक भाषा इनपुट के लिए मानव जैसी प्रतिक्रियाओं का उत्पादन करने के लिए संपूर्ण इंटरनेट डेटा और सूचना पर प्रशिक्षित है।
इन प्राकृतिक भाषा प्रतिक्रियाओं का उत्पादन करने के लिए, एलएलएम गहन शिक्षण मॉडल का उपयोग करते हैं, जो जटिल डेटा के साथ प्रक्रिया, विश्लेषण और भविष्यवाणियां करने के लिए बहुस्तरीय तंत्रिका नेटवर्क का उपयोग करते हैं।
एमएल मॉडल की सीमाएं
एक प्रमुख समस्या जिसका इस प्रकार के मॉडल को सामना करना पड़ता है वह यह है कि वे बिना यह जाने कि क्या निष्कर्षण वास्तव में सटीक और सही है, पीडीएफ से जानकारी निकाल सकते हैं। निकाले गए टेक्स्ट में दूसरी कुंजी में कुछ अन्य महत्वपूर्ण जानकारी भी शामिल हो सकती है। एक बुद्धिमान संदर्भ होने से मॉडल को उन अशुद्धियों को कम करने में मदद मिलती है।
इस समस्या को हल करने और पीडीएफ निष्कर्षण की प्रणाली में खुफिया जानकारी को एकीकृत करने के लिए हम GPT-4 की शक्ति का लाभ उठा सकते हैं।
GPT-4 (जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर 4) OpenAI द्वारा विकसित एक बड़ा भाषा मॉडल है जो मानव-जैसी प्राकृतिक भाषा पाठ उत्पन्न करने के लिए गहन शिक्षण तकनीकों का उपयोग करता है। यह 175 बिलियन पैरामीटर्स के साथ उपलब्ध सबसे बड़े और सबसे शक्तिशाली भाषा मॉडलों में से एक है।
दूसरी ओर, चैट-जीपीटी, जीपीटी का एक प्रकार है जिसे संवादी एआई अनुप्रयोगों के लिए विशेष रूप से प्रशिक्षित किया गया है। इसे संवादात्मक डेटा के एक बड़े डेटासेट पर ठीक किया गया है और उपयोगकर्ता प्रश्नों के लिए मानव-जैसी प्रतिक्रियाएँ उत्पन्न कर सकता है। चैट GPT का उपयोग विभिन्न अनुप्रयोगों के लिए किया जा सकता है, जिसमें चैटबॉट्स, ग्राहक सेवा और आभासी सहायक शामिल हैं।
आइए समस्या विवरण के साथ आगे बढ़ते हैं और देखते हैं कि चैटजीपीटी के साथ जीपीटी-4 पीडीएफ निष्कर्षण की समस्या को हल करने में हमारी मदद कैसे कर सकता है।
पीडीएफ के संग्रह से विशिष्ट जानकारी को प्रभावी ढंग से निकालने की चुनौती एक ऐसी चुनौती है जिसका कई अनुप्रयोगों और उद्योगों को नियमित रूप से सामना करना पड़ता है। बैंक स्टेटमेंट या टैक्स फॉर्म से जानकारी निकालना कठिन है। कई PDF के माध्यम से मैन्युअल रूप से स्कैन करने के पुराने तरीके में बहुत समय लगता है और गलत या असंगत डेटा उत्पन्न कर सकता है। इसके अलावा, PDF में पाया जाने वाला असंरचित डेटा स्वचालित सिस्टम के लिए आवश्यक जानकारी निकालना चुनौतीपूर्ण बना देता है।
हम थोड़े मानवीय हस्तक्षेप के साथ पीडीएफ से उपयोगकर्ता के सवालों के जवाब खोजने की समस्या को हल करने का इरादा रखते हैं।
हम अपने लाभ के लिए GPT-4 और इसके एम्बेडिंग का उपयोग कर सकते हैं:
कार्यान्वयन
ए: पीडीएफ से टेक्स्ट निकालें
आप दस्तावेज़ से टेक्स्ट निकालने के लिए किसी भी OCR या ML तकनीक का उपयोग कर सकते हैं
बी: दस्तावेज़ की संरचना के आधार पर टेक्स्ट को उचित छोटे हिस्सों में विभाजित करें
बाउंडिंग-बॉक्स [x0, y0, x2, y2] की समन्वय जानकारी का उपयोग करना जहां x0 और y0 शीर्ष-बाएं निर्देशांक हैं और x2 और y2 नीचे-दाएं निर्देशांक हैं, आप पूरे पाठ को निश्चित चौड़ाई के छोटे हिस्सों में विभाजित कर सकते हैं और ऊंचाई।
C: उन हिस्सों को एंबेडिंग में एनकोड करें [या तो OpenAI एंबेडिंग या हगिंगफेस का उपयोग करें]
import torch from transformers import AutoTokenizer, AutoModel # Load the pre-trained model and tokenizer tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') model = AutoModel.from_pretrained('bert-base-uncased') # Tokenize the sentence tokens = tokenizer.encode("<pass your code chunk block here>", return_tensors='pt') # Get the embeddings with torch.no_grad(): outputs = model(tokens) embeddings = outputs[0][0] # Print the embeddings print(embeddings)
वेक्टर डीबी क्या है और इसकी आवश्यकता क्यों है?
ए: उपयोगकर्ता की क्वेरी के लिए एम्बेडिंग की गणना करें
एम्बेडिंग की गणना करने के लिए ऊपर बताए अनुसार उसी तकनीक का उपयोग करें
बी: वेक्टर डेटाबेस से चंक एम्बेडिंग वेक्टर खोजें, जिसका एम्बेडिंग उपयोगकर्ता क्वेरी के एम्बेडिंग के साथ निकटता से मेल खाता है
आप किसी भी similarity search algorithm
उपयोग कर सकते हैं।
आप वाक्य ट्रांसफॉर्मर लाइब्रेरी की अर्थपूर्ण वाक्य समानता का उपयोग कर सकते हैं।
from sentence_transformers import SentenceTransformer, util #Compute cosine-similarities for each code chunk embds with user's query embeddings cosine_scores = util.cos_sim(code_chunk_embds, user_query_embds)
ए: 3 इनपुट प्रदान करें।
इनपुट 1: उपयोगकर्ता क्वेरी
Input2 : वह चंक जो क्वेरी से काफी मिलता जुलता है
इनपुट 3: कुछ मेटा-निर्देश यदि कोई हो [सिस्टम: दस्तावेज़ में दी गई जानकारी के आधार पर प्रश्नों का उत्तर दें]
B: GPT-4 आउटपुट का उत्तर है
जैसा कि हम पहले से ही जानते हैं क्योंकि GPT4 इतना शक्तिशाली एलएलएम है जो 8,192 और 32,768 टोकन की टोकन लंबाई के साथ बड़ी मात्रा में संदर्भ को शामिल कर सकता है, बहुत सटीक परिणाम उत्पन्न करना आसान और बहुत तेज़ हो जाता है।
चैटजीपीटी एपीआई मूल रूप से किसी भी प्रोग्रामिंग भाषा के साथ एकीकृत होता है जो डाउनस्ट्रीम कार्यों में हमारी अधिक मदद कर सकता है।
PDF डेटा निष्कर्षण के लिए GPT-4 का उपयोग कैसे करें: एक व्यापक मार्गदर्शिका | HackerNoon