पीडीएफ एक्सट्रैक्शन एक पीडीएफ फाइल से टेक्स्ट, इमेज या अन्य डेटा निकालने की प्रक्रिया है। इस लेख में, हम पीडीएफ डेटा निष्कर्षण के मौजूदा तरीकों, उनकी सीमाओं और पीडीएफ निष्कर्षण के लिए प्रश्न-उत्तर कार्यों को करने के लिए GPT-4 का उपयोग कैसे किया जा सकता है, इसका पता लगाते हैं। हम PDF डेटा निष्कर्षण के लिए GPT-4 को लागू करने के लिए चरण-दर-चरण मार्गदर्शिका भी प्रदान करते हैं।
तो, चलिए इसमें सीधे कूदते हैं।
पीडीएफ डेटा निष्कर्षण पीडीएफ (पोर्टेबल डॉक्यूमेंट फॉर्मेट) फ़ाइल से टेक्स्ट, इमेज या अन्य डेटा निकालने की प्रक्रिया है। इन फ़ाइलों का व्यापक रूप से दस्तावेज़ों को साझा करने और संग्रहीत करने के लिए उपयोग किया जाता है, लेकिन उनकी सामग्री हमेशा आसानी से उपलब्ध नहीं होती है।
पीडीएफ फाइलों की पहुंच और पठनीयता उन लोगों के लिए बहुत जरूरी है, जिन्हें दृष्टि संबंधी समस्याएं हैं या छोटे या धुंधले पाठ को पढ़ने में परेशानी है, कानूनी स्थितियों, डेटा विश्लेषण और शोध के लिए उपयोगी है। कुछ उदाहरणों में जहां निष्कर्षण की आवश्यकता होती है, उनमें समय बचाने और गलतियों से बचने के लिए अन्य दस्तावेजों में पीडीएफ फाइलों से पाठ या छवि सामग्री का उपयोग करना शामिल है।
यह 2023 है, और इंटरनेट पर बहुत सारी पीडीएफ निष्कर्षण तकनीकें और उपकरण उपलब्ध हैं। आइए डेटा निष्कर्षण की 3 लोकप्रिय तकनीकों और उसके कुछ उदाहरणों में गहराई से गोता लगाएँ:
OCR , या Optical Character Recognition
के लिए संक्षिप्त नाम का उपयोग स्कैन किए गए दस्तावेज़ों, छवियों और PDF फ़ाइलों सहित विभिन्न स्रोतों से पाठ निकालने के लिए किया जा सकता है, और आमतौर पर मुद्रित दस्तावेज़ों जैसे पुस्तकों, समाचार पत्रों और ऐतिहासिक दस्तावेज़ों को डिजिटाइज़ करने के लिए उपयोग किया जाता है।
कुछ लोकप्रिय ओसीआर उपकरणों में शामिल हैं:
टेम्प्लेट-आधारित तकनीकें दस्तावेज़ PDF की शैली को ध्यान में रखती हैं और हार्ड-कोडेड नियमों का उपयोग करती हैं। ये तकनीकें आम तौर पर संरचित दस्तावेजों पर काम करती हैं, जिनकी संरचना स्थिर रहती है और समझने में आसान होती है।
रेगेक्स पैटर्न का उपयोग करना
Ex: निम्नलिखित रेगेक्स नियम द्वारा दिनांक निकाली जा सकती है:
[dd-mm-yyyy or yyyy-mm-dd] - [0-9]{2,4}/[0-9]{2}/[0-9]{2,4}
दस्तावेजों के ग्रंथों और आयामों की स्थिति के आधार पर हार्ड-कोडिंग नियम
मशीन लर्निंग (एमएल) तकनीकों को पीडीएफ निष्कर्षण के लिए सबसे अच्छे तरीकों में से एक माना जाता है क्योंकि यह फ़ाइल संरचना की परवाह किए बिना पीडीएफ फाइलों से अत्यधिक सटीक पाठ पहचान और निष्कर्षण की अनुमति देता है। ये मॉडल पड़ोसी टेक्स्ट को भी ध्यान में रखते हुए layout
और position of the text
दोनों की जानकारी स्टोर कर सकते हैं। इससे उन्हें बेहतर सामान्यीकरण करने और दस्तावेज़ संरचना को अधिक कुशलता से सीखने में मदद मिलती है।
लार्ज लैंग्वेज मॉडल आर्टिफिशियल इंटेलिजेंस का एक सबसेट है जिसे बड़ी मात्रा में टेक्स्ट डेटा पर प्रशिक्षित किया गया है। उदाहरण के लिए: चैटजीपीटी जो संवाद या अन्य प्राकृतिक भाषा इनपुट के लिए मानव जैसी प्रतिक्रियाओं का उत्पादन करने के लिए संपूर्ण इंटरनेट डेटा और सूचना पर प्रशिक्षित है।
इन प्राकृतिक भाषा प्रतिक्रियाओं का उत्पादन करने के लिए, एलएलएम गहन शिक्षण मॉडल का उपयोग करते हैं, जो जटिल डेटा के साथ प्रक्रिया, विश्लेषण और भविष्यवाणियां करने के लिए बहुस्तरीय तंत्रिका नेटवर्क का उपयोग करते हैं।
एमएल मॉडल की सीमाएं
एक प्रमुख समस्या जिसका इस प्रकार के मॉडल को सामना करना पड़ता है वह यह है कि वे बिना यह जाने कि क्या निष्कर्षण वास्तव में सटीक और सही है, पीडीएफ से जानकारी निकाल सकते हैं। निकाले गए टेक्स्ट में दूसरी कुंजी में कुछ अन्य महत्वपूर्ण जानकारी भी शामिल हो सकती है। एक बुद्धिमान संदर्भ होने से मॉडल को उन अशुद्धियों को कम करने में मदद मिलती है।
इस समस्या को हल करने और पीडीएफ निष्कर्षण की प्रणाली में खुफिया जानकारी को एकीकृत करने के लिए हम GPT-4 की शक्ति का लाभ उठा सकते हैं।
GPT-4 (जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर 4) OpenAI द्वारा विकसित एक बड़ा भाषा मॉडल है जो मानव-जैसी प्राकृतिक भाषा पाठ उत्पन्न करने के लिए गहन शिक्षण तकनीकों का उपयोग करता है। यह 175 बिलियन पैरामीटर्स के साथ उपलब्ध सबसे बड़े और सबसे शक्तिशाली भाषा मॉडलों में से एक है।
दूसरी ओर, चैट-जीपीटी, जीपीटी का एक प्रकार है जिसे संवादी एआई अनुप्रयोगों के लिए विशेष रूप से प्रशिक्षित किया गया है। इसे संवादात्मक डेटा के एक बड़े डेटासेट पर ठीक किया गया है और उपयोगकर्ता प्रश्नों के लिए मानव-जैसी प्रतिक्रियाएँ उत्पन्न कर सकता है। चैट GPT का उपयोग विभिन्न अनुप्रयोगों के लिए किया जा सकता है, जिसमें चैटबॉट्स, ग्राहक सेवा और आभासी सहायक शामिल हैं।
आइए समस्या विवरण के साथ आगे बढ़ते हैं और देखते हैं कि चैटजीपीटी के साथ जीपीटी-4 पीडीएफ निष्कर्षण की समस्या को हल करने में हमारी मदद कैसे कर सकता है।
पीडीएफ के संग्रह से विशिष्ट जानकारी को प्रभावी ढंग से निकालने की चुनौती एक ऐसी चुनौती है जिसका कई अनुप्रयोगों और उद्योगों को नियमित रूप से सामना करना पड़ता है। बैंक स्टेटमेंट या टैक्स फॉर्म से जानकारी निकालना कठिन है। कई PDF के माध्यम से मैन्युअल रूप से स्कैन करने के पुराने तरीके में बहुत समय लगता है और गलत या असंगत डेटा उत्पन्न कर सकता है। इसके अलावा, PDF में पाया जाने वाला असंरचित डेटा स्वचालित सिस्टम के लिए आवश्यक जानकारी निकालना चुनौतीपूर्ण बना देता है।
हम थोड़े मानवीय हस्तक्षेप के साथ पीडीएफ से उपयोगकर्ता के सवालों के जवाब खोजने की समस्या को हल करने का इरादा रखते हैं।
हम अपने लाभ के लिए GPT-4 और इसके एम्बेडिंग का उपयोग कर सकते हैं:
कार्यान्वयन
ए: पीडीएफ से टेक्स्ट निकालें
आप दस्तावेज़ से टेक्स्ट निकालने के लिए किसी भी OCR या ML तकनीक का उपयोग कर सकते हैं
बी: दस्तावेज़ की संरचना के आधार पर टेक्स्ट को उचित छोटे हिस्सों में विभाजित करें
बाउंडिंग-बॉक्स [x0, y0, x2, y2] की समन्वय जानकारी का उपयोग करना जहां x0 और y0 शीर्ष-बाएं निर्देशांक हैं और x2 और y2 नीचे-दाएं निर्देशांक हैं, आप पूरे पाठ को निश्चित चौड़ाई के छोटे हिस्सों में विभाजित कर सकते हैं और ऊंचाई।
C: उन हिस्सों को एंबेडिंग में एनकोड करें [या तो OpenAI एंबेडिंग या हगिंगफेस का उपयोग करें]
import torch from transformers import AutoTokenizer, AutoModel # Load the pre-trained model and tokenizer tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') model = AutoModel.from_pretrained('bert-base-uncased') # Tokenize the sentence tokens = tokenizer.encode("<pass your code chunk block here>", return_tensors='pt') # Get the embeddings with torch.no_grad(): outputs = model(tokens) embeddings = outputs[0][0] # Print the embeddings print(embeddings)
वेक्टर डीबी क्या है और इसकी आवश्यकता क्यों है?
ए: उपयोगकर्ता की क्वेरी के लिए एम्बेडिंग की गणना करें
एम्बेडिंग की गणना करने के लिए ऊपर बताए अनुसार उसी तकनीक का उपयोग करें
बी: वेक्टर डेटाबेस से चंक एम्बेडिंग वेक्टर खोजें, जिसका एम्बेडिंग उपयोगकर्ता क्वेरी के एम्बेडिंग के साथ निकटता से मेल खाता है
आप किसी भी similarity search algorithm
उपयोग कर सकते हैं।
आप वाक्य ट्रांसफॉर्मर लाइब्रेरी की अर्थपूर्ण वाक्य समानता का उपयोग कर सकते हैं।
from sentence_transformers import SentenceTransformer, util #Compute cosine-similarities for each code chunk embds with user's query embeddings cosine_scores = util.cos_sim(code_chunk_embds, user_query_embds)
ए: 3 इनपुट प्रदान करें।
इनपुट 1: उपयोगकर्ता क्वेरी
Input2 : वह चंक जो क्वेरी से काफी मिलता जुलता है
इनपुट 3: कुछ मेटा-निर्देश यदि कोई हो [सिस्टम: दस्तावेज़ में दी गई जानकारी के आधार पर प्रश्नों का उत्तर दें]
B: GPT-4 आउटपुट का उत्तर है
जैसा कि हम पहले से ही जानते हैं क्योंकि GPT4 इतना शक्तिशाली एलएलएम है जो 8,192 और 32,768 टोकन की टोकन लंबाई के साथ बड़ी मात्रा में संदर्भ को शामिल कर सकता है, बहुत सटीक परिणाम उत्पन्न करना आसान और बहुत तेज़ हो जाता है।
चैटजीपीटी एपीआई मूल रूप से किसी भी प्रोग्रामिंग भाषा के साथ एकीकृत होता है जो डाउनस्ट्रीम कार्यों में हमारी अधिक मदद कर सकता है।