paint-brush
PDF डेटा निष्कर्षण के लिए GPT-4 का उपयोग कैसे करें: एक व्यापक मार्गदर्शिकाद्वारा@docsumo
27,145 रीडिंग
27,145 रीडिंग

PDF डेटा निष्कर्षण के लिए GPT-4 का उपयोग कैसे करें: एक व्यापक मार्गदर्शिका

द्वारा Docsumo6m2023/05/30
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

पीडीएफ एक्सट्रैक्शन एक पीडीएफ फाइल से टेक्स्ट, इमेज या अन्य डेटा निकालने की प्रक्रिया है। इस लेख में, हम पीडीएफ डेटा निष्कर्षण के मौजूदा तरीकों, उनकी सीमाओं और पीडीएफ निष्कर्षण के लिए प्रश्न-उत्तर कार्यों को करने के लिए GPT-4 का उपयोग कैसे किया जा सकता है, इसका पता लगाते हैं। हम PDFData निष्कर्षण के लिए G PT-4 को लागू करने के लिए चरण-दर-चरण मार्गदर्शिका भी प्रदान करते हैं।
featured image - PDF डेटा निष्कर्षण के लिए GPT-4 का उपयोग कैसे करें: एक व्यापक मार्गदर्शिका
Docsumo HackerNoon profile picture
0-item
1-item

पीडीएफ एक्सट्रैक्शन एक पीडीएफ फाइल से टेक्स्ट, इमेज या अन्य डेटा निकालने की प्रक्रिया है। इस लेख में, हम पीडीएफ डेटा निष्कर्षण के मौजूदा तरीकों, उनकी सीमाओं और पीडीएफ निष्कर्षण के लिए प्रश्न-उत्तर कार्यों को करने के लिए GPT-4 का उपयोग कैसे किया जा सकता है, इसका पता लगाते हैं। हम PDF डेटा निष्कर्षण के लिए GPT-4 को लागू करने के लिए चरण-दर-चरण मार्गदर्शिका भी प्रदान करते हैं।


इस लेख में, हम चर्चा करते हैं:

  • पीडीएफ डेटा निष्कर्षण और उनकी सीमाओं के मौजूदा तरीके क्या हैं?
  • पीडीएफ फाइलों के एक सेट को क्वेरी करने और किसी भी प्रश्न के उत्तर खोजने के लिए GPT-4 का उपयोग कैसे करें। विशेष रूप से, हम पीडीएफ निष्कर्षण की प्रक्रिया का पता लगाएंगे और सवाल-जवाब कार्यों को करने के लिए GPT-4 के संयोजन के साथ इसका उपयोग कैसे किया जा सकता है।


तो, चलिए इसमें सीधे कूदते हैं।


पीडीएफ निष्कर्षण क्या है?

पीडीएफ डेटा निष्कर्षण पीडीएफ (पोर्टेबल डॉक्यूमेंट फॉर्मेट) फ़ाइल से टेक्स्ट, इमेज या अन्य डेटा निकालने की प्रक्रिया है। इन फ़ाइलों का व्यापक रूप से दस्तावेज़ों को साझा करने और संग्रहीत करने के लिए उपयोग किया जाता है, लेकिन उनकी सामग्री हमेशा आसानी से उपलब्ध नहीं होती है।


पीडीएफ निष्कर्षण क्यों महत्वपूर्ण है?

पीडीएफ फाइलों की पहुंच और पठनीयता उन लोगों के लिए बहुत जरूरी है, जिन्हें दृष्टि संबंधी समस्याएं हैं या छोटे या धुंधले पाठ को पढ़ने में परेशानी है, कानूनी स्थितियों, डेटा विश्लेषण और शोध के लिए उपयोगी है। कुछ उदाहरणों में जहां निष्कर्षण की आवश्यकता होती है, उनमें समय बचाने और गलतियों से बचने के लिए अन्य दस्तावेजों में पीडीएफ फाइलों से पाठ या छवि सामग्री का उपयोग करना शामिल है।


पीडीएफ डेटा निष्कर्षण और उनकी सीमाओं के लिए मौजूदा तरीके क्या हैं?

यह 2023 है, और इंटरनेट पर बहुत सारी पीडीएफ निष्कर्षण तकनीकें और उपकरण उपलब्ध हैं। आइए डेटा निष्कर्षण की 3 लोकप्रिय तकनीकों और उसके कुछ उदाहरणों में गहराई से गोता लगाएँ:


1 : ओसीआर तकनीक

OCR , या Optical Character Recognition के लिए संक्षिप्त नाम का उपयोग स्कैन किए गए दस्तावेज़ों, छवियों और PDF फ़ाइलों सहित विभिन्न स्रोतों से पाठ निकालने के लिए किया जा सकता है, और आमतौर पर मुद्रित दस्तावेज़ों जैसे पुस्तकों, समाचार पत्रों और ऐतिहासिक दस्तावेज़ों को डिजिटाइज़ करने के लिए उपयोग किया जाता है।

कुछ लोकप्रिय ओसीआर उपकरणों में शामिल हैं:



2 : टेम्पलेट्स

टेम्प्लेट-आधारित तकनीकें दस्तावेज़ PDF की शैली को ध्यान में रखती हैं और हार्ड-कोडेड नियमों का उपयोग करती हैं। ये तकनीकें आम तौर पर संरचित दस्तावेजों पर काम करती हैं, जिनकी संरचना स्थिर रहती है और समझने में आसान होती है।


कुछ लोकप्रिय टेम्प्लेट-आधारित तकनीकों में शामिल हैं:

  • रेगेक्स पैटर्न का उपयोग करना

    Ex: निम्नलिखित रेगेक्स नियम द्वारा दिनांक निकाली जा सकती है:

    [dd-mm-yyyy or yyyy-mm-dd] - [0-9]{2,4}/[0-9]{2}/[0-9]{2,4}

  • दस्तावेजों के ग्रंथों और आयामों की स्थिति के आधार पर हार्ड-कोडिंग नियम


3 : मशीन लर्निंग तकनीक

मशीन लर्निंग (एमएल) तकनीकों को पीडीएफ निष्कर्षण के लिए सबसे अच्छे तरीकों में से एक माना जाता है क्योंकि यह फ़ाइल संरचना की परवाह किए बिना पीडीएफ फाइलों से अत्यधिक सटीक पाठ पहचान और निष्कर्षण की अनुमति देता है। ये मॉडल पड़ोसी टेक्स्ट को भी ध्यान में रखते हुए layout और position of the text दोनों की जानकारी स्टोर कर सकते हैं। इससे उन्हें बेहतर सामान्यीकरण करने और दस्तावेज़ संरचना को अधिक कुशलता से सीखने में मदद मिलती है।


एलएलएम क्या हैं

लार्ज लैंग्वेज मॉडल आर्टिफिशियल इंटेलिजेंस का एक सबसेट है जिसे बड़ी मात्रा में टेक्स्ट डेटा पर प्रशिक्षित किया गया है। उदाहरण के लिए: चैटजीपीटी जो संवाद या अन्य प्राकृतिक भाषा इनपुट के लिए मानव जैसी प्रतिक्रियाओं का उत्पादन करने के लिए संपूर्ण इंटरनेट डेटा और सूचना पर प्रशिक्षित है।

इन प्राकृतिक भाषा प्रतिक्रियाओं का उत्पादन करने के लिए, एलएलएम गहन शिक्षण मॉडल का उपयोग करते हैं, जो जटिल डेटा के साथ प्रक्रिया, विश्लेषण और भविष्यवाणियां करने के लिए बहुस्तरीय तंत्रिका नेटवर्क का उपयोग करते हैं।


कुछ लोकप्रिय एमएल मॉडल में शामिल हैं:


एमएल मॉडल की सीमाएं

एक प्रमुख समस्या जिसका इस प्रकार के मॉडल को सामना करना पड़ता है वह यह है कि वे बिना यह जाने कि क्या निष्कर्षण वास्तव में सटीक और सही है, पीडीएफ से जानकारी निकाल सकते हैं। निकाले गए टेक्स्ट में दूसरी कुंजी में कुछ अन्य महत्वपूर्ण जानकारी भी शामिल हो सकती है। एक बुद्धिमान संदर्भ होने से मॉडल को उन अशुद्धियों को कम करने में मदद मिलती है।


इस समस्या को हल करने और पीडीएफ निष्कर्षण की प्रणाली में खुफिया जानकारी को एकीकृत करने के लिए हम GPT-4 की शक्ति का लाभ उठा सकते हैं।


GPT-4 और ChatGPT क्या है?

GPT-4 (जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर 4) OpenAI द्वारा विकसित एक बड़ा भाषा मॉडल है जो मानव-जैसी प्राकृतिक भाषा पाठ उत्पन्न करने के लिए गहन शिक्षण तकनीकों का उपयोग करता है। यह 175 बिलियन पैरामीटर्स के साथ उपलब्ध सबसे बड़े और सबसे शक्तिशाली भाषा मॉडलों में से एक है।

दूसरी ओर, चैट-जीपीटी, जीपीटी का एक प्रकार है जिसे संवादी एआई अनुप्रयोगों के लिए विशेष रूप से प्रशिक्षित किया गया है। इसे संवादात्मक डेटा के एक बड़े डेटासेट पर ठीक किया गया है और उपयोगकर्ता प्रश्नों के लिए मानव-जैसी प्रतिक्रियाएँ उत्पन्न कर सकता है। चैट GPT का उपयोग विभिन्न अनुप्रयोगों के लिए किया जा सकता है, जिसमें चैटबॉट्स, ग्राहक सेवा और आभासी सहायक शामिल हैं।


आइए समस्या विवरण के साथ आगे बढ़ते हैं और देखते हैं कि चैटजीपीटी के साथ जीपीटी-4 पीडीएफ निष्कर्षण की समस्या को हल करने में हमारी मदद कैसे कर सकता है।


समस्या का विवरण

पीडीएफ के संग्रह से विशिष्ट जानकारी को प्रभावी ढंग से निकालने की चुनौती एक ऐसी चुनौती है जिसका कई अनुप्रयोगों और उद्योगों को नियमित रूप से सामना करना पड़ता है। बैंक स्टेटमेंट या टैक्स फॉर्म से जानकारी निकालना कठिन है। कई PDF के माध्यम से मैन्युअल रूप से स्कैन करने के पुराने तरीके में बहुत समय लगता है और गलत या असंगत डेटा उत्पन्न कर सकता है। इसके अलावा, PDF में पाया जाने वाला असंरचित डेटा स्वचालित सिस्टम के लिए आवश्यक जानकारी निकालना चुनौतीपूर्ण बना देता है।


हम थोड़े मानवीय हस्तक्षेप के साथ पीडीएफ से उपयोगकर्ता के सवालों के जवाब खोजने की समस्या को हल करने का इरादा रखते हैं।


समाधान

हम अपने लाभ के लिए GPT-4 और इसके एम्बेडिंग का उपयोग कर सकते हैं:


  1. उपयोगकर्ता प्रश्नों के लिए दस्तावेज़ एम्बेडिंग और साथ ही एम्बेडिंग उत्पन्न करें।
  2. उस दस्तावेज़ की पहचान करें जो उपयोगकर्ता की क्वेरी के सबसे करीब है और इसमें किसी भी समानता पद्धति (उदाहरण के लिए, कोसाइन स्कोर) का उपयोग करके उत्तर शामिल हो सकते हैं, और फिर,
  3. सटीक उत्तर खोजने के लिए दस्तावेज़ और उपयोगकर्ता की क्वेरी GPT-4 को फ़ीड करें।

कार्यान्वयन


चरण 1 : पीडीएफ पार्स करें

ए: पीडीएफ से टेक्स्ट निकालें

आप दस्तावेज़ से टेक्स्ट निकालने के लिए किसी भी OCR या ML तकनीक का उपयोग कर सकते हैं


बी: दस्तावेज़ की संरचना के आधार पर टेक्स्ट को उचित छोटे हिस्सों में विभाजित करें

बाउंडिंग-बॉक्स [x0, y0, x2, y2] की समन्वय जानकारी का उपयोग करना जहां x0 और y0 शीर्ष-बाएं निर्देशांक हैं और x2 और y2 नीचे-दाएं निर्देशांक हैं, आप पूरे पाठ को निश्चित चौड़ाई के छोटे हिस्सों में विभाजित कर सकते हैं और ऊंचाई।


C: उन हिस्सों को एंबेडिंग में एनकोड करें [या तो OpenAI एंबेडिंग या हगिंगफेस का उपयोग करें]


 import torch from transformers import AutoTokenizer, AutoModel # Load the pre-trained model and tokenizer tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') model = AutoModel.from_pretrained('bert-base-uncased') # Tokenize the sentence tokens = tokenizer.encode("<pass your code chunk block here>", return_tensors='pt') # Get the embeddings with torch.no_grad(): outputs = model(tokens) embeddings = outputs[0][0] # Print the embeddings print(embeddings)


चरण 2: वेक्टर एम्बेडिंग को वेक्टर डेटाबेस में संग्रहीत करना

वेक्टर डीबी क्या है और इसकी आवश्यकता क्यों है?

  • वेक्टर एम्बेडिंग की अनूठी संरचना को संभालने के लिए वेक्टर डेटाबेस उद्देश्य-निर्मित DB हैं। वे मूल्यों की तुलना करके और एक दूसरे के सबसे समान होने वालों को खोजने के द्वारा आसान खोज और पुनर्प्राप्ति के लिए वैक्टर को अनुक्रमित करते हैं। उदाहरणों में पाइनकोन और वीवेट शामिल हैं।
  • इस V-DB में प्रत्येक चंक स्निपेट्स और दस्तावेज़ के वैक्टर शामिल हैं


चरण 3: चंक स्निपेट खोजें जो इनपुट क्वेरी के लिए प्रासंगिक हो

ए: उपयोगकर्ता की क्वेरी के लिए एम्बेडिंग की गणना करें

एम्बेडिंग की गणना करने के लिए ऊपर बताए अनुसार उसी तकनीक का उपयोग करें


बी: वेक्टर डेटाबेस से चंक एम्बेडिंग वेक्टर खोजें, जिसका एम्बेडिंग उपयोगकर्ता क्वेरी के एम्बेडिंग के साथ निकटता से मेल खाता है

आप किसी भी similarity search algorithm उपयोग कर सकते हैं।

आप वाक्य ट्रांसफॉर्मर लाइब्रेरी की अर्थपूर्ण वाक्य समानता का उपयोग कर सकते हैं।

 from sentence_transformers import SentenceTransformer, util #Compute cosine-similarities for each code chunk embds with user's query embeddings cosine_scores = util.cos_sim(code_chunk_embds, user_query_embds)


चरण 4 : प्रदान किए गए चंक स्निपेट और उपयोगकर्ता क्वेरी के आधार पर उत्तर के लिए GPT-4 से पूछें

ए: 3 इनपुट प्रदान करें।

इनपुट 1: उपयोगकर्ता क्वेरी

Input2 : वह चंक जो क्वेरी से काफी मिलता जुलता है

इनपुट 3: कुछ मेटा-निर्देश यदि कोई हो [सिस्टम: दस्तावेज़ में दी गई जानकारी के आधार पर प्रश्नों का उत्तर दें]


B: GPT-4 आउटपुट का उत्तर है


GPT4 और ChatGPT API का उपयोग करने के लाभ?

जैसा कि हम पहले से ही जानते हैं क्योंकि GPT4 इतना शक्तिशाली एलएलएम है जो 8,192 और 32,768 टोकन की टोकन लंबाई के साथ बड़ी मात्रा में संदर्भ को शामिल कर सकता है, बहुत सटीक परिणाम उत्पन्न करना आसान और बहुत तेज़ हो जाता है।


चैटजीपीटी एपीआई मूल रूप से किसी भी प्रोग्रामिंग भाषा के साथ एकीकृत होता है जो डाउनस्ट्रीम कार्यों में हमारी अधिक मदद कर सकता है।


हमने क्या सीखा?

  • हमने अलग-अलग PDF और डेटा निकालने की तकनीकों और टूल के बारे में सीखा
  • इस प्रकार के मॉड्यूल और मॉडल की सीमाएं क्या हैं
  • ChatGPT और GPT-4 हमारे उपयोग के मामले में क्या और कैसे मददगार हैं और PDF से डेटा निष्कर्षण को हल करने के लिए उनका उपयोग कैसे किया जा सकता है