আপনি রোবটগুলিকে আপনার কফি তৈরি করতে চেয়েছিলেন, কিন্তু আপনি পরিবর্তে নথি থেকে কাঠামোগত JSON আউটপুট পান৷ যখনই কিছু নতুন প্রযুক্তি দেখায়, এটি হাইপারবোলে ডুবে যায়। আমার টুইটার "প্রভাবকদের" দ্বারা পরিপূর্ণ যারা দাবি করে যে তারা একটি একক প্রম্পট দিয়ে একটি সম্পূর্ণ ওয়েবসাইট তৈরি করেছে, তবে যে কেউ ওয়েবসাইট তৈরি করার চেষ্টা করছেন তারা জানেন যে তারা বর্তমানে ছোট ফাংশনগুলি বাস্তবায়নের জন্য যথেষ্ট ভাল এবং যে কোনও বিষয়ে গভীর প্রান্তে যেতে পারে প্রসঙ্গ হিসাবে একটি সম্পূর্ণ কোড সংগ্রহস্থল সহ দীর্ঘ-পরিসরের টাস্ক। মনে আছে যখন প্রায় দশ বছর আগে আমাদের স্ব-চালিত গাড়ির প্রতিশ্রুতি দেওয়া হয়েছিল? স্ব-ড্রাইভিং একটি সমাধান করা সমস্যা, ইলন মাস্ক, চূড়ান্ত হাইপ মিস্টার বলেছেন। আগামীকাল 8 বছর আগে আমরা যখন টেসলাসের জন্য তাদের নিজেরাই ডোনাট করা শুরু করার জন্য অপেক্ষা করছিলাম, তখন কম চটকদার প্রচেষ্টা চলছিল। এমন একটি সেন্সর তৈরি করেছে যা আপনি যখন কোনো কিছুতে ছুটতে চলেছেন তখন বিপ হয়ে যায়। তারা অগণিত জীবন বাঁচিয়েছে, এবং প্রায় 90% বীমা দাবি কমিয়েছে। তারা 17 বিলিয়ন ডলারের একটি কোম্পানি তৈরি করেছে। Mobileye আমি বিশ্বাস করি যে LLM-এর জন্য Mobileye প্রযুক্তি। আর্থিক সারণী বোঝা, বীমা দাবি সারণী করা এবং ডাক্তারের নোট থেকে মেডিকেল কোড অনুমান করা উচ্চ স্বপ্নের তুলনায় বিনয়ী বলে মনে হয়। কিন্তু আপনি যদি এই সমস্যার উপর ডাবল-ক্লিক করেন, আপনি দেখতে পাবেন এটি আগে অমীমাংসিত ছিল এবং এটি অনেক মূল্য আনলক করে। নথি বোঝা ব্যাকস্টোরি এক দশক আগে, আমি LinkedIn এর বিখ্যাত ডেটা স্ট্যান্ডার্ডাইজেশন টিমের জন্য কাজ করেছি। আমরা একটি প্রতারণামূলকভাবে সহজ সমস্যাটি ক্র্যাক করার চেষ্টা করছিলাম: আপনি কীভাবে একটি সারসংকলনকে বোঝাবেন, এটি যেখান থেকে আসে না কেন, এবং এর শিরোনামগুলিকে স্বীকৃত শিরোনামের একটি ছোট সেটে ম্যাপ করবেন? আপনি মনে করেন এই সহজ হবে. আমি বলতে চাচ্ছি, "সফ্টওয়্যার ইঞ্জিনিয়ার" একটি সুন্দর সরল শিরোনাম, তাই না? কিন্তু কেউ যদি "সহযোগী" লেখে? তারা তাক স্টকিং বা একটি আইন ফার্মে একটি ছয় অঙ্কের বেতন টানা হতে পারে. স্টেশন হ্যান্ড কী (অসি কাউবয়), একজন পরামর্শদাতা কী (অর্থাৎ উপদেষ্টা/ফ্রিল্যান্স হতে পারে, তবে এর অর্থ হতে পারে ডাক্তার যদি আপনি ব্রিটিশ হন এবং এর জন্য আপনার সঠিক পটভূমি থাকে)? আপনি যদি চাকরির শিরোনামগুলিকে স্বীকৃত আইটেমগুলির একটি তালিকায় ফিট করার চেষ্টা করছেন যাতে আপনি অনুসন্ধান, বিক্রয় ইত্যাদির জন্য সূচী করতে পারেন - আপনি কীভাবে এমন একটি মডেল তৈরি করবেন যা সমস্ত ভাষা এবং সংস্কৃতির সূক্ষ্মতা জানে এবং "এক্সিকিউটিভ অ্যাসিস্ট্যান্ট" কে ভুল করবে না একজন নির্বাহী হবেন, যখন সহকারী আঞ্চলিক ব্যবস্থাপক আসলেই আঞ্চলিক ব্যবস্থাপকের ডেপুটি? ঠিক আছে, তাই এটি চমৎকার, কিন্তু আমি যদি এর জন্য কাজ করি, তাহলে আমার নির্দিষ্ট ডেটা প্রকারের প্রয়োজন হবে। আমি একটি চাই। LinkedIn- JSON চাকরির শিরোনামগুলিকে একটি আদর্শ শ্রেণীবিন্যাস-এ ম্যাপ করার জন্য আরও কাজের প্রয়োজন - গ্রহণযোগ্য পূর্বনির্ধারিত চাকরির শিরোনামের একটি সীমিত তালিকা। কিন্তু আপনি দেখতে পাচ্ছেন যে অতীতে খুব কঠিন কিছু কীভাবে তুচ্ছ হয়ে যায়। অফিসের কাজ একটি এআই খেলার মাঠে পরিণত হয় সারসংকলন পড়া একটি চমৎকার ব্যবহারের ক্ষেত্রে, কিন্তু আমি মনে করি এটি বিপ্লবী নয়। LinkedIn একটি প্রযুক্তি কোম্পানি এবং সবসময় সমস্যাটির জন্য কিছু তীক্ষ্ণ রেজার প্রয়োগ করেছে। এটি কিছুটা ভাল হতে পারে, কিন্তু আমরা শুধুমাত্র একটি কোড অটোমেশন প্রক্রিয়া অন্যটির সাথে প্রতিস্থাপন করছি। আপনি যখন ক্লান্তিকর কায়িক শ্রম প্রতিস্থাপন করেন তখন জিনিসগুলি আরও আকর্ষণীয় হয়ে ওঠে। অর্থনীতির একটি বিশাল অংশ এমন ব্যক্তিদের উপর ভিত্তি করে তৈরি করা হয় যারা বিশেষজ্ঞের কাজ করে যা "একটি নথি পড়া, এটি কী বলে তা খুঁজে বের করা এবং সেই প্রক্রিয়াটি পুনরাবৃত্তি করে"। আমাকে কিছু উদাহরণ দিয়ে আপনাকে আঘাত করা যাক: আপনি একটি চালান পেয়েছেন, এবং কাউকে এটিকে সংখ্যার তালিকায় পরিণত করতে হবে — কী অর্থ প্রদান করা হয়েছিল, কাকে এবং কোন মুদ্রায়৷ সহজ শোনাচ্ছে? যখন এটি অতিরিক্ত তথ্য, অসম্পূর্ণ টেবিল বা পিডিএফের জগাখিচুড়ির মধ্যে চাপা পড়ে তখন নয় যেগুলিকে কেউ একটি ব্লেন্ডারের মাধ্যমে চালায় বলে মনে হয়। ব্যয় ব্যবস্থাপনা: এটি একটি দুঃস্বপ্ন, যা স্বাস্থ্যসেবা দাবির বিচারকদের একটি বাহিনী দ্বারা সমাধান করা হয়। তারা চালান, ক্লিনিশিয়ান নোট এবং চালানগুলির পাহাড়ের মধ্যে দিয়ে চালনা করে যেগুলিকে ডুপ্লিকেট সহ একটি জটিল জগাখিচুড়িতে একসাথে আসতে হবে এবং এটিকে একটি বিদ্যমান স্বাস্থ্য বীমা পলিসির সাথে মেলাতে হবে এবং চার্জটি কভার করা হয়েছে কিনা, কোন শ্রেণীতে, এবং কত পরিমাণে। কিন্তু যখন আপনি এটিতে নেমে আসেন তখন এটি বেশিরভাগই কেবল পড়া, সাজানো এবং লেবেল করা। সিদ্ধান্ত কঠিন নয়; এটি ডেটা নিষ্কাশন যে চ্যালেঞ্জ। স্বাস্থ্যসেবা দাবি প্রক্রিয়াকরণ: কারো ব্যাঙ্ক স্টেটমেন্ট পর্যালোচনা করা এবং তাদের নগদ প্রবাহকে শ্রেণীবদ্ধ করা। আবার, এটি রকেট বিজ্ঞানের চেয়ে অসংগঠিত তথ্য গঠনের বিষয়ে আরও বেশি। লোন আন্ডাররাইটিং: চটকদার? না. দরকারী? আমি তাই মনে করি. নথি নিষ্কাশন একটি গ্রাউন্ডেড টাস্ক এখন পর্যন্ত, এলএলএম হ্যালুসিনেশনের জন্য কুখ্যাত—ওরফে বিষ্ঠা তৈরি করা। কিন্তু বাস্তবতা আরও সংক্ষিপ্ত: আপনি যখন বিশ্ব জ্ঞানের জন্য জিজ্ঞাসা করেন তখন হ্যালুসিনেশন প্রত্যাশিত হয় কিন্তু মূলত একটি বাদ দেওয়া হয়। গ্রাউন্ডেড টাস্কে এলএলএমগুলি তারা যা "জানে" তা মূল্যায়নে বিশেষভাবে ভাল নয় - এটি একটি সৌভাগ্যের উপজাত যে তারা এটি করতে পারে কারণ তারা এর জন্য স্পষ্টভাবে প্রশিক্ষিত ছিল না। তাদের প্রাথমিক প্রশিক্ষণ হল পাঠ্য অনুক্রমের ভবিষ্যদ্বাণী করা এবং সম্পূর্ণ করা। যাইহোক, যখন একটি LLM-কে একটি গ্রাউন্ডেড টাস্ক দেওয়া হয় - যেখানে একটি ভবিষ্যদ্বাণী করার জন্য শুধুমাত্র স্পষ্টভাবে দেওয়া ইনপুট প্রয়োজন হয়, তখন হ্যালুসিনেশনের হার মূলত শূন্যে নামিয়ে আনা যেতে পারে। উদাহরণস্বরূপ, আপনি যদি এই ব্লগ পোস্টটি ChatGPT-এ পেস্ট করেন এবং জিজ্ঞাসা করেন যে এটি কীভাবে আপনার পোষা প্রাণীর যত্ন নিতে হয় তা ব্যাখ্যা করে, মডেলটি সঠিক প্রতিক্রিয়া 100% সময় দেবে। কাজটি অনুমানযোগ্য হয়ে ওঠে। এলএলএমগুলি পাঠ্যের একটি অংশ প্রক্রিয়াকরণে পারদর্শী এবং ভবিষ্যদ্বাণী করে যে কীভাবে একজন দক্ষ বিশ্লেষক শূন্যস্থান পূরণ করবেন, যার মধ্যে একটি হতে পারে {"ফেরেট কেয়ার আলোচিত": মিথ্যা}। একজন প্রাক্তন AI পরামর্শক হিসাবে, আমরা নথি থেকে তথ্য বের করার উপর দৃষ্টি নিবদ্ধ করা প্রকল্পগুলিতে কাজ করেছি, বিশেষ করে বীমা এবং অর্থের মতো শিল্পে। সাধারণ ভয় ছিল "LLMs হ্যালুসিনেট", কিন্তু বাস্তবে, সবচেয়ে বড় চ্যালেঞ্জগুলি প্রায়শই সারণী নিষ্কাশনের ত্রুটি বা অন্যান্য ইনপুট অসঙ্গতির কারণে ছিল৷ এলএলএমগুলি কেবল তখনই ব্যর্থ হয় যখন আমরা তাদের পরিষ্কার, দ্ব্যর্থহীন ইনপুট দিয়ে উপস্থাপন করতে ব্যর্থ হই৷ এর দুটি মূল উপাদান রয়েছে৷ সফলভাবে নথি প্রক্রিয়াকরণ স্বয়ংক্রিয়: - এর মধ্যে দস্তাবেজটিকে পরিষ্কার, মেশিন-পাঠযোগ্য পাঠ্যে রূপান্তর করা জড়িত, হ্যান্ডলিং টেবিল, হাতে লেখা নোট, বা বিভিন্ন লেআউট সহ। LLM এর সাথে কাজ করার জন্য একটি পরিষ্কার, বোধগম্য পাঠ্য প্রয়োজন। নিখুঁত টেক্সট এক্সট্রাকশন - এই স্কিমাগুলিকে সংজ্ঞায়িত করা উচিত যে আপনি কোন আউটপুটগুলি খুঁজছেন, প্রান্তের কেসগুলি কীভাবে পরিচালনা করবেন এবং ডেটার বিন্যাস, সিস্টেমটি নিশ্চিত করে যে প্রতিটি নথির প্রকার থেকে ঠিক কী বের করতে হবে। মজবুত স্কিমাস হ্যালুসিনেশনের সম্ভাব্য ঝুঁকি এবং প্রকৃত প্রযুক্তিগত প্রতিবন্ধকতার মধ্যে ব্যবধান বিশাল হতে পারে, কিন্তু এই মৌলিক বিষয়গুলোকে স্থির রেখে, আপনি ডকুমেন্ট প্রসেসিং ওয়ার্কফ্লোতে কার্যকরভাবে এলএলএম ব্যবহার করতে পারেন। টেক্সট নিষ্কাশন প্রথম চোখের দেখা তুলনায় trickier এলএলএমগুলি ক্র্যাশ এবং জ্বলতে এবং হাস্যকরভাবে খারাপ আউটপুট পাওয়ার কারণ এখানে রয়েছে: ইনপুটটিতে একটি ডাবল-কলাম লেআউটের মতো জটিল বিন্যাস রয়েছে এবং আপনি পাঠ্যকে অনুলিপি করে পেস্ট করেন যেমন একটি PDF বাম থেকে ডানে, বাক্যগুলিকে সম্পূর্ণ প্রসঙ্গের বাইরে নিয়ে। ইনপুটটিতে চেকবক্স, চেকমার্ক, হাতে লেখা টীকা রয়েছে এবং আপনি পাঠ্যে রূপান্তর করার সময় সেগুলি সম্পূর্ণভাবে মিস করেছেন আরও খারাপ: আপনি ভেবেছিলেন যে আপনি পাঠ্যে রূপান্তর করতে পারেন, এবং আশা করি শুধু একটি নথির একটি ছবি পেস্ট করবেন এবং এটির বিষয়ে GPT কারণ থাকবে৷ এটি আপনাকে হ্যালুসিনেশন সিটিতে নিয়ে যায়। শুধু GPT কে কিছু খালি কক্ষ সহ একটি টেবিলের একটি চিত্র প্রতিলিপি করতে বলুন এবং আপনি দেখতে পাবেন এটি আনন্দের সাথে অ্যাপিশিট হয়ে যাচ্ছে এবং জিনিসপত্র তৈরি করছে। এটি সর্বদা মনে রাখতে সাহায্য করে যে বাস্তব-বিশ্বের নথিতে কী একটি উন্মাদ জগাখিচুড়ি হয়৷ এখানে একটি র্যান্ডম ট্যাক্স ফর্ম আছে: অবশ্যই, প্রকৃত ট্যাক্স ফর্মগুলিতে এই সমস্ত ক্ষেত্রগুলি পূরণ করা হয়, প্রায়শই হাতের লেখায় অথবা এখানে আমার জীবনবৃত্তান্ত আছে অথবা একটি সর্বজনীনভাবে উপলব্ধ উদাহরণ ল্যাব রিপোর্ট (এটি Google থেকে একটি প্রথম পৃষ্ঠার ফলাফল) যাইহোক, আপনি করতে পারেন নিখুঁত সবচেয়ে খারাপ জিনিস, একটি টেবিল প্রতিলিপি করার জন্য GPT এর মাল্টিমোডাল ক্ষমতা জিজ্ঞাসা করুন। আপনি যদি সাহস করেন তবে এটি চেষ্টা করুন — এটি প্রথম নজরে ঠিক দেখায়, একেবারে কিছু টেবিল ঘরের জন্য এলোমেলো জিনিস তৈরি করে, বিষয়গুলিকে সম্পূর্ণরূপে প্রসঙ্গ থেকে সরিয়ে দেয় ইত্যাদি। বিশ্বের সাথে কিছু ভুল হলে, এটি ঠিক করার জন্য একটি SaaS কোম্পানি তৈরি করুন এই ধরনের নথি বোঝার দায়িত্ব দেওয়া হলে, আমার সহ-প্রতিষ্ঠাতা এবং আমি হতবাক হয়ে গিয়েছিলাম যে এই পাঠ্যগুলি বোঝার জন্য কোনও অফ-দ্য-শেল্ফ সমাধান ছিল না। নিতাই ডিন কিছু লোক এটি সমাধান করার দাবি করে, যেমন AWS Textract। কিন্তু আমরা পরীক্ষা করেছি এমন জটিল নথিতে তারা অসংখ্য ভুল করে। তারপরে আপনার কাছে ছোট প্রয়োজনীয় জিনিসগুলির দীর্ঘ লেজ রয়েছে, যেমন চেকমার্ক চেক করা, রেডিও বোতাম, ক্রস-আউট পাঠ্য, একটি ফর্মে হাতের লেখা স্ক্রীবল ইত্যাদি। সুতরাং, আমরা তৈরি করেছি — যা প্রথমে আপনি যে কোনও পৃষ্ঠায় একটি পরিষ্কার পাঠ্য উপস্থাপনা তৈরি করে। বাম দিকে আপনি আসল নথি দেখতে পাবেন এবং ডানদিকে, আপনি পাঠ্য আউটপুট দেখতে পাবেন। Docupanda.io টেবিল একইভাবে পরিচালনা করা হয়. হুডের নীচে, আমরা কেবল টেবিলগুলিকে মানব এবং LLM-পঠনযোগ্য মার্কডাউন ফর্ম্যাটে রূপান্তর করি: LLM এর সাথে ডেটা বোঝার শেষ অংশটি হ'ল কঠোর আউটপুট ফর্ম্যাট তৈরি করা এবং মেনে চলা। এটা দুর্দান্ত যে আমরা AI এর আউটপুটকে JSON-এ তৈরি করতে পারি, কিন্তু ডেটাতে নিয়ম, যুক্তি, প্রশ্ন ইত্যাদি প্রয়োগ করতে - আমাদের এটিকে নিয়মিত আচরণ করতে হবে। ডেটাকে স্লটের একটি পূর্বনির্ধারিত সেটের সাথে সামঞ্জস্য করতে হবে যা আমরা সামগ্রী দিয়ে পূরণ করব। ডেটা জগতে, আমরা এটিকে একটি বলি। স্কিমা বিল্ডিং স্কিমা একটি ট্রায়াল এবং ত্রুটি প্রক্রিয়া… যেটা একজন এলএলএম করতে পারে আমাদের একটি স্কিমা প্রয়োজন কারণ নিয়মিততা ছাড়া ডেটা অকেজো। আমরা যদি রোগীর রেকর্ড প্রসেসিং করি, এবং তারা "পুরুষ" "পুরুষ" "মি" এবং "এম" তে ম্যাপ করে - আমরা একটি ভয়ানক কাজ করছি। তাহলে আপনি কিভাবে একটি স্কিমা তৈরি করবেন? একটি পাঠ্যপুস্তকে, আপনি দীর্ঘ এবং শক্ত হয়ে বসে এবং দেয়ালের দিকে তাকিয়ে এবং আপনি কী বের করতে চান তা নির্ধারণ করে একটি স্কিমা তৈরি করতে পারেন। আপনি সেখানে বসেন, আপনার স্বাস্থ্যসেবা ডেটা অপারেশন নিয়ে চিন্তা করুন এবং যান “আমি রোগীর নাম, তারিখ, লিঙ্গ এবং তাদের চিকিত্সকের নাম বের করতে চাই। ওহ, এবং লিঙ্গ অবশ্যই M/F/Other হতে হবে।" বাস্তব জীবনে, নথি থেকে কী বের করতে হবে তা সংজ্ঞায়িত করতে, আপনি আপনার নথির দিকে তাকাচ্ছেন… অনেক কিছু। আপনি উপরের মত কিছু দিয়ে শুরু করেন, কিন্তু তারপর আপনি নথিগুলি দেখেন এবং দেখেন যে তাদের মধ্যে একজনের পরিবর্তে একজন চিকিৎসকের তালিকা রয়েছে। এবং তাদের মধ্যে কেউ কেউ চিকিত্সকদের জন্য একটি ঠিকানাও তালিকাভুক্ত করে। কিছু ঠিকানায় একটি ইউনিট নম্বর এবং একটি বিল্ডিং নম্বর রয়েছে, তাই সম্ভবত আপনার এটির জন্য একটি স্লট প্রয়োজন। উপর এবং এটা যায়. আমরা যা বুঝতে পেরেছি তা হল যে আপনি যে সমস্ত জিনিসগুলি বের করতে চান তা ঠিক কী তা সংজ্ঞায়িত করতে সক্ষম হওয়া উভয়ই অ-তুচ্ছ, কঠিন এবং AI এর সাথে খুব সমাধানযোগ্য। এটি ডকুপান্ডার একটি মূল অংশ। প্রতিটি নথির জন্য একটি আউটপুট উন্নত করার জন্য একটি LLM-কে বলার পরিবর্তে, আমরা এমন ব্যবস্থা তৈরি করেছি যা আপনাকে করতে দেয়: একটি নথি থেকে আপনার কী কী জিনিস পেতে হবে তা বিনামূল্যের ভাষায় উল্লেখ করুন নথির উপর আমাদের AI মানচিত্র রাখুন এবং এমন একটি স্কিমা বের করুন যা সমস্ত প্রশ্নের উত্তর দেয় এবং প্রকৃত নথিতে পরিলক্ষিত ত্রুটি এবং অনিয়মগুলিকে মিটমাট করে। অনেক আপনার ব্যবসার প্রয়োজনের সাথে সামঞ্জস্য করতে প্রতিক্রিয়া সহ স্কিমা পরিবর্তন করুন আপনি যা শেষ করেন তা হল একটি শক্তিশালী JSON স্কিমা — একটি টেমপ্লেট যা বলে যে আপনি প্রতিটি নথি থেকে ঠিক কী বের করতে চান এবং সেগুলির কয়েক হাজারের উপরে মানচিত্র তৈরি করে, সেগুলির সবগুলির উত্তর বের করে, নিয়ম মেনে চলার সময় সবসময় তারিখগুলি বের করার মতো একই বিন্যাস, পূর্বনির্ধারিত বিভাগগুলির একটি সেটকে সম্মান করা ইত্যাদি। অনেক বেশি! যেকোন খরগোশের গর্তের মতো, সর্বদা প্রথমে চোখের দেখা পাওয়ার চেয়ে আরও বেশি জিনিস থাকে। সময়ের সাথে সাথে, আমরা আবিষ্কার করেছি যে আরও জিনিসের প্রয়োজন: প্রায়শই সংস্থাগুলিকে বেনামী নথিগুলির একটি আগত প্রবাহের সাথে মোকাবিলা করতে হয়, তাই আমরা স্বয়ংক্রিয়ভাবে সেগুলিকে শ্রেণীবদ্ধ করি এবং সিদ্ধান্ত নিই যে কোন স্কিমা তাদের জন্য প্রয়োগ করা হবে দস্তাবেজগুলি কখনও কখনও অনেকগুলি নথির সংমিশ্রণ হয়, এবং আপনার একটি বুদ্ধিমান সমাধান প্রয়োজন একটি খুব দীর্ঘ নথিকে এর পারমাণবিক, পৃথক উপাদানগুলিতে ভেঙে ফেলার জন্য। উত্পন্ন ফলাফল ব্যবহার করে সঠিক নথির জন্য অনুসন্ধান অত্যন্ত দরকারী যদি এই পোস্ট থেকে একটি টেকঅ্যাওয়ে থাকে, তাহলে নিয়মিতভাবে নথির বোধগম্য করার জন্য আপনার LLM ব্যবহার করার দিকে নজর দেওয়া উচিত। যদি দুটি টেকঅ্যাওয়ে থাকে তবে আপনার ব্যবহার করে দেখতে হবে। আমি এটি নির্মাণ করছি কারণ আমি এটা বিশ্বাস করি. হতে পারে যে এটি একটি যেতে দিতে যথেষ্ট ভাল কারণ? Docupanda.io