paint-brush
AI რეალურად კარგია დოკუმენტების გაგებაშიმიერ@uri
178 საკითხავი

AI რეალურად კარგია დოკუმენტების გაგებაში

მიერ Uri Merhav9m2024/09/09
Read on Terminal Reader

Ძალიან გრძელი; Წაკითხვა

არა გლამურული, მაგრამ რეალურად სასარგებლო. LLM-ები გიჟურად კარგად ესმით დოკუმენტის შინაარსი და მისგან ინფორმაციის ამოღება. მათ უბრალოდ სჭირდებათ ცოტა სიყვარული კარგი OCR და მაგიდის გაგებით.
featured image - AI რეალურად კარგია დოკუმენტების გაგებაში
Uri Merhav HackerNoon profile picture
0-item

თქვენ გინდოდათ რობოტები თქვენი ყავის მოსამზადებლად, მაგრამ სანაცვლოდ დოკუმენტებიდან იღებთ სტრუქტურირებულ JSON-ის შედეგებს.

როდესაც რაიმე ახალი ტექნოლოგია გამოჩნდება, ის ჰიპერბოლაში იძირება. ჩემი Twitter სავსეა „ინფლუენსერებით“, რომლებიც აცხადებენ, რომ შექმნეს სრული ვებსაიტი ერთი მოწოდებით, მაგრამ ვინც იქ ცდილობს შექმნას ვებსაიტები, იცის, რომ ისინი ამჟამად საკმარისად კარგია იმისთვის, რომ განახორციელონ მცირე ფუნქციები და შორს წავიდნენ ნებისმიერზე. გრძელვადიანი დავალება მთელი კოდის საცავით, როგორც კონტექსტი.


გახსოვთ, როდესაც დაახლოებით ათი წლის წინ გვპირდებოდნენ ხვალ თვითმართველ მანქანებს? თვითმმართველობის მართვა მოგვარებული პრობლემაა, თქვა ელონ მასკმა, ჰიპ-მაისტერმა, 8 წლის წინ .


სანამ ჩვენ ველოდით ტესლასს, რომ დამოუკიდებლად დაიწყებდა დონატების კეთებას, ნაკლებად მომხიბვლელი მცდელობები მიმდინარეობდა. Mobileye-მ შექმნა სენსორი, რომელიც გამოსცემს სიგნალს, როდესაც რაღაცას შეგეჯახებით. მათ გადაარჩინეს უამრავი სიცოცხლე და შეამცირეს სადაზღვევო მოთხოვნები დაახლოებით 90%-ით. მათ ააშენეს $17 მილიარდი კომპანია.


მე მჯერა, რომ დოკუმენტების გაგება არის Mobileye ტექნოლოგია LLM-ებისთვის. ფინანსური ცხრილების გაგება, სადაზღვევო პრეტენზიების ცხრილების შედგენა და ექიმის ჩანაწერებიდან სამედიცინო კოდების გამოტანა მოკრძალებული ჩანს მაღალ ოცნებებთან შედარებით. მაგრამ თუ ორჯერ დააწკაპუნებთ ამ პრობლემაზე, აღმოაჩენთ, რომ ის ადრე გადაუჭრელი იყო და ის ხსნის დიდ მნიშვნელობას.

Backstory

ათი წლის წინ ვმუშაობდი LinkedIn-ის ცნობილ მონაცემთა სტანდარტიზაციის გუნდში. ჩვენ ვცდილობდით ერთი მოტყუებით მარტივი პრობლემის აღმოფხვრას: როგორ აცნობიერებთ რეზიუმეს, საიდანაც არ უნდა მოდიოდეს ის, და ასახოთ მისი სათაურები აღიარებული სათაურების მცირე ჯგუფთან?


თქვენ ფიქრობთ, რომ ეს ადვილი იქნება. ვგულისხმობ, "პროგრამული უზრუნველყოფის ინჟინერი" საკმაოდ მარტივი სათაურია, არა? მაგრამ რა მოხდება, თუ ვინმე დაწერს "ასოცირებული"? ისინი შეიძლება იყვნენ თაროების შენახვა ან ექვსნიშნა ხელფასის მიღება იურიდიულ ფირმაში. რა არის Station Hand (Aussie Cowboy), რა არის კონსულტანტი (შეიძლება ნიშნავდეს მრჩეველს/დამოუკიდებელ სპეციალისტს, მაგრამ ეს შეიძლება ნიშნავდეს ექიმს, თუ ბრიტანელი ხართ და გაქვთ შესაბამისი ცოდნა ამისთვის)? თუ თქვენ ცდილობთ სამუშაოს სათაურების მორგებას აღიარებული ელემენტების სიაში, რათა შეძლოთ ძიების, გაყიდვების და ა.შ. იყოს აღმასრულებელი, მაშინ როცა რეგიონალური მენეჯერის თანაშემწე ნამდვილად არის რეგიონული მენეჯერის მოადგილე?


კარგი, კარგია, მაგრამ თუ მე ვმუშაობ LinkedIn- ზე, დამჭირდება მონაცემთა კონკრეტული ტიპები. მე მინდა JSON .


მეტი სამუშაოა საჭირო ვაკანსიების სათაურების სტანდარტულ ტაქსონომიაში შესატანად - მისაღები წინასწარგანსაზღვრული ვაკანსიების სასრული სია. მაგრამ თქვენ ხედავთ, როგორ ხდება რაღაც, რაც წარსულში ძალიან რთული იყო.

საოფისე სამუშაო ხდება AI სათამაშო მოედანი

რეზიუმეების კითხვა კარგი გამოყენების შემთხვევაა, მაგრამ ვფიქრობ, რომ ეს არ არის რევოლუციური. LinkedIn არის ტექნოლოგიური კომპანია და ყოველთვის იყენებდა ყველაზე მკვეთრ საპარსებს ამ პრობლემის მოსაგვარებლად. ის შეიძლება გარკვეულწილად უკეთესი გახდეს, მაგრამ ჩვენ მხოლოდ ერთ კოდის ავტომატიზაციის პროცესს ვცვლით მეორეთი.


საქმეები ბევრად უფრო საინტერესო ხდება, როდესაც შეცვლით დამღლელი ხელით შრომას. ეკონომიკის გიგანტური ნაწილი ეფუძნება ადამიანებს, რომლებიც ასრულებენ საექსპერტო დავალებებს, რომლებიც მთავრდება „დოკუმენტის წაკითხვაზე, იმის გარკვევაზე, თუ რას ამბობს იგი და იმეორებენ ამ პროცესს და გულისრევას“.


ნება მომეცით მოგაწოდოთ რამდენიმე მაგალითი:

  • ხარჯების მართვა: თქვენ გაქვთ ინვოისი და ვინმემ უნდა გადააქციოს ის ნომრების სიაში — რა გადაიხადეს, ვის და რა ვალუტაში. ადვილად ჟღერს? არა მაშინ, როდესაც ის არის ჩაფლული დამატებითი ინფორმაციის არეულობაში, არასრული ცხრილების ან PDF-ების სახით, რომლებიც თითქოს ვიღაცამ ბლენდერში გაუშვა.


  • ჯანდაცვის პრეტენზიების დამუშავება: ეს არის კოშმარი, რომელიც მოგვარებულია ჯანდაცვის პრეტენზიების განმხილველთა არმიის მიერ. ისინი ათვალიერებენ ანგარიშ-ფაქტურების, კლინიკის შენიშვნებისა და ინვოისების მთებს, რომლებიც ყველა უნდა გაერთიანდეს დუბლიკატებთან ერთად, და უნდა დააკავშირონ იგი არსებულ ჯანმრთელობის დაზღვევის პოლისთან და გაარკვიონ, დაფარულია თუ არა გადასახადი, რომელ კატეგორიაში და რა ოდენობით. მაგრამ როდესაც საქმეს მიიღებთ, ეს ძირითადად მხოლოდ კითხვაა, დახარისხება და მარკირება. გადაწყვეტილებები არ არის რთული; ეს არის მონაცემების მოპოვება, რაც გამოწვევაა.


  • სესხის აღება: ვინმეს საბანკო ანგარიშების გადახედვა და მათი ფულადი ნაკადების კატეგორიზაცია. ისევ და ისევ, ეს უფრო მეტად ეხება არასტრუქტურირებული ინფორმაციის სტრუქტურირებას, ვიდრე სარაკეტო მეცნიერებას.


გლამურული? არა. სასარგებლოა? მე ასე მგონია.

დოკუმენტის ამოღება დასაბუთებული ამოცანაა

ამ დროისთვის, LLM-ები ცნობილია ჰალუცინაციებით - ეს არის სისულელეების გამოგონება. მაგრამ რეალობა უფრო ნიუანსია: ჰალუცინაციები მოსალოდნელია, როცა მსოფლიო ცოდნას ითხოვ, მაგრამ ძირითადად აღმოიფხვრება დასაბუთებული დავალების დროს.


LLM-ები არ არიან განსაკუთრებით კარგად შეაფასონ ის, რაც მათ "იცოდნენ" - ეს უფრო იღბლიანი გვერდითი პროდუქტია, რომ მათ ამის გაკეთება საერთოდ შეუძლიათ, რადგან არ იყვნენ მკაფიოდ მომზადებული ამისთვის. მათი ძირითადი ტრენინგია ტექსტის თანმიმდევრობის წინასწარმეტყველება და დასრულება. თუმცა, როდესაც LLM-ს ეძლევა დასაბუთებული დავალება - ის, სადაც პროგნოზის გასაკეთებლად საჭიროა მხოლოდ მისთვის მკაფიოდ მიცემული შეყვანა, ჰალუცინაციების სიხშირე შეიძლება ძირითადად ნულამდე დაიყვანოთ. მაგალითად, თუ ამ ბლოგ პოსტს ჩასვით ChatGPT-ში და ჰკითხავთ, განმარტავს თუ არა, როგორ იზრუნოთ თქვენს შინაურ ცხოველზე, მოდელი მოგცემთ სწორ პასუხს 100% შემთხვევაში. ამოცანა ხდება პროგნოზირებადი. LLM-ები ოსტატურად ამუშავებენ ტექსტის ნაწილს და იწინასწარმეტყველებენ, თუ როგორ შეავსებს კომპეტენტური ანალიტიკოსი ცარიელ ადგილებს, რომელთაგან ერთ-ერთი შეიძლება იყოს {“ferret care განხილული”: false}.


როგორც ხელოვნური ინტელექტის ყოფილი კონსულტანტი, ჩვენ ვმუშაობდით პროექტებზე, რომლებიც ორიენტირებულია დოკუმენტებიდან ინფორმაციის მოპოვებაზე, განსაკუთრებით ისეთ ინდუსტრიებში, როგორიცაა დაზღვევა და ფინანსები. გავრცელებული შიში იყო "LLMs ჰალუცინაცია", მაგრამ პრაქტიკაში, ყველაზე დიდი გამოწვევები ხშირად გამოწვეული იყო ცხრილების ამოღებაში შეცდომით ან სხვა შეყვანის შეუსაბამობებით. LLM-ები მხოლოდ მაშინ მარცხდებიან, როდესაც ჩვენ ვერ ვაძლევთ მათ სუფთა, ცალსახა შეყვანას. არსებობს ორი ძირითადი კომპონენტი. დოკუმენტების დამუშავების წარმატებით ავტომატიზაცია:


  1. სრულყოფილი ტექსტის ამოღება – ეს გულისხმობს დოკუმენტის გადაქცევას სუფთა, მანქანით წასაკითხ ტექსტად, ცხრილების, ხელნაწერი ჩანაწერების ან მრავალფეროვანი განლაგების ჩათვლით. LLM-ს სჭირდება მკაფიო, გასაგები ტექსტი სამუშაოდ.


  2. მძლავრი სქემები – ამ სქემებმა უნდა განსაზღვრონ, თუ რა გამოსავალს ეძებთ, როგორ უნდა დამუშავდეს კიდეები და მონაცემთა ფორმატი, რათა სისტემამ ზუსტად იცოდეს, რა უნდა ამოიღოს თითოეული ტიპის დოკუმენტიდან.


ჰალუცინაციის პოტენციურ რისკებსა და რეალურ ტექნიკურ დაბრკოლებებს შორის უფსკრული შეიძლება იყოს დიდი, მაგრამ ამ საფუძვლების გათვალისწინებით, თქვენ შეგიძლიათ ეფექტურად გამოიყენოთ LLM-ები დოკუმენტების დამუშავების სამუშაო პროცესებში.


ტექსტის ამოღება უფრო რთულია, ვიდრე თავიდან ჩანს

აი, რა იწვევს LLM-ების ავარიას და დაწვას და სასაცილოდ ცუდი შედეგების მიღებას:

  1. შეყვანას აქვს რთული ფორმატირება, როგორიცაა ორსვეტიანი განლაგება, და თქვენ კოპირებთ და ჩასვით ტექსტს, მაგალითად, PDF-დან მარცხნიდან მარჯვნივ, წინადადებებს მთლიანად კონტექსტიდან ამოგდებთ.
  2. შენატანს აქვს მოსანიშნი ველები, მონიშვნები, ხელით დაწერილი ანოტაციები და თქვენ საერთოდ გამოგრჩათ ისინი ტექსტად გადაყვანისას
  3. კიდევ უფრო უარესი: ფიქრობდით, რომ შეგეძლოთ ტექსტად გადაქცევა და იმედი გქონდეთ, რომ უბრალოდ ჩასვით დოკუმენტის სურათი და გქონდეთ GPT მიზეზი ამის შესახებ. ეს მიგიყვანთ ჰალუცინაციების ქალაქში. უბრალოდ სთხოვეთ GPT-ს, გადაწეროს ცხრილის გამოსახულება რამდენიმე ცარიელი უჯრედით და დაინახავთ, რომ ის სიამოვნებით აპეშტირდება და ნებაყოფლობით აყალიბებს რაღაცეებს.


ყოველთვის გვეხმარება გავიხსენოთ რა გიჟური არეულობა ხდება რეალურ სამყაროში არსებულ დოკუმენტებში. აქ არის შემთხვევითი საგადასახადო ფორმა:

წყარო: ჩვენი მეგობრული გადასახადების ამკრეფი აშშ-ს მთავრობაში


რა თქმა უნდა, რეალურ საგადასახადო ფორმებში ყველა ეს ველი შევსებულია, ხშირად ხელნაწერით


ან აქ არის ჩემი რეზიუმე

წყარო: მე


ან საჯაროდ ხელმისაწვდომი მაგალითი ლაბორატორიის ანგარიში (ეს არის Google-ის წინა გვერდის შედეგი)



წყარო: კვლევის კარიბჭე, საჯარო დომენის სურათი


აბსოლუტური ყველაზე ცუდი რამ, რისი გაკეთებაც შეგიძლიათ, სხვათა შორის, არის სთხოვოთ GPT-ის მულტიმოდალურ შესაძლებლობებს ცხრილის გადაწერა. სცადეთ, თუ გაბედავთ - ეს ერთი შეხედვით სწორად გამოიყურება, აბსოლუტურად შემთხვევით აყალიბებს ცხრილის ზოგიერთ უჯრედს, აშორებს ყველაფერს კონტექსტიდან და ა.შ.

თუ სამყაროში რაღაც არასწორია, შექმენით SaaS კომპანია ამის გამოსასწორებლად

როდესაც დავავალეთ ამ სახის დოკუმენტების გაგება, მე და ჩემს თანადამფუძნებელს, ნიტაი დინს, გაკვირვებულები ვიყავით, რომ არ არსებობდა თაროზე არსებული გადაწყვეტილებები ამ ტექსტების გაგებისთვის.


ზოგიერთი ადამიანი ამტკიცებს მის გადაჭრას, როგორიცაა AWS ტექსტი. მაგრამ ისინი უშვებენ უამრავ შეცდომას ნებისმიერ რთულ დოკუმენტზე, რომელზეც ჩვენ გამოვცადეთ. შემდეგ თქვენ გაქვთ პატარა საჭირო ნივთების გრძელი კუდი, როგორიცაა საკონტროლო ნიშნების ამოცნობა, რადიო ღილაკი, გადახაზული ტექსტი, ხელნაწერი ჩანაწერები ფორმაზე და ა.შ.


ასე რომ, ჩვენ ავაშენეთ Docupanda.io – რომელიც პირველ რიგში წარმოქმნის ნებისმიერი გვერდის სუფთა ტექსტურ წარმოდგენას, რომელსაც თქვენ მას უყრით. მარცხენა მხარეს ნახავთ ორიგინალურ დოკუმენტს, ხოლო მარჯვნივ შეგიძლიათ იხილოთ ტექსტის გამომავალი.


წყარო: docupanda.io


მაგიდები ასევე დამუშავებულია. თავსახურის ქვეშ, ჩვენ უბრალოდ გადავიყვანთ ცხრილებს ადამიანის და LLM-კითხვადი ნიშნის ფორმატში:

წყარო: docupanda.io


LLM-ებით მონაცემების გაგების ბოლო ნაწილი არის ხისტი გამომავალი ფორმატების გენერირება და დაცვა. მშვენიერია, რომ ჩვენ შეგვიძლია AI-ის გამომავალი JSON-ად ჩამოყალიბება, მაგრამ მონაცემების წესების, მსჯელობის, მოთხოვნების და ა.შ. - ჩვენ უნდა ვაიძულებთ მას რეგულარულად მოიქცეს. მონაცემები უნდა შეესაბამებოდეს სლოტების წინასწარ განსაზღვრულ კომპლექტს, რომელსაც ჩვენ შევავსებთ შინაარსით. მონაცემთა სამყაროში ჩვენ ამას ვეძახით სქემას .

სქემების აგება არის საცდელი და შეცდომის პროცესი… რაც LLM-ს შეუძლია

მიზეზი, რის გამოც ჩვენ გვჭირდება სქემა არის ის, რომ მონაცემები უსარგებლოა კანონზომიერების გარეშე. თუ ჩვენ ვამუშავებთ პაციენტის ჩანაწერებს და ისინი ასახავს „მამაკაცს“, „მამაკაცს“ „მ“ და „M“ - ჩვენ საშინელ საქმეს ვაკეთებთ.


ასე რომ, როგორ ავაშენოთ სქემა? სახელმძღვანელოში, თქვენ შეგიძლიათ შექმნათ სქემა დიდხანს და ძლიერად ჯდომით, კედელზე მიყურებით და განსაზღვრით, რისი ამოღება გსურთ. თქვენ ზიხართ იქ, განიხილავთ თქვენი ჯანდაცვის მონაცემების ოპერაციას და მიდიხართ: „მინდა ამოვიწერო პაციენტის სახელი, თარიღი, სქესი და მათი ექიმის სახელი. ოჰ, და სქესი უნდა იყოს M/F/Other.”


რეალურ ცხოვრებაში, იმის დასადგენად, თუ რა უნდა ამოიღოთ დოკუმენტებიდან, თქვენ შეშლილად უყურებთ თქვენს დოკუმენტებს… ბევრი. თქვენ იწყებთ ზემოაღნიშნულის მსგავსით, მაგრამ შემდეგ უყურებთ დოკუმენტებს და ხედავთ, რომ ერთ-ერთ მათგანს აქვს ექიმების სია ერთის ნაცვლად. და ზოგიერთ მათგანში ასევე მითითებულია მისამართი ექიმებისთვის. ზოგიერთ მისამართს აქვს ერთეულის ნომერი და შენობის ნომერი, ამიტომ შესაძლოა დაგჭირდეთ ამისთვის სლოტი. გრძელდება და გრძელდება.


რაც ჩვენ მივხვდით არის ის, რომ იმის შესაძლებლობა, რომ ზუსტად განვსაზღვროთ, რა არის ის, რისი ამოღებაც გსურთ, არის როგორც არა ტრივიალური, ასევე რთული და ძალიან მოგვარებადი ხელოვნური ინტელექტის საშუალებით.


ეს არის DocuPanda-ს მთავარი ნაწილი. იმის ნაცვლად, რომ უბრალოდ ვთხოვოთ LLM-ს, გამოსულიყო ყველა დოკუმენტისთვის, ჩვენ შევქმენით მექანიზმი, რომელიც საშუალებას გაძლევთ:


  1. მიუთითეთ რა უნდა მიიღოთ დოკუმენტიდან თავისუფალ ენაზე
  2. გქონდეთ ჩვენი ხელოვნური ინტელექტის რუკა ბევრ დოკუმენტზე და გაარკვიეთ სქემა, რომელიც პასუხობს ყველა კითხვას და ასახავს ფაქტობრივ დოკუმენტებში დაფიქსირებულ ნაკლოვანებებსა და დარღვევებს.
  3. შეცვალეთ სქემა გამოხმაურებით, რათა დააკორექტიროთ იგი თქვენი ბიზნესის საჭიროებებზე


ის, რასაც საბოლოოდ ასრულებთ არის ძლიერი JSON სქემა - შაბლონი, რომელიც ამბობს ზუსტად იმას, რისი ამოღებაც გსურთ თითოეული დოკუმენტიდან და ასახავს ასობით ათას მათგანს, ამოიღებს პასუხებს ყველა მათგანზე, ხოლო ემორჩილება წესებს, როგორიცაა ყოველთვის თარიღების ამოღება დოკუმენტში. იგივე ფორმატი, წინასწარ განსაზღვრული კატეგორიების სიმრავლის დაცვა და ა.შ.

წყარო: docupanda.io

კიდევ ბევრი!

როგორც ნებისმიერი კურდღლის ხვრელში, ყოველთვის უფრო მეტი ნივთია, ვიდრე პირველად ჩანს. რაც დრო გადიოდა, ჩვენ აღმოვაჩინეთ, რომ მეტი რამ არის საჭირო:

  • ხშირად ორგანიზაციებს უწევთ საქმე ანონიმური დოკუმენტების შემომავალ ნაკადთან, ამიტომ ჩვენ ავტომატურად ვახდენთ მათ კლასიფიკაციას და ვწყვეტთ, რა სქემა მივმართოთ მათ.

  • დოკუმენტები ზოგჯერ მრავალი დოკუმენტის ერთობლიობაა და თქვენ გჭირდებათ ინტელექტუალური გადაწყვეტა, რათა დაშალოთ ძალიან გრძელი დოკუმენტები მის ატომურ, ცალკეულ კომპონენტებად.

  • გენერირებული შედეგების გამოყენებით სწორი დოკუმენტების მოთხოვნა ძალიან სასარგებლოა


თუ ამ პოსტიდან არის ერთი უპირატესობა, ეს არის ის, რომ თქვენ უნდა გაითვალისწინოთ LLM-ების გამოყენება, რათა რეგულარულად გაითვალისწინოთ დოკუმენტები. თუ არსებობს ორი გამოსავალი, ეს არის ის, რომ თქვენ ასევე უნდა სცადოთ Docupanda.io . მისი აშენების მიზეზი არის ის, რომ მე მჯერა მისი. იქნებ ეს საკმარისად კარგი მიზეზია მის გასაშვებად?


მომავალი ოფისის თანამშრომელი (წყარო: unsplash.com)