როდესაც რაიმე ახალი ტექნოლოგია გამოჩნდება, ის ჰიპერბოლაში იძირება. ჩემი Twitter სავსეა „ინფლუენსერებით“, რომლებიც აცხადებენ, რომ შექმნეს სრული ვებსაიტი ერთი მოწოდებით, მაგრამ ვინც იქ ცდილობს შექმნას ვებსაიტები, იცის, რომ ისინი ამჟამად საკმარისად კარგია იმისთვის, რომ განახორციელონ მცირე ფუნქციები და შორს წავიდნენ ნებისმიერზე. გრძელვადიანი დავალება მთელი კოდის საცავით, როგორც კონტექსტი.
გახსოვთ, როდესაც დაახლოებით ათი წლის წინ გვპირდებოდნენ ხვალ თვითმართველ მანქანებს? თვითმმართველობის მართვა მოგვარებული პრობლემაა, თქვა ელონ მასკმა, ჰიპ-მაისტერმა, 8 წლის წინ .
სანამ ჩვენ ველოდით ტესლასს, რომ დამოუკიდებლად დაიწყებდა დონატების კეთებას, ნაკლებად მომხიბვლელი მცდელობები მიმდინარეობდა. Mobileye-მ შექმნა სენსორი, რომელიც გამოსცემს სიგნალს, როდესაც რაღაცას შეგეჯახებით. მათ გადაარჩინეს უამრავი სიცოცხლე და შეამცირეს სადაზღვევო მოთხოვნები დაახლოებით 90%-ით. მათ ააშენეს $17 მილიარდი კომპანია.
მე მჯერა, რომ დოკუმენტების გაგება არის Mobileye ტექნოლოგია LLM-ებისთვის. ფინანსური ცხრილების გაგება, სადაზღვევო პრეტენზიების ცხრილების შედგენა და ექიმის ჩანაწერებიდან სამედიცინო კოდების გამოტანა მოკრძალებული ჩანს მაღალ ოცნებებთან შედარებით. მაგრამ თუ ორჯერ დააწკაპუნებთ ამ პრობლემაზე, აღმოაჩენთ, რომ ის ადრე გადაუჭრელი იყო და ის ხსნის დიდ მნიშვნელობას.
ათი წლის წინ ვმუშაობდი LinkedIn-ის ცნობილ მონაცემთა სტანდარტიზაციის გუნდში. ჩვენ ვცდილობდით ერთი მოტყუებით მარტივი პრობლემის აღმოფხვრას: როგორ აცნობიერებთ რეზიუმეს, საიდანაც არ უნდა მოდიოდეს ის, და ასახოთ მისი სათაურები აღიარებული სათაურების მცირე ჯგუფთან?
თქვენ ფიქრობთ, რომ ეს ადვილი იქნება. ვგულისხმობ, "პროგრამული უზრუნველყოფის ინჟინერი" საკმაოდ მარტივი სათაურია, არა? მაგრამ რა მოხდება, თუ ვინმე დაწერს "ასოცირებული"? ისინი შეიძლება იყვნენ თაროების შენახვა ან ექვსნიშნა ხელფასის მიღება იურიდიულ ფირმაში. რა არის Station Hand (Aussie Cowboy), რა არის კონსულტანტი (შეიძლება ნიშნავდეს მრჩეველს/დამოუკიდებელ სპეციალისტს, მაგრამ ეს შეიძლება ნიშნავდეს ექიმს, თუ ბრიტანელი ხართ და გაქვთ შესაბამისი ცოდნა ამისთვის)? თუ თქვენ ცდილობთ სამუშაოს სათაურების მორგებას აღიარებული ელემენტების სიაში, რათა შეძლოთ ძიების, გაყიდვების და ა.შ. იყოს აღმასრულებელი, მაშინ როცა რეგიონალური მენეჯერის თანაშემწე ნამდვილად არის რეგიონული მენეჯერის მოადგილე?
კარგი, კარგია, მაგრამ თუ მე ვმუშაობ LinkedIn- ზე, დამჭირდება მონაცემთა კონკრეტული ტიპები. მე მინდა JSON .
მეტი სამუშაოა საჭირო ვაკანსიების სათაურების სტანდარტულ ტაქსონომიაში შესატანად - მისაღები წინასწარგანსაზღვრული ვაკანსიების სასრული სია. მაგრამ თქვენ ხედავთ, როგორ ხდება რაღაც, რაც წარსულში ძალიან რთული იყო.
რეზიუმეების კითხვა კარგი გამოყენების შემთხვევაა, მაგრამ ვფიქრობ, რომ ეს არ არის რევოლუციური. LinkedIn არის ტექნოლოგიური კომპანია და ყოველთვის იყენებდა ყველაზე მკვეთრ საპარსებს ამ პრობლემის მოსაგვარებლად. ის შეიძლება გარკვეულწილად უკეთესი გახდეს, მაგრამ ჩვენ მხოლოდ ერთ კოდის ავტომატიზაციის პროცესს ვცვლით მეორეთი.
საქმეები ბევრად უფრო საინტერესო ხდება, როდესაც შეცვლით დამღლელი ხელით შრომას. ეკონომიკის გიგანტური ნაწილი ეფუძნება ადამიანებს, რომლებიც ასრულებენ საექსპერტო დავალებებს, რომლებიც მთავრდება „დოკუმენტის წაკითხვაზე, იმის გარკვევაზე, თუ რას ამბობს იგი და იმეორებენ ამ პროცესს და გულისრევას“.
ნება მომეცით მოგაწოდოთ რამდენიმე მაგალითი:
ხარჯების მართვა: თქვენ გაქვთ ინვოისი და ვინმემ უნდა გადააქციოს ის ნომრების სიაში — რა გადაიხადეს, ვის და რა ვალუტაში. ადვილად ჟღერს? არა მაშინ, როდესაც ის არის ჩაფლული დამატებითი ინფორმაციის არეულობაში, არასრული ცხრილების ან PDF-ების სახით, რომლებიც თითქოს ვიღაცამ ბლენდერში გაუშვა.
ჯანდაცვის პრეტენზიების დამუშავება: ეს არის კოშმარი, რომელიც მოგვარებულია ჯანდაცვის პრეტენზიების განმხილველთა არმიის მიერ. ისინი ათვალიერებენ ანგარიშ-ფაქტურების, კლინიკის შენიშვნებისა და ინვოისების მთებს, რომლებიც ყველა უნდა გაერთიანდეს დუბლიკატებთან ერთად, და უნდა დააკავშირონ იგი არსებულ ჯანმრთელობის დაზღვევის პოლისთან და გაარკვიონ, დაფარულია თუ არა გადასახადი, რომელ კატეგორიაში და რა ოდენობით. მაგრამ როდესაც საქმეს მიიღებთ, ეს ძირითადად მხოლოდ კითხვაა, დახარისხება და მარკირება. გადაწყვეტილებები არ არის რთული; ეს არის მონაცემების მოპოვება, რაც გამოწვევაა.
სესხის აღება: ვინმეს საბანკო ანგარიშების გადახედვა და მათი ფულადი ნაკადების კატეგორიზაცია. ისევ და ისევ, ეს უფრო მეტად ეხება არასტრუქტურირებული ინფორმაციის სტრუქტურირებას, ვიდრე სარაკეტო მეცნიერებას.
გლამურული? არა. სასარგებლოა? მე ასე მგონია.
ამ დროისთვის, LLM-ები ცნობილია ჰალუცინაციებით - ეს არის სისულელეების გამოგონება. მაგრამ რეალობა უფრო ნიუანსია: ჰალუცინაციები მოსალოდნელია, როცა მსოფლიო ცოდნას ითხოვ, მაგრამ ძირითადად აღმოიფხვრება დასაბუთებული დავალების დროს.
LLM-ები არ არიან განსაკუთრებით კარგად შეაფასონ ის, რაც მათ "იცოდნენ" - ეს უფრო იღბლიანი გვერდითი პროდუქტია, რომ მათ ამის გაკეთება საერთოდ შეუძლიათ, რადგან არ იყვნენ მკაფიოდ მომზადებული ამისთვის. მათი ძირითადი ტრენინგია ტექსტის თანმიმდევრობის წინასწარმეტყველება და დასრულება. თუმცა, როდესაც LLM-ს ეძლევა დასაბუთებული დავალება - ის, სადაც პროგნოზის გასაკეთებლად საჭიროა მხოლოდ მისთვის მკაფიოდ მიცემული შეყვანა, ჰალუცინაციების სიხშირე შეიძლება ძირითადად ნულამდე დაიყვანოთ. მაგალითად, თუ ამ ბლოგ პოსტს ჩასვით ChatGPT-ში და ჰკითხავთ, განმარტავს თუ არა, როგორ იზრუნოთ თქვენს შინაურ ცხოველზე, მოდელი მოგცემთ სწორ პასუხს 100% შემთხვევაში. ამოცანა ხდება პროგნოზირებადი. LLM-ები ოსტატურად ამუშავებენ ტექსტის ნაწილს და იწინასწარმეტყველებენ, თუ როგორ შეავსებს კომპეტენტური ანალიტიკოსი ცარიელ ადგილებს, რომელთაგან ერთ-ერთი შეიძლება იყოს {“ferret care განხილული”: false}.
როგორც ხელოვნური ინტელექტის ყოფილი კონსულტანტი, ჩვენ ვმუშაობდით პროექტებზე, რომლებიც ორიენტირებულია დოკუმენტებიდან ინფორმაციის მოპოვებაზე, განსაკუთრებით ისეთ ინდუსტრიებში, როგორიცაა დაზღვევა და ფინანსები. გავრცელებული შიში იყო "LLMs ჰალუცინაცია", მაგრამ პრაქტიკაში, ყველაზე დიდი გამოწვევები ხშირად გამოწვეული იყო ცხრილების ამოღებაში შეცდომით ან სხვა შეყვანის შეუსაბამობებით. LLM-ები მხოლოდ მაშინ მარცხდებიან, როდესაც ჩვენ ვერ ვაძლევთ მათ სუფთა, ცალსახა შეყვანას. არსებობს ორი ძირითადი კომპონენტი. დოკუმენტების დამუშავების წარმატებით ავტომატიზაცია:
სრულყოფილი ტექსტის ამოღება – ეს გულისხმობს დოკუმენტის გადაქცევას სუფთა, მანქანით წასაკითხ ტექსტად, ცხრილების, ხელნაწერი ჩანაწერების ან მრავალფეროვანი განლაგების ჩათვლით. LLM-ს სჭირდება მკაფიო, გასაგები ტექსტი სამუშაოდ.
მძლავრი სქემები – ამ სქემებმა უნდა განსაზღვრონ, თუ რა გამოსავალს ეძებთ, როგორ უნდა დამუშავდეს კიდეები და მონაცემთა ფორმატი, რათა სისტემამ ზუსტად იცოდეს, რა უნდა ამოიღოს თითოეული ტიპის დოკუმენტიდან.
ჰალუცინაციის პოტენციურ რისკებსა და რეალურ ტექნიკურ დაბრკოლებებს შორის უფსკრული შეიძლება იყოს დიდი, მაგრამ ამ საფუძვლების გათვალისწინებით, თქვენ შეგიძლიათ ეფექტურად გამოიყენოთ LLM-ები დოკუმენტების დამუშავების სამუშაო პროცესებში.
აი, რა იწვევს LLM-ების ავარიას და დაწვას და სასაცილოდ ცუდი შედეგების მიღებას:
ყოველთვის გვეხმარება გავიხსენოთ რა გიჟური არეულობა ხდება რეალურ სამყაროში არსებულ დოკუმენტებში. აქ არის შემთხვევითი საგადასახადო ფორმა:
რა თქმა უნდა, რეალურ საგადასახადო ფორმებში ყველა ეს ველი შევსებულია, ხშირად ხელნაწერით
ან აქ არის ჩემი რეზიუმე
ან საჯაროდ ხელმისაწვდომი მაგალითი ლაბორატორიის ანგარიში (ეს არის Google-ის წინა გვერდის შედეგი)
აბსოლუტური ყველაზე ცუდი რამ, რისი გაკეთებაც შეგიძლიათ, სხვათა შორის, არის სთხოვოთ GPT-ის მულტიმოდალურ შესაძლებლობებს ცხრილის გადაწერა. სცადეთ, თუ გაბედავთ - ეს ერთი შეხედვით სწორად გამოიყურება, აბსოლუტურად შემთხვევით აყალიბებს ცხრილის ზოგიერთ უჯრედს, აშორებს ყველაფერს კონტექსტიდან და ა.შ.
როდესაც დავავალეთ ამ სახის დოკუმენტების გაგება, მე და ჩემს თანადამფუძნებელს, ნიტაი დინს, გაკვირვებულები ვიყავით, რომ არ არსებობდა თაროზე არსებული გადაწყვეტილებები ამ ტექსტების გაგებისთვის.
ზოგიერთი ადამიანი ამტკიცებს მის გადაჭრას, როგორიცაა AWS ტექსტი. მაგრამ ისინი უშვებენ უამრავ შეცდომას ნებისმიერ რთულ დოკუმენტზე, რომელზეც ჩვენ გამოვცადეთ. შემდეგ თქვენ გაქვთ პატარა საჭირო ნივთების გრძელი კუდი, როგორიცაა საკონტროლო ნიშნების ამოცნობა, რადიო ღილაკი, გადახაზული ტექსტი, ხელნაწერი ჩანაწერები ფორმაზე და ა.შ.
ასე რომ, ჩვენ ავაშენეთ Docupanda.io – რომელიც პირველ რიგში წარმოქმნის ნებისმიერი გვერდის სუფთა ტექსტურ წარმოდგენას, რომელსაც თქვენ მას უყრით. მარცხენა მხარეს ნახავთ ორიგინალურ დოკუმენტს, ხოლო მარჯვნივ შეგიძლიათ იხილოთ ტექსტის გამომავალი.
მაგიდები ასევე დამუშავებულია. თავსახურის ქვეშ, ჩვენ უბრალოდ გადავიყვანთ ცხრილებს ადამიანის და LLM-კითხვადი ნიშნის ფორმატში:
LLM-ებით მონაცემების გაგების ბოლო ნაწილი არის ხისტი გამომავალი ფორმატების გენერირება და დაცვა. მშვენიერია, რომ ჩვენ შეგვიძლია AI-ის გამომავალი JSON-ად ჩამოყალიბება, მაგრამ მონაცემების წესების, მსჯელობის, მოთხოვნების და ა.შ. - ჩვენ უნდა ვაიძულებთ მას რეგულარულად მოიქცეს. მონაცემები უნდა შეესაბამებოდეს სლოტების წინასწარ განსაზღვრულ კომპლექტს, რომელსაც ჩვენ შევავსებთ შინაარსით. მონაცემთა სამყაროში ჩვენ ამას ვეძახით სქემას .
მიზეზი, რის გამოც ჩვენ გვჭირდება სქემა არის ის, რომ მონაცემები უსარგებლოა კანონზომიერების გარეშე. თუ ჩვენ ვამუშავებთ პაციენტის ჩანაწერებს და ისინი ასახავს „მამაკაცს“, „მამაკაცს“ „მ“ და „M“ - ჩვენ საშინელ საქმეს ვაკეთებთ.
ასე რომ, როგორ ავაშენოთ სქემა? სახელმძღვანელოში, თქვენ შეგიძლიათ შექმნათ სქემა დიდხანს და ძლიერად ჯდომით, კედელზე მიყურებით და განსაზღვრით, რისი ამოღება გსურთ. თქვენ ზიხართ იქ, განიხილავთ თქვენი ჯანდაცვის მონაცემების ოპერაციას და მიდიხართ: „მინდა ამოვიწერო პაციენტის სახელი, თარიღი, სქესი და მათი ექიმის სახელი. ოჰ, და სქესი უნდა იყოს M/F/Other.”
რეალურ ცხოვრებაში, იმის დასადგენად, თუ რა უნდა ამოიღოთ დოკუმენტებიდან, თქვენ შეშლილად უყურებთ თქვენს დოკუმენტებს… ბევრი. თქვენ იწყებთ ზემოაღნიშნულის მსგავსით, მაგრამ შემდეგ უყურებთ დოკუმენტებს და ხედავთ, რომ ერთ-ერთ მათგანს აქვს ექიმების სია ერთის ნაცვლად. და ზოგიერთ მათგანში ასევე მითითებულია მისამართი ექიმებისთვის. ზოგიერთ მისამართს აქვს ერთეულის ნომერი და შენობის ნომერი, ამიტომ შესაძლოა დაგჭირდეთ ამისთვის სლოტი. გრძელდება და გრძელდება.
რაც ჩვენ მივხვდით არის ის, რომ იმის შესაძლებლობა, რომ ზუსტად განვსაზღვროთ, რა არის ის, რისი ამოღებაც გსურთ, არის როგორც არა ტრივიალური, ასევე რთული და ძალიან მოგვარებადი ხელოვნური ინტელექტის საშუალებით.
ეს არის DocuPanda-ს მთავარი ნაწილი. იმის ნაცვლად, რომ უბრალოდ ვთხოვოთ LLM-ს, გამოსულიყო ყველა დოკუმენტისთვის, ჩვენ შევქმენით მექანიზმი, რომელიც საშუალებას გაძლევთ:
ის, რასაც საბოლოოდ ასრულებთ არის ძლიერი JSON სქემა - შაბლონი, რომელიც ამბობს ზუსტად იმას, რისი ამოღებაც გსურთ თითოეული დოკუმენტიდან და ასახავს ასობით ათას მათგანს, ამოიღებს პასუხებს ყველა მათგანზე, ხოლო ემორჩილება წესებს, როგორიცაა ყოველთვის თარიღების ამოღება დოკუმენტში. იგივე ფორმატი, წინასწარ განსაზღვრული კატეგორიების სიმრავლის დაცვა და ა.შ.
როგორც ნებისმიერი კურდღლის ხვრელში, ყოველთვის უფრო მეტი ნივთია, ვიდრე პირველად ჩანს. რაც დრო გადიოდა, ჩვენ აღმოვაჩინეთ, რომ მეტი რამ არის საჭირო:
ხშირად ორგანიზაციებს უწევთ საქმე ანონიმური დოკუმენტების შემომავალ ნაკადთან, ამიტომ ჩვენ ავტომატურად ვახდენთ მათ კლასიფიკაციას და ვწყვეტთ, რა სქემა მივმართოთ მათ.
დოკუმენტები ზოგჯერ მრავალი დოკუმენტის ერთობლიობაა და თქვენ გჭირდებათ ინტელექტუალური გადაწყვეტა, რათა დაშალოთ ძალიან გრძელი დოკუმენტები მის ატომურ, ცალკეულ კომპონენტებად.
გენერირებული შედეგების გამოყენებით სწორი დოკუმენტების მოთხოვნა ძალიან სასარგებლოა
თუ ამ პოსტიდან არის ერთი უპირატესობა, ეს არის ის, რომ თქვენ უნდა გაითვალისწინოთ LLM-ების გამოყენება, რათა რეგულარულად გაითვალისწინოთ დოკუმენტები. თუ არსებობს ორი გამოსავალი, ეს არის ის, რომ თქვენ ასევე უნდა სცადოთ Docupanda.io . მისი აშენების მიზეზი არის ის, რომ მე მჯერა მისი. იქნებ ეს საკმარისად კარგი მიზეზია მის გასაშვებად?