Moving from theory to a tangible, working system that turns AI mistakes into high-quality training data. Në të Ne kemi folur për mes të çrregullt të zhvillimit të AI-së, që është hendeku frustrues midis një prototipi 85% premtues dhe një sistemi 99% i gatshëm për prodhim. Pjesa e parë e kësaj serie Sot, ne do të marrim duart tona të pista dhe të ndërtojmë një aplikacion të thjeshtë, që punon web që demonstrojnë qarkun e thelbit të një fluturimi të të dhënave.Në fund të këtij artikulli, ju do të keni korrigjuar gabimin e një AI dhe do të keni gjeneruar një grup të dhënash të përsosur, të gatshëm për t'u përshtatur nga puna juaj. Ne do të përdorim shembull nga korniza jonë e hapur, Ky shembull është i pavarur, nuk kërkon shërbime të jashtme si Docker ose Redis, dhe dëshmon se sa i fuqishëm mund të jetë modeli kryesor. correction_deck_quickstart fonde fonde Scenariumi: Një faturë e gabuar AI Imagjinoni se kemi ndërtuar një AI për të nxjerrë të dhëna të strukturuara nga faturat. Ne e ushqejmë atë me një imazh të një faturë, dhe duam që ajo të kthejë një objekt JSON të pastër. Në kalimin e saj të parë, AI bën një punë të mirë, por nuk është e përsosur. { "supplier_name": "Lone Star Provisins Inc.", // <-- TYPO! "invoice_number": "785670", "invoice_date": "2025-08-20", "inventory_items": [ { "item_name": "TAVERN HAM WH", "total_quantity": 15.82, "total_unit": "LB", "total_cost": 87.80 }, { "item_name": "ONIONS YELLOW JBO", "total_quantity": 5, // <-- WRONG QUANTITY! Should be 50. "total_unit": "LB", "total_cost": 35.50 } ] } Qëllimi ynë është të ndërtojmë një sistem që lejon një njeri të rregullojë me lehtësi këto dy gabime dhe, më e rëndësishmja, të kapë këto rregulla për ri-trajnim. Tre komponentët kryesorë të Flywheel tonë Për të ndërtuar këtë, korniza jonë Foundry mbështetet në tre abstraksione të thjeshta por të fuqishme Python: Është një model i bazës së të dhënave që përfaqëson një njësi të vetme të punës për AI. Ajo mban input_data (imazhin e faturës), initial_ai_output (JSON e gabuar më sipër), dhe një vend për të ruajtur corrected_output pasi një njeri e ka rregulluar atë. CorrectionRecord: Kjo është bileta e artë. Kur një njeri ruan korrigjimin e tyre, ne nuk e përditësojmë vetëm punën. Ne krijojmë një korrigjim të veçantë, të vetë-mbajtur. Ky rekord është ndërtuar me qëllim për përshtatje të hollë. Ajo ruan një kopje të pastër të hyrjes origjinale, përpjekjen e keqe të AI-së dhe korrigjimin e "të vërtetës së tokës" të njeriut. Është një shembull i përsosur, i lëvizshëm i trajnimit. CorrectionHandler: Kjo është logjika e biznesit. është një klasë e thjeshtë që orkestron procesin: merr të dhënat e formularit të dorëzuar nga UI web, e validon atë, përditëson Punën, krijon CorrectionRecord dhe merret me eksportin e të gjitha të dhënave në një skedar trajnimi. Këto tre pjesë punojnë së bashku për të formuar shtyllën kurrizore të rrotave tona. Let's Build It: Fillimi i shpejtë në veprim Nëse jeni duke ndjekur, klononi Navigoni në drejtorive, dhe të instaloni varësitë. Furnizimi i depozitave examples/correction_deck_quickstart Hapi i parë: Run the Quickstart Script Nga terminali juaj, thjesht drejto: python quickstart.py Ju do të shihni një mesazh që një server lokal web ka filluar në . http://localhost:8000 --- Foundry Quickstart Server running at http://localhost:8000 --- --- Open the URL in your browser to use the Correction Deck. --- --- Press Ctrl+C to stop the server and complete the flywheel. --- Hapi 2: Përdorni UI të korrigjimit të bordit Hapeni atë URL në shfletuesin tuaj. Ju do të shihni një UI të thjeshtë të korrigjimit. Në të majtë është imazhi i faturës së burimit. Në të djathtë është një formular web i para-mbushur me të dhënat e gabuara të AI. Detyra juaj është që të jetë njeriu në qark. Bëni këto dy korrigjime: Fix the Typo: Ndrysho Lone Star Provisins Inc. në Lone Star Provisions Inc. Fix the Quantity: Ndrysho sasinë për ONIONS YELLOW JBO nga 5 në 50. Kliko Save Correction. Hapi 3: Plotësoni Flywheel Tani, kthehuni në terminalin tuaj dhe ndaloni serverin duke shtypur Skenari automatikisht shkakton hapin e fundit të flywheel: eksportin e punës tuaj. Ctrl+C --- Server stopped. --- --- Exporting approved corrections to fine-tuning format... --- --- Data successfully exported to 'corrected_data.jsonl' --- --- QUICKSTART COMPLETE --- Ju sapo keni përfunduar një kthesë të plotë të fluturimit të të dhënave. Paguajtja: Dosja e trajnimit të përsosur Hapni atë do të gjeni një skedar të ri: Ky është rezultati konkret i punës suaj, i kapur dhe i formatuar në mënyrë të përkryer për të përshtatur një model modern të AI. examples/correction_deck_quickstart corrected_data.jsonl Le të shohim brenda. ajo përmban një linjë të vetme të strukturuar JSON: {"contents": [{"role": "user", "parts": [{"fileData": {"mimeType": "image/jpeg", "fileUri": "/static/example_invoice.jpeg"}}, {"text": "Extract the key business data from the provided input."}]}, {"role": "model", "parts": [{"text": "{\"supplier_name\": \"Lone Star Provisions Inc.\", \"invoice_number\": \"785670\", \"invoice_date\": \"2025-08-20\", \"inventory_items\": [{\"item_name\": \"TAVERN HAM WH\", \"total_quantity\": 15.82, \"total_unit\": \"LB\", \"total_cost\": 87.8}, {\"item_name\": \"ONIONS YELLOW JBO\", \"total_quantity\": 50.0, \"total_unit\": \"LB\", \"total_cost\": 35.5}]}"}]}]}``` Kjo mund të duket komplekse, por është formati i saktë i bisedës që modelet si Gemino e Google dhe seri GPT e OpenAI presin për t’u përshtatur mirë. "Role": "user": Kjo është thirrja. ajo përmban imazhin e hyrjes (fileUri) dhe udhëzimin që i dhamë AI. "rol": "model": Kjo është përgjigja e përsosur. Ajo përmban rreshtin JSON me korrigjimet tuaja të aplikuara. Ne kemi shndërruar me sukses disa sekonda të përpjekjeve njerëzore në një shembull të trajnimit me cilësi të lartë, të lexueshëm nga makina. Tani, imagjinoni duke bërë këtë për 100 korrigjime. ose 1,000. Ju nuk jeni më vetëm duke rregulluar gabimet; ju jeni duke ndërtuar në mënyrë aktive dhe efikase një dataset që do të eliminojë këtë klasë të tërë të gabimeve në versionin e ardhshëm të modelit tuaj. Çfarë është e radhës? Ne kemi provuar zinxhirin kryesor të flywheel: Correct -> Capture -> Format for Training. Kjo është një fillim i fuqishëm, por është një proces offline.Ne prisnim që AI të përfundonte batch-in e saj, dhe pastaj korrigjuam punën e saj.Por çfarë nëse mund të ishim më interaktive? Në artikullin e ardhshëm të kësaj serie, ne do të ndërtojmë pikërisht këtë.Ne do të ndërtojmë një tubacion të qëndrueshëm, të njeriut në rrymë që e di kur është në telashe dhe nuk ka frikë të kërkojë sqarime.