კონტაქტი Google- ის გამოქვეყნდა Gemini File Search, და ექსპერიმენტები აცხადებენ, რომ ეს არის homebrew RAG (Retrieval Augmented Generation) სიკვდილი. მიზეზი არის, რომ ახლა აპლიკაციების განვითარებელს არ უნდა დაეხმაროს chunking, embedding, ფაილის შენახვის, ვიქტორული მონაცემთა ბაზა, მეტატეგია, ჩამოტვირთვის ოპტიმიზაცია, კონტაქტური მართვა და სხვა. და მთელი დოკუმენტის Q&A stack (მუშავებული როგორც middleware და განაცხადის ფართო ლოგიკური) ახლა იღებს Gemini მოდელი და მისი პერფერული ქსოვილის შეთავაზება. ამ სტატიაში, ჩვენ შეამოწმოთ Gemini File Search და შედარებით მას homebrew RAG სისტემით შესაძლებლობები, შესრულება, ღირებულება, მოქნილი და გადარჩენა. თქვენ შეგიძლიათ გააკეთოთ სასწავლო გადაწყვეტილება თქვენი გამოყენების შემთხვევაში. და გააუმჯობესოს თქვენი განვითარება, მე მოიცავს . My Example პროგრამა GitHub- ში My Example პროგრამა GitHub- ში აქ არის Original : Google announcement Google შეტყობინებები შექმნა თქვენი საკუთარი Agentic RAG ტრადიციული RAG - A Refresher სტრუქტურა ტრადიციული RAG izgleda ეს, რომელიც შედგება რამდენიმე შემდგომი ნაბიჯები. პირველი, დოკუმენტები დახურულია, ინტეგრირებული და ინტეგრირებული vektor database. ხშირად, დაკავშირებული metadata მოიცავს database შეტყობინებები. მომხმარებლის კითხვები ინტეგრირებული და კონვერტებული ვიქტორული DB კითხვას, რათა მიიღოთ დაკავშირებული კუნძულები. და ბოლოს, ორიგინალური მომხმარებლის კითხვები და მოპოვებული სქემები (კონტექსტში) იღებენ AI მოდელები, რათა იპოვოს პასუხი მომხმარებლისთვის. საავტომობილო RAG Agentic RAG სისტემის არქიტექტურა დაამატა რეკლამა და რეაქტიული loop, სადაც агент შეამოწმებს, თუ შედეგები მნიშვნელოვანია და სრულია, და შემდეგ შეამოწმებს კითხვებს, რათა შეესაბამება ეძებს ხარისხის. ასე რომ, AI მოდელი გამოიყენება რამდენიმე ადგილებში: მომხმარებლის კითხვების შეამოწმება ვიქტორული DB კითხვებში, შეამოწმება, თუ მოპოვება საკმარისია, და საბოლოოდ იღებს პასუხი მომხმარებლისთვის. მოდელი გამოყენების Case - Camera Manual Q&A არსებობს ბევრი ახალი ფოტოგომატი, რომლებიც დაინტერესებული არიან ძველი ფილმი კამერა გამოყენებით. ერთ-ერთი ძირითადი განიხილება მათთვის არის, რომ ბევრი ძველი კამერა აქვს უნიკალური და ზოგჯერ ცუდი გზა ოპერაცია, მაშინაც კი ძირითადი რამ, როგორიცაა ფილმის დატვირთვა და ფილმი რემონტების დატვირთვა. უკეთესი, თქვენ კი შეგიძლიათ დაზიანოთ კამერა, თუ თქვენ გააკეთებთ ზოგიერთი რამ "ბედულ გარიგებით". ამიტომ, სწორი და სწორი ინსტრუქციები კამერა სახელმძღვანელო არის მნიშვნელოვანი. კამერა მექანიკური არქიტექტურა მოიცავს 9,000 ძველი კამერა მექანიკაციები, ძირითადად სკანირებული PDFs. იდეალური მსოფლიოში, თქვენ უბრალოდ ჩამოტვირთოთ რამდენიმე თქვენი კამერა, შეამოწმოთ მათ, შეხვდება, და გააკეთა ეს. მაგრამ ჩვენ ყველა თანამედროვე ადამიანები, რომლებიც არ არის მგრძნობიარე ან წინასწარ გეგმა. ასე რომ, ჩვენ გვჭირდება Q&A vs კამერა მექანიკური PDFs მოგზაურობა, მაგალითად, ტელეფონის პროგრამაში. ეს ძალიან კარგად შეესაბამება Agentic RAG ფართობი. და მე ვფიქრობ, რომ ეს იქნება საერთოდ გამოიყენება ბევრი სასიამოვნები (მუსიკული ინსტრუმენტები, Hi-Fi აღჭურვილობა, vintage მანქანები), რომელიც მოითხოვს იპოვოს ინფორმაცია ძველი მომხმარებლის სახელმძღვანელო. HOMEBREW RAG for PDF Q&A ფაილები ჩვენი RAG სისტემა დააყენა ამ წლის დასაწყისში, ძირითადად, ძირითადი customization: LLaMAIndex RAG სამუშაო გზა LLaMAIndex RAG სამუშაო გზა გამოიყენეთ Qrrant vector database: კარგი ღირებულება და შესრულება, მხარდაჭერა metadata. Mistral OCR API- ის გამოყენება PDF- ის ინახებლად: კარგი შესრულება კომპიუტერული PDF ფაილების შეტყობინების და ტაბლეების შეტყობინებაში. შენახვა სურათები თითოეული PDF გვერდზე, ასე რომ მომხმარებელს შეუძლია პირდაპირი ხელმისაწვდომობა გრაფიკული მოდული კამერა ოპერაციების, დამატებით ტექსტური ინსტრუქციები. დამატება Agentic loop რეაგირება და რეაგირება დაფუძნებული Google / Langchain მაგალითად Agentic Search. Google/Langchain მაგალითია საავტომობილო ეძებს რა არის Multi-Modal LLMs? მას შემდეგ, რაც 2024, multi-modal LLMs უკვე იღებს ძალიან კარგი. ჩვეულებრივ, ალტერნატიული ხელმისაწვდომობა იყო, რათა feed მომხმარებლის კითხვები და მთელი PDF to LLM და მიიღოთ პასუხი. ეს არის ძალიან მარტივი გადაწყვეტილება, რომელიც არ უნდა შეინარჩუნოთ ნებისმიერი ვიქტორული DB ან middleware. ჩვენი ძირითადი პრობლემა იყო ღირებულება, ასე რომ ჩვენ გააკეთა ღირებულება და შედარებით. და მოკლე პასუხი არის, რომ RAG არის სწრაფი, უფრო ეფექტური, და ძალიან ნაკლები ღირებულება, როდესაც მომხმარებლის კითხვები ყოველდღიურად უფრო მეტია, ვიდრე 10. ასე რომ, "და პირდაპირი feeding მომხმარებლის კითხვები და სრული შეესაბამება PDF to Multi-modal LLM" მხოლოდ ნამდვილად მუშაობს Prototyping ან ძალიან დაბალი მოცულობის გამოყენება (მაკუთი კითხვები ყოველდღიურად). ამავე დროს, ეს დადასტურდა ჩვენი მიმოხილვა, რომ homebrew RAG ჯერ კიდევ მნიშვნელოვანია, სანამ Google არ დატოვებს Gemini File Search. მე ვფიქრობ, რომ გადაწყვეტილება არ არის ეს მარტივი. Gemini File Search - მაგალითია მე შეიქმნა მაგალითად პროგრამა კამერა manual Q & A გამოყენების შემთხვევაში, დაფუძნებული Google AI Studio მაგალითად. ეს არის ასე რომ თქვენ შეგიძლიათ ძალიან სწრაფად ცდილობენ. აქ არის screenshot of the user interface and the chat thread. , open source on GitHub Open Source და GitHub მაგალითად Q&A ერთად PDFs გამოყენებით Gemini File Search: https://github.com/zbruceli/pdf_qa https://github.com/zbruceli/pdf_qa ძირითადი ნაბიჯები, რომლებიც მოიცავს წყარო კოდი: შექმნა File Search Store, და გაგრძელება იგი სხვადასხვა სეზონებში. Googles backend- ის ყველა chunking და embedding გაკეთება. იგი ასევე შექმნა ნიმუში კითხვები მომხმარებელს. გარდა ამისა, თქვენ შეგიძლიათ შეცვალოთ chunking სტრატეგია და ჩამოტვირთოთ საბაჟო metadata. Standard Generation Query (RAG) იძლევა: სინათლის შემდეგ, ეს არის მექანიკური და შეიძლება ნამდვილად შეფასოთ შედეგების ხარისხი, სანამ ხელს უწყობს საბოლოო პასუხი. More Developer ინფორმაცია Gemini File Search API დოკუმენტი https://ai.google.dev/gemini-api/docs/file-search https://ai.google.dev/gemini-api/docs/file-search Phil Schmidt- ის მიმოხილვა https://www.philschmid.de/gemini-file-search-javascript https://www.philschmid.de/gemini-file-search-javascript Gemini File Search ფასი Developers გადაიხადოს embeddings at indexing დრო base on existing embeddings pricing ($0.15 per 1M tokens). Storage არის უფასო. Query Time Embeddings არის უფასო. მოპოვებული დოკუმენტის tokens იხდის როგორც რეგულარული კონტაქტის tokens. შეფუთვა ფასი კონტაქტი რა არის უკეთესი? იმის გამო, რომ Gemini File Search ჯერ კიდევ საკმაოდ ახალია, ჩემი შეფასება მხოლოდ დაახლოებით კვირაში პირველი ტესტირებაა. Capacity შედარებით Gemini File Search აქვს ყველა ძირითადი თვისებები homebrew RAG სისტემა Chunking (მძლევთ configure ზომა და overlap) შეფუთვა Vector DB, რომელიც მხარს უჭერს Custom Metadata input კონტაქტი გენერალური წარმოება და უფრო მოწინავე ფუნქციები ქვეშ cap: Agentic უნარი შეამოწმოს retrieval ხარისხი ამჟამად, Google File Search- ის გამოცემა შეზღუდულია მხოლოდ ტექსტში, ხოლო მორგებული RAG- ს შეუძლია გაგზავნას სურათები სინანტებული PDF- ისგან. მე ვფიქრობ, რომ Gemini File Search- ისთვის არ იქნება ძალიან რთული, რომ მომავალში გთავაზობთ multi-modal გამოცემა. Performance შედარებით სიზუსტით: შედარებით, არ არსებობს მახასიათებლის გაუმჯობესება მოპოვების ან წარმოების ხარისხის. Gemini File Search შეიძლება უფრო სწრაფად იყოს, რადგან ვიქტორული DB და LLM ორივე Google Cloud ინფრასტრუქტურის შიში "მართავს". ღირებულების შედარებით საბოლოოდ, Gemini File Search არის სრულიად სასტუმრო სისტემა, რომელიც შეიძლება ღირებულება ვიდრე homebrew სისტემა. less დოკუმენტების შეფუთვა მხოლოდ ერთხელ გაკეთდა, და ეს ღირებულება $ 0.15 მილიონი tokens. ეს არის ფართო ღირებულება, რომელიც არის საერთო ყველა RAG სისტემები, და შეიძლება გადაიხადოს დოკუმენტის Q & A განაცხადის სიცოცხლის განმავლობაში. ჩემი გამოყენების შემთხვევაში კამერა სახელმძღვანელო, ეს ფართო ღირებულება არის ძალიან მცირე ნაწილი საერთო ღირებულება. იმის გამო, რომ Gemini File Search გთავაზობთ უფასო ფაილი შენახვა და მონაცემთა ბაზა, ეს არის გადარჩენა homebrew RAG სისტემაში. Inference ღირებულება არის დაახლოებით იგივე, რადგან რაოდენობა input tokens (კითხვა და vector search შედეგები, როგორც კონტაქტი) და output tokens შედარებით Gemini File Search და homebrew სისტემა. Flexibility & Transparency for Tuning და Debugging რა თქმა უნდა, Gemini File Search გაქვთ Gemini AI მოდელები შეფუთვა და შედუღებისთვის. ეს ძირითადად იღებს კომფორტებას, ხოლო მოქნილი და არჩევანი. Gemini File Search უზრუნველყოფს ზოგიერთი დონე მორგება თქვენი RAG სისტემაში. მაგალითად, თქვენ შეგიძლიათ დააყენოთ chunkingConfig ჩამოტვირთვის დროს, რათა დააყენოთ პარამეტრები, როგორიცაა maxTokensPerChunk და maxOverlapTokens, და customMetadata, რათა დააყენოთ ძირითადი ღირებულების პარამეტრები დოკუმენტისთვის. მიუხედავად იმისა, რომ არ არის შესაძლებელი, რომ Gemini File Search სისტემის ინდივიდუალური რკინიგზის გაუმჯობესება და ეფექტურობის გაუმჯობესება. ასე რომ, თქვენ გამოიყენებთ იგი უფრო მეტი ან ნაკლებად, როგორც შავი ყუთი. კონტაქტი Google's Gemini File Search არის საკმაოდ კარგი ყველაზე პროგრამები და ყველაზე ადამიანები ძალიან მოკლე ფასი. ეს არის ძალიან მარტივი გამოყენება და აქვს მინიმალური ოპერაციული overhead. ეს არ არის მხოლოდ კარგი სწრაფი prototyping და mock-ups, არამედ საკმაოდ საკმაოდ კარგი წარმოების სისტემა ერთად ათასობით მომხმარებელს. თუმცა, არსებობს რამდენიმე სტრატეგიები, რომ თქვენ შეიძლება ჯერ კიდევ განიხილოთ homebrew RAG სისტემა: თქვენ არ ვფიქრობ, რომ Google იძლევა თქვენი პირადი დოკუმენტები. თქვენ უნდა გადაწყვიტოს სურათები მომხმარებელს ორიგინალური დოკუმენტები. თქვენ გსურთ სრული მოქნილობა და გადარჩენა, თუ რა LLM გამოიყენოთ შეფუთვა და შეჩერება, როგორ გააკეთოთ chunking, თუ როგორ კონტროლი Agentic წნევის RAG, და თუ როგორ debug პოტენციური მოპოვების ხარისხის პრობლემები. ასე რომ, გთავაზობთ Gemini File Search ცდილობენ და გადაწყვიტოს თქვენთვის. თქვენ შეგიძლიათ გამოიყენოთ როგორც სათამაშო ადგილი, ან თქვენ შეგიძლიათ გამოიყენოთ გთხოვთ შეტყობინოთ ქვემოთ თქვენი შედეგები თქვენი გამოყენების შემთხვევაში. Google AI Studio ჩემი კოდი GitHub- ში Google AI სტუდია ჩემი კოდი GitHub- ში