Introduction ang Ang dahilan ay na ngayon ang developer ng app ay hindi kailangang mag-alala tungkol sa chunking, embedding, file storage, vector database, metadata, retrieval optimization, context management, at higit pa. At ang buong dokumento Q&A stack (mga ginagamit upang maging isang middleware plus application layer logic) ay kasalukuyang na-absorbed sa Gemini modelo at ang kanyang peripheral na mga tawagan ng cloud. Sa artikulong ito, i-test ang Gemini File Search at i-compare ito sa isang homebrew RAG system sa halimbawa ng kapangyarihan, pagganap, gastos, flexibility, at transparency. Ikaw ay maaaring gumawa ng isang informed decision para sa iyong kaso ng paggamit. At upang i-accelerate ang iyong pag-unlad, inilagay ko . Mga aplikasyon sa GitHub Mga aplikasyon sa GitHub Ito ang original : Google announcement Pag-iisip ng Google I-build ang iyong agente RAG Traditional RAG - isang Refresher Ang arkitektura ng isang tradisyonal na RAG ay tulad ng ito, na binubuo ng ilang sequential na mga hakbang. Ang mga dokumento ay nagsisimula, na-embedded, at na-insert sa isang vector database. Karamihan, mayroong mga metadata ay kasama sa database entries. Ang user query ay na-embedded at na-convert sa isang vector DB search upang i-recover ang mga pangunahing chunks. At ang katapusan, ang orihinal na user query at ang na-recovered chunks (na bilang kontekstong) ay ibinibigay sa mga modelo ng AI upang generate ang solusyon para sa user. Pangalan ng RAG Ang arkitektura ng isang sistema ng Agentic RAG ay idinagdag ng isang reflection & reaction loop, kung saan ang agent ay i-check kung ang mga resulta ay relevant at kumpletong, at pagkatapos ay i-rewrite ang query upang matugunan ang kalidad ng paghahanap. Kaya, ang modelo ng AI ay ginagamit sa ilang mga lugar: upang i-rewrite ang user query sa isang vector DB query, upang i-evaluate kung ang paghahanap ay satisfying, at pagkatapos ay mag-generate ang solusyon para sa user. Mga pahinang tumuturo sa pamamagitan ng Camera Manual Q&A Mayroong maraming mga bagong photographers na interesado sa paggamit ng mga old film cameras. Ang isa sa mga pangunahing mga problema para sa kanila ay na maraming mga old cameras ay may mga unusual at karaniwang pag-operate na mga paraan, kahit na ang mga pangunahing bagay, tulad ng pag-load ng pelikula at pag-reset ng film frame counter. Pinakamagandang, maaari mo kahit na maabot ang camera kung gawin mo ang anumang bagay sa "malayo na order." A camera manual archive hosts 9,000 old camera manuals, karamihan scaned PDFs. Sa isang ideal na mundo, maaari mong lamang i-download ang ilang para sa iyong camera, pag-aaral ang mga ito, makipag-ugnayan, at gawin sa kanya. Ngunit kami ay lahat ng mga modernong tao na hindi pati na o pre-planned. Kaya, kailangan namin ng Q&A laban sa camera manual PDFs sa paglalakbay, halimbawa, sa isang telepono app. Ito ay matatagpuan sa mga agensya ng RAG. At inaasahan ko na ito ay universally magagamit sa maraming mga hobi (music instruments, Hi-Fi equipment, vintage cars) na nangangailangan ng paghahanap ng impormasyon mula sa mga ancient user manuals. Mga pahinang tumuturo sa Homebrew RAG para sa PDF Q&A Ang aming RAG system ay itinatag noong unang taon na ito batay sa Sa pamamagitan ng substantial customization: LLaMAIndex RAG mga workflow LLaMAIndex RAG mga workflow Gamitin ang Qrrant vector database: mahusay na presyo-performance ratio, suportahan ang metadata. Gumawa ng Mistral OCR API upang i-inject ang PDF: mahusay na pagganap sa pagkuha ng mga kompleksong PDF file na may mga ilustrasyon at mga tabula. Magbibigay ng mga imahe ng bawat pahina ng PDF upang makakuha ng mga gumagamit ng direct access sa isang graphic ilustrasyon ng mga karaniwang mga operasyon ng camera, kasama ang mga text instructions. Magdagdag ng isang agentic loop ng reflection at reaksyon batay sa halimbawa ng Google / Langchain para sa agentic search. Google/Langchain halimbawa para sa agentic search Ano ang mga Multi-Modal LLMs? Dahil sa 2024, ang multi-modal LLMs ay magiging talagang mahusay. Ang isang malinaw na alternatibo na paraan ay upang i-feed ang user query at ang buong PDF sa LLM at makakuha ng isang solusyon. Ito ay isang mas simpleng solusyon na hindi kailangang magtatag ng anumang vector DB o middleware. Ang aming pangunahing pangangailangan ay ang gastos, kaya ginawa namin ang isang kalkulasyon ng gastos at paghahambing. At ang short answer ay na ang RAG ay mas mabilis, mas mahusay, at mas mababang mahal kapag ang bilang ng mga user queries bawat araw ay higit sa 10. Kaya, ang "directly feeding user query at buong matching PDF sa isang Multi-modal LLM" lamang ay gumagana para sa prototyping o napaka-low-volume paggamit (ang ilang queries bawat araw). Sa oras na iyon, ito ay inihayag ang aming pananampalataya na ang homebrew RAG ay higit pa kritikal na mahalaga hanggang sa Google ay umalis ang Gemini File Search. Ang Gemini File Search - isang halimbawa I built a sample app para sa camera manual Q&A use case, batay sa Google AI Studio sample. Iyon ay isang screenshot ng user interface at ang chat thread. , Open Source sa GitHub Open Source sa GitHub Halimbawa ng Q&A sa mga PDF gamit ang Gemini File Search: https://github.com/zbruceli/pdf_qa https://github.com/zbruceli/pdf_qa Ang mga pangunahing hakbang na nagtatrabaho sa source code: Lumikha ng isang File Search Store, at ipatupad ito sa pamamagitan ng iba't ibang sesyon. I-upload ang Multiple Files Simultaneously, at ang Google backend ay magtatrabaho sa lahat ng chunking at embedding. Ito ay patuloy na lumikha ng sample na mga tanong para sa mga gumagamit. Sa karagdagang, maaari mong i-modify ang chunking strategy at i-upload ang mga custom metadata. I-run ang isang Standard Generation Query (RAG): Sa loob ng mga palabas, ito ay agentic at maaaring malalaman ang kalidad ng mga resulta bago ang generating ang katapusan na solusyon. Higit pang impormasyon sa developer Mga pahinang tumuturo sa File Search API https://ai.google.dev/gemini-api/docs/file-search https://ai.google.dev/gemini-api/docs/file-search Tutorial sa pamamagitan ng Phil Schmidt https://www.philschmid.de/gemini-file-search-javascript https://www.philschmid.de/gemini-file-search-javascript Mga pahinang tumuturo sa Gemini File Search Ang mga developer ay naka-charge para sa mga embeddings sa oras ng indexing batay sa existing embeddings pricing ($0.15 per 1M tokens). Ang storage ay libre. Ang query time embeddings ay libre. Ang mga token ng dokumento na inilathala ay inirerekomenda bilang regular context tokens. Ang mga presyo ng embeddings Kontekstibo ang token Ano ang mas mahusay? Dahil ang Gemini File Search ay palaging bagong, ang aking pag-evaluation ay batay lamang sa unang pagsubok para sa tungkol sa isang linggo. Mga Kapasidad ng Pagkakaiba Gemini File Search ay may lahat ng mga pangunahing tampok ng isang homebrew RAG system Chunking (may configure ang size at overlap) Mga Embedded Vector DB na sumusuporta sa custom metadata input ang retrieval Generasyon ng output At higit pa ng mga advanced na mga tampok sa ilalim ng hood: Ang agensya ay may kapasidad upang i-evaluate ang quality Kung kailangan kong nitpick, ang output ng imahe ay kasalukuyang nangangailangan. Sa ngayon, ang output ng Google File Search ay limitado lamang sa teksto, habang ang isang custom-built RAG ay maaaring i-return ang mga imahe mula sa scan PDF. I guess it's not too difficult for Gemini File Search to offer multi-modal output in future. Ang performance comparison Precision: sa par. Walang tanging pagbutihin sa pagkuha o kalidad ng generasyon. Gemini File Search ay maaaring maging mas mabilis, dahil ang vector DB at LLM ay parehong "sitting" sa loob ng Google Cloud infrastructure. Pagkakaiba ng COST Sa katunayan, ang Gemini File Search ay isang ganap na-host na sistema na maaaring magkakahalaga Sa isang homebrew system. less Ang pag-embedding ng mga dokumento ay nilikha lamang ng isang beses, at ito ay nagkakahalaga ng $ 0.15 bawat milyong token. Ito ay isang fixed cost na karaniwang karaniwang para sa lahat ng mga sistema ng RAG, at maaaring i-amortise sa buong buhay ng dokumento Q&A application. Sa aking kaso ng paggamit ng mga manual ng camera, ang fixed cost ay isang napaka-kakahalaga na bahagi ng total na gastos. Dahil ang Gemini File Search ay nag-aalok ng "free" file storage at database, ito ay isang pagbabago sa homebrew RAG system. Ang gastos ng inference ay halos pareho, dahil ang halaga ng input tokens (sagot plus vector search results bilang konteksto) at output tokens ay magkakaiba sa pagitan ng Gemini File Search at ang homebrew system. Flexibility & Transparency para sa Tuning at Debugging Gayunpaman, ang Gemini File Search ay nagpapakita sa iyo para sa Gemini AI na mga modelo para sa embedding at inference. Ito ay karaniwang makakuha ng convenience habang nag-sacrifice ang flexibility at pagpili. Sa pagitan ng fin-tuning ang iyong RAG system, Gemini File Search ay nagbibigay ng ilang antas ng pag-customization. Halimbawa, maaari mong itakda ng isang chunkingConfig sa panahon ng pag-upload upang itakda ang mga parameter tulad ng maxTokensPerChunk at maxOverlapTokens, at customMetadata upang itakda ang mga pares ng key-value sa dokumento. Gayunpaman, hindi maaaring magkaroon ng isang internal trace ng Gemini File Search system para sa debugging at performance tuning. mga konklusyon Ang Google's Gemini File Search ay mahusay na para sa karamihan ng mga application at ang karamihan ng mga tao sa isang napaka-attractive na presyo. Ito ay super madaling gamitin at may minimal na operating overhead. Ito ay hindi lamang mahusay para sa mabilis na prototyping at mock-ups, ngunit din mahusay na para sa isang produksyon sistema na may libu-libong mga gumagamit. Gayunpaman, mayroong ilang mga scenario na maaari mong i-consider ang isang homebrew RAG system: Hindi mo matutunan ang Google upang mag-host ang iyong mga proprietary na dokumento. Kailangan mong ibalik ang mga imahe sa user mula sa mga orihinal na dokumento. Kailangan mo ng full flexibility at transparency sa halaga ng kung ano ang LLM upang gamitin para sa embedding at inference, kung paano gawin chunking, kung paano i-control ang agentic flow ng RAG, at kung paano i-debug potensyal na mga problema ng kalidad ng pagkuha. Kaya, magbigay ang Gemini File Search ng isang pagsubok at mag-decide para sa iyong sarili. Maaari mong gamitin ang Kung paano mawalan ng timbang, o kung paano mawalan ng timbang Please comment below on your findings para sa iyong mga kaso ng paggamit. Ang Google ay isang studio Ang aking mga sample code sa GitHub Ang Google ay isang studio Ang aking mga sample code sa GitHub