Увод Google је најавио Gemini File Search, а стручњаци тврде да је то смртна цифра за homebrew RAG (Retrieval Augmented Generation). Разлог је у томе што сада програмер апликације више не мора да брине о цонкинг-у, уграђивању, складиштењу датотека, векторској бази података, метаподацима, оптимизацији претраживања, управљању контекстом и још много тога. У овом чланку ћемо испробати Gemini File Search и упоредити га са хомбрев РАГ системом у смислу могућности, перформанси, трошкова, флексибилности и транспарентности. . Моја апликација на GitHub-у Моја апликација на GitHub-у Ево оригинала : Google најаве Google најаве Изградите сопствени агентски РАГ Традиционални РАГ - освежитељ Архитектура традиционалног РАГ изгледа овако, која се састоји од неколико секвенцираних корака. Документи се прво исецају, уграђују и убацују у векторску базу података.Често, сродни метаподаци су укључени у уносе базе података. Корисник упит је уграђен и конвертован у векторску ДБ претрагу да бисте преузели релевантне комаде. И на крају, оригинални кориснички упит и преузети комадићи (као контекст) се уносе у АИ моделе како би генерисали одговор за корисника. Агенција РАГ Архитектура Agentic RAG система додала је рефлексију и реакцију, где ће агент проверити да ли су резултати релевантни и потпуни, а затим поново написати упит како би задовољио квалитет претраге. Пример употребе - Камера приручник Q&A Постоји много нових фотографа који су заинтересовани за коришћење старих филмских камера. Један од главних изазова за њих је да многе старе камере имају јединствене и понекад чудне начине рада, чак и основне ствари, као што су учитавање филма и поновно подешавање филмова. Ручна архива камере има 9.000 старих приручника камере, углавном скенираних ПДФ-а. У идеалном свету, само бисте преузели неколико за камеру, проучили их, упознали се и завршили са тим. Али сви смо савремени људи који нису ни стрпљиви нити унапред планирани. I pretpostavljam da će se univerzalno primeniti na mnoge hobije (muzički instrumenti, Hi-Fi oprema, vintage automobili) koji zahtevaju pronalaženje informacija iz drevnih korisničkih priručnika. Homebrew RAG za PDF Q&A Наш РАГ систем је имплементиран раније ове године на основу Са значајном персонализацијом: LLaMAIndex RAG tok posla LLaMAIndex RAG tok posla Користите Qrrant векторску базу: добар однос цена и перформанси, подршка метаподацима. Користите Мистрал ОЦР АПИ да унесете ПДФ: добар учинак у разумевању сложених ПДФ датотека са илустрацијама и табелама. Чувајте слике сваке ПДФ странице тако да корисници могу директно приступити графичкој илустрацији сложених операција камере, поред текстуалних упутстава. Додајте агентички круг рефлексије и реакције на основу примера Google / Langchain за агентичку претрагу. Google/Langchain primer za agencijsku pretragu Шта је са мултимодалним ЛЛМ-има? Од 2024. године, мултимодални ЛЛМ-ови су већ постали стварно добри. Очигледан алтернативни приступ био је да се кориснички упит и цео ПДФ унесе у ЛЛМ и добије одговор. Ово је много једноставније решење које не треба одржавати било који векторски ДБ или средњи програм. Наш главни проблем је био трошак, тако да смо направили израчунавање трошкова и поређење. и кратки одговор је да је РАГ бржи, ефикаснији и много мање скупо када је број корисничких упита дневно већи од 10. У то време, то је потврдило наше уверење да је хомбрев РАГ и даље критично важно док Гоогле не одустане од Претраге датотека Гемини. The Gemini File Search - Пример Изградио сам примјерну апликацију за приручник камере Q&A, на основу примера Гоогле АИ Студио. тако да можете да га пробате врло брзо. Ево сцреенсхот корисничког интерфејса и цхат нит. , Open Source на GitHub-у Open Source на GitHub-у Пример Q&A са ПДФ-има користећи Gemini File Search: https://github.com/zbruceli/pdf_qa https://github.com/zbruceli/pdf_qa Главни кораци укључени у изворни код: Креирајте продавницу за претрагу датотека и инсистирајте на њој током различитих сесија. Уплоад више фајлова истовремено, а Гоогле бацкенд ће се носити са свим цонкинг и уграђивање. Он чак ствара узорак питања за кориснике. Поред тога, можете модификовати стратегију цонкинг и уплоад прилагођене метаподатака. Покрените Standard Generation Query (RAG): иза сцене, он је агентички и може заправо да процени квалитет резултата пре него што генерише коначни одговор. Више информације за програмере Gemini File Search API doc https://ai.google.dev/gemini-api/docs/file-search https://ai.google.dev/gemini-api/docs/file-search Рубрика: Phil Schmidt https://www.philschmid.de/gemini-file-search-javascript https://www.philschmid.de/gemini-file-search-javascript Преузети Gemini File Search Програмери се наплаћују за уграђивање у време индексирања на основу постојеће цене уграђивања ($ 0,15 по 1М токена). Складиштење је бесплатно. Query time embeddings су бесплатни. Добијени документарни токени се наплаћују као редовни контекстни токени. Уграђене цене Контекст Токенс Па, шта је боље? Пошто је Gemini File Search још увек прилично нова, моја процена се заснива искључиво на почетном тестирању око недељу дана. Способност упоређивања Gemini File Search ima sve osnovne karakteristike homebrew RAG sistema Цхункинг (може да конфигурише величину и преклапање) Уграђивање Vektor DB podržava prilagođene metapodatke ретривал Генеративни излаз И више напредних карактеристика испод капуљаче: Агентска способност да се процени квалитет опоравка Ако морам да нитпицк, излаз слике тренутно недостаје. До сада, излаз Google Претраге датотека је ограничен само на текст, док прилагођени РАГ може да врати слике из скенираног ПДФ-а. Поређење перформанси Прецизност: Нема опипљивог побољшања у квалитету опоравка или генерације. Gemini File Search би могао бити мало бржи, пошто су вектор DB и LLM оба "седе" унутар инфраструктуре Google Cloud. поређење трошкова Коначно, Gemini File Search је потпуно хостиран систем који може коштати Više od homebrew sistema. less Уграђивање докумената је покренуто само једном, а то кошта 0,15 долара по милиону токена. Ово је фиксни трошак који је уобичајен за све РАГ системе, и може се амортизирати током живота апликације за питања и питања. Пошто Гемини Филе Сеарцх нуди "бесплатно" складиштење датотека и базу података, ово је уштеда у односу на хомбрев РАГ систем. Трошкови инференције су приближно исти, јер је количина улазних токена (истраживање плус резултате претраге вектора као контекст) и излазних токена упоредива између Gemini File Search и система хомебрев. Флексибилност и транспарентност за подешавање и дебугирање Природно, Gemini File Search вас удаје за Gemini AI моделе за уграђивање и закључење. У смислу фине подешавања вашег РАГ система, Gemini File Search пружа одређени ниво прилагођавања. На пример, можете дефинисати цхункингЦонфиг током учитавања да бисте одредили параметре као што су maxTokensPerChunk и maxOverlapTokens, и customMetadata да бисте приложили паре кључних вриједности документу. Међутим, чини се да је немогуће имати унутрашњи траг Gemini File Search система за дебугирање и подешавање перформанси. Закључци Google's Gemini File Search је довољно добар за већину апликација и већину људи по веома атрактивној цијени. Супер је једноставан за коришћење и има минималну оперативну оверхеад.То није само добро за брзо прототипирање и маке-уп, али и довољно добро за систем производње са хиљадама корисника. Међутим, постоји неколико сценарија које и даље можете узети у обзир хомебрев РАГ систем: Не верујете Google-у да хостира своје власничке документе. Потребно је вратити слике кориснику из оригиналних докумената. Желите пуну флексибилност и транспарентност у смислу којег ЛЛМ користи за уграђивање и закључивање, како направити цонкинг, како контролисати агентички проток РАГ-а и како дебитовати потенцијалне проблеме квалитета претраге. Дакле, дајте Gemini File Search покушај и одлучите сами. као игралиште, или можете користити Молимо вас да коментаришете испод о вашим налазима за ваше случајеве употребе. Google AI студио Мој пример кода на ГитХубу Google AI студио Мој пример кода на ГитХубу