AI “전문가”들은 에이전트 검색 API 시스템이 캐시된 쿼리를 시작하는 순간 RAG(검색 증강 생성)를 위한 데이터 검색이 해결되었다고 생각할 수 있습니다. 멋지게 들리지만, 그 접근 방식은 매우 제한적이라는 현실이 있습니다... 시장은 빠르게 움직이며, 매초 전 세계적으로 테라바이트의 새로운 정보가 나타납니다. 즉각적인 통찰력을 얻기 위해 오래된 데이터에 의존하는 것은 통하지 않습니다. 해결책은 무엇일까요? AI 에이전트에게 웹에서 최신의 맥락에 맞는 소스를 검색할 수 있는 도구를 제공하는 것입니다 (🤫 : 바로 여기서 Discover API가 등장합니다!) 스포일러 이 글에서는 실시간 웹 검색이 AI 에이전트에게 왜 중요한지, 그리고 실질적인 통찰력을 통해 이를 어떻게 달성할 수 있는지 알아보겠습니다. 시작해 봅시다! 캐시된 검색으로는 충분하지 않은 이유 대부분의 AI 팀은 인덱스 또는 캐시된 검색이 마련되는 순간 검색 문제를 해결했다고 가정합니다. 문서, 크롤링된 페이지, 멋진 데이터베이스를 가지고 있습니다. 모두 깔끔하게 저장되어 AI 에이전트, 워크플로 또는 파이프라인에 제공될 준비가 되어 있습니다! 완벽하게 들리죠? 글쎄요, 완전히 그렇지는 않습니다... 문제는 ... 특히 오늘날의 초연결, 디지털 우선 환경에서는 더욱 그렇습니다. 🌐 세상은 멈추지 않는다는 것입니다 새로운 페이지가 나타나고, 트렌드가 불꽃처럼 타올랐다가 사그라들며, 틈새 소스가 등장하고, 기존 콘텐츠는 업데이트됩니다. 때로는 하루에 여러 번(또는 몇 초마다! ⏱️) 업데이트되기도 합니다. 이처럼 정보에 굶주린 환경에서 AI 에이전트가 여전히 어제의 크롤링 또는 지난주의 인덱스(Google과 같은 신뢰할 수 있는 검색 엔진에서도)에서 가져온다면, 그 모든 최신의 관련 정보를 완전히 보지 못하는 것입니다! 캐시/인덱싱된 검색에만 의존하는 것은 오래된 지도로 도시를 탐색하려는 것과 같습니다 🗺️. 물론 일부 답은 얻겠지만, 가장 중요한 거리, 지름길, 새로운 핫스팟을 놓칠 것입니다. 즉각적인 지식에는 이 필요합니다! (이는 일반적인 에이전트 검색 API 시스템으로는 처리할 수 없으며, 곧 알게 되겠지만 가 필요합니다...) 웹 검색 전용 Discover API 소스 검색은 즉각적인 AI 정확도를 위한 일급 요건입니다 이렇게 생각해 보세요. AI 에이전트가 새로운 소스를 검색하지 않는다면, (확신에 차 보이더라도!) 추측하는 것입니다. 결국 대부분의 검색 파이프라인은 이미 알려진 것, 즉 검색 엔진에서 인덱싱된 페이지, 캐시된 검색 결과, 사전 승인되거나 알려진 도메인을 최적화합니다. 이는 효율적이지만 정확하지는 않습니다... 😬 자율적인 소스 검색은 세 가지 주요 방식으로 정확도를 직접적으로 향상시킵니다. 🌍 : 가장 관련성 높은 증거는 대개 또는 상위 몇 개의 인덱싱된 검색 결과 에 있습니다. 여기에는 틈새 블로그, 커뮤니티 포럼, 지역 뉴스 사이트, 최신 문서 또는 어제 존재하지 않았거나 아직 Google 상위 결과에 표시되지 않거나 회사에서 의도적으로 숨긴 새로운 랜딩 페이지가 포함됩니다. 캐시된 검색에만 의존하면 이러한 신호는 완전히 보이지 않습니다. 커버리지 증가 기존 데이터 세트 밖 👀 : 캐시된 시스템은 세상이 변할 때 조용히 작동을 멈춥니다. 새로운 가격 페이지, 업데이트된 정책, 속보는 일반적인 실패 지점입니다. 새로운 소스에서 관련 링크를 적극적으로 검색하는 AI 에이전트는 오래된 지식에 갇히는 대신 정보가 나타날 때 새로운 정보에 적응할 수 있습니다. 맹점 감소 ✅ : 모든 AI 파이프라인이 단순히 답을 찾는 것만을 의미하는 것은 아닙니다. 어떤 경우에는 최신 사용 가능한 소스와 비교하여 해당 답을 검증하는 것이 더 중요합니다. 실시간 웹 검색과 실시간 검색을 결합하면 AI 에이전트가 신뢰할 수 있는 최신 데이터를 사용하여 주장을 교차 확인할 수 있으며 현실에 기반을 둘 수 있습니다. 검증 추가 요약하자면, AI 에이전트에게 웹 검색 기능(단순히 데이터베이스에 연결되거나 검색 엔진의 첫 번째 결과를 타겟팅하는 일반적인 에이전트 검색 API가 아닌)을 제공하는 것은 보너스 기능이 아닙니다. 이는 의 기초입니다! 즉각적인 지식 습득 이 문제와 관련된 과제를 더 잘 이해하려면 아래 요약 비교표를 살펴보세요... 💭 캐시된 정적 데이터 vs 검색된 실시간 데이터 캐시된 정적 데이터 검색된 실시간 데이터 특성 정적. 한 번 검색하거나 주기적으로 업데이트됩니다. 동적. 데이터 필요에 따라 실시간으로 웹에서 가져옵니다. 커버리지 알려지고 미리 인덱싱된 소스로 제한됩니다. 새롭거나 틈새 콘텐츠를 놓칩니다. 새 페이지, 신흥 소스, 업데이트된 콘텐츠로 동적으로 확장됩니다. 적응성 세상이 변할 때 어려움을 겪습니다. 수동 재크롤링 또는 재인덱싱이 필요합니다. 업데이트, 새로운 이벤트, 변경되는 조건에 즉시 적응합니다. 맹점 관련 데이터가 캐시 외부에 있을 때 조용한 오류의 위험이 높습니다. 관련 링크를 검색할 수 있어 숨겨진 격차를 메웁니다. 가장 적합한 용도 정적 지식 기반 및 내부 문서. 즉각적인 정확도가 필요한 시장 인식, 실시간 AI 에이전트. 알려진 소스 vs 검색 데이터 알려진 소스 (캐시 시스템) 검색된 데이터 (즉석에서) 소스 선택 대부분의 경우 고정되어 미리 정의됩니다. 소스는 미리 선택되거나 (Google과 같은 검색 엔진의 상위 위치로 제한됨) 선택됩니다. 동적이고 적응적입니다. 쿼리 시 AI 에이전트에 의해 자율적으로 소스가 검색됩니다. 저장 데이터베이스, 캐시, 디스크 등에 저장됩니다. 검색 시 AI 에이전트의 캐시에 직접 추가됩니다. 데이터 형식 관계형 테이블, 파일, 텍스트 및 유사한 형식. 일반적으로 LLM에 최적화된 형식입니다 . JSON 및 Markdown과 같은 검색 모델 실질적인 검색 없음. 검색은 인덱싱되거나 캐시된 데이터 소스를 검색하는 데 의존합니다. 실시간 웹에서 관련 링크, 페이지 및 리소스를 적극적으로 검색합니다. 신선도 크롤링 또는 인덱싱 일정에 따라 다릅니다. 종종 오래되었습니다. 실시간. 데이터는 웹의 현재 상태를 반영합니다. 에이전트 AI 시스템에서 웹 검색이 실제로 작동하는 방식 AI 에이전트의 데이터 검색은 일반적으로 RAG( )를 통해 이루어집니다. RAG는 LLM에 올바른 정보를 제공하여 응답을 향상시키고 맥락적 근거를 통해 답변 정확도를 높입니다. 검색 증강 생성 전통적인 캐시/인덱싱 검색 설정에서 시스템은 전용 에이전트 검색 API에 의존합니다. 시스템은 사용자의 쿼리를 기반으로 관련성이 있다고 보이는 결과를 가져옵니다. 데이터는 로컬 데이터베이스로 가져오거나 Google과 같은 검색 엔진에서 검색되며, 일반적으로 가장 첫 번째 결과를 목표로 합니다... 이해가 되죠? 결과는 검색 엔진이 이미 크롤링하여 상위에 랭크시킨 것 또는 지식 시스템이 이미 알고 저장하고 있는 것으로 제한됩니다. 즉, . 캐시되거나 인덱싱된 소스에서 추출할 수 있는 통찰력은 설계상 제한된다는 것을 의미합니다 벡터 데이터베이스와 유사성 알고리즘이 백그라운드에서 관련되지만, 여기서 중요한 점은 아닙니다. 핵심 문제는 분명합니다. 이러한 유형의 지식 검색 시스템은 제약이 있습니다. 이는 . 더 나은 접근 방식이 필요합니다! 새롭고 신흥하는 페이지 또는 리소스를 적극적으로 검색할 수 없습니다 에이전트 소스 검색 시스템이 해결책인 이유 을 소개합니다. 여기서 하나 이상의 AI 에이전트는 업무를 맡습니다. 실제 작동 방식은 다음과 같습니다. 에이전트 검색 시스템 실시간 웹에서 새롭고 관련성 있는 소스를 적극적으로 사냥하는 하고 전용 링크 검색 시스템에서 실행하여 수백 개의 링크 (이전에 고려하지 않았던 많은 소스 포함)를 반환합니다 🔍. 사용자 프롬프트를 검색 쿼리로 변환 고부가가치 정보를 포함할 가능성이 가장 높은 링크를 선택합니다 🎯. 해당 링크에 액세스하고 LLM이 처리할 수 있는 형식으로 콘텐츠를 검색합니다 📝. 요약하면, 시스템은 의 과정을 반복합니다 (이는 인기 있는 에서 크게 벗어나지 않는 과정입니다). 이는 정적 캐시/인덱스 검색을 넘어서는 것입니다. 에이전트는 인덱싱하는 것을 생각해 보지 못한 새로운 소스를 동적으로 찾습니다 (종종 가장 관련성 높은 통찰력을 포착합니다! 😜) 검색, 평가, 획득 검색 및 추출 AI 패턴 아직 설득되지 않았나요? 전문가들의 의견을 들어보세요... https://www.youtube.com/watch?v=UYXQsd6tQ0M&embedable=true 물론 어떤 AI 에이전트든 (어떤 LLM으로 구동되든) 혼자서는 이것을 할 수 없습니다. 웹을 검색하고 구조화된 데이터를 추출하는 도구가 필요합니다. 여기서 가 등장합니다! Discover API AI 에이전트 검색 API로는 충분하지 않습니다… 해결책은 Discover API입니다 일반적인 에이전트 검색 API 시스템으로는 충분하지 않다는 것을 알았으니, 빠진 조각은 무엇일까요? 🤔 AI 에이전트 퍼즐에서 빠진 조각은 에이전트가 새로운 소스를 자율적으로 검색하고 거기서 관련 정보를 추출할 수 있게 하는 도구입니다. 이것이 바로 Discover API가 하는 일입니다! 그렇다면 이 도구는 AI 에이전트에게 실제로 무엇을 제공할까요? 에이전트가 다음을 수행하도록 지원합니다. 검색 쿼리를 기반으로 정확하고 최신의 맥락에 맞는 링크를 웹에서 검색합니다. 사용 가능한 순위 알고리즘 중 하나를 사용하여 의도에 따라 순위가 매겨진 긴 링크 목록 (100개 이상)을 반환합니다. 이러한 링크를 사용하여 상위 결과를 신뢰하거나 목표에 따라 순위를 다시 매길 수 있습니다. 그런 다음 선택한 링크에서 정보를 추출하여 으로 AI 에이전트에 공급합니다. LLM 준비 형식 신뢰할 수 있는 Discover API 제공업체를 찾고 있나요? 더 이상 찾을 필요가 없습니다. 바로 입니다! Bright Data Bright Data는 을 위한 긴 목록을 제공합니다! AI를 위한 웹 데이터 솔루션 이러한 솔루션은 을 자랑하는 완전히 확장 가능한 인프라를 기반으로 구축되었습니다. 여기에 , LLM 최적화 데이터 형식, 그리고 을 더하세요. 95개국에 걸쳐 1억 5천만 개 이상의 프록시, 99.99%의 가동 시간, 99.99%의 성공률 연중무휴 지원 70개 이상의 AI 프레임워크와 기본 통합 더 자세히 알고 싶으신가요? 을 확인해 보세요! 🎓 Web Discovery Summit 결론 이 글에서는 캐시된 검색이 왜 충분하지 않은지, 그리고 AI 에이전트에게 웹에서 새 데이터를 검색하고 소스를 찾는 기능을 제공하는 것이 진정한 해결책인 이유를 살펴보았습니다. 진정으로 통찰력 있고 독창적인 지식을 얻으려면 오래된 정적 데이터에 의존할 수 없습니다! 실시간 웹 검색을 구현하는 가장 좋은 방법은 Discover API를 통하는 것입니다. 결국, “전통적인” AI 에이전트 검색 API는 캐시되거나 인덱싱된 데이터만 쿼리할 수 있는 반면, AI 에이전트는 진정으로 효과적이려면 새로운 소스를 검색해야 합니다. 보았듯이, Bright Data는 웹 검색 시나리오와 에이전트 AI 시스템을 위한 광범위한 웹 데이터 파이프라인을 지원합니다. 저희 솔루션 덕분에 실시간 웹 검색이 그 어느 때보다 쉬워졌습니다! . 더 스마트한 시스템을 위해 AI를 포함한 모든 사람에게 웹 데이터를 액세스 가능하게 만듭시다. 다음에 만나요! 무료 체험으로 저희의 사명에 동참하세요