paint-brush
AI 검색의 이해~에 의해@algolia
4,602 판독값
4,602 판독값

AI 검색의 이해

~에 의해 Algolia5m2023/04/23
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

Algolia가 검색과 AI의 작동 방식을 설명합니다. Bing에 LLM(대형 언어 모델)을 사용하는 ChatGPT가 추가되었습니다. Google은 최근 새로운 이미지 검색 기능과 자체 LLM 서비스를 발표했습니다. Algolia에서는 신경 해싱을 사용하여 모든 애플리케이션에 대한 지능형 검색을 확장하는 자체 AI 기반 기술도 도입할 예정입니다.
featured image - AI 검색의 이해
Algolia HackerNoon profile picture


검색 회사가 검색과 AI의 작동 방식을 설명하는 것을 듣는 것은 혼란스러울 수 있습니다. Bing은 LLM(대형 언어 모델)을 사용하는 ChatGPT를 추가했지만 그 전에도 딥 러닝 기능이 있었습니다. Google은 최근 새로운 이미지 검색 기능과 자체 LLM 서비스를 발표했습니다. Algolia에서는 신경 해싱을 사용하여 모든 애플리케이션에 대한 지능형 검색을 확장하는 자체 AI 기반 기술도 도입할 예정입니다. 이 용어들은 모두 혼란스러울 수 있습니다.


검색과 관련된 기술을 분석하여 문제를 해결해 보겠습니다.

처음부터 시작해 보겠습니다. 키워드 검색이란 무엇입니까?

키워드 검색 엔진은 수십 년 동안 존재해 왔습니다. Apache Lucene 프로젝트는 키워드 검색 기능을 제공하는 가장 잘 알려진 오픈 소스 검색 엔진 중 하나입니다. 이 유형의 검색 엔진은 통계 기술을 사용하여 쿼리를 인덱스의 항목과 일치시킵니다. 정보가 있는 책의 모든 위치를 가리켜 책 뒤의 색인과 매우 유사하게 작동합니다. 오타 허용, 단어 분할, 형태소 분석과 같은 쿼리 처리 기술은 검색 엔진이 철자와 쿼리 이해를 소화하고 이해하는 데에도 사용됩니다.


키워드 검색은 매우 빠른 경향이 있으며 정확한 쿼리 키워드 일치에 적합합니다. 그러나 롱테일 쿼리, 개념 검색, 질문 스타일 검색, 동의어 및 쿼리가 인덱스의 내용과 정확히 일치하지 않는 기타 문구로 인해 어려움을 겪는 경우가 많습니다. 이러한 이유로 많은 기업에서는 AI 동의어 생성 등의 추가 기능을 추가해 도움을 주었습니다.

의미 검색이란 무엇입니까?

의미론적 검색에는 검색 쿼리에 포함된 단어 및 구문의 의미를 이해하고 쿼리와 의미론적으로 관련된 결과를 반환하는 작업이 포함됩니다. 의미론적 검색 엔진은 자연어 처리(NLP) 기술을 사용하여 단어와 구문의 의미를 이해하고 관련 개념, 동의어 및 검색어와 관련될 수 있는 기타 관련 정보를 찾습니다.

AI 검색과 어떻게 다른가요? 의미 검색과 AI 검색은 같은 것인가요?

AI 검색은 의미론적 검색은 물론 검색 결과를 제공하기 위한 기타 기계 학습 기술을 포함하는 일반적이고 광범위한 용어입니다. AI 검색은 일반적으로 쿼리 처리, 검색, 순위 지정 등 여러 단계를 포함합니다.


  • 쿼리 처리 : 이 단계에는 사용자의 쿼리를 분석하여 쿼리의 의도, 범위 및 제약 조건을 이해하는 작업이 포함됩니다. 쿼리 처리에는 쿼리를 구성 부분으로 구문 분석하고, 키워드와 구문에 대한 의미론적 이해, 쿼리를 표준 형식으로 정규화하는 등의 작업이 포함될 수 있습니다.


  • 검색 : 쿼리가 처리되면 시스템은 쿼리 기준과 일치하는 일련의 문서 또는 데이터 항목을 검색합니다. AI 검색은 일반적으로 기계 학습 알고리즘을 사용하여 용어 간의 유사성을 확인하고 관련성을 측정하여 관련 결과를 제공합니다.


  • 순위 : 문서 또는 데이터 항목이 검색된 후 시스템은 사용자 쿼리에 대한 관련성과 중요성을 기준으로 순위를 매깁니다. 강화 학습과 같은 학습-순위 모델은 지속적으로 결과를 최적화하는 데 사용됩니다.

검색 엔진 AI는 생성 AI와 다른가요?

OpenAI의 ChatGPT, Google의 Bard, Midjourney 및 기타 유사한 AI 기술을 생성 AI 라고 합니다. 이러한 범용 솔루션은 입력을 기반으로 결과를 예측하려고 시도하며 실제로 새로운 응답을 생성합니다. 그들은 새로운 것을 생성하기 위해 기존의 텍스트와 시각적 콘텐츠를 사용합니다.


반면에 검색 엔진은 AI를 사용하여 검색 결과를 향상시킬 수 있습니다. 생성 AI와 마찬가지로 검색 AI도 자연어 입력을 이해하는 데 사용될 수 있습니다. 생성 AI와 달리 검색 엔진은 새롭고 참신한 콘텐츠를 생성하지 않습니다. 두 기술 모두 함께 또는 독립적으로 사용할 수 있습니다. 생성적 AI 기술은 창의적인 결과물을 지원하는 데 사용될 수 있으며, 검색은 주문 결과를 필터링하고 순위를 지정하는 데 사용됩니다. 새로운 패션 아이디어를 찾는 사람은 채팅 봇에게 최신 트렌드가 무엇인지 물어보고 결과를 얻은 다음 검색을 사용하여 결과를 찾을 수 있습니다. 또는 검색을 사용하여 제품을 찾은 다음 채팅을 통해 각 결과의 장단점을 설명하도록 요청할 수도 있습니다.


생성적 채팅 AI와 검색 AI 모두 자연어에 대한 이해를 통해 더 나은 사용자 경험을 제공하는 경우가 많습니다.

AI 검색에서도 LLM을 사용하나요?

LLM(대형 언어 모델)이 한동안 사용되어 왔지만 GPT가 이를 주목하게 되었습니다. LLM은 자연어 텍스트를 처리하고 생성하도록 훈련된 인공 지능 모델입니다. 이러한 모델은 일반적으로 딥 러닝 기술을 사용하여 구축되며 훈련을 위해 막대한 양의 데이터와 컴퓨팅 리소스가 필요합니다. Algolia에서는 LLM도 사용하지만 기계 이해를 돕기 위해 사용합니다. 우리는 LLM을 사용하여 쿼리를 결과와 비교하는 데 사용할 수 있는 벡터를 만듭니다.

벡터 검색이란 무엇입니까?

벡터화는 단어를 벡터(숫자)로 변환하여 해당 의미를 수학적으로 인코딩하고 처리하는 프로세스입니다. 벡터는 무언가를 나타내는 숫자 그룹으로 생각할 수 있습니다. 실제로 벡터는 동의어 자동화, 문서 클러스터링, 쿼리의 특정 의미와 의도 감지, 결과 순위 지정에 사용됩니다. 임베딩은 매우 다양하며 전체 문서, 이미지, 비디오, 오디오 등과 같은 다른 개체도 임베딩할 수 있습니다.


벡터 검색은 인덱스에 포함된 개체 간의 의미적 관계를 감지하는 기계 학습 모델을 사용하여 단어 임베딩(또는 이미지, 동영상, 문서 등)을 사용하여 비슷한 특성을 가진 관련 개체를 찾는 방법입니다.


벡터 공간 크기를 보여주는 이미지입니다. 유사성은 종종 유클리드 거리 또는 코사인 유사성을 사용하여 측정됩니다.


벡터 유사성을 계산하기 위한 ANN(Approximous Nearest Neighbor) 알고리즘은 다양합니다. HNSW(Hierarchical Navigable Small World), IVF(Inverted File) 또는 PQ(Product Quantization, 벡터의 차원 수를 줄이는 기술)와 같은 기술은 벡터 간의 유사성을 찾는 데 가장 널리 사용되는 ANN 방법 중 일부입니다. 각 기술은 PQ를 통한 메모리 감소 또는 HNSW 및 IVF를 통한 빠르고 정확한 검색 시간과 같은 특정 성능 속성을 개선하는 데 중점을 둡니다. 주어진 사용 사례에 대한 최적의 성능을 달성하기 위해 '복합' 인덱스를 생성하기 위해 여러 구성 요소를 혼합하는 것이 일반적인 관행입니다.


벡터 작업 시 어려운 점 중 하나는 크기입니다. 특수한 데이터베이스와 GPU 관리가 필요한 매우 큰 문자열인 경향이 있습니다. 신경 해싱은 신경망을 사용하여 벡터를 압축하여 표준 벡터 계산보다 최대 500배 빠르게 처리하고 상용 하드웨어에서 실행할 수 있도록 하는 새로운 프로세스입니다.

키워드+벡터… 하이브리드 검색이란?

하이브리드 검색은 벡터 검색과 키워드 검색을 결합한 것입니다. 벡터 검색은 모호하거나 광범위한 검색에 적합하지만 키워드 검색은 여전히 정확한 쿼리에 적합합니다. 예를 들어, 키워드 엔진에서 "Adidas"를 검색하면 기본적으로 Adidas 브랜드만 표시됩니다. 벡터 엔진의 기본 동작은 Nike, Puma, Adidas 등이 모두 동일한 개념 공간에 있기 때문에 비슷한 결과를 반환하는 것입니다. 키워드 검색은 여전히 특정 의도를 가진 짧은 쿼리에 대해 더 나은 결과를 제공합니다.


하이브리드 검색은 정확한 일치와 간단한 구문에 대한 속도와 정확성을 제공하는 두 단어의 장점을 모두 제공하는 반면, 벡터는 롱테일 쿼리를 개선하고 새로운 검색 솔루션의 문을 열어줍니다. Algolia에서는 하이브리드 AI 솔루션인 Algolia NeuralSearch가 곧 출시될 예정입니다. 자세히 알아보기


여기에도 게시되었습니다.