저자 : Liang Wang (Microsoft Corporation) Nan Yang (Microsoft Corporation) Xiaolong Huang (Microsoft Corporation) Binxing Jiao (Microsoft Corporation) Linjun Yang (Microsoft Corporation) Daxin Jiang (Microsoft Corporation) Rangan Majumder (Microsoft Corporation) Furu Wei (Microsoft Corporation) 저자 : Liang Wang (마이크로소프트 회사) Nan Yang (마이크로소프트 회사) Xiaolong Huang (마이크로소프트 회사) Binxing Jiao (마이크로소프트 회사) Linjun Yang (마이크로소프트 회사) Daxin Jiang (마이크로소프트 회사) Rangan Majumder (마이크로소프트 회사) Furu Wei (마이크로소프트 회사) abstract에 대하여 이 문서는 E5을 소개합니다. 이 모델은 대규모 텍스트 쌍 데이터 세트(CCPairs)에서 약한 감독 신호와 대조적으로 훈련되었습니다. E5는 검색, 클러스터링 및 분류와 같은 텍스트의 단일 벡터 표현을 필요로하는 모든 작업에 대 한 일반적인 삽입 모델로 쉽게 사용할 수 있습니다. 우리는 BEIR 및 MTEB 벤치마크에서 56 개의 데이터 세트에 대한 광범위한 평가를 수행합니다. 제로 샷 설정을 위해 E5는 어떤 표지 데이터를 사용하지 않고도 BEIR 벤치마크에서 강력한 BM25 벤치마크를 뛰어넘는 최초의 모델입니다. 1 1 소개 텍스트 삽입은 임의의 길이 텍스트에 대한 낮은 차원 벡터 표현이며 대규모 탐색과 같은 많은 NLP 작업에서 핵심 역할을합니다. TF-IDF와 같은 고차원 및 희귀 표현에 비해 텍스트 삽입은 논리적 불일치 문제를 극복하고 텍스트 간의 효율적인 검색 및 일치성을 촉진 할 수있는 잠재력을 가지고 있습니다. BERT와 같은 사전 훈련 된 언어 모델을 사용하는 동안 [ 그리고 GPT [ ]은 전송 가능한 텍스트 표현을 생산할 수 있으며, 텍스트의 단일 벡터 삽입이 효율성과 유연성 때문에 더 바람직한 텍스트 검색 및 텍스트 일치와 같은 작업에 이상적이지 않습니다. 더 나은 텍스트 삽입을 얻으려면 대조 학습은 종종 텍스트 쌍의 시퀀스 수준의 표현을 향상시키기위한 가이드 프레임 워크입니다.이 연구 라인에서 일부 작품은 작업 특정 삽입을 배우는 방향으로 향하고 있습니다. 예를 들어, GTR [ ] 및 Sentence-T5 [ ] 지시된 데이터 세트로 미리 훈련된 모델을 조정하여 각각 통로 검색 및 세마닉 텍스트 유사성을 위해 사용자 지정된 삽입을 배웁니다.다른 작품은 자동으로 구축된 텍스트 쌍에서 감독되지 않은 삽입을 배웁니다.텍스트 쌍을 구축하는 일반적인 방법은 Inverse Close Task (ICT)를 포함합니다. [ ], 임의의 크로프링 [ ] 및 이웃 텍스트 스페인 [ ], 등등 그러한 합성 데이터는 무제한의 양이지만, 그들은 종종 품질이 좋지 않으며 결과적 인 삽입은 추가 정렬없이 고전적인 BM25 기본 라인의 성능과 일치하지 못합니다. 17 7 43 44 9 28 41 [ 40 ] 이 작업에서 우리는 E5라고 불리는 고품질의 일반 목적 텍스트 삽입을 배웁니다. MB ddings from 비디르 센트럴 코드 R 프레젠테이션. E5는 제로 샷 또는 미세 조정 설정에서 싱글 벡터 표현을 필요로하는 모든 작업에 적합한 강력한 오프 텍스트 삽입을 제공하는 것을 목표로합니다. 이 목표를 달성하기 위해, 제한된 라벨 된 데이터 또는 낮은 품질의 합성 텍스트 쌍에 의존하는 대신, 우리는 CCPairs에서 E5 삽입을 훈련합니다. 우리는 CommunityQA, Common Crawl 및 Scientific Papers와 같은 다양한 반구성 데이터 원본을 결합하여 CCPairs 데이터 세트를 구축하고 일관성 기반 필터로 공격적인 필터링을 수행합니다. [ ] 데이터 품질을 향상시키기 위해 우리는 큰 배치 크기로 배치 부정자를 사용하여 간단한 대조 학습 조리법을 선택합니다. BEIR 및 MTEB 벤치마크에 대한 광범위한 실험은 제안 된 방법의 효과를 보여줍니다. ], E5는 어떤 표시된 데이터를 사용하지 않고도 강한 BM25 기준을 뛰어넘는 최초의 모델입니다. 라벨된 데이터 세트에 미세 조정하면 성능이 더 향상 될 수 있습니다. 최근 소개된 MTEB 벤치마크에서 56 데이터 세트에 대한 결과 [ 우리의 E5base가 40x 더 많은 매개 변수를 가진 GTRxxl 및 Sentence-T5xxl에 경쟁력을 보여줍니다. E E E E E 15 53 40 2 관련 작업 텍스트를 낮은 차원 밀접한 삽입으로 변환하는 데 오랜 관심이 있습니다. Early works include Latent Semantic Indexing (LSA) [ 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 라틴어 LSA는 문서 삽입을 생성하기 위해 Word-Document co-occurrence 매트릭스의 분해를 이용하고, LDA는 테마 분포를 배우기 위해 확률적 그래픽 모델을 채택한다. 단어 벡터의 간단한 중량 평균을 보여줍니다 [ ] 문장 삽입에 대한 강력한 기초가 될 수 있습니다. 16 3 아로라 그리고 알 38 사전 훈련된 언어 모델의 개발과 함께 [ , , [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] 마르코 마르코 마르코 ], Sentence-BERT 같은 방법 [ [ [중고] 제5장 [중고] [중고] 스페인 대부분의 연구는 짧은 텍스트에 초점을 맞추고 따라서 "문장 삽입"이라는 용어를 사용합니다. 긴 문서의 경우, 고정 길이 삽입이 모든 정보를 인코딩할 수 있는지 여부에 대한 개방적인 연구 질문이 남아 있습니다. ]는 분류 기반 손실보다 효과적인 것으로 밝혀집니다 [ , 레이저 [ ] ] and CLIP [ ] further extend to multilingual and multi-modal scenarios using parallel sentences and image-text pairs. 17 35 48 6 8 49 22 44 39 10 49 14 20 2 47 또 다른 방향은 텍스트 일치 및 검색을위한 자체 감독 프리 트레이닝 작업을 설계하는 것입니다. [ ]은 잘 알려진 invers cloze 과제(ICT)를 제안하며, 한 구절 내의 무작위 문구가 pseudo-query로 선택되고 나머지는 긍정적 인 샘플로 취급됩니다. ]은 데이터 증폭을 사용한 무작위 컬링이 제로 샷 정보 검색 작업의 범위에서 ICT보다 효과적이라는 것을 보여줍니다.OpenAI text embeddings [ 이웃 텍스트를 긍정적으로 사용하고 모델 크기를 175B로 확장합니다. 도메인 내 결과를 향상시키기 위해 도메인에 맞는 사전 훈련을 수행합니다. SPAR [ ] BM25를 교사 모델로 취급함으로써 밀접한 리트리버를 훈련합니다. 앞서 언급한 접근법은 풍부한 감독 신호를 쉽게 얻을 수 있지만, 그러한 합성 데이터는 낮은 품질의 경향이 있습니다. 그들은 BM25의 성능과 일치하기 위해 어려움을 겪고 있음을 보여주며, 더 이상 라벨링된 데이터 세트에 미묘하게 조정되지 않는다. 9 28 41 [45 ] 11 53 텍스트 삽입의 평가 및 해석은 또한 비정상적입니다. 대부분의 벤치마크는 내부 작업 성능을 통해 삽입 품질을 측정합니다. 예를 들어, SentEval [ ]는 선형 탐사 및 세마닉 텍스트 유사성 (STS) 데이터 세트의 수집을 사용하는 반면 BEIR 벤치마크 [ [MTEB 벤치마크] 최근 소개된 MTEB 벤치마크 [ ]은 8개의 작업과 112개의 언어에 걸쳐 56개의 데이터 세트를 결합합니다.실험은 어떤 모델도 아직 모든 삽입 작업에서 최첨단 결과를 얻을 수 없음을 보여줍니다.이 논문에서는 선형 탐색 설정이 최적화 하이퍼 파라미터에 의존하기 때문에 SentEval 도구 키트를 사용하지 않습니다. 13 53 40 우리의 일과 가장 밀접하게 관련된 것은 커뮤니티 활동의 일련이다. 레이블 및 자동으로 수집된 데이터 세트의 컬렉션을 사용하여 삽입을 훈련시킬 수 있습니다.이 논문에서 우리는 자체 감독 프리 트레이닝만을 사용하여 고품질의 삽입을 훈련시킬 수 있음을 보여줍니다. 벤치마크 결과의 측면에서, 우리의 모델은 덜 레이블 된 데이터에 미세 조정할 때 우수한 성능을 달성할 수 있습니다. 변형사 2 3 CCPairs: A Large Collection of Text Pair 데이터 세트 데이터의 품질과 다양성은 일반적인 목적의 텍스트 삽입을 훈련하는 데 중요합니다.이 작업에서 우리는 CCPairs, 다양한 교육 신호를 제공하는 웹 소스에서 높은 품질의 텍스트 쌍 데이터 세트를 광범위한 작업에 잘 전송하는 CCPairs를 마이닝 및 조립합니다. C4와 같은 대규모 고품질 데이터 세트 [ ] 그리고 CCMatrix [ ]은 언어 모델 사전 훈련 및 기계 번역의 성공에 필수적입니다.For learning text embeddings, existing works either utilize small-scale human-annotated data such as NLI [ 마르코 마르코 마르코 (또는 옥수수와 같은 옥수수와 같은 옥수수를 사용하십시오.) ] 대규모하지만 매우 시끄러운 감독 신호를 얻기 위해. Harvesting semi-structured data sources 48 51 22 8 28 텍스트 쌍 데이터 세트 CCPairs ( 오로지 Lean 텍스트 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨부된 첨 , ) 쿼리로 구성된 텍스트 쌍을 나타냅니다.Denotes a text pair consisting of a query 그리고 한 통로 여기서 우리는 사용합니다.” 짧은 문장, 단락 또는 긴 문서 일 수있는 임의의 길이의 단어 순서를 나타냅니다.Our dataset includes (post, comment) pairs from Reddit , (문제, 승인된 대답) Stackexchange의 쌍 , (entity name + section title, passage) pairs from English Wikipedia, (title, abstract) and citation pairs from Scientific papers [영어 위키피디아] ], and (title, passage) pairs from Common Crawl 에서 웹사이트 및 다양한 뉴스 소스 C C Pairs q p q p passage 3 4 36 5 Reddit 및 Common Crawl에서 데이터를 필터링하기 위해 간단한 heuristic 규칙이 적용됩니다. 4096 문자) 또는 1 미만의 점수를 얻고 높은 혼란을 가진 웹 페이지에서 단편을 제거합니다. ]. 예비 필터링 후, 우리는 ∼ 1 * * 3 억 텍스트 쌍을 얻었으며, 대부분은 Reddit 및 Common Crawl에서 온다. > 60 A 는 To further improve data quality and make training costs manageable, we propose a consistency-based data filtering technique: a model is first trained on the 1*.*3B noisy text pairs, and then used to rank each pair against a pool of 1 million random passages. A text pair is kept only if it falls in the top- 다른 말로하면, 모델의 예측은 훈련 라벨과 일치해야합니다. = 2는 데이터 품질의 수동 검사에 기초합니다.이 단계 후에 우리는 대조적 인 사전 훈련을 위해 ∼ 270M 텍스트 쌍을 얻습니다. Consistency-based filter k k 이 기술에 대한 직감은 신경 네트워크의 기억 행동에서 비롯됩니다 [ ] : 시끄러운 데이터 세트에 대해 훈련 할 때, 신경 네트워크는 먼저 깨끗한 라벨을 기억하고 점차적으로 시끄러운 라벨을 초과하는 경향이 있습니다. , , 또한 이 필터를 반복적으로 적용 할 수 있습니다, 우리는 미래의 작업을 위해 그것을 남길 것입니다. 19 42 15 23 4 방법 우리의 삽입은 대조적 인 사전 훈련을 가진 CCPairs의 라벨이없는 텍스트 쌍으로만 훈련 할 수 있습니다.작은 고품질의 레이블 데이터 세트에 대한 두 번째 단계의 미세 조정은 결과적인 삽입의 품질을 더욱 향상시키기 위해 수행 될 수 있습니다. 전망을 위한 1 4.1 Contrastive Pre-training with Unlabeled Data 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의거하여 제2항의 규정에 의 ) 를 , 우리는 부정적인 항목의 목록을 할당 { = 1 for the -th 예제.그리고 InfoNCE 대조적 손실 그것은 다음과 같습니다 : QI, PI n p M I i [ 10 ] 어디 ( ) 쿼리 사이의 점수 함수입니다. is a scoring function between query and passage Parameterized by 인기있는 biencoder 아키텍처를 따르고, 우리는 사전 훈련 된 Transformer 인코더와 출력 층에 대한 평균 집합을 사용하여 고정 크기의 텍스트 삽입을 얻습니다. 그리고 점수는 온도 하이퍼 파라미터에 의해 확장된 코신 유사성이다.The score is the cosine similarity scaled by a temperature hyperparameter. : : Q, P q p θ E q E p τ θ θ 어디 is set to 0.01 in our experiments by default. We use a shared encoder for all input texts and break the symmetry by adding two prefix identifiers 그리고 to 그리고 respectively. For some data sources such as citation pairs, it is not obvious which side should be the query, we randomly choose one for simplicity. Such an asymmetric design turns out to be important for some retrieval tasks where there exist paraphrases of the query in the target corpus. τ 쿼리 : ‘여행’ : q d 대조적인 훈련을위한 또 다른 중요한 문제는 부정적인 샘플을 선택하는 방법입니다. 여기서 우리는 배치 부정적인 샘플을 사용하기로 선택합니다. [ ], 배치의 다른 쌍의 통과가 부정적인 샘플로 봉사하는 곳.우리는이 간단한 전략이 더 안정적인 훈련을 가능하게하고 MoCo와 같은 방법을 뛰어넘는 것을 발견합니다. 배치 크기가 충분히 크면 10 [ 25 ] 4.2 Fine-tuning with Labeled Data에 대한 정보 CCPairs에 대한 대조적 인 사전 훈련은 일반적인 목적의 삽입에 대한 견고한 기초를 제공하는 반면, 라벨 된 데이터에 대한 추가 훈련은 성능을 향상시키기 위해 모델에 인간의 지식을 주입 할 수 있습니다. , ] 감독된 미세 조정이 일관된 성능 향상으로 이어지는 것을 보여주었습니다.이 논문에서, 우리는 3 개의 데이터 세트의 조합으로 추가 훈련을 선택합니다: NLI (Natural Language Inference), MS-MARCO 통과 순위 데이터 세트 [ ], and NQ (Natural Questions) dataset [ , 경험적으로 STS (Semantic Textual Similarity) 및 선형 탐색과 같은 작업은 NLI 데이터에서 혜택을 얻고 MS-MARCO 및 NQ 데이터 세트는 검색 작업에 잘 전달됩니다. 43 44 6 8 30 32 훈련을 위한 최첨단 밀접한 리트리버(State-of-the-art dense retriever) , ], 우리는 MS-MARCO 및 NQ 데이터 세트에 대 한 교차 인코더 (CE) 교사 모델에서 광산 하드 부정자 및 지식 증식을 사용 합니다. NLI 데이터 세트의 경우, 모순 문장은 하드 부정자로 간주됩니다. Hard Labels and KL Divergence에 대한 설명 교사 모델에서 부드러운 라벨을 파스팅하기 위한 KL. 50 58 L D 어디 CE 및 stu는 교차 인코더 교사 모델과 학생 모델의 확률입니다. is a hyperparameter to balance the two loss functions. 숫자는 균형에서와 동일합니다.cont is the same as in Equation p p α L 1. 4.3 Text Embedding Tasks에 대한 응용 프로그램 위의 두 단계를 수행하면 모델 매개 변수를 정의하지 않고도 다양한 작업에 잘 전달되는 고품질 텍스트 삽입을 얻을 수 있습니다.최근의 이웃 검색과 같은 기술과 결합하면, 삽입은 웹 검색과 같은 응용 프로그램에 대한 확장 가능한 효율적인 솔루션을 제공합니다. 첫째, 타겟 코르푸스의 통로 삽입은 계산되고 오프라인으로 인덱스됩니다.그리고 각 쿼리에 대해, 우리는 그 쿼리 삽입을 계산하고 상단값을 반환합니다. ranked lists from the corpus based on cosine similarity. Zero-shot Retrieval k A linear classifier is trained on top of the frozen embeddings with a few labeled examples. Different tasks only need to train and save the parameters of the classification heads. It can be seen as a particular form of parameter-efficient learning Few-shot Text Classification [ 27 ] 입력 및 레이블 텍스트는 수동으로 작성된 프롬프트 템플릿을 기반으로 한 문자로 변환됩니다.The predicted label is the one closest to the input text in the embedding space.Take the sentiment classification of movie reviews as an example, with the original input. ”, 라벨의 텍스트는 “ "and the input text becomes"에 해당되는 글 1건 』 Zero-shot Text Classification I enjoy watching it 그것은 끔찍한 / 위대한 영화 리뷰의 예입니다. 영화 리뷰: 나는 그것을 보는 것을 즐긴다 두 개의 텍스트 삽입을 감안할 때, 우리는 코신 함수를 사용하여 그들의 의미적 유사성을 측정합니다.Absolute similarity scores do not allow an easy interpretation, the evaluation is usually based on rank correlation coefficients. Semantic Textual Similarity k-means와 같은 표준 클러스터링 알고리즘을 간단하게 적용할 수 있습니다.Text belonging to the same category is expected to be close in the embedding space. Text Clustering 제로 샷 텍스트 분류 및 검색 이외의 작업에서는 기본적으로 쿼리 삽입을 사용합니다.For tasks other than zero-shot text classification and retrieval, we use the query embeddings by default. 5 실험 5.1 Pre-training and Fine-tuning Configurations E5small, E5base 및 E5large는 MiniLM [59], bert-base-uncased, and bert-large-uncased-whole-wordmasking에서 초기화된 데이터 세트를 3 개의 모델 크기로 설정합니다. 배치 크기는 부정적인 숫자를 증가시키기 위해 32, 768의 큰 값으로 설정됩니다. 학습 속도는 {3, 2, 1} × 10−4 {작은, 기본, 큰} 모델, 선형 붕괴와 최초의 1,000 단계를 따뜻하게합니다. 우리는 AdamW optimizer로 총 20k 단계를 사전 훈련합니다. 이는 데이터 세트보다 약 2.5 시대입니다. {16, 32, 64} V100 GPU와 {1, 1, 2} 일 {작은, 기본, 큰} 모델을 위해. 훈련 효율을 향상시키고 Pre-training is performed on the concatenation of 3 datasets: MS-MARCO passage ranking [ NQ (NQ) , 그리고 엘리야는 ] datasets. We reuse the mined hard negatives and re-ranker scores from SimLM [ ] for the first two datasets. Models are fine-tuned for 3 epochs with batch size 256 on 8 GPUs. Learning rate is {3*,* 2*,* 1}×10−5 for the {small, base, large} models with 400 steps warmup. For each example, we use 7 hard negatives. Since the NLI dataset only has 1 hard negative for each example, 6 sentences are randomly sampled from the entire corpus. Fine-tuning 8 32 30 22 58 We use E5-PT to denote models with contrastive pre-training only. More implementation details can be found in Appendix B 는 5.2 Evaluation Datasets ad-hoc web search, question answering, fact verification, duplicate question retrieval, etc. 우리는 공개 다운로드를 제공하는 15개 데이터 세트를 평가합니다. BEIR Benchmark [ ] 53 53 is recently proposed for benchmarking massive text embedding tasks. Though MTEB is multilingual due to the inclusion of bitext mining datasets, most datasets are still only available in English. In this paper, we evaluate the English subsets, which have 56 datasets spanning across 6 categories: Classification (Class.), Clustering (Clust.), Pair Classification (PairClass.), Rerank, Retrieval (Retr.), STS, and Summarization (Summ.). The evaluation metrics are accuracy, v-measure, average precision, MAP, nDCG@10, and Spearman coefficients, respectively. Please refer to the MTEB paper for details. MTEB Benchmark [ ] 40 40 5.3 Results on BEIR benchmark 테이블에 we show model results that do not use any labeled data. When averaged over all 15 datasets, E5-PTbase outperforms the classic BM25 algorithm by 1*.*2 points. To the best of our knowledge, this is the first reported result that an unsupervised model can beat BM25 on the BEIR benchmark. When scaling up to E5-PTlarge, we see further benefits from42. *2. Results with Unsupervised Methods 1, 9 to 44 In terms of pre-training tasks, Contriever adopts random cropping, while LaPraDor combines ICT and dropout-as-positive-instance from SimCSE. The methods can easily obtain large-scale training data, while our approach requires more effort in dataset curation. Such efforts pay off with better results. Recent studies [ , , ] also show that improving data quality is a vital step for training large language models. 34 60 21 In Table we fine-tune our models on supervised datasets and then transfer them to the BEIR benchmark. Since our fine-tuning datasets include MS-MARCO and NQ, the corresponding numbers are in-domain results. For other datasets, these are zero-shot transfer results. Our E5base model achieves an average nDCG@10 of 48*.*7, already surpassing existing methods with more parameters such as GTRlarge [ ]. Most datasets benefit from supervised fine-tuning, but there are also a few exceptions such as FiQA, Scidocs, and Fever, etc. This is likely due to the lack of enough domain diversity for the fine-tuning datasets. Results with Supervised Fine-tuning 2, 43 5.4 Results on MTEB benchmark In Table E5 models not only substantially outperform existing ones with similar sizes, but also match the results of much larger models. The top-2 models on MTEB leaderboard GTRxxl and Sentence-T5xxl have 4*.*8B parameters, while our E5large model is more than 10× smaller with 300M parameters. We expect that our model will benefit from continual scaling up. 3, 7 Since the difference between BERT-FTbase and E5base is that BERT-FTbase only has fine-tuning stage, their performance gap demonstrates the usefulness of contrastive pre-training on our proposed CCPairs dataset. For most task categories except Clustering, performance improves after supervised fine-tuning. Consistent with prior works [ , ], this once again demonstrates the importance of incorporating human knowledge for learning better text embeddings. It remains an open question whether state-of-the-art embeddings can be obtained in a purely self-supervised manner. 43 44 Table shows the zero-shot text classification results on the dev set of the SST-2 dataset [ ]. By formulating text classification as embedding matching between input and label texts, our model can be much better than the “majority” baseline in a zero-shot setting. We use the prompt template from Section 4 52 4.3. 5.5 분석 이 섹션에서는 다양한 디자인 선택을 검토하기 위해 분석 시리즈를 수행합니다.이 섹션의 모든 숫자는 기본 크기의 모델에서 나옵니다.BEIR 벤치마크를 위해, 우리는 다른 실행에 걸쳐 더 안정적인 결과를 가진 6 개의 데이터 세트를 선택합니다. C. Since we use in-batch negatives for contrastive pre-training, larger batch size will provide more negatives and therefore improve the quality of the learned text embeddings. In Table increasing batch size from 1K to 32K leads to consistent gains across all 6 datasets. It is also possible to train with smaller batch sizes by adding hard negatives [ ]. However, the engineering efforts of mining hard negatives for large datasets (>100M) are non-trivial. Impacts of Batch Size 5, 50 GTR models are fine-tuned with “MS-MARCO + NQ”, while Sentence-T5 models use NLI instead. In Table we can see that the “MS-MARCO + NQ” setting performs best on retrieval tasks, and the NLI data is beneficial for STS and linear probing classification. Similar observations are also made by Muennighoff et al. . Combining all of them leads to the best overall scores on the MTEB benchmark. This also illustrates the importance of dataset diversity for learning text embeddings. Fine-tuning Datasets 6, [40] One crucial step in our dataset curation pipeline is filtering out low-quality text pairs. In Table when training with 1M pairs, using filtered data has a nearly 6 points advantage. When all the text pairs are used, the “w/o filter” setting has about 4× more data but is still behind by 1*.*6 points. Though recent studies [ , ] show that deep learning models are quite robust to dataset noises, data filtering still has benefits in improving training efficiency and model quality. Data Filtering 7, 29 47 We explore two alternative methods to enlarge the number of negatives: Pre-batch negatives [ ] reuse embeddings from previous batches as additional negatives, while MoCo Negative Sampling 33 [ ] introduces a momentum encoder and uses a FIFO queue to store negatives. For both approaches, the negative size can be easily scaled up without incurring much GPU memory overhead. The downside is that most negatives are produced by an older version of model parameters. In Table in-batch negatives still perform favorably. Empirically, we find that MoCo is more sensitive to certain hyperparameters such as temperature, better results are possible with more tuning. 25 8 , With the rapid development of dense retrieval models, can we replace the long-standing BM25 algorithm from now on? The answer is likely “ ”. BM25 still holds obvious advantages in terms of simplicity, efficiency, and interpretability. For long-tail domains such as Trec-Covid [ ] 및 긴 문서를 포함하는 검색 작업 (Touche-2020) [ ] or rely heavily on exact lexical match (Fever) [ ], further research efforts are still necessary to improve current dense retrievers. BM25 vs Dense Retrieval not yet 55 4 54 6 Conclusion In this work, we train a general-purpose text embedding model E5 from weak supervision signals. We adopt a simple contrastive training framework with in-batch negatives and learn from a large-scale text pair dataset we harvest from heterogeneous data sources across the web. E5 offers strong off-the-shelf performance for a wide range of tasks requiring single-vector text representations such as retrieval, semantic textual similarity, and text matching. When further customized for downstream tasks, E5 achieves superior fine-tuned performance compared to existing embedding models with 40× more parameters on the large, 56-task MTEB benchmark datasets. References [1] Sanjeev Arora, Yingyu Liang, and Tengyu Ma. A simple but hard-to-beat baseline for sentence embeddings. . OpenReview.net, 2017. URL . 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, 2017년 4월 24~26일, Conference Track Proceedings https://openreview.net/forum?id=SyK00v5xx [2] Mikel Artetxe와 Holger Schwenk. massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond. , 7:597–610, 2019. doi: 10.1162/tacl_a_00288. URL . . Transactions of the Association for Computational Linguistics https://aclanthology org/Q19-1038 [3] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. In Thomas G. Dietterich, Suzanna Becker, and Zoubin Ghahramani, editors, , pages 601–608. MIT Press, 2001. URL . Advances in Neural Information Processing Systems 14 [Neural Information Processing Systems: Natural and Synthetic, NIPS 2001, December 3-8, 2001, Vancouver, British Columbia, Canada] https://proceedings.neurips.cc/paper/2001/hash/ 296472c9542ad4d4788d543508116cbc-Abstract.html [4] Alexander Bondarenko, Maik Fröbe, Johannes Kiesel, Shahbaz Syed, Timon Gurcke, Meriem Beloucif, Alexander Panchenko, Chris Biemann, Benno Stein, Henning Wachsmuth, et al. Overview of touché 2022: argument retrieval. In , pages 311–336. Springer, 2022. International Conference of the Cross-Language Evaluation Forum for European Languages [5] Vera Boteva, Demian Gholipour, Artem Sokolov, and Stefan Riezler. A full-text learning to rank dataset for medical information retrieval. In , pages 716–722. Springer, 2016. European Conference on Information Retrieval [6] Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. A large annotated corpus for learning natural language inference. In , pages 632–642, Lisbon, Portugal, 2015. Association for Computational Linguistics. doi: 10.18653/v1/D15-1075. URL Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing https: . // aclanthology.org/D15-1075 [7] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhari-wal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learn-ers. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin, editors, , 2020. URL . Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual https://proceedings.neurips.cc/paper/2020/hash/ 1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html [8] Daniel Fernando Campos, Tri Nguyen, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, Li Deng, and Bhaskar Mitra. Ms marco: A human generated machine reading comprehension dataset. , abs/1611.09268, 2016년 ArXiv [9] Wei-Cheng Chang, Felix X. Yu, Yin-Wen Chang, Yiming Yang, and Sanjiv Kumar. Pre-training tasks for embedding-based large-scale retrieval. In . OpenReview.net, 2020. URL . 8th International Conference on Learning Representations, ICLR 2020, 아디스 아바바, 에티오피아, 4월 26-30, 2020 https://openreview.net/forum?id=rkg-mA4FDr [10] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey E. Hinton. A simple framework for contrastive learning of visual representations. , volume 119 of , pages 1597–1607. PMLR, 2020. URL Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event Proceedings of Machine Learning Research http: . //proceedings.mlr.press/v119/chen20j.html 에 해당되는 글 1건 [11] Xilun Chen, Kushal Lakhotia, Barlas Og˘uz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta, and Wen-tau Yih. Salient phrase aware dense retrieval: Can a dense retriever imitate a sparse one? , 2021. arXiv 사전 프린트 arXiv:2110.06918 [12] Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, and Daniel S Weld. Specter: Document-level representation learning using citation-informed transformers. , pages 2270–2282, 2020. 컴퓨팅 언어학 협회 58회 연례 회의 [13] Alexis Conneau and Douwe Kiela. SentEval: An evaluation toolkit for universal sentence representations. In , Miyazaki, Japan, 2018. European Language Resources Association (ELRA). URL . Proceedings of the Eleventh International Conference on Language Re-sources and Evaluation (LREC 2018) https://aclanthology.org/L18-1269 [14] Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, and Antoine Bordes. Super-vised learning of universal sentence representations from natural language inference data. In , pages 670–680, Copenhagen, Denmark, 2017. Association for Computational Linguistics. doi: 10.18653/v1/D17-1070. URL . Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing https://aclanthology.org/D17-1070 [15] Zhuyun Dai, Vincent Zhao, Ji Ma, Yi Luan, Jianmo Ni, Jing Lu, Anton Bakalov, Kelvin Guu, Keith B. Hall, and Ming-Wei Chang. Promptagator: Few-shot dense retrieval from 8 examples. , abs/2209.11755, 2022. ArXiv [16] Scott Deerwester, Susan T Dumais, George W Furnas, Thomas K Landauer, and Richard Harshman. Indexing by latent semantic analysis. , 41(6):391–407, 1990. Journal of the American society for information science [17] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In , pages 4171–4186, Minneapolis, Minnesota, 2019. Association for Computational Linguistics. doi: 10.18653/v1/N19-1423. URL . Proceedings of the 2019 Confer-ence of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) https://aclanthology.org/N19-1423 [18] Thomas Diggelmann, Jordan Boyd-Graber, Jannis Bulian, Massimiliano Ciaramita, and Markus Leippold. Climate-fever: A dataset for verification of real-world climate claims. , 2020. arXiv preprint arXiv:2012.00614 [19] Vitaly Feldman 및 Chiyuan Zhang. 신경 네트워크는 무엇을 기억하고 왜 : 영향 추정을 통해 긴 꼬리를 발견. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin, editors, , 2020. URL . Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual https://proceedings.neurips.cc/ paper/2020/hash/1e14bfe2714193e7af5abc64ecbd6b46-Abstract.html [20] Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, and Wei Wang. Language-agnostic bert sentence embedding. In , pages 878–891, 2022. Computational Linguistics Association의 60th Annual Meeting Proceedings (Volume 1: Long Papers) [21] Leo Gao, Stella Rose Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, and Connor Leahy. The pile: An 800gb dataset of diverse text for language modeling. , abs/2101.00027, 2021. ArXiv [22] Tianyu Gao, Xingcheng Yao, and Danqi Chen. SimCSE: Simple contrastive learning of sentence embeddings. In , pages 6894–6910, Online and Punta Cana, Dominican Republic, 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.emnlp-main.552. URL . Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing https://aclanthology.org/2021.emnlp-main.552 [23] Bo Han, Quanming Yao, Xingrui Yu, Gang Niu, Miao Xu, Weihua Hu, Ivor W. Tsang, and Masashi Sugiyama. Co-teaching: Robust training of deep neural networks with extremely noisy labels. In Samy Bengio, Hanna M. Wallach, Hugo Larochelle, Kris-ten Grauman, Nicolò Cesa-Bianchi, and Roman Garnett, editors, , Advances in Neu-ral Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montréal, Canada pages 8536–8546, 2018. URL . https://proceedings.neurips.cc/paper/2018/hash/ a19744e268754fb0148b017647355b7b-Abstract.html [24] Faegheh Hasibi, Fedor Nikolaev, Chenyan Xiong, Krisztian Balog, Svein Erik Bratsberg, Alexander Kotov, and Jamie Callan. Dbpedia-entity v2: a test collection for entity search. In , pages 1265–1268, 2017. Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval [25] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross B. Girshick. Momentum contrast for unsupervised visual representation learning. In , pages 9726–9735. IEEE, 2020. doi: 10.1109/CVPR42600.2020.00975. URL . 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020 https://doi.org/10.1109/ CVPR42600.2020.00975 [26] Doris Hoogeveen, Karin M Verspoor, and Timothy Baldwin. Cqadupstack: A benchmark data set for community question-answering research. In , pages 1–8, 2015. Proceedings of the 20th Australasian document computing symposium [27] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, 그리고 Sylvain Gelly NLP를위한 매개 변수 효율적인 전송 학습. Volume 97 , pages 2790–2799. PMLR, 2019. URL . 제36차 기계 학습 국제 회의, ICML 2019, 2019년 6월 9일부터 15일까지, 롱비치, 캘리포니아, 미국 Proceedings of Machine Learning Research http://proceedings.mlr.press/v97/houlsby19a.html [28] Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, and Edouard Grave. Towards unsupervised dense information retrieval with contrastive learning. , abs/2112.09118, 2021. 아카이브 [29] Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In Marina Meila and Tong Zhang, editors, , volume 139 of , 페이지 4904–4916. PMLR, 2021 URL . 제38차 기계 학습 국제 회의, ICML 2021, 2021년 7월 18~24일, 가상 이벤트 Proceedings of Machine Learning Research http://proceedings.mlr.press/v139/jia21b.html [30] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. Dense passage retrieval for open-domain question answering. , 페이지 6769–6781, 온라인, 2020 계산 언어학 협회. doi: 10. 18653/v1/2020.emnlp-main.550. URL . . Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) https://aclanthology.org/2020.emnlp-main 550 [31] Omar Khattab and Matei Zaharia. Colbert: Efficient and effective passage search via contex-tualized late interaction over BERT. In Jimmy Huang, Yi Chang, Xueqi Cheng, Jaap Kamps, Vanessa Murdock, Ji-Rong Wen, and Yiqun Liu, editors, , pages 39–48. ACM, 2020. doi: 10.1145/3397271.3401075. URL . 정보 수신 분야의 연구 및 개발에 관한 43차 국제 ACM SIGIR 회의, SIGIR 2020, 가상 이벤트, 중국, 2020년 7월 25-30일 https://doi.org/10.1145/3397271.3401075 [32] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei Chang, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, and Slav Petrov. Natural questions: A benchmark for question answering research. , 7:452–466, 2019. doi: 10.1162/tacl_a_00276. URL . Computational Linguistics Association의 거래 https://aclanthology.org/Q19-1026 [33] Jinhyuk Lee, Mujeen Sung, Jaewoo Kang, and Danqi Chen. Learning dense representations of phrases at scale. In , pages 6634–6647, Online, 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.acl-long.518. URL . . Computational Linguistics Association의 59th 연례 회의 및 Natural Language Processing에 관한 11th International Joint Conference (Volume 1: Long Papers) https://aclanthology.org/2021 acl-long.518 [34] Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, and Nicholas Carlini. Deduplicating training data makes language models better. In , 2022. ACL [35] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. , abs/1907.11692, 2019. ArXiv [36] Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel Weld. S2ORC: The semantic scholar open research corpus. In , pages 4969–4983, Online, 2020. Associ-ation for Computational Linguistics. doi: 10.18653/v1/2020.acl-main.447. URL . Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics https://aclanthology.org/2020.acl-main.447 [37] Macedo Maia, Siegfried Handschuh, André Freitas, Brian Davis, Ross McDermott, Manel Zarrouk, and Alexandra Balahur. Www’18 open challenge: financial opinion mining and question answering. In , pages 1941–1942, 2018. Companion proceedings of the the web conference 2018 [38] Tomas Mikolov, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. In , 2013. ICLR [39] Niklas Muennighoff. Sgpt: Gpt sentence embeddings for semantic search. , abs/2202.08904, 2022. ArXiv [40] Niklas Muennighoff, Nouamane Tazi, Loic Magne, and Nils Reimers. Mteb: Massive text embedding benchmark. , abs/2210.07316, 2022. ArXiv [41] Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas A. Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David P. Schnurr, Felipe Petroski Such, Kenny Sai-Kin Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, and Lilian Weng. Text and code embeddings by contrastive pre-training. , abs/2201.10005, 2022. ArXiv [42] Duc Tam Nguyen, Chaithanya Kumar Mummadi, Thi-Phuong-Nhung Ngo, Thi Hoai Phuong Nguyen, Laura Beggel, and Thomas Brox. SELF: learning to filter noisy labels with self-ensembling. In . OpenReview.net, 2020. URL . 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 https://openreview net/forum?id=HkgsPhNYPS [43] Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hern’andez ’Abrego, Ji Ma, Vincent Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, and Yinfei Yang. Large dual encoders are generalizable retrievers. , abs/2112.07899, 2021. ArXiv [44] Jianmo Ni, Gustavo Hernandez Abrego, Noah Constant, Ji Ma, Keith Hall, Daniel Cer, and Yinfei Yang. Sentence-t5: Scalable sentence encoders from pre-trained text-to-text models. In , pages 1864–1874, 2022. Findings of the Association for Computational Linguistics: ACL 2022 [45] Barlas Oguz, Kushal Lakhotia, Anchit Gupta, Patrick Lewis, Vladimir Karpukhin, Aleksandra Piktus, Xilun Chen, Sebastian Riedel, Scott Yih, Sonal Gupta, Yashar Mehdad. 도메인과 일치하는 밀접한 복구를위한 사전 훈련 작업. , pages 1524–1534. Association for Computational Linguistics, 2022. doi: 10.18653/v1/2022.findings-naacl.114. URL . Findings of the Association for Computational Linguistics: NAACL 2022, Seattle, WA, United States, July 10-15, 2022 https://doi.org/10.18653/v1/2022.findings-naacl.114 [46] Fabio Petroni, Aleksandra Piktus, Angela Fan, Patrick Lewis, Majid Yazdani, Nicola De Cao, James Thorne, Yacine Jernite, Vassilis Plachouras, Tim Rocktaschel, 그리고 Sebastian Riedel. Kilt : 지식 집중 언어 작업에 대한 기준. , 2020. North American Chapter of the Association for Computational Linguistics [47] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervi-sion. In Marina Meila and Tong Zhang, editors, , volume 139 of , pages 8748–8763. PMLR, 2021. URL . 제38차 기계 학습 국제 회의, ICML 2021, 2021년 7월 18~24일, 가상 이벤트 Proceedings of Machine Learning Research http://proceedings.mlr.press/v139/radford21a.html [48] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. , 21:1–67, 2020 Journal of Machine Learning Research [49] Nils Reimers와 Iryna Gurevych. Sentence-BERT: Siamese BERT-networks를 사용하여 Sentence embeddings. , pages 3982–3992, Hong Kong, China, 2019. Association for Computational Linguistics. doi: 10.18653/v1/D19-1410. URL . Proceedings of the 2019 Conference on Empirical Methods in Natural Lan-guage Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) https://aclanthology.org/D19-1410 [50] Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, QiaoQiao She, Hua Wu, Haifeng Wang, and Ji-Rong Wen. RocketQAv2: A joint training method for dense passage retrieval and passage re-ranking. In , 페이지 2825–2835, 온라인 및 폰타 카나, 도미니카 공화국, 2021. Computational Linguistics Association. doi: 10.18653/v1/2021.emnlp-main.224. URL . 자연 언어 처리에 대한 경험적 방법에 관한 2021 회의 https://aclanthology.org/2021.emnlp-main.224 [51] Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave, Armand Joulin, and Angela Fan. CCMatrix: Mining billions of high-quality parallel sentences on the web. In , 페이지 6490–6500, 온라인, 2021 계산 언어학 협회. doi: 10.18653/v1/2021.acl-long.507. URL . Computational Linguistics Association의 59th 연례 회의 및 Natural Language Processing에 관한 11th International Joint Conference (Volume 1: Long Papers) https://aclanthology.org/2021.acl-long.507 [52] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, A. Ng, and Christopher Potts. Recursive deep models for semantic compositionality over a sentiment treebank. In , 2013. Conference on Empirical Methods in Natural Language Processing [53] Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, and Iryna Gurevych. Beir: A heterogeneous benchmark for zero-shot evaluation of information retrieval models. In , 2021. 신경정보 처리 시스템 데이터 세트 및 벤치마크 트랙에 관한 35회 회의 (2회) [54] James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. FEVER: a large-scale dataset for fact extraction and VERification. In , 페이지 809–819, 뉴올리언스, 루이지애나, 2018. Association for Computational Linguistics. doi: 10.18653/v1/N18-1074. URL Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) https: . //aclanthology.org/N18-1074 [55] Ellen Voorhees, Tasmeer Alam, Steven Bedrick, Dina Demner-Fushman, William R Hersh, Kyle Lo, Kirk Roberts, Ian Soboroff, 및 Lucy Lu Wang. Trec-covid : 전염병 정보 탐색 테스트 컬렉션을 구축. , volume 54, pages 1–12. ACM New York, NY, USA, 2021. ACM SIGIR Forum [56] Henning Wachsmuth, Shahbaz Syed, and Benno Stein. Retrieval of the best counterargument without prior topic knowledge. In , pages 241–251, 2018. Computational Linguistics Association의 56th Annual Meeting Proceedings (Volume 1: Long Papers) [57] David Wadden, Shanchuan Lin, Kyle Lo, Lucy Lu Wang, Madeleine van Zuylen, Arman Cohan, and Hannaneh Hajishirzi. Fact or fiction: Verifying scientific claims. In , 페이지 7534–7550, 2020 Natural Language Processing Empirical Methods (EMNLP)에 관한 2020 회의 [58] Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, and Furu Wei. Simlm: Pre-training with representation bottleneck for dense passage retrieval. , abs/2207.02578, 2022. 아카이브 [59] Wenhui Wang, Hangbo Bao, Shaohan Huang, Li Dong, and Furu Wei. Minilmv2: Multi-head self-attention relation distillation for compressing pretrained transformers. In , 페이지 2140–2151, 2021. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 [60] Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Joulin, and Edouard Grave. CCNet: 웹 크롤 데이터에서 고품질의 단언어 데이터 세트를 추출. , pages 4003–4012, Marseille, France, 2020. European Language Resources Associ-ation. ISBN 979-10-95546-34-4. URL . Proceedings of the 12th Language Resources and Evaluation Conference https://aclanthology.org/2020.lrec-1.494 [61] Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul N. Bennett, Junaid Ahmed, and Arnold Overwijk. Approximate nearest neighbor negative contrastive learning for dense text retrieval. In . OpenReview.net, 2021. URL . 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, 오스트리아, 2021년 5월 3일부터 7일까지 https://openreview 네트워크/포럼?id=이미지 [62] Canwen Xu, Daya Guo, Nan Duan, and Julian McAuley. Laprador: Unsupervised pretrained dense retriever for zero-shot text retrieval. In , 페이지 3557–3569, 2022. Findings of the Association for Computational Linguistics: ACL 2022 [63] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William Cohen, Ruslan Salakhutdinov, and Christopher D Manning. Hotpotqa: A dataset for diverse, explainable multi-hop question answering. In , pages 2369–2380, 2018. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing A Dataset Details For Common Crawl, we download the 2022-33 snapshot and cc_net is used for preprocessing including language identification, de-duplication, language model filtering, etc. Web pages from the MS-MARCO document ranking corpus are also included. For the data filtering step, we examine each pair of passages within a web page instead of just using the title as a query. For Wikipedia, we use the version released by Petroni et al. . To avoid possible data contamination, we remove text pairs that occur in the evaluation datasets based on exact string match. 8 [46] Reddit data is collected from the year 2018 to August 2022. For the S2ORC data, we use a sample weight of 0*.*3 during training to avoid over-fitting the scientific domains. For the BEIR benchmark, we use the 15 datasets that provide public downloads: MS MARCO [ [중고] 트레일러 [인터뷰] NFCorpus ], NQ [ ], HotpotQA [ ], FiQA [ 아르헨티나 [ ] [2020년 대선] ], CQADupStack [ ], Quora, DBPedia [ ], Fever [ ], Climate-Fever [ ], and Scifact 8 55 5 32 63 37 56 4 26 24 12 54 18 [57]. B 자세한 내용 We list the hyperparameters in Table 일부 평가 데이터 세트에는 긴 텍스트가 있기 때문에, 우리는 사전 훈련 및 미세 조정 중에 위치 삽입을 동결하고 평가를 위해 최대 텍스트 길이를 512로 설정합니다. 11. BEIR 벤치마크의 Quora 복제 탐색 작업에 대해, 우리는 예제 "를 추가합니다. ” 모든 질문에 대 한.다른 검색 작업에 대 한, 우리는 사용 합니다” “그리고” “이제는 적절하게 첨부합니다. 원하는 : query: passage: MS-MARCO 결과 테이블 RocketQA에서 제공하는 문서 제목을 사용하십시오 [ ].이 평가 설정은 대부분의 최첨단 밀도 탐색기와 일치합니다.그러나 BEIR 벤치마크의 MS-MARCO 데이터에는 제목이 없으므로 결과가 낮아질 것으로 예상됩니다. 12 50 We report results for in-domain datasets in Table 이러한 결과는 도메인 내에서 풍부한 데이터가 제공될 때 대조적 인 사전 훈련의 이점을 설명하는 데 도움이 될 수 있습니다.MS-MARCO 통과 순위의 경우 MRR@10 및 Recall@1k가보고됩니다.NQ 데이터 세트의 경우 Recall@20 및 Recall@100이 주요 측정입니다. In-domain Evaluation 12. C 부정적인 결과 다음은 우리가 결국 포기하는 몇 가지 시도입니다 : 비슷한 분위기 [ ], 우리는 훈련 중 각 긍정적 인 쌍에 대해 하나의 BM25 하드 부정적을 추가합니다. 15M 데이터를 사용할 때,이 전략은 BEIR 벤치마크에 대한 전체 결과를 ~ 0.5 포인트 향상시킵니다.그러나 250M+ 데이터 세트를 통해 BM25 알고리즘을 실행하는 것은 멀티 노드 및 멀티 프로세스 병행조차도 너무 시간이 소요됩니다. Adding BM25 hard negatives 30 RoBERTa는 많은 NLP 작업에서 일관된 성과를 보여주지만, 우리는 경험적으로 대부분의 BEIR 벤치마크 데이터 세트에서 ROBERTa가 BERT 초기화보다 나쁘다는 것을 발견합니다. Using RoBERTa instead of BERT for initialization We add a masked language modeling loss for 25% of the training text pairs. The numbers are on par with removing this auxiliary objective, but the training cost goes up. Auxiliary MLM objective This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on arxiv 이 종이는 under CC by 4.0 Deed (Attribution 4.0 International) license. available on arxiv