Bagaimana Microsoft Melatih AI 270M-Pair untuk Mendorong Pencarian Cerdas

Penulis : Liang Wang (Microsoft Corporation) Nan Yang (Microsoft Corporation) Xiaolong Huang (Microsoft Corporation) Binxing Jiao (Microsoft Corporation) Linjun Yang (Microsoft Corporation) Daxin Jiang (Microsoft Corporation) Rangan Majumder (Microsoft Corporation) Furu Wei (Microsoft Corporation) Penulis : Liang Wang dari Microsoft Corporation Nan Yang (Perusahaan Microsoft) Xiaolong Huang (Perusahaan Microsoft) Binxing Jiao (Korporasi Microsoft) Linjun Yang (Perusahaan Microsoft) Daxin Jiang (Perusahaan Microsoft) Rangan Majumder (Perusahaan Microsoft) Furu Wei (Perusahaan Microsoft) abstrak Artikel ini akan membahas tentang E5 , sebuah keluarga embeddings teks state-of-the-art yang mentransfer dengan baik ke berbagai tugas. Model ini dilatih dengan cara yang kontras dengan sinyal pengawasan yang lemah dari set data pasangan teks skala besar kami yang dikurasi (disebut CCPairs). E5 dapat dengan mudah digunakan sebagai model embedding untuk tujuan umum untuk tugas apa pun yang membutuhkan representasi vektor tunggal teks seperti retrieval, clustering, dan klasifikasi, mencapai kinerja yang kuat dalam pengaturan nol-shot dan halus-tuned. Kami melakukan evaluasi yang luas pada 56 set data dari benchmark BEIR dan MTEB. Untuk pengaturan nol-shot, E5 adalah model pertama yang melampaui garis dasar BM25 yang kuat pada benchmark retrieval BEIR tanpa menggunakan data yang dilabel. Ketika disesuaikan, E5 mendapatkan hasil terbaik pada benchmark MTEB, 1 1 Pengantar Text embeddings adalah representasi vektor dimensi rendah untuk teks panjang arbitrase dan memainkan peran kunci dalam banyak tugas NLP seperti pencarian skala besar. Dibandingkan dengan representasi dimensi tinggi dan langka seperti TF-IDF, text embeddings memiliki potensi untuk mengatasi masalah ketidaksesuaian lexical dan memfasilitasi pencarian dan penyesuaian yang efisien antara teks. Sementara model bahasa pra-latih seperti BERT [ dan GPT ( ] dapat menghasilkan representasi teks yang dapat ditransfer, mereka tidak ideal untuk tugas-tugas seperti pencarian dan matching teks di mana embedding satu vektor teks lebih diinginkan karena efisiensi dan versatilitas. Untuk mendapatkan embeddings teks yang lebih baik, belajar kontras sering menjadi framework untuk meningkatkan representasi tingkat urutan dari pasangan teks. Sepanjang garis penelitian ini, beberapa karya diarahkan menuju belajar embeddings spesifik tugas. Misalnya, GTR [ [ ] dan Sentensi-T5 [ ] menyesuaikan model pra-latih dengan dataset yang diawasi untuk mempelajari embeddings yang disesuaikan untuk retrieval passage dan semantik kesamaan teks, masing-masing. karya lain mempelajari embeddings yang tidak diawasi dari pasangan teks yang dibangun secara otomatis. metode khas untuk membangun pasangan teks termasuk Inverse Close Task (ICT) [ (Baca juga: Cara Mengecilkan Payudara Secara Alami) ] dan teks tetangga spans [ Meskipun data sintetis semacam itu memiliki jumlah yang tidak terbatas, mereka sering memiliki kualitas yang buruk dan embeddings yang dihasilkan tidak dapat sesuai dengan kinerja dari baseline BM25 klasik tanpa penyesuaian halus lebih lanjut. 17 7 43 44 9 28 41 [Baca Juga] 40 Dalam pekerjaan ini, kita belajar embedding teks umum yang berkualitas tinggi yang disebut E5, Mb Dings dari Bidir cionalis Kode R Presentasi. E5 bertujuan untuk memberikan embeddings teks off-the-shelf yang kuat yang cocok untuk tugas apa pun yang membutuhkan representasi vektor tunggal dalam pengaturan nol atau halus. Untuk mencapai tujuan ini, alih-alih mengandalkan data terbatas yang diberi label atau pasangan teks sintetis berkualitas rendah, kami secara kontras melatih embeddings E5 dari CCPairs, sebuah dataset pasangan teks skala web yang dikurasi yang berisi sinyal pelatihan yang heterogen. Kami membangun dataset CCPairs dengan menggabungkan berbagai sumber data semi-struktur seperti CommunityQA, Common Crawl dan makalah ilmiah, dan melakukan penyaringan agresif dengan filter berbasis konsistensi [ Untuk meningkatkan kualitas data. kami memilih resep belajar kontras sederhana menggunakan negatif dalam batch dengan ukuran batch besar untuk melatih model kami. percobaan ekstensif pada kedua benchmark BEIR dan MTEB menunjukkan efektivitas metode yang diusulkan. ], E5 adalah model pertama yang melampaui baseline BM25 yang kuat tanpa menggunakan data yang diberi label. Ketika disesuaikan dengan data yang diberi label, kinerja dapat ditingkatkan lebih lanjut. ] menunjukkan bahwa E5base kami kompetitif terhadap GTRxxl dan Sentence-T5xxl, yang memiliki 40x lebih banyak parameter. E E E E E 15 53 40 2 Related Work Ada minat jangka panjang dalam mengubah teks menjadi embeddings padat dimensi rendah. karya awal termasuk Latent Semantic Indexing (LSA) [ [ ] dan Latent Dirichlet Allocation (LDA) LSA menggunakan dekomposisi matriks co-occurrence kata-dokumen untuk menghasilkan embeddings dokumen, sementara LDA mengadopsi model grafis probabilistik untuk mempelajari distribusi topik. menunjukkan bahwa rata-rata berat kata vektor sederhana [ ] dapat menjadi dasar yang kuat untuk embeddings kalimat. 16 3 Aroma dan al 38 Dengan pengembangan model bahasa pra-latih [ , yang , yang [ ] dan kumpulan data yang diberi label skala besar seperti SNLI [ Dengan demikian, Markus [ , metode seperti Sentence-BERT [ Dengan demikian, simbiosis [ (Baca juga: Peraturan Menteri Keuangan Nomor 5 Tahun 2009) ] and SGPT [ ] secara langsung menyesuaikan model bahasa untuk menghasilkan embeddings berkelanjutan. Kebanyakan penelitian berfokus pada teks pendek dan dengan demikian menggunakan istilah "embeddings kalimat". Untuk dokumen panjang, masih menjadi pertanyaan penelitian terbuka apakah embeddings panjang tetap dapat mengkodekan semua informasi. ) ternyata lebih efektif daripada kerugian berdasarkan klasifikasi [ , (Baca juga: Cara Menghilangkan Jerawat dengan Cepat) Dengan menggunakan laser ( Dengan demikian, klik [ Perpanjangan lebih lanjut ke skenario multilingual dan multi-modal menggunakan kalimat paralel dan gambar-teks pasangan. 17 35 48 6 8 49 22 44 39 10 49 14 20 2 47 Arah lain adalah untuk merancang tugas pra-pelatihan yang diawasi sendiri untuk mencocokkan teks dan pencarian. [ ] mengusulkan tugas inverse cloze yang terkenal (ICT), di mana sebuah kalimat acak dalam satu bagian dipilih sebagai pseudo-query dan sisanya diperlakukan sebagai sampel positif. ] menunjukkan bahwa random cropping dengan data augmentation lebih efektif daripada ICT pada berbagai tugas pengambilan informasi nol-shot. menggunakan teks tetangga sebagai positif dan meningkatkan ukuran model menjadi 175B. Oguz et al. melakukan pelatihan pra-pelatihan yang sesuai dengan domain untuk meningkatkan hasil dalam domain. SPAR [ ] melatih retriever padat dengan memperlakukan BM25 sebagai model guru. Meskipun pendekatan yang disebutkan di atas dapat dengan mudah mendapatkan sinyal pengawasan yang banyak, data sintetis tersebut cenderung berkualitas rendah. ] menunjukkan mereka berjuang untuk mencocokkan kinerja BM25 jika tidak disesuaikan lebih lanjut pada dataset yang ditandai. 9 28 41 [45] yang 11 53 Evaluasi dan interpretasi embeddings teks juga tidak trivial. Kebanyakan benchmarks mengukur kualitas embedding melalui kinerja tugas downstream. misalnya, SentEval [ ] menggunakan sonding linear dan koleksi dataset semantik teks serupa (STS), sedangkan benchmark BEIR [ [ ] berfokus pada skenario pencarian informasi nol-shot. benchmark MTEB yang baru diperkenalkan [ ] menggabungkan 56 set data yang mencakup 8 tugas dan 112 bahasa. percobaan menunjukkan bahwa tidak ada model yang dapat mencapai hasil state-of-the-art pada semua tugas embedding. 13 53 40 yang paling dekat dengan pekerjaan kita adalah serangkaian upaya komunitas oleh untuk melatih embeddings dengan koleksi dataset yang ditandai dan dikumpulkan secara otomatis. Dalam makalah ini, kami menunjukkan bahwa memungkinkan untuk melatih embeddings berkualitas tinggi hanya menggunakan pra-pelatihan yang diawasi sendiri. Dalam hal hasil benchmark, model kami dapat mencapai kinerja yang lebih baik ketika disesuaikan dengan data yang kurang ditandai. Transformer Pengadilan 2 3 CCPairs: Sebuah Koleksi Besar Dataset Pasangan Teks Kualitas dan keragaman data sangat penting untuk melatih embeddings teks untuk tujuan umum. dalam pekerjaan ini, kami menambang dan mengumpulkan CCPairs, satu set data pasangan teks berkualitas tinggi dari sumber web yang menyediakan sinyal pelatihan yang beragam yang mentransfer dengan baik ke berbagai tugas. Pengumpulan data skala besar dengan kualitas tinggi seperti C4 [ ) dan CCMatrix [ Untuk mempelajari embeddings teks, karya-karya yang ada baik menggunakan data anotasi manusia skala kecil seperti NLI [ ] and MS-MARCO [ ] or adopt heuristics such as random cropping [ untuk mendapatkan sinyal pengawasan skala besar tetapi sangat berisik. Harvesting semi-structured data sources 48 51 22 8 28 Perbedaannya adalah dengan mengumpulkan data yang dikumpulkan oleh CCP ( Seluruhnya Menggunakan Lean Text Penelitian ini bertujuan untuk mengidentifikasi sumber-sumber data yang bersifat heterogen ( , Menandai sepasang teks yang terdiri dari kueri Sebuah Passage Di sinilah kita menggunakan” ” untuk menandai urutan kata dengan panjang sewenang-wenang, yang bisa berupa kalimat pendek, paragraf, atau dokumen panjang. , (pertanyaan, jawaban atas suara) pasangan dari Stackexchange , (nama entitas + judul bagian, bagian) pasangan dari bahasa Inggris Wikipedia, (judul, abstrak) dan pasangan kutipan dari makalah ilmiah [ ], dan (title, passage) pasangan dari Common Crawl WEB dan berbagai sumber berita. C C Pairs q p q p Perjalanan 3 4 36 5 Kami hanya menyertakan sumber data yang dapat dieksploitasi secara otomatis, dan beberapa subset langsung digunakan kembali dari dataset yang ada. aturan heuristik sederhana diterapkan untuk memfilter data dari Reddit dan Common Crawl. misalnya, kami menghapus komentar Reddit yang terlalu lama ( 4096 karakter) atau menerima skor kurang dari 1, dan menghapus bagian-bagian dari halaman web dengan ketidakpastian tinggi [ ]. Setelah penyaringan awal, kami akhirnya menemukan ∼ 1 * * 3 miliar pasangan teks, sebagian besar berasal dari Reddit dan Common Crawl. > 60 a. yang Untuk meningkatkan kualitas data lebih lanjut dan membuat biaya pelatihan dapat dikelola, kami mengusulkan teknik penyaringan data berbasis konsistensi: model pertama dilatih pada pasangan teks berisik 1*.*3B, dan kemudian digunakan untuk peringkat masing-masing pasangan melawan kumpulan 1 juta bagian acak. Dengan kata lain, prediksi model harus konsisten dengan label pelatihan. = 2 berdasarkan pemeriksaan kualitas data secara manual.Setelah langkah ini, kami berakhir dengan ∼ 270M pasangan teks untuk pra-latihan kontras. Consistency-based filter k k The intuition for this technique comes from the memorization behaviors of neural networks [ ]: ketika dilatih pada dataset berisik, jaringan saraf cenderung untuk menghafal label bersih pertama dan kemudian secara bertahap melampaui label berisik. , yang , yang Hal ini juga mungkin untuk menerapkan filter ini secara iteratif, kita akan meninggalkan untuk pekerjaan masa depan. 19 42 15 23 4 Metode Embeddings kami dapat dilatih hanya dengan pasangan teks yang tidak ditandai dari CCPairs dengan pre-training kontrastif. pengaturan halus tahap kedua pada set data kecil dengan label berkualitas tinggi dapat dilakukan untuk meningkatkan kualitas embeddings yang dihasilkan. Untuk sebuah gambaran. 1 4.1 Pre-training kontras dengan data yang tidak ditandai Penelitian ini bertujuan untuk mengidentifikasi faktor-faktor yang mempengaruhi atau mempengaruhi hasil penelitian. ( ) , kami menetapkan daftar bagian negatif { · = 1 untuk Setelah itu, infografis kehilangan is as follows: Qi dan Pi n p m i i [10] where ( ) is a scoring function between query dan lewat Parameter yang Mengikuti arsitektur biencoder populer, kami menggunakan encoder Transformer yang dipelajari sebelumnya dan gabungan rata-rata di atas lapisan output untuk mendapatkan embeddings teks ukuran tetap dan Skor adalah kesamaan kosin yang diukur oleh hiperparameter suhu : : s θ q, p q p θ E q E p τ θ θ dimana Kami menggunakan encoder bersama untuk semua teks input dan memecahkan simetri dengan menambahkan dua pengidentifikasi prefix dan Dua dan Untuk beberapa sumber data seperti pasangan kutipan, tidak jelas sisi mana yang harus menjadi kueri, kami secara acak memilih satu untuk kesederhanaan. Desain asimetri seperti itu ternyata penting untuk beberapa tugas pencarian di mana ada parafrase kueri dalam corpus target. τ Untuk pertanyaan : “Perjalanan” q d Masalah lain yang penting untuk pelatihan kontras adalah bagaimana memilih sampel negatif. di sini kita memilih untuk menggunakan negatif dalam batch [ Kami menemukan bahwa strategi sederhana ini memungkinkan pelatihan yang lebih stabil dan melebihi metode seperti MoCo Jika ukuran batch cukup besar. 10 [ 25 ] 4.2 Fine-tuning dengan Data Labeled Sementara pra-latihan kontras pada CCPairs memberikan dasar yang kuat untuk embeddings tujuan umum, pelatihan lebih lanjut pada data yang diberi label dapat menyuntikkan pengetahuan manusia ke dalam model untuk meningkatkan kinerja. , yang ] telah menunjukkan bahwa pengaturan halus yang diawasi mengarah pada peningkatan kinerja yang konsisten. dalam makalah ini, kami memilih untuk melatih lebih lanjut dengan kombinasi 3 dataset: NLI (Natural Language Inference), MS-MARCO Passage Ranking Dataset [ [ ], dan NQ (Pertanyaan Alam) dataset [ , yang Secara empiris, tugas-tugas seperti STS (Semantic Textual Similarity) dan linear probing mendapat manfaat dari data NLI, sementara MS-MARCO dan NQ dataset mentransfer baik ke tugas-tugas pencarian. 43 44 6 8 30 32 Membangun pada praktik pelatihan state-of-the-art dense retriever [ , yang ], kami menggunakan negatif keras yang dikumpulkan dan distilasi pengetahuan dari model guru cross-encoder (CE) untuk dataset MS-MARCO dan NQ. Untuk dataset NLI, kalimat kontradiksi dianggap sebagai negatif keras. Fungsi kerugian adalah interpolasi linear antara kerugian kontras Menghitung Hard Label dan Divergence KL KL untuk distilasi label lunak dari model guru. 50 58 L D dimana ini dan Stu adalah probabilitas dari model guru cross-encoder dan model siswa kami. adalah hyperparameter untuk menyeimbangkan dua fungsi kehilangan. Menghitung sama seperti dalam persamaan p p α L 1. 4.3 Aplikasi untuk Tugas Embedding Text Setelah dua langkah di atas, kita mendapatkan embeddings teks berkualitas tinggi yang mentransfer dengan baik ke berbagai tugas tanpa menyesuaikan parameter model. dikombinasikan dengan teknik seperti pencarian tetangga terdekat, embeddings memberikan solusi yang dapat diperluas dan efisien untuk aplikasi seperti pencarian web. Pertama, entri lintasan untuk corpus target dihitung dan diindeks offline. Kemudian untuk setiap kueri, kita menghitung entri kueri dan mengembalikannya ke atas. daftar yang diurutkan dari corpus berdasarkan kesamaan cosine. Zero-shot Retrieval k Sebuah klasifikator linear dilatih di atas embeddings beku dengan beberapa contoh yang diberi label. Tugas yang berbeda hanya perlu melatih dan menyimpan parameter kepala klasifikasi. Few-shot Text Classification [27] Dengan demikian Teks input dan label dikonversi menjadi kalimat berdasarkan template prompt yang ditulis secara manual. Label yang diprediksi adalah yang paling dekat dengan teks input di ruang embedding. ”, label teks adalah “ ” dan teks input menjadi ” » » Zero-shot Text Classification Saya menikmati menontonnya adalah contoh dari review film mengerikan / besar Review film: Saya suka menontonnya Mengingat dua embeddings teks, kita menggunakan fungsi cosine untuk mengukur kesamaan semantik mereka.Karena skor kesamaan mutlak tidak memungkinkan interpretasi yang mudah, penilaian biasanya didasarkan pada koefisien korelasi peringkat. Semantic Textual Similarity Algoritma cluster standar seperti k-means dapat diterapkan dengan mudah. teks yang termasuk kategori yang sama diharapkan dekat di ruang embedding. Text Clustering Untuk tugas selain klasifikasi dan pencarian teks nol-shot, kami menggunakan embeddings kueri secara default. 5 Eksperimen 5.1 Konfigurasi Pre-Training dan Fine-Tuning Kami mempersiapkan dataset pasangan teks kami yang diusulkan untuk tiga ukuran model: E5small, E5base dan E5large dimulai dari MiniLM [59], bert-base-uncased, dan bert-large-uncased-whole-wordmasking masing-masing. Ukuran batch ditetapkan pada nilai besar 32, 768 untuk meningkatkan jumlah negatif. Tingkat pembelajaran adalah {3, 2, 1}×10−4 untuk {small, base, large} model, dengan degradasi linear dan langkah pertama 1, 000 untuk pemanasan. Kami mempersiapkan 20k langkah secara total dengan AdamW optimizer, yang merupakan sekitar 2,5 epoch atas dataset. Dibutuhkan {16, 32, 64} V100 GPU dan {1, 2} hari untuk {small, base, large} model. Untuk meningkatkan efisiensi pelatihan dan mengurangi penggunaan memori GPU, kami Pre-training is performed on the concatenation of 3 datasets: MS-MARCO passage ranking [ Untuk NQ ( , Maka dari itu, janganlah kamu ] datasets. We reuse the mined hard negatives and re-ranker scores from SimLM [ ] for the first two datasets. Models are fine-tuned for 3 epochs with batch size 256 on 8 GPUs. Learning rate is {3*,* 2*,* 1}×10−5 for the {small, base, large} models with 400 steps warmup. For each example, we use 7 hard negatives. Since the NLI dataset only has 1 hard negative for each example, 6 sentences are randomly sampled from the entire corpus. Fine-tuning 8 32 30 22 58 We use E5-PT to denote models with contrastive pre-training only. More implementation details can be found in Appendix B. 5.2 Evaluation Datasets is a collection of 19 information retrieval datasets, ranging across ad-hoc web search, question answering, fact verification and duplicate question retrieval, etc. We evaluate the 15 datasets that provide public downloads. The main metric is nDCG@10. BEIR Benchmark [ ] 53 53 is recently proposed for benchmarking massive text embedding tasks. Though MTEB is multilingual due to the inclusion of bitext mining datasets, most datasets are still only available in English. In this paper, we evaluate the English subsets, which have 56 datasets spanning across 6 categories: Classification (Class.), Clustering (Clust.), Pair Classification (PairClass.), Rerank, Retrieval (Retr.), STS, and Summarization (Summ.). The evaluation metrics are accuracy, v-measure, average precision, MAP, nDCG@10, and Spearman coefficients, respectively. Please refer to the MTEB paper for details. MTEB Benchmark [ ] 40 40 5.3 Results on BEIR benchmark In Table Kami menunjukkan hasil model yang tidak menggunakan data yang dilabelkan. Ketika rata-rata di semua 15 dataset, E5-PTbase melampaui algoritma BM25 klasik dengan 1*.*2 poin. Menurut pengetahuan kami, ini adalah hasil pertama yang dilaporkan bahwa model yang tidak diawasi dapat mengalahkan BM25 pada benchmark BEIR. *2. Results with Unsupervised Methods 1, 9 to 44 In terms of pre-training tasks, Contriever adopts random cropping, while LaPraDor combines ICT and dropout-as-positive-instance from SimCSE. The methods can easily obtain large-scale training data, while our approach requires more effort in dataset curation. Such efforts pay off with better results. Recent studies [ , , yang ] also show that improving data quality is a vital step for training large language models. 34 60 21 In Table we fine-tune our models on supervised datasets and then transfer them to the BEIR benchmark. Since our fine-tuning datasets include MS-MARCO and NQ, the corresponding numbers are in-domain results. For other datasets, these are zero-shot transfer results. Our E5base model achieves an average nDCG@10 of 48*.*7, already surpassing existing methods with more parameters such as GTRlarge [ ]. Most datasets benefit from supervised fine-tuning, but there are also a few exceptions such as FiQA, Scidocs, and Fever, etc. This is likely due to the lack of enough domain diversity for the fine-tuning datasets. Results with Supervised Fine-tuning 2, 43 5.4 Hasil pada benchmark MTEB In Table E5 models not only substantially outperform existing ones with similar sizes, but also match the results of much larger models. The top-2 models on MTEB leaderboard GTRxxl and Sentence-T5xxl have 4*.*8B parameters, while our E5large model is more than 10× smaller with 300M parameters. We expect that our model will benefit from continual scaling up. 3 , 7 Since the difference between BERT-FTbase and E5base is that BERT-FTbase only has fine-tuning stage, their performance gap demonstrates the usefulness of contrastive pre-training on our proposed CCPairs dataset. For most task categories except Clustering, performance improves after supervised fine-tuning. Consistent with prior works [ , yang ], this once again demonstrates the importance of incorporating human knowledge for learning better text embeddings. It remains an open question whether state-of-the-art embeddings can be obtained in a purely self-supervised manner. 43 44 Meja menunjukkan hasil klasifikasi teks nol-shot pada set developer dari dataset SST-2 [ ]. By formulating text classification as embedding matching between input and label texts, our model can be much better than the “majority” baseline in a zero-shot setting. We use the prompt template from Section 4 52 4.3. 5.5 Analysis In this section, we conduct a series of analyses to examine various design choices. All the numbers in this section are from base-size models. For the BEIR benchmark, we choose 6 datasets with more stable results across different runs. Some negative results are also listed in Appendix c adalah Since we use in-batch negatives for contrastive pre-training, larger batch size will provide more negatives and therefore improve the quality of the learned text embeddings. In Table increasing batch size from 1K to 32K leads to consistent gains across all 6 datasets. It is also possible to train with smaller batch sizes by adding hard negatives [ ]. However, the engineering efforts of mining hard negatives for large datasets (>100M) are non-trivial. Impacts of Batch Size 5 , 50 GTR models are fine-tuned with “MS-MARCO + NQ”, while Sentence-T5 models use NLI instead. In Table kita dapat melihat bahwa pengaturan “MS-MARCO + NQ” melakukan yang terbaik pada tugas pencarian, dan data NLI bermanfaat untuk klasifikasi STS dan linear probing. . Combining all of them leads to the best overall scores on the MTEB benchmark. This also illustrates the importance of dataset diversity for learning text embeddings. Fine-tuning Datasets 6, [ 40 ] One crucial step in our dataset curation pipeline is filtering out low-quality text pairs. In Table when training with 1M pairs, using filtered data has a nearly 6 points advantage. When all the text pairs are used, the “w/o filter” setting has about 4× more data but is still behind by 1*.*6 points. Though recent studies [ , menunjukkan bahwa model pembelajaran mendalam cukup kuat terhadap kebisingan dataset, filtrasi data masih memiliki manfaat dalam meningkatkan efisiensi pelatihan dan kualitas model. Data Filtering 7 , 29 47 We explore two alternative methods to enlarge the number of negatives: Pre-batch negatives [ Menggunakan kembali embeddings dari batch sebelumnya sebagai negatif tambahan, sementara MoCo Negative Sampling 33 [ ] introduces a momentum encoder and uses a FIFO queue to store negatives. For both approaches, the negative size can be easily scaled up without incurring much GPU memory overhead. The downside is that most negatives are produced by an older version of model parameters. In Table in-batch negatives still perform favorably. Empirically, we find that MoCo is more sensitive to certain hyperparameters such as temperature, better results are possible with more tuning. 25 8, With the rapid development of dense retrieval models, can we replace the long-standing BM25 algorithm from now on? The answer is likely “ ”. BM25 still holds obvious advantages in terms of simplicity, efficiency, and interpretability. For long-tail domains such as Trec-Covid [ ] and retrieval tasks that involve long documents (Touche-2020) [ ] or rely heavily on exact lexical match (Fever) [ ], further research efforts are still necessary to improve current dense retrievers. BM25 vs Dense Retrieval not yet 55 4 54 6 Conclusion In this work, we train a general-purpose text embedding model E5 from weak supervision signals. We adopt a simple contrastive training framework with in-batch negatives and learn from a large-scale text pair dataset we harvest from heterogeneous data sources across the web. E5 offers strong off-the-shelf performance for a wide range of tasks requiring single-vector text representations such as retrieval, semantic textual similarity, and text matching. When further customized for downstream tasks, E5 achieves superior fine-tuned performance compared to existing embedding models with 40× more parameters on the large, 56-task MTEB benchmark datasets. References [1] Sanjeev Arora, Yingyu Liang, and Tengyu Ma. A simple but tough-to-beat baseline for sentence embeddings. In . OpenReview.net, 2017 URL . 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings https://openreview.net/forum?id=SyK00v5xx [2] Mikel Artetxe and Holger Schwenk. Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond. , 7:597–610, 2019. doi: 10.1162/tacl_a_00288. URL . . Transactions of the Association for Computational Linguistics https://aclanthology org/Q19-1038 [3] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. In Thomas G. Dietterich, Suzanna Becker, and Zoubin Ghahramani, editors, , pages 601–608. MIT Press, 2001. URL . Advances in Neural Information Processing Systems 14 [Neural Information Processing Systems: Natural and Synthetic, NIPS 2001, 3-8 Desember 2001, Vancouver, British Columbia, Kanada] https://proceedings.neurips.cc/paper/2001/hash/ 296472c9542ad4d4788d543508116cbc-Abstract.html [4] Alexander Bondarenko, Maik Fröbe, Johannes Kiesel, Shahbaz Syed, Timon Gurcke, Meriem Beloucif, Alexander Panchenko, Chris Biemann, Benno Stein, Henning Wachsmuth, et al. Overview of touché 2022: argument retrieval. In , halaman 311-336 Springer, 2022. International Conference of the Cross-Language Evaluation Forum for European Languages [5] Vera Boteva, Demian Gholipour, Artem Sokolov, dan Stefan Riezler. Pembelajaran teks penuh untuk peringkat dataset untuk pencarian informasi medis. , pages 716–722. Springer, 2016. European Conference on Information Retrieval [6] Samuel R. Bowman, Gabor Angeli, Christopher Potts, dan Christopher D. Manning. korpus yang besar untuk belajar inferensi bahasa alami. , pages 632–642, Lisbon, Portugal, 2015. Association for Computational Linguistics. doi: 10.18653/v1/D15-1075. URL Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing https: . //aclanthology.org/D15-1075 [7] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhari-wal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learn-ers. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin, editors, , 2020. URL . Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual https://proceedings.neurips.cc/paper/2020/hash/ 1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html [8] Daniel Fernando Campos, Tri Nguyen, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, Li Deng, dan Bhaskar Mitra. , abs/1611.09268, 2016. ArXiv [9] Wei-Cheng Chang, Felix X. Yu, Yin-Wen Chang, Yiming Yang, and Sanjiv Kumar. Pre-training tasks for embedding-based large-scale retrieval. In . OpenReview.net, 2020. URL . 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 https://openreview.net/forum?id=rkg-mA4FDr [10] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey E. Hinton. A simple framework for contrastive learning of visual representations. In , volume 119 of , pages 1597–1607. PMLR, 2020. URL Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 Juli 2020, Event Virtual Proceedings of Machine Learning Research http: . //proceedings.mlr.press/v119/chen20j.html [11] Xilun Chen, Kushal Lakhotia, Barlas Og˘uz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta, and Wen-tau Yih. Salient phrase aware dense retrieval: Can a dense retriever imitate a sparse one? , 2021. arXiv preprint arXiv:2110.06918 [12] Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, and Daniel S Weld. Specter: Document-level representation learning using citation-informed transformers. In , pages 2270–2282, 2020. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics [13] Alexis Conneau dan Douwe Kiela. SentEval: Sebuah toolkit evaluasi untuk representasi kalimat universal. , Miyazaki, Japan, 2018. European Language Resources Association (ELRA). URL . Proceedings of the Eleventh International Conference on Language Re-sources and Evaluation (LREC 2018) https://aclanthology.org/L18-1269 [14] Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, and Antoine Bordes. Super-vised learning of universal sentence representations from natural language inference data. In , pages 670–680, Copenhagen, Denmark, 2017. Association for Computational Linguistics. doi: 10.18653/v1/D17-1070. URL . Konferensi 2017 tentang Metode Empiris dalam Pengolahan Bahasa Alami https://aclanthology.org/D17-1070 [15] Zhuyun Dai, Vincent Zhao, Ji Ma, Yi Luan, Jianmo Ni, Jing Lu, Anton Bakalov, Kelvin Guu, Keith B. Hall, dan Ming-Wei Chang. , abs/2209.11755, tahun 2022. ArXiv [16] Scott Deerwester, Susan T Dumais, George W Furnas, Thomas K Landauer, and Richard Harshman. Indexing by latent semantic analysis. , 41(6): 391–407, 1990 Journal of the American society for information science [17] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In , pages 4171–4186, Minneapolis, Minnesota, 2019. Association for Computational Linguistics. doi: 10.18653/v1/N19-1423. URL . Proceedings of the 2019 Confer-ence of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) https://aclanthology.org/N19-1423 [18] Thomas Diggelmann, Jordan Boyd-Graber, Jannis Bulian, Massimiliano Ciaramita, and Markus Leippold. Climate-fever: A dataset for verification of real-world climate claims. Pada tahun 2020. arXiv preprint arXiv:2012.00614 [19] Vitaly Feldman and Chiyuan Zhang. What neural networks memorize and why: Discovering the long tail via influence estimation. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin, editors, , 2020. URL . Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual https://proceedings.neurips.cc/ kertas/2020/hash/1e14bfe2714193e7af5abc64ecbd6b46-Abstract.html [20] Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, dan Wei Wang. Bahasa-agnostik bert kalimat embedding. dalam , pages 878–891, 2022. Prosedur Pertemuan Tahunan ke-60 Asosiasi Linguistik Komputasi (Total 1: Long Papers) [21] Leo Gao, Stella Rose Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, dan Connor Leahy. , abs/2101.00027, 2021. ArXiv [22] Tianyu Gao, Xingcheng Yao, and Danqi Chen. SimCSE: Simple contrastive learning of sentence embeddings. In , pages 6894–6910, Online and Punta Cana, Dominican Republic, 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.emnlp-main.552. URL . Konferensi Tahun 2021 tentang Metode Empiris dalam Pengolahan Bahasa Alami https://aclanthology.org/2021.emnlp-main.552 [23] Bo Han, Quanming Yao, Xingrui Yu, Gang Niu, Miao Xu, Weihua Hu, Ivor W. Tsang, and Masashi Sugiyama. Co-teaching: Robust training of deep neural networks with extremely noisy labels. In Samy Bengio, Hanna M. Wallach, Hugo Larochelle, Kris-ten Grauman, Nicolò Cesa-Bianchi, and Roman Garnett, editors, , Advances in Neu-ral Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montréal, Canada pages 8536–8546, 2018. URL . https://proceedings.neurips.cc/paper/2018/hash/ a19744e268754fb0148b017647355b7b-Abstract.html [24] Faegheh Hasibi, Fedor Nikolaev, Chenyan Xiong, Krisztian Balog, Svein Erik Bratsberg, Alexander Kotov, and Jamie Callan. Dbpedia-entity v2: a test collection for entity search. In , pages 1265–1268, 2017. Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval [25] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross B. Girshick. Momentum contrast for unsupervised visual representation learning. In , pages 9726–9735. IEEE, 2020. doi: 10.1109/CVPR42600.2020.00975. URL . 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020 https://doi.org/10.1109/ CVPR42600.2020.00975 [26] Doris Hoogeveen, Karin M Verspoor, and Timothy Baldwin. Cqadupstack: A benchmark data set for community question-answering research. In , pages 1–8, 2015. Proceedings of the 20th Australasian document computing symposium [27] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, dan Sylvain Gelly. pembelajaran transfer efisien parameter untuk NLP. Dalam Kamalika Chaudhuri dan Ruslan Salakhutdinov, editor, , volume 97 of , pages 2790–2799. PMLR, 2019. URL . Prosedur Konferensi Internasional ke-36 tentang Machine Learning, ICML 2019, 9-15 Juni 2019, Long Beach, California, Amerika Serikat Proceedings of Machine Learning Research http://proceedings.mlr.press/v97/houlsby19a.html [28] Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, dan Edouard Grave. menuju pengambilan informasi yang padat tanpa pengawasan dengan pembelajaran yang kontras. , abs/2112.09118, 2021. ArXiv [29] Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In Marina Meila and Tong Zhang, editors, , volume 139 of , halaman 4904–4916. PMLR, 2021. URL . Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event Proceedings of Machine Learning Research http://proceedings.mlr.press/v139/jia21b.html [30] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. Dense passage retrieval for open-domain question answering. In , pages 6769–6781, Online, 2020. Association for Computational Linguistics. doi: 10. 18653/v1/2020.emnlp-main.550. URL . yang . Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) https://aclanthology.org/2020.emnlp-main 550 [31] Omar Khattab and Matei Zaharia. Colbert: Efficient and effective passage search via contex-tualized late interaction over BERT. In Jimmy Huang, Yi Chang, Xueqi Cheng, Jaap Kamps, Vanessa Murdock, Ji-Rong Wen, and Yiqun Liu, editors, , pages 39–48. ACM, 2020. doi: 10.1145/3397271.3401075. URL . Proceedings of the 43rd International ACM SIGIR conference on research and development in Information Retrieval, SIGIR 2020, Vir-tual Event, China, July 25-30, 2020 https://doi.org/10.1145/3397271.3401075 [32] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei Chang, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, and Slav Petrov. Natural questions: A benchmark for question answering research. , 7:452–466, 2019. doi: 10.1162/tacl_a_00276. URL . Transaksi Asosiasi untuk linguistik komputasi https://aclanthology.org/Q19-1026 [33] Jinhyuk Lee, Mujeen Sung, Jaewoo Kang, dan Danqi Chen. Belajar representasi padat frasa pada skala. , pages 6634–6647, Online, 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.acl-long.518. URL . . Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) https://aclanthology.org/2021 acl-long.518 [34] Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, and Nicholas Carlini. Deduplicating training data makes language models better. In , 2022. ACL [35] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. , abs/1907.11692, 2019. ArXiv [36] Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel Weld. S2ORC: The semantic scholar open research corpus. In , halaman 4969–4983, Online, 2020. asosiasi untuk linguistik komputasi. doi: 10.18653/v1/2020.acl-main.447. URL . Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics https://aclanthology.org/2020.acl-main.447 [37] Macedo Maia, Siegfried Handschuh, André Freitas, Brian Davis, Ross McDermott, Manel Zarrouk, and Alexandra Balahur. Www’18 open challenge: financial opinion mining and question answering. In , pages 1941–1942, 2018. Companion proceedings of the the web conference 2018 [38] Tomas Mikolov, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. In Pada tahun 2013. ICLR [39] Niklas Muennighoff. Sgpt: Embeddings sentensi Gpt untuk pencarian semantik. , abs/2202.08904, 2022. ArXiv [40] Niklas Muennighoff, Nouamane Tazi, Loic Magne, dan Nils Reimers. , abs/2210.07316, 2022. Arsip [41] Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas A. Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David P. Schnurr, Felipe Petroski Such, Kenny Sai-Kin Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, and Lilian Weng. Text and code embeddings by contrastive pre-training. , abs/2201.10005, 2022. ArXiv [42] Duc Tam Nguyen, Chaithanya Kumar Mummadi, Thi-Phuong-Nhung Ngo, Thi Hoai Phuong Nguyen, Laura Beggel, and Thomas Brox. SELF: learning to filter noisy labels with self-ensembling. In . OpenReview.net, 2020. URL . . 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 https://openreview net/forum?id=HkgsPhNYPS [43] Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hern’andez ’Abrego, Ji Ma, Vincent Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, and Yinfei Yang. Large dual encoders are generalizable retrievers. , abs/2112.07899, 2021. ArXiv [44] Jianmo Ni, Gustavo Hernandez Abrego, Noah Constant, Ji Ma, Keith Hall, Daniel Cer, and Yinfei Yang. Sentence-t5: Scalable sentence encoders from pre-trained text-to-text models. In , halaman 1864–1874, 2022. Temuan Asosiasi Linguistik Komputer: ACL 2022 [45] Barlas Oguz, Kushal Lakhotia, Anchit Gupta, Patrick Lewis, Vladimir Karpukhin, Aleksandra Piktus, Xilun Chen, Sebastian Riedel, Scott Yih, Sonal Gupta, and Yashar Mehdad. Domain-matched pre-training tasks for dense retrieval. In , pages 1524–1534. Association for Computational Linguistics, 2022. doi: 10.18653/v1/2022.findings-naacl.114. URL . Temuan dari Association for Computational Linguistics: NAACL 2022, Seattle, WA, Amerika Serikat, 10-15 Juli 2022 https://doi.org/10.18653/v1/2022.findings-naacl.114 [46] Fabio Petroni, Aleksandra Piktus, Angela Fan, Patrick Lewis, Majid Yazdani, Nicola De Cao, James Thorne, Yacine Jernite, Vassilis Plachouras, Tim Rocktaschel, dan Sebastian Riedel. , 2020. North American Chapter of the Association for Computational Linguistics [47] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervi-sion. In Marina Meila and Tong Zhang, editors, , volume 139 of , halaman 8748–8763. PMLR, 2021. URL . Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event Penelitian Pembelajaran Mesin http://proceedings.mlr.press/v139/radford21a.html [48] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. , 21:1–67, tahun 2020 Jurnal Studi Pembelajaran Mesin [49] Nils Reimers dan Iryna Gurevych. Sentensi-BERT: Embeddings sentensi menggunakan Siamese BERT-jaringan. dalam , pages 3982–3992, Hong Kong, China, 2019. Association for Computational Linguistics. doi: 10.18653/v1/D19-1410. URL . Proceedings of the 2019 Conference on Empirical Methods in Natural Lan-guage Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) https://aclanthology.org/D19-1410 [50] Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, QiaoQiao She, Hua Wu, Haifeng Wang, and Ji-Rong Wen. RocketQAv2: A joint training method for dense passage retrieval and passage re-ranking. In , pages 2825–2835, Online and Punta Cana, Dominican Republic, 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.emnlp-main.224. URL . Konferensi Tahun 2021 tentang Metode Empiris dalam Pengolahan Bahasa Alami https://aclanthology.org/2021.emnlp-main.224 Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave, Armand Joulin, dan Angela Fan. CCMatrix: Menambang miliaran kalimat paralel berkualitas tinggi di web. , pages 6490–6500, Online, 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.acl-long.507. URL . Prosedur dari Pertemuan Tahunan ke-59 Asosiasi Linguistik Komputer dan Konferensi Bersama Internasional ke-11 tentang Pengolahan Bahasa Alami (Total 1: Long Papers) https://aclanthology.org/2021.acl-long.507 [52] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, A. Ng, and Christopher Potts. Recursive deep models for semantic compositionality over a sentiment treebank. In Pada tahun 2013. Conference on Empirical Methods in Natural Language Processing [53] Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, and Iryna Gurevych. Beir: A heterogeneous benchmark for zero-shot evaluation of information retrieval models. In Pada tahun 2021. Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2) [54] James Thorne, Andreas Vlachos, Christos Christodoulopoulos, dan Arpit Mittal. FEVER: sebuah dataset skala besar untuk ekstraksi fakta dan verifikasi. , pages 809–819, New Orleans, Louisiana, 2018. Association for Computational Linguistics. doi: 10.18653/v1/N18-1074. URL Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Buku Panjang) https: . // aclanthology.org/N18-1074 [55] Ellen Voorhees, Tasmeer Alam, Steven Bedrick, Dina Demner-Fushman, William R Hersh, Kyle Lo, Kirk Roberts, Ian Soboroff, and Lucy Lu Wang. Trec-covid: constructing a pandemic information retrieval test collection. In , volume 54, pages 1–12. ACM New York, NY, USA, 2021. ACM SIGIR Forum [56] Henning Wachsmuth, Shahbaz Syed, and Benno Stein. Retrieval of the best counterargument without prior topic knowledge. In , pages 241–251, 2018. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) [57] David Wadden, Shanchuan Lin, Kyle Lo, Lucy Lu Wang, Madeleine van Zuylen, Arman Cohan, and Hannaneh Hajishirzi. Fact or fiction: Verifying scientific claims. In , halaman 7534–7550, tahun 2020. Konferensi 2020 tentang Metode Empiris dalam Pengolahan Bahasa Alami (EMNLP) [58] Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, and Furu Wei. Simlm: Pre-training with representation bottleneck for dense passage retrieval. , abs/2207.02578, 2022. Arsip [59] Wenhui Wang, Hangbo Bao, Shaohan Huang, Li Dong, and Furu Wei. Minilmv2: Multi-head self-attention relation distillation for compressing pretrained transformers. In , pages 2140–2151, 2021. Temuan Asosiasi Linguistik Komputasi: ACL-IJCNLP 2021 [60] Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Joulin, and Edouard Grave. CCNet: Extracting high quality monolingual datasets from web crawl data. In , halaman 4003–4012, Marseille, Perancis, 2020 European Language Resources Association. ISBN 979-10-95546-34-4. . Proceedings of the 12th Language Resources and Evaluation Conference https://aclanthology.org/2020.lrec-1.494 [61] Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul N. Bennett, Junaid Ahmed, dan Arnold Overwijk. Pendekatan tetangga terdekat belajar kontras negatif untuk pencarian teks padat. . OpenReview.net, 2021. URL . . Konferensi Internasional ke-9 tentang Representasi Pembelajaran, ICLR 2021, Event Virtual, Austria, 3-7 Mei 2021 https://openreview net/forum?id=membaca [62] Canwen Xu, Daya Guo, Nan Duan, dan Julian McAuley. Laprador: Unsurveiled pretrained dense retriever for zero-shot text retrieval. , halaman 3557–3569, 2022. Temuan Asosiasi Linguistik Komputer: ACL 2022 [63] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William Cohen, Ruslan Salakhutdinov, dan Christopher D Manning. Hotpotqa: Sebuah dataset untuk beragam, dapat dijelaskan multi-hop pertanyaan menjawab. , halaman 2369–2380, 2018. Konferensi 2018 tentang Metode Empiris dalam Pengolahan Bahasa Alami Detail Dataset Untuk Common Crawl, kami mengunduh snapshot 2022-33 dan cc_net is used for preprocessing including language identification, de-duplication, language model filtering, etc. Web pages from the MS-MARCO document ranking corpus are also included. For the data filtering step, we examine each pair of passages within a web page instead of just using the title as a query. For Wikipedia, we use the version released by Petroni et al. . To avoid possible data contamination, we remove text pairs that occur in the evaluation datasets based on exact string match. 8 [46] Data Reddit dikumpulkan dari tahun 2018 hingga Agustus 2022.Untuk data S2ORC, kami menggunakan berat sampel 0*.*3 selama pelatihan untuk menghindari over-fiting bidang ilmiah. For the BEIR benchmark, we use the 15 datasets that provide public downloads: MS MARCO [ ], Trec-Covid [ (Baca juga : NFCorpus ], NQ [ ], HotpotQA [ ], FiQA [ (Baca juga : Arjuna) Untuk tahun 2020 ini [ (Berdasarkan pernyataan yang dikemukakan oleh ], Quora, DBPedia [ (Baca juga : Pecah belah) dengan demam ( Demam berdarah ( dan Scifact 8 55 5 32 63 37 56 4 26 24 12 54 18 [57]. b. detail implementasi Menampilkan hyperparameter dalam tabel Karena beberapa kumpulan data evaluasi memiliki teks panjang, kami membekukan embeddings posisi selama pre-training dan fin-tuning dan menetapkan panjang teks maksimum menjadi 512 untuk evaluasi. 11. Untuk tugas pencarian duplikat Quora di benchmark BEIR, kita menambahkan prefix “ ” untuk semua pertanyaan. untuk tugas-tugas pencarian lainnya, kami menggunakan ” ” and “ ” prefixes correspondingly. Keinginan : Keinginan : passage: Hasil MS-MARCO dalam tabel menggunakan judul dokumen yang disediakan oleh RocketQA [ ]. This evaluation setup is consistent with most state-of-the-art dense retrievers. However, the MS-MARCO data from the BEIR benchmark does not have titles, so the results are expected to be lower. 12 50 Kami melaporkan hasil untuk kumpulan data in-domain di tabel These results can help illustrate the benefits brought by contrastive pre-training when abundant in-domain labeled data are available. For MS-MARCO passage ranking, MRR@10 and Recall@1k are reported. For the NQ dataset, Recall@20 and Recall@100 are the main metrics. In-domain Evaluation 12. c. hasil negatif Berikut adalah beberapa upaya yang akhirnya kami putuskan: Similar to DPR [ ], we add one BM25 hard negative for each positive pair during training. When using 15M data, this strategy improves the overall results by ~ 0.5 points on the BEIR benchmark. However, running the BM25 algorithm over a 250M+ dataset is too time-consuming even with multi-node and multi-process parallelism. Adding BM25 hard negatives 30 Though RoBERTa shows consistent gains on many NLP tasks, we empirically find that RoBERTa performs worse than BERT initialization on most of the BEIR benchmark datasets. Using RoBERTa instead of BERT for initialization Kami menambahkan hilangnya pemodelan bahasa yang disamarkan untuk 25% dari pasangan teks pelatihan. angka-angka sama dengan menghapus tujuan tambahan ini, tetapi biaya pelatihan meningkat. Auxiliary MLM objective Dokumen ini tersedia di archiv di bawah lisensi CC by 4.0 Deed (Attribution 4.0 International). Dokumen ini tersedia di archiv di bawah lisensi CC by 4.0 Deed (Attribution 4.0 International).