Yazarlar:
(1) Mingjie Liu, NVIDIA {Eşit katkı};
(2) Teodor-Dumitru Ene, NVIDIA {Eşit katkı};
(3) Robert Kirby, NVIDIA {Eşit katkı};
(4) Chris Cheng, NVIDIA {Eşit katkı};
(5) Nathaniel Pinckney, NVIDIA {Eşit katkı};
(6) Rongjian Liang, NVIDIA {Eşit katkı};
(7) Jonah Alben, NVIDIA;
(8) Himyanshu Anand, NVIDIA;
(9) Sanmitra Banerjee, NVIDIA;
(10) İsmet Bayraktaroğlu, NVIDIA;
(11) Bonita Bhaskaran, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) Arjun Chaudhuri, NVIDIA;
(14) Sharon Clay, NVIDIA;
(15) Bill Dally, NVIDIA;
(16) Laura Dang, NVIDIA;
(17) Parikshit Deshpande, NVIDIA;
(18) Siddhanth Dhodhi, NVIDIA;
(19) Sameer Halepete, NVIDIA;
(20) Eric Hill, NVIDIA;
(21) Jiashang Hu, NVIDIA;
(22) Sumit Jain, NVIDIA;
(23) Brucek Khailany, NVIDIA;
(24) George Kokai, NVIDIA;
(25) Kishor Kunal, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) Charley Lind, NVIDIA;
(28) Hao Liu, NVIDIA;
(29) Stuart Oberman, NVIDIA;
(30) Sujeet Omar, NVIDIA;
(31) Sreedhar Pratty, NVIDIA;
(23) Jonathan Raiman, NVIDIA;
(33) Ambar Sarkar, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) Hanfei Sun, NVIDIA;
(36) Pratik P Suthar, NVIDIA;
(37) Varun Tej, NVIDIA;
(38) Walker Turner, NVIDIA;
(39) Kaizhe Xu, NVIDIA;
(40) Haoxing Ren, NVIDIA.
Yazarlar teşekkür etmek ister: NVBugs entegrasyonuna verdikleri destek için NVIDIA BT ekiplerine; Güvenlik konularındaki destekleri için NVIDIA Donanım Güvenliği ekibine; ChipNeMo modellerinin eğitimi ve çıkarımı konusunda destekleri ve rehberlikleri için NVIDIA NeMo ekiplerine; Proje için GPU eğitimini ve çıkarım kaynaklarını desteklemek üzere NVIDIA Altyapı ekipleri; Destekleri ve içgörüleri için NVIDIA Donanım tasarım ekiplerine teşekkür ederiz.
Mingjie Liu DAPT ve SFT model eğitimini gerçekleştirdi.
Teodor-Dumitru Ene, Robert Kirby çıkarım ve uygulama değerlendirme altyapısını geliştirdi.
Chris Cheng, RAG çerçevesini geliştirdi.
Nathaniel Pinckney eğitim için veri setleri topladı ve hazırladı.
Rongjian Liang özel tokenizatörler geliştirdi.
Walker Turner, Charley Lind, George Kokai genel bir devre tasarımı bilgisi ölçütü geliştirdi.
Siddhanth Dhodhi, Ismet Bayraktaroğlu, Himyanshu Anand ve Eric Hill , mühendislik asistanı sohbet robotu tasarladılar, alan talimatı veri kümeleri sağladılar, değerlendirme kriterleri sağladılar ve değerlendirmeyi gerçekleştirdiler.
Parikshit Deshpande, Zhengjiang Shao, Kaizhe Xu, Jiashang Hu, Laura Dang, Xiaowei Li, Hao Liu, Ambar Sarkar, mühendislik asistanı chatbot uygulamasını geliştirdi.
Sreedhar Pratty, Kishor Kunal, Varun Tej, Sumit Jain, Sujeet Omar, Pratik P Suthar, Hanfei Sun, EDA komut dosyası oluşturma uygulamasını geliştirdi, alan talimatı veri kümeleri ve değerlendirme kriterleri sağladı.
Bonita Bhaskaran, Arjun Chaudhuri, Sanmitra Banerjee, hata özetleme ve analiz uygulamasını geliştirdi, alan talimatı veri kümeleri ve değerlendirme kriterleri sağladı.
Brucek Khailany, Stuart Oberman, Sharon Clay, Sameer Halepete, Jonathan Raiman, Bryan Catanzaro, Jonah Alben, Bill Dally, yapay zeka araştırmaları ve donanım mühendisliği perspektiflerinden danışmanlık yaptı.
Haoxing Ren araştırmayı tasarladı ve yönetti.
[1] B. Khailany ve diğerleri, "Makine öğrenimiyle çip tasarımını hızlandırmak", IEEE Micro, cilt. 40, hayır. 6, s. 23–32, 2020.
[2] H. Ren ve M. Fojtik, "Davetli-nvcell: Güçlendirilmiş öğrenme ile ileri teknoloji düğümlerinde standart hücre düzeni", 2021 58. ACM/IEEE Tasarım Otomasyon Konferansı (DAC), 2021.
[3] R. Roy ve diğerleri, "PrefixRL: Optimization of paralel önek devrelerinin derin takviyeli öğrenmeyi kullanarak", 2021 58. ACM/IEEE Tasarım Otomasyon Konferansı (DAC), 2021.
[4] W.-L. Chiang ve diğerleri, "Vicuna: %90* chatgpt kalitesiyle gpt-4'ü etkileyen açık kaynaklı bir sohbet robotu", Mart 2023. [Çevrimiçi]. Mevcut: https://lmsys.org/blog/2023-03-30-vicuna/
[5] H. Touvron ve diğerleri, "Llama 2: Açık temel ve ince ayarlı sohbet modelleri" 2023.
[6] S. Thakur ve diğerleri, "Otomatik verilog rtl kod üretimi için büyük dil modellerinin karşılaştırılması", 2023 Avrupa'da Tasarım, Otomasyon ve Test Konferansı ve Sergisi (TARİH), 2023, s. 1-6.
[7] J. Blocklove ve diğerleri, "Chip-chat: Konuşma donanımı tasarımındaki zorluklar ve fırsatlar" 2023.
[8] Z. He ve diğerleri, "Chateda: A büyük dil modeli destekli otonom aracı for eda", 2023.
[9] S. Bubeck ve diğerleri, "Yapay genel zekanın kıvılcımları: gpt-4 ile erken deneyler" 2023.
[10] S. Wu ve diğerleri, "Bloomberggpt: Finans için geniş bir dil modeli", 2023.
[11] M. LLC. (2022) Biomedlm: biyomedikal metinler için alana özgü geniş dil modeli. [Çevrimiçi]. Mevcut: https://www.mosaicml.com/blog/introducing-pubmed-gpt
[12] M. Liu ve diğerleri, "VerilogEval: verilog kod üretimi için büyük dil modellerinin değerlendirilmesi", 2023 IEEE/ACM Uluslararası Bilgisayar Destekli Tasarım Konferansı (ICCAD), 2023.
[13] E. Nijkamp ve diğerleri, "Codegen: Çok dönüşlü program sentezine sahip kod için açık büyük dil modeli" ICLR, 2023.
[14] S. Gururangan ve diğerleri, "Ön eğitimi bırakmayın: Dil modellerini alanlara ve görevlere uyarlayın" 2020.
[15] P. Lewis ve diğerleri, "Bilgi yoğun nlp görevleri için erişimle artırılmış nesil", 2021.
[16] EJ Hu ve diğerleri, "Lora: Büyük dil modellerinin düşük dereceli uyarlaması", CoRR, cilt. abs/2106.09685, 2021. [Çevrimiçi]. Mevcut: https://arxiv.org/abs/2106.09685
[17] L. Gao ve diğerleri, "Yığın: Dil modelleme için çeşitli metinlerden oluşan 800 GB'lık bir veri kümesi."
[18] D. Kocetkov ve diğerleri, "The stack: 3 tb of permissively lisanslı kaynak kodu", 2022.
[19] A. Kopf ¨ ve diğerleri, "Açık yardım konuşmaları - geniş dil modeli hizalamasını demokratikleştirme", 2023.
[20] J. Wei ve diğerleri, "İnce ayarlı dil modelleri sıfır atışlı öğrenenler", 2022.
[21] V. Sanh ve diğerleri, "Çoklu görev destekli eğitim, sıfır atışlı görev genelleştirmesini sağlar" 2022.
[22] D. Hendrycks ve diğerleri, "Measuring multitask language Understanding", 2021.
[23] M. Chen ve diğerleri, "Kodla eğitilmiş büyük dil modellerinin değerlendirilmesi", 2021.
[24] F. Koto, JH Lau ve T. Baldwin, "IndoBERTweet: Etki alanına özgü sözcük dağarcığı başlatmaya sahip Endonezya Twitter'ı için önceden eğitilmiş bir dil modeli", Doğal Dil İşlemede Ampirik Yöntemler Üzerine 2021 Konferansı Bildirileri, Kasım 2021. 2021, s. 10 660–10 668.
[25] O. Kuchaiev ve diğerleri, "Nemo: sinir modüllerini kullanarak yapay zeka uygulamaları oluşturmak için bir araç seti", 2019.
[26] M. Shoeybi ve diğerleri, "Megatron-lm: Model paralelliğini kullanarak milyarlarca parametreli dil modellerinin eğitimi" arXiv ön baskı arXiv:1909.08053, 2019.
[27] T. Dao ve diğerleri, "FlashAttention: IO farkındalığıyla hızlı ve hafıza açısından verimli tam dikkat", Advances in Neural Information Processing Systems, 2022. [28] A. Chowdhery ve diğerleri, "Palm: Scaling Yollarla dil modellemesi”, 2022.
[29] Z. Ji ve diğerleri, "Doğal dil oluşumunda halüsinasyon araştırması", ACM Comput. Hayatta kalan, cilt. 55, hayır. 12 Mart 2023. [Çevrimiçi]. Mevcut: https://doi.org/10.1145/3571730
[30] L. Wang ve diğerleri, "Text embeddings by zayıf denetimli karşılaştırmalı ön eğitim" arXiv ön baskı arXiv:2212.03533, 2022.
[31] L. Gao ve diğerleri, "Tevatron: Yoğun erişim için etkili ve esnek bir araç seti" 2022.
[32] B. Roziere ve diğerleri, “Code lama: Open Foundation models for code,” 2023.
[33] N. Reimers ve I. Gurevych, "Cümle-bert: Siyam bert-ağlarını kullanan cümle yerleştirmeleri", 2019 Doğal Dil İşlemede Ampirik Yöntemler Konferansı Bildirileri'nde. Hesaplamalı Dilbilim Derneği, 11 2019. [Çevrimiçi]. Mevcut: http://arxiv.org/abs/1908.10084
[34] R. Pope ve diğerleri, "Transformatör çıkarımını verimli bir şekilde ölçeklendirmek" 2022.
[35] RY Aminabadi ve diğerleri, "Derin hız çıkarımı: Transformatör modellerinin benzeri görülmemiş ölçekte verimli çıkarımını sağlamak" 2022.
[36] L. Ouyang ve diğerleri, "İnsan geri bildirimiyle talimatları takip etmek için dil modellerini eğitmek" 2022.
[37] W. Xiong ve diğerleri, "Temel modellerin etkili uzun bağlam ölçeklendirilmesi", 2023.
[38] R. Taylor ve diğerleri, “Galactica: Bilim için geniş bir dil modeli,” 2022.
[39] A. Lewkowycz ve diğerleri, “Dil modelleriyle niceliksel muhakeme problemlerinin çözülmesi” 2022.
[40] P. Lewis ve diğerleri, "Bilgi yoğun nlp görevleri için almayla artırılmış nesil", 2021.
[41] S. Borgeaud ve diğerleri, "Trilyonlarca jetondan alınarak dil modellerinin iyileştirilmesi" 2022.
[42] S. Robertson ve H. Zaragoza, “Olasılıksal uygunluk çerçevesi: Bm25 ve ötesi,” Bulundu. Trendler Enf. Retr., cilt. 3, hayır. 4, s. 333–389, Nisan 2009. [Çevrimiçi]. Mevcut: https://doi.org/10.1561/1500000019
[43] V. Karpukhin ve diğerleri, "Açık alan soru yanıtlaması için yoğun geçiş erişimi", 2020.
[44] G. Izacard ve diğerleri, "Karşılaştırmalı öğrenmeyle denetimsiz yoğun bilgi erişimi" 2022.
[45] W. Shi ve diğerleri, "Replug: Retrieval-artırılmış kara kutu dil modelleri" 2023.
[46] G. Izacard ve diğerleri, "Retrieval Artırılmış Dil Modelleriyle Birkaç Adımda Öğrenme", 2022. [Çevrimiçi]. Mevcut: http://arxiv.org/abs/2208.03299
[47] O. Ram ve diğerleri, "Bağlam içi erişim-artırılmış dil modelleri", 2023.
[48] S. Zhou ve diğerleri, "Docprompting: Dokümanları alarak kod oluşturma" 2023.
[49] R. Rafailov ve diğerleri, "Doğrudan tercih optimizasyonu: Dil modeliniz gizlice bir ödül modelidir" 2023.
[50] Y. Dong ve diğerleri, "Steerlm: Koşullu sft'yi rlhf'ye (kullanıcı tarafından yönlendirilebilir) bir alternatif olarak niteleyin" 2023.
[51] H. Pearce, B. Tan ve R. Karri, "Dave: Türetme otomatik olarak ingilizceden verilog", Proceedings of the 2020 ACM/IEEE Workshop on Machine Learning for CAD, ser. MLCAD'20. New York, NY, ABD: Bilgisayar Makineleri Derneği, 2020, s. 27–32. [Çevrimiçi]. Mevcut: https://doi.org/10.1145/3380446.3430634
[52] “Güzel Çorba,” https://www.crummy.com/software/BeautifulSoup/, erişim tarihi: 10 Ekim 2023.
[53] K. Sakaguchi ve diğerleri, "Winogrande: Ölçekte bir çekişmeli winograd şema mücadelesi," arXiv ön baskı arXiv:1907.10641, 2019.
[54] R. Zellers ve diğerleri, "Hellaswag: Bir makine gerçekten cümlenizi bitirebilir mi?" Hesaplamalı Dilbilim Derneği'nin 57. Yıllık Toplantısı Bildirileri, 2019.
[55] P. Clark ve diğerleri, “Soru cevaplamayı çözdüğünüzü mü düşünüyorsunuz? AI2 muhakeme mücadelesi Arc'ı deneyin” 2018.
[56] G. Lai ve diğerleri, "Irk: Sınavlardan elde edilen geniş ölçekli okuduğunu anlama veri seti" 2017.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .