AI хурдасгуурын судалгаа ба тэдгээрийн том хэлний загваруудыг (LLMs) өргөн хүрээнд ашиглахад үзүүлэх нөлөө.
Энэ цувралын нийтлэлүүд :
Том хэлний загвар (LLM) дүгнэлтийг оновчтой болгох праймер: 1. Үндэслэл ба асуудлын томъёолол
Том хэлний загвар (LLM) дүгнэлтийг оновчтой болгох праймер: 2. Хиймэл оюун ухааны (AI) хурдасгуурын танилцуулга (энэ нийтлэл)
Өмнөх нийтлэлд бид Том хэлний загвар (LLM)-ийн дүгнэлтэд тулгарч буй бэрхшээлүүд болох өндөр хоцролт, эрчимтэй нөөцийн хэрэглээ, өргөтгөх чадвар зэрэг асуудлуудыг хэлэлцсэн. Эдгээр асуудлыг үр дүнтэй шийдвэрлэхийн тулд ихэвчлэн зөв техник хангамжийн дэмжлэг шаардлагатай байдаг. Энэхүү нийтлэл нь хиймэл оюун ухааны хурдасгуур буюу AI-ийн ажлын ачааллын гүйцэтгэлийг сайжруулахад зориулагдсан тусгай техник хангамж, түүний дотор LLM-ийн дүгнэлтийг багтаасан бөгөөд тэдгээрийн архитектур, үндсэн төрлүүд болон LLM-ийг өргөн цар хүрээтэй нэвтрүүлэхэд үзүүлэх нөлөөллийг онцолсон болно.
Хэрэв та OpenAI, Google зэрэг компаниуд сая сая хэрэглэгчдэд нэгэн зэрэг үйлчилдэг эдгээр том хэлний загваруудыг хэрхэн ажиллуулж чадаж байгаа талаар бодож байсан бол нууц нь AI хурдасгуур гэж нэрлэгддэг тусгай техник хангамжид оршдог. Уламжлалт CPU-үүд ерөнхий зориулалтын даалгавруудыг сайн гүйцэтгэдэг ч хиймэл оюун ухааны ажлын ачааллын шаардлагад тохируулаагүй байдаг. AI хурдасгуурууд нь эсрэгээрээ хиймэл оюун ухааны даалгавруудад зориулагдан бүтээгдсэн бөгөөд өгөгдөлд өндөр хурдны хандалт, зэрэгцээ боловсруулах чадвар, бага нарийвчлалтай арифметикийг дэмждэг. Тооцооллыг AI хурдасгуур руу шилжүүлснээр байгууллагууд гүйцэтгэлийн мэдэгдэхүйц өсөлтийг олж, зардлыг бууруулж, ялангуяа LLM гэх мэт нарийн төвөгтэй загваруудыг ажиллуулж чадна. AI хурдасгуурын зарим нийтлэг төрлүүд болон эдгээр ажлын ачаалалд зориулсан өвөрмөц давуу талуудыг авч үзье.
AI хурдасгуурууд нь хэд хэдэн хэлбэрээр ирдэг бөгөөд тус бүр нь хиймэл оюун ухааны тодорхой ажил, орчинд зориулагдсан байдаг. Гурван үндсэн төрөл нь GPU, TPU болон FPGA/ASIC бөгөөд тус бүр нь өвөрмөц онцлог, давуу талтай:
Анх график дүрслэхэд зориулж бүтээгдсэн GPU нь зэрэгцээ боловсруулах чадвараараа гүнзгий суралцах даалгавруудыг гүйцэтгэх хүчирхэг хэрэгсэл болсон. Тэдний архитектур нь LLM дүгнэлт гэх мэт ажлуудад зайлшгүй шаардлагатай өндөр хүчин чадалтай матрицын тооцоололд маш сайн тохирдог. GPU нь сургалт, дүгнэлт гаргахад зориулагдсан мэдээллийн төвүүдэд ялангуяа түгээмэл байдаг. NVIDIA Tesla, AMD Radeon, Intel Xe зэрэг GPU-г үүлэн болон дотоод орчинд өргөнөөр ашигладаг.
Google нь TensorFlow-д суурилсан сургалт, дүгнэлтэд зориулсан оновчлол бүхий гүнзгий сургалтын ажлын ачаалалд зориулагдсан TPU-г тусгайлан боловсруулсан. TPU нь том хэмжээний хиймэл оюун ухааны даалгавруудыг үр ашигтай хурдасгахад зориулагдсан бөгөөд хайлт, орчуулга зэрэг Google-ийн олон програмыг идэвхжүүлдэг. Google Cloud-ээр дамжуулан ашиглах боломжтой TPU-ууд нь сургалт, дүгнэлтийн аль алинд нь өндөр гүйцэтгэлийг санал болгодог тул TensorFlow хэрэглэгчдийн хувьд илүүд үздэг.
FPGA болон ASIC нь хиймэл оюун ухааны тодорхой ажлуудыг дэмждэг хоёр өөр төрлийн тохируулж болох хурдасгуур юм. FPGA нь дахин программчлагдах боломжтой бөгөөд энэ нь хиймэл оюун ухааны янз бүрийн загвар, хэрэглээнд дасан зохицох боломжийг олгодог бол ASIC нь тодорхой ажлуудад зориулж бүтээгдсэн бөгөөд эдгээр ажлын ачаалалд хамгийн их үр ашгийг өгдөг. Энэ хоёр төрлийг өгөгдлийн төв болон захад ашигладаг бөгөөд бага хоцролт, өндөр дамжуулах чадвар чухал байдаг. Жишээ нь: Intel Arria болон Xilinx Alveo (FPGAs) болон Google-ийн Edge TPU (ASICs).
CPU болон хиймэл оюун ухаан хурдасгууруудын өвөрмөц бүтэц нь тэдгээрийг янз бүрийн төрлийн ажлын ачаалалд тохирсон болгодог. Энд хамгийн чухал шинж чанаруудын харьцуулалт энд байна:
Лавлагаа: Дэвид Б.Кирк, Вэн-Мэй В.Хву нарын асар их параллель процессоруудыг програмчлах [1]
CPU-д цөөхөн цөм (4-8) байдаг бөгөөд дизайн нь хоцрогдол багатай, нэг урсгалтай өндөр гүйцэтгэлтэй байхаар оновчтой болсон гэдгийг анхаарна уу. Үүний эсрэгээр, GPU нь олон мянган цөмтэй бөгөөд өндөр дамжуулах чадвар, зэрэгцээ боловсруулалт хийхэд оновчтой байдаг. Энэхүү зэрэгцээ боловсруулах чадвар нь GPU-д том хэмжээний AI ажлын ачааллыг үр ашигтайгаар зохицуулах боломжийг олгодог.
AI хурдасгуурууд нь LLM дүгнэлт гэх мэт том хэмжээний хиймэл оюун ухааны ажлын ачааллыг зохицуулахад тохиромжтой болгодог хэд хэдэн онцлог шинж чанартай байдаг. Гол онцлогууд нь:
AI хурдасгуурууд нь олон мянган цөмтэй архитектурын ачаар том хэмжээний зэрэгцээ боловсруулалт хийхэд зориулагдсан. Энэхүү параллелизм нь LLM-ийн дүгнэлтэд шаардагдах эрчимтэй матрицын тооцооллыг үр ашигтайгаар зохицуулах боломжийг олгодог. Олон хурдасгуурууд нь матрицын үржүүлэх гэх мэт тензорын үйлдлүүдэд зориулагдсан тусгай тензор цөмүүдийг агуулдаг. Эдгээр чадварууд нь LLM-ийн даалгавруудыг масштабаар боловсруулахад хиймэл оюун ухааны хурдасгуурыг CPU-ээс хамаагүй хурдан болгодог.
Лавлагаа: Youngsuk Park, et al.-ийн AI хурдасгуур дээрх суурийн загваруудын дүгнэлтийг оновчтой болгох.
Хурдасгуурууд нь өндөр зурвасын өргөнийг идэвхжүүлдэг тусгай санах ойтой бөгөөд том өгөгдлийн багц болон загварын параметрүүдэд хамгийн бага хоцролттой хандах боломжийг олгодог. Энэ функц нь оролтын текст болон загварын параметрүүдийг ачаалахын тулд байнга өгөгдөлд хандах шаардлагатай байдаг LLM дүгнэлт хийхэд зайлшгүй шаардлагатай. Өндөр зурвасын өргөнтэй санах ой нь өгөгдөл сэргээхэд саад бэрхшээлийг багасгаж, хоцролтыг багасгаж, гүйцэтгэлийг сайжруулдаг.
AI хурдасгуурууд нь олон төхөөрөмжийн тохиргоонд хурдан өгөгдөл дамжуулахад туслах өндөр хурдны харилцан холболтоор тоноглогдсон байдаг. Энэ нь ялангуяа хурдасгуурууд мэдээлэл солилцох, үр дүнтэй харилцах шаардлагатай олон төхөөрөмж дээр LLM-ийн дүгнэлтийг өргөжүүлэхэд чухал юм. Өндөр харилцан холболтын зурвасын өргөн нь том өгөгдлийн багцыг төхөөрөмжүүдэд хувааж, саад бэрхшээл үүсгэхгүйгээр хослуулан боловсруулах боломжийг олгодог.
AI хурдасгуурын өөр нэг давуу тал нь 8 битийн бүхэл тоо, 16 битийн хөвөгч цэгийн тооцоо зэрэг бага нарийвчлалтай арифметикийг дэмждэг. Энэ нь санах ойн хэрэглээ болон эрчим хүчний зарцуулалтыг бууруулж, хиймэл оюун ухааны ажлыг илүү үр дүнтэй болгодог. LLM-ийн дүгнэлтийн хувьд бага нарийвчлалтай тооцоолол нь ихэнх програмуудад хангалттай нарийвчлалыг хадгалахын зэрэгцээ илүү хурдан боловсруулалтыг хангадаг. AI хурдасгуурууд нь өгөгдлийн төрлийн маш баялаг сонголттой байдаг.
Лавлагаа: Youngsuk Park, et al.-ийн AI хурдасгуур дээрх суурийн загваруудын дүгнэлтийг оновчтой болгох.
Ихэнх хиймэл оюун ухааны хурдасгуурууд нь NVIDIA GPU-д зориулсан cuDNN, Google TPU-д зориулсан XLA зэрэг алдартай хиймэл оюун ухааны хүрээнүүдэд зориулсан оновчтой номын сангуудтай ирдэг. Эдгээр номын сангууд нь хиймэл оюун ухааны нийтлэг үйлдлүүдийг гүйцэтгэх өндөр түвшний API-уудыг хангадаг бөгөөд LLM-д тусгайлан зориулсан оновчлолуудыг агуулдаг. Эдгээр санг ашиглах нь илүү хурдан загвар боловсруулах, байршуулах, дүгнэлтийг оновчтой болгох боломжийг олгодог.
AI хурдасгуурууд нь маш томруулж чаддаг тул их хэмжээний ажлын ачааллыг үр дүнтэй шийдвэрлэхийн тулд кластер эсвэл дата төвүүдэд байршуулах боломжийг олгодог. Эдгээр нь эрчим хүчний хэмнэлттэй байхаар бүтээгдсэн бөгөөд харьцуулж болохуйц ажлуудад CPU-ээс бага эрчим хүч зарцуулдаг бөгөөд энэ нь LLM-ийн дүгнэлт зэрэг тооцооллын эрчимтэй програмуудад тохиромжтой болгодог. Энэхүү үр ашиг нь хиймэл оюун ухааны том загваруудыг ажиллуулахад үйл ажиллагааны зардал болон байгаль орчинд үзүүлэх нөлөөллийг бууруулахад тусалдаг.
LLM дүгнэлт гаргахад хиймэл оюун ухааны хурдасгуурын үр ашгийг нэмэгдүүлэхийн тулд янз бүрийн төрлийн параллелизмын аргуудыг ашигладаг.
Өгөгдлийн параллелизм нь оролтын өгөгдлийг олон багц болгон хувааж, багц бүрийг зэрэгцүүлэн боловсруулах явдал юм. Энэ нь гүнзгий суралцах сургалт, дүгнэлт зэрэг том өгөгдлийн багц агуулсан AI-ийн ажлын ачаалалд хэрэгтэй. Өгөгдлийг олон төхөөрөмжид түгээснээр AI хурдасгуур нь ажлын ачааллыг илүү хурдан боловсруулж, ерөнхий гүйцэтгэлийг сайжруулж чадна. LLM-ийн дүгнэлт дэх өгөгдлийн параллелизмын жишээ бол оролтын текстийг багц болгон хувааж, багц бүрийг тусдаа хурдасгуур дээр боловсруулах явдал юм.
Загварын параллелизм нь AI загварын бүрэлдэхүүн хэсгүүдийг олон төхөөрөмжид хувааж, өөр өөр загварын хэсгүүдийг зэрэгцээ боловсруулах боломжийг олгодог. Энэ арга нь нэг төхөөрөмжийн санах ойн багтаамжаас давсан эсвэл үр ашигтай боловсруулалт хийхэд тархсан тооцоолол шаарддаг том AI загваруудад онцгой ач холбогдолтой юм. Загварын параллелизм нь том хэлний загвар (LLMs) болон бусад гүнзгий сургалтын архитектурт өргөн хэрэглэгддэг бөгөөд энэ нь загварын хэмжээ нь ихээхэн хязгаарлалт болдог.
Загварын параллелизмыг хоёр үндсэн аргаар хэрэгжүүлж болно.
Давхарга доторх параллелизм (Тензорын параллелизм) : Тус тусад нь давхарга эсвэл бүрэлдэхүүн хэсгүүд нь төхөөрөмжүүдэд хуваагддаг бөгөөд төхөөрөмж бүр нь нэг давхарга доторх тооцооллын хэсгийг зохицуулдаг. Жишээлбэл, трансформаторын загварт анхаарал хандуулах толгой эсвэл урагшлах сүлжээний давхаргыг олон төхөөрөмжид тарааж болно. Төхөөрөмжүүд зөвхөн давхаргын хил дээр синхрончлох шаардлагатай байдаг тул энэ арга нь харилцаа холбооны ачааллыг багасгадаг.
Давхарга хоорондын параллелизм (Хамгийн шугамын параллелизм) : Давхаргын дараалсан бүлгүүд нь төхөөрөмжүүдэд тархаж, тооцооллын шугамыг үүсгэдэг. Үр дүнг дамжуулах хоолойн дараагийн төхөөрөмж рүү дамжуулахын өмнө төхөөрөмж бүр өөрт оноогдсон давхаргуудаа боловсруулдаг. Энэ арга нь ялангуяа гүнзгий сүлжээнүүдэд үр дүнтэй боловч дамжуулах хоолойн хоцролтыг бий болгодог.
Даалгаврын параллелизм нь AI-ийн ажлын ачааллыг хэд хэдэн ажилд хувааж, ажил бүрийг зэрэгцүүлэн боловсруулах явдал юм. Энэ нь бие даасан жолоодлого зэрэг олон бие даасан даалгавруудыг багтаасан хиймэл оюун ухааны ажлын ачаалалд хэрэгтэй. Даалгавруудыг зэрэгцүүлэн боловсруулснаар AI хурдасгуур нь нарийн төвөгтэй ажлуудыг дуусгахад шаардагдах хугацааг багасгаж, ерөнхий гүйцэтгэлийг сайжруулж чадна. Даалгаврын параллелизмыг ихэвчлэн хиймэл оюун ухааны хурдасгуурт объект илрүүлэх, видео шинжилгээ хийх зэрэг ажилд ашигладаг.
Текст оруулах багцыг боловсруулдаг 70 тэрбум параметр бүхий LLM-ийг авч үзье.
AI хурдасгуурууд нь ихэвчлэн үндсэн CPU-тэй хамт ажилладаг бөгөөд тооцооллын хүнд даалгавруудыг ачааллаас ангижруулдаг. Үндсэн CPU нь ерөнхий зориулалтын даалгавруудыг хариуцдаг бол AI хурдасгуурууд нь тооцооллын хүнд даалгавруудыг хариуцдаг. Үүнийг ихэвчлэн хамтын боловсруулалт гэж нэрлэдэг. AI хурдасгуурууд үндсэн CPU-тэй хэрхэн ажилладагийг харуулах энгийн диаграмм энд байна. Хамтран боловсруулах зарим товч нэр томъёо энд байна:
AI-ийн ажлын ачаалал нарийн төвөгтэй, цар хүрээгээрээ өссөөр байгаа тул хиймэл оюун ухааны хурдасгуурууд орчин үеийн хэрэглээний эрэлт хэрэгцээнд нийцүүлэн хөгжиж байна. AI хурдасгуурын ирээдүйг тодорхойлох зарим гол чиг хандлагад [3]:
Graphcore-ийн бүтээсэн IPU нь машин сургалтын нарийн төвөгтэй ажлуудыг өндөр үр ашигтайгаар шийдвэрлэхэд зориулагдсан. Тэдний архитектур нь зэрэгцээ боловсруулалтад төвлөрч, том хэмжээний хиймэл оюун ухааны ажлын ачаалалд тохиромжтой.
SambaNova Systems-ийн боловсруулсан RDU нь процессор доторх өгөгдлийн урсгалыг динамикаар оновчтой болгох замаар хиймэл оюун ухааны ажлын ачааллыг хурдасгах зорилготой юм. Энэ арга нь LLM дүгнэлт гэх мэт ажлуудын гүйцэтгэл, үр ашгийг сайжруулдаг.
NPU-ууд нь гүнзгий суралцах, мэдрэлийн сүлжээний ажлуудад зориулагдсан бөгөөд хиймэл оюун ухааны ажлын ачаалалд тохируулан үр дүнтэй өгөгдөл боловсруулах боломжийг олгодог. Тэд төхөөрөмж дээрх хиймэл оюун ухааны чадавхийг шаарддаг төхөөрөмжүүдэд улам бүр нэгтгэгдэж байна.
Энэ нийтлэлд бид AI-ийн ажлын ачааллын гүйцэтгэлийг сайжруулахад хиймэл оюун ухаан хурдасгуурын үүрэг, түүний дотор LLM-ийн дүгнэлтийг хэлэлцсэн. Зэрэгцээ боловсруулах чадвар, өндөр хурдны санах ой, хурдасгуурын нарийвчлал багатай арифметикийг ашигласнаар байгууллагууд LLM-ийг өргөн цар хүрээтэй ашиглах үед гүйцэтгэлийн мэдэгдэхүйц өсөлт, зардлыг хэмнэх боломжтой. AI хурдасгуурын үндсэн шинж чанар, төрлийг ойлгох нь LLM-ийн дүгнэлтийг оновчтой болгох, томоохон хэмжээний хиймэл оюун ухааныг ашиглахад нөөцийн үр ашигтай ашиглалтыг хангахад зайлшгүй шаардлагатай. Дараагийн нийтлэлд бид AI хурдасгуур ашиглан LLM-ийг өргөн цар хүрээтэй ашиглах системийг оновчтой болгох арга техникийг хэлэлцэх болно.