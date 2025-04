ጸሓፍቲ፤ (1) ቤን ኣቲዋራትኩን፡ AWS AI Labs፤ (2) ሱጃን ኩማር ጎኑጎንድላ፡ AWS AI Labs፤ (3) ሳንጃይ ክሪሽና ጎውዳ፡ AWS AI Labs፤ (4) ሃይፈንግ ቅያን፡ AWS AI Labs፤ (5) ሳንጃይ ክሪሽና ጎውዳ፡ AWS AI Labs፤ (6) ሃንቲያን ዲንግ፡ AWS AI Labs፤ (7) ቺንግ ሳን፡ ኤውኤስ ኤኣይ ላብስ፤ (8) ጁን ዋንግ፡ AWS AI Labs፤ (9) ጂያቸንግ ጉኦ፡ AWS AI Labs፤ (10 ሊያንግፉ ቸን፡ AWS AI Labs፤ (11) ፓርሚንደር ባቲያ፡ ጂኢ ሄልዝኬር (ኣብ AWS ዝተሰርሐ ስራሕ)፤ (12) ራሜሽ ናላፓቲ፡ ኣማዞን ኤጂኣይ (ኣብ AWS ዝተሰርሐ ስራሕ)፤ (13) ሱዲፕታ ሰንጉፕታ፡ AWS AI Labs፤ (14) ቢንግ ሺያንግ፡ ጎልድማን ሳክስ (ኣብ AWS ዝተሰርሐ ስራሕ)።

ኣብ ስነ-ጽሑፍ፡ ንመደምደምታ ምድንጓይን/ወይ ምድንጓይን ንምምሕያሽ ብዙሓት መንገድታት ኣለዉ። ቁጽሪ ምግባር ከም int8, int4, fp8 ዝኣመሰሉ ትሑት ቢትስፍሓት ዘለዎም ውክልናታት ብምጥቃም ኣጠቓቕማ መዘክር ይቕንስ (Wei et al., 2023; Yao et al., 2022; Dettmers et al., 2022; Frantar et al., 2022; Kuzmin et al., 2022; Xiao et al., 2022)። ቁጽሪ ምግባር ንሞዴል መለክዒታት ጥራይ ክውዕል ከሎ ከምቲ ምስ ነዊሕ መስርዕ ንውሓትን ዓበይቲ ዕስለ ዓቐናትን ዝቕንስ ውጽኢት የቕርብ ኣብኡ ምስ ነጥቢ-ፍርያት ኣቓልቦ ዝተኣሳሰር መዘክር ምብጻሕን ምሕሳብን ኣብ ሓፈሻዊ መደምደምታ ምድንጓይ ይዕብለል።

ስፍሕ ዝበለ ኣቓልቦ (Beltagy et al., 2020; Child et al., 2019; Zaheer et al., 2020) ንነዊሕ ዓውድታትን ዝቐልጠፈ መደምደምታን ዝተሓላለኸ ኣቓልቦ ንምንካይ ዝሕግዝ መንገዲ ምዃኑ ብሰፊሑ ተጽኒዑ እዩ። ፖፕን ካልኦትን. (2022) ኣብ ላቴንሲን ሞዴል FLOPs ኣጠቓቕማን ፓሬቶ ዶብ ንምዕዋት ንTPUs (collective einsum) ዝተመቻቸወ ብዙሕ-መዳይ ምክፍፋል ሜላታት ብምጥቃም ናይ ዓበይቲ ቋንቋ ሞዴላት ጀነሬቲቭ ኢንፈርንስ ብቕዓት ይምርምር። እቲ ጽሑፍ ብተወሳኺ ኣብ ትሕቲ ልዑል ዕስለ ስፍሓት ኣብ ብቕዓት ብምትኳር ክሳብ 32x ዝዓበየ ንውሓት ዓውደ-ጽሑፍ ምዕባይ ከም ዘኽእል ብዙሕ ሕቶታት ኣቓልቦ ከም ዘፍቅድ ይሕብር። Paged attention (Kwon et al., 2023) ንናይ KV cache ኣብ ብሎክ ብምክፋልን ንዕላማታት ካርታ ብሎክ ሰንጠረዥ ብምጥቃምን ምሕደራ መዘክር የዕብዮ። እዚ ኣገባብ እዚ ብውጽኢታዊ መንገዲ ዳይናሚክ ጽዕነት ስራሕ ምቅይያር ዘተኣናግድን ብመገዲ ምክፋል ናይቲ ፕሮምፕት KV cache ኣብ ልዕሊ ብዙሓት ውጽኢት መስርዕ ንጠለባት መኽዘን መዘክር ይቕንሶ። እዚ ግን ንባባት መዘክር ናይ KV cache ኣይቅንሶን እዩ።





ስፔኩላቲቭ ዲኮዲንግ፣ ከምኡ’ውን ፍልልያቱ ንእሽተይ ረቂቕ ሞዴል ተጠቒሙ ብዙሓት ተኸታታሊ ቶከናት ይሓስብ፣ እዚኦም ድማ ከምዚኦም ዝበሉ ቶከናት ንምቕባል ወይ ንምንጻግ ብቐንዲ ሞዴል ብማዕረ ይስርሑ (Chen et al., 2023; Leviathan et al., 2022; Li et al., 2024; Cai et al., 2024; Fu et al., 2023)። እቲ ቁልፊ ሓሳብ ኣብ ነፍሲ ወከፍ ስጉምቲ ብዙሓት ቶከናት ምፍታሕ ምኽኣል እዩ፣ በዚ ድማ ኣጠቓቕማታት መዘክር IO ናይቲ ቀንዲ ሞዴል ምጉዳል እዩ። ይኹን እምበር፡ ላቴንሲ ናይ ዲኮዲንግ ጌና ብKV cache I/O bandwidth ኣብ ዓበይቲ ዓቐናት ዓውዲ ክዕብለል እዩ፡ ኣብዚ ክልተ ዝተኸፋፈለ ኣቓልቦ ንፍጥነት ምፍታሕ ዝያዳ ከዕብዮ ይኽእል። ብሓጺሩ ወሰኽ ዲኮዲንግ ናይ ሞዴል ጽዕነት amortized memory IO ኣብ ምጉዳል ዘተኮረ ክኸውን ከሎ multi-queryን bifurcated attentionን ድማ ናይ KV cache memory IO የጉድል።

ኣብ ምሉእ እቲ ወረቐት ነዚ ዝስዕብ ምልክት ንጥቀም።













ንሞዴል ቋንቋ ብዙሓት ናይ መደምደምታ ስናርዮታት ኣለዉ፣ ንኣብነት ዕስለ መደምደምታን ንጽል-ዓውዲ ዕስለ ናሙና ምውሳድን (ስእሊ 1)። Batch inference ንብዙሓት እታዎታት ብሓባር ኣብ ሓደ ዕስለ ንሰርሓሉ፣ ንነፍሲ ወከፍ ዕስለ ኢንዴክስ ድማ ስዒቡ ዝመጽእ ቶከናት ብናጻ ነፍሪ ዝብል ጉዳይ የመልክት። ኣብቲ ስፍሓት ዕስለ 1 ዝኾነሉ ኩነታት እዚ ናብቲ ሓደ-ዓውደ-ጽሑፍ መደምደምታ ይንኪ። ካልእ ስናርዮ ድማ ኣብ ሓደ ዓውደ-ጽሑፍ ተመርኲስና ብዙሓት መስርዕ ዘመንጩሉ ንጽል-ዓውዲ ዕስለ ናሙና እዩ፣ ኣብዚ ፍልልይ ኣብ መንጎ ዕስለ መደምደምታ ጉዳይ እቲ ቅድመ-ምምላእ ንሓደ ዓውደ-ጽሑፍ ጥራይ ክግበር ኣለዎ ንKV cache ንምርካብ፣ ድሕሪኡ ናብ ካልኦት ዕስለ መዐቀኒታት ይፍኖ።





ስእሊ 1 ንኽልተ ምዕራፋት ናይ ቋንቋ ሞዴል ምድምዳም እውን የርኢ፡ (ሀ) ዓውደ-ጽሑፍ ኢንኮዲንግ ወይ ቅድመ-ምምላእን (ለ) ወሰኽ ዲኮዲንግን። እቲ ናይ ዓውዲ ኢንኮዲንግ ንሓደ ንቕድሚት ምሕላፍ የመልክት እዚ ድማ ንኹሎም ኣብቲ ዓውዲ ዝርከቡ ናይ ቶከን ቦታታት መፍትሕን ዋጋን ቴንሶራት ዝሕስብ እዩ። እቶም መፍትሕን ዋጋን ቴንሰራት ምስተቖጽሩ፡ ነዞም መፍትሕን ዋጋን ቴንሰራት ኣብ እዋን ወሰኽ ምፍታሕ ምዕራፍ ንመካኒዝም ኣቓልቦ ንኽንጥቀመሎም ንዕቅቦም፣ እዚ ድማ ብተኸታታሊ ኣብ ሓደ እዋን ሓደ ቶከን የመንጩ[2]።

















ኣብ እዋን ምዕራፍ ኢንኮዲንግ ዓውደ-ጽሑፍ፡ ብዝሒ ስርሓት ተንሳፋፊ ነጥቢ ብተዛማዲ ምስ ስርሓት ምእታው/ምውጻእ (IO) መዘክር ልዑል ኮይኑ፡ ምስቲ ላቴንሲ ብFLOPs ዝጽሎ፡ ምስቲ ስሌት ዝተኣሳሰረ ስርዓት ዝሰማማዕ እዩ። ይኹን እምበር ኣብ እዋን ኣብ ሓደ ናይ ሕቶ ምልክት ኣቓልቦ እንገብረሉ ወሰኽ ምፍታሕ (incremental decoding) እዚ ኣብ ሓደ ብመዘክር ዝተኣሳሰረ ስርዓት ይወድቕ፣ ኣብኡ ድማ ብዝሒ ስሌት ኣብ ነፍሲ ወከፍ መዘክር መእተዊ ብግምት 1-ን-1 እዩ (ንዝርዝር ሓበሬታ ኣብ መመላእታ D.1 ርአ)። እቲ መዘክር IO ካብቲ ልዑል ባንድዊድ መዘክር (HBM) (Jia et al., 2018) ናብቲ እቲ ጭቡጥ ስሌት ዝፍጸመሉ ቅልጡፍ ኣብ ቺፕ SRAM ዝግበር ናይ ምንባብን ምጽሓፍን ስርሓት የመልክት። እቲ መዘክር IO ናይቲ ወሰኽ ዲኮዲንግ ንባዕሉ ክልተ ኣካላት ዝሓዘ እዩ፡ (1) ናይ ሞዴል መለክዒ ምጽዓንን (2) ናይ KV ካሸ ጽዕነትን። ኣካል (1) ንውሓት ዓውደ-ጽሑፍ m ወይ ዕስለ ስፍሓት b ብዘየገድስ ቀዋሚ እዩ ኣብዚ ክፍሊ (2) ኣብ ክልቲኡ mን bን ዝምርኮስን m ወይ b ልዑል እንተኾይኑ ኣብ ሓፈሻዊ መዘክር IO ዝዕብለልን እዩ፣ እዚ ድማ ንመደምደምታ ርኡይ ዕንቅፋት ክኸውን ይኽእል። ስራሕና ብቐንዱ ኣብ ምንካይ ባእታ (2) ዘተኮረ እዩ።





እዚ ወረቐት ኣብ arxiv ብመሰረት CC BY 4.0 DEED ፍቓድ ይርከብ ።