paint-brush
Primer on Large Language Model (LLM) Inference Optimizations: 1. Tlhamo ya Lemorago le Mathataka@mandliya
1,432 dipuku tša go balwa
1,432 dipuku tša go balwa

Primer on Large Language Model (LLM) Inference Optimizations: 1. Tlhamo ya Lemorago le Mathata

ka Ravi Mandliya11m2024/11/04
Read on Terminal Reader

Nako e telele kudu; Go bala

Mo posong ye, re tla fa kakaretšo ye kopana ya phetho ya LLM, bohlokwa bja yona, le ditlhohlo tšeo di amanago le yona. Re tla hlaloša gape le ditlhamo tša mathata tše bohlokwa tšeo di tlago hlahla nyakišišo ya rena ya dithekniki tša go dira gore dilo di šome gabotse.
featured image - Primer on Large Language Model (LLM) Inference Optimizations: 1. Tlhamo ya Lemorago le Mathata
Ravi Mandliya HackerNoon profile picture

Kakaretšo ya phetho ya Mohlala wa Polelo ye Kgolo (LLM), bohlokwa bja yona, ditlhohlo, le ditlhamo tša mathata a bohlokwa.


Mehlala ye Megolo ya Polelo (LLM) e fetošitše lefapha la Tshepetšo ya Polelo ya Tlhago (NLP) ka go kgontšha mehuta ye mentši ya dikgopelo, go tloga go di-chatbot le baemedi ba AI go ya go khoutu le moloko wa diteng. Le ge go le bjalo, go tsenywa tirišong ga di-LLM maemong a lefase la nnete gantši go lebane le ditlhohlo tše di amanago le go khutša, tšhomišo ya methopo, le go katološwa.


Letotong le la dipolelo tša blog, re tla hlahloba dithekniki tše di fapafapanego tša go dira gore dilo di šome gabotse bakeng sa phetho ya LLM. Re tla itahlela ka maano a go fokotša go khutša, kgato ya maoto ya memori, le ditshenyagalelo tša khomphutha, go tšwa go mekgwa ya go boloka dilo go ya go go akgofiša didirišwa tša go šoma le go lekanyetša boleng bja mohlala.


Mo posong ye, re tla fa kakaretšo ye kopana ya phetho ya LLM, bohlokwa bja yona, le ditlhohlo tšeo di amanago le yona. Re tla hlaloša gape le ditlhamo tša mathata tše bohlokwa tšeo di tlago hlahla nyakišišo ya rena ya dithekniki tša go dira gore dilo di šome gabotse.

Mohlala wa Phetho: Kakaretšo

Phetho ya mohlala e šupa tshepedišo ya go šomiša mohlala wa go ithuta ka motšhene wo o tlwaeditšwego go dira dipolelelopele goba go tšweletša dipoelo tše di theilwego godimo ga datha ye mpsha ya tsenyo. Ka gare ga seemo sa di-LLM, phetho e akaretša go šoma ka tsenyo ya sengwalwa le go tšweletša ditšweletšwa tša sengwalwa tše di kgokaganego le tše di lebanego le diteng.


Mohlala o tlwaetšwa gatee feela goba nako le nako, mola phetho e direga gantši kudu, mohlomongwe ka makga a dikete ka motsotswana tikologong ya tšweletšo.


Go dira gore diphetho di šome gabotse go bohlokwa go netefatša gore di-LLM di ka tsenywa tirišong ka mo go atlegilego ka dikgopelong tša lefase la kgonthe. Maikemišetšo ke go fokotša latency (nako yeo e tšewago go tšweletša karabelo), go fokotša tšhomišo ya methopo (CPU, GPU, memori), le go kaonafatša scalability (bokgoni bja go swara merwalo ye e oketšegago).


Ka mohlala, GPT-3 (ka ditekanyetšo tše dimilione tše dikete tše 175) e nyaka methopo ye bohlokwa ya khomphutha bakeng sa go dira phetho. Di-optimization di ka fokotša dinako tša karabelo go tloga go metsotswana ye 1-2 go ya go dimilisekontshe, go dira gore di-LLM di šome kudu bakeng sa dikgopelo tša tirišano.

Kakaretšo ya Boagi bja Transformer

Transformer Architecture (mohlodi: Tlhokomelo ke Sohle seo o se hlokang)


Sebopego sa transformer, seo se šomišago mekgwa ya tlhokomelo, e fetogile motheo wa bontši bja di-LLM tša maemo a godimo. Sebopego se se akaretša di-encoding tša maemo, go itlhokomela ga dihlogo tše dintši, dinetweke tša ditšhika tša go fepa pele le go tlwaetša legato. Diphetoledi ka kakaretšo di arotšwe ka mehuta ye meraro ye megolo:


  • Mehlala ya encoder fela (mohlala, BERT) e hlametšwe mešomo ya go swana le go hlopha sengwalwa le temogo ya setheo seo se reeletšwego. Ba fetolela tatelano ya tsenyo go boemedi bja botelele bjo bo sa fetogego - go tsenya. Mehlala ye e na le mahlakore a mabedi, go ra gore e lebelela seemo go tšwa ka bobedi ka go le letshadi le ka go le letona la leswao, seo se ka lebišago kwešišong ye kaone ya sengwalwa sa tsenyo.


  • Mehlala ya decoder-feela (mohlala, GPT-3) e šomišwa bakeng sa mešomo ya go tšweletša sengwalwa. Go tšwa go tatelano ya tsenyo, di tšweletša sengwalwa leswao le tee ka nako, di beakanya godimo ga ditšhupetšo tšeo di tšweleditšwego peleng. Mehlala ye ke ya tsela e tee, go ra gore e lebelela fela seemo go tšwa ka go la nngele la leswao, leo le loketšego mešomo ya go swana le go dira mohlala wa polelo. Ye ke mohlwaela wa LLM wo o tlwaelegilego kudu.


  • Mehlala ya encoder-decoder (mohlala, T5) e be e le mohlwaela wa mathomo wo o tsebagaditšwego pampiring ya “Tlhokomelo ke Sohle seo o se Hlokago.” Mehlala ye e hlametšwe mešomo yeo e nyakago bobedi kwešišo le moloko, go swana le phetolelo le kakaretšo. Ba sebetsa tatelano ya input le encoder ebe hlahisa tatelano dipholo tsa le decoder.


Ka ge dikai tša decoder-feela e le mohlwaela wa LLM wo o tlwaelegilego kudu bakeng sa mešomo ya autoregressive, letoto le le tla lebiša tlhokomelo go dithekniki tša go dira gore dilo di šome gabotse ka mo go kgethegilego bakeng sa mohuta wo wa mohlala.

Kakaretšo ya Mokgwa wa Tlhokomelo

Mokgwa wa tlhokomelo ke karolo ya bohlokwa ya mohlwaela wa transformer yeo e dumelelago mohlala go tsepamiša kgopolo dikarolong tše di fapanego tša tatelano ya tsenyo ge o tšweletša ditšweletšwa. E bala palomoka ya boima ya dikemedi tša tsenyo, moo boima bo laolwago ke kamano ya leswao le lengwe le le lengwe la tsenyo go leswao la bjale la ditšweletšwa leo le tšweletšwago. Mokgwa wo o kgontšha mohlala go swara go ithekga magareng ga ditšhupetšo, go sa šetšwe bokgole bja tšona ka tatelano ya tsenyo.

Mokgwa wa Tlhokomelo mošomong


Mokgwa wa tlhokomelo e ka ba o bitšago tšhelete e ntši ka dikhomphutheng, kudukudu bakeng sa tatelano ye telele ya go tsenya, ka ge o nyaka go bala ditirišano ka bobedi magareng ga ditšhupetšo ka moka ( O(n^2) go raragana). A re e bone ka dintlha tše dingwe tša kgato ka kgato:


  1. Kemedi ya Tsenyo : Letshwao le lengwe le le lengwe ka tatelano ya tsenyo le emetšwe bjalo ka vector, ka tlwaelo e šomiša dilo tše di tsentšwego.


  2. Potšišo, Senotlelo, Boleng Vectors : Bakeng sa letshwao le lengwe le le lengwe, diveketoro tše tharo di a balwa: vector ya potšišo ( Q_i ), vector ya senotlelo ( K_i ), le vector ya boleng ( V_i ). Diveketoro tše di tšwa go dikemedi tša tsenyo ka go šomiša diphetogo tša mothalo tše di ithutilwego.


  3. Dintlha tša Tlhokomelo : Dintlha tša tlhokomelo di balwa ka go tšea setšweletšwa sa letheba sa vector ya potšišo ya leswao la bjale ka diveketoro tša senotlelo tša ditšhupetšo ka moka tša peleng ka tatelano ya tsenyo. Se se feletša ka maemo ao a laetšago gore go swanetše go tsepelela gakaakang go leswao le lengwe le le lengwe.


  4. Softmax Normalization : Dintlha tša tlhokomelo di gona di tlwaetšwa ka go šomiša mošomo wa softmax go hwetša boima bja tlhokomelo, bjo bo akaretšago go 1.


  5. Weighted Sum : Mafelelong, boemedi bja ditšweletšwa tša leswao la bjale bo balwa bjalo ka palomoka ye e boima ya diveketoro tša boleng, go šomišwa boima bja tlhokomelo.

Tlhokomelo ya Dihlogo tše Dintši

Tlhokomelo ya dihlogo tše ntši ke katoloso ya mokgwa wa tlhokomelo wo o dumelelago mohlala go hlokomela ka mohlakanelwa tshedimošo go tšwa go dikgoba tše nnyane tše di fapanego tša boemedi maemong a go fapana. Go e na le go ba le sete e tee ya boima bja tlhokomelo, tlhokomelo ya dihlogo tše dintši e bala disete tše dintši tša dintlha tša tlhokomelo ka go bapelana, e nngwe le e nngwe e e-na le diphetogo tša yona tša mothalo tšeo di ithutilwego.


Ditšweletšwa tša dihlogo tše tša tlhokomelo di gona di kgokagantšwe le go fetošwa ka mothalo go tšweletša boemedi bja mafelelo bja ditšweletšwa.


Mokgwa wo o godiša bokgoni bja mohlala bja go swara dikamano tše di fapafapanego le go ithekga ka gare ga datha ya tsenyo, go lebiša go tshepedišo ye e kaonafetšego mešomong ye e fapanego ya NLP.

Tlhokomelo ya dihlogo tše dintši

Kakaretšo ya Tshepetšo ya Dipalopalo tša Diphetho

Ka kwešišo ya di-LLM le mohlwaela wa transformer, a re hlalošeng tshepedišo ya go dira dipalopalo tša phetho. Inference e tšweletša ditšhupetšo tše di latelago tša $ n $ bakeng sa tatelano ya tsenyo ye e filwego gomme e ka arolwa ka dikgato tše pedi:


  1. Prefill Stage : Mo kgatong ye, go feta pele go dirwa ka mohlala bakeng sa tatelano ya tsenyo, gomme dikemedi tša senotlelo le tša boleng di balwa bakeng sa leswao le lengwe le le lengwe. Dikemedi tše di bolokwa gore di šomišwe ka morago mo legatong la go hlatholla ka gare ga cache ya KV. Dikemedi tša ditšhupetšo ka moka ka gare ga legato le lengwe le le lengwe di balwa ka go bapelana.

    Prefill sethaleng nakong LLM phetho

  2. Decoding Stage : Mo sethaleng sena, ea mohlala generates ditshupo dipholo tsa e mong ka nako ka mokgwa wa auto-regressive. Bakeng sa letshwao le lengwe le le lengwe, mohlala o lata dikemedi tša senotlelo le tša boleng go tšwa go cache ya KV yeo e bolokilwego nakong ya kgato ya go tlatša pele, gammogo le boemedi bja potšišo bja leswao la go tsenya la bjale go bala leswao le le latelago ka tatelano.


    Tshepetšo ye e tšwela pele go fihlela tekanyetšo ya go emiša e fihlelelwa (mohlala, go fihlelela botelele bjo bo phagamego goba go tšweletša leswao la mafelelo a tatelano). Dikemedi tše mpsha tša senotlelo le tša boleng di bolokwa ka gare ga cache ya KV bakeng sa ditšhupetšo tše di latelago. Mo kgatong ye, leano la go tšea mehlala ya leswao le dirišwa gape go laetša leswao le le latelago leo le swanetšego go tšweletša (mohlala, nyakišišo ya megabaru, nyakišišo ya mahlasedi, go tšea mehlala ya godimo-k).

    Decoding sethaleng nakong LLM phetho

Go raragana ga Dipalopalo tša Diphetho

Bakeng sa hlogo ya botelele bja L , go tsenya bogolo d , le mohlala wo o nago le dihlogo tša h le magato a n , go raragana ga dipalopalo tša phetho go ka sekasekwa ka tsela ye e latelago:

  • Prefill Stage : Ka prefill sethaleng, re compute boemedi bja mathomo bakeng sa ditšhupetšo ka moka ka input. Go raragana mo ke gore:

    Mo:

    • Polelo ya mathomo O(Ln .d^2) : E emela dipalopalo tša go fepa pele, tšeo di šomago leswao le lengwe le le lengwe ka go ikemela go ralala le magato. Se se lekanya ka mothalo ka bobedi botelele bja tatelano L le palo ya dillaga n .


    • Polelo ya bobedi O(L^2. nh d) : E emela ditshenyagalelo tša mokgwa wa tlhokomelo. Mo, letshwao le lengwe le le lengwe le dirišana le leswao le lengwe le le lengwe, go feleletša ka go raragana ga L^2 bakeng sa go bala tlhokomelo ka legato. Go raragana go gola ka quadratically ka botelele bja tatelano, yeo e ka bago bottleneck ye kgolo ya tatelano ye telele.


  • Decoding Stage : The decoding sethaleng ke autoregressive karolo, rarahaneng ke:

  • Mo:

    • Feed-pele dipalo : Bakeng sa mong le e mong generated letšoao, re phetha fepa-pele tshebetso ka mong le e mong lera. Ka ge e dirwa bakeng sa leswao le tee ka nako (e sego tatelano ka moka), go raragana ka leswao ke: O(nd^2) .


    • Tlhokomelo ya go bala ka go boloka : Letshwao le lengwe le le lengwe le lefsa le dirišana le tatelano ye e lego gona ka tlhokomelo, e šomiša dipara tša senotlelo-boleng tšeo di dirilwego khomphutha peleng. Bakeng sa letshwao le lengwe le le lengwe leo le tšweleditšwego, go bala mo ga tlhokomelo go lekana le botelele bja tatelano L , go fa: O(Lnd .h)


Bjalo ka ge re ka bona, go raragana ga dipalopalo tša phetho go tutuetšwa ke botelele bja tatelano ya go tsenya ( L ), palo ya magato ( n ), palo ya dihlogo tša tlhokomelo ( h ), le bogolo bja go tsenya ( d ). Go raragana mo go ka fetoga bottleneck ka dikgopelo tša nako ya nnete, kudukudu ge o šomana le tatelano ye telele ya tsenyo le/goba dika tše kgolo.

Bohlokwa bja KV Caching

KV caching ke thekeniki ya bohlokwa optimization bakeng sa LLM inference, haholo-holo ka decoding sethaleng. Ka go boloka dikemedi tša senotlelo le tša boleng tšeo di balwago nakong ya kgato ya go tlatša pele, mohlala o ka efoga dipalopalo tše di sa nyakegego bakeng sa ditšhupetšo tšeo di šomišitšwego peleng.


Se se fokotša kudu ditshenyagalelo tša khomphutha le go khutša nakong ya go dira phetho, ka ge mohlala o hloka fela go bala dintlha tša tlhokomelo ya leswao le lefsa leo le tšweletšwago, go e na le go bala gape dikemedi tša senotlelo le tša boleng bja ditšhupetšo ka moka ka tatelano ya tsenyo.


Se se dira gore ditshenyagalelo e be tša mothalo mabapi le palo ya ditšhupetšo tše di tšweleditšwego, go e na le go ba tša quadratic mabapi le botelele bja tsenyo.


Le ge go le bjalo, go boloka ka KV go nyaka memori ya tlaleletšo go boloka dikemedi tša senotlelo le tša boleng, tšeo e ka bago kgwebišano ka ditikologong tše di thibetšwego ke methopo.

Dipalopalo tša Mohlala wa Mohlala

A re ke re bale ditlhoko memoring ya bakeng sa LLaMA 7B mohlala.

Peakanyo ya Mohlala

  • Ditekanyetšo: 7 bilione
  • Bogolo bja go tsenya ( d_model ): 4096
  • Palo ya dikarolo: 32
  • Palo ya dihlogo tša tlhokomelo ( d_head ): 32
  • Tekanyo ya hlooho ( d_head ): 128 (4096/32) .
  • Max tatelano bolelele (L): 2048
  • Mofuta wa data: float16 (2 dibaete ka elemente) .

Palo ya Memory

  1. Per-Layer Cache Size : Bakeng sa legato le lengwe le le lengwe, re swanetše go boloka bobedi dinotlelo le boleng
    • Bogolo bja senotlelo ka leswao = d_head × num_heads = 128 × 32 = 4096 dielemente

    • Bogolo bja boleng ka leswao = d_head × num_heads = 128 × 32 = 4096 dielemente

    • Palomoka ya dielemente ka leswao ka legato = 4096 + 4096 = 8192 dielemente


  2. Memory Ka Llaga Bakeng sa Tatelano e Feletseng : Bakeng sa tatelano e feletseng ea bolelele L = 2048 ditshupo
    • Dielemente ka legato = L × 8192 = 2048 × 8192 = 16,777,216 dielemente

    • Memory ka lera (ka dibaete) = 16,777,216 × 2 = 33,554,432 dibaete = 33.55 MB


  3. Palo yohle ya KV Cache Memory Bakeng sa Dikarolo Tsohle : Kaha re na le $ 32 $ dikarolo
    • Palo yohle ya memori = 33,55 × 32 MB = 1073.6 MB

Palomoka ya Senyakwa sa Memory

  • Boima ba mohlala: 7 bilione ditekanyetos × 2 bytes / paramethara = 14 GB


  • Memory ya Cache ya KV: 1073.6 MB


  • Tse ling ya memori ka holimo (mohlala, activations, diphetho mahareng): ~ 1-2 GB


Ka go realo, Palomoka ya tlhokego ya memori: 14 GB (boima bja mohlala) + 1-2 GB (ka godimo ga hlogo) + 1073.6 MB (KV cache) = 15-16 GB . Palo ye e re fa tekanyetšo ya dinyakwa tša memori ya mohlala wa LLaMA 7B nakong ya phetho. LLaMA 7B e batlang e le e nyenyane ha e bapisoa le dikai joaloka GPT-3 (175 limilione tse likete tse ditekanyetos), e neng e tla hloka haholo ho feta memoring ya bakeng sa bobeli ea mohlala boima ba 'mele le KV cache.


Gape, ge e lekanywa go $ m $ badiriši ba nako e tee, dinyakwa tša methopo e be e tla ba $ m $ makga a godimo. Ka go realo, dithekniki tša go dira gore dilo di šome gabotse di bohlokwa kudu bakeng sa go tsenya dika tše kgolo tikologong yeo e nago le methopo yeo e thibetšwego.

Metrics bakeng sa go Lekola Inference Optimization

Ge go hlahlobja go šoma gabotse ga dithekniki tša go dira gore diphetho di šome gabotse, dimetriki tše mmalwa di ka elwa hloko:

  1. Pre-fill Latency : Nako yeo e tšewago go phethagatša kgato ya go tlatša pele ya phetho, yeo gape e bitšwago nako-go-pele-letshwao (TTFT) latency. Metric ye e bohlokwa kudu go dikgopelo tša tirišano moo badiriši ba lebeletšego dikarabo tša ka pela. Mabaka a go swana le bogolo bja mohlala, botelele bja tsenyo, le bokgoni bja didirišwa tša go šoma di ka tutuetša metric ye.


  2. Decoding Latency : Nako yeo e tšewago go tšweletša leswao le lengwe le le lengwe le le latelago ka morago ga kgato ya go tlatša pele, yeo gape e bitšwago Inter-Token Latency (ITL). Metric ye e bohlokwa go ela karabelo ya mohlala nakong ya moloko wa sengwalwa. Bakeng sa dikgopelo tša go swana le di-chatbot, ITL ya tlase e botse, eupša ka lebelo ga se ka mehla e lego kaone, ka ge ditšhupetšo tše 6-8 ka motsotswana gantši di lekane bakeng sa tirišano ya batho. Mabaka a amago a akaretša bogolo bja cache ya KV, leano la go tšea mehlala, le didirišwa tša go šoma ka thata.


  3. End-to-End Latency : Palomoka ya nako ye e tšerwego go tšwa go go amogela tsenyo go ya go tšweletša ditšweletšwa tša mafelelo. Metric ye e bohlokwa bakeng sa go kwešiša tshepedišo ya kakaretšo ya tshepedišo ya go dira phetho gomme e tutuetšwa ke go tlatša pele, go hlatholla, le di-latencies tše dingwe tša dikarolo (mohlala, go arola JSON). Mabaka a amago a akaretša bogolo bja mohlala, botelele bja tsenyo, le didirišwa tša go šoma, gammogo le bokgoni bja phaephe ka moka.


  4. Palomoka ya Sekgahla sa Kgopelo aka QPS (Dipotšišo ka Motsotswana) : Palo ya dikgopelo tša phetho tšeo di ka šongwago ka motsotswana. Metric ye e bohlokwa kudu go sekaseka go lekalekanywa ga mohlala ka ditikologong tša tšweletšo. Mabaka a bjalo ka bogolo bja mohlala, didirišwa tša go šoma ka thata, le dithekniki tša go dira gore dilo di šome gabotse di ka tutuetša QPS. Ka mohlala, ge e ba 15 QPS e hlankelwa bakeng sa P90 latency ka 1 GPU, gona go hlankela 300 QPS, 20 GPUs e be e tla nyakega. Mabaka a amago a akaretša methopo ya didirišwa tša go šoma ka thata, go lekalekanya mošomo le dithekniki tša go dira gore dilo di šome gabotse.


  5. FLOPS (ditshepetšo tša ntlha ya go phaphamala ka motsotswana) : Palo ya ditiro tša ntlha ya go phaphamala tšeo mohlala o ka di dirago ka motsotswana. Metric ye e na le mohola go kwešiša ditshenyagalelo tša khomphutha tša go dira phetho gomme e ka šomišwa go bapetša bokgoni bja dika tše di fapanego le dithekniki tša go dira gore dilo di šome gabotse. Mabaka a amago a akaretša go aga mohlala, didirišwa tša go šoma ka thata le dithekniki tša go dira gore dilo di šome gabotse.

Mehuta ya Dithekniki tša go Lokiša Diphetho

Re tla akaretša ka moka ga tše optimization ka nakong e tlago poso ya letoto.

  • Model Architecture Optimization : Go fetola mohlala wa mohlwaela go kaonafatša bokgoni bja go dira phetho, go swana le go fokotša palo ya dillaga goba dihlogo tša tlhokomelo, goba go šomiša mekgwa ya tlhokomelo ye e šomago gabotse kudu (mohlala, tlhokomelo ye e sego gona).


  • System Optimization : Optimizing motheo hardware le software mananeokgoparara, tse kang ho sebelisa hardware khethehileng (mohlala, TPUs, GPUs) kapa optimizing software mokgobo (mohlala, ho sebelisa bokgoni bokgobapuku le ditlhako). E ka arolwa ka:


    • Taolo ya memori : Go laola tšhomišo ya memori ka bokgoni go fokotša tšhelete ya godimo le go kaonafatša tshepedišo.

    • Efficient Computation : Leveraging parallelism le optimizing dipalo go fokotša latency.

    • Batching : Go šoma dikgopelo tše ntši ka nako e tee go kaonafatša throughput.

    • Go rulaganya : Go rulaganya mešomo ka bokgoni go godiša tšhomišo ya methopo.


  • Model Compressions : Dithekniki tša go swana le quantization, poma, le distillation di ka šomišwa go fokotša bogolo bja mohlala le go kaonafatša lebelo la phetho ntle le go dira sehlabelo kudu ka tshepedišo.


  • Algorithm Optimization : Go kaonafatša dialgoritmo tšeo di šomišwago go dira phetho, go swana le go šomiša maano a go tšea mehlala a šomago gabotse kudu goba go kaonafatša mokgwa wa tlhokomelo. Mohlala, go hlatholla ka go fopholetšwa, mo go dumelelago mohlala go tšweletša ditšhupetšo tše ntši ka go bapelana, go ka fokotša kudu go khutša ga go hlatholla.

    Taxonomy ya Dithekniki tša Optimization


Mafetšo

Mo posong ye, re file kakaretšo ya phetho ya LLM, bohlokwa bja yona, le ditlhohlo tšeo di amanago le yona. Re ile ra hlaloša gape le ditlhamo tša mathata tše bohlokwa tšeo di tlago hlahla go nyakišiša ga rena ga dithekniki tša go dira gore dilo di šome gabotse ka diposong tše di latelago.


Ka go kwešiša go raragana ga phetho ya LLM le mabaka ao a tutuetšago tshepedišo ya yona, re ka lemoga gakaone bohlokwa bja dithekniki tša go dira gore di-LLM di šome kudu bakeng sa dikgopelo tša lefase la kgonthe. Ka poso e latelago, re tla delve ka mo go tseneletšego ka dithekniki tše itšego tša go dira gore dilo di šome gabotse le diphethagatšo tša tšona, re lebišitše tlhokomelo go fokotšeng latency le tšhomišo ya methopo mola re hlokomela tshepedišo ya mohlala.

Ditšhupetšo


L O A D I N G
. . . comments & more!

About Author

Ravi Mandliya HackerNoon profile picture
Ravi Mandliya@mandliya
Machine Learning Engineer focused on building AI-driven recommendation systems and exploring AI safety.

HANG TAGS YA GO FEGA

ARTICLE YE E HLAHILWE KA...