109,673 mga pagbabasa

Open-Source: Ang Susunod na Hakbang sa AI Revolution

sa pamamagitan ng MinIO6m2024/01/25

JAMore

Masyadong mahaba; Upang basahin

Ang paggalugad na ito sa hinaharap ng open-source na AI ay maghihiwalay sa mga "nagpapanggap" at magkakampeon sa "mga tunay" sa AI development upang matuklasan ang innovation engine na open-source na software na umuugong sa ilalim ng lahat. Ang ilalim na linya ay ang open-source AI ay magkakaroon ng open-source data stack.

People Mentioned

featured image - Open-Source: Ang Susunod na Hakbang sa AI Revolution

Isipin ang isang hinaharap kung saan ang AI ay hindi nakakulong sa mga corporate vault, ngunit binuo sa bukas, brick sa pamamagitan ng brick, ng isang pandaigdigang komunidad ng mga innovator. Kung saan ang pakikipagtulungan, hindi ang kumpetisyon, ay nagpapalakas ng mga pagsulong, at mga etikal na pagsasaalang-alang na may katumbas na timbang sa hilaw na pagganap. Hindi ito science fiction, ito ay ang open-source na rebolusyon na namumuo sa gitna ng pag-unlad ng AI. Ngunit ang Big Tech ay may sariling agenda, na tinatago ang mga pinaghihigpitang modelo bilang open source habang sinusubukang umani ng mga benepisyo ng isang tunay na bukas na komunidad.

Balikan natin ang mga layer ng code at ibunyag ang katotohanan sa likod ng mga pagsisikap na ito. Ang paggalugad na ito sa hinaharap ng open-source AI ay maghihiwalay sa mga "nagpapanggap" at magtatagpo ng "mga tunay" sa AI development upang matuklasan ang innovation engine na open-source na software na umuugong sa ilalim ng lahat. Ang ilalim na linya ay ang open-source AI ay magkakaroon ng open-source data stack.

Ang Pangangailangan

Isang kamakailang artikulo ni Matteo Wong sa The Atlantic, ' Walang Kagaya ng 'Bukas' AI ' naglalarawan ng lumalaking trend sa akademya at ang software community para sa tunay na open source na AI. "Ang ideya ay upang lumikha ng medyo transparent na mga modelo na mas madali at murang magagamit ng publiko, pag-aralan, at kopyahin, sinusubukang gawing demokrasya ang isang mataas na puro teknolohiya na maaaring may potensyal na baguhin ang trabaho, pulisya, paglilibang at maging ang relihiyon." Ang parehong Atlantic na iyon ay nagmumungkahi na ang mga kumpanya ng Big Tech tulad ng Meta ay sinusubukang punan ang pangangailangang ito sa merkado sa pamamagitan ng 'open-washing' ng kanilang mga produkto. Ipinagpapalagay nila ang mga katangian at positibong reputasyon ng open-source na komunidad nang hindi tunay na open-sourcing ang kanilang produkto. Ngunit, walang kapalit ang tunay na bagay. Ito ay dahil ang tunay na open-source na software ay nagtutulak ng inobasyon at pakikipagtulungan: dalawang katangian na lubhang kailangan upang sumulong sa AI nang responsable.

Ang mga Pretenders

Ang LLaMA 2, ay isang malaking modelo ng wika na nilikha ng Meta na malayang gamitin para sa parehong pananaliksik at komersyal na paggamit. Ang nangunguna sa ilan na magmungkahi ng LLaMA 2 ay open source. Gayunpaman, nagpatupad ang Meta ng ilang matinding paghihigpit sa paggamit ng kanilang modelo. Halimbawa, ang LLaMA 2 ay hindi maaaring gamitin upang mapabuti ang anumang iba pang malalaking modelo ng wika. Isang posisyon na labag sa tradisyonal pribadong kolektibong modelo ng pagbabago ng bukas na software na nagtataguyod ng libre at bukas na paghahayag ng pagbabago para sa kapakinabangan ng lahat sa komunidad ng software.

Ang Meta ay higit pang napilayan ang paggamit ng kanilang modelo sa pamamagitan ng hindi pagpayag na pagsamahin ang LLaMA 2 sa mga produkto na mayroong 700 milyong buwanang user at sa pamamagitan ng hindi pagsisiwalat kung saang data ang kanilang modelo ay sinanay o ang code na ginamit nila para buuin ito. Sa hindi pagsisiwalat, binubuksan ng Meta ang sarili sa mga tanong ng likas na pagkiling at di-sinasadyang diskriminasyon. Ang isang modelong sinanay sa diskriminasyong data ay maghatid ng mga diskriminasyong tugon . Kung hindi nakikita ng komunidad ng software sa pangkalahatan ang alinman sa code na ginamit sa pagbuo ng modelo upang makita kung may anumang mga pananggalang na binuo o ang data na ginamit upang sanayin ito, tayo ay naiwan sa kadiliman sa mga moral na tanong na ito. Sa panahong nai-publish na pananaliksik sa AI ay higit na nababahala sa pagganap kaysa katarungan at paggalang na ito ay partikular na nakakagambala.

Ang Mga Tunay

Mistral AI ay nakakuha ng pagkilala para sa open-source nitong malalaking modelo ng wika, lalo na ang Mistral 7B at Mixtral 8x7B. Nagsusumikap ang kumpanya na tiyakin ang malawak na accessibility sa mga modelong AI nito, na naghihikayat sa pagsusuri, pagbabago, at muling paggamit ng open software community.

vLLM ay nangangahulugang "vectorized low-latency model serving" at ito ay isang open-source na library na partikular na idinisenyo upang pabilisin at i-optimize ang malalaking modelo ng wika (LLMs). Ito ay isang mahusay na tool na maaaring makabuluhang mapabuti ang pagganap at kakayahang magamit ng mga LLM. Ginagawa nitong mahalagang asset para sa mga developer na nagtatrabaho sa iba't ibang AI application, mula sa mga chatbot at virtual assistant hanggang sa paggawa ng content at pagbuo ng code. Kaya nga, inirerekomenda ni Mistral ang paggamit ng vLLM bilang inference server para sa mga modelong 7B at 8x7B.

EleutherAI ay isang non-profit na AI research lab na lumago mula sa isang Discord server para sa pagtalakay sa GPT-3 tungo sa isang nangungunang non-profit na organisasyon ng pananaliksik. Ang grupo ay kilala sa trabaho nito sa pagsasanay at pagtataguyod ng mga bukas na pamantayan sa agham sa Natural Language Processing. Naglabas sila ng iba't ibang open-source na malalaking modelo ng wika at kasangkot sa mga proyekto ng pananaliksik na nauugnay sa AI alignment at interpretability. Ang kanilang LM-Harness proyekto ay marahil ang nangungunang open-source na tool sa pagsusuri para sa mga modelo ng wika.

Phi-2 ay ang LLM ng Microsoft na lumampas sa timbang nito. Sinanay sa kumbinasyon ng mga sintetikong teksto at na-filter na mga website, ang maliit ngunit makapangyarihang modelong ito ay mahusay sa mga gawain tulad ng pagsagot sa tanong, pagbubuod, at pagsasalin. Ang tunay na nagpapahiwalay sa Phi-2 ay ang pagtuon nito sa pangangatwiran at pag-unawa sa wika, na humahantong sa kahanga-hangang pagganap kahit na walang mga advanced na diskarte sa pag-align.

Maraming mga karampatang modelo ng pag-embed ng open-source ang nagpapalakas sa pangkalahatang open-source generative AI space. Ito ang kasalukuyang state-of-the-art para sa open source at kasama UAE-Malaki-V1 at multilingual-e5-large .

Marami pa sa patuloy na lumalagong larangang ito. Ang limitadong listahang ito ay panimula lamang.

Ang Open Source ay Nagtutulak ng Innovation

Ang pagyakap sa isang pilosopiya ng matinding open innovation, ang mga kumpanyang tunay na lumalahok sa open-source software development ay hinahamon ang mga tradisyonal na ideya ng competitive advantage sa pamamagitan ng pagkilala na hindi lahat ng magandang code o magagandang ideya ay nasa loob ng kanilang organisasyon . Sinusuportahan ng shift na ito ang argumento na ang pagbabahagi ng mga inobasyon sa loob ng open-source na ecosystem ay humahantong sa mas mabilis na paglago ng merkado, na nagbibigay ng mas maliliit na software firm na may mas limitadong R&D funds pagkakataon na makinabang mula sa R&D spillovers na nasa open-source software. Ito ay dahil, sa kaibahan sa tradisyonal na outsourcing, bukas na pagbabago pinahuhusay ang mga panloob na mapagkukunan sa pamamagitan ng paggamit ng sama-samang katalinuhan ng komunidad, nang hindi binabawasan ang mga panloob na pagsisikap sa R&D. Ibig sabihin, hindi kailangang isakripisyo ng mga kumpanya ng open-source na software ang kanilang mga badyet upang ituloy ang pamumuno sa pag-iisip at code sa labas ng kanilang organisasyon.

Bukod pa rito, ang mga kumpanya ng open-source na software ay madiskarteng nagtutulak ng pagbabago sa pamamagitan ng naglalabas ng code nang maaga at madalas , na kinikilala ang pinagsama-samang katangian ng proseso ng pagbabago sa komunidad ng software. Ang lahat ng ito ay sasabihin ng marami na: Ang Open Source Software ay nagtutulak ng pagbabago.

Open Source Fosters Collaboration

Sa pamamagitan ng networking sa open-source software community, nagagawa ng mga negosyante na matupad ang parehong panandalian at pangmatagalang layunin. Ang mga panandaliang layunin sa kita ay nagtatayo ng mga kumpanya at ang mga pangmatagalang layunin sa kita ay nagpapanatili sa kanila. Kasabay nito, ang pagsisikap sa networking na ito ay nagpapanatili sa sarili ng network - pinalaki ito para sa susunod na negosyante. Kilalang-kilala na ang mga open-source na platform ay nagbibigay ng access sa source code, na nagbibigay-daan sa mga developer na lumikha ng mga upgrade, plug-in at iba pang piraso ng software at gamitin ang mga ito ayon sa kanilang mga kinakailangan. Ang partikular na uri ng pakikipagtulungan ay nakaranas ng boom sa malawak na paggamit ng Kubernetes ng mas malawak na komunidad ng software. Ngayon higit kailanman, ang mga makabagong teknolohiya ay nagtutulungan na may napakakaunting alitan at maaaring magkasama sa loob ng ilang minuto halos kahit saan.

Kinikilala ng mga Big Tech na kumpanya ang malalim na pakikipagtulungang ito na likas sa open-source na komunidad kapag malaya silang naglalabas ng mga balangkas, aklatan, at wikang nilikha nila upang mapanatili at bumuo ng mga panloob na tool. Ang paggawa nito ay nagpapalalim sa grupo ng mga developer na may kakayahang magtrabaho sa kanilang mga produkto at magsisimulang magtakda ng pamantayan para sa kung paano dapat gumana ang mga katulad na teknolohiya. Ang parehong artikulo sa Atlantic na iyon ay sumipi sa tagapagtatag ng Meta na si Mark Zuckerberg na nagsasabing ito ay "napakahalaga para sa amin na ibigay iyon dahil ngayon ang lahat ng pinakamahusay na mga developer sa buong industriya ay gumagamit ng mga tool na ginagamit din namin sa loob".

Naging Open Source ang Open Source

Ito ang mga salik kung bakit madalas tayong nakakakita ng mga synergy sa pagitan ng mga open-source na kumpanya. Ang mga open-source AI at ML na kumpanya ay natural na bubuo ng mga solusyon sa iba pang open-source na mga produkto mula sa mga foundational na produkto tulad ng pag-iimbak ng bagay hanggang sa lahat-lahat sa stack hanggang sa visualization tool. Kapag ang isang open-source na kumpanya ay sumulong, lahat tayo ay sumusulong. Ang magkakaugnay at pinaghalong diskarte na ito ay marahil ang aming pinakamahusay na mapagpipilian para sa pagbuo ng AI na kumukuha ng diskarteng nakasentro sa tao. Ang mga likas na puwersang ito na likas sa merkado ay nangangailangan ng open source AI na sinamahan ng mga katangian ng open source software ng inobasyon at pakikipagtulungan ang magdadala sa AI data stack open source.

Mangyaring sumali at mag-ambag sa pag-uusap na ito at sa aming komunidad sa pamamagitan ng pag-email sa amin sa [email protected] o magpadala sa amin ng mensahe sa aming Slack channel .