Stel je een toekomst voor waarin AI niet opgesloten zit in bedrijfskluizen, maar steen voor steen wordt gebouwd in het openbaar, door een wereldwijde gemeenschap van vernieuwers. Waar samenwerking, niet concurrentie, vooruitgang stimuleert en ethische overwegingen even zwaar wegen als pure prestaties. Dit is geen sciencefiction, het is de open-sourcerevolutie die broeit in het hart van AI-ontwikkeling. Maar Big Tech heeft zijn eigen agenda, waarbij beperkte modellen worden gemaskeerd als open source, terwijl ze proberen de voordelen van een echt open gemeenschap te plukken.
Laten we de lagen code afpellen en de waarheid achter deze inspanningen onthullen. Deze verkenning van de toekomst van open-source AI zal de "pretenders" ontleden en de "echte" in AI-ontwikkeling verdedigen om de innovatiemotor te onthullen die open-source software is die eronder zoemt. De kern van de zaak is dat open-source AI een open-source datastack zal voortbrengen.
De behoefte
Een recent artikel van Matteo Wong in The Atlantic, ' Er heeft nooit zoiets bestaan als 'open' AI ' beschrijft een groeiende trend in de academische wereld en de softwaregemeenschap voor echt open source AI. "Het idee is om relatief transparante modellen te creëren die het publiek gemakkelijker en goedkoper kan gebruiken, bestuderen en reproduceren, in een poging om een zeer geconcentreerde technologie te democratiseren die het potentieel heeft om werk, politie, vrije tijd en zelfs religie te transformeren." Diezelfde Atlantic suggereert dat Big Tech-bedrijven zoals Meta proberen om deze behoefte in de markt te vervullen door hun producten 'open te wassen'. Ze nemen de kwaliteiten en positieve reputatie van de open-sourcegemeenschap aan zonder hun product echt open te sourcen. Maar er is geen vervanging voor het echte werk. Dit komt omdat echte open-sourcesoftware innovatie en samenwerking stimuleert: twee kwaliteiten die hard nodig zijn om op verantwoorde wijze verder te gaan met AI.
De Pretenders
LLaMA 2 is een groot taalmodel dat is gemaakt door Meta en gratis te gebruiken is voor zowel onderzoeks- als commerciële doeleinden. Sommigen suggereren dat LLaMA 2 open source is. Meta heeft echter een aantal strenge beperkingen op het gebruik van hun model geïmplementeerd. LLaMA 2 kan bijvoorbeeld niet worden gebruikt om een ander groot taalmodel te verbeteren. Een standpunt dat indruist tegen de traditionele model voor private collectieve innovatie van open software die de vrije en open onthulling van innovatie bevordert ten behoeve van iedereen in de softwaregemeenschap.
Meta heeft het gebruik van hun model verder verlamd door geen integratie van LLaMA 2 toe te staan met producten die 700 miljoen maandelijkse gebruikers hebben en door niet bekend te maken op welke data hun model is getraind of welke code ze hebben gebruikt om het te bouwen. Door niet bekend te maken, stelt Meta zichzelf open voor vragen over inherente vooringenomenheid en onbedoelde discriminatie. Een model dat is getraind op discriminerende data zal discriminerende reacties geven . Zonder dat de softwaregemeenschap in het algemeen de code kan bekijken die is gebruikt om het model te bouwen om te zien of er waarborgen zijn ingebouwd of de data die is gebruikt om het te trainen, blijven we in het ongewisse over deze morele vragen. In een tijd waarin gepubliceerd onderzoek over AI is meer geïnteresseerd in prestaties dan in rechtvaardigheid en respect. Deze vertroebeling is bijzonder verontrustend.
De echte
Mistral-AI heeft erkenning gekregen voor zijn open-source grote taalmodellen, met name Mistral 7B en Mixtral 8x7B. Het bedrijf streeft ernaar om brede toegankelijkheid tot zijn AI-modellen te garanderen, en moedigt beoordeling, aanpassing en hergebruik door de open software community aan.
vLLM staat voor "vectorized low-latency model serving" en is een open-source bibliotheek die speciaal is ontworpen om grote taalmodellen (LLM's) te versnellen en optimaliseren. Het is een krachtige tool die de prestaties en bruikbaarheid van LLM's aanzienlijk kan verbeteren. Dit maakt het een waardevolle aanwinst voor ontwikkelaars die werken aan verschillende AI-toepassingen, van chatbots en virtuele assistenten tot contentcreatie en codegeneratie. Zozeer zelfs dat Mistral aanbeveelt om vLLM te gebruiken als de inferentieserver voor de 7B- en 8x7B-modellen.
EleutherAI is een non-profit AI-onderzoekslab dat is uitgegroeid van een Discord-server voor het bespreken van GPT-3 tot een toonaangevende non-profit onderzoeksorganisatie. De groep staat bekend om zijn werk in het trainen en promoten van open science-normen in Natural Language Processing. Ze hebben verschillende open-source grote taalmodellen uitgebracht en zijn betrokken bij onderzoeksprojecten met betrekking tot AI-uitlijning en interpreteerbaarheid. Hun LM-harnas project is waarschijnlijk de toonaangevende open-source evaluatietool voor taalmodellen.
Phi-2 is Microsoft's LLM die boven zijn gewicht uitsteekt. Getraind op een mix van synthetische teksten en gefilterde websites, excelleert dit kleine, maar krachtige model in taken zoals vraag-beantwoording, samenvatting en vertaling. Wat Phi-2 echt onderscheidt, is de focus op redeneren en taalbegrip, wat leidt tot indrukwekkende prestaties, zelfs zonder geavanceerde uitlijningstechnieken.
Veel competente open-source embedding-modellen versterken de algehele open-source generatieve AI-ruimte. Dit zijn de huidige state-of-the-art voor open source en omvatten VAE-Groot-V1 En meertalig-e5-largel .
Er zijn er nog veel meer in dit steeds groeiende veld. Deze beperkte lijst is slechts een begin.
Open Source stimuleert innovatie
Bedrijven die daadwerkelijk deelnemen aan de ontwikkeling van open-source software, omarmen een filosofie van extreme open innovatie en dagen de traditionele ideeën over concurrentievoordeel uit door te erkennen dat niet alle goede code of geweldige ideeën bevinden zich binnen hun organisatie Deze verschuiving ondersteunt de argument dat gedeelde innovaties binnen het open-source ecosysteem leiden tot een snellere marktgroei, waardoor zelfs kleinere softwarebedrijven over beperktere R&D-fondsen beschikken. kans om te profiteren van R&D spillovers die aanwezig zijn in open-source software. Dit komt omdat, in tegenstelling tot traditionele outsourcing, open innovatie verbetert de interne middelen door de collectieve intelligentie van de community te benutten, zonder de interne R&D-inspanningen te verminderen. Dit betekent dat open-source softwarebedrijven hun budgetten niet hoeven op te offeren om thought leadership en code buiten hun organisatie na te streven.
Bovendien stimuleren open-source softwarebedrijven innovatie op strategische wijze door code vroeg en vaak vrijgeven , erkennend de cumulatieve aard van het innovatieproces in de softwaregemeenschap. Dit alles om iets te zeggen wat velen al erkennen: Open Source Software drijft innovatie.
Open Source bevordert samenwerking
Door netwerken in de open-source software community kunnen ondernemers zowel kortetermijn- als langetermijndoelen vervullen. Kortetermijnwinstdoelen bouwen bedrijven op en langetermijnwinstdoelen houden ze in stand. Tegelijkertijd houdt deze netwerkinspanning het netwerk zelf in stand - het laat het groeien voor de volgende ondernemer. Het is bekend dat open-sourceplatforms toegang bieden tot de broncode, waardoor ontwikkelaars upgrades, plug-ins en andere software kunnen maken en deze kunnen gebruiken volgens hun vereisten. Dit specifieke type samenwerking beleefde een bloei met de brede acceptatie van Kubernetes door de bredere software community. Nu meer dan ooit werken moderne technologieën samen met zeer weinig wrijving en kunnen ze binnen enkele minuten bijna overal bij elkaar zijn.
Big Tech-bedrijven erkennen deze diepe samenwerking die inherent is aan de open-sourcecommunity wanneer ze frameworks, bibliotheken en talen die ze hebben gemaakt om interne tools te onderhouden en ontwikkelen, vrijgeven. Door dit te doen, wordt de groep ontwikkelaars die aan hun producten kan werken groter en wordt de standaard gezet voor hoe vergelijkbare technologieën zouden moeten werken. In datzelfde artikel in The Atlantic wordt Meta-oprichter Mark Zuckerberg geciteerd die zegt dat het "heel waardevol voor ons is geweest om dat te bieden, omdat nu alle beste ontwikkelaars in de branche tools gebruiken die wij ook intern gebruiken".
Open Source brengt Open Source voort
Dit zijn factoren waarom we heel vaak synergieën zien tussen open-sourcebedrijven. Open-source AI- en ML-bedrijven zullen op natuurlijke wijze oplossingen ontwikkelen met andere open-sourceproducten, van fundamentele producten zoals object storage tot de hele stack tot visualisatietools. Wanneer één open-sourcebedrijf naar voren stapt, doen we dat allemaal. Deze samenhangende en gemengde aanpak is waarschijnlijk onze beste gok voor het ontwikkelen van AI die een mensgerichte aanpak hanteert. Deze natuurlijke krachten die inherent zijn aan de marktbehoefte aan open-source AI, gecombineerd met de kwaliteiten van open-sourcesoftware van innovatie en samenwerking, zullen de AI-datastack open source aansturen.
Doe mee en draag bij aan dit gesprek en onze community door ons een e-mail te sturen op hallo@min.io of door ons een bericht te sturen op ons Slack-kanaal .