Çdo muaj, dikush deklaron se “AI do të zëvendësojë të gjithë ne”. Meqë punoj ngushtë me të, e kam këtë pyetje gjatë gjithë kohës. Por shikoni më afër: AI nuk zëvendëson Ajo zëvendëson Dhe ka një diferencë të madhe. people tasks LLMs janë papagallët me motorë jet Modelet e mëdha të gjuhës si ChatGPT, Claude, dhe DeepSeek janë ndërtuar për të parashikuar tokenin e ardhshëm në mënyrë aq bindëse që duket sikur një person e ka shkruar atë, dhe ata janë të shkëlqyer në të. Të jesh i mirë në Nuk është e njëjtë si . sounding right being right Këto modele mësojnë nga një përzierje e librave, artikujve, kopjeve të kodit, Wikipedia, postimeve të forumit dhe faqeve të skrapuara të internetit. Disa prej tyre janë të rishikuar nga kolegët. Shumica nuk janë. Asnjë ushtri e redaktorëve nuk kontrollon të vërtetën e çdo rreshti. Të dhënat janë të mbushura me kontradikta, paragjykime, fakte të vjetëruara dhe fabrikacione të drejtpërdrejta. Mendoni për të si të mësuarit mjekësi nga çdo libër mjekësor i shkruar ndonjëherë ... dhe çdo forum shëndetësor, çdo blog horoskopi dhe disa vende recetë për masë të mirë. “Këto modele pasqyrojnë realitetin dhe janë shumë të mira në imitim të gjuhës së konsensusit. know Unë kam parë në dorë të parë pse kjo ka rëndësi. Quality Over Quantity Cilësia mbi sasinë Në vitin 2016, kam punuar në një projekt të mësimit automatik për të zbuluar malware të errët. Microsoft kishte një dataset publik Kaggle (Microsoft Malware Classification Challenge) për pikërisht këtë problem. mbikëqyrësi im më këshilloi ta përdor atë ose për të gjeneruar të dhëna sintetike. Për disa muaj, kam shkarkuar malware çdo ditë, kam drejtuar mostrat në një sandbox, binary reverse-engineered, dhe etiketuar ato vetë. në fund, kam pasur një dataset prej rreth 120.000 malware dhe mostrat benigne, e cila është shumë më e vogël se Microsoft, por është ndërtuar me dorë. Rezultatet folën me zë të lartë: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Microsoft Kaggle të dhënat 53 për qind Të dhënat e mia të ndërtuara me dorë 80% të Të dhënat e mia + të dhënat sintetike 64 për qind I njëjti algoritëm, i njëjti tubacion, vetëm të dhënat ndryshuan. Pika: Performanca më e mirë erdhi nga të dhënat manuale, të kuruara nga ekspertë. të dhënat publike përmbajnë anomali; të dhënat sintetike prezantuan shtrembërimet e veta. Kjo është e kundërta e mënyrës se si trajnohen LLM-të: ata gërryen gjithçka dhe përpiqen të mësojnë nga ajo, anomalitë dhe të gjitha. Një halucinacion i vetëm nga ChatGPT, i postuar në mediat sociale, bëhet i ndarë, retweeted, repackaged, dhe përfundon duke u ushqyer përsëri në setin e ardhshëm të trajnimit. . digital inbreeding Interneti ishte tashmë i mbushur me përmbajtje me cilësi të ulët para se të vinin LLM-të: lajme të rreme, “si-tos” fiktive, kod të thyer, tekst spammy. Kush kuron? Aktualisht, kryesisht filtra të automatizuara, disa njerëz të kuq-teaming, dhe sistemet e brendshme të vlerësimit. nuk ka ekuivalent të shqyrtimit në shkallë, asnjë bord licencimi, asnjë përgjegjësi për të dhënat e këqija. Ku i gjejmë të dhënat “të reja”? E cila natyrisht çon në pyetjen e dukshme: kur interneti publik është tashmë i mbuluar, i ndotur dhe gjithnjë e më sintetik? where do we find fresh, high-quality training data Ideja e parë që pothuajse të gjithë kanë është “Ne vetëm do të stërvitemi në të dhënat tona të përdoruesve.” Në vitin 2023, unë u përpoqa pikërisht kështu me fillimin tim gamedev - një mjet AI për të ndihmuar zhvilluesit të ndërtojnë botët e RPG. menduam se ditarët e testimit beta do të jenë material i përsosur trajnimi: formati i duhur, ndërveprimet reale, të lidhura drejtpërdrejt me domenin tonë. Fortune Folly të kapur? Një test i vetëm prodhoi më shumë të dhëna se pesëmbëdhjetë përdoruesit e zakonshëm së bashku, por jo sepse ata po ndërtonin botët më të pasura.Ata ishin duke u përpjekur pa pushim për të drejtuar sistemin në përmbajtje seksuale, thirrje për bombë dhe përgjigje raciste.Ata ishin shumë më këmbëngulës dhe inventiv në thyerjen e kufijve se çdo përdorues i ligjshëm. mbetur pa mbikëqyrje, që të dhënat do të kishin Ajo do të kishte mësuar të imitojë sulmuesin, jo komunitetin që po përpiqemi të shërbejmë. helmuar Kjo është pikërisht e Pa shqyrtim aktiv njerëzor dhe kurim, “të dhënat e përdoruesve të vërtetë” mund të kodojnë më të keqen, jo më të mirën, të hyrjes njerëzore, dhe modeli juaj do ta riprodhojë atë me besnikëri. data-poisoning problem Në Takeaway ChatGPT është vetëm hapi i parë në rrugën drejt " zëvendësimit".Duket si një ekspert në çdo gjë, por në realitet, është një specialist në gjuhën natyrore. E ardhmja e tij është si një për bisedë midis jush dhe modeleve më të thella, specifike të domain-it të trajnuar në grupe të dhënash të kuruar me kujdes. Edhe ato modele, megjithatë, ende do të kenë nevojë për përditësim të vazhdueshëm, validim dhe ekspertizë njerëzore prapa skenave. interface “Kërcënimi i vërtetë i zëvendësimit” do të vijë vetëm nëse arrijmë të ndërtojmë një : skraperët që mbledhin të dhëna në kohë reale, modelet e shqyrtuesve që e verifikojnë dhe e kontrollojnë faktin, dhe modelet e ekspertëve që gëlltisin këtë njohuri të pastruar. fabric of machine learning systems Por unë nuk mendoj se ne jemi kudo afër kësaj. Tani, ne tashmë djegim sasi masive të energjisë vetëm për të gjeneruar fjali të ngjashme me njerëzit. Shkallëzimi deri në nivelin e nevojshëm për kohë reale, njohuritë e ekspertëve të rishikuar plotësisht do të kërkonin urdhra të madhësisë më shumë fuqi kompjuterike dhe energji se sa mund të ofrojmë realisht. Unë kam parë përpjekje premtuese në mjekësi, por secila prej tyre mbështetej në ekipet e specialistëve që punonin orë të panumërta duke ndërtuar, pastruar dhe validuar të dhënat e tyre. Me fjalë të tjera: AI may replace tasks, but it’s nowhere close to replacing people.