: , un agent bazat pe inteligență artificială care își poate folosi propriul browser pentru a efectua sarcini pentru tine. În prezent, este disponibil numai pentru utilizatorii Pro din SUA, dar va veni la nivel global în curând. 🌍 🚨 Știri de ultimă oră OpenAI a lansat Operator Cool, nu? Dar stai, suntem siguri că site-urile web nu vor respinge? 🤔 cum ar fi interzicerea IP, amprentele browserului, amprentele TLS și, desigur, CAPTCHA-urile vor ține pasul cu noul instrument OpenAI? Tehnologia actuală anti-bot, Deci, cine câștigă cu adevărat în această bătălie între roboții automati complexi și apărarea anti-robot? Citiți mai departe pentru a afla! 🔥 Modele LLM și date online: O relație stâncoasă Când modelele LLM au apărut pentru prima dată pe piață, a fost doar o revoluție. Modul în care abordăm sarcinile de zi cu zi la locul de muncă s-a schimbat pentru totdeauna, bursa a reacționat cu entuziasm 🚀 și toată lumea a sărit în trenul AI (chiar dacă în spatele majorității produselor online nu exista încă AI ). reală Ca întotdeauna, hype-ul inițial a dispărut în cele din urmă și au început să apară câteva întrebări importante. Nu trebuie să fii un inginer de învățare automată sau un mare maestru Kaggle (BTW, ! 😉) pentru a ști că LLM-urile nu funcționează pe magie 🧙 — . ne putem găsi și acolo au nevoie de tone de date pentru a fi instruiți Deci, de unde vin toate aceste date? Răspuns simplu: 🌍 Web! Web-ul este cea mai mare sursă de date de pe planetă, așa că nu este surprinzător că companii precum pentru a colecta datele necesare pentru a-și instrui tehnologia inovatoare. Și atâta timp cât web scraping se face etic, nu este nimic în neregulă cu asta 🤷. OpenAI au răzuit internetul ani de zile : Aprofundați acest subiect citind articolul nostru despre . Sfat profesionist cum să rămâneți etici și legale în era AI web scraping Dar iată problema: 😠 majoritatea proprietarilor de site-uri nu sunt încântați de faptul că companiile de inteligență artificială își folosesc datele! La urma urmei, datele sunt egale cu bani 💰. Au trecut câțiva ani de când a publicat articolul „ ”. Deci, sincer, nu este nevoie să explicăm asta mai departe. The Economist Cea mai valoroasă resursă a lumii nu mai este petrolul, ci datele Pe scurt, a oferi gratuit datele tale este, practic, același lucru cu a distribui numerar 💸. Nu e de mirare că proprietarii de site-uri – în special companiile mari – nu sunt tocmai încântați de asta. 😅 Acum, că peisajul evoluează și noi operatori și instrumente AI intră în scenă, site-urile web ar putea începe să devină nemulțumite de asta. 😬 foarte Operatori AI vs site-uri web: următoarea fază a acestei relații tulburi În articolul său despre , OpenAI a împărtășit: cum funcționează Operator „Operatorul este alimentat de un nou model numit (CUA). Combinând capacitățile de viziune ale GPT-4 cu raționamentul avansat prin învățare prin întărire, CUA este instruit să interacționeze cu interfețele grafice cu utilizatorul (GUI) - butoanele, meniurile și câmpurile de text pe care oamenii le văd pe un ecran.” Computer-Using Agent Este clar că, în timp ce companiile de inteligență artificială precum OpenAI au construit anterior roboți de scraping pentru a colecta date din surse populare pentru a-și antrena modelele, acum oferă utilizatorilor un instrument care poate interacționa „magic” și naviga pe site-uri web. Este atât incitant, cât și înfricoșător! 😱 Vedeți Operatorul OpenAI în acțiune în videoclipul de prezentare: https://www.youtube.com/watch?v=gYqs-wUKZsM&embeble=true Din nou, din articolul de prezentare oficial: „Operatorul poate „vedea” (prin capturi de ecran) și „interacționa” (folosind toate acțiunile permise de mouse și tastatură) cu un browser, permițându-i să acționeze pe web fără a necesita integrări API personalizate. Dacă întâmpină provocări sau face greșeli, Operatorul își poate valorifica capacitățile de raționament pentru a se auto-corecta. Când se blochează și are nevoie de asistență, pur și simplu predă controlul înapoi utilizatorului, asigurând o experiență lină și de colaborare.” Este incredibil de promițător, dar ridică și unele îngrijorări serioase. 🤔 Ce se întâmplă dacă utilizatorii încep să abuzeze de Operator în scopuri rău intenționate? Cu toții ne-am săturat de roboți (cum ar fi acele comentarii spam care inundă YouTube), iar acest lucru s-ar putea transforma rapid într-o problemă majoră. ⚠️ Presupunând că OpenAI reușește să împiedice Operatorul să efectueze acțiuni dăunătoare sau nedorite - la fel cum au lucrat pentru a împiedica ChatGPT să răspundă la întrebări periculoase - putem fi cu adevărat siguri că majoritatea site-urilor web vor saluta acest tip de interacțiune nouă, automată, bazată pe inteligență artificială? 🤖 Cum funcționează operatorii AI Înainte de a aborda marea întrebare pe care am lăsat-o deschisă, să clarificăm mai întâi cu ce fel de interacțiuni avem de-a face. La sfârșitul zilei, dacă acești noi operatori AI nu sunt la fel de eficienți pe cât credem, de ce ar trebui să ne deranjam chiar să ne protejăm împotriva lor? 👀 Anti-bot nu este o glumă. Companii precum Cloudflare – un lider în furnizorii WAF ( ), cunoscut pentru soluțiile sale puternice anti-bot . 🤑 Web Application Firewall – cheltuiesc milioane de dolari în fiecare an pe cercetare și dezvoltare pentru a rămâne în avans În prezent, , așa că nu toată lumea a avut șansa de a-l testa. Dar pentru cei care au? Rezultatele sunt impresionante! 🤯 numai utilizatorii din SUA care plătesc 200 USD pe lună pentru cel mai înalt nivel de abonament ChatGPT Pro pot accesa Operatorul OpenAI Utilizatorii timpurii și au descoperit că OpenAI este uimitor în automatizarea sarcinilor de zi cu zi precum: recenzenții tehnologici Comandă mâncare (da, poate chiar să ia automat decizii precum alegerea de la ce restaurante să comanzi 🍔) Răspunsul utilizatorilor de pe unele platforme de socializare Finalizarea micilor sarcini online, cum ar fi completarea sondajelor pentru recompense Cum este posibil? Operatorul deschide o fereastră de mini browser și finalizează sarcini pe baza solicitărilor dvs. text - exact așa cum ar face un utilizator obișnuit: https://www.youtube.com/watch?v=CSE77wAdDLg&embedable=true Sigur, produsul este încă în stadiul de „previzualizare a cercetării” și nu este perfect. Ocazional, va trebui să-i dai un ghiont sau să-l salvezi dintr-o buclă de încercări eșuate. În timp ce - în special având în vedere prețul ridicat -, nu se poate nega că această tehnologie este deja chiar și în această etapă. , de exemplu! unii utilizatori Reddit și-au exprimat plângeri extraordinară Urmăriți-l și rezervați un zbor ➡️ Adevărata întrebare acum: vor primi site-urile web automatizarea bazată pe inteligență artificială sau vor riposta? Și dacă o fac, cum? ⚔️ Cum luptă site-urile împotriva inteligenței artificiale nu sunt nimic nou – multe site-uri le folosesc de ani de zile pentru a se proteja împotriva scripturilor automate care războară datele și interacționează cu paginile lor. 🚫 Soluțiile anti-bot și anti-scraping Dacă sunteți curios despre aceste metode, consultați webinarul nostru despre tehnici avansate anti-bot: https://www.youtube.com/watch?v=RArxdFeijd4&embedable=true După cum probabil știți deja, mai ales dacă ați urmărit , vorbim despre: seria noastră despre web scraping avansat : instrumente care restricționează numărul de solicitări de la un utilizator într-un anumit timp pentru a preveni supraîncărcarea. Acestea funcționează prin . Limitatoare de rată interzicerea IP-urilor : O metodă care urmărește caracteristicile unice ale conexiunii criptate a unui browser pentru a identifica roboții. Explorați rolul . TLS Fingerprinting amprentei TLS în scrapingul web : O tehnică pentru detectarea atributelor unice ale dispozitivului sau browserului pentru a identifica instrumentele automate. Amprentarea browserului Aceste apărări inițiale se concentrează pe blocarea solicitărilor de la instrumente automate (cum ar fi operatorii AI) înainte ca aceștia să aibă șansa de a accesa site-ul 🛡️. Dacă aceste apărări eșuează, alte tehnici intră în joc. Câteva exemple? Analiza comportamentului utilizatorilor, și CAPTCHA! provocări JavaScript CAPTCHA-urile sunt deosebit de eficiente deoarece sunt concepute pentru a fi ușor de rezolvat de către oameni, dar greu de spart pentru roboți. Dar odată ce AI devine mai inteligentă și începe să gândească mai mult ca oamenii, recunoașterea roboților devine din ce în ce mai dificilă. Acesta este motivul pentru care unele idei sălbatice, cum ar fi , sunt aruncate. 🎮 folosirea jocurilor video ca CAPTCHA Dar adevărata întrebare este: sunt CAPTCHA-urile soluția finală împotriva operatorilor AI? Să ne scufundăm și să aflăm! 💡 Rezolvarea CAPTCHA-urilor: pot operatorii AI cu adevărat să bată sistemul? : Nu, nu chiar... 🙅♂️ TL;DR De când OpenAI Operator a ajuns pe piață pentru testare, utilizatorii l-au împins să finalizeze sarcini care implică CAPTCHA - autentificarea în rețelele sociale, completarea formularelor și multe altele. Dar, după cum s-a menționat în OpenAI, intervenția umană este încă necesară: pagina de prezentare a agentului care utilizează computerul „Deși se ocupă de majoritatea pașilor în mod automat, CUA solicită confirmarea utilizatorului pentru acțiuni sensibile, cum ar fi introducerea detaliilor de conectare sau răspunsul la formularele CAPTCHA.” Sigur, uneori, motorul de raționament al AI s-ar putea strecura pe lângă un CAPTCHA 🥷, dar, de cele mai multe ori, - cu rezultate care sunt atât hilare, cât și frustrante. Când este pus la încercare pe , acesta este oprit în mod repetat de protecțiile anti-bot. eșuează lamentabil Reddit, Google Maps, Amazon și G2 Vizionarea operatorilor AI care se prăbușesc și arde împotriva CAPTCHA-urilor a devenit o tendință virală. Videoclipurile cu aceste instrumente de inteligență artificială care își fac drumul prin încercările de conectare inundă Reddit și X: https://x.com/kevinroose/status/1882885941033095271?mx=2&embedable=true confirmă aceeași frustrare: . Alți evaluatori de tehnologie Operatorul OpenAI este blocat de majoritatea CAPTCHA-urilor Pe de o parte, acest lucru este liniștitor – CAPTCHA-urile își fac treaba și împiedică roboții automatizați să facă ravagii. Pe de altă parte, 🐁 🐈. Operatorii de tehnologie anti-bot și AI vor continua să evolueze, pe rând fiind cu un pas înainte. suntem într-un joc cu pisica și șoarecele Adevărații învinși? Utilizatori obișnuiți! Mai multe site-uri vor implementa probabil CAPTCHA, făcând navigarea mai dureroasă pentru toată lumea. Și să fim sinceri – toți urâm CAPTCHA-urile. 😩 Această bătălie nu îi afectează doar pe operatorii de inteligență artificială, ci și răzuitorii etici ai webi sunt prinși în focul încrucișat. Pe măsură ce site-urile intensifică măsurile anti-bot, scripturile de scraping legitime vor fi blocate pe nedrept, . îngreunând extragerea datelor pentru cercetători, companii și dezvoltatori Din fericire, există o modalitate mai bună de a interacționa cu site-urile în mod programatic, a avea de-a face cu CAPTCHA-uri și alte coșmaruri anti-bot: ! fără Scraping Browser Adevăratul câștigător? Browserul Scraping al Bright Data! OpenAI Operator automatizează browserele obișnuite la fel ca alte instrumente de automatizare a browserului. Dar iată problema: majoritatea tehnologiilor anti-bot, inclusiv CAPTCHA-urile, nu apar automatizării în sine. Acestea apar ! din cauza datorită modului în care este configurat browser-ul Majoritatea bibliotecilor de automatizare a browserelor configurează browserele în moduri care le expun ca automate, înfrângând complet scopul utilizării unui browser „obișnuit”. Acolo intervin sistemele anti-bot și blochează accesul. 🚫 În loc să se concentreze pe dacă AI poate ocoli CAPTCHA-urile, adevăratul schimbător de joc folosește browserul potrivit, unul . Exact aici intervine , plin cu: optimizat pentru scraping și automatizare Browserul Scraping de la Bright Data pentru a evita detectarea Amprente fiabile TLS pentru extragerea datelor la scară largă Scalabilitate nelimitată alimentată de o rețea proxy IP de 72 de milioane Rotație IP încorporată pentru a gestiona cererile eșuate Reîncercări automate care depășesc operatorii AI 🧠 Superputeri de rezolvare a CAPTCHA Nicio surpriză aici: este mult mai eficientă decât Operatorul OpenAI. De ce? Pentru că este susținut de ani de dezvoltare din partea aceleiași echipe care s-a ocupat de . ⚡ soluția CAPTCHA încorporată în Browser Scraping recentele întreruperi de date SEO în câteva minute Soluția CAPTCHA de la Bright Data sa dovedit a fi de succes împotriva: reCAPTCHA ✔️ (da, cel pe care Operatorul OpenAI nu l-a putut rezolva în tweetul de mai sus) hCaptcha ✔️ px_captcha ✔️ SimpleCaptcha ✔️ GeeTest CAPTCHA ✔️ ...si multe altele! Nu numai că , dar atunci când apar, . 🔥 reduce șansele de apariție a CAPTCHA-urilor le rezolvă fără efort Scraping Browser funcționează cu toate cadrele majore de automatizare a browserului, inclusiv Playwright, Puppeteer și Selenium. Deci, indiferent dacă doriți control programatic complet sau , sunteți acoperit. chiar să adăugați logica AI deasupra Vedeți Browser-ul Scraping al Bright Data în acțiune: https://www.youtube.com/watch?v=4y-i5XKxa7I&embeble=true Deci... ar trebui să forțăm în continuare AI să rezolve CAPTCHA-urile sau pur și simplu să folosim un instrument care funcționează? Alegerea este evidentă. 🏆 Scraping Browser FTW. Gânduri finale Operatorul OpenAI este aici pentru a revoluționa interacțiunea web, dar nu este atotputernic. Deși este impresionant, încă se luptă împotriva CAPTCHA-urilor și este blocat. Evitați necazurile cu Scraping Browser, care include un solutor CAPTCHA încorporat pentru o automatizare perfectă. Porniți-vă în încercarea noastră de a democratiza Web-ul, asigurându-vă că acesta rămâne accesibil tuturor, oriunde, chiar și prin scripturi automate! Până data viitoare, continuă să explorezi Internetul liber și fără CAPTCHA!