paint-brush
Rolul amprentei TLS în Web Scrapingde@brightdata
259 lecturi

Rolul amprentei TLS în Web Scraping

de Bright Data6m2024/10/18
Read on Terminal Reader

Prea lung; A citi

Dacă scraperul dvs. web continuă să se blocheze, este posibil să se datoreze amprentei dvs. TLS. Chiar și atunci când setați anteturile HTTP ca un browser, sistemele anti-bot pot identifica solicitările automate analizând amprenta dvs. TLS în timpul strângerii de mână. Instrumente precum cURL Impersonate, care imită configurațiile TLS ale browserului, pot ajuta la ocolirea acestor blocuri. Pentru o libertate completă de scraping, luați în considerare utilizarea unor soluții precum API-ul Bright Data Scraping Browser.
featured image - Rolul amprentei TLS în Web Scraping
Bright Data HackerNoon profile picture
0-item

Scraperul dvs. web a fost blocat din nou? Uf, ce acum? Ați găsit acele anteturi HTTP și le-ați făcut să arate exact ca un browser, dar site-ul și-a dat seama că solicitările dvs. au fost automatizate. Cum e posibil? Simplu: este amprenta ta TLS! 😲


Scufundă-te în lumea furișă a amprentelor TLS, descoperă de ce este criminalul tăcut din spatele majorității blocurilor și învață cum să o ocoliți.

Anti-Bot te-a blocat din nou? E timpul să înveți de ce!

Să presupunem că aveți de-a face cu un scenariu tipic de răzuire. Efectuați o solicitare automată folosind un client HTTP, cum ar fi Solicitări în Python sau Axios în JavaScript, pentru a prelua codul HTML al unei pagini web pentru a extrage unele date din aceasta.


După cum probabil știți deja, majoritatea site-urilor web au tehnologii de protecție împotriva botului . Ești curios despre cea mai bună tehnologie anti-răzuire? Consultați ghidul nostru despre cele mai bune soluții anti-răzuire! 🔐


Aceste instrumente monitorizează cererile primite, eliminând cele suspecte.


Un anti-bot care salvează serverul nevinovat


Dacă cererea ta pare să provină de la un om obișnuit, ești gata să pleci. Altfel? O să fie blocat! 🧱

Solicitări de browser vs solicitări de bot

Acum, cum arată o solicitare de la un utilizator obișnuit? Uşor! Doar porniți instrumentele DevTools ale browserului dvs., mergeți la fila Rețea și vedeți singur:


Selectarea unei cereri web în DevTools


Dacă copiați acea solicitare în cURL selectând opțiunea din meniul de clic dreapta, veți obține ceva de genul acesta:

 curl 'https://kick.com/emotes/ninja' \ -H 'accept: application/json' \ -H 'accept-language: en-US,en;q=0.9' \ -H 'cache-control: max-age=0' \ -H 'cluster: v1' \ -H 'priority: u=1, i' \ -H 'referer: https://kick.com/ninja' \ -H 'sec-ch-ua: "Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"' \ -H 'sec-ch-ua-mobile: ?0' \ -H 'sec-ch-ua-platform: "Windows"' \ -H 'sec-fetch-dest: empty' \ -H 'sec-fetch-mode: cors' \ -H 'sec-fetch-site: same-origin' \ -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'

Dacă această sintaxă arată ca chineză pentru dvs., nu vă faceți griji - consultați introducerea noastră la cURL . 📖


Practic, o solicitare „umană” este doar o solicitare HTTP obișnuită cu câteva antete suplimentare (steaguri -H ). Sistemele anti-bot inspectează acele anteturi pentru a afla dacă o solicitare vine de la un bot sau un utilizator legitim într-un browser.


Unul dintre cele mai mari steaguri roșii ale lor? Antetul User-Agent ! Explorați postarea noastră despre cei mai buni agenți de utilizare pentru web scraping . Acest antet este setat automat de clienții HTTP, dar nu se potrivește niciodată cu cele utilizate de browserele reale.


Nepotrivire în acele antete? Este un cadou mort pentru roboți! 💀


Pentru mai multe informații, accesați ghidul nostru despre anteturile HTTP pentru web scraping .

Setarea antetelor HTTP nu este întotdeauna soluția

Acum, s-ar putea să vă gândiți: „Remediere ușoară, voi efectua doar solicitări automate cu acele antete!” Dar stai puțin... 🚨


Continuați și rulați solicitarea cURL pe care ați copiat-o din DevTools:


Replicarea cererii în cURL


Surprinde! Serverul v-a dat înapoi cu o pagină „403 Acces refuzat” de la Cloudflare. Da, chiar și cu anteturile asemănătoare browserului, poți fi blocat!


La urma urmei, spargerea Cloudflare nu este atât de ușoară. 😅


Dar stai, cum?! Nu este exact aceeași cerere pe care o face un browser? 🤔 Ei bine, nu chiar…

Cheia se află în modelul OSI

La nivelul aplicației modelului OSI, browserul și solicitările cURL sunt aceleași. Cu toate acestea, există toate straturile de bază pe care ați putea să le treceți cu vederea. 🫠


Modelul OSI


Unele dintre aceste straturi sunt adesea vinovații din spatele acelor blocuri plictisitoare, iar informațiile transferate acolo sunt exact pe care se concentrează tehnologiile avansate anti-răzuire. Fiare viclene! 👹


De exemplu, se uită la adresa dvs. IP , care este extrasă din stratul de rețea. Doriți să evitați aceste interdicții IP? Urmați tutorialul nostru despre cum să evitați interzicerea IP cu proxy !


Din păcate, asta nu este tot! 😩


Sistemele anti-bot acordă, de asemenea, o atenție deosebită amprentei TLS din canalul de comunicare securizat stabilit între script-ul dvs. și serverul web țintă la Stratul de transport.


Aici lucrurile diferă între un browser și o solicitare HTTP automată! Cool, nu? Dar acum trebuie să vă întrebați ce înseamnă asta... 🔍

Ce este o amprentă TLS?

O amprentă TLS este un identificator unic pe care soluțiile anti-bot îl creează atunci când browserul sau clientul HTTP stabilește o conexiune sigură la un site web.


Amprenta digitală TLS a unui browser Chrome de pe browserleaks.com/tls


Este ca o semnătură digitală pe care mașina dvs. o lasă în urmă în timpul strângerii de mână TLS — „conversația” inițială dintre un client și serverul web pentru a decide cum vor cripta și securiza datele la nivelul de transport. 🤝


Când efectuați o solicitare HTTP către un site, biblioteca TLS de bază din browser sau clientul HTTP începe procedura de strângere de mână. Cele două părți, clientul și serverul, încep să se întrebe reciproc lucruri precum: „Ce protocoale de criptare acceptați?” și „Ce cifruri ar trebui să folosim?” ❓


Strângere de mână TLS


Pe baza răspunsurilor dvs., serverul poate spune dacă sunteți un utilizator obișnuit într-un browser sau un script automat care utilizează un client HTTP. Cu alte cuvinte, dacă răspunsurile tale nu se potrivesc cu cele ale browserelor obișnuite, s-ar putea să fii blocat.


Imaginați-vă această strângere de mână ca două persoane care se întâlnesc:


Versiunea umană :

  • Server: "Ce limba vorbesti?"

  • Browser: „Engleză, franceză, chineză și spaniolă”

  • Server: „Foarte, hai să discutăm”


Versiunea bot :

  • Server: "Ce limba vorbesti?"

  • Bot: „Miau! 🐈”

  • Server: „Îmi pare rău, dar nu pari o ființă umană. Blocat!"


Pisicile nu sunt ființe umane. Sau sunt ei?


Amprentarea TLS funcționează sub stratul Aplicație al modelului OSI. Asta înseamnă că nu vă puteți modifica pur și simplu amprenta TLS cu câteva linii de cod. 🚫 💻 🚫


Pentru a falsifica amprentele digitale TLS, trebuie să schimbați configurațiile TLS ale clientului HTTP cu cele ale unui browser real. Captura? Nu toți clienții HTTP vă permit să faceți acest lucru!


La naiba!


Acolo intră în joc instrumente precum cURL Impersonate . Această versiune specială a cURL este concepută pentru a imita setările TLS ale unui browser, ajutându-vă să simulați un browser din linia de comandă!

De ce un browser fără cap poate să nu fie nici o soluție

Acum, s-ar putea să vă gândiți: „Ei bine, dacă clienții HTTP emit amprente TLS „asemănătoare unui bot”, de ce să nu folosiți pur și simplu un browser pentru scraping?”


Mișcare mare a creierului!


Ideea este de a folosi un instrument de automatizare a browserului pentru a rula sarcini specifice pe o pagină web cu un browser fără cap.


Indiferent dacă browserul rulează în modul headed sau headless, încă folosește aceleași biblioteci TLS subiacente. Aceasta este o veste bună, deoarece înseamnă că browserele fără cap generează o amprentă TLS „asemănătoare unui om”! 🎉


Asta e soluția, nu? Nu chiar… 🫤


Nu chiar...


Iată decizia: browserele fără cap vin cu alte configurații care strigă „Sunt un bot!” 🤖


Sigur, ați putea încerca să ascundeți asta cu un plugin stealth în Puppeteer Extra , dar sistemele avansate anti-bot încă pot adulmeca browserele fără cap prin provocări JavaScript și amprentarea browserului.


Deci, da, browserele fără cap nu sunt scăparea ta sigură, nici la anti-boți. 😬

Cum să ocoliți cu adevărat amprenta TLS

Verificarea amprentelor TLS este doar una dintre multele tactici avansate de protecție împotriva botilor pe care le implementează soluțiile sofisticate anti-răzuire. 🛡️


Pentru a lăsa cu adevărat în urmă durerile de cap ale amprentei TLS și ale altor blocuri enervante, aveți nevoie de o soluție de răzuire de nivel următor care să ofere:

  • Amprente fiabile TLS

  • Scalabilitate nelimitată

  • Superputeri de rezolvare a CAPTCHA

  • Rotație IP încorporată printr-o rețea proxy de 72 de milioane de IP

  • Reîncercări automate

  • Capabilități de redare JavaScript


Acestea sunt câteva dintre numeroasele funcții oferite de API-ul Bright Data Scraping Browser — o soluție de browser cloud all-in-one pentru a răzui Web-ul eficient și eficient.


Acest produs se integrează perfect cu instrumentele preferate de automatizare a browserului, inclusiv Playwright, Selenium și Puppeteer. ✨


Doar configurați logica de automatizare, rulați scriptul și lăsați API-ul Scraping Browser să se ocupe de munca murdară. Uitați de blocuri și reveniți la ceea ce contează - răzuirea la viteză maximă! ⚡️


Nu trebuie să interacționați cu pagina? Încercați programul de deblocare web al Bright Data!

Gânduri finale

Acum știi în sfârșit de ce lucrul la nivel de aplicație nu este suficient pentru a evita toate blocajele. Biblioteca TLS pe care o folosește clientul dvs. HTTP joacă, de asemenea, un rol important. Amprenta TLS? Nu mai este un mister - l-ai deslușit și știi cum să-l rezolvi.


Căutați o modalitate de a răzui fără a lovi blocurile? Nu căutați mai departe decât suita de instrumente Bright Data ! Alăturați-vă misiunii de a face internetul accesibil tuturor, chiar și prin solicitări HTTP automate. 🌐


Până data viitoare, continuă să navighezi pe Web cu libertate!