paint-brush
TLS pirksta nospieduma loma tīmekļa skrāpēšanāautors@brightdata
259 lasījumi

TLS pirksta nospieduma loma tīmekļa skrāpēšanā

autors Bright Data6m2024/10/18
Read on Terminal Reader

Pārāk ilgi; Lasīt

Ja jūsu tīmekļa skrāpis tiek bloķēts, iespējams, tas ir saistīts ar jūsu TLS pirksta nospiedumu. Pat tad, ja iestatāt HTTP galvenes kā pārlūkprogrammu, pretbotu sistēmas var pamanīt automatizētus pieprasījumus, analizējot jūsu TLS pirksta nospiedumu rokasspiediena laikā. Tādi rīki kā cURL Impersonate, kas atdarina pārlūkprogrammas TLS konfigurācijas, var palīdzēt apiet šos blokus. Lai iegūtu pilnīgu nokasīšanas brīvību, apsveriet iespēju izmantot tādus risinājumus kā Bright Data Scraping Browser API.
featured image - TLS pirksta nospieduma loma tīmekļa skrāpēšanā
Bright Data HackerNoon profile picture
0-item

Jūsu tīmekļa skrāpis atkal ir bloķēts? Uh, ko tagad? Jūs izveidojāt šīs HTTP galvenes un padarījāt tās gluži kā pārlūkprogrammu, taču vietne joprojām saprata, ka jūsu pieprasījumi ir automatizēti. Kā tas vispār iespējams? Vienkārši: tas ir jūsu TLS pirkstu nospiedums! 😲


Ienirstiet viltīgajā TLS pirkstu nospiedumu ņemšanas pasaulē, atklājiet, kāpēc tas ir klusais slepkava aiz vairuma bloku, un uzziniet, kā to apiet.

Anti-Bot jūs atkal bloķēja? Laiks uzzināt, kāpēc!

Pieņemsim, ka jums ir darīšana ar tipisku nokasīšanas scenāriju. Jūs veicat automātisku pieprasījumu, izmantojot HTTP klientu, piemēram, pieprasījumus programmā Python vai Axios JavaScript, lai izgūtu tīmekļa lapas HTML, lai no tās izņemtu dažus datus.


Kā jūs droši vien jau zināt, lielākajā daļā vietņu ir ieviestas robotu aizsardzības tehnoloģijas . Vai vēlaties uzzināt labāko pretskrāpēšanas tehnoloģiju? Apskatiet mūsu ceļvedi par labākajiem pretskrāpēšanas risinājumiem! 🔐


Šie rīki pārrauga ienākošos pieprasījumus, filtrējot aizdomīgos.


Anti-bot, kas glābj nevainīgo serveri


Ja šķiet, ka jūsu pieprasījums ir no parasta cilvēka, jums ir labi. Citādi? Tas būs akmens mūris! 🧱

Pārlūka pieprasījumi salīdzinājumā ar robotu pieprasījumiem

Kā izskatās parasta lietotāja pieprasījums? Viegli! Vienkārši aktivizējiet pārlūkprogrammas DevTools, dodieties uz cilni Tīkls un pārbaudiet pats:


Tīmekļa pieprasījuma atlasīšana rīkā DevTools


Ja kopēsit šo pieprasījumu uz cURL, atlasot opciju labās pogas izvēlnē, iegūsit kaut ko līdzīgu:

 curl 'https://kick.com/emotes/ninja' \ -H 'accept: application/json' \ -H 'accept-language: en-US,en;q=0.9' \ -H 'cache-control: max-age=0' \ -H 'cluster: v1' \ -H 'priority: u=1, i' \ -H 'referer: https://kick.com/ninja' \ -H 'sec-ch-ua: "Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"' \ -H 'sec-ch-ua-mobile: ?0' \ -H 'sec-ch-ua-platform: "Windows"' \ -H 'sec-fetch-dest: empty' \ -H 'sec-fetch-mode: cors' \ -H 'sec-fetch-site: same-origin' \ -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'

Ja šī sintakse jums šķiet ķīniešu valoda, neuztraucieties — skatiet mūsu ievadu par cURL . 📖


Būtībā “cilvēka” pieprasījums ir tikai parasts HTTP pieprasījums ar dažām papildu galvenēm ( -H karodziņiem). Anti-bot sistēmas pārbauda šīs galvenes, lai noskaidrotu, vai pieprasījums nāk no robota vai likumīga lietotāja pārlūkprogrammā.


Viens no viņu lielākajiem sarkanajiem karogiem? User-Agent galvene! Izpētiet mūsu ziņu par labākajiem lietotāju aģentiem tīmekļa kopēšanai . Šo galveni automātiski iestata HTTP klienti, taču tā nekad īsti neatbilst tiem, ko izmanto reālās pārlūkprogrammas.


Neatbilstība šajās galvenes? Tā ir nedzīva dāvana robotiem! 💀


Lai iegūtu plašāku informāciju, iedziļinieties mūsu rokasgrāmatā par HTTP galvenēm tīmekļa kopēšanai .

HTTP galveņu iestatīšana ne vienmēr ir risinājums

Tagad jūs varētu domāt: “Vienkārši labošu, es tikai izpildīšu automatizētus pieprasījumus ar šīm galvenēm!” Bet pagaidi… 🚨


Turpiniet un izpildiet cURL pieprasījumu, ko nokopējāt no DevTools:


Pieprasījuma atkārtošana vietnē cURL


Pārsteigums! Serveris jums nosūtīja Cloudflare lapu “403 Access Denied”. Jā, pat ar pārlūkprogrammai līdzīgām galvenēm jūs joprojām varat tikt bloķēts!


Galu galā uzlauzt Cloudflare nav tik vienkārši. 😅


Bet pagaidiet, kā?! Vai tas nav tieši tāds pats pieprasījums, ko veiktu pārlūkprogramma? 🤔 Nu ne gluži...

Atslēga slēpjas OSI modelī

OSI modeļa lietojumprogrammu līmenī pārlūkprogrammas un cURL pieprasījumi ir vienādi. Tomēr ir visi pamatā esošie slāņi, kurus jūs varētu neievērot. 🫠


OSI modelis


Daži no šiem slāņiem bieži vien ir vainīgi aiz šiem nepatīkamajiem blokiem, un tur pārsūtītā informācija ir tieši tā, uz ko koncentrējas progresīvās pretskrāpēšanas tehnoloģijas. Viltīgi zvēri! 👹


Piemēram, viņi aplūko jūsu IP adresi , kas tiek iegūta no tīkla slāņa. Vai vēlaties izvairīties no šiem IP aizliegumiem? Sekojiet mūsu apmācībai par to, kā izvairīties no IP aizlieguma ar starpniekserveriem !


Diemžēl tas vēl nav viss! 😩


Anti-bot sistēmas arī pievērš īpašu uzmanību TLS pirkstu nospiedumam no drošā sakaru kanāla, kas izveidots starp jūsu skriptu un mērķa tīmekļa serveri transporta slānī.


Šeit atšķiras lietas starp pārlūkprogrammu un automatizētu HTTP pieprasījumu! Forši, vai ne? Bet tagad jūs noteikti domājat, ko tas nozīmē… 🔍

Kas ir TLS pirksta nospiedums?

TLS pirksta nospiedums ir unikāls identifikators, ko robotu novēršanas risinājumi izveido, kad jūsu pārlūkprogramma vai HTTP klients iestata drošu savienojumu ar vietni.


Pārlūkprogrammas Chrome TLS pirksta nospiedums vietnē browserleaks.com/tls


Tas ir kā digitālais paraksts, ko jūsu iekārta atstāj TLS rokasspiediena laikā — sākotnējā “saruna” starp klientu un tīmekļa serveri, lai izlemtu, kā viņi šifrēs un aizsargās datus transporta slānī. 🤝


Kad vietnei veicat HTTP pieprasījumu, jūsu pārlūkprogrammas vai HTTP klienta pamatā esošā TLS bibliotēka sāk rokasspiediena procedūru. Abas puses, klients un serveris, sāk jautāt viens otram, piemēram: "Kādus šifrēšanas protokolus jūs atbalstāt?" un "Kurus šifrus mums vajadzētu izmantot?" ❓


TLS rokasspiediens


Pamatojoties uz jūsu atbildēm, serveris var noteikt, vai esat parasts pārlūkprogrammas lietotājs vai automatizēts skripts, kas izmanto HTTP klientu. Citiem vārdiem sakot, ja jūsu atbildes neatbilst tipisko pārlūkprogrammu atbildēm, jūs varat tikt bloķēts.


Iedomājieties šo rokasspiedienu kā divu cilvēku satikšanos:


Cilvēka versija :

  • Serveris: "Kādā valodā jūs runājat?"

  • Pārlūkprogramma: "angļu, franču, ķīniešu un spāņu valodā"

  • Serveris: "Lieliski, parunāsim"


Bota versija :

  • Serveris: "Kādā valodā jūs runājat?"

  • Bots: “Ņau! 🐈”

  • Serveris: “Piedod, bet tu nešķiet cilvēks. Bloķēts!"


Kaķi nav cilvēki. Vai arī viņi ir?


TLS pirkstu nospiedumu noņemšana darbojas zem OSI modeļa lietojumprogrammas slāņa. Tas nozīmē, ka jūs nevarat vienkārši pielāgot savu TLS pirkstu nospiedumu ar dažām koda rindiņām. 🚫 💻 🚫


Lai viltotu TLS pirkstu nospiedumus, jums ir jāmaina HTTP klienta TLS konfigurācijas ar īstas pārlūkprogrammas konfigurācijām. Nozveja? Ne visi HTTP klienti ļauj to izdarīt!


Sasodīts!


Šeit tiek izmantoti tādi rīki kā cURL Impersonate . Šī īpašā cURL versija ir izstrādāta, lai atdarinātu pārlūkprogrammas TLS iestatījumus, palīdzot simulēt pārlūkprogrammu no komandrindas.

Kāpēc arī pārlūkprogramma bez galvas nevar būt risinājums?

Tagad jūs varētu domāt: “Ja HTTP klienti izdala robotiem līdzīgus TLS pirkstu nospiedumus, kāpēc gan neizmantot pārlūkprogrammu, lai nokasītu?”


Liela smadzeņu kustība!


Ideja ir izmantot pārlūkprogrammas automatizācijas rīku, lai veiktu konkrētus uzdevumus tīmekļa lapā, izmantojot pārlūkprogrammu bez galvas.


Neatkarīgi no tā, vai pārlūkprogramma darbojas virsraksta vai bezgalvu režīmā, tā joprojām izmanto tās pašas pamatā esošās TLS bibliotēkas. Tā ir laba ziņa, jo tas nozīmē, ka pārlūkprogrammas bez galvas ģenerē "cilvēkam līdzīgu" TLS pirkstu nospiedumu! 🎉


Tas ir risinājums, vai ne? Ne īsti... 🫤


Ne gluži...


Lūk, tas ir kicker: bezgalvu pārlūkprogrammām ir citas konfigurācijas, kas kliedz: "Es esmu bots!" 🤖


Protams, jūs varētu mēģināt to slēpt, izmantojot Puppeteer Extra slepeno spraudni , taču uzlabotas pretbotu sistēmas joprojām var izjaukt pārlūkprogrammas bez galvas, izmantojot JavaScript izaicinājumus un pārlūkprogrammas pirkstu nospiedumus.


Tātad, jā, pārlūkprogrammas bez galvām nav arī droša glābiņš pret robotiem. 😬

Kā patiešām apiet TLS pirkstu nospiedumus

TLS pirkstu nospiedumu pārbaude ir tikai viena no daudzajām uzlabotajām robotu aizsardzības taktikām, ko ievieš sarežģīti pretskrāpēšanas risinājumi. 🛡️


Lai patiesi atstātu aiz muguras galvassāpes, ko rada TLS pirkstu nospiedumu noņemšana un citi kaitinoši bloki, jums ir nepieciešams nākamā līmeņa nokasīšanas risinājums, kas nodrošina:

  • Uzticami TLS pirkstu nospiedumi

  • Neierobežota mērogojamība

  • CAPTCHA risināšanas lielvaras

  • Iebūvēta IP rotācija, izmantojot 72 miljonu IP starpniekservera tīklu

  • Automātiski mēģinājumi

  • JavaScript renderēšanas iespējas


Šīs ir dažas no daudzajām funkcijām, ko piedāvā Bright Data Scraping Browser API — viss vienā mākoņa pārlūkprogrammas risinājums, kas ļauj efektīvi un produktīvi notīrīt tīmekli.


Šis produkts nemanāmi integrējas ar jūsu iecienītākajiem pārlūkprogrammas automatizācijas rīkiem, tostarp Playwright, Selenium un Puppeteer. ✨


Vienkārši iestatiet automatizācijas loģiku, palaidiet skriptu un ļaujiet Scraping Browser API veikt netīro darbu. Aizmirstiet par blokiem un atgriezieties pie svarīgākā — kasīšanas pilnā ātrumā! ⚡️


Vai nav nepieciešams mijiedarboties ar lapu? Izmēģiniet Bright Data Web Unlocker !

Pēdējās domas

Tagad jūs beidzot zināt, kāpēc nepietiek ar darbu lietojumprogrammas līmenī, lai izvairītos no visiem blokiem. Liela nozīme ir arī jūsu HTTP klienta izmantotajai TLS bibliotēkai. TLS pirkstu nospiedumu noņemšana? Vairs nav noslēpums — jūs esat to uzlauzis un zināt, kā ar to tikt galā.


Vai meklējat veidu, kā skrāpēt, netrāpot pret blokiem? Nemeklējiet tālāk par Bright Data rīku komplektu! Pievienojieties misijai, lai padarītu internetu pieejamu visiem — pat izmantojot automatizētus HTTP pieprasījumus. 🌐


Līdz nākamajai reizei turpiniet brīvi sērfot tīmeklī!

L O A D I N G
. . . comments & more!

About Author

Bright Data HackerNoon profile picture
Bright Data@brightdata
From data collection to ready-made datasets, Bright Data allows you to retrieve the data that matters.

PAKARINĀT TAGUS

ŠIS RAKSTS TIKS PĀRSTRĀDĀTS...