paint-brush
Karolo ya Kgatišo ya Menwana ya TLS go go Scraping ya Wepeka@brightdata
312 dipuku tša go balwa
312 dipuku tša go balwa

Karolo ya Kgatišo ya Menwana ya TLS go go Scraping ya Wepe

ka Bright Data6m2024/10/18
Read on Terminal Reader

Nako e telele kudu; Go bala

Ge e ba web scraper ya gago e dula e thibelwa, e ka ba e le ka baka la kgatišo ya gago ya menwana ya TLS. Le ge o beakanya dihlogo tša gago tša HTTP go swana le sephephediši, ditshepedišo tša go lwantšha bot di ka bona dikgopelo tša go itiriša ka go sekaseka kgatišo ya gago ya menwana ya TLS nakong ya go swarana ka diatla. Didirišwa tša go swana le cURL Impersonate, yeo e ekišago dipeakanyo tša TLS ya sephephediši, di ka thuša go tlola diboloko tše. Bakeng sa tokologo ye e feletšego ya go gohla, nagana ka go šomiša ditharollo tša go swana le Bright Data's Scraping Browser API.
featured image - Karolo ya Kgatišo ya Menwana ya TLS go go Scraping ya Wepe
Bright Data HackerNoon profile picture
0-item

Web scraper ya gago e ile ya thibelwa gape? Ugh, go thwe’ng bjale? O ile wa kokotela dihlogo tšeo tša HTTP gomme wa dira gore e bonagale e swana le sephephediši, eupša sebaka se sa dutše se hlatha gore dikgopelo tša gago di be di itiriša. Seo se bile se kgonega bjang? Bonolo: ke kgatišo ya gago ya menwana ya TLS! 😲


Dive ka lefaseng la go senya la TLS fingerprinting, utolla gore ke ka lebaka la eng e le mmolai yo a homotšego ka morago ga bontši bja diboloko, gomme o ithute gore o ka e dikologa bjang.

Anti-Bot e Go Thibetše Gape? Nako ya go Ithuta Ka baka la’ng!

A re tšeeng gore o lebeletšane le boemo bjo bo tlwaelegilego bja go gohla. O dira kgopelo ya go itiriša o šomiša moreki wa HTTP—go swana le Dikgopelo ka go Python goba Axios ka go JavaScript—go tšea HTML ya letlakala la wepe go gohla datha ye nngwe go tšwa go lona.


Bjalo ka ge mohlomongwe o šetše o tseba, bontši bja diwepesaete di na le theknolotši ya tšhireletšo ya bot yeo e lego gona. Curious ka molemo ka ho fetisisa-ba khahlanong le scraping tech? Lekola tlhahlo ya rena ka ditharollo tše kaone tša go lwantšha go gohla! 🔐


Didirišwa tše di hlokomela dikgopelo tše di tsenago, di sefa tšeo di belaetšago.


An anti-bot pholosa seva e se nang molato


Ge kgopelo ya gago e bonala eka e tšwa go motho wa ka mehla, o lokile go ya. Go sego fao? E ya go hwetša maswika! 🧱

Dikgopelo tša Sephephediši vs Dikgopelo tša Bot

Bjale, kgopelo go tšwa go modiriši wa ka mehla e lebelega bjang? Bonolo! E no thunya DevTools ya sephephediši sa gago, leba go thepo ya Neteweke, gomme o iponele:


Go kgetha kgopelo ya wepe ka go DevTools


Ge o kopiša kgopelo yeo go cURL ka go kgetha kgetho go tšwa go thepo ya go klika ka gojeng, o tla hwetša selo sa go swana le se:

 curl 'https://kick.com/emotes/ninja' \ -H 'accept: application/json' \ -H 'accept-language: en-US,en;q=0.9' \ -H 'cache-control: max-age=0' \ -H 'cluster: v1' \ -H 'priority: u=1, i' \ -H 'referer: https://kick.com/ninja' \ -H 'sec-ch-ua: "Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"' \ -H 'sec-ch-ua-mobile: ?0' \ -H 'sec-ch-ua-platform: "Windows"' \ -H 'sec-fetch-dest: empty' \ -H 'sec-fetch-mode: cors' \ -H 'sec-fetch-site: same-origin' \ -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'

Ge e ba thulaganyo ye ya mantšu e swana le Setšhaena go wena, ga o tshwenyege—hlahloba matseno a rena a cURL . 📖


Ge e le gabotse, kgopelo ya “motho” e fo ba kgopelo ya HTTP ya ka mehla yeo e nago le dihlogo tše dingwe tše di oketšegilego (difolaga -H ). Ditshepedišo tša go lwantšha bot di hlahloba dihlogo tšeo go hwetša ge e ba kgopelo e tšwa go bot goba modiriši wa legit ka go sephephediši.


E nngwe ya difolaga tša bona tše dikgolo tše dikhwibidu? Hlogo ya Modiriši-Moemedi ! Hlahloba poso ya rena ka baemedi ba mosebediši ba kaone bakeng sa go gohla wepe . Hlogo yeo e bewa ka go itiragalela ke bareki ba HTTP eupša le ka mohla ga e swane gabotse le tšeo di dirišwago ke diphensele tša kgonthe.


Go se swane ka dihlogong tšeo? Ke giveaway e hwilego bakeng sa di-bot! 💀


Bakeng sa tshedimošo ye ntši, itahlela ka gare ga tlhahlo ya rena ka ga dihlogo tša HTTP bakeng sa go gohla wepe .

Go Beakanya Dihlogo tša HTTP Ga se Ka Mehla e le Tharollo

Bjale, o ka ba o nagana gore: “Go lokiša bonolo, ke tla fo dira dikgopelo tša go itiriša ka dihlogo tšeo!” Eupša swara motsotswana... 🚨


Tswela pele gomme o kitimiše kgopelo yeo ya cURL yeo o e kopišitšego go tšwa go DevTools:


Go pheta kgopelo ka go cURL


Makatša! Seva e go otla morago ka letlakala la “403 Access Denied” go tšwa go Cloudflare. Yep, le ka dihlogo tše di swanago le sephephediši, o sa dutše o ka thibelwa!


Go phatlola Cloudflare ga go bonolo gakaakaa, ka morago ga tšohle. 😅


Eupša ema, bjang?! Na yeo ga se kgopelo e swanago tlwaa yeo sephephediši se bego se tla e dira? 🤔 Go lokile, e sego ka mo go feletšego...

Senotlolo se Rapaletše Mohlaleng wa OSI

Boemong bja tirišo ya Mohlala wa OSI, sephephediši le dikgopelo tša cURL di a swana. Lega go le bjalo, go na le dillaga ka moka tšeo di lego ka tlase tšeo o ka bago o di hlokomologa. 🫠


Mohlala wa OSI


Tše dingwe tša dillaga tše gantši ke bona ba nago le molato ka morago ga diboloko tšeo tše di tshwenyago, gomme tshedimošo yeo e fetišetšwago moo ke yona yeo theknolotši ya maemo a godimo ya go lwantšha go gohla e lebišitšego tlhokomelo go yona. Dibata tša go senya ka bohwirihwiri! 👹


Ka mohlala, ba lebelela aterese ya gago ya IP , yeo e gogwago go tšwa go legato la Neteweke. O nyaka go phema dithibelo tšeo tša IP? Latela thuto ya rena ya kamoo o ka efogago thibelo ya IP ka baemedi !


Ka manyami, ga se seo feela! 😩


Ditshepedišo tša go lwantšha bot le tšona di ela hloko kudu kgatišo ya menwana ya TLS go tšwa go mokero wa kgokagano wo o šireletšegilego wo o hlomilwego magareng ga sengwalwa sa gago le seva ya wepe yeo e nepišitšwego go Llaga ya Dinamelwa.


Ke moo dilo di fapanago magareng ga sephephediši le kgopelo ya HTTP ya go itiriša! Cool, akere? Eupša bjale o swanetše go ba o ipotšiša gore seo se akaretša eng... 🔍

Kgatišo ya Menwana ya TLS ke eng?

Kgatišo ya menwana ya TLS ke sešupo sa moswananoši seo ditharollo tša kgahlanong le bot di se hlolago ge sephephediši sa gago goba moreki wa HTTP a hloma kgokagano ye e šireletšegilego go weposaete.


Kgatišo ya menwana ya TLS ya sephephediši sa Chrome go tšwa go browserleaks.com/tls


Go swana le mosaeno wa dijithale wo motšhene wa gago o o tlogelago nakong ya go swarana ka diatla ga TLS —“poledišano” ya mathomo magareng ga moreki le seva ya wepe go tšea sephetho sa kamoo ba tlago go šitiša le go šireletša ya data legatong la Dinamelwa. 🤝


Ge o dira kgopelo ya HTTP go saete, bokgobapuku bja TLS bja motheo ka go sephephediši sa gago goba moreki wa HTTP bo thoma tshepedišo ya go swarana ka diatla. Mekgatlo ye mebedi, moreki le seva, ba thoma go botšišana dilo tša go swana le, “Ke diprothokhole dife tša go šira tšeo o di thekgago?” le “Ke di- cipher dife tšeo re swanetšego go di diriša?” ❓


TLS go swarana ka diatla


Go ya ka dikarabo tša gago, seva e ka tseba ge e ba o le modiriši wa ka mehla go sephephediši goba sengwalwa sa go itiriša seo se šomišago moreki wa HTTP. Ka mantšu a mangwe, ge e ba dikarabo tša gago di sa swane le tša diphensele tše di tlwaelegilego, o ka thibelwa.


Akanya ka go swarana mo ka diatla bjalo ka ge batho ba babedi ba kopana:


Phetolelo ya motho : .

  • Server: "O bolela polelo efe?"

  • Browser: "Senyesemane, Sefora, Sechaena, le Sepanishe".

  • Server: "E kgolo, a re boledišaneng".


Bot phetolelo :

  • Server: "O bolela polelo efe?"

  • Bot: “Meow! 🐈” .

  • Server: “Tshwarelo, eupša ga o bonagale o le motho. E thibetšwe!"


Dikatse ga se batho. Goba na ke tšona?


TLS kgatišo ya menwana e šoma ka fase ga legato la Kopo ya mohlala wa OSI. Seo se ra gore o ka se no tweak kgatišo ya gago ya menwana ya TLS ka mela ye mmalwa ya khoutu. 🚫 💻 🚫


Go fora dikgatišo tša menwana tša TLS, o swanetše go fapantšha dipeakanyo tša TLS tša moreki wa gago wa HTTP le tša sephephediši sa nnete. Go swara? Ga se bareki ka moka ba HTTP bao ba go dumelelago go dira se!


Dammit!


Ke moo didirišwa tša go swana le cURL Impersonate di tsenago gona. Kago ye e kgethegilego ya cURL e hlamilwe go ekiša dipeakanyo tša TLS tša sephephediši, go go thuša go ekiša sephephediši go tšwa mothalong wa taelo!

Ke ka baka la’ng Sephephediši se se se nago Hlogo Le sona e ka no se be Tharollo

Bjale, o ka ba o nagana gore: “Go lokile, ge e ba bareki ba HTTP ba ntšha dikgatišo tša menwana tša TLS tšeo di ‘swanago le bot’, ke ka baka la’ng o sa diriše feela sephephediši bakeng sa go gohla?”


Boko bjo bogolo bja go šutha!


Kgopolo ke go šomiša sedirišwa sa go itirela sephephediši go sepetša mešomo ye e itšego letlakaleng la wepe leo le nago le sephephediši seo se se nago hlogo.


Go sa šetšwe gore sephephediši se šoma ka mokgwa wa hlogo goba wa go hloka hlogo, se sa šomiša makgobapuku a TLS ao a swanago a motheo. Seo ke ditaba tše dibotse ka gobane se ra gore diphensele tše di se nago dihlogo di tšweletša kgatišo ya menwana ya TLS yeo e "swanago le motho"! 🎉


Ke yona tharollo, akere? E sego ka nnete... 🫤


E sego ka mo go feletšego...


Here’s the kicker: di-browser tše di se nago dihlogo di tla le dipeakanyo tše dingwe tšeo di goeletšago ka gore, “Ke bot!” 🤖


Ruri, o ka leka go uta seo ka plugin ya go utswa go Puppeteer Extra , eupša ditshepedišo tše di tšwetšego pele tša go lwantšha bot di sa dutše di ka fofonela diphensele tše di se nago dihlogo ka ditlhohlo tša JavaScript le go gatiša menwana ya sephephediši.


Ka fao, ee, diphensele tše di se nago dihlogo ga se go tšhaba ga gago ga bošilo le go di-anti-bot. 😬

Tsela ya go tloga o Bypass TLS Fingerprinting

Go hlahloba kgatišo ya menwana ya TLS ke e nngwe feela ya maano a mantši a tšwelopele a tšhireletšo ya bot ao ditharollo tše di raraganego tša go lwantšha go gohla di a phethagatšago. 🛡️


Go tlogela e le ka kgonthe go opša ke hlogo ga go gatiša menwana ya TLS le diboloko tše dingwe tše di tenago, o nyaka tharollo ya go gohla ya maemo a latelago yeo e neago:

  • Dikgatišo tša menwana tša TLS tše di ka botwago

  • Go lekanyetša mo go sa lekanywego

  • CAPTCHA-rarolla mebuso e meholo

  • A haha-ka IP potoloho ka 72-limilione IP moemedi marangrang

  • Go leka gape ka go itiriša

  • Bokgoni bja go fetolela JavaScript


Tšeo ke tše dingwe tša dikarolo tše dintši tšeo di newago ke Bright Data’s Scraping Browser API —tharollo ya sephephediši sa leru yeo e nago le tšohle go e tee ya go gohla Wepesaete ka bokgoni le ka mo go atlegilego.


Setšweletšwa se se kopanya ka ntle le mathata le didirišwa tša gago tša go itirela tša sephephediši tšeo o di ratago, go akaretšwa Playwright, Selenium, le Puppeteer. ✨


E no beakanya logic ya go itirela, sepetša sengwalwa sa gago, gomme o tlogele API ya Scraping Browser e sware mošomo wa ditšhila. Lebala ka diboloko gomme o boele go seo se lego bohlokwa—go gohla ka lebelo le le feletšego! ⚡️


Ga go nyakege gore o dirišane le letlakala? Leka Senotlolo sa Wepesaete sa Bright Data !

Megopolo ya Mafelelo

Bjale o feleletša o tseba gore ke ka lebaka la eng go šoma maemong a tirišo go sa lekana go efoga diboloko ka moka. Bokgobapuku bja TLS bjo moreki wa gago wa HTTP a bo šomišago bo kgatha tema ye kgolo, le bjona. Kgatišo ya menwana ya TLS? Ga e sa le sephiri—o e phatlogile gomme o tseba go e rarolla.


O nyaka tsela ya go gohla ntle le go thula diboloko? Ga o lebelele kgole go feta Bright Data 's suite ya didirišwa! Eba le thomo ya go dira gore Inthanete e fihlelelege go bohle—gaešita le ka dikgopelo tša HTTP tše di itirišago. 🌐


Go fihla nakong e tlago, tšwela pele o tsena Wepesaeteng ka tokologo!

L O A D I N G
. . . comments & more!

About Author

Bright Data HackerNoon profile picture
Bright Data@brightdata
From data collection to ready-made datasets, Bright Data allows you to retrieve the data that matters.

HANG TAGS YA GO FEGA

ARTICLE YE E HLAHILWE KA...