❗   : Bu   birinchi maqola. Serial davomida biz qirilib ketadigan qahramon bo'lish uchun bilishingiz kerak bo'lgan hamma narsani ko'rib chiqamiz. Quyida umumiy intro bor, lekin keyingi qismlar   ! Rad etish ilg'or veb-qirqish bo'yicha olti qismli seriyadagi murakkab mavzular va yechimlarni o'rganadi, siz boshqa joyda osonlikcha topa olmaysiz  Veb qirqish hamma joyda - nashrlar, jurnallar va texnologik bloglarda tarqalgan so'zga aylandi. Ammo bu nima bilan bog'liq va nima uchun bu juda muhim? Agar siz shu yerda bo'lsangiz, ehtimol siz allaqachon bilasiz. Bundan tashqari, siz ma'lumotni eng yuqori darajada olish oson ish emasligini bilasiz, ayniqsa saytlar skriptlarni qirib tashlashni to'xtatish uchun doimiy ravishda rivojlanayotgani uchun.  Olti qismli seriyamizning ushbu birinchi maqolasida biz ilg'or veb-qirqishning yuqori darajadagi muammolarini hal qilamiz. Popkorningizni oling va boshlaylik! 🍿  Qisqacha veb-qirqish    - bu onlayn sahifalardan ma'lumotlarni olish san'ati. Ma'lumotni avtomatlashtirishingiz mumkin bo'lsa, kim qo'lda nusxa ko'chirishni xohlaydi? ⚡  Veb-skreping  Veb-qirqish odatda og'ir yuklarni ko'taradigan, qo'lda qiladigan ishni avtomatlashtiradigan maxsus skriptlar orqali amalga oshiriladi: ma'lumotlarni bir sahifadan ikkinchisiga o'qish, nusxalash va joylashtirish - lekin engil tezlikda va katta miqyosda!  Boshqacha qilib aytadigan bo'lsak, Internetni yo'q qilish ma'lumotlar xazinasini qazib olish va qaytarish uchun Internetning keng erlariga samarali ma'lumotlarni ishlab chiqaruvchi botni joylashtirishga o'xshaydi. Buning ajablanarli joyi yo'q, qirib tashlash skriptlari   deb ham ataladi! 🤖 qirqish botlari  Onlayn ma'lumotlarni o'chirishni amalga oshiradigan bot odatda qanday ishlaydi:    : Sizning botingiz (   deb ham ataladi) maqsadli saytdan ma'lum bir veb-sahifani so'raydi. So'rov yuborish skreper    : Server sahifa bilan bog'langan HTML hujjatini qaytaradi, keyin esa skript skripti tomonidan tahlil qilinadi. HTMLni tahlil qilish    : Skript   dan elementlarni tanlaydi va qiziqish tugunlaridan ma'lum ma'lumotlarni oladi. Ma'lumotni ajratib olish sahifaning DOM-    : Bot oldindan ishlangan maʼlumotlarni tuzilgan formatda (masalan, CSV yoki JSON faylida) saqlaydi yoki maʼlumotlar bazasiga yoki bulutli xotiraga yuboradi. Uni saqlash  Ajoyib eshitiladi…. Lekin kimdir buni qila oladimi?    : Ha, yo'q, ehtimol - bu bog'liq! TL; DR  Sizga fan doktori kerak emas. ma'lumotlar fani yoki moliya sohasida bu   . Bu raketa ilmi emas va Google, Amazon, Netflix va Tesla kabi gigantlar buni isbotlaydilar: ularning daromadi asosan foydalanuvchi ma'lumotlariga bog'liq.  ma'lumotlarni olish uchun Yerdagi eng qimmatli aktivdir  ⚠️   : Zamonaviy dunyoda biror narsa bepul bo'lsa, bu   mahsulot ekanligingiz uchundir! (Ha, bu hatto   ham tegishli 🕵️‍♂️) Ogohlantirish siz arzon proksi-serverlarga  Ajoyib… lekin bu veb-qirqish bilan qanday bog'liq? 🤔  Xo'sh, aksariyat kompaniyalar juda ko'p ma'lumotlarni o'z ichiga olgan va ko'rsatadigan veb-saytga ega. Korxonalarning aksariyati foydalanuvchilardan saqlaydigan, boshqaradigan va to‘playdigan ma’lumotlar sahna ortida saqlangan bo‘lsa-da, bu saytlarda hali ham ommaga ochiq bo‘lgan bo‘laklar mavjud.  Aniq misol uchun, Facebook, LinkedIn yoki Reddit kabi ijtimoiy media platformalarini ko'rib chiqing. Ushbu saytlar ommaviy ma'lumotlar xazinasiga ega millionlab sahifalarni o'z ichiga oladi. Eng asosiysi shundaki, ma'lumotlar saytda   uning ortida turgan kompaniya   uni to'plaganingizdan xursand ekanligini anglatmaydi! 👨‍💻 ko'rinib turishi Python-ning bir necha qatorlari bilan  Ma'lumotlar pulga teng va kompaniyalar uni shunchaki berib qo'yishmaydi... 💸  Mana nima uchun juda ko'p saytlar   , qiyinchiliklar va himoya tizimlari bilan qurollangan. Kompaniyalar ma'lumotlar qimmatli ekanligini bilishadi va ularga kirish uchun skriptlarni o'chirishni qiyinlashtirmoqdalar! qirib tashlashga qarshi choralar  Xo'sh, nega bunchalik qiyin?  Onlayn ma'lumotlarni olish nima uchun qiyin ekanligini va umumiy muammolarni qanday hal qilishni o'rganish - bu ilg'or veb-qirqish kursi aynan nima haqida! 🎓  Ishni boshlash uchun dastur muhandisi   ushbu ajoyib videosini ko'ring: Forrest Knightning   https://www.youtube.com/watch?v=vxk6YPRVg_o&embedable=true  Veb-skreping - bu murakkab dunyo va sizga uning murakkabligi haqida tushuncha berish uchun, keling, jarayon davomida so'rashingiz kerak bo'lgan asosiy savollarni ta'kidlab o'tamiz - eng boshidan to yakuniy bosqichlargacha. 🔍  Agar biz bu erda faqat sirtni tirnasak, tashvishlanmang! Biz ushbu turkumning keyingi maqolalarida ushbu jihatlarning har birini (   ) chuqurroq o‘rganamiz. Shunday ekan, bizni kuzatib boring! 👀 shu jumladan, ko‘pchilik gapirmaydigan yashirin maslahatlar va fokuslar  Sizning maqsadli saytingiz statikmi yoki dinamikmi?  Qanday aytishni bilmayapsizmi?  Agar sayt statik bo'lsa, bu ma'lumotlar server tomonidan qaytarilgan HTML-ga allaqachon kiritilganligini anglatadi. Shunday qilib, HTTP mijozi + HTML tahlilchisining oddiy kombinatsiyasi uni qirib tashlash uchun kerak bo'lgan narsadir. 🧑‍💻  Ammo agar ma'lumotlar dinamik bo'lsa, AJAX orqali tezda olinsa (masalan,   ), qirib tashlash butunlay boshqacha to'p o'yiniga aylanadi. 🏀 Bunday holda, sahifani ko'rsatish, u bilan o'zaro aloqada bo'lish va keyin kerakli ma'lumotlarni chiqarib olish uchun brauzerni avtomatlashtirish kerak bo'ladi. SPAda  Shunday qilib, siz faqat sayt statik yoki dinamik ekanligini aniqlashingiz va shunga mos ravishda to'g'ri qirqish texnologiyasini tanlashingiz kerak, to'g'rimi? Mayli, unchalik tez emas... 🤔    ko'tarilayotganda, savol tug'iladi - ularni qirib tashlashingiz mumkinmi? 🤷‍♂️ Va sun'iy intellektga asoslangan veb-saytlar haqida nima deyish mumkin? Bu sizga javob kerak bo'lgan savollar. Chunki menga ishoning, bu Internetning kelajagi! 🌐 PWA  Sayt qanday ma'lumotlarni himoya qilish texnologiyasidan foydalanmoqda? Agar mavjud bo'lsa?  Yuqorida aytib o'tilganidek, saytda CAPTCHA,   , brauzer barmoq izlari,   , qurilma barmoq izlari, tezlikni cheklash va boshqalar kabi jiddiy anti-bot himoyasi mavjud bo'lishi mumkin. JavaScript muammolari TLS barmoq izlari  Quyidagi vebinarda batafsil ma'lumot oling:   https://www.youtube.com/watch?v=4y-i5XKxa7I&embedable=true  Bu bir nechta kodli vaqtinchalik echimlar bilan chetlab o'tadigan narsalar emas. Ular maxsus echimlar va strategiyalarni talab qiladi, ayniqsa AI bu himoyalarni keyingi bosqichga olib chiqdi.   Boshqa so'zlar bilan aytganda;   kabi to'g'ridan-to'g'ri yakuniy bossga bora olmaysiz (agar, albatta, siz speedrunning pro 🕹️ bo'lmasangiz). "Yovvoyi nafasi" filmidagi  Scraping mantiqimni optimallashtirishim kerakmi? Va qanday qilib?  Xo'sh, sizda to'g'ri texnologik stack bor va barcha anti-bot himoyasini qanday chetlab o'tishni tushunib oldingiz deb o'ylang. Ammo mana bu ish - spagetti kodi bilan ma'lumotlarni olish mantiqini yozish haqiqiy dunyoni qirqish uchun etarli emas.  Siz tezda muammolarga duch kelasiz va menga ishoning, hamma narsa buziladi. 😬  Skriptingizni parallellashtirish, kengaytirilgan qayta urinish mantig'i, jurnalni yozish va boshqa ko'plab ilg'or jihatlar bilan darajalashingiz kerak. Shunday qilib, ha, qirqish mantiqini optimallashtirish, albatta, bir narsadir!  Proksi-serverlar bilan qanday ishlashim kerak?  Yuqorida aytib o'tganimizdek, proksi-serverlar   , geo-cheklangan kontentga kirish,   , IP aylanishini amalga oshirish va boshqalar uchun kalit hisoblanadi. IP taqiqlarini oldini olish API tezligi chegaralarini chetlab o'tish  Lekin turing - ularni qanday qilib to'g'ri boshqarish kerak? Qanday qilib ularni samarali aylantirasiz? Proksi-server oflayn rejimga o'tsa va sizga yangisi kerak bo'lganda nima bo'ladi?  Ilgari siz ushbu muammolarni qo'lda hal qilish uchun murakkab algoritmlarni yozardingiz. Ammo zamonaviy javob - bu AI. ✨   To'g'ri — sun'iy ongga asoslangan proksi-serverlar hozir juda mashhur va buning yaxshi sababi bor. Aqlli proksi-provayderlar avtomatik ravishda aylantirishdan tortib almashtirishgacha bo'lgan hamma narsani boshqarishi mumkin, shuning uchun siz muammosiz qirqishga e'tibor qaratishingiz mumkin.  Agar siz o'yindan oldinda bo'lishni istasangiz   qanday foydalanishni bilishingiz kerak! , sun'iy intellektga asoslangan proksi-serverlardan  O'chirilgan ma'lumotlar bilan qanday ishlash kerak?  Ajoyib, shuning uchun sizda barcha tsilindrlarda ishlaydigan, optimallashtirilgan va texnik nuqtai nazardan mustahkam skript mavjud. Ammo endi navbatdagi katta muammoni hal qilish vaqti keldi: o'chirilgan ma'lumotlaringiz bilan ishlash.  Shubhalar quyidagilardir:  Uni saqlash uchun eng yaxshi format qaysi? 📂  Uni qayerda saqlash kerak? Fayllar? Ma'lumotlar bazasi? Bulutli saqlashmi? 🏙️  Qanchalik tez-tez yangilanishi kerak? Va nima uchun? ⏳  Uni saqlash va qayta ishlash uchun qancha joy kerak? 📦  Bularning barchasi muhim savollar va javoblar loyihangiz ehtiyojlariga bog'liq. Bir martalik qazib olish yoki davom etayotgan ma'lumotlar quvuri ustida ishlayapsizmi, ma'lumotlaringizni qanday saqlash, olish va boshqarishni bilish, birinchi navbatda, ularni qirqish kabi juda muhimdir.  Lekin kuting... Siz qilgan ish birinchi navbatda qonuniy va axloqiy edimi?  Siz o'chirilgan ma'lumotlaringizni ma'lumotlar bazasida xavfsiz tarzda saqladingiz. Orqaga bir qadam tashlang... bu qonuniymi? 😬  Agar siz bir nechta asosiy qoidalarga rioya qilsangiz, masalan, faqat ochiq sahifalardagi ma'lumotlarni maqsad qilib qo'ysangiz, ehtimol siz aniq bo'lasiz. Etika? Bu boshqa qatlam. Bu erda   kabi narsalar muhim ahamiyatga ega. saytning robots.txt faylini o'chirish va serverni ortiqcha yuklashi mumkin bo'lgan har qanday harakatlardan qochish uchun hurmat qilish  Xonada murojaat qilish uchun fil ham bor... 🐘    yangi odatiy holga aylanganligi sababli, yangi huquqiy va axloqiy savollar paydo bo'ladi. 🧠 Va siz yangi qoidalar yoki sun'iy intellektga oid muammolar tufayli ehtiyotsizlikka tushib qolishni yoki issiq suvga tushishni xohlamaysiz. AI bilan ishlaydigan qirqish  Kengaytirilgan veb-qirqishmi? Yo'q, sizga faqat to'g'ri ittifoqchi kerak  Veb-skrepingni o'zlashtirish kodlash ko'nikmalarini, veb-texnologiyalar bo'yicha ilg'or bilimlarni va to'g'ri arxitektura qarorlarini qabul qilish tajribasini talab qiladi. Afsuski, bu aysbergning faqat uchi.  Yuqorida aytib o'tganimizdek, sizning urinishlaringizni to'sib qo'yadigan AI tomonidan boshqariladigan anti-bot himoyasi tufayli qirib tashlash yanada murakkablashdi. 🛑  Lekin zerikmang! Olti maqoladan iborat ushbu sayohat davomida ko'rib turganingizdek, yoningizda to'g'ri ittifoqchi bo'lsa, hamma narsa ancha osonlashadi.    qaysi? Yorqin ma'lumotlar! Bozordagi eng yaxshi veb-qirqish vositasi provayderi  Yorqin ma'lumotlar sizga API-lar, serversiz funktsiyalar, veb-ochishlar, CAPTCHA hal qiluvchilar, bulutli brauzerlar va tezkor, ishonchli proksi-serverlarning katta tarmog'i bilan qoplangan.  Skraping o'yiningizni yuqori darajaga ko'tarishga tayyormisiz? Quyidagi videoda Bright Data   bilan tanishing: maʼlumotlar yigʻish takliflari   https://www.youtube.com/watch?v=AGaiVApKfmc&embedable=true  Yakuniy fikrlar  Endi siz nima uchun veb-qirqishni amalga oshirish juda qiyinligini va onlayn ma'lumot olish ninjasi bo'lish uchun qanday savollarga javob berishingiz kerakligini bilasiz 🥷.  Shuni unutmangki, bu ilg'or veb-qirqish bo'yicha olti qismli seriyamizdagi birinchi maqola! Shunday qilib, biz ilg'or texnologiyalar, yechimlar, maslahatlar, fokuslar va vositalarga sho'ng'ishimiz bilan bog'lang.  Keyingi bekat? SPA, PWA va AI tomonidan boshqariladigan dinamik saytlar kabi zamonaviy veb-ilovalarni qanday qirib tashlash mumkin! Kuzatib qoling🔔

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

2022 - HackerNoon Contributor of the Year - Amazon

Request Your Own Data

Nominated for 2022 - HackerNoon Contributor of the Year - Amazon

Ushbu audio hikoyaning asl tilida yaratilgan!

Kengaytirilgan veb-qismlarni navigatsiya qilish: tushunchalar va taxminlar

About Author

IZOHLAR

TEGI QILISH

USHBU MAQOLA TAQDIM ETILGAN

Related Stories

Meet Uzi World Digital, Winner of Startups of the year 2024 in Kolkata, West Bengal, India

Meet UzairaAdvisory, Startups of The Year 2024 Nominee

Meet UzairaAdvisory, Winner of Startups of The Year 2024 in Business

Meet Uzi World Digital, Winner of Startups of the year 2024 in Kolkata, West Bengal, India

Meet UzairaAdvisory, Startups of The Year 2024 Nominee

Meet UzairaAdvisory, Winner of Startups of The Year 2024 in Business

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps