❗ Հրաժարում պատասխանատվությունից . սա վեց մասից բաղկացած շարքի առաջին հոդվածն է առաջադեմ վեբ քերման վերաբերյալ : Ամբողջ սերիայի ընթացքում մենք կներկայացնենք այն ամենը, ինչ դուք պետք է իմանաք քերող հերոս դառնալու համար: Ստորև բերված է ընդհանուր ներածություն, բայց առաջիկա կտորները կուսումնասիրեն բարդ թեմաներ և լուծումներ, որոնք հեշտությամբ չեք գտնի որևէ այլ տեղ :
Web scraping-ը դարձել է ամենուր տարածված բառ՝ հրապարակումներ, ամսագրեր և տեխնոլոգիական բլոգեր: Բայց ինչի՞ մասին է խոսքը, և ինչո՞ւ է դա այդքան կարևոր: Եթե դուք այստեղ եք, հավանաբար արդեն գիտեք: Եվ, հավանաբար, տեղյակ եք նաև, որ ամենաբարձր մակարդակով տվյալների արդյունահանումը հեշտ գործ չէ, մանավանդ, որ կայքերը անընդհատ զարգանում են՝ դադարեցնելու սկրիպտները քերելը:
Մեր վեց մասից բաղկացած շարքի այս առաջին հոդվածում մենք կանդրադառնանք առաջադեմ վեբ քերծման բարձր մակարդակի մարտահրավերներին: Ձեռք բերեք ձեր ադիբուդի և եկեք սկսենք: 🍿
Web scraping-ը առցանց էջերից տվյալների արդյունահանման արվեստ է: Բայց ո՞վ է ցանկանում ձեռքով պատճենել-տեղադրել տեղեկատվությունը, երբ դուք կարող եք այն ավտոմատացնել: ⚡
Վեբ քերծվածքը սովորաբար կատարվում է հատուկ սկրիպտների միջոցով, որոնք կատարում են ծանրաբեռնվածություն՝ ավտոմատացնելով այն, ինչ դուք կարող եք անել ձեռքով. կարդալ, պատճենել և տեղադրել տեղեկատվություն մի էջից մյուսը, բայց թեթև արագությամբ և զանգվածային մասշտաբով:
Այլ կերպ ասած, վեբը քերծելը նման է տվյալների մշակման արդյունավետ բոտի տեղակայմանը ինտերնետի հսկայական տարածքներում՝ պեղելու և տեղեկատվական գանձը հետ բերելու համար: Զարմանալի չէ, որ scraping scripts կոչվում են նաև scraping bots : 🤖
Ահա, թե ինչպես է սովորաբար գործում առցանց տվյալների քերծում կատարող բոտը.
TL;DR : Այո, ոչ, միգուցե, դա կախված է:
Ձեզ պետք չէ Ph.D. Տվյալների գիտության կամ ֆինանսների մեջ այդ տվյալները ստանալու համար ամենաարժեքավոր ակտիվն է Երկրի վրա : Դա հրթիռային գիտություն չէ, և այնպիսի հսկաներ, ինչպիսիք են Google-ը, Amazon-ը, Netflix-ը և Tesla-ն, ապացուցում են դա. նրանց եկամուտը մեծապես կախված է օգտատերերի տվյալների վրա:
⚠️ Զգուշացում . Ժամանակակից աշխարհում, եթե ինչ-որ բան անվճար է, դա այն պատճառով, որ դուք եք ապրանքը: (Այո, դա վերաբերում է նույնիսկ էժան բնակելի վստահված անձանց 🕵️♂️)
Հիանալի… բայց ինչպե՞ս է դա վերաբերում վեբ քերծմանը: 🤔
Դե, ընկերությունների մեծ մասն ունի կայք, որը պարունակում և ցույց է տալիս շատ տվյալներ։ Թեև ձեռնարկությունների տվյալների մեծ մասը պահում, կառավարում և հավաքում է օգտատերերից, պահվում են կուլիսներում, դեռևս կա մի հատված, որը հանրությանը հասանելի է այս կայքերում:
Կոնկրետ օրինակի համար հաշվի առեք սոցիալական մեդիա հարթակներ, ինչպիսիք են Facebook-ը, LinkedIn-ը կամ Reddit-ը: Այս կայքերը հյուրընկալում են միլիոնավոր էջեր՝ հանրային տվյալների գանձարանով: Հիմնական բանն այն է, որ միայն այն պատճառով, որ տվյալները տեսանելի են կայքում, չի նշանակում, որ դրա հետևում գտնվող ընկերությունը ոգևորված է, որ դուք դրանք հավաքում եք Python-ի մի քանի տողով : 👨💻
Տվյալները հավասար են փողի, և ընկերությունները պարզապես չեն տալիս այն… 💸
Ահա, թե ինչու են այդքան շատ կայքեր զինված հակագրոհման միջոցներով , մարտահրավերներով և պաշտպանական համակարգերով: Ընկերությունները գիտեն, որ տվյալները արժեքավոր են, և նրանք դժվարացնում են սկրիպտների քերծումը դրանց մուտք գործելու համար:
Իմանալով, թե ինչու է առցանց տվյալների առբերումը բարդ և ինչպես լուծել ընդհանուր խնդիրները, հենց այն է, ինչի մասին է այս առաջադեմ վեբ քերման դասընթացը: 🎓
Գործերը սկսելու համար դիտեք այս հիանալի տեսանյութը ընկեր ծրագրային ապահովման ինժեներ Ֆորեսթ Նայթի կողմից.
Վեբ քերծումը բարդ աշխարհ է, և դրա խճճվածության մասին պատկերացում կազմելու համար եկեք ընդգծենք այն հիմնական հարցերը, որոնք դուք պետք է տաք գործընթացի ընթացքում՝ սկզբից մինչև վերջին քայլերը: 🔍
Մի անհանգստացեք, եթե մենք միայն մակերեսը քորում ենք այստեղ: Մենք պատրաստվում ենք ավելի խորանալ այս ասպեկտներից յուրաքանչյուրի մեջ ( ներառյալ թաքնված խորհուրդներն ու հնարքները, որոնց մասին շատերը չեն խոսում 🤫) այս շարքի առաջիկա հոդվածներում: Այնպես որ, մնացեք լարված! 👀
Չգիտե՞ք ինչպես ասել:
Եթե կայքը ստատիկ է, դա նշանակում է, որ տվյալներն արդեն ներդրված են սերվերի կողմից վերադարձված HTML-ում: Այսպիսով, HTTP հաճախորդի + HTML վերլուծիչի պարզ համադրությունն այն ամենն է, ինչ ձեզ հարկավոր է այն քերելու համար: 🧑💻
Բայց եթե տվյալները դինամիկ են, որոնք վերցվում են անմիջապես AJAX-ի միջոցով (ինչպես SPA- ում), ապա քերումը դառնում է միանգամայն այլ գնդակի խաղ: 🏀 Այս դեպքում ձեզ անհրաժեշտ կլինի բրաուզերի ավտոմատացում՝ էջը վերարտադրելու, դրա հետ փոխազդելու և այնուհետև անհրաժեշտ տվյալները հանելու համար:
Այսպիսով, դուք միայն պետք է պարզեք, արդյոք կայքը ստատիկ է, թե դինամիկ, և համապատասխանաբար ընտրեք ճիշտ քերիչ տեխնոլոգիա, ճիշտ է: Դե, ոչ այնքան արագ... 🤔
Քանի որ PWA-ները աճում են, հարցն այն է, որ կարո՞ղ եք դրանք քերել: 🤷♂️ Իսկ ի՞նչ կասեք AI-ի վրա հիմնված կայքերի մասին: Սրանք այն հարցերն են, որոնց պատասխանները պետք է: Որովհետև, հավատացեք ինձ, դա համացանցի ապագան է: 🌐
Ինչպես նշվեց ավելի վաղ, կայքը կարող է ունենալ որոշ լուրջ հակաբոտային պաշտպանություններ, ինչպիսիք են CAPTCHA-ները, JavaScript-ի մարտահրավերները , դիտարկիչի մատնահետքերը, TLS մատնահետքերը , սարքի մատնահետքերը, արագության սահմանափակումը և շատ ուրիշներ:
Ստացեք ավելի մանրամասն վեբինար ստորև.
Սրանք այն բաները չեն, որոնք դուք կարող եք շրջանցել միայն մի քանի կոդերի լուծմամբ: Նրանք պահանջում են մասնագիտացված լուծումներ և ռազմավարություններ, հատկապես հիմա, երբ AI-ն այս պաշտպանությունները տեղափոխել է հաջորդ մակարդակ:
Դրեք այլ տերմիններով; դուք չեք կարող ուղղակիորեն գնալ դեպի վերջնական բոս, ինչպես Breath of the Wild-ում (եթե, իհարկե, դուք Speedrunning-ի մասնագետ չեք 🕹️):
Լավ, ենթադրենք, որ դուք ստացել եք ճիշտ տեխնոլոգիական փաթեթ և հասկացել եք, թե ինչպես շրջանցել բոլոր հակաբոտային պաշտպանությունները: Բայց ահա սկզբնաղբյուրը՝ սպագետտի կոդով տվյալների արդյունահանման տրամաբանությունը գրելը բավարար չէ իրական աշխարհում քերելու համար:
Դուք արագ խնդիրներ կունենաք, և հավատացեք ինձ, ամեն ինչ կփչանա: 😬
Դուք պետք է մակարդակի բարձրացնեք ձեր սցենարը զուգահեռացման, առաջադեմ կրկնվող տրամաբանության, գրանցման և շատ այլ առաջադեմ ասպեկտների միջոցով: Այսպիսով, այո, ձեր քերելու տրամաբանությունը օպտիմալացնելը միանշանակ բան է:
Ինչպես արդեն անդրադարձել ենք, վստահված անձինք առանցքային են IP-ի արգելքներից խուսափելու , աշխարհասահմանափակ բովանդակություն մուտք գործելու, API-ի արագության սահմանները շրջանցելու , IP-ի ռոտացիայի իրականացման և շատ ավելին:
Բայց դիմացեք. ինչպե՞ս եք դրանք ճիշտ կառավարում: Ինչպե՞ս եք դրանք արդյունավետորեն պտտեցնում: Իսկ ի՞նչ է տեղի ունենում, երբ վստահված անձը ցանցից դուրս է գալիս, և ձեզ նոր է պետք:
Նախկինում դուք գրում էիք բարդ ալգորիթմներ՝ այդ խնդիրները ձեռքով լուծելու համար: Սակայն ժամանակակից պատասխանը AI-ն է: ✨
Դա ճիշտ է. AI-ի վրա հիմնված վստահված անձինք այժմ մոլեգնում են և լավ պատճառներով: Խելացի վստահված պրովայդերները կարող են ավտոմատ կերպով կարգավորել ամեն ինչ՝ ռոտացիայից մինչև փոխարինում, այնպես որ կարող եք կենտրոնանալ քերելու վրա՝ առանց դժվարության:
Դուք պետք է իմանաք, թե ինչպես վարվել AI-ի վրա հիմնված վստահված անձանց , եթե ցանկանում եք առաջ մնալ խաղից:
Հիանալի է, այնպես որ դուք ունեք մի սցենար, որն աշխատում է բոլոր բալոնների վրա, օպտիմիզացված և տեխնիկական տեսանկյունից ամուր: Բայց հիմա, ժամանակն է հաջորդ մեծ մարտահրավերի համար՝ կառավարել ձեր քերված տվյալները:
Կասկածներն են.
Ո՞ր ձևաչափն է այն պահելու լավագույն ձևաչափը: 📂
Որտեղ պահել այն: Ֆայլեր? Տվյալների բազա՞ Ամպային պահեստ. 🏙️
Որքա՞ն հաճախ հետո այն պետք է թարմացվի: Իսկ ինչո՞ւ։ ⏳
Որքա՞ն տեղ է պետք այն պահելու և մշակելու համար: 📦
Սրանք բոլորը կարևոր հարցեր են, և պատասխանները կախված են ձեր նախագծի կարիքներից: Անկախ նրանից, թե դուք աշխատում եք միանգամյա արդյունահանման, թե ընթացիկ տվյալների խողովակաշարի վրա, իմանալը, թե ինչպես պահել, առբերել և կառավարել ձեր տվյալները նույնքան կարևոր է, որքան դրանք ի սկզբանե քերելը:
Ձեր քերծված տվյալները ապահով կերպով պահվել են տվյալների բազայում: Մի քայլ ետ արա… դա նույնիսկ օրինական է: 😬
Եթե դուք հավատարիմ մնաք մի քանի հիմնական կանոններին, օրինակ՝ թիրախավորել միայն հանրությանը հասանելի էջերից ստացված տվյալները, դուք, հավանաբար, պարզ չեք: Էթիկա. Դա մեկ այլ շերտ է: Այստեղ կարևոր են այնպիսի բաներ, ինչպիսիք են կայքի robots.txt-ը հարգելը և խուսափելու ցանկացած գործողություն, որը կարող է ծանրաբեռնել սերվերը:
Սենյակում կա նաև փիղ, որին պետք է դիմեք… 🐘
Երբ արհեստական ինտելեկտի վրա աշխատող քերծվածքը դառնում է նոր նորմալ, նոր իրավական և էթիկական հարցեր են առաջանում: 🧠 Եվ դուք չեք ցանկանում, որ ձեզ անսպասելիորեն բռնեն կամ տաք ջրի մեջ հայտնվեք նոր կանոնակարգերի կամ արհեստական ինտելեկտի հետ կապված խնդիրների պատճառով:
Վեբ քերծվածքի յուրացումը պահանջում է կոդավորման հմտություններ, վեբ տեխնոլոգիաների առաջադեմ գիտելիքներ և ճիշտ ճարտարապետական որոշումներ կայացնելու փորձ: Ցավոք սրտի, դա միայն այսբերգի գագաթն է:
Ինչպես ավելի վաղ նշեցինք, քերծվածքն էլ ավելի բարդ է դարձել AI-ի վրա հիմնված հակաբոտային պաշտպանության շնորհիվ, որոնք արգելափակում են ձեր փորձերը: 🛑
Բայց մի քրտինքով այն! Ինչպես կտեսնեք այս վեց հոդվածից բաղկացած ճանապարհորդության ընթացքում, ամեն ինչ շատ ավելի հեշտ է դառնում, եթե ձեր կողքին լինի ճիշտ դաշնակիցը:
Ո՞րն է շուկայում վեբ քերելու գործիքների լավագույն մատակարարը : Պայծառ տվյալներ!
Bright Data-ը ձեզ ծածկում է քերծող API-ներով, առանց սերվերի գործառույթներով, վեբ ապակողպիչներով, CAPTCHA լուծիչներով, ամպային բրաուզերներով և արագ, հուսալի վստահված անձանց հսկայական ցանցով:
Պատրա՞ստ եք մակարդակի բարձրացնել ձեր քերիչ խաղը: Ստացեք ներածություն Bright Data-ի տվյալների հավաքագրման առաջարկներին ստորև ներկայացված տեսանյութում.
Այժմ դուք գիտեք, թե ինչու է վեբ քերծումը այդքան դժվար իրականացնել, և ինչ հարցերին պետք է պատասխանեք՝ առցանց տվյալների արդյունահանման նինջա դառնալու համար:
Մի մոռացեք, որ սա ընդամենը առաջին հոդվածն է մեր վեց մասից բաղկացած վեբ քերծվածքի մասին: Այսպիսով, շրջվեք, երբ մենք սուզվում ենք բեկումնային տեխնոլոգիաների, լուծումների, խորհուրդների, հնարքների և գործիքների մեջ:
Հաջորդ կանգառը. Ինչպես քերել ժամանակակից վեբ հավելվածները, ինչպիսիք են SPA-ները, PWA-ները և AI-ի վրա հիմնված դինամիկ կայքերը: Հետևե՛ք 🔔