❗   . սա   : Ամբողջ սերիայի ընթացքում մենք կներկայացնենք այն ամենը, ինչ դուք պետք է իմանաք քերող հերոս դառնալու համար: Ստորև բերված է ընդհանուր ներածություն, բայց առաջիկա կտորները կուսումնասիրեն   : Հրաժարում պատասխանատվությունից վեց մասից բաղկացած շարքի առաջին հոդվածն է առաջադեմ վեբ քերման վերաբերյալ բարդ թեմաներ և լուծումներ, որոնք հեշտությամբ չեք գտնի որևէ այլ տեղ  Web scraping-ը դարձել է ամենուր տարածված բառ՝ հրապարակումներ, ամսագրեր և տեխնոլոգիական բլոգեր: Բայց ինչի՞ մասին է խոսքը, և ինչո՞ւ է դա այդքան կարևոր: Եթե դուք այստեղ եք, հավանաբար արդեն գիտեք: Եվ, հավանաբար, տեղյակ եք նաև, որ ամենաբարձր մակարդակով տվյալների արդյունահանումը հեշտ գործ չէ, մանավանդ, որ կայքերը անընդհատ զարգանում են՝ դադարեցնելու սկրիպտները քերելը:  Մեր վեց մասից բաղկացած շարքի այս առաջին հոդվածում մենք կանդրադառնանք առաջադեմ վեբ քերծման բարձր մակարդակի մարտահրավերներին: Ձեռք բերեք ձեր ադիբուդի և եկեք սկսենք: 🍿  Համառոտ վեբ գրություն    առցանց էջերից տվյալների արդյունահանման արվեստ է: Բայց ո՞վ է ցանկանում ձեռքով պատճենել-տեղադրել տեղեկատվությունը, երբ դուք կարող եք այն ավտոմատացնել: ⚡  Web scraping-ը  Վեբ քերծվածքը սովորաբար կատարվում է հատուկ սկրիպտների միջոցով, որոնք կատարում են ծանրաբեռնվածություն՝ ավտոմատացնելով այն, ինչ դուք կարող եք անել ձեռքով. կարդալ, պատճենել և տեղադրել տեղեկատվություն մի էջից մյուսը, բայց թեթև արագությամբ և զանգվածային մասշտաբով:  Այլ կերպ ասած, վեբը քերծելը նման է տվյալների մշակման արդյունավետ բոտի տեղակայմանը ինտերնետի հսկայական տարածքներում՝ պեղելու և տեղեկատվական գանձը հետ բերելու համար: Զարմանալի չէ, որ scraping scripts կոչվում են նաև   : 🤖 scraping bots  Ահա, թե ինչպես է սովորաբար գործում առցանց տվյալների քերծում կատարող բոտը.    . Ձեր բոտը, որը նաև հայտնի է որպես   , պահանջում է հատուկ վեբ էջ թիրախային կայքից: Ուղարկեք հարցում scraper    . սերվերը վերադարձնում է էջի հետ կապված HTML փաստաթուղթը, որն այնուհետև վերլուծվում է քերման սցենարով: Վերլուծել HTML-ը    . սցենարը ընտրում է տարրեր   ից և հատուկ տվյալներ է հանում հետաքրքրող հանգույցներից: Քաղեք տեղեկատվություն էջի DOM-    . բոտը պահպանում է նախապես մշակված տվյալները կառուցվածքային ձևաչափով, օրինակ՝ CSV կամ JSON ֆայլ, կամ ուղարկում է տվյալների բազա կամ ամպային պահեստ: Պահպանեք այն  Թույն է հնչում…. Բայց կարո՞ղ է որևէ մեկը դա անել:    : Այո, ոչ, միգուցե, դա կախված է: TL;DR  Ձեզ պետք չէ Ph.D. Տվյալների գիտության կամ ֆինանսների մեջ այդ   : Դա հրթիռային գիտություն չէ, և այնպիսի հսկաներ, ինչպիսիք են Google-ը, Amazon-ը, Netflix-ը և Tesla-ն, ապացուցում են դա. նրանց եկամուտը մեծապես կախված է օգտատերերի տվյալների վրա:  տվյալները ստանալու համար ամենաարժեքավոր ակտիվն է Երկրի վրա  ⚠️   . Ժամանակակից աշխարհում, եթե ինչ-որ բան անվճար է, դա այն պատճառով, որ   եք ապրանքը: (Այո, դա վերաբերում է նույնիսկ   🕵️‍♂️) Զգուշացում դուք էժան բնակելի վստահված անձանց  Հիանալի… բայց ինչպե՞ս է դա վերաբերում վեբ քերծմանը: 🤔  Դե, ընկերությունների մեծ մասն ունի կայք, որը պարունակում և ցույց է տալիս շատ տվյալներ։ Թեև ձեռնարկությունների տվյալների մեծ մասը պահում, կառավարում և հավաքում է օգտատերերից, պահվում են կուլիսներում, դեռևս կա մի հատված, որը հանրությանը հասանելի է այս կայքերում:  Կոնկրետ օրինակի համար հաշվի առեք սոցիալական մեդիա հարթակներ, ինչպիսիք են Facebook-ը, LinkedIn-ը կամ Reddit-ը: Այս կայքերը հյուրընկալում են միլիոնավոր էջեր՝ հանրային տվյալների գանձարանով: Հիմնական բանն այն է, որ միայն այն պատճառով, որ տվյալները   են կայքում, չի նշանակում, որ դրա հետևում գտնվող ընկերությունը ոգևորված է, որ դուք դրանք հավաքում եք   : 👨‍💻 տեսանելի Python-ի մի քանի տողով  Տվյալները հավասար են փողի, և ընկերությունները պարզապես չեն տալիս այն… 💸  Ահա, թե ինչու են այդքան շատ կայքեր զինված   , մարտահրավերներով և պաշտպանական համակարգերով: Ընկերությունները գիտեն, որ տվյալները արժեքավոր են, և նրանք դժվարացնում են սկրիպտների քերծումը դրանց մուտք գործելու համար: հակագրոհման միջոցներով  Այսպիսով, ինչու է դա այդքան դժվար:  Իմանալով, թե ինչու է առցանց տվյալների առբերումը բարդ և ինչպես լուծել ընդհանուր խնդիրները, հենց այն է, ինչի մասին է այս առաջադեմ վեբ քերման դասընթացը: 🎓  Գործերը սկսելու համար դիտեք այս հիանալի տեսանյութը ընկեր ծրագրային ապահովման ինժեներ   կողմից. Ֆորեսթ Նայթի   https://www.youtube.com/watch?v=vxk6YPRVg_o&embedable=true  Վեբ քերծումը բարդ աշխարհ է, և դրա խճճվածության մասին պատկերացում կազմելու համար եկեք ընդգծենք այն հիմնական հարցերը, որոնք դուք պետք է տաք գործընթացի ընթացքում՝ սկզբից մինչև վերջին քայլերը: 🔍  Մի անհանգստացեք, եթե մենք միայն մակերեսը քորում ենք այստեղ: Մենք պատրաստվում ենք ավելի խորանալ այս ասպեկտներից յուրաքանչյուրի մեջ (   🤫) այս շարքի առաջիկա հոդվածներում: Այնպես որ, մնացեք լարված! 👀 ներառյալ թաքնված խորհուրդներն ու հնարքները, որոնց մասին շատերը չեն խոսում  Ձեր թիրախային կայքը ստատիկ կամ դինամիկ է:  Չգիտե՞ք ինչպես ասել:  Եթե կայքը ստատիկ է, դա նշանակում է, որ տվյալներն արդեն ներդրված են սերվերի կողմից վերադարձված HTML-ում: Այսպիսով, HTTP հաճախորդի + HTML վերլուծիչի պարզ համադրությունն այն ամենն է, ինչ ձեզ հարկավոր է այն քերելու համար: 🧑‍💻  Բայց եթե տվյալները դինամիկ են, որոնք վերցվում են անմիջապես AJAX-ի միջոցով (ինչպես   ում), ապա քերումը դառնում է միանգամայն այլ գնդակի խաղ: 🏀 Այս դեպքում ձեզ անհրաժեշտ կլինի բրաուզերի ավտոմատացում՝ էջը վերարտադրելու, դրա հետ փոխազդելու և այնուհետև անհրաժեշտ տվյալները հանելու համար: SPA-  Այսպիսով, դուք միայն պետք է պարզեք, արդյոք կայքը ստատիկ է, թե դինամիկ, և համապատասխանաբար ընտրեք ճիշտ քերիչ տեխնոլոգիա, ճիշտ է: Դե, ոչ այնքան արագ... 🤔  Քանի որ   աճում են, հարցն այն է, որ կարո՞ղ եք դրանք քերել: 🤷‍♂️ Իսկ ի՞նչ կասեք AI-ի վրա հիմնված կայքերի մասին: Սրանք այն հարցերն են, որոնց պատասխանները պետք է: Որովհետև, հավատացեք ինձ, դա համացանցի ապագան է: 🌐 PWA-ները  Տվյալների պաշտպանության ի՞նչ տեխնիկա է օգտագործում կայքը: Եթե կա:  Ինչպես նշվեց ավելի վաղ, կայքը կարող է ունենալ որոշ լուրջ հակաբոտային պաշտպանություններ, ինչպիսիք են CAPTCHA-ները,   , դիտարկիչի մատնահետքերը,   , սարքի մատնահետքերը, արագության սահմանափակումը և շատ ուրիշներ: JavaScript-ի մարտահրավերները TLS մատնահետքերը  Ստացեք ավելի մանրամասն վեբինար ստորև.   https://www.youtube.com/watch?v=4y-i5XKxa7I&embedable=true  Սրանք այն բաները չեն, որոնք դուք կարող եք շրջանցել միայն մի քանի կոդերի լուծմամբ: Նրանք պահանջում են մասնագիտացված լուծումներ և ռազմավարություններ, հատկապես հիմա, երբ AI-ն այս պաշտպանությունները տեղափոխել է հաջորդ մակարդակ:   Դրեք այլ տերմիններով; դուք չեք կարող ուղղակիորեն գնալ դեպի վերջնական բոս, ինչպես   (եթե, իհարկե, դուք Speedrunning-ի մասնագետ չեք 🕹️): Breath of the Wild-ում  Արդյո՞ք ես պետք է օպտիմիզացնեմ իմ քերծման տրամաբանությունը: Իսկ ինչպե՞ս:  Լավ, ենթադրենք, որ դուք ստացել եք ճիշտ տեխնոլոգիական փաթեթ և հասկացել եք, թե ինչպես շրջանցել բոլոր հակաբոտային պաշտպանությունները: Բայց ահա սկզբնաղբյուրը՝ սպագետտի կոդով տվյալների արդյունահանման տրամաբանությունը գրելը բավարար չէ իրական աշխարհում քերելու համար:  Դուք արագ խնդիրներ կունենաք, և հավատացեք ինձ, ամեն ինչ կփչանա: 😬  Դուք պետք է մակարդակի բարձրացնեք ձեր սցենարը զուգահեռացման, առաջադեմ կրկնվող տրամաբանության, գրանցման և շատ այլ առաջադեմ ասպեկտների միջոցով: Այսպիսով, այո, ձեր քերելու տրամաբանությունը օպտիմալացնելը միանշանակ բան է:  Ինչպե՞ս պետք է վարվեմ վստահված անձանց հետ:  Ինչպես արդեն անդրադարձել ենք, վստահված անձինք առանցքային են   , աշխարհասահմանափակ բովանդակություն մուտք գործելու,   , IP-ի ռոտացիայի իրականացման և շատ ավելին: IP-ի արգելքներից խուսափելու API-ի արագության սահմանները շրջանցելու  Բայց դիմացեք. ինչպե՞ս եք դրանք ճիշտ կառավարում: Ինչպե՞ս եք դրանք արդյունավետորեն պտտեցնում: Իսկ ի՞նչ է տեղի ունենում, երբ վստահված անձը ցանցից դուրս է գալիս, և ձեզ նոր է պետք:  Նախկինում դուք գրում էիք բարդ ալգորիթմներ՝ այդ խնդիրները ձեռքով լուծելու համար: Սակայն ժամանակակից պատասխանը AI-ն է: ✨   Դա ճիշտ է. AI-ի վրա հիմնված վստահված անձինք այժմ մոլեգնում են և լավ պատճառներով: Խելացի վստահված պրովայդերները կարող են ավտոմատ կերպով կարգավորել ամեն ինչ՝ ռոտացիայից մինչև փոխարինում, այնպես որ կարող եք կենտրոնանալ քերելու վրա՝ առանց դժվարության:  Դուք պետք է իմանաք, թե ինչպես վարվել   , եթե ցանկանում եք առաջ մնալ խաղից: AI-ի վրա հիմնված վստահված անձանց  Ինչպե՞ս կարգավորել քերծված տվյալները:  Հիանալի է, այնպես որ դուք ունեք մի սցենար, որն աշխատում է բոլոր բալոնների վրա, օպտիմիզացված և տեխնիկական տեսանկյունից ամուր: Բայց հիմա, ժամանակն է հաջորդ մեծ մարտահրավերի համար՝ կառավարել ձեր քերված տվյալները:  Կասկածներն են.  Ո՞ր ձևաչափն է այն պահելու լավագույն ձևաչափը: 📂  Որտեղ պահել այն: Ֆայլեր? Տվյալների բազա՞ Ամպային պահեստ. 🏙️  Որքա՞ն հաճախ հետո այն պետք է թարմացվի: Իսկ ինչո՞ւ։ ⏳  Որքա՞ն տեղ է պետք այն պահելու և մշակելու համար: 📦  Սրանք բոլորը կարևոր հարցեր են, և պատասխանները կախված են ձեր նախագծի կարիքներից: Անկախ նրանից, թե դուք աշխատում եք միանգամյա արդյունահանման, թե ընթացիկ տվյալների խողովակաշարի վրա, իմանալը, թե ինչպես պահել, առբերել և կառավարել ձեր տվյալները նույնքան կարևոր է, որքան դրանք ի սկզբանե քերելը:  Բայց սպասեք... Ձեր արածն ի սկզբանե օրինական և էթիկա՞ն էր:  Ձեր քերծված տվյալները ապահով կերպով պահվել են տվյալների բազայում: Մի քայլ ետ արա… դա նույնիսկ օրինական է: 😬  Եթե դուք հավատարիմ մնաք մի քանի հիմնական կանոններին, օրինակ՝ թիրախավորել միայն հանրությանը հասանելի էջերից ստացված տվյալները, դուք, հավանաբար, պարզ չեք: Էթիկա. Դա մեկ այլ շերտ է: Այստեղ կարևոր են այնպիսի բաներ, ինչպիսիք են   և խուսափելու ցանկացած գործողություն, որը կարող է ծանրաբեռնել սերվերը: կայքի robots.txt-ը հարգելը  Սենյակում կա նաև փիղ, որին պետք է դիմեք… 🐘  Երբ   դառնում է նոր նորմալ, նոր իրավական և էթիկական հարցեր են առաջանում: 🧠 Եվ դուք չեք ցանկանում, որ ձեզ անսպասելիորեն բռնեն կամ տաք ջրի մեջ հայտնվեք նոր կանոնակարգերի կամ արհեստական ինտելեկտի հետ կապված խնդիրների պատճառով: արհեստական ինտելեկտի վրա աշխատող քերծվածքը  Ընդլայնված Web Scraping? Նահ, ձեզ պարզապես անհրաժեշտ է ճիշտ դաշնակիցը  Վեբ քերծվածքի յուրացումը պահանջում է կոդավորման հմտություններ, վեբ տեխնոլոգիաների առաջադեմ գիտելիքներ և ճիշտ ճարտարապետական որոշումներ կայացնելու փորձ: Ցավոք սրտի, դա միայն այսբերգի գագաթն է:  Ինչպես ավելի վաղ նշեցինք, քերծվածքն էլ ավելի բարդ է դարձել AI-ի վրա հիմնված հակաբոտային պաշտպանության շնորհիվ, որոնք արգելափակում են ձեր փորձերը: 🛑  Բայց մի քրտինքով այն! Ինչպես կտեսնեք այս վեց հոդվածից բաղկացած ճանապարհորդության ընթացքում, ամեն ինչ շատ ավելի հեշտ է դառնում, եթե ձեր կողքին լինի ճիշտ դաշնակիցը:  Ո՞րն է   : Պայծառ տվյալներ! շուկայում վեբ քերելու գործիքների լավագույն մատակարարը  Bright Data-ը ձեզ ծածկում է քերծող API-ներով, առանց սերվերի գործառույթներով, վեբ ապակողպիչներով, CAPTCHA լուծիչներով, ամպային բրաուզերներով և արագ, հուսալի վստահված անձանց հսկայական ցանցով:  Պատրա՞ստ եք մակարդակի բարձրացնել ձեր քերիչ խաղը: Ստացեք ներածություն Bright Data-ի   ստորև ներկայացված տեսանյութում. տվյալների հավաքագրման առաջարկներին   https://www.youtube.com/watch?v=AGaiVApKfmc&embedable=true  Վերջնական մտքեր  Այժմ դուք գիտեք, թե ինչու է վեբ քերծումը այդքան դժվար իրականացնել, և ինչ հարցերին պետք է պատասխանեք՝ առցանց տվյալների արդյունահանման նինջա դառնալու համար:  Մի մոռացեք, որ սա ընդամենը առաջին հոդվածն է մեր վեց մասից բաղկացած վեբ քերծվածքի մասին: Այսպիսով, շրջվեք, երբ մենք սուզվում ենք բեկումնային տեխնոլոգիաների, լուծումների, խորհուրդների, հնարքների և գործիքների մեջ:  Հաջորդ կանգառը. Ինչպես քերել ժամանակակից վեբ հավելվածները, ինչպիսիք են SPA-ները, PWA-ները և AI-ի վրա հիմնված դինամիկ կայքերը: Հետևե՛ք 🔔

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

2022 - HackerNoon Contributor of the Year - Amazon

Request Your Own Data

Nominated for 2022 - HackerNoon Contributor of the Year - Amazon

Այս աուդիոն պատրաստվել է պատմության բնօրինակ լեզվով:

Նավարկություն առաջադեմ վեբ գրություն. պատկերացումներ և ակնկալիքներ

About Author

ՄԵԿՆԱԲԱՆՈՒԹՅՈՒՆՆԵՐ

ԿԱԽՎԵԼ ՏԵԳՍԵՐ

ԱՅՍ ՀՈԴՎԱԾԸ ՆԵՐԿԱՅԱՑՎԵԼ Է Մ

Related Stories

HyperCycle Announces Strategic Split into Two Distinct Operations

HyveDA Secures $50 Million in Pre-Deposits After Symbiotic Mainnet Launch

Toufi Saliba: The Architect Behind HyperCycle's Decentralized Network of AI

What is Hyperthreading and How Do You Enable It?

HyperCycle Announces Strategic Split into Two Distinct Operations

HyveDA Secures $50 Million in Pre-Deposits After Symbiotic Mainnet Launch

Toufi Saliba: The Architect Behind HyperCycle's Decentralized Network of AI

What is Hyperthreading and How Do You Enable It?

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps