Някога чудили ли сте се как софтуерът се представя на сървърите? Въведете заглавката User-Agent
- цифров идентификатор, който разкрива важни подробности за клиента, който прави HTTP заявка. Както предстои да научите, настройването на потребителски агент за скрапинг е задължително!
В тази статия ще разбием какво е потребителски агент, защо е жизненоважен за уеб скрапинг и как въртенето му може да ви помогне да избегнете откриване. Готови ли сте да се потопите? да тръгваме!
User-Agent
е популярна HTTP заглавка , автоматично зададена от приложения и библиотеки, когато се правят HTTP заявки. Той съдържа низ, който разкрива информацията за вашето приложение, операционна система, доставчик и версията на софтуера, който прави заявката.
Този низ е известен също като потребителски агент или UA . Но защо името „Потребителски агент“? просто! На ИТ език потребителски агент е всяка програма, библиотека или инструмент, който прави уеб заявки от ваше име.
Ето как изглежда UA низът, зададен от Chrome в наши дни:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36
Ако сте объркан от тази струна, не сте сами. Защо потребителски агент на Chrome ще съдържа думи като „Mozilla“ и „Safari“? 🤯
Е, има малко история зад това, но честно казано, по-лесно е просто да разчитате на проект с отворен код като UserAgentString.com . Просто поставете потребителски агент там и ще получите всички обяснения, за които някога сте се чудили:
Сега всичко има смисъл, нали? ✅
Мислете за потребителски агент като паспорт, който вие (клиентът) представяте на летището (сървъра). Точно както вашият паспорт казва на служителя откъде сте и му помага да реши дали да разреши влизането ви, потребителски агент казва на сайт: „Хей, аз съм Chrome на Windows, версия XYZ“ Това малко въведение помага на сървъра да определи как и ако да обработи заявката.
Докато паспортът съдържа лична информация като вашето име, дата на раждане и място на раждане, потребителският агент предоставя подробности за вашата заявена среда. Чудесно, но каква информация? 🤔
Е, всичко зависи от това откъде идва заявката:
User-Agent
тук е като подробно досие, опаковащо името на браузъра, операционната система, архитектурата и понякога дори спецификата на устройството.
User-Agent
предоставя само основите, името на библиотеката и понякога версията.Повечето сайтове имат системи против ботове и анти-скрапинг, за да защитят своите уеб страници и данни. 🛡️
Тези технологии за защита държат под око входящите HTTP заявки, надушвайки несъответствия и модели, подобни на ботове. Когато хванат такъв, те не се колебаят да блокират заявката и дори могат да поставят в черния списък IP адреса на виновника за злонамерените си намерения.
User-Agent
е един от HTTP хедърите, които тези анти-бот системи внимателно разглеждат. В крайна сметка низът в тази заглавка помага на сървъра да разбере дали заявката идва от истински браузър с добре познат низ на потребителски агент. Нищо чудно, че User-Agent
е един от най-важните HTTP хедъри за уеб скрапинг . 🕵️♂️
Заобиколното решение за избягване на блокове? Открийте подправяне на потребителски агент !
Като зададете фалшив UA низ, можете да накарате вашите заявки за автоматизирано извличане да изглеждат като идващи от човешки потребител в обикновен браузър. Тази техника е като представяне на фалшив документ за самоличност, за да преминете през сигурността.
Не забравяйте, че User-Agent
не е нищо повече от HTTP хедър. Така че можете да му дадете каквато стойност искате. Промяната на потребителски агент за уеб скрапинг е стар трик, който ви помага да избегнете откриването и да се слеете като стандартен браузър. 🥷
Чудите се как да зададете потребителски агент в популярни HTTP клиенти и библиотеки за автоматизация на браузъра? Следвайте нашите ръководства:
Кой е кралят на потребителските агенти, когато става въпрос за уеб скрапинг? 👑
Е, не е точно монархия, а по-скоро олигархия. Няма нито един потребителски агент, който да стои с глава и рамене над останалите. Всъщност всеки UA низ от модерни браузъри и устройства е готов. Така че всъщност няма "най-добър" потребителски агент за скрапинг.
Потребителските агенти от най-новите версии на Chrome, Firefox, Safari, Opera, Edge и други популярни браузъри на системи macOS и Windows са солиден избор. Същото важи и за UA на най-новите версии на Chrome и Safari mobile на устройства с Android и iOS.
Ето ръчно подбран списък с потребителски агенти за скрапиране:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:129.0) Gecko/20100101 Firefox/129.0 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Mozilla/5.0 (iPhone; CPU iPhone OS 17_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) CriOS/127.0.6533.107 Mobile/15E148 Safari/604.1 Mozilla/5.0 (Macintosh; Intel Mac OS X 14.6; rv:129.0) Gecko/20100101 Firefox/129.0 Mozilla/5.0 (Macintosh; Intel Mac OS X 14_6_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.5 Safari/605.1.15 Mozilla/5.0 (Macintosh; Intel Mac OS X 14_6_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 OPR/112.0.0.0 Mozilla/5.0 (iPhone; CPU iPhone OS 17_6_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.5 Mobile/15E148 Safari/604.1 Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.6533.103 Mobile Safari/537.36 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.2651.98 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 OPR/112.0.0.0
Разбира се, това е само върхът на айсберга и списъкът може да продължи безкрайно. За изчерпателен и актуален списък с потребителски агенти за изтриване вижте сайтове като WhatIsMyBrowser.com и Useragents.me .
Научете повече в нашето ръководство за потребителски агенти за уеб скрапинг .
И така, мислите ли, че просто замяната на User-Agent
по подразбиране на вашата HTTP клиентска библиотека с такъв от браузър може да свърши работа за избягване на анти-бот системи? Е, не съвсем…
Ако наводнявате сървър със заявки със същия User-Agent
и от същия IP адрес, вие всъщност развявате флаг, който казва: „Погледнете ме, аз съм бот!“ 🤖
За да подобрите играта си и да направите по-трудно усвояването на защитата срещу ботове, трябва да смесите нещата. Тук се намесва ротацията на потребителския агент . Вместо да използвате статичен User-Agent
от реалния свят, сменете го с всяка заявка.
Тази техника помага на вашите заявки да се слеят по-добре с редовния трафик и избягва да бъдат маркирани като автоматизирани.
Ето инструкции на високо ниво как да редувате потребителски агенти:
Съберете списък с потребителски агенти : Съберете набор от UA низове от различни браузъри и устройства.
Извличане на произволен потребителски агент : Напишете проста логика за произволен избор на низ на потребителски агент от списъка.
Конфигурирайте своя клиент : Задайте произволно избрания низ на потребителски агент в заглавката User-Agent
на вашия HTTP клиент.
Сега се притеснявате да поддържате списъка си с потребителски агенти актуален, не сте сигурни как да приложите ротация или се притеснявате, че усъвършенстваните анти-бот решения все още може да ви блокират? 😩
Това са основателни притеснения, особено след като ротацията на потребителските агенти е просто надраскване на повърхността на избягването на откриване на ботове.
Разрешете тревогите си с Web Unlocker на Bright Data!
Този базиран на изкуствен интелект API за отключване на уебсайтове се справя с всичко вместо вас — ротация на потребителски агент, пръстови отпечатъци на браузъра, решаване на CAPTCHA, IP ротация, повторни опити и дори изобразяване на JavaScript.
Заглавието User-Agent
разкрива подробности за софтуера и системата, които правят HTTP заявка. Вече знаете кой е най-добрият потребителски агент за уеб скрапинг и защо завъртането му е от решаващо значение. Но нека си признаем – ротацията на потребителския агент сама по себе си няма да е достатъчна срещу сложната защита от ботове.
Искате ли да избегнете блокиране отново? Прегърнете Web Unlocker от Bright Data и бъдете част от нашата мисия да направим интернет публично пространство, достъпно за всеки, навсякъде - дори чрез автоматизирани скриптове!
До следващия път продължете да изследвате мрежата със свобода!