Algunha vez te preguntas como se presenta o software aos servidores? Introduza a cabeceira User-Agent
: un ID dixital que revela detalles cruciais sobre o cliente que fai unha solicitude HTTP. Como estás a piques de aprender, é imprescindible configurar un axente de usuario para o raspado.
Neste artigo, desglosaremos o que é un axente de usuario, por que é vital para o raspado web e como rotalo pode axudarche a evitar a detección. Listo para mergullarse? Imos!
O User-Agent
é un encabezado HTTP popular que as aplicacións e bibliotecas establecen automaticamente ao realizar solicitudes HTTP. Contén unha cadea que derrama os grans sobre a túa aplicación, sistema operativo, vendedor e a versión do software que realiza a solicitude.
Esa cadea tamén se coñece como axente de usuario ou UA . Pero por que o nome "Axente de usuario"? Simple! Na xerga de TI, un axente de usuario é calquera programa, biblioteca ou ferramenta que fai solicitudes web no teu nome.
Este é o aspecto da cadea UA definida por Chrome nestes días:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36
Se estás desconcertado por esa corda, non estás só. Por que un axente de usuario de Chrome contería palabras como "Mozilla" e "Safari"? 🤯
Ben, hai un pouco de historia detrás diso, pero sinceramente, é máis fácil confiar só nun proxecto de código aberto como UserAgentString.com . Só tes que pegar alí un axente de usuario e obterás todas as explicacións que xa te preguntaste:
Todo ten sentido agora, non? ✅
Pense nun axente de usuario como un pasaporte que vostede (o cliente) presenta nun aeroporto (o servidor). Do mesmo xeito que o teu pasaporte indica ao oficial de onde es e axúdao a decidir se permite a túa entrada, un axente de usuario dille a un sitio: "Ola, son Chrome en Windows, versión XYZ" Esta pequena introdución axuda ao servidor a determinar como e se atender a solicitude.
Aínda que un pasaporte contén información persoal como o teu nome, data de nacemento e lugar de nacemento, un axente de usuario ofrece detalles sobre o teu ambiente de solicitude. Genial, pero que tipo de información? 🤔
Ben, todo depende de onde se orixina a solicitude:
User-Agent
aquí é como un expediente detallado, que inclúe o nome do navegador, o sistema operativo, a arquitectura e, ás veces, incluso detalles específicos sobre o dispositivo.
User-Agent
ofrece só os conceptos básicos, o nome da biblioteca e, ocasionalmente, a versión.A maioría dos sitios teñen sistemas anti-bot e anti-scraping para protexer as súas páxinas web e datos. 🛡️
Estas tecnoloxías de protección manteñen un ollo atento ás solicitudes HTTP entrantes, detectando inconsistencias e patróns similares a bots. Cando atrapan un, non dubidan en bloquear a solicitude e ata poden incluír na lista negra o enderezo IP do culpable polas súas intencións maliciosas.
User-Agent
é unha das cabeceiras HTTP que estes sistemas anti-bot examinan de preto. Despois de todo, a cadea nesa cabeceira axuda ao servidor a comprender se unha solicitude procede dun navegador xenuíno cunha cadea de axente de usuario coñecida. Non é de estrañar que User-Agent
sexa un dos encabezados HTTP máis importantes para o rascado web . 🕵️♂️
A solución para evitar bloqueos? Descubra a suplantación de axentes de usuario !
Ao establecer unha cadea de UA falsa, podes facer que as túas solicitudes de raspado automatizadas aparezan como procedentes dun usuario humano nun navegador normal. Esta técnica é como presentar unha identificación falsa para superar a seguridade.
Non esquezas que User-Agent
non é máis que unha cabeceira HTTP. Entón, podes darlle o valor que queiras. Cambiar de axente de usuario para o raspado web é un vello truco que che axuda a esquivar a detección e combinar como un navegador estándar. 🥷
Queres saber como configurar un axente de usuario en clientes HTTP populares e bibliotecas de automatización do navegador? Siga as nosas guías:
Quen é o rei dos axentes de usuario no que se refire ao rascado web? 👑
Ben, non é precisamente unha monarquía senón máis ben unha oligarquía. Non hai un só axente de usuario que se poña por riba do resto. En realidade, calquera cadea de UA dos navegadores e dispositivos modernos é boa para usar. Polo tanto, non hai realmente un "mellor" axente de usuario para raspar.
Os axentes de usuario das últimas versións de Chrome, Firefox, Safari, Opera, Edge e outros navegadores populares en sistemas macOS e Windows son opcións sólidas. O mesmo ocorre coa UA das últimas versións de Chrome e Safari móbil en dispositivos Android e iOS.
Aquí tes unha lista escollida a dedo de axentes de usuario para raspar:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:129.0) Gecko/20100101 Firefox/129.0 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Mozilla/5.0 (iPhone; CPU iPhone OS 17_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) CriOS/127.0.6533.107 Mobile/15E148 Safari/604.1 Mozilla/5.0 (Macintosh; Intel Mac OS X 14.6; rv:129.0) Gecko/20100101 Firefox/129.0 Mozilla/5.0 (Macintosh; Intel Mac OS X 14_6_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.5 Safari/605.1.15 Mozilla/5.0 (Macintosh; Intel Mac OS X 14_6_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 OPR/112.0.0.0 Mozilla/5.0 (iPhone; CPU iPhone OS 17_6_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.5 Mobile/15E148 Safari/604.1 Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.6533.103 Mobile Safari/537.36 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.2651.98 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 OPR/112.0.0.0
Por suposto, esta é só a punta do iceberg, e a lista podería seguir e seguir. Para obter unha lista completa e actualizada de axentes de usuario para o raspado, consulte sitios como WhatIsMyBrowser.com e Useragents.me .
Obtén máis información na nosa guía sobre axentes de usuario para o rascado web .
Entón, estás a pensar que só intercambiar User-Agent
predeterminado da túa biblioteca de cliente HTTP por un dun navegador pode facer o truco para esquivar os sistemas anti-bot? Ben, non moi...
Se estás inundando un servidor con solicitudes co mesmo User-Agent
e desde a mesma IP, basicamente estás axitando unha bandeira que di: "¡Mírame, son un bot!" 🤖
Para mellorar o teu xogo e dificultar que se poñan en práctica esas defensas anti-bot, tes que mesturar as cousas. Aí é onde entra a rotación do axente de usuario . En lugar de usar un User-Agent
estático e real, cámbiao con cada solicitude.
Esta técnica axuda a que as túas solicitudes se integren mellor co tráfico normal e evita que se marquen como automatizadas.
Aquí tes instrucións de alto nivel sobre como rotar os axentes de usuario:
Recolle unha lista de axentes de usuario : reúne un conxunto de cadeas UA de varios navegadores e dispositivos.
Extraer un axente de usuario aleatorio : escribe unha lóxica sinxela para escoller aleatoriamente unha cadea de axente de usuario da lista.
Configura o teu cliente : establece a cadea de axente de usuario seleccionada aleatoriamente na cabeceira User-Agent
do teu cliente HTTP.
Agora, estás preocupado por manter actualizada a túa lista de axentes de usuarios, non estás seguro de como implementar a rotación ou te preocupa que as solucións anti-bot avanzadas aínda te bloqueen? 😩
Esas son preocupacións válidas, especialmente porque a rotación do axente de usuario é só raiar a superficie para evitar a detección de bots.
Deixa as túas preocupacións tranquilas co Desbloqueador web de Bright Data.
Esta API de desbloqueo de sitios web impulsada por intelixencia artificial xestiona todo por ti: rotación do axente de usuario, impresión dixital do navegador, resolución de CAPTCHA, rotación de IP, reintentos e mesmo renderizado de JavaScript.
A cabeceira User-Agent
revela detalles sobre o software e o sistema que realiza unha solicitude HTTP. Agora sabes cal é o mellor axente de usuario para o rascado web e por que é crucial rotalo. Pero afrontémolo: a rotación do axente de usuario por si soa non será suficiente contra a sofisticada protección contra bots.
Queres evitar que te bloqueen nunca máis? Adopta o Web Unlocker de Bright Data e forma parte da nosa misión de facer que Internet sexa un espazo público accesible para todos, en todas partes, mesmo a través de scripts automatizados.
Ata a próxima, segue explorando a web con liberdade!