Conceptos básicos, controversias y oportunidades del web scraping  Estamos seguros de que ha escuchado la afirmación de que "los datos son el nuevo petróleo".  ¿Qué es la minería de datos, también conocida como web scraping?  Web scraping es el proceso de extracción de datos de la World Wide Web para un propósito específico. En la forma más simple, es copiar y pegar un conjunto específico de información en una base de datos local para uso de archivo, análisis científico o algún otro uso.  Algunos de los ejemplos más utilizados incluyen sitios web de agregadores que ofrecen comparaciones de precios de productos en línea.   También hay sitios como  que extraen información disponible públicamente y la almacenan incluso después de que se elimine el sitio original o bibliotecas ocultas que crean libros o artículos detrás de muros de pago, disponibles públicamente de forma gratuita.   archivo.org  Pero el web scraping también se puede utilizar de formas fascinantes, con un alto impacto social.  Más recientemente, un grupo de activistas lituanos creó un sitio web que permite a los rusohablantes de todo el mundo llamar a personas que viven en Rusia con acceso limitado a noticias sobre la guerra en Ucrania.  La idea era formar conexiones humanas personales, mediante interacciones uno a uno por teléfono, e informar a la gente sobre las atrocidades de la guerra que su gobierno estaba cometiendo en Ucrania.  El sitio web,  , fue posible extrayendo los datos de números de teléfono disponibles públicamente de la web y reutilizándolos.    llamar a rusia  ¿Como funciona?  Las páginas web incluyen mucha información útil en forma de texto (basado en HTML o XHTML). Por lo general, un bot llamado rastreador web "raspa" (recopila) los datos de un sitio.  Algunas páginas web tienen mecanismos integrados para evitar que los rastreadores web extraigan datos. En respuesta, algunos sistemas de web scraping han evolucionado para simular la navegación humana utilizando técnicas como análisis DOM, visión por computadora e incluso procesamiento de lenguaje natural.  Aquí hay un video de 5 minutos si está interesado en aprender más.   https://www.youtube.com/watch?v=CDXOcvUNBaA  Una historia súper corta de raspado  El primer rastreador web se llamó Wandex y fue programado por un estudiante del MIT. El objetivo principal del rastreador era medir el tamaño de Internet y funcionó desde 1993 hasta 1995.  El rastreador de la primera API (interfaz de programación de aplicaciones) llegó cinco años después. Hoy en día, muchos sitios web importantes como Twitter ofrecen API web para que las personas accedan a sus bases de datos públicas.   Pero, en primer lugar, ¿por qué querríamos raspar o extraer datos y por qué otra parte intentaría evitar que lo hagamos?  Las aplicaciones de web scraping van desde ideas comerciales realmente exitosas como herramientas de comparación de precios hasta muchos otros casos de uso, como justicia social y big data ético.  El web scraping nos hace enfrentar algunas preguntas importantes. ¿Debería toda la información ser pública y accesible para todos por igual? ¿Y el tema de los derechos de autor?  En el aspecto comercial, la creación de una herramienta de comparación de precios puede hacer que algunas empresas pierdan clientes frente a la competencia. A veces, las grandes corporaciones, como las aerolíneas, demandan a los rastreadores y mineros de datos por infracción de derechos de autor por estos motivos.   Aunque los raspadores técnicamente recopilan y muestran datos que ya están disponibles públicamente, las demandas tienden a defender la infracción de derechos de autor. No existe un resultado estándar para este tipo de juicios. Por lo general, depende de una serie de factores, como el alcance de la información recopilada o las pérdidas sufridas.  ¿El web scraping es legal o no?  La legalidad del web scraping aún no se ha desarrollado por completo. Los términos de uso en un sitio específico pueden "prohibirlo", pero eso no se aplica exactamente por ley en todos los casos. Para que la minería de datos sea ilegal, tendría que ir en contra de una ley ya existente.   En Estados Unidos, eso podría ser, más comúnmente, por infracción de derechos de autor. Otros ejemplos incluyen Dinamarca, donde los tribunales encontraron que el web scraping o el rastreo son legales de acuerdo con la ley danesa.  En Francia, la Autoridad Francesa de Protección de Datos dictaminó que, incluso cuando están disponibles públicamente, los datos personales no pueden recopilarse ni reutilizarse sin el conocimiento de la persona a la que pertenecen.  Libertad de información  Cuando se trata de organizaciones sin fines de lucro y defensores del acceso abierto, las cosas se ponen aún más interesantes.  Internet Archive (archive.org) es un famoso proyecto de web scraping. Es una organización sin fines de lucro que archiva (a veces elimina) páginas web, colecciones digitales, libros, archivos PDF y videos para investigadores, estudiantes y cualquier otra persona interesada.  A veces quedan atrapados en áreas grises legales de vez en cuando, cuando las personas o incluso los gobiernos emprenden acciones legales para eliminar algunas piezas específicas de contenido.  Cuando abogar por el acceso abierto universal a la información lo mete en problemas  Hay muchos proyectos de web scraping que abogan por el acceso abierto universal a la información como el proyecto PACER.    Enlace al artículo del NYT  PACER es el nombre del sitio web que alberga documentos legales de los tribunales estadounidenses. Significa Public Access to Court Electronic Records, pero el acceso no es gratuito excepto para un número selecto de bibliotecas públicas.  El difunto Aaron Swartz, un defensor del acceso abierto y uno de los primeros prodigio de Internet,  documentos de una de estas bibliotecas públicas y se metió en muchos problemas con el gobierno de los Estados Unidos y el FBI.   usó un programa de web scraping para descargar millones de PACER  Las corporaciones y los gobiernos pueden tener incentivos para prohibir el web scraping. Sin embargo, es una herramienta importante que utilizan los periodistas e investigadores para descubrir injusticias.  Una lista de investigaciones periodísticas que utilizaron Web Scraping  Recopilar y analizar datos puede ser increíblemente útil para todo tipo de investigación y estudios académicos, lo que lleva a un nuevo movimiento en la ciencia de datos. Los periodistas ahora también confían en un análisis cuidadoso de los datos para revelar cosas nuevas sobre nuestras sociedades y comunidades.   __   __ llevó a cabo un proyecto que reveló que policías estadounidenses que eran miembros de grupos extremistas publicaban en Facebook y participaban en contenido racista, xenófobo e islamófobo. Reveal  Se hizo extrayendo datos de estos grupos extremistas y de grupos de policías en Facebook y haciendo referencias cruzadas para encontrar a los miembros superpuestos, y había muchos.   Reuters usó técnicas de análisis de datos similares para descubrir  sobre sitios donde los estadounidenses “anuncian” a los niños que adoptaron en el extranjero con el fin de regalarlos a extraños cuando ya no quieren tratar con ellos.   una historia impactante  Usando raspadores, Verge y Trace hicieron una investigación que reveló  o verificación de antecedentes.   venta de armas por internet sin licencia  USA Today descubrió que entre 2010 y 2018 más de 10,000 proyectos de ley presentados en los parlamentos de todo el país fueron casi  . Esta investigación fue posible gracias al web scraping.   completamente copiado de proyectos de ley escritos por intereses especiales  El Atlántico corre un  que no solo recopila los datos globales sobre covid a diario, sino que también muestra las disparidades raciales de la pandemia.   Proyecto de seguimiento de COVID  Estos son solo algunos de los ejemplos de las formas en que el web scraping se puede utilizar con fines comerciales y de justicia social. Hay muchos otros casos de uso por ahí y muchos más esperando ser realizados.  El análisis extensivo de datos y la ciencia de datos abiertos pueden revelar tantas verdades nuevas, pero ¿estamos cruzando la línea con el tipo de datos que recopilamos y los métodos que usamos para recopilarlos?   ¿Cuál es la ética y la escuela de pensamiento en torno a la recopilación de datos?  ¿Cómo equilibramos la privacidad con el acceso abierto?  Si bien es importante que continuemos la conversación sobre el acceso abierto a los documentos que son relevantes para el público, también debemos considerar los problemas de privacidad.  Hoy en día, muchas personas y organizaciones están de acuerdo en que recopilar y utilizar los datos personales de alguien sin su consentimiento no es ético.   Sin embargo, ¿qué pasa con los datos públicos, como los artículos de noticias que están censurados en algunos países? ¿O estadísticas y datos relacionados con la salud que pueden usarse para sugerencias de políticas de salud pública?  En los EE. UU., __   __ para identificar pacientes de alto riesgo para un programa preventivo a fin de brindar atención adicional para que estos pacientes no terminen en la sala de emergencias. los legisladores utilizaron un algoritmo   https://www.youtube.com/watch?v=Ok5sKLXqynQ  Investigadores posteriores encontraron que los negros estaban más enfermos que los blancos, aunque dentro de la misma categoría. En otras palabras, los pacientes negros incurren en menos costos que los pacientes blancos con las mismas enfermedades por una variedad de razones, incluida la falta de acceso a un seguro de alta calidad.  En otro caso, se descubrió que __   __ utilizadas por empresas como Amazon favorecen a los hombres sobre las mujeres y a las personas blancas sobre las personas de color. herramientas de contratación automatizadas  Cuando las herramientas buscaron en la web, determinaron que los puestos ejecutivos estaban ocupados en su mayoría por hombres blancos, por lo que las máquinas aprendieron que ese era el tipo de cualidad que debían buscar en un candidato.  Extraer datos públicos para el bien común no siempre conduce a resultados positivos para la sociedad. La automatización y el aprendizaje automático necesitan una intervención cuidadosa. Como constructores de nuevos sistemas tecnológicos y sociales, debemos asegurarnos de que todas nuestras herramientas de análisis de datos estén diseñadas éticamente y no continúen con nuestros sistemas históricos de injusticia y discriminación.  El raspado es muy relevante para el trabajo que hacemos en Mysterium. Nos preocupamos por construir una web accesible donde la libertad de información y la ciencia de datos abiertos se conviertan en pilares fundamentales de la nueva web.  Estamos colaborando con los desarrolladores para construir Web3. Para obtener más información sobre la forma en que Mysterium empodera a los constructores en el espacio Web 3 para proyectos orientados a un propósito, visite  nuestro sitio.

Abroad

Amazon

Facebook

Nationwide

Super

The Verge

Trace

Twitter

YouTube

2022 - HackerNoon Contributor of the Year - Big Data

Download Mysterium VPN

Nominated for 2022 - HackerNoon Contributor of the Year - Big Data

Este audio es producido en el idioma original de la historia!

Demasiado Largo; Para Leer

¿Es Web Scraping Robar?

¿Es Web Scraping Robar?

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

De los foros a los feeds: cómo los algoritmos de las redes sociales influyen en la interacción digital

Telegram: el puente de Crypto Island hacia el continente

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

De los foros a los feeds: cómo los algoritmos de las redes sociales influyen en la interacción digital

Telegram: el puente de Crypto Island hacia el continente

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps