paint-brush
¿Es Web Scraping Robar?por@mysteriumnetwork
3,037 lecturas
3,037 lecturas

¿Es Web Scraping Robar?

por Mysterium Network2022/06/20
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Web scraping es la extracción de datos de la World Wide Web para un propósito específico. En la forma más simple, es copiar y pegar un conjunto específico de información en una base de datos local para uso de archivo, análisis científico o algún otro uso. El web scraping también se puede utilizar de formas fascinantes, con un alto impacto social. La gente crea sitios de comparación de precios o bibliotecas paralelas que eluden los muros de pago. Más recientemente, activistas lituanos recopilaron datos de números de teléfono disponibles públicamente de ciudadanos rusos regulares para crear un sitio web que permite a los rusoparlantes de todo el mundo llamar a un ruso al azar para hablar sobre la guerra en un esfuerzo por crear conciencia en un país que censura las noticias sobre la guerra.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - ¿Es Web Scraping Robar?
Mysterium Network HackerNoon profile picture


Conceptos básicos, controversias y oportunidades del web scraping


Estamos seguros de que ha escuchado la afirmación de que "los datos son el nuevo petróleo".


¿Qué es la minería de datos, también conocida como web scraping?

Web scraping es el proceso de extracción de datos de la World Wide Web para un propósito específico. En la forma más simple, es copiar y pegar un conjunto específico de información en una base de datos local para uso de archivo, análisis científico o algún otro uso.


Algunos de los ejemplos más utilizados incluyen sitios web de agregadores que ofrecen comparaciones de precios de productos en línea.



También hay sitios como archivo.org que extraen información disponible públicamente y la almacenan incluso después de que se elimine el sitio original o bibliotecas ocultas que crean libros o artículos detrás de muros de pago, disponibles públicamente de forma gratuita.

Pero el web scraping también se puede utilizar de formas fascinantes, con un alto impacto social.

Más recientemente, un grupo de activistas lituanos creó un sitio web que permite a los rusohablantes de todo el mundo llamar a personas que viven en Rusia con acceso limitado a noticias sobre la guerra en Ucrania.


La idea era formar conexiones humanas personales, mediante interacciones uno a uno por teléfono, e informar a la gente sobre las atrocidades de la guerra que su gobierno estaba cometiendo en Ucrania.


El sitio web, llamar a rusia , fue posible extrayendo los datos de números de teléfono disponibles públicamente de la web y reutilizándolos.

¿Como funciona?

Las páginas web incluyen mucha información útil en forma de texto (basado en HTML o XHTML). Por lo general, un bot llamado rastreador web "raspa" (recopila) los datos de un sitio.

Algunas páginas web tienen mecanismos integrados para evitar que los rastreadores web extraigan datos. En respuesta, algunos sistemas de web scraping han evolucionado para simular la navegación humana utilizando técnicas como análisis DOM, visión por computadora e incluso procesamiento de lenguaje natural.

Aquí hay un video de 5 minutos si está interesado en aprender más.


https://www.youtube.com/watch?v=CDXOcvUNBaA

Una historia súper corta de raspado

El primer rastreador web se llamó Wandex y fue programado por un estudiante del MIT. El objetivo principal del rastreador era medir el tamaño de Internet y funcionó desde 1993 hasta 1995.


El rastreador de la primera API (interfaz de programación de aplicaciones) llegó cinco años después. Hoy en día, muchos sitios web importantes como Twitter ofrecen API web para que las personas accedan a sus bases de datos públicas.




Pero, en primer lugar, ¿por qué querríamos raspar o extraer datos y por qué otra parte intentaría evitar que lo hagamos?


Las aplicaciones de web scraping van desde ideas comerciales realmente exitosas como herramientas de comparación de precios hasta muchos otros casos de uso, como justicia social y big data ético.


El web scraping nos hace enfrentar algunas preguntas importantes. ¿Debería toda la información ser pública y accesible para todos por igual? ¿Y el tema de los derechos de autor?


En el aspecto comercial, la creación de una herramienta de comparación de precios puede hacer que algunas empresas pierdan clientes frente a la competencia. A veces, las grandes corporaciones, como las aerolíneas, demandan a los rastreadores y mineros de datos por infracción de derechos de autor por estos motivos.

Aunque los raspadores técnicamente recopilan y muestran datos que ya están disponibles públicamente, las demandas tienden a defender la infracción de derechos de autor. No existe un resultado estándar para este tipo de juicios. Por lo general, depende de una serie de factores, como el alcance de la información recopilada o las pérdidas sufridas.

¿El web scraping es legal o no?

La legalidad del web scraping aún no se ha desarrollado por completo. Los términos de uso en un sitio específico pueden "prohibirlo", pero eso no se aplica exactamente por ley en todos los casos. Para que la minería de datos sea ilegal, tendría que ir en contra de una ley ya existente.

En Estados Unidos, eso podría ser, más comúnmente, por infracción de derechos de autor. Otros ejemplos incluyen Dinamarca, donde los tribunales encontraron que el web scraping o el rastreo son legales de acuerdo con la ley danesa.

En Francia, la Autoridad Francesa de Protección de Datos dictaminó que, incluso cuando están disponibles públicamente, los datos personales no pueden recopilarse ni reutilizarse sin el conocimiento de la persona a la que pertenecen.


Libertad de información


Cuando se trata de organizaciones sin fines de lucro y defensores del acceso abierto, las cosas se ponen aún más interesantes.


Internet Archive (archive.org) es un famoso proyecto de web scraping. Es una organización sin fines de lucro que archiva (a veces elimina) páginas web, colecciones digitales, libros, archivos PDF y videos para investigadores, estudiantes y cualquier otra persona interesada.


A veces quedan atrapados en áreas grises legales de vez en cuando, cuando las personas o incluso los gobiernos emprenden acciones legales para eliminar algunas piezas específicas de contenido.

Cuando abogar por el acceso abierto universal a la información lo mete en problemas

Hay muchos proyectos de web scraping que abogan por el acceso abierto universal a la información como el proyecto PACER.

Enlace al artículo del NYT


PACER es el nombre del sitio web que alberga documentos legales de los tribunales estadounidenses. Significa Public Access to Court Electronic Records, pero el acceso no es gratuito excepto para un número selecto de bibliotecas públicas.

El difunto Aaron Swartz, un defensor del acceso abierto y uno de los primeros prodigio de Internet, usó un programa de web scraping para descargar millones de PACER documentos de una de estas bibliotecas públicas y se metió en muchos problemas con el gobierno de los Estados Unidos y el FBI.


Las corporaciones y los gobiernos pueden tener incentivos para prohibir el web scraping. Sin embargo, es una herramienta importante que utilizan los periodistas e investigadores para descubrir injusticias.


Una lista de investigaciones periodísticas que utilizaron Web Scraping

Recopilar y analizar datos puede ser increíblemente útil para todo tipo de investigación y estudios académicos, lo que lleva a un nuevo movimiento en la ciencia de datos. Los periodistas ahora también confían en un análisis cuidadoso de los datos para revelar cosas nuevas sobre nuestras sociedades y comunidades.


__ Reveal __ llevó a cabo un proyecto que reveló que policías estadounidenses que eran miembros de grupos extremistas publicaban en Facebook y participaban en contenido racista, xenófobo e islamófobo.

Se hizo extrayendo datos de estos grupos extremistas y de grupos de policías en Facebook y haciendo referencias cruzadas para encontrar a los miembros superpuestos, y había muchos.



Reuters usó técnicas de análisis de datos similares para descubrir una historia impactante sobre sitios donde los estadounidenses “anuncian” a los niños que adoptaron en el extranjero con el fin de regalarlos a extraños cuando ya no quieren tratar con ellos.


Usando raspadores, Verge y Trace hicieron una investigación que reveló venta de armas por internet sin licencia o verificación de antecedentes.


USA Today descubrió que entre 2010 y 2018 más de 10,000 proyectos de ley presentados en los parlamentos de todo el país fueron casi completamente copiado de proyectos de ley escritos por intereses especiales . Esta investigación fue posible gracias al web scraping.


El Atlántico corre un Proyecto de seguimiento de COVID que no solo recopila los datos globales sobre covid a diario, sino que también muestra las disparidades raciales de la pandemia.


Estos son solo algunos de los ejemplos de las formas en que el web scraping se puede utilizar con fines comerciales y de justicia social. Hay muchos otros casos de uso por ahí y muchos más esperando ser realizados.


El análisis extensivo de datos y la ciencia de datos abiertos pueden revelar tantas verdades nuevas, pero ¿estamos cruzando la línea con el tipo de datos que recopilamos y los métodos que usamos para recopilarlos?



¿Cuál es la ética y la escuela de pensamiento en torno a la recopilación de datos?


¿Cómo equilibramos la privacidad con el acceso abierto?


Si bien es importante que continuemos la conversación sobre el acceso abierto a los documentos que son relevantes para el público, también debemos considerar los problemas de privacidad.


Hoy en día, muchas personas y organizaciones están de acuerdo en que recopilar y utilizar los datos personales de alguien sin su consentimiento no es ético.


Sin embargo, ¿qué pasa con los datos públicos, como los artículos de noticias que están censurados en algunos países? ¿O estadísticas y datos relacionados con la salud que pueden usarse para sugerencias de políticas de salud pública?

En los EE. UU., __ los legisladores utilizaron un algoritmo __ para identificar pacientes de alto riesgo para un programa preventivo a fin de brindar atención adicional para que estos pacientes no terminen en la sala de emergencias.

https://www.youtube.com/watch?v=Ok5sKLXqynQ


Investigadores posteriores encontraron que los negros estaban más enfermos que los blancos, aunque dentro de la misma categoría. En otras palabras, los pacientes negros incurren en menos costos que los pacientes blancos con las mismas enfermedades por una variedad de razones, incluida la falta de acceso a un seguro de alta calidad.


En otro caso, se descubrió que __ herramientas de contratación automatizadas __ utilizadas por empresas como Amazon favorecen a los hombres sobre las mujeres y a las personas blancas sobre las personas de color.

Cuando las herramientas buscaron en la web, determinaron que los puestos ejecutivos estaban ocupados en su mayoría por hombres blancos, por lo que las máquinas aprendieron que ese era el tipo de cualidad que debían buscar en un candidato.


Extraer datos públicos para el bien común no siempre conduce a resultados positivos para la sociedad. La automatización y el aprendizaje automático necesitan una intervención cuidadosa. Como constructores de nuevos sistemas tecnológicos y sociales, debemos asegurarnos de que todas nuestras herramientas de análisis de datos estén diseñadas éticamente y no continúen con nuestros sistemas históricos de injusticia y discriminación.



El raspado es muy relevante para el trabajo que hacemos en Mysterium. Nos preocupamos por construir una web accesible donde la libertad de información y la ciencia de datos abiertos se conviertan en pilares fundamentales de la nueva web.

Estamos colaborando con los desarrolladores para construir Web3. Para obtener más información sobre la forma en que Mysterium empodera a los constructores en el espacio Web 3 para proyectos orientados a un propósito, visite nuestro sitio.