En este artículo, cubriremos cómo crear su propia herramienta de raspado de datos de Instagram.
Debes saber que para construir un raspador necesitas tener algunas habilidades técnicas. Si no es una persona tecnológica, o no tiene el tiempo, los recursos y quiere estar 100% en el lado legal de las cosas, use un servicio como influencers.club .
Simplemente puede solicitar correos electrónicos dirigidos a los seguidores de un perfil (probablemente un competidor) o un hashtag relevante .
También puede usar su base de datos de más de 50 millones de perfiles de Instagram para encontrar personas por palabras clave en la biografía.
Nota importante: tenga en cuenta que el acceso automático a Instagram va en contra de sus términos de servicio.
El raspado de Instagram significa recopilar automáticamente datos disponibles públicamente de los usuarios de Instagram. El proceso puede incluir herramientas de raspado, servicios de raspado de Instagram o la extracción manual de datos. Puede extraer datos como direcciones de correo electrónico, números de teléfono, imágenes, biografía, me gusta, comentarios, etc.
Si bien Instagram prohíbe cualquier tipo de rastreo, extracción o almacenamiento en caché de contenido de Instagram, no está regulado por ley. Es decir, si extrae datos de Instagram, puede prohibir su cuenta, pero no hay repercusiones legales.
Entonces, comencemos con una descripción general de los componentes que necesitará para el raspado de Instagram.
La API oficial de Instagram se deshabilitó el 29 de junio de 2020, y está bien porque era inútil cuando necesitabas datos como correos electrónicos, números de teléfono, biografía, etc.
En su lugar, Instagram utiliza una API no oficial (móvil) (conocida como puntos finales móviles) para comunicarse hacia y desde sus servidores. Entonces, con la ayuda del software de código abierto y la interceptación del tráfico, podemos ver cómo funciona su API y usarla para el raspado de datos.
A continuación, necesitamos usar perfiles de Instagram que simulen el comportamiento humano en la aplicación móvil de Instagram mientras recopilan datos. La cantidad de perfiles de Instagram que necesita depende de la cantidad de datos que desea recopilar. Instagram tiene un pequeño límite de llamadas de API (que está disminuyendo constantemente) y actualmente tiene 200 llamadas por día.
Entonces, si desea raspar los seguidores de Instagram de un influencer con 50k fanáticos, necesitaría 50 perfiles de Instagram que rasparán durante 5 días.
Dos cosas importantes para recordar al comprar perfiles de Instagram para raspar:
Puedes comprar perfiles de Instagram desde
Pero incluso si logra comprar e iniciar sesión con todos esos perfiles, aún enfrentará muchos desafíos. Instagram es bastante inteligente y puede reconocer perfiles que se originan en el mercado gris. Sin embargo, algunos vendedores son muy buenos creando perfiles falsos que son difíciles de detectar. Sugeriría buscar los vendedores más caros en este mercado .
Un proxy es un servidor de terceros que le permite enrutar su solicitud a través de sus servidores y usar su dirección IP en el proceso. Cuando usa un proxy, Instagram ya no ve su dirección IP, sino la dirección IP del proxy, lo que le permite realizar todo el raspado desde un servidor. No intente simular demasiadas IP porque iniciar sesión en más de 5 perfiles en la misma IP es un gran no-no.
Al igual que con los perfiles de Instagram tenemos el mismo problema con los proxies. Instagram detecta miles de proveedores de proxy y, hasta que encuentre uno bueno, puede enfrentar muchos problemas.
Si Instagram prohíbe el proxy que usa, eso significa automáticamente que el perfil de Instagram asociado ya no está disponible. Para verificar si está seguro y su proveedor de proxy aún no está en el radar, use este sitio web . Si se trata de un proveedor conocido, estará allí y, dado que este sitio web lo sabe, créanme, el ojo que todo lo ve de Zuckerberg también lo sabe.
Los beneficios de tener un raspador de Instagram interno son:
Sin embargo, también hay algunos inconvenientes serios:
Puede usar Python (GitHub) para crear su propio raspador de Instagram o comprar los datos de los usuarios de Instagram de Influencers Club.
Para raspar Instagram con Python puedes usar una herramienta como Instagramy . Esta herramienta está creada específicamente para Instagram y tiene capacidad de análisis de datos a través de Pandas.
Instagramy se usa para raspar Instagram rápida y fácilmente. Este paquete se instala ejecutando el siguiente comando y, según la conexión de red, extrae los datos por usted.
pip install instagramy
Ejemplo 1: raspado de detalles básicos
from instagramy import Instagram # Connecting the profile user = Instagram( "geeks_for_geeks" ) # printing the basic details like # followers, following, bio print(user.is_verified()) print(user.popularity()) print(user.get_biography()) # return list of dicts posts = user.get_posts_details() print( '\n\nLikes' , 'Comments' ) for post in posts: likes = post[ "likes" ] comments = post[ "comment" ] print(likes,comments)
Ejemplo 2: Analizando los datos
from instagramy import Instalysis # Instagram user_id of ipl teams teams = [ "chennaiipl" , "mumbaiindians" , "royalchallengersbangalore" , "kkriders" , "delhicapitals" , "sunrisershyd" , "kxipofficial" ] data = Instalysis(teams) # return the dataframe data_frame = data.analyis() data_frame
Desafortunadamente, no es posible exportar personas a las que les gustó una determinada publicación o varias publicaciones. Sin embargo, se pueden rastrear y raspar con este código:
def get_likes_list( username ): api.login() api.searchUsername( username ) result = api.LastJson username_id = result[ 'user '][ 'pk '] # Get user ID user_posts = api.getUserFeed( username_id ) # Get user feed result = api.LastJson media_id = result[ 'items '][ 0 ][ 'id '] # Get most recent post api.getMediaLikers( media_id ) # Get users who liked users = api.LastJson[ 'users '] for user in users: # Push users to list users_list.append({ 'pk ':user [ 'pk '], 'username ':user [ 'username ']})
Para raspar correos electrónicos de Instagram debe iniciar sesión con una cuenta de Instagram desde un proxy específico. Y para extraer las direcciones de correo electrónico, use este código: /api/v1/users/{{user_id}}/info/
Puede usar este GitHub Repo para encontrar todas las muestras.
Muchos de ustedes quieren exportar sus propias fotos de Instagram o las de otra persona. Ahora, según mi experiencia, eso es muy difícil de lograr, ya que deben extraerse de la web (no de la aplicación). ¡Pero es factible!
Aquí está el GitHub exacto que puede usar para crear su propio raspador de imágenes :
Extraer datos de Instagram puede ser un desastre, ya que 95 millones de perfiles en las plataformas son cuentas falsas o bots. Es por eso que si planea raspar Insta para obtener información de contacto como correo electrónico o números de teléfono, es mejor usar un servicio de raspado. Estos tipos de servicios extraerán los datos que desee, pero también limpiarán y filtrarán la lista para que solo termine con las personas con las que desea comunicarse.
Si eres un usuario habitual de IG o un pequeño influencer que quiere exportar sus propios seguidores, solo busca una herramienta de raspado barata. Pero para las empresas que planean usar los datos con fines publicitarios Te sugiero que uses el Club de Influencers. Actualmente son líderes en el mercado y ofrecen opciones de filtrado que no obtienes en ningún otro lugar (edad, género, ubicación, intereses y más).