7 nov 2023

Extracción de datos de #Linkedin (35 millones de registros)

Una base de datos que contiene 35,9 millones de registros con datos sobre usuarios Premium de LinkedIn se está compartiendo de forma gratuita en un popular foro de hacking y, al parecer, han sido obtenidos mediante scraping. El archivo tiene 13GB descomprimido.

Por eso es importante señalar que, estos datos NO han sido robados desde base de datos internas de Linkedin, han sido obtenidos mediante diferentes técnicas, combinados, agregados e inventados por atacantes, tomando diversas fuentes, no necesariamente reales.

El scraping es el proceso de utilizar herramientas automatizadas para extraer grandes cantidades de datos de sitios web, que generalmente involucran rastreadores y robots que pueden evadir las medidas anti-scraping imitando el comportamiento humano del usuario.

Aunque el scraping constituye una violación de los términos de servicio en LinkedIn, muchos actores de amenazas continúan participando en la actividad para demostrar su capacidad de eludir las protecciones o obtener ganancias.

Esta no es la primera vez que se roban o recolectan datos de Linkedin. En 2012, su base de datos efectivamente sí fue robada a través de la explotación de una vulnerabilidad y se sustrajeron 164 millones de registros (como direcciones de correo electrónico y contraseñas) y, luego en 2021 se publicó una base de datos con otros 126 millones de registros que fueron originados desde el scraping (como la actual).

En este caso, el usuario "USDoD" ha compartido libremente la base de datos CSV, que contiene datos recientes (2023) de los usuarios de LinkedIn Premium, incluida la siguiente información, entre otras cosas:

  • Nombres completos
  • Algunos hashes, aunque no parecen ser contraseñas
  • Correos electrónicos
  • ID y URL de perfil de LinkedIn
  • Títulos de trabajo
  • Nombres de empleadores
  • Historia de la Educación
  • Habilidades
  • Idiomas hablados
  • Breves resúmenes profesionales

En mi caso, solo he buscado mi apellido y los datos son bastante erráticos, imprecisos, aleatorios o directamente inventados. Por ejemplo, cada registro con varias direcciones de correo electrónico tiene exactamente el formato "[nombre].[apellido]@".

Si bien la mayor parte de lo anterior ya es de acceso público para los usuarios de LinkedIn, la inclusión de direcciones de correo electrónico hace que esta filtración sea valiosa para los ciberdelincuentes. Esta información se puede utilizar para correlacionar direcciones de correo electrónico con otras filtraciones para encontrar contraseñas comunes, reducir el alcance de los ataques de fuerza bruta o simplemente habilitar el phishing.

Además, tener información confidencial combinada en un formato indexable hace que sea mucho más fácil para actores malintencionados aprovecharla en ataques de ingeniería social o realizar fraude de identidad.

El usuario USDoD señala que la base de datos compartida libremente contiene información de personas importantes como empleados gubernamentales, miembros de organizaciones no gubernamentales, personal de institutos educativos, empresas financieras, etc., y en general se refiere a personas de alto rango.

La visibilidad de la dirección de correo electrónico está determinada por la configuración del usuario, que define el grado de conexiones permitidas para acceder a esta información confidencial. El scraping utilizado en este caso omitió estas configuraciones para todos los usuarios o se hizo pasar por una conexión cercana, lo cual es un escenario poco realista.

El investigador de ciberseguridad Troy Hunt, creador de Have I Been Pwned, examinó los datos y descubrió que contienen una combinación de información real e inventada. Troy escribe en su blog: Estos datos son una combinación de información obtenida de perfiles públicos de LinkedIn, direcciones de correo electrónico inventadas y, en parte basada simplemente en observar los datos. Pero las personas son reales, las empresas son reales, los dominios son reales y, en muchos casos, las direcciones de correo electrónico mismas son reales.

Estos son los puntos fundamentales a tener en cuenta:

  • Linkedin NO fue hackeado. Por ahora las acusaciones contra LinkedIn por este incidente son infundadas
  • Muchos de los correos electrónicos observados son falsos y creados a partir de los nombres y empresas de los usuarios de LinkedIn.
  • Se sospecha que los datos provienen de varias fuentes, no solo de LinkedIn, y que pueden haber sido usados con fines comerciales.
  • Los datos ya se encuentran cargados en Have I Been Pwned para que la gente pueda verificar si sus datos están expuestos.

Cristian de la Redacción de Segu-Info

Suscríbete a nuestro Boletín

0 Comments:

Publicar un comentario

Gracias por dejar un comentario en Segu-Info.

Gracias por comentar!