25 nov 2007

Análisis de arañas de spam en servidores web

Al ver el artículo Search engines that are no search engines, se me ha ocurrido examinar el log de Apache del servidor que da servicio a este weblog.

El problema de los logs de Apache es que pueden ser voluminosos. En este caso, el log de acceso analizado es de 3,1 MB (contiene registros desde las 03:10:16 a las 09:54:32 del 13/Nov/2007) hasta pero aprovecharemos la línea de comando para reducirlo a la mímina expresión y facilitar el análisis.

cat log.txt | grep -v “Windows” | grep -v “Firefox” | grep -v “Mozilla” | grep -v “Opera” | awk {’print $12 $13 $14 $15 $16 $17′} | sort | uniq >> lista_filtrada.txt

Con esta orden de bash, quitamos del log todas las líneas que tengan Windows, Firefox, Mozilla y Opera, que son los principales palabras clave referidas a navegadores. Existe riesgo de que perdamos alguna araña que opere falsificando su firma diciendo que es alguno de estos navegadores, pero es un riesgo menor. Algunas arañas legítimas se perderán, ya que Googlebot o Yahoo! Slurp operan firmando como Mozilla.

Seguir leyendo el informe

Suscríbete a nuestro Boletín

1 comentario:

Gracias por dejar un comentario en Segu-Info.

Gracias por comentar!