8 mar 2008

mailto: sin miedo a spammers

Todos sabemos que poner una dirección de e-mail en una página web es pasto seguro de spammers cuyos robots recorren incansablemente Internet en busca que cadenas que encajen con la siguiente expresión regular:

\b[A-Z0-9._%-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b

(Expresiones Regulares en la shell. Ejemplos de uso con grep, awk y sed.)

Para mostrarlo, he buscado alguna web que tuviera muchas direcciones de correo y la página de direcciones de contacto de la Universidad de Navarra resulta ser una excelente víctima para mi prueba. Con un comando como este:

$ wget -q -O - http://www.unav.es/informacion/direccionesdecontacto.html | \
egrep -oi '\b[A-Z0-9._%-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b' | sort -u | sed 's/unav.es/unav.is/'
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[...]

vemos lo fácil que resulta extraer todas las direcciones de correo de una página. Para el ejemplo, yo he tenido la precaución de cambiar el dominio final s/es/is/ para no dar aún más visibilidad a esas direcciones.

Seguir leyendo

Suscríbete a nuestro Boletín

0 Comments:

Publicar un comentario

Gracias por dejar un comentario en Segu-Info.

Gracias por comentar!