SAFE. Guía para proteger tu vida digital y tu privacidad

19 jun 2006

Cómo le cuelan MIL MILLONES de páginas SPAM a Google

Fuente: http://www.softwarelibre.net/como_colarle_mil_millones_de_paginas_a_google

Via digg.com comentan como han colado a google Mil Millones de páginas webs, sin contenido importante, por lo visto el autor es un argentino y utilizando técnicas de scrapping, que con el uso intensivo de subdominios va rastreando contenido y creando un mastodóntico árbol web sin sentido.

Algunos ejemplos de WEBS SPAM.

t1ps2see.com (dada de baja)
Fecha de creación: 25-Mayo-2006
2,190,000,000 resultados
http://www.google.com/search?q=site%3At1ps2see.com

eiqz2q.org (dada de baja)
Fecha de creación:31-Mayo-2006
3,780,000,000 resultados
http://www.google.com/search?num=100...e%3Aeiqz2q.org

rfni70.org (dada de baja)
Fecha de creación:31-Mayo-2006
940,000,000 resultados
http://www.google.com/search?num=100&;q=site:rfni70.org

jkthy0.org (dada de baja)
Fecha de creación:31-Mayo-2006
59,700,000 resultados
http://www.google.com/search?num=100...e%3Ajkthy0.org

geku8h.org (dada de baja)
Fecha de creación:31-Mayo-2006
92,800,000
http://www.google.com/search?num=100...e%3Ageku8h.org

En esta web http://merged.ca/monetize/flat/how-to-get-billions-of-pages-indexed-by-Google.html muestran paso a paso como crear tu propio MONSTRUITO.

1º Registrar un dominio, sin sentido del tipo de 22ra42j.com

2º Configurar el servidor para que maneje todos sus dominios y subdomains, necesitará servir muchas páginas en pocos días. (Con mod_rewrite pueden hacer de todo).

3º Buscar una base de datos de artículos, estos serán la semilla para generar los miles de millones de páginas. La fuente de información puede ser buscadores, wikipedia, etc, etc, etc. Luego realiza cambios en los resultados generados, para que no tomen los contendios como duplicados.

4º Crear o buscar un script que genera los dominios, subdominios y subdominios de subdiminios, pues muchos buscadores consideran los subdominios como webs nuevas. El script va generando contenidos en funcion de determinadas palabras que se le van pasando.

5º Una vez lanzado el ataque, sólo queda esperar unas semanas y ver los resultados, el sitio tendrá creado un MONSTRUOSO arbol de páginas sin sentido.

6º Por último habla de la posibilidad de meter publicidad, para sacar un poco de plata.

La conclusión que saco de todo esto, es que los grandes buscadores (Yahoo, Google, MSN, etc) tienen un serio problema, utilizando estas formas de SPAM. Esta en concreto no está muy elaborada y está al alcance de mucha gente.

¿Que puede ocurrir con la proliferación de este tipo de webs spam?

- Está claro que es una perdida de recursos muy grande.
- Indexar millones de páginas cuesta su dinero.
- La publicidad insertada en ese tipo de webs, daña la imágen de los buscadores.
- Estas webs se están posicionando de forma privilegiada, cuando no estan aportando absolutamente nada.



Suscríbete a nuestro Boletín

0 Comments:

Publicar un comentario

Gracias por dejar un comentario en Segu-Info.

Gracias por comentar!