SAFE. Guía para proteger tu vida digital y tu privacidad

4 jul 2007

re Capcha

Nota de Segu-Info: Se puede encontrar más información de Captchas en "Leyendo lo que las máquinas no pueden (CAPTCHA)"

Hace unos meses estuvimos charlando el tema de los "Captcha" para poder identificar si un comentador es humano o no y las mil y una formas de violar estas técnicas.

Pero ahora me encuentro con una vuelta de tuerca super interesante, un sistema de captcha, si, pero con textos escaneados de libros antiguos. Recaptcha.

¿y para que serviría? para poder digitalizarlos mejor! es que los software de OCR (detección de texto) son falibles con estos escaneos de baja calidad, así que no sólo sirven para la seguridad del sitio, si para la cultura general.

Como pueden ver en el ejemplo, es normal que muchas letras no sean bien escaneadas o la letra original sea muy cerrada o difusa, así, y sacando un promedio de varios captcha a la vez , se puede tener el texto correcto.

a 100 comentarios diarios, 200 palabras, 100 blogs podrían tener siete millones de palabras al año, imaginen miles de blogs, algunos que tienen no 100 comentarios, varios cientos al día, bueno, hagan sus cuentas, esto es OCR distribuído.

Y como siempre, el único que actualmente podría acertar siempre, es un humano o un sistema de OCR demasiado complejo y caro como para justificarse el uso en un weblog.

Fuente: http://www.fabio.com.ar/verpost.php?id_noticia=2165



Suscríbete a nuestro Boletín

0 Comments:

Publicar un comentario

Gracias por dejar un comentario en Segu-Info.

Gracias por comentar!