jueves, 21 de junio de 2012

Captcha y ReCaptcha

Con esta entrada quiero hablar sobre un sistema que todos conocemos pero, al menos en mi caso, no sabía cómo se llamaba, que es el Captcha. Además, también quiero hablar sobre su labor en la digitalización de libros.

Un Captcha es un programa que puede generar y evaluar pruebas de calidad que los seres humanos pueden superar, pero que los programas informáticos actuales no son capaces. Por ejemplo, una persona puede leer el texto distorsionado que se muestra a continuación, pero un programa informático no puede.

El término Captcha es el acrónimo de Completely Automated Public Turing Test To Tell Computers and Humans Apart, acuñado en el año 2000 por Luis von Ahn, Manuel Blum, Nicholas Hopper y John Langford, de la Carnegie Mellon University. En ese momento, el primer Captcha fue utilizado por el Yahoo.
Algunas aplicaciones de los Captchas:

  • Prevenir comentarios spam en blogs: Muchos “bloggers” están familiarizados con programas que generan comentarios falsos, por lo general con el propósito de incrementar la posibilidad de búsqueda de un sitio web determinado. Esto es lo que se conoce como spam. Mediante el uso de un Captcha, sólo las personas pueden introducir comentarios en un blog sin la necesidad de registrarse previamente.
  • Protección de registro de usuarios: Muchas empresas ofrecen servicios gratuitos de email. Hasta hace unos años, la mayoría de estos servicios sufrieron un tipo de ataque particular: robots que se registraban en miles de cuentas de correo electrónico por minuto. La solución a este problema fue utilizar Captchas para garantizar que sólo las personas pudiesen beneficiarse de este servicio.
  • Encuestas en línea: En noviembre de 1999, www.slashdot.org publicó una encuesta on-line para preguntar cual era la mejor escuela de posgrado en ciencias informáticas. Como sucede con la mayoría de las encuestas en línea, las direcciones IP de los votantes se registraron con el fin de evitar que los usuarios individuales votaran más de una vez. Sin embargo, los estudiantes de la Carnegie Mellon University encontraron la manera de votar a favor de su universidad miles de veces. El resultado es que  CMU comenzó a crecer rápidamente. Al día siguiente, los estudiantes del MIT, escribieron su propio programa y la encuesta se convirtió en una lucha entre “robots de voto”. MIT terminó con 21.156 votos, CMU con 21.032, y todas las demás escuelas con menos de 1.000.
  • Prevención de ataques de diccionario: Un Captcha también puede utilizarse para prevenir ataques de diccionario en sistemas de contraseñas. La idea es simple: impedir que un ordenador sea capaz de iterar a través de todo el espacio de las contraseñas que se requieren para resolver un Captcha después de un cierto número de intentos fallidos de acceso.

ReCaptcha: digitalizando libros palabra a palabra


ReCaptcha es un servicio gratuito de Captcha que ayuda a digitalizar libros, periódicos y programas de radio antiguos.
Sobre 200 millones de Captchas son resueltos por las personas cada día a nivel mundial. En cada caso, una persona gasta aproximadamente 10 segundos en resolverlo. Individualmente no es mucho tiempo, pero en conjunto estos pequeños puzles consumen más de 150.000 horas de trabajo cada día. ¿De qué forma se puede convertir en útil todo este esfuerzo humano? ReCaptcha hace justamente esto, transformando el esfuerzo empleado en resolver un Captcha en “leer” un libro.

Para archivar el conocimiento humano y para hacer más accesible la información al mundo, existen varios proyectos que se encuentran digitalizando los libros que fueron escritos antes de la era del ordenador. Las páginas de los libros están siendo escaneadas y luego transformadas en texto usando el "Reconocimiento óptico de caracteres" (OCR). La transformación en texto es útil porque escanear un libro produce imágenes, que son difíciles de almacenar en dispositivos pequeños y caros para descargar, y no se puede buscar. El problema es que OCR no es perfecto.

ReCaptcha mejora el proceso de digitalización de libros mediante el envío de las palabras que no pueden ser leídas por los ordenadores a la red en forma de letras cifradas para los seres humanos. Más específicamente, cada palabra que no se puede leer correctamente por OCR se coloca en una imagen y se utiliza como un Captcha.

En mi opinión, creo que a día de hoy el uso de Captchas es muy útil para evitar los correos basura o spam que tanto nos molestan, pero los sustituiría por ReCaptcha para ayudar simultáneamente a otra labor tan útil como es la digitalización de libros de la que luego todos nos beneficiamos. Me gustaría conocer vuestra opinión sobre los sistemas Captcha y ReCaptcha, sobretodo si conocíais este último.

Podéis encontrar más información en: http://www.captcha.net/





No hay comentarios: