Blog de David Rodriguez

Internet, tecnologia, programacion, SEO

Proteger formularios contra robots y web spam

Mayo 20th, 2008 by David Rodriguez

Todo el que tenga formularios en internet, más tarde o más temprano, tendrá robots que le envian información para intentar introducir en su base de datos urls, etc.

Un sistema bastante común es el de Captcha, que es la tipica imagen distorsionada, el cual no me gusta como usuario, ya que es obligar al usuario a utilizar un campo más de un formulario, lo que puede hacer perder un posible usuario (a mi me pasa ;) ). Ademas, los programas OCR reconocedores de imagenes, hacen que las imagenes sean tan distorsionadas que son incluso complicado para un humano reconocerlas. Como veis, no es un campo que me guste, con lo cual, quien quiera proteger sus formularios de esta forma, pues tiene multiples módulos para generar estas imagenes, yo prefiero otras formas.

A continuación, paso a detallar posibles metodos anti-robot los cuales he utilizado para proteger los formularios. Cuanto más pongas, mas dificil tendrá el robot introducir su porquería. Algún ejemplo estará realizado en php, aunque la idea se puede exportar a todos los lenguajes. Para entendernos mejor, llamaremos Pagina1 a la pagina del formulario y Pagina2 a la pagina donde se realiza la operacion de negocio de ese formulario(envio correo, guardar en base de datos, etc).

1.- Realizar comprobaciones de los datos en el lado del cliente y en el lado de servidor.

Obviamente, solemos realizar las comprobaciones Javascript en el lado del cliente para que el “usuario normal” no introduzca datos erroneos en la Pagina1. Los robots se saltan esta limitación, asi que debemos comprobar en el servidor, que todos los datos tienen el formato correcto, en la Pagina2.

Por ejemplo, si pedimos el telefono o código postal, pues en el lado del servidor debemos comprobar que nos llega un dato numérico , o la misma comprobación que hagamos en javascript.

2.- Controlar la sesión del usuario.

Controlar mediante sesiones, que el usuario que entra en la Pagina2 viene exclusivamente de la Pagina1. Es decir, tenemos una variable que guardamos en la sesion del usuario, por ejemplo, con valor 1, y cuando leamos esa variable en Pagina2, pues si tiene ese valor es que viene de Pagina1, y modificamos su valor para que tenga que volver a pasar por el formulario. De esta forma, tambien limitamos que el usuario pueda dar 100 veces a refrescar la página, y nos introduzca sus datos 100 veces.

3.- Introducir un campo oculto en el formulario con la una clave dinámica y encriptada.

Podremos poner en el formulario, un campo “hidden” cuyo valor sea una clave encriptada que nosotros sabemos. Si esta clave es dinámica, pues mucho mejor.

Por ejemplo,

<input type=”hidden” name=”clave” value=”<?=md5(‘CLAVEqueQueremos’.$datodinamico.$numeroaleatorio)?>”

Es decir, en este ejemplo, nos generamos una clave con los siguientes campos:

- CLAVEqueQueremos: Una cadena de texto que nosotros definimos y que solo nosotros conocemos.

- $datodinamico: algun dato que identifique al formulario y que sea dinamico, si por ejemplo estamos haciendo una compra de un producto, pues el productoId sería la opción

- $numeroaleatorio: Número aleatorio que generamos en cada petición y que podemos pasarselo a la Pagina2 en otro campo hidden o guardarlo en una tabla o fichero temporal para consultarlo desde Pagina2.

Una vez hecho esto, se encripta para que el resultado visible en el navegador sea una cadena de texto extraña. Aquí he puesto como ejemplo el metodo de encriptación md5, pero se puede utilizar cualquier método de encriptación.

En Pagina2, volvemos a generar esta clave, la encriptamos, y comprobamos que es lo mismo que nos viene de Pagina1 del campo “clave”.

4.- Introducir un campo oculto por css con nombre email

Introducir un campo cuyo nombre contenga la palabra “email”, y ocultarlo con estilos(style=”display:none”). En el value del campo, introducimos un valor que no sea un email, ya que está comprobado que los robots rellenan con un email aleatorio todos los campos que encuentran con ese nombre. De esta forma, en Pagina2, podemos comprobar que ese campo que nos llega no tenga formato de email.

Ejemplo:

En Pagina1:

<input type=”text” name=”emaildementira” value=”A” style=”display:none”>

En Pagina2:

Comprobamos que en el campo “emaildementira” no nos llega una @.

Con todo esto, lo que haremos será entorpecer un poco más los robots de envio de porqueria con formularios. Esto evoluciona cada día, con lo cual, no es una panacea, pero por lo menos se lo ponemos más dificil a los spam-robots. Por lo menos que el programador que lo ejecuta … que se lo curre un poco más.

Si teneis algún otro método que no conozca .. aquí estamos para conocerlo.

Si alguno tiene muchos problemas de realizar estos pasos, que me mande un email que se lo explico con más detalle.

Espero que os sirva.

Posts relacionados

This entry was posted on Martes, Mayo 20th, 2008 at 9:31 am and is filed under Internet, Programacion, Seguridad. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

10 responses about “Proteger formularios contra robots y web spam”

  1. meneame.net said:

    Proteger formularios contra robots y web spam…

    En este post podemos leer diferentes métodos anti-robot para proteger los formularios del tan molesto spam. Muy útil e interesante….

  2. clioxk said:

    quisiera aprender a aaaaaaaaa

  3. David said:

    Hola Clioxk, dime cual es el problema que tienes para implementar esta solucion e intentamos ayudarte.

  4. Nam said:

    Hola muy interesante el articulo, lo encontre xq busco algo similar nada mas q referido a protejer d spam a los LIBROS DE VISITAS, resulta q tengo un libro de visitas en flash, pero nose como protejerlo contra los bots d spam, tampoco me gustan los libros con capatcha.

  5. German said:

    Interesante approach. Intentaré aplicarlo al próximo sitio en el que debe usar captcha.

    De todos modos, considerar que protege sólo contra los robots, pero no contra herramientas o scripts dirigidos al sitio.

    Salu2

  6. Herramienta para saber el puesto en google: Free Monitor for Google | Blog de David Rodriguez said:

    [...] Las estadisticas se puede configurar para saber el numero de posiciones en las que buscar. Se recomienda no poner un número muy elevado, ni ejecutar esta aplicacion el mismo dia con muchas urls o muchas palabras de búsqueda, ya que google “capa” las IPs de las que esta recibiendo muchas solicitudes, y entonces cuando entres, tendras que meter un captcha. [...]

  7. winsur said:

    Muy interesante y muy útil. ¡Gracias!

  8. Me han publicado un escrito en la revista SoloProgramadores | Blog de David Rodriguez said:

    [...] Pues si, la verdad que estoy muy contento porque me han publicado un escrito sobre como proteger formularios contra robots y webspam. [...]

  9. Los robots de formularios están de vacaciones de semana santa | Blog de David Rodriguez said:

    [...] Es algo muy raro que está pasando .. pero en estos días de principio de semana santa, hemos tenido muchos menos ataques de formularios por robots y web spam. [...]

  10. Como configurar un servidor de correo qmail para hacer un relay selectivo | Blog de David Rodriguez said:

    [...] que nos deje enviar esos correos desde la otra maquina. Esta opción siempre viene cortada para evitar los ataques de SPAM a esa [...]

Leave a Reply