Cómo identificar los robots malos y bloquearlos

Hay bots buenos y hay malos bots. Buena bots (robots que arrastran de un sitio web) gatean e indexar su sitio y en el tráfico. Los robots malos consumen ancho de banda, ralentizar su servidor, roban su contenido y buscan vulnerabilidad comprometer el servidor.

Yo he batallado en los últimos 15 años como administrador de sistemas. Este 'Cómo' se basa en mi experiencia personal. Bots malos vienen en todos los tamaños y diferentes cadenas User-Agent para identificarse. Hay muchos bots por ahí - que puede rastrear su sitio con diferentes niveles de rapidez. Aunque muchos son inofensivos. Otro de los motores de búsqueda, algunos robots son operados por otras agencias legítimas para determinar la mejor coincidencia de campaña para el contenido de la página para un anunciante potencial o buscar vincular información o tomar una instantánea para fines de archiving.

Se puede encontrar una lista de los bots comunes aquí:

Lo podríamos decir - obedecen las directivas de Robots.txt en un determinado sitio Web. La lista contiene los bots con información de identificación personal en su campo User-Agent. Cuando navegas a través de la lista, usted también encontrará que muchos motores de búsqueda principales cambiar cadenas de agente de usuario según su necesidad. Los robots más decentes le dará su enlace de contacto en su cadena de agente de usuario para ayudar a los webmaster a comunicar su preferencia o a ofrecer formas de bloque desde el archivo de texto - Robots.txt
Puede ralentizar la velocidad de arrastre o denegar el acceso a ciertos directorios de ese archivo de texto.

Por ejemplo, se puede denegar el acceso a todas las páginas en su raíz para este bot 'Zum' del archivo robots.txt como aquí:

User-agent: ZumBot

Disallow: /

Todos los robots regulares leerá este archivo y obedecer las directivas contenidas allí. Pero malos bots no se molesten a leer su archivo de robots o leer para saber cuáles son los directorios prohibidos a gatear. Por eso, este ' Cómo identificar malos bots utiliza un simple ardid para detectar su intención y crear un archivo de registro de acción.

Paso 1: crear un archivo que puede escribir un registro en su servidor. He dado un Perl script aquí bots.pl. Asegúrese de que este archivo se guarda en su directorio cgi-bin (suponiendo que el servidor puede ejecutar script Perl). Establezca el permiso para ejecutar este archivo de texto. Encienda su navegador y apuntar a esta página. Usted puede leer la cadena de User Agent del navegador, su dirección IP, la página de referente (será en blanco ahora) y la hora del servidor en el que fue servida esta petición. Por cierto, usted verá una página en blanco.

Paso 2: el bots.pl arriba de la página debería estar vinculado desde su índice - ocultado a los visitantes humanos.
Crear un enlace así:

< a href = "tu domain/cgi-bin/bots.pl >< /a >

Ahora se establecen. El archivo de registro contiene los detalles de los robots malos. Pero esperar. Para conservar ancho de banda más bots normales los almacenará en caché el robots.txt. Así que es una posibilidad que puede haber en caché tu robots.txt antes y puede no ser conscientes de la nueva Directiva. En tal caso, le arrastran esta página bloqueada. Así que ignorarlos en su lista.

Bloqueo de robots malos

Revise este archivo malo-bots más adelante para otras medidas correctivas. Hay muchas maneras de negar el acceso a estos robots no deseados.

Opción 1:
Usted puede comprobar la dirección IP contra una lista blanca (añadir tu propia dirección IP así como de los principales motores de búsqueda en la lista blanca) y las direcciones IP finales pueden ser bloqueadas en el firewall.

O asignar la cadena de agente de usuario a la lista denegar que puede resultar en 403 – estado (prohibido). Utiliza menos recursos del servidor.

Por ejemplo, uno de nuestros sitios utiliza un script CGI en nuestro CMS. El siguiente fragmento de código le enviará un estado prohibido 403 – para agentes de usuario wget y Zum:

Si ($ENV {'HTTP_USER_AGENT'} = ~ / wget|zum/i) {}
Imprimir "estado: 403 Forbidden\n"; Imprimir "contenido-tipo: texto / html \n\n"; salida; }

Opción 2:
Puede usar .htaccess para bloquear los robots malos suponiendo que utiliza el servidor Apache HTTP. En caso de tener unos robots malos que utilizan una particular cadena User-Agent regularmente, es fácil de bloquear en esa cadena.

SetEnvIfNoCase User-Agent "^ Wget" bad_user
SetEnvIfNoCase User-Agent "^ Acertijo" bad_user

Negar de env = bad_user

El Instructable arriba se basa en este blog.

Gracias por leer este Instructable. Estaré encantado de responder cualquier consulta relacionada con este Instructable en la sección de comentarios.

Artículos Relacionados

Los robots de batalla

Los robots de batalla

Luchar contra a tus amigos con estos robots de batalla con procesador Intel. Esta pequeña explosión de bots con arroja a chorros de agua y detectar golpes con sensores de agua alineados a lo largo de sus cuerpos. Cada bot es alimentado por una placa
Cómo construir Sauron el Señor de los Robots

Cómo construir Sauron el Señor de los Robots

¿Eres un fan de la serie de la película el Señor de los anillos? Si es así seguro que conoces "Sauron"!En este instructable construiremos un robot de tamaño humano semi humanoides parece Sauron :)El robot tiene dos brazos DOF 3 y una cabeza DOF
Los Robots bailando magnética

Los Robots bailando magnética

Introducción-¿Cómo funciona?La configuración esencial será un grueso libro de tapa dura. Debajo de la cubierta, habrá dos (o puede ser más) girando alrededor. En la cubierta, puede configurar dos robots construidos de metal, y serán móviles debido a
¿Cómo utilizar software de programación gráfica para programa de Arduino y los robots?

¿Cómo utilizar software de programación gráfica para programa de Arduino y los robots?

Hola todos, última vez que vi un robot divertido para enseñar a los niños robótica (puede obtener más información en su página de Kickstarter ). Pero estoy más interesado en la gráfica mBlock programación de lengua. Se dice que es un entorno de progr
El ataque de los robots ALIEN mutante!!!!!!

El ataque de los robots ALIEN mutante!!!!!!

Oficialmente, soy el primer colombiano pruebas Sugru. Es un privilegio y una buena excusa para hacer algo siempre deseó: una cosa mutante malvada con piernas robóticas. Piernas robóticas de arácnidos. Me encanta Krang de "Teenage Mutant Ninja Turtles
Origami cabeza de Robot - marcha de los Robots

Origami cabeza de Robot - marcha de los Robots

En Leeds (Reino Unido) en el momento, Leeds lúdico tienen un evento donde planea hacer 10.000 robots en la ciudad. Para ayudar, he diseñado este origami cabeza de robot para roboticising fácil y rápido el fin de semana final.Paso 1: Dobla tu papel en
Cómo identificar los cables rojo y amarillo en un termopar con un imán!

Cómo identificar los cables rojo y amarillo en un termopar con un imán!

Si no quieres leer este relato entero, se cortar a la persecución con un spoiler:El cable rojo en un palo del no de termopar tipo K a un imán y el cable amarillo va a un imán!Corto y dulce. Presentar en su cerebro porque usted necesitará algún día.OK
Globos, pelotas y los Robots de una impresora de escritorio!

Globos, pelotas y los Robots de una impresora de escritorio!

Impresión y ensamble de globos de la tierra, Marte, la luna o la estrella de la muerte!Convierte tus fotos panorámicas en esferas que transportan al espectador a que tiempo y lugar!Decora tu árbol de Navidad con bolas ornamentales a medida en todos l
Identificar los archivos de la aguja por la forma de manejar sus

Identificar los archivos de la aguja por la forma de manejar sus

yo siempre estoy llegando para mi sistema de archivos de la aguja, pero no siempre acertado en agarrar la necesito.  Aquí está una manera simple de mangos que fácilmente identifican la forma de un archivo de aguja así que usted puede seleccionar el c
Fijar su Monitor - sustitución de condensadores

Fijar su Monitor - sustitución de condensadores

en este video te mostramos cómo solucionar uno de los problemas más comunes que sucede con los monitores. Nueve veces de cada diez un monitor puede fijarse para menos de $10,00 dólares. Condensadores son más baratos que la suciedad y con un poco de p
Los músculos de aire: Hacer un músculo Artificial de control del Robot

Los músculos de aire: Hacer un músculo Artificial de control del Robot

dos formas de hacer que un controlador que puede controlar los músculos de aire artificial. El pic de intro muestra la versión más elaborada que puede controlar hasta 11 músculos de aire usando las neuronas robot. Se muestra activando a una garra de
Chefbot: Un bricolaje móvil robot autónomo para servir comida en los hoteles

Chefbot: Un bricolaje móvil robot autónomo para servir comida en los hoteles

Como dice el titulo, vamos a ver cómo construir un robot móvil autónomo llamado Chefbot que es para servicio de alimentos y bebidas en hoteles y restaurantes.Este fue un proyecto de hobby y construí este robot después de ver un robot llamado Turtlebo
Construir los niños - mi primer brazo Robot

Construir los niños - mi primer brazo Robot

Mi papá me sigue diciendo que soy ingeniero pero no lo creo y eso me hace tímidos y blush. Me gustan los robots para que él me compró un kit de brazo robot de internet llamado el MeArm. Es un gran juego y se puede comprar uno de http://www.phenoptix.
EXTREMA presión circuitos programable Robot!

EXTREMA presión circuitos programable Robot!

En este Instructable usted aprenderá cómo construir un Robot programable presión extrema de circuitos. En primer lugar, usted aprenderá cómo instalar al Editor de programación de PICAXE (el PICAXE es el microcontrolador, o cerebro de computadora para