Sitios web

Nuevo software detecta raspado de botes Datos del sitio web

Cómo debemos ordenar y renombrar las películas y series en Plex

Cómo debemos ordenar y renombrar las películas y series en Plex
Anonim

Los sitios web como las bolsas de empleo se enfrentan a un problema persistente: sus datos son robados constantemente por robots automatizados.

Los datos terminan en otras bolsas de trabajo competidoras, que han robado el contenido. Es un problema que afecta a cualquier sitio web cuya propiedad intelectual debe publicarse gratis, o incluso aquellos con modelos de suscripción.

Pero una empresa de seguridad con sede en Atlanta que se especializa en detectar bots ha desarrollado un software que puede detectar esos rasguños y minería de datos.

[Lectura adicional: cómo eliminar el malware de su PC con Windows]

El producto principal de Pramana, HumanPresent, detecta bots automatizados que, por ejemplo, ingresan spam en formularios web o se registran gratis. cuentas de correo electrónico que se utilizarán para correo no deseado.

Pramana ha desarrollado un módulo llamado "prevención de raspado de datos y exploración de pantalla" para HumanPresent. Funciona en muchos de los mismos principios que su producto principal, pero ha sido modificado para escenarios de minería de datos, dijo David Crowder, CEO de Pramana.

HumanPresent puede detectar bots al notar diferencias en la forma en que un humano normalmente interactuaría con una Web página y contrastando con cómo se comportan los robots. Mira más de 30 métricas, como golpes de teclado, clics del mouse y el tiempo de esas acciones.

HumanPresent analiza transacciones individuales, pero el módulo de minería de datos se ha modificado para ver un período de tiempo cuando un bot o humano está en el sitio, dijo Crowder.

Los robots de minería de datos tienden a burlar por completo la interfaz de usuario de un navegador. Por ejemplo, un bot puede solicitar una página web con muchos datos, pero nunca se desplaza o hace clic en una página. Si se abren y visualizan una serie de páginas de esa manera, podría significar que ha llegado un robot de minería de datos.

Pramana asigna una identificación única al visitante y, después de analizar el comportamiento del visitante, puede tomar una decisión sobre si etiquetarla el visitante un bot o no. Hay varias formas diferentes en que el operador de un sitio web puede elegir la situación.

La dirección IP (Protocolo de Internet) de la computadora del robot puede bloquearse permanentemente. El sitio web de una subasta de automóviles que está probando el módulo de minería de datos de Pramana decidió trasladar bots sospechosos a un "cajón de arena" donde se sirven datos completamente falsos.

"De hecho son minería de datos, está completamente equivocado", dijo Crowder..

Otras opciones incluyen avisar al visitante del sitio web con un desafío o una tarea, que algunos bots no son capaces de completar.

La minería de datos cuesta caro a las compañías. Las empresas que venden datos premium encontrarán que sus competidores comprarán una suscripción y luego usarán bots automatizados para robar los datos de sus propios sitios. En un ejemplo, un sitio web que tiene gigabytes de datos sobre precios de automóviles usados ​​descubrió que sus datos habían sido eliminados y estaban a la venta en eBay.

"En realidad están compitiendo con su propio contenido", dijo Crowder.

Algunos Los sitios web tienen diseños deficientes que hacen que los datos sean mucho más fáciles. El sitio de autos usados ​​tenía URLs (localizadores uniformes de recursos) podrían ser modificados secuencialmente para revelar más datos, dijo Crowder.

El módulo de extracción de datos estará incluido en el producto HumanPresent por ahora, pero a principios del próximo año Pramana planea venderlo por separado, dijo Crowder. Pramana ofrece HumanPresent ya sea como un dispositivo local o como una configuración de software como servicio.

Para la oferta SaaS (software como servicio), la tecnología de Pramana se integra en una aplicación web y la información de la sesión se envía de vuelta a Pramana para el análisis. Crowder dijo que Pramana ha podido reducir significativamente el tiempo de latencia en su última versión. Para los clientes que necesitan más velocidad, el dispositivo está disponible.