Adiós al spam en Google Analytics

Adiós al spam en Google Analytics

En los últimos meses el spam de Google Analytics se ha convertido en un tema recurrente en cualquier blog de analítica web. Obviamente, debido a su brutal expansión que nos ha hecho mucho más conscientes de su existencia y sus consecuencias. Pero por fin parece que Google ha acabado con el problema y ya no lo veremos más.

Empecé a escribir este artículo para analizar cómo es ese spam y en saber hasta qué punto puede afectar a las métricas de cualquier web, hoy ha saltado la noticia de que Google eliminaba definitivamente el spam (veremos si es así). De momento, con los datos a mi alcance puedo confirmar que desde el día 24 de enero no detecto visitas fantasma.

¿Cómo es el spam en Google Analytics?

Hace casi un año, trabajando en la configuración de la cuenta de un cliente me encontré que el spam suponía la mitad de sus visitas, con lo cual sacar cualquier conclusión de sus datos de analytics, en bruto, era pura ciencia ficción, lo que me llevó a preguntarme: ¿Cuánto puede llegar a afectar el spam a las cifras reales?

Sabemos que hay dos tipos de visitas fraudulentas: las de robots que realmente visitan el sitio y dejan su rastro, y los ataques directos a Google Analytics a través de Measurement Protocol que ni siquiera visitan la web y que son los que más crecieron el año pasado.

Si se trata de ataques a IDs aleatorios, cualquier propiedad de Google Analytics debería recibirlos aunque no esté en uso en ninguna web, de modo que hice una propiedad nueva, únicamente destinada a recoger esos ataques aleatorios y la dejé en espera.

El resultado: desde el 3 de junio de 2015 hasta el 24 de enero de 2016 (casi 8 meses) esa propiedad ha recogido 2.420 sesiones que son exclusivamente de spam, parando el tráfico a partir de esa fecha, lo que no quiere decir que los ataques de spam hayan cesado, pues en otras cuentas reales sigo observándolos, pero parece estar relacionado con los cambios introducidos por Google para combatir el problema.

El 24/1 de 2016 deja de registrarse spam en esta cuenta de Google Analytics

El 24/1 de 2016 deja de registrarse spam en esta cuenta de Google Analytics

Evidentemente el resultado no es 100% extrapolable. Que esta cuenta haya recibido ese tráfico no significa que todas reciban el mismo, puesto que desconocemos los parámetros que ataque de los spammers, pero su análisis puede ayudarnos a conocer un poco mejor su comportamiento.

Si tienes menos de 13.000 visitas al mes y no filtras el spam estás tomando decisiones con datos erróneos.

El primer dato que buscaba con este experimento es conocer hasta qué punto puede afectar el spam al tráfico real. Hay quien sostiene que a webs pequeñas les puede alterar los datos, pero que con muchas visitas el efecto del spam es despreciable pero ¿cuánto son muchas?

Mensualizando los datos vemos que hubo un máximo de sesiones en julio que alcanzó las 633 visitas fantasma. Esto significa que cualquier web con menos de 600 visitas al mes, que no se haya preocupado de configurar Google Analytics correctamente para filtrar este tráfico, puede estar tomando sus decisiones en base al spam, en lugar de en base al comportamiento de sus usuarios. Pero además, si consideramos que podríamos empezar a despreciarlo cuando suponga menos del 5% (y ya me parece mucho), necesitaríamos a partir de 13.000 visitas al mes para que pudiéramos despreocuparnos de este problema.

Perfilando el tráfico de spam en Google Analytics

Una de las cosas que más se repiten en los artículos sobre el spam, es que son visitas nuevas, que rebotan, ven sólo una página y el tiempo de visita es cero, y aunque es así la mayor parte de las veces, he comprobado que no puede ser un criterio para detectar las visitas fantasma, puesto que no siempre se cumple.

En los datos totales de los ocho meses tenemos 2.178 usuarios que hacen 2.420 sesiones, de los cuales el 5% son usuarios recurrentes.

Las 2.420 sesiones han “visto” 2.543 páginas, por lo que no son visitas de página única.

Y el porcentaje de rebote es del 90,45% por lo que no todos rebotan, lo que no deja de ser curioso puesto que recordemos que no existe ninguna web en la que poder rebotar o seguir navegando.

Además el tiempo medio de sesión (contando tanto el tráfico que rebota, con tiempo cero, como el que no lo hace) es de 20 segundos.

El tráfico fantasma que no rebota procede de 209 usuarios, que hacen 231 visitas y 354 páginas vistas en una media de ¡tres minutos y medio por sesión! Sin duda el tiempo de sesión no sirve como criterio para identificar una visita falsa.

Datos principales del spam en Google Analytics

Información geográfica del spam

Más del 88% de las sesiones no tienen definido un idioma, y en el resto encontramos el inglés, el español y, en último lugar, el ruso.

Casi el 29% tampoco tiene definido el país de origen, pero encontramos 87 países diferentes, predominando EE.UU, China y Rusia, y también con un 1% de visitas de España.

Datos geográficos del Spam  en Google Analytics

Comportamiento del tráfico fantasma

Aunque la mayoría de las visitas se identifican como usuarios distintos y, por lo tanto nuevos, también las hay reincidentes, que hacen desde 2, hasta más de 200 visitas por usuario.

En cuanto al tiempo de visita, suele ser inferior a 10 segundos, pero también encontramos visitas con más de 10 minutos.

Incluso activando el User-ID, vemos que hay algo más de un 3% de las sesiones que tienen asignado un User-ID.

Tecnología

Una cosa que llama la atención es el sistema operativo con el que se identifican estas falsas visitas, que es Macintosh en un 87%, muy superior al comportamiento normal de los usuarios, por lo que el tráfico fantasma estará sobre-representando a los usuarios de Mac en las estadísticas, pero dejándolos muy mal en cuanto a su comportamiento en la web. No obstante aparecen todos los sistemas habituales, con los navegadores habituales.

Lo que no suele reflejarse es la resolución de pantalla, que en más del 90% de sesiones se omite, lo mismo que los colores de pantalla y la versión de flash (omitida en casi el 98% de los casos).

El proveedor de servicios también aparece reflejado con variedad de opciones, alguna de ellas tan conocidas que nunca nos harían sospechar nada.

Y llegamos al nombre del host, la clave con la que podemos eliminar estas visitas si sólo permitimos el tráfico de nuestro propio host.

Aquí es importante reseñar que no solo los host extraños son spam, sino que algunas de estas visitas tratan de camuflarse usando nombres de host tan conocidos como “google.com” o “googleusercontent.com”. Estas últimas serían un intento de asaltar incluso las cuentas en las que se han preocupado de crear un filtro de host para evitar el spam, pero que para no dejarse ni una visita de tráfico real se ha incluido el host propio y dos host de Google de los que se pueden recibir visitas reales:

  • La caché: webcache.googleusercontent.com
  • El traductor: translate.googleusercontent.com

Llegados a este punto hay que preguntarse si el tráfico desde la caché o el traductor es tan alto como para que merezca la pena incluirlo y, de ser así, usar una expresión regular como “(webcache|translate).googleusercontent.com” en lugar de poner solo el dominio principal y, aún así, es muy posible que también llegue a colarse alguna visita falsa que use estos dominios completos como host.

Móvil

En el informe de tecnología móvil volvemos a encontrarnos la preferencia de los spammers por Apple. Aunque el spam se identifica como desktop en mucha mayor proporción que las visitas reales, cuando se identifica como móvil lo hace casi siempre como iPhone, aunque también aparecen otras marcas y sistemas operativos.

Adquisición

Otra de las cosas que podemos comprobar con este experimento es que el denominado “Referral Spam” no siempre es referral. Es decir, su medio de origen es referencias en más de un 81%, pero también hay un 17% de visitas directas falsas y otro 1 % de tráfico orgánico falso.

Estas visitas identificadas como directas y orgánicas siempre aterrizan en la home (“/”),  mientras que en las de referencias encontramos la ya más que conocida retahíla de dominios de spam que no siempre lo hacen y hasta se inventan páginas de destino ficticias.

Además encontramos un pequeño grupo de visitas con etiquetado de campañas, e incluso visitas falsas con palabras clave orgánica. Ahora que ya casi nos hemos quedado sin las keywords de búsqueda reales podemos consolarnos con las falsas.

Contenido del sitio

Ya hemos visto que las visitas de referencias a veces se inventan páginas de destino, puesto que desconocen la estructura de la web que están atacando.

En este experimento las páginas vistas que se han registrado se han utilizado para reforzar el dominio de referencia y tratar de garantizarse algún click más a sus webs, así aparecen como “/?from=http://dominio.de.spam/” e incluso a veces incluyen una variable con un código de referencia que podría estar usándose para analizar la efectividad del ataque en cada caso lo que podría permitir intensificarlo en los IDs de Google Analytics más “receptivos” a esta técnica.

Eventos

Los eventos no se libran de los ataques y registran 60 visitas con su categoría, acción y etiqueta correspondientes y, afortunadamente, sin asignar valor alguno. En este caso es un único atacante y son fáciles de identificar para un analista, aunque el profano probablemente picará en la trampa y visitará la web del atacante.

Conversiones

Afortunadamente tampoco hemos registrado datos en los paneles de conversiones, aunque inevitablemente se verán alteradas las tasas de conversión al aumentar el número de sesiones con visitas fantasma.

Conclusiones

En definitiva el referral spam es bastante más complicado de identificar inequívocamente de lo que pudiera parecer, pues su comportamiento es muy variable para tratar de ocultarse, y ni siquiera aparece exclusivamente como tráfico de referencias.

Aunque el volumen varía mucho de un mes a otro, cualquier web con menos de 13.000 visitas al mes debería tomarse muy en serio el configurar adecuadamente Google Analytics para evitar el spam, y tanto más en serio cuanto menos visitas tenga. Ahora que Google parece haber acabado con estas visitas, las webs con poco tráfico notarán una caída de las visitas que, por supuesto, no es real.

Google Analytics consiguió popularizar la analítica web al ofrecer una herramienta gratuita y fácil de usar para cualquiera, que permitía conocer el comportamiento de los usuarios en cualquier web. Con la oleada de spam de los últimos meses esto ha cambiado radicalmente. Las organizaciones que puedan permitirse dedicar recursos a la analítica no tienen de que preocuparse, pues ya se ocupara un especialista de filtrar los datos falsos para sacar conclusiones correctas. Pero todas las pequeñas webs que simplemente copian y pegan el tag, y no tienen ni recursos, ni conocimientos para ocuparse de esto simplemente han dejado de poder confiar en los datos de Google Analytics, ya que puede ocurrir que sean falsos en su mayoría, así que la reacción de Google era más que lógica, aunque ha tardado en llegar bastante más de lo deseado.

Ahora solo falta que comprobemos si realmente han conseguido eliminar el problema por completo. En principio con los datos de esta cuenta de pruebas parece que si ¿y en las demás? ¿cuando es el último día que detectáis problemas de spam en vuestras cuentas?

 

Sobre Oscar G. Peinado

Ingeniero Técnico Industrial. Máster en Analítica Web por KSchool. Posgrado en SEO & SEM por INESDI. Certificado en Google Analytics (GAIQ). Vinculado al medio online desde 2006. Más de 17 años como analista para revistas como MacWorld y PC World, de la que fue director del laboratorio, y responsable de contenidos, analítica web y SEO de PC World Digital.

Trackbacks/Pingbacks

  1. @javiriestra - RT @mjcachon: Adiós al spam en Google Analytics - La Métrica https://t.co/EvPGMoYDkP by @ogpeinado
  2. @AlicanteMKT - RT @mjcachon: Adiós al spam en Google Analytics - La Métrica https://t.co/EvPGMoYDkP by @ogpeinado
  3. @sandrigarci - RT @mjcachon: Adiós al spam en Google Analytics - La Métrica https://t.co/EvPGMoYDkP by @ogpeinado
  4. @berengueremilio - javiergosende: RT mjcachon: Adiós al spam en Google Analytics - La Métrica https://t.co/ZO8xX6AZwB by ogpeinado
  5. @Malale - RT @mjcachon: Adiós al spam en Google Analytics - La Métrica https://t.co/lncOJlWy2r by @ogpeinado
  6. @agarrido_t - RT @noe: Adiós al spam en Google Analytics - La Métrica - https://t.co/FS8hnV7Lsm
  7. @antjrodriguez - Adiós al spam en Google Analytics - La Métrica https://t.co/RLU3EeSTX8
  8. @DPerniaR - Adiós al spam en Google Analytics - https://t.co/nT7E7PzDhb

Deja un comentario