Cognizant 5 Sin categorizar 5 El auge de la segmentación contextual. Una prueba de concepto

El auge de la segmentación contextual. Una prueba de concepto

Las cookies de terceros que rastrean tus movimientos en la red morirán inevitablemente antes de finales de 2023. En este contexto, cabe preguntarse ¿cuál será el futuro de la publicidad ahora que la columna vertebral de esta tecnología que casi lee mentes llega a su fin? Hoy, los sitios web inyectan 34 cookies de media en nuestros navegadores, de las cuales un 70% son de terceros con caducidad para el año 9999, según Information Commissioner’s Office (ICO).

Pero no siempre nos han espiado en la web. Tradicionalmente, la posición de los anuncios se ha basado en el contexto, no fue hasta más tarde cuando se pasó a la elaboración de perfiles basados en la información del usuario. Para que nos entendamos:

  • Para los anuncios que se dirigen específicamente a un lugar, el contexto es obligatorio (las cookies de origen funcionan bastante bien)
  • Para los anuncios que se dirigen a una audiencia, el comportamiento de usuario es obligatorio (las cookies de terceros son la solución ideal)

Hoy, gracias a las estrictas políticas de GPRD sobre privacidad online y a que navegadores como Safari y Google Chrome han optado por el camino sin cookies para cumplir con la normativa, es inevitable la vuelta a lo contextual. De hecho, cerca del 50% de los anunciantes online en EE.UU. y un tercio de los de Reino Unido nunca perdieron la fe en la segmentación contextual.

Pero, ¿qué es la segmentación contextual?

La segmentación contextual utiliza keywords basadas en el contenido de una página para mostrar el anuncio. Es agnóstica del usuario. Eso quiere decir que no requiere datos históricos o pasados. Cuando queremos dirigir una campaña de publicidad al sitio correcto, la segmentación contextual se convierte en una prioridad. A diferencia de otros enfoques, la publicidad contextual es menos molesta para el usuario final, pues los anuncios que se muestran siempre estarán relacionados con la información que buscan en ese momento.

El caso “burn baby burn”

Una leyenda urbana cuenta la historia de un website de noticias australiano que hace años informó de una tragedia: un fuego causó la muerte de un recién nacido y serias heridas a otro. Sobre el artículo descansaba un gran banner de una bebida energética con un eslogan muy poco apropiado: «Burn baby burn». Esta anécdota cruel y extraña pone sobre la mesa algunos de los desafíos que debemos resolver cuando elegimos el enfoque contextual.

La era de la IA y de la seguridad de marca

En la actualidad, el uso de la inteligencia artificial ofrece una compresión más precisa del contenido. Esto ayuda a las compañías a dirigirse a sus usuarios de manera segura para la marca. Por ejemplo, el procesamiento de lenguaje natural (Natural Language Processing, sus siglas en inglés NLP) es la rama de la IA que se ocupa de dar a las máquinas la capacidad de entender el texto de una forma en que puede extraer el significado clave para tener conversaciones “reales” con los humanos.

Prototipando una app de segmentación contextual

En Cognizant, nos reunimos periódicamente para presentar ideas que queremos explorar más a fondo. Por regla general, desarrollamos una prueba de concepto y compartimos la experiencia completa con nuestros compañeros. Son presentaciones de 20 minutos, a las que llamamos sesiones técnicas, y que concebimos como un espacio de investigación, totalmente espontáneo y voluntario, donde imaginamos soluciones que van más allá de lo que hacemos sobre el terreno.

Hace algunas semanas, nuestro equipo de IA del Sur de Europa presentó una pequeña demo para una app sencilla de segmentación contextual. La idea era construir una aplicación lo suficientemente general en tiempo récord que sólo necesitara, por ejemplo, una URL de un artículo publicado en algunos de sitios de noticias, procesar su contenido y encontrar los anuncios más apropiados.

La arquitectura

Lo primero era crear una base de datos de muestra que contuviera varios anuncios. La información sobre los anuncios se almacenaba en un fichero .csv en Azure Blob Storage. Este archivo contendría:

  • El ID del anuncio
  • La compañía que publicaba el anuncio
  • Una breve descripción del anuncio
  • La URL de la imagen del anuncio, almacenado en Azure Blob Storage
  • Una incrustación de documento de la descripción del anuncio

El usuario entra en la URL del website objetivo. El texto del sitio web es analizado y convertido en un vector embebido junto con imágenes que también se convierten en texto. Este vector se compara con las incrustaciones del anuncio utilizando la similitud del coseno para encontrar lo anuncios más relevantes.  En la siguiente imagen se ve cómo el equipo explica todo el proceso.

El proceso para crear estas incrustaciones es el siguiente:

  1. Se envían el texto para el sitio web y para la URL del site, y la descripción del anuncio para una tarea de síntesis con el objetivo de reducir el número de palabras que se deben gestionar. Para ello, se utilizó un modelo de código abierto como Pegasus.
  2. Se eliminan las palabras de parada y los conectores.
  3. Las keywords resultantes se convierten en el input de un modelo KeyBERT que genera una representación de vector embebida del texto.
  4. Las distancias entre los vectores se calculan por pares para encontrar el anuncio más relacionado.

Antes de todos estos pasos, se utiliza un modelo pre-entrenado de Hugging Face para calcular el sentimiento del contenido del site (negativo, positivo, neutral) de manera que si estuviera por debajo de algún umbral, se requeriría una nueva URL.

La hora de la publicidad

Por último, utilizando Gradio, una biblioteca de Python muy práctica, el equipo pudo crear rápidamente un prototipo de aplicación web totalmente funcional para mostrar la funcionalidad.

Autores

Sandro Berisso

Data Scientist - Analytics - Natural Language Processing – AWS