Walt Disney también usa Big Data

Walt Disney, una de las compañías más grandes del mundo y mejor valoradas según la prestigiosa revista Forbes, ha desarrollado un en sus parques temáticos y que de momento ha implementado en su parque de Orlando en Florida. Cada año 100 millones de personas visitan sus parques temáticos usando sus atracciones, comprando los productos Disney ofertados, comiendo en sus restaurantes y durmiendo en sus hoteles. De esta forma, la actividad de dichos visitantes puede dar lugar a un gran número de datos si se registra y almacena correctamente. El análisis del inmenso volumen de datos generados a diario puede proporcionar a Disney un conocimiento sólido para la toma de decisiones estratégicas, ayudando de esta forma a mejorar sus parques temáticos haciéndolos más productivos, accesibles y, por tanto, rentables, ofreciendo al visitante aquello que necesita en cada momento.

La solución Big Data desarrollada consta de un sistema de recolección de datos y una arquitectura Big Data basada en Hadoop y BD’s NoSQL. En primer lugar, la recolección de datos se lleva a cabo a través de la pulsera “Magic Band” ofrecida a los usuarios como parte del sistema My Magic+ para la mejora de la experiencia del usuario. Esta pulsera sirve como llave de la habitación del hotel y como entrada al parque (aunque es posible obtenerla sin necesidad de alojarse en un hotel del parque), incluso puede estar asociada a la tarjeta de crédito para permitir el pago en las tiendas y restaurantes. Además, usada junto con las aplicaciones del sistema “My Magic” proporciona importantes ventajas como el acceso sin colas a las atracciones, reserva y modificación de viajes en las atracciones, personalización de la visita al parque en la interacción con los personajes Disney, etc. En cuanto a la información recolectada, gracias a este sistema se obtiene información como:

  • Localización en tiempo real
  • Historial de compras
  • Información personal de los visitantes
  • Patrones de uso de las atracciones

En cuanto a la privacidad, Disney permite al visitante determinar qué información comparte y con quién. Sin embargo, desde Disney aseguran que, incluso en el nivel más restringido, el sistema es capaz de recopilar información útil sin vulnerar la privacidad.

El volumen de los datos recolectados por este sistema puede llegar a los 5 Tb al día, por lo que ya solo en volumen supone un claro ejemplo de Big Data. Esto unido a la altísima velocidad de generación de los datos, las posibilidades de análisis en tiempo real y la diversidad de fuentes de datos recolectadas hace evidente la necesidad de un sistema de altísimas prestaciones con características Big Data.

Sin embargo, a pesar del tamaño y recursos económicos de Disney, inicialmente se optó por una solución completamente Open Source y la tarea de su desarrollo se encomendó a un pequeño equipo de 6 profesionales. El motivo de tal elección, según el director del proyecto, fue fundamentalmente la flexibilidad. El uso de soluciones Open Source suele tener como puntos débiles la confiabilidad y tolerancia a fallos, la falta de documentación y soporte técnico y, en general, problemas de escalabilidad. Sin embargo, facilitan el desarrollo de prototipos como prueba del concepto a desarrollar y, además, suelen ser extensibles, permitiendo al desarrollador crear y probar nuevas funcionalidades sobre ellas y en múltiples lenguajes de programación. Una vez desarrollado el prototipo, podemos optar por adquirir una de las múltiples soluciones de pago que en muchos casos usan como base las aplicaciones Open Source a las cuales añaden nuevas funcionalidades, documentación, soporte, tolerancia a fallos, etc. Es precisamente esta forma de proceder la que han aplicado en Disney.

La solución Big Data desarrollada por el equipo de Walt Disney emplea la arquitectura Hadoop/MapReduce, la BD NoSQL Cassandra basada en columnas (y no en filas como las BD relacionales) sobre Hadoop, la base de datos documental Mongo DB y un conjunto de herramientas que complementan a las anteriores para tareas particulares. El equipo de control de operaciones usa la plataforma para ver, analizar e indexar los mensajes de error mientras otra división de la compañía la usa como base de un sistema de recomendación. Los desarrolladores de aplicaciones requieren de alto rendimiento y baja latencia en el acceso a los datos mientras que para el equipo de generación de analíticas los requerimientos de latencia en el acceso a los datos se relajan. En resumen, algunos de los usos concretos que se le dan a los datos recolectados son:

  • Análisis de audiencia y segmentación
  • Sistema de recomendación
  • Análisis de flujos o movimiento de visitantes en el parque

Por otro lado, respecto a la anteriormente comentada idoneidad del uso de soluciones Open Source, una vez desarrollado el prototipo de su plataforma de gestión de datos, Disney confió en Cloudera para disponer de un clúster Hadoop con un buen soporte y características adicionales y, por otro lado, adoptó la versión Cassandra de DataStax. De esta forma, la migración a soluciones propietarias se está realizando de forma gradual en función de las necesidades que van surgiendo.

Además, para aislar a los distintos clientes de sistemas de la tecnología NoSQL usada y para proteger el sistema de posibles modificaciones indebidas, se han desarrollado distintos tipos de interfaces que permiten tener acceso al sistema a distinto nivel.

Obviamente, el coste de la implementación de la plataforma de gestión de datos junto con el sistema MyMagic+ es enorme, siendo la estimación del mismo de unos 800 millones de dólares. Sin embargo, los buenos resultados están llevando a Disney a considerar la expansión de su sistema a otros de sus parques temáticos.