Windows

Los grandes planes de datos de Facebook incluyen almacenes, análisis más rápidos

Shopify Reunite - May 20th, 2020

Shopify Reunite - May 20th, 2020
Anonim

Facebook puede atesorar los datos que tiene sobre sus más de mil millones de usuarios por sus declaraciones publicitarias, pero El ingeniero dijo que el análisis que realiza el sitio con esos datos continuará presentando numerosos desafíos durante el próximo año.

Los problemas, que Facebook se ha visto forzado a enfrentar "mucho antes que la industria en general", incluyen el cálculo formas más eficientes de procesar el comportamiento de los usuarios en el sitio, cómo acceder mejor y consolidar diferentes tipos de datos en los múltiples centros de datos de Facebook, e idear nuevos sistemas de software de fuente abierta para procesar esos datos, Ra vi Murthy, quien administra la infraestructura de análisis de Facebook, dijo el martes.

"Facebook es una compañía de datos, y lo más obvio que la gente piensa en ese frente es la orientación de anuncios", dijo en una conferencia de la industria en San Francisco, durante un hablar sobre la infraestructura de back-end de Facebook, análisis de datos y proyectos de código abierto.

[Más información: los mejores servicios de transmisión de TV]

"Pero va más allá de esto", dijo.

Una área importante de el trabajo detrás de cámaras se relaciona con la infraestructura analítica de Facebook, diseñada para acelerar el desarrollo de productos y mejorar la experiencia del usuario mediante un análisis profundo de todos los datos disponibles, ya sea que incluya acciones que los usuarios tomen en el sitio como actualizaciones de estado o que aplicaciones que usan dentro de Facebook en diferentes dispositivos.

Facebook actualmente usa varios sistemas de software de código abierto conocidos como Hadoop, Corona y Prism para procesar y analizar sus datos, que la compañía se enfocará en hacer más rápido y más eficiente en los próximos seis a doce meses, dijo Murthy.

Muchos de los desafíos de la compañía están ligados a lo que Facebook llama su almacén de datos, que combina datos de múltiples fuentes en una base de datos donde se puede analizar la actividad del usuario en su conjunto, por ejemplo, dando un informe diario sobre la cantidad de fotos que han sido etiquetadas en un país específico, o viendo cuántos usuarios en un área determinada se han involucrado con las páginas que se les recomendaron.

El análisis está diseñado para optimizar las experiencias de los usuarios y descubrir lo que les gusta y lo que no les gusta a los usuarios, pero también se está volviendo más exigente ya que Facebook puede acceder a más y más datos sobre sus usuarios, dijo Murthy. Actualmente, el almacén de Facebook toma 500 terabytes de datos nuevos todos los días, o 500,000 gigabytes. El almacén ha crecido casi 4000 veces en tamaño en los últimos cuatro años, "muy por delante del crecimiento de usuarios de Facebook", dijo Murthy.

Para lidiar con estos problemas, Facebook ha desarrollado su sistema de software Prism, diseñado para funcionar funciones clave de análisis en los centros de datos de la empresa en todo el mundo, y dividir los análisis en "fragmentos", dijo Murthy. De esta forma, realizar un análisis en, por ejemplo, alguna métrica relacionada con las noticias de los usuarios no obstruirá el almacén de manera más general.

"Cada vez pensamos más en cómo capturar estos datos", dijo.

La compañía también está trabajando en un sistema que adopta un enfoque completamente diferente para consultar el almacén para dar un tiempo de respuesta en cuestión de segundos, dijo Murthy.

Otra área que Facebook continuamente busca mejorar es su "infraestructura transaccional, "Que maneja el procesamiento de datos diario más básico de, digamos, me gusta, comentarios y actualizaciones de estado para mantener la red social funcionando sin problemas. Algunas de las preguntas que analizan los ingenieros y analistas de la compañía incluyen averiguar cómo pronosticar el crecimiento real en este tipo de datos, y cuánto debe calcular realmente la computación de Facebook, dijo Murthy.

"¿Podemos predecir lo que va a ser dentro de seis meses?", Dijo.

Mientras tanto, Facebook también está involucrado en un esfuerzo a largo plazo para hacer que sus servidores físicos sean más eficientes. La compañía comenzó su Proyecto de Computación Abierta en 2011, con el objetivo de diseñar servidores modulares que brinden a los clientes un mayor control sobre la red, la memoria, las fuentes de alimentación y otros componentes que entran en sus servidores. Se amplió para incorporar procesadores ARM en enero.