What is a Data Lake?
Cloudera ha presentado un nuevo conjunto de herramientas de administración Hadoop, llamado Cloudera Enterprise, que la compañía ofrecerá una tarifa de suscripción anual, anunció el martes. También ha actualizado su paquete de distribución de código abierto de Hadoop.
Ambos lanzamientos nuevos, así como varias asociaciones nuevas con proveedores de proveedores de software de administración de datos, muestran que la compañía se está preparando para ofrecer la tecnología emergente de bases de datos, ahora más utilizada por gigantes de la web como Google y Yahoo, para el mercado empresarial como una alternativa a las bases de datos relacionales.
"Nuestra apuesta no es solo las grandes compañías web, sino que los bancos, hospitales y compañías de seguros descubrirán que necesitan analizar estructuras complejas y estructuradas datos en conjunto, y Hadoop fue hecho para eso ", dijo el CEO de Cloudera, Mike Olson. "Hadoop resuelve un nuevo problema de una manera nueva".
Uno de un número creciente de bases de datos no SQL o NoSQL, Hadoop se basa en Google MapReduce, un marco para procesar datos en paralelo a través de grandes cantidades de computadoras. nodos. Hadoop, que ahora está siendo desarrollado como un proyecto de código abierto por la Apache Software Foundation, ofrece una alternativa a las bases de datos relacionales tradicionales, al menos para aquellos casos en los que se analizan grandes conjuntos de datos que cambian rápidamente.
Puede funcionar tanto con SQL como con no -SQL de datos, y es más resistente a la falla del servidor que las bases de datos relacionales, dijo Olson.
Cloudera está empaquetando Hadoop para organizaciones de nivel medio, tanto con su distribución Hadoop, como con su nuevo conjunto de herramientas de administración. Ambos paquetes deberían permitir a las organizaciones sin mucha experiencia técnica en Hadoop ejecutar el software, dijo Olson. "Existe el mito de que Hadoop se puede utilizar si tiene datos escalados en Google. Hay muchos usuarios que simplemente tienen unos pocos terabytes de datos que desean analizar", dijo Olson.
La Distribución de Cloudera para Hadoop (CDH) es un paquete de código abierto de programas de software preintegrados construidos alrededor de Hadoop Common, anteriormente llamado Hadoop Core. El paquete incluye: Hive, que proporciona una infraestructura de depósito de datos; HBase, la base de datos subyacente a Hadoop; Pig, un compilador de programas map-reduce; Zookeper, una programación para ejecutar aplicaciones en múltiples servidores, y MapReduce.
En la versión 3 recientemente lanzada, el paquete incluye tres programas que la compañía ha lanzado como proyectos de código abierto, bajo la licencia de código abierto Apache V2. Uno de ellos es Flume, que puede ayudar a cargar datos en Hadoop. Otra nueva incorporación es Oozie, que es un software de gestión de flujo de trabajo. El último es el código Hadoop User Environment (HUE), que proporciona una interfaz de usuario para administrar Hadoop.
"HUE permite a cualquiera crear aplicaciones dirigidas a los analistas. Sabe cómo hablar con los clústeres Hadoop", dijo Olson.
El paquete Cloudera Enterprise aumenta la versión 3 de CDH con herramientas de administración adicionales. Este nuevo software, que no es de código abierto, permite a los administradores controlar la administración de acceso a través del uso del Protocolo ligero de acceso a directorios. Los programas también se proporcionan para aprovisionar recursos, para realizar la configuración y la supervisión del rendimiento.
Olson no discutió cuánto ha hecho Cloudera de las tarifas de suscripción y consultoría hasta el momento, pero señala que en el primer trimestre de 2010, la compañía hizo tanto como lo que ganó hasta la mitad de 2009. Entre las diferentes industrias, las compañías de servicios financieros, telecomunicaciones, comercio minorista, gobierno y comercio electrónico han mostrado interés en la tecnología, dijo Olson.
"Las cosas que hacen las empresas con Hadoop varían. En general, estas personas están obteniendo muchos datos de muchos lugares y necesitan someterlo a análisis sofisticados ", dijo Olson. "Los servicios financieros están interesados en utilizar Hadoop para la detección de fraudes. En telecomunicaciones, existe una necesidad real de optimizar las redes y reducir el abandono de clientes".
Además de ofrecer estos paquetes, Cloudera ha estado brindando apoyo a Hadoop por parte de los proveedores de inteligencia empresarial (BI) y software de administración de datos.
Olson planea anunciar, durante su presentación en la Hadoop Summit 2010, que tendrá lugar en Santa Clara, California el martes, que el proveedor de BI MicroStrategy apoyará el uso de Hadoop.
Otro nuevo socio es Talend, un proveedor de software de integración de datos de código abierto. La compañía ha ampliado su Talend Integration Suite para interactuar con las bases de datos de Hadoop. Su suite permite a los administradores administrar y agregar múltiples fuentes de datos desde una única consola. Con Hadoop, el software "puede REPLACEar o recuperar datos de forma nativa y procesar los datos dentro de la arquitectura Hadoop", dijo el vicepresidente de marketing de Talend, Yves de Montcheuil.
Microstrategy y Talend se unen a un creciente número de empresas que están preparando código abierto o herramientas de administración comercial para Hadoop. La semana pasada, Cloudera y Quest se embarcaron en un proyecto para construir un software que pueda vincular Hadoop con bases de datos de Oracle. En mayo, la empresa de inteligencia de negocios de código abierto Pentaho anunció que su suite de BI trabajaría con bases de datos de Hadoop.
En una entrevista separada con IDG News Service, el CTO de Yahoo Raymie Stata señaló que Hadoop podría reducir la necesidad de construir supercomputadores para analizar grandes conjuntos de datos. Tradicionalmente, los grandes conjuntos de datos se han movido desde el almacenamiento al superordenador, que es un conjunto de servidores agrupados, para ser analizados. Por el contrario, Hadoop mueve el cálculo analítico al lugar donde residen los datos, eliminando la necesidad de una máquina cental gigante de procesamiento de números. Yahoo fue uno de los principales colaboradores de Hadoop.
Además de la oferta de Cloudera, Hadoop también está siendo comercializado por IBM, que recientemente comenzó a ofrecer un conjunto de servicios analíticos que usan la tecnología.
Joab Jackson cubre software empresarial y general noticias de última tecnología para El servicio de noticias IDG. Sigue a Joab en Twitter en @Joab_Jackson. La dirección de correo electrónico de Joab es [email protected]
Tampa Preps para el Super Bowl con BI Tools
Funcionarios del área de Tampa se preparan para el Super Bowl con un sistema especializado de BI (business intelligence) .
Cloudera Intros Hadoop Management Tools
Cloudera está lanzando un conjunto de aplicaciones que facilitan el trabajo con el marco de procesamiento de datos Hadoop.
Hadoop obtiene más búsqueda con MapR, Cloudera publica
Los usuarios de la plataforma de procesamiento de datos Hadoop ahora tienen otros dos motores de búsqueda para ayudarlos a clasificar a través de sus montañas de información.