Las organizaciones están utilizando más datos que nunca para tomar mejores decisiones y desbloquear nuevas fuentes de ingresos basadas en datos.

Ser capaz de manejar el crecimiento masivo de datos y extraer información oportuna de este activo cada vez más importante es, por lo tanto, un imperativo estratégico para las empresas de hoy y ha estimulado toda una industria de Big Data.

Crear una cultura donde los individuos tomen decisiones basados en hechos permite mejorar el rendimiento y cumplir metas de forma sostenida y consistente. Sin embargo para poder contar con información valiosa es inevitable tener que recolectar, almacenar y procesar cantidades cada vez mayores de datos.

Ya sea por la expansión de los dispositivos móviles, la conexión de cada vez más dispositivos a internet o dentro de las mismas organizaciones, el volumen y la variedad de datos que se generan en el mundo ha explotado en los últimos años. Esto presenta la gran oportunidad de contar con más información para trabajar que nunca antes. Pero al mismo tiempo impone un gran desafío. Pues los sistemas tradicionales no fueron diseñados para procesar tales volúmenes de datos, ni mucho menos analizarlos eficientemente.

Tradicionalmente, a medida que los volúmenes de información crecían, los computadores crecían con ellos (tanto en RAM como en número de procesadores). Lamentablemente esta estrategia tiene un límite natural. Llega un punto en que se vuelve prohibitivo en términos de eficiencia y costo seguir construyendo máquinas de mayor tamaño.

La alternativa, en cambio, es utilizar un grupo de computadores que trabajen juntos para una misma tarea compartiendo la carga de trabajo y almacenamiento de los datos.

Esto puede parecer sencillo, pero distribuir la carga de trabajo trae grandes desafíos como: complejidad en la programación, sincronización de datos y procesamiento, banda ancha finita y manejo de fallas parciales.

¿Cómo se soluciona todo esto? Hadoop.

Hadoop es una herramienta para almacenar y procesar datos de forma distribuida. Para ponerlo en simple, Hadoop hace que un grupo de computadores trabajen como un solo gran sistema. Hadoop es transparente para los usuarios y sistemas que interactúan con él, ya que esconde toda esta complejidad y se muestra como un sistema único.

Cloudera toma el proyecto Hadoop como base y lo extiende para formar la primera plataforma unificada para cantidades masivas de datos: Cloudera Distribution of Hadoop (CDH). CDH contiene los elementos necesarios para satisfacer todas las necesidades de una organización y facilitar la implementación en un ambiente empresarial. Además cubre todo el ciclo de procesamiento de datos: Ingesta (por lotes o streaming), almacenamiento (tanto estructurado como no estructurado), procesamiento y disponibilización.

FUENTE:

www.analytics10.com