Blog

4
Feb 2016

El proyecto «Arrow» de Apache apunta a mayores velocidades para big data

Posteado Por Catrian

El nuevo proyecto de Apache saca partido de columnar storage (guardado en columnas) para mejorar la velocidad de acceso, no sólo para Hadoop sino para cualquier lenguaje y proyecto que tenga necesidades de big data.

El columnar storage se usa en aplicaciones big data para acelerar las búsquedas y organizar grandes cantidades de información, pero sólo estaba soportado por algunos frameworks. Con Arrow las aplicaciones pueden acceder a una versión en columnas de arreglos de datos simplemente haciendo la solicitud, la información que Arrow transforma puede, en teoría, ser procesada de forma más rápida ya que Arrow hace uso de instrucciones SIMD (Single Instruction Multiple Data) presentes en las CPUs modernas y así acelerar el procesamiento de datos. Los grupos de datos que son muy grandes para almacenarse en memoria son partidos en segmentos que tienen el tamaño adecuado para ajustarse a las capas de caché de la CPU.

De acuerdo con sus creadores, la importancia de Arrow no es sólo la velocidad que puede entregar a proyectos de big data, también proyectos múltiples que sean compatibles con Arrow pueden usarlo como un mecanismo de intercambio de datos común. En lugar de serializar, mover y deserializar cualquier conjunto de datos entre proyectos -con la lentitud que esto implica- las aplicaciones que usan Arrow pueden intercambiar datos directamente en un formato común.

Si dos aplicaciones están en el mismo nodo físico, pueden acceder a los datos de Arrow con memoria compartida; esto hace más veloz el acceso a datos ya que la aplicación ya no necesitará hacer copias redundantes de los datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

* Campo obligatorio