software jabref csv cassandra bigdata cassandra-2.0

csv - jabref - bibtex software



Exportar gran cantidad de datos de Cassandra a CSV (2)

Debido a que usar COPY será bastante difícil cuando intente exportar una tabla con millones de filas de Cassandra, así que lo que he hecho es crear una herramienta simple para obtener la porción de datos por parte (paginada) de la tabla de cassandra y exportarla a CSV .

Mira mi solución de ejemplo usando la biblioteca java de datastax.

Estoy usando Cassandra 2.0.9 para almacenar grandes cantidades de datos, digamos 100Gb, en una familia de columnas. Me gustaría exportar estos datos a CSV de manera rápida. Lo intenté:

  • sstable2json : produce archivos json bastante grandes que son difíciles de analizar, ya que la herramienta coloca los datos en una fila y usa un esquema complicado (por ejemplo, el archivo de datos de 300Mb = ~ 2Gb json), toma mucho tiempo en volcarse y a Cassandra le gusta cambiar Nombres de archivo fuente según su mecanismo interno.
  • COPY - causa tiempos de espera en instancias EC2 bastante rápidas para un gran número de registros
  • CAPTURA - como arriba, causa tiempos muertos
  • Lee con paginación . Utilicé timeuuid para ello, pero devuelve alrededor de 1,5k registros por segundo.

Utilizo la instancia de Amazon Ec2 con almacenamiento rápido, 15 Gb de RAM y 4 núcleos

¿Hay alguna opción mejor para exportar gigabytes de datos de Cassandra a CSV?


También me di por vencido después de probar diferentes soluciones, especialmente cuando los datos están agrupados y son enormes.
Utilicé el trabajo de Spark para exportar todos los datos a un archivo (por ejemplo, S3) y funcionó bien.