python hadoop mapreduce hadoop-streaming warc

cómo escribir un trabajo de mapreduce de transmisión de archivos warc en python



hadoop hadoop-streaming (0)

Estoy intentando escribir un trabajo mapreduce para archivos warc usando la biblioteca WARC de python. El siguiente código me funciona, pero necesito este código para hadoop mapreduce jobs.

import warc f = warc.open("test.warc.gz") for record in f: print record[''WARC-Target-URI''], record[''Content-Length'']

Quiero que este código lea la entrada de transmisión de archivos warc, es decir,

zcat test.warc.gz | warc_reader.py

Amablemente dígame cómo puedo modificar este código para las entradas de transmisión. Gracias