cómo escribir un trabajo de mapreduce de transmisión de archivos warc en python

hadoop hadoop-streaming (0)

Estoy intentando escribir un trabajo mapreduce para archivos warc usando la biblioteca WARC de python. El siguiente código me funciona, pero necesito este código para hadoop mapreduce jobs.

import warc f = warc.open("test.warc.gz") for record in f: print record[''WARC-Target-URI''], record[''Content-Length'']

Quiero que este código lea la entrada de transmisión de archivos warc, es decir,

zcat test.warc.gz | warc_reader.py

Amablemente dígame cómo puedo modificar este código para las entradas de transmisión. Gracias