traductor spanish nike mundo ingles google espaƱol doodle buscar babylon file pdf translate

file - spanish - Traducir archivo PDF utilizando Google Translate API



traductor ingles (2)

Quiero usar Google Translate en mi proyecto. Completé todas las formalidades con Google. También tengo la clave API conmigo. Con esta clave puedo traducir fácilmente cualquier palabra con JavaScript. ¿Pero cómo traducir el archivo PDF como podemos hacer en el sitio Google Translate? Encontré una cosa como esta:

http://translate.google.com/translate?hl=fr&sl=auto&tl=en&u=http://www.example.com/PDF.pdf

Pero aquí no puedo usar mi clave, como resultado lleva mucho tiempo traducirla. Entonces quiero usar mi clave y traducir un archivo PDF. Por favor, ayúdame. Mi enfoque es así:

1. One html page I have. 2. One browse button for pdf 3. Upload the file 4. Transalte the pdf with Google API and show in the html page.

Lo busqué para este pdf traducir pero no encontré nada. Por favor, ayúdame.


Utilice Apache Tika para extraer el contenido de texto del archivo pdf (debe escribir el código java necesario) y luego use la API que desee usar para traducirlo. Pero, como se ha mencionado anteriormente, Google Translate es un servicio pago.


TL: DR : utilice un navegador sin cabeza para procesar un PDF desde el servicio de traducción PDF de Google.

PDF es un formato complejo y puede incluir muchos componentes que son texto. Para traducirlo describiré la solución de fácil a más avanzada.

Traducir texto sin formato

Si solo necesita la traducción sin el resultado visual, puede extraer el texto y dárselo a Google Translate.

Como no proporcionó información sobre su proyecto (idioma, entorno, ...), lo redirigiré a este hilo sobre cómo extraer texto

Traducir todo el texto

Si necesita obtener texto de todo en su PDF, bueno, eso es bastante difícil. Para evitar el dolor de cabeza (parcialmente) puede convertir el PDF a una imagen (usando herramientas imagemagick o similares) y luego tiene tres opciones:

  • OCR el texto de la imagen, luego darle a google, de nuevo está perdiendo la forma original.
  • OCR el texto, pero guardando la posición (algunas bibliotecas pueden hacer eso, nuevamente ya que no especificó la información de su proyecto, vea estos enlaces: # 1 , # 2 , # 3 , # 4 ).

    Luego, tradúzcalo con google api y escriba el resultado en la imagen. Para obtener excelentes resultados, debe tener en cuenta la fuente de texto, el color y el color de fondo. Bastante difícil, pero factible.

  • Traduzca la imagen usando el servicio de imágenes de traducción de google . Lamentablemente, esta característica no está disponible en la API pública, por lo que, a menos que se haga ingeniería inversa, esto no es posible.

Traducir utilizando el servicio de traducción de PDF de Google

La solución que proporciona al usar el sitio de traducción se puede automatizar con bastante facilidad. La razón por la que es larga es porque es un proceso pesado y probablemente no vencerás a Google.

Usando un navegador sin cabeza, puede obtener la página de traducción con su pdf, luego observe que el contenido traducido está sentado en un iframe, obtenga ese iframe y finalmente imprima en PDF.

Aquí hay un pequeño ejemplo usando SlimerJS (debería ser compatible para Phantomjs )

var page = require("webpage").create(); // here you may want to setup page size and options // get the page page.open(''https://translate.google.fr/translate?hl=fr&sl=en&u=http://example.com/pdf-sample.pdf'', function(status) { if (status !== ''success'') { console.log(''Unable to access network''); } else { // find the iframe with querySelector var iframe_src = page.evaluate(function() { return document.querySelector(''#contentframe'').querySelector(''iframe'').src; }); console.log(''Found iframe: '' + iframe_src); // render the iframe page.open(iframe_src, function(status) { // wait a bit for javascript to translate // this can be optimized to be triggered in javascript when translation is done setTimeout(function() { // print the page into PDF page.render(''/tmp/test.pdf'', { format: ''pdf'' }); phantom.exit(0); }, 2000); }); } });

Dando este archivo: http://www.cbu.edu.zm/downloads/pdf-sample.pdf
Produce este resultado (traducido en francés): (Publiqué una captura de pantalla porque no puedo incrustar PDF;))