una scraping scrapear pagina datos con capturar java php upload file-upload

scraping - ¿Cuál es la mejor manera de implementar un sitio web de carga de archivos grande(1 GB o más) en PHP o Java?



scrapear con java (3)

¿Cuál es la mejor manera de implementar un sitio web de carga de archivos grande (1 GB o más) en PHP o Java? Usar la forma predeterminada de cargar en PHP o Java resulta en quedarse sin espacio en la RAM y ralentizar el sitio web de manera muy dramática.


Hemos estado usando http://www.javaatwork.com/ftp-java-upload-applet/details.html para subir archivos muy grandes al hosting dedicado. Funciona de maravilla incluso con muchos archivos RAW (fotos).

El único inconveniente es que no es multihilo y bloquea su navegador hasta que todo esté cargado.

Todavía hay que encontrar otro cargador de Java tan bueno como este (importante para nosotros), pero hay algunos de varios subprocesos que se ven bastante mal :-)


Sería imprudente abrir el archivo en el lado del cliente, leer todo su contenido en la memoria, cerrarlo y luego comenzar a enviar los contenidos, precisamente porque el contenido puede exceder la memoria disponible.

Una alternativa es abrir el archivo, leer un fragmento (recordar dónde finalizó el último fragmento del curso), cerrar el archivo, cargarlo en el servidor y volver a ensamblar el archivo en el lado del servidor agregándolo a los fragmentos anteriores. Este no es un procedimiento trivial y debe tener en cuenta aspectos como administración de recursos, fallas IO y sincronización, especialmente cuando se trabaja en paralelo con múltiples hilos.


Recomendaría JumpLoader [google it], ya que ofrece muchas funciones útiles. Lo he integrado en mi proyecto CMS de código abierto, funciona muy bien (por supuesto, se necesitan algunas adaptaciones aquí y allá). Tiene una interfaz Javascript a la que se puede acceder con Jscript o JQuery sin formato [utilicé el último plugin poco codificado para ello]. El único inconveniente sería JumpLoader en la frente del applet: P, que puede haber eliminado por 100 dólares.

En general, las características como la carga múltiple, la edición de imágenes y documentos en la carga previa y carga particionada, la verificación de la integridad de la transmisión a través de la huella dactilar md5 blah blah blah, son muy atractivas.