html - verla - ¿Cómo archivas un sitio web completo para verlo sin conexión?
guardar pagina web completa para verla sin conexion chrome (9)
En Windows, puede mirar HTTrack . Es muy configurable y le permite configurar la velocidad de las descargas. Pero puede simplemente señalarlo en un sitio web y ejecutarlo sin configuración alguna.
En mi experiencia, ha sido una herramienta realmente buena y funciona bien. Algunas de las cosas que me gustan de HTTrack son:
- Licencia de código abierto
- Currículums detenidos descargas
- Puede actualizar un archivo existente
- Puede configurarlo para que no sea agresivo cuando se descarga, por lo que no pierde el ancho de banda y el ancho de banda del sitio.
De hecho, hemos copiado copias estáticas / archivadas de nuestros sitios web asp.net para clientes muchas veces. Hemos utilizado WebZip hasta ahora, pero hemos tenido problemas interminables con bloqueos, páginas descargadas que no se han vuelto a vincular correctamente, etc.
Básicamente, necesitamos una aplicación que rastree y descargue copias estáticas de todo en nuestro sitio web asp.net (páginas, imágenes, documentos, CSS, etc.) y luego procese las páginas descargadas para que se puedan examinar localmente sin una conexión a Internet (deshacerse de de direcciones URL absolutas en enlaces, etc.). Mientras más idiota sea, mejor. Esto parece un proceso bastante común y (relativamente) simple, pero he intentado algunas otras aplicaciones y no he quedado impresionado.
¿Alguien tiene un software de archivo que recomendaría? ¿Alguien tiene un proceso realmente simple que compartirían?
He estado usando HTTrack durante varios años. Maneja todos los enlaces entre páginas, etc. bien. Mi única queja es que no he encontrado una buena manera de mantenerlo limitado a un subsitio muy bien. Por ejemplo, si hay un sitio www.foo.com/steve que quiero archivar, es probable que siga los enlaces a www.foo.com/rowe y archive eso también. De lo contrario, es genial. Altamente configurable y confiable.
Solo uso: wget -m <url>
.
wget -r -k
... e investigar el resto de las opciones. Espero que haya seguido estas pautas: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html para que todos sus recursos estén seguros con las solicitudes GET.
Para los usuarios de OS X, he encontrado que la aplicación sitesucker encontrada aquí funciona bien sin configurar nada, pero qué tan profundo sigue los enlaces.
Si sus clientes están archivando por problemas de cumplimiento, debe asegurarse de que el contenido pueda ser autenticado. Las opciones enumeradas están bien para una simple visualización, pero no son legalmente admisibles. En ese caso, está buscando marcas de tiempo y firmas digitales. Mucho más complicado si lo haces tú mismo. Sugeriría un servicio como PageFreezer .
El Wayback Machine Downloader de hartator es simple y rápido.
Instalar a través de Ruby, luego ejecutar con el dominio deseado y la marca de tiempo opcional del Archivo de Internet .
sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
Puedes usar wget :
wget -m -k -K -E http://url/of/web/site