ubuntu - sitios - ¿Cómo descargar todos los archivos(pero no HTML) de un sitio web usando wget?

wget puerto (8)

¿Cómo usar wget y obtener todos los archivos del sitio web?

Necesito todos los archivos, excepto los archivos de páginas web como HTML, PHP, ASP, etc.

En sistemas Windows para obtener wget, puede

descargar Cygwin
descargar GnuWin32

Estaba intentando descargar archivos zip vinculados desde la página de temas de Omeka, una tarea bastante similar. Esto funcionó para mí:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/

-A : solo acepta archivos zip
-r : recurse
-l 1 : un nivel profundo (es decir, solo archivos directamente vinculados desde esta página)
-nd : no cree una estructura de directorio, simplemente descargue todos los archivos en este directorio.

Es probable que todas las respuestas con las opciones -k , -K , -E etc. no hayan entendido realmente la pregunta, como las que se refieren a la reescritura de páginas HTML para hacer una estructura local, cambiar el nombre de los archivos .php , etc. Irrelevante.

Para obtener literalmente todos los archivos, excepto .html etc.

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

Esto descargó el sitio web completo para mí:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

Para filtrar las extensiones de archivo específicas:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

O, si prefiere nombres de opción largos:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

Esto reflejará el sitio, pero los archivos sin extensión jpg o pdf se eliminarán automáticamente.

Prueba esto. Siempre me funciona

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

Puede intentar:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

También puedes agregar:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

para aceptar las extensiones específicas, o para rechazar solo extensiones específicas:

-R html,htm,asp,php

o para excluir las áreas específicas:

-X "search*,forum*"

Si los archivos se ignoran para los robots (por ejemplo, los motores de búsqueda), debe agregar también: -e robots=off

wget -m -A * -pk -e robots=off www.mysite.com/

esto descargará todo tipo de archivos localmente y los señalará desde el archivo html e ignorará el archivo robots

wget -m -p -E -k -K -np http://site/path/

la página man te dirá qué hacen esas opciones.

wget solo seguirá los enlaces, si no hay un enlace a un archivo de la página de índice, entonces wget no sabrá de su existencia y, por lo tanto, no lo descargará. es decir. ayuda si todos los archivos están vinculados en páginas web o en índices de directorios.