ubuntu - sitios - ¿Cómo descargar todos los archivos(pero no HTML) de un sitio web usando wget?
wget puerto (8)
¿Cómo usar wget
y obtener todos los archivos del sitio web?
Necesito todos los archivos, excepto los archivos de páginas web como HTML, PHP, ASP, etc.
Estaba intentando descargar archivos zip vinculados desde la página de temas de Omeka, una tarea bastante similar. Esto funcionó para mí:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-
-A
: solo acepta archivos zip -
-r
: recurse -
-l 1
: un nivel profundo (es decir, solo archivos directamente vinculados desde esta página) -
-nd
: no cree una estructura de directorio, simplemente descargue todos los archivos en este directorio.
Es probable que todas las respuestas con las opciones -k
, -K
, -E
etc. no hayan entendido realmente la pregunta, como las que se refieren a la reescritura de páginas HTML para hacer una estructura local, cambiar el nombre de los archivos .php
, etc. Irrelevante.
Para obtener literalmente todos los archivos, excepto .html
etc.
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
Esto descargó el sitio web completo para mí:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
Para filtrar las extensiones de archivo específicas:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
O, si prefiere nombres de opción largos:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
Esto reflejará el sitio, pero los archivos sin extensión jpg
o pdf
se eliminarán automáticamente.
Prueba esto. Siempre me funciona
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
Puede intentar:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
También puedes agregar:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
para aceptar las extensiones específicas, o para rechazar solo extensiones específicas:
-R html,htm,asp,php
o para excluir las áreas específicas:
-X "search*,forum*"
Si los archivos se ignoran para los robots (por ejemplo, los motores de búsqueda), debe agregar también: -e robots=off
wget -m -A * -pk -e robots=off www.mysite.com/
esto descargará todo tipo de archivos localmente y los señalará desde el archivo html e ignorará el archivo robots
wget -m -p -E -k -K -np http://site/path/
la página man te dirá qué hacen esas opciones.
wget
solo seguirá los enlaces, si no hay un enlace a un archivo de la página de índice, entonces wget
no sabrá de su existencia y, por lo tanto, no lo descargará. es decir. ayuda si todos los archivos están vinculados en páginas web o en índices de directorios.