Cómo descargar un sitio web con Wget

Cómo descargar un sitio web con Wget

Henry
Henry Tips

En un artículo anterior hablamos sobre el comando Wget. Vimos que puede hacer e instalamos y probamos [en la mejor terminal de todas] la versión para Windows de Wget.

Hoy vamos a ver como podes utilizar Wget para descargar un sitio web completo para navegarlo offline.

Tabla de contenidos

Descargar sitios web para navegarlos offline

Descargar un sitio Web con Wget es extremadamente sencillo. Las opciones que vamos a utilizar son las siguientes:

  • --mirror – Indicamos (entre otras cosas) que la descarga sea recursiva.
  • --convert-links – Convierte todos los vínculos (por ejemplo: los archivos .css) en relativos, para evitar referencias al dominio del sitio.
  • --adjust-extension – Le decimos a Wget que añada el sufijo .html (o la extensión que corresponda) en los archivos descargados. De utilidad para cuando escaneamos un sitio que, por ejemplo: las paginas terminan con .asp
  • --page-requisites – Descarga archivos .css e imágenes.
  • --no-parent – No se asciende al directorio principal. Es útil para restringir la descarga a sólo una parte del sitio.

La forma abreviada de escribir el comando con esas opciones es la siguiente:

wget -mkEpnp https://tecnolocuras.com

A continuación lo vemos en acción:

Alejandro en el artículo publicado en el blog de DesdeLinux, nos muestra un par de opciones más que podemos utilizar:

  • --wait Le indicamos a Wget que vaya más despacio, que se tome un café entre request y request, para aligerar la carga del servidor. No queremos causar problemas cuando nos descargamos un sitio entero. Por defecto el tiempo se especifica en segundos.
  • --limit-rate Limita la velocidad de descarga a la cantidad de bytes por segundo que le pasemos como valor al parámetro. La cantidad puede expresarse en bytes, kilobytes con el sufijo 'k', o megabytes con el sufijo 'm'.

Otra mejora que propone Alejandro en su artículo, es modificar el UserAgent a través del parámetro -U o --user-agent.

También vamos a establecer la opción robots en off para no respetar el archivo robots.txt

wget -mkEpnp --wait=20 --limit-rate=20K -U Mozilla -e robots=off https://tecnolocuras.com

Algo que podemos hacer es "encapsular" este comando en un alias, como aprendimos hacerlo en este artículo: Cmder: La consola para Windows.

¿Conoces algún parámetro más para mejorar la invocación a Wget en este contexto? ¿Utilizas otra herramienta para hacer descargas de sitios Web completos para navegarlos offline? Te esperamos en los comentarios 👇

¡Nos vemos! Peace. ✌


/ Súmate al boletín. No es gran cosa, pero es gratis 👇 /