gaizka.net: Descargar una página web completa en Linux

martes, 5 de junio de 2018

Descargar una página web completa en Linux

Hoy no pensaba escribir ninguna entrada, pero a la que he estado ejecutando un comando...me he dado cuenta que no lo tenia apuntado en mis apuntes on line.

Descargar una página web completa es bastante sencillo en linux. Utilizaremos la herramienta wget. Veamos como, para empezar nos vamos a un directorio conocido y creamos una carpeta, acto seguido nos vamos dentro de esa ruta. La descarga se realizará en la ruta en la que nos encontremos.

$ cd /home/usuario/Descargas

$ mkdir pagina_descargada

$ cd pagina_descargada

Ahora lanzamos wget para realizar la descarga, como ejemplo iremos a decargar una dirección inventada: http://www.paginaquemegusta.com/quieroesta/

$ wget --recursive --level=20 -p --convert-links http://www.paginaquemegusta.com/quieroesta/

Analicemos lo que le estamos diciendo:

--recursive realizará la descarga de forma recursiva, es decir, irá entrando en los diferentes niveles de la web

--level=20 en este caso le hemos dicho que queremos profundizar 20 niveles. Yo reconozco que suelo utilizar --level=inf que es un poco bestia pero no le pones limite. Lo hago cuando tengo claro lo que voy a descargar y que no va a estar 3 horas descargando. Vamos que con inf descargamos todo el sitio web. Es por ello que suelo acompañarlo de --wait=30 de tal forma que espera 30 segundos entre descarga y descarga, de esta manera si es mucho lo que trae, le ponemos ciertos limites.

-p le indica que descargue los archivos auxiliares

--convert-links le indica que convierta los links, de la web a la ruta en la que estamos descargando, de esta forma la web será perfectamente utilizable.

Ejemplo alternativo con lo que hemos comentado:

$ wget --recursive --level=inf -p --wait=30 --convert-links http://www.pagina.com/quieroesta/

Para saber que mas opciones tenemos, no dudes en lanzar:

$ man wget

Creo que esta herramienta puede sorprender mucho.

Las páginas web pueden inhabilitar este tipo de descargas desde robots.txt. Una alternativa muy común a wget es httrack que tiene muchas configuraciones posible y para los que no encajan en la consola, tiene un interfaz gráfico. Aunque suele estar en los repositorios, puedes descargarlo aqui: http://www.httrack.com/

SaluDOS

gaizka.net

David Bohm

PÁGINAS

martes, 5 de junio de 2018

Descargar una página web completa en Linux

No hay comentarios:

Publicar un comentario

Contacto