Doblejota Blog: Descarga una web con wget - Parte 1

Navegacion

miércoles, 13 de febrero de 2013

Descarga una web con wget - Parte 1


Si ya has trabajado con Linux en modo texto antes, conocerás la maravilla que supone el comando wget. Hace un tiempo, viendo "La Red Social", le encontré un nuevo uso a dicho comando, que no explicaban explícitamente en la película, pero que no es muy complicado.

Dicho nuevo uso, nos permitirá descargar páginas web enteras. o directorios de esta dentro de su servidor, de forma automatizada. No se hasta que punto es legal este nuevo uso, por lo que, por si acaso, los fines de este artículo son meramente instructivos, nunca con afán de dañar copyrights o cualquier otro tipo de licencia.

El ejemplo para este artículo, lo haré usando un directorio de mi propio servidor local, en este caso, el directorio /var/www/carpeta/, el cual contiene un subdirectorio con 3 imágenes y un index que contiene
¡Enhorabuena! ¡Has logrado descargar el directorio usando wget! [Imagen 1] [Imagen 2] [Imagen 3]

Qué es y como funciona Wget


GNU Wget es una herramienta libre que permite la descarga de contenidos desde servidores web de una forma simple. Su nombre deriva deWorld Wide Web (w), y de «obtener» (en inglés get), esto quiere decir: obtener desde la WWW.

Actualmente soporta descargas mediante los protocolos HTTP, HTTPS y FTP.

Entre las características más destacadas que ofrece wget está la posibilidad de fácil descarga de mirrors (espejos) complejos de forma recursiva, conversión de enlaces para la visualización de contenidos HTML localmente, soporte para proxies, etc.
Fuente, Wikipedia

A nivel de código, desconozco cual es su funcionamiento, pero como hacerlo funcionar, es algo bastante simple. Wget, desde la consola, sigue una sintáxis básica para funcionar:
# wget [atributos] [url]
De esta forma, descargamos el contenido de la URL que le indiquemos, siguiendo los parámetros que le digamos entre los atributos, los cuales, no voy a tocar ahora, porque son muchos, creo que demasiados. por lo que, para más información prueba con
# man wget
Generalmente, wget descarga los datos en el directorio donde te encuentres, por lo que, es recomendable moverse con cd hasta donde quieres ubicar la descarga.

Continuará...