RTFM : dumper un site web avec wget !
dump

La plupart du temps, l'utilitaire wget s'utilise pour télécharger une archive sur le net sans passer par un navigateur. C'est d'ailleur la manière dont est définie wget : GNU Wget is a free utility for non-interactive download of files from the Web. It supports HTTP, HTTPS, and FTP protocols, as well as retrieval through HTTP proxies. Mais la bonne question est de savoir pourquoi (et ensuite comment) je suis arrivé à vouloir faire un dump d'un site internet. C'est très simple, en fait je suis tombé sur un très vieux site web avec un contenu tellement riche que je me suis dit qu'il fallait que j'en garde une copie au cas où ce dernier viendrait à fermer (du moins que les responsables n'aient plus les moyens pour maintenir le site en ligne). Et donc je me suis dit qu'il fallait que j'en fasse une copie locale. J'ai donc ouvert mon terminal et lu attentivement le man de wget (ce que tout aspirant Linuxien se doit de faire cf: RTFM). J'ai donc trouvé les bonnes options me permettant de le faire. Bien évidemment, il existe des variantes et les options que je vais présenter ne sont pas les seules permettant d'effectuer ce type d'opération. Voici donc la commande : wget -r --random-wait -l9 http://monsite.fr
Bien entendu , monsite.fr peut être remplacé par le site dont on souhaite faire la copie. Les trois options sont assez simples mine de rien.

-r : signifie que l'on va récupérer tous les fichiers se trouvant dans tous les répertoires depuis la racine du site. A noter que la profondeur par défaut est de 5 , donc on pourrait descendre jusqu'aux fichiers se trouvant dans : /je/suis/un/sous/repertoire_profond.

--random-wait : comme son nom l'indique, est une option qui permet d'effectuer des requêtes avec des écarts temporels entre chaque requêtes variants entre 0,5 et 1,5 secondes. Ceci pour échapper à certains outils coté serveur qui analysent la durée après chaque requête d'un client afin (dans certains cas) de déterminer s'il s'agit d'un BOT et donc de bloquer l'accès à ce client si nécessaire.

-l9 : le l signifie level et le numéro correspond à la profondeur dans l'arborescence. La profondeur par défaut est de 5, avec cette option on peut soit la limiter à moins de 5 ou l'augmenter. En général un site classique correctement architecturé n'a pas plus de 5 en terme de profondeur d'arborescence c'est à dire 4 sous répertoire en dessous de la racine. Cependent comme j'avais un doute, j'ai préféré ratisser large :).

J'ai donc pu faire le dump locale du site que je voulais et ainsi apprendre un peu plus sur wget, qui comme tous les outils nécessitent de l'investissement en temps qui n'est pas négligeable mais qui en vaut le coup. Je ne vous dirais pas quel site j'ai dumpé :), cependant je peux voud dire que j'en ai eu pour mes octets : 897,5 Mo!

A la prochaine Boris.
Lisze le Man!

 
comments powered by Disqus

Copyright(c) Bignumb