Auteur Sujet: Aspirer un site web : HTTrack  (Lu 19793 fois)

0 Membres et 1 Invité sur ce sujet

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Aspirer un site web : HTTrack
« le: 09 août 2010 à 22:13:28 »
Aspirer un site web
Mode d'emploi pour Windows / Linux / MacOS X


Si vous avez le présentement qu'une société va bientôt changer son site web et que vous souhaitez garder une trace de son ancien site web dans vos archives (j'ai des sites web qui ont 6 ans sur mon disque dur, on a vraiment l'impression de se promener dans un musé), il y a un logiciel simple et gratuit qui le fait : HTTrack

Il permet aussi de rapartrier un site avec des photos (galeries) et les consulter avec votre logiciel favoris en diaporama plutôt que de cliquer sur chaque images puis revenir en arrière, et sélectionner l'image suivante

HTTrack est disponible pour Windows , MacOS et Linux.

Windows : télécharger le logiciel ici ou ici ou encore sur le site officiel ici

MacOS X 10.3 ou supérieur : Suiviez la procédure ici qui est un peu + complexe que pour Windows ou linux.

Linux : Cherchez dans les paquages de votre distributions. Sous Ubuntu, menu Applications => Ajouter/enlever... => tapez HTTrack => Valider (2 incones seront instalée dans le menu Applications => Internet


Commun à tous : (copie d'écran avec Linux Ubuntu, il peut y avoir de petites modifications sous Windows)

1/ Cliquez sur l'icône WebHTTrack Website Copier

Votre navigateur web démarre (Sous Ubuntu, il démarre Galeon même si Firefox est votre navigateur par default).

Cliquez sur Francais puis Suivant :


2/ Donnez un nom au projet (c'est le nom qu'il va donner au dossier qui contient tous les fichiers)

Optionnel : vous pouvez spécifier une catégorie


vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Aspirer un site web : HTTrack
« Réponse #1 le: 09 août 2010 à 22:13:58 »
3/ Indiquez la ou les URL du site à aspirer.

Cliquez sur Définir les options...



4/ Dans contrôle du flux mettre 1 connexion.

Pourquoi 1 conneixon ? avec une connexion, vous allez faire chaque demande lui aprés l'autre au serveur web ce qui est déja asse fatiguant pour lui. Même avec une connexion, il y a des risques de se faire bannir du site, c'est pourquoi nous allons mettre d'autres limites


vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Aspirer un site web : HTTrack
« Réponse #2 le: 09 août 2010 à 22:14:06 »
5/ Cliquez sur limites

En fonction du site web que vous aspirez, séléctionner le débit maximum (ici 25000 soit 25 Ko/s, convient pour tous les sites qui n'ont pas de vidéos, pour les sites qui ont des vidéos, mettez 500000 soit 500 Ko/s (4 Mb/s) mais rajouter la limite de 1 connexion par seconde )

Si le site utilise PHP + MySQL, il faut mettre une limite de plus : 1 connexions par secondes (au maximum 2). Pourquoi ? les requêtes PHP + MySQL sont lourdes (vous voyez que vous utilisez environ 0.6  seconde de CPU sur le serveur lafibre.info pour chaque page PHP demandé.) Edit : depuis que le serveur est + puissant cela met moins de temps  :D

Bref, jouez avec les limites en fonction du site de façon à imiter une connexion manuelle intensive. Si un site a des pages statiques, ne mettez pas de limite de connexion par seconde, il s'en moque un peu du nombres, cela lui prend peu de CPU. Pour des pages en PHP, cette limite me semble indispensable et nécessaire si c'est du PHP couplé à une base de donnée (MySQL par exemple)

Si vous téléchargez un site de manière brutale un gros site, vous risquez soit d'avoir des pages à problèmes (certains hébergeurs limitent le nombre de requettes MySQL à 3 simultanèment) ou votre ip risque d'être banni soit automatiquement par les système gérant le déni de service soit manuellement par un administrateur qui surveille bien son serveur.


vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Aspirer un site web : HTTrack
« Réponse #3 le: 09 août 2010 à 22:16:02 »
6/ Cliquez sur Suivant, cela commence, réduisez l fenêtre et continuez votre trauil, il en a pour plusieurs heures si il y a beaucoup de données à rapatrier...



7/ Vous obtenez un site lisible sans serveur web (les pages dynamique .php sont transformée en statique .html avec un peu de perte au passage  ;) ) vous pouvez récupérer les photos dans l'arborésence ou si le but est d'archiver, vous avez a la racine de tous vos sites aspirés  un page web qui pointe vers chaque site aspirés :



PS : Si vous avez vraiment envie de télécharger le forum, le faire exclusivement sur la plage 1h -> 7h vu les lenteur que cela entraîne pour les autres.

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Aspirer un site web : HTTrack
« Réponse #4 le: 09 août 2010 à 22:16:36 »
Autre solution pour les nostalgiques :

http://web.archive.org/collections/web.html

Ce site enregistre de partie entière de l'Internet

Exemple :
http://web.archive.org/web/*/https://lafibre.info/
http://web.archive.org/web/*/http://ipvset.com