Tout sur la fibre optique, les tests de débit et la qualité de la TV   
Bienvenue, Invité. Veuillez vous connecter ou vous inscrire.
Avez-vous perdu votre courriel d'activation?

Connexion avec identifiant, mot de passe et durée de la session
06 Janvier 2009 à 05:39:13
8 449 Messages dans 1 116 Fils de discussion par 498 Membres
Dernier membre: bouledepoil
+  La Fibre
|-+  Vous avez la parole
| |-+  Discussions libres
| | |-+  Tutoriels
| | | |-+  [tutoriel] Aspirer un site web
  0 Membres et 1 Invité sur ce fil de discussion. « sujet précédent | | sujet suivant »
Pages: [1] Bas de page Imprimer
Auteur
Fil de discussion: [tutoriel] Aspirer un site web  (Lu 1062 fois)
vivien
Administrateur
*
Messages: 1 817



Voir le profil WWW
« le: 15 Avril 2007 à 19:54:18 »

Aspirer un site web
Mode d'emploi pour Windows / Linux / MacOS X

Également disponible dans la catégorie tuto divers :

Autres catégories disponible :



Si vous avez le présentement qu'une société va bientôt changer son site web et que vous souhaitez garder une trace de son ancien site web dans vos archives (j'ai des sites web qui ont 6 ans sur mon disque dur, on a vraiment l'impression de se promener dans un musé), il y a un logiciel simple et gratuit qui le fait : HTTrack

Il permet aussi de rapartrier un site avec des photos (galeries) et les consulter avec votre logiciel favoris en diaporama plutôt que de cliquer sur chaque images puis revenir en arrière, et sélectionner l'image suivante

HTTrack est disponible pour Windows , MacOS et Linux.

Windows : télécharger le logiciel ici ou ici ou encore sur le site officiel ici

MacOS X 10.3 ou supérieur : Suiviez la procédure ici qui est un peu + complexe que pour Windows ou linux.

Linux : Cherchez dans les paquages de votre distributions. Sous Ubuntu, menu Applications => Ajouter/enlever... => tapez HTTrack => Valider (2 incones seront instalée dans le menu Applications => Internet


Commun à tous : (copie d'écran avec Linux Ubuntu, il peut y avoir de petites modifications sous Windows)

1/ Cliquez sur l'icône WebHTTrack Website Copier

Votre navigateur web démarre (Sous Ubuntu, il démarre Galeon même si Firefox est votre navigateur par default).

Cliquez sur Francais puis Suivant :


2/ Donnez un nom au projet (c'est le nom qu'il va donner au dossier qui contient tous les fichiers)

Optionnel : vous pouvez spécifier une catégorie



3/ Indiquez la ou les URL du site à aspirer.

Cliquez sur Définir les options...



4/ Dans contrôle du flux mettre 1 connexion.

Pourquoi 1 conneixon ? avec une connexion, vous allez faire chaque demande lui aprés l'autre au serveur web ce qui est déja asse fatiguant pour lui. Même avec une connexion, il y a des risques de se faire bannir du site, c'est pourquoi nous allons mettre d'autres limites



5/ Cliquez sur limites

En fonction du site web que vous aspirez, séléctionner le débit maximum (ici 25000 soit 25 Ko/s, convient pour tous les sites qui n'ont pas de vidéos, pour les sites qui ont des vidéos, mettez 500000 soit 500 Ko/s (4 Mb/s) mais rajouter la limite de 1 connexion par seconde )

Si le site utilise PHP + MySQL, il faut mettre une limite de plus : 1 connexions par secondes (au maximum 2). Pourquoi ? les requêtes PHP + MySQL sont lourdes (vous voyez que vous utilisez environ 0.6  seconde de CPU sur le serveur lafibre.info pour chaque page PHP demandé.) Edit : depuis que le serveur est + puissant cela met moins de temps  Souriant

Bref, jouez avec les limites en fonction du site de façon à imiter une connexion manuelle intensive. Si un site a des pages statiques, ne mettez pas de limite de connexion par seconde, il s'en moque un peu du nombres, cela lui prend peu de CPU. Pour des pages en PHP, cette limite me semble indispensable et nécessaire si c'est du PHP couplé à une base de donnée (MySQL par exemple)

Si vous téléchargez un site de manière brutale un gros site, vous risquez soit d'avoir des pages à problémes (certains hébergeurs limitent le nombre de requettes MySQL à 3 simultanément) ou votre ip risque d'être banni soit automatiquement par les système gérant le déni de service soit manuellement par un administrateur qui surveille bien son serveur.



6/ Cliquez sur Suivant, cela commence, réduisez l fenêtre et continuez votre trauil, il en a pour plusieurs heures si il y a beaucoup de données à rapatrier...



7/ Vous obtenez un site lisible sans serveur web (les pages dynamique .php sont transformée en statique .html avec un peu de perte au passage  Clin d'oeil ) vous pouvez récupérer les photos dans l'arborésence ou si le but est d'archiver, vous avez a la racine de tous vos sites aspirés  un page web qui pointe vers chaque site aspirés :



PS : Si vous avez vraiment envie de télécharger le forum, le faire exclusivement sur la plage 1h -> 7h vu les lenteur que cela entraîne pour les autres.
Journalisée

  • Testez votre bande passante ici
  • Quel que soit votre FAI, pour créer une courbe des débits dans le temps, contactez-moi par message privé
 
vivien
Administrateur
*
Messages: 1 817



Voir le profil WWW
« Répondre #1 le: 15 Avril 2007 à 22:31:36 »

Autre solution pour les nostalgiques :

http://web.archive.org/collections/web.html

Ce site enregistre de partie entière de l'Internet

Exemple :

http://web.archive.org/web/*/http://ipvset.com
http://web.archive.org/web/*/http://paubc.com
Journalisée

  • Testez votre bande passante ici
  • Quel que soit votre FAI, pour créer une courbe des débits dans le temps, contactez-moi par message privé
 
Pages: [1] Haut de page Imprimer 
« sujet précédent | | sujet suivant »
Aller à:  

Partenaires : PauBC | DigitalBitrate | Soluce-ADSL
Propulsé par MySQL Propulsé par PHP XHTML 1.0 Transitionnel valide ! CSS valide ! Ig-Oh Theme by koni.
Page générée en 0.116 secondes avec 22 requêtes.