41 Comments

Voilà maintenant 7 ans que j’utilise HTTrack pour “aspirer des sites web”(1) et les consulter hors ligne. Il s’agit d’un des premiers logiciels sous licence GPL que j’ai utilisé.

(1) “Aspirer des sites web” : copier le contenu d’un site web sur son disque dur.

HTTrack fonctionne sous Windows et sous Linux. Une interface graphique existe, mais on peut aussi l’utiliser en ligne de commande. Les paramètres par défaut de l’application permettent une aspiration très performante. Le logiciel fonctionne comme les robots des moteurs de recherche : il suit les liens hypertextes et sait lire les site en php. Une fonctionnalité permet même de mettre à jour les copies des sites déjà aspirés.

Si la diffusion des logiciels d’aspiration est parfaitement légale, certains usages ne le sont pas. Or, en matière juridique, les conséquences de l’intention priment sur la technique utilisée. Attention donc à n’utiliser ces copies que dans un cadre privé 🙂

Pour l’exemple, voilà les étapes qui vous permettraient d’aspirer le site talend.com :

Etape 1 : définir, sur son disque dur, l’emplacement où sera stockée la copie du site

définir l'emplacement où sera stocké la copie du site

Etape 2 : indiquer l’adresse (url) du site web

indiquer l'adresse (url) du site web

Etape 3 : au besoin définir les options

définir les options

Etape 4 : laisser le logiciel aspirer ….

HTTrack: aspirateur de site

J’ai utilisé ce logiciel dans le cadre de formations, mais aussi pour permettre la consultation de sites web dans un avion et tout dernièrement pour livrer le contenu du site talend.com à une société spécialisée dans la traduction.

Site de téléchargement : www.httrack.com

41 Replies to “Aspirer un site web pour le consulter hors ligne

  1. N’ayant jamais rencontré de difficulté avec HTTrack, je n’ai jamais été tenté de tester d’autres logiciels … L’interface graphique n’est pas des plus belles, mais l’efficacité est bien au rendez-vous.

    Mais votre avis est bienvenue ! Quels avantages connaissez-vous à Internet Download Manager ? Depuis combien de temps l’utilisez-vous sans rencontrer de difficultés ?

  2. salut, je veux un aspirateur de sites Web (code source VB ou C++).
    par exemple HTTrack n’est pas complet sur les codes sources Interface et application de Dos donc il y a un probleme dans l’execution de chaque code .
    alors je veux un d’autre code source VB ou C++ ou JAVA rien avoir HTTRACK si deja modifier le prbleme (HTTRACK ) envoyez le s’il vous plait.sinon ..
    Merci beaucoup pour Guidez et pour envoyez .
    Merci avance .

  3. Un aspirateur ne pourra recupérer que le code interprété par le serveur web. Les sites aspirés sont toujours transformés en format HTML, format dédié à la lecture dans un navigateurs web.

    Les sites aspirés sont pourtant souvent réalisés avec des langages interprétés par serveurs web. Le rôle de l’aspirateur est de permettre la consultation d’un site sans nécessiter de connexion internet. Il ne permet pas de récupérer le code source des sites visités.

    J’ai l’impression que vous cherchez plutôt à récupérer une application qu’un site web ? Aspirateur ou pas, ce que vous cherchez à faire ne me semble possible à réaliser que si le propriétaire du site l’a prévu. Peut-être pouvez vous vous tournez vers les sites dédiés au partage de script : là vous pourrez facilement télécharger des codes sources !

  4. Bonjour,

    Effectivement httrack est un aspirateur très puissant, sans mauvais jeux de mots.
    Toutefois, je n’ai pas encore bien compris comment aspirer les pages d’un site nécessitant un login et mot de passe (bien entendu je sais quel login et mot de passe utiliser, mais comment le faire prendre en compte par httrack ?)

    Par exemple, je voudrais aspirer sur un ultraportable une partie du site http://www.geocaching.com, pour disposer des infos nécessaires au jeu lors de mes déplacements, mais quand j’aspire le site je ne récupère que des pages partielles comme si je l’avais consulté sans me logger.

  5. D’après mon expérience, lorsque la sécurité login/password utilise les cookies (ou sessions), il suffit de se logger sur le site web dans un browser et de lancer ensuite l’aspiration. Httrack peut ainsi aspirer le site tel qu’il est visible dans son browser. Toutefois, cela ne marche pas aussi facilement lorsque la sécurité est en https … il faut alors préciser son login et password dans les paramètres d’httrack … pour plus de précision, je vous invite à consulter le forum officiel d’httrack 🙂

  6. J’avais essayé la manip que tu indiques mais ça ne marchait pas, le site émet un cookie de session qui ne fonctionne que dans le navigateur et pas pour httrack.


    En fait, sur le site httrack ils indiquent une astuce utilisant un mode proxy, et là ça marche parfaitement.

    Le seul hic c’est que le site que je voulais aspirer prévoit dans sa charte l’interdiction d’utiliser un aspirateur…

  7. Bonjour,
    J’utilise aussi cet aspirateur mais ça dure des lunes…(4000 liens) du coup, j’en viens jms à bout…Est-ce normal que ça prenne des jours et des jours?

    Merci bcp

  8. bonjour ,

    merci de vos lumières , par contre un site sur lequel j ai tenté une aspiration me donne du fil a retordre , et la même avec du temps je sèche
    j’aimerais de l’aide s il vous plait
    le site est “le boudoir des copines”

    je vous remercie d avance de m aider dans mon apprentissage d aspirant lol

  9. Chaque site est particulier et il faut parfois jouer d’habilitée pour obtenir un résultat concluant !

    Le site évoqué par Virginie est un skynetblogs, il est long à aspirer car beaucoup de liens hypertextes sont présents sur les pages … et HTTracks, par défaut, suit tout ces liens !

    Un cas particulier, les blogs : l’utilisation d’un lecteur de flux RSS comme RSSOwl peut être plus adapté !


    Quand au site boudoir des copines, la difficulté provient certainement de l’authentification login/password. Lors de l’aspiration du site, veillez à être authentifié sur le site dans un navigateur et surtout à utiliser une version récente d’HTTrack. Vous pourrez ainsi bénéficier du bouton Add URL suivant :

  10. salut tous merci pour ces efforts !

    j’aimerai comprendre une chose,j’ai un blog chez Canalblog que je veux supprimer définitivement ,mais avant ça je veux le garder comme souvenir en l’aspirant avef Httrack !


    j’ai tenté et facilement Httrack me répond que l’aspiration est terminée !
    et lorsque je tente le vérifier Hors-ligne ,çà demande la connexion a l’internet ,ce qui signifie que le site est toujours dépendant d’Internet ??
    je ne risque de perdre le souvenir de mon site si je compte sur Httrack ??
    pourquoi mon site aspiré ne marche pas chez moi sans connexion ??

    merci pour l’aide !

  11. HTTRACK grand vainqueur, mais laisser moi poser une question est ce que possible d’aspirer les flashs et tous les codes dans le site, même de php, css, ou les codes dot net………
    En fait le logiciel déjà testé est ça marche très bien, essayer de le faire, aspirer par exemple google.com 🙂 je pense que c’est très 🙁 essayer un autre.

  12. @ Amazigh : je réagis certainement un peu tard … http://www.fatytaf.c.la/ n’existe déjà plus …

    @ jawad : je ne saisi pas bien l’idée du copier/coller ? Sinon, HTTRACK aspire bien les flash, les css, les doc, les vidéos … tout ce qui se télécharge sur votre poste est aspiré. Par contre, le code php, dot net, ou le code d’un langage de programmation coté serveur n’est pas aspiré … il est interprété par le serveur web, génère du html et est ensuite transmis à votre poste. L’aspirateur récupère ce html et ne peut pas accéder au code php 🙂

  13. bonjour, je comprends pas car tout à l’air si simple! Or j’ai systématiquement une “erreur de chargement de la première page” lorsque je veux aspirer le blog http://parcoursdejoelsurlesmers.over-blog.com/ est-ce à cause de la page de pub qui s’affiche avant tout? Merci de l’aide que vous pourriez m’apporter

  14. J’ai aspiré le site en conservant les options par défaut et je ne constate pas d'”erreur de chargement de la première page” … voulez-vous en dire plus sur les difficultés que vous rencontrez ?

    Pour plus de précision, je vous invite à consulter le forum officiel d’httrack 🙂

  15. Bonjour et tout d’abord un Grand Merci pour votre réponse


    Malheureusement, je viens de faire une nouvelle tentative et je retombe sur la même “Erreur”
    Précision : j’utilise Vista

    J’ai créé un répertoire nouveau pour ce téléchargement, conservé les options par défaut et utilisé le choix “connexion déjà établie”
    Voici le journal d’erreurs que j’obtiens après 1 seconde de téléchargement:

    Merci de votre aide

    HTTrack3.43-4 htsswf htsjava launched on Mon, 08 Jun 2009 10:03:08 at
         http://parcoursdejoelsurlesmers.over-blog.com/
         *.png  *.gif  *.jpg  *.css
         *.js -ad.doubleclick.net/* -mime:application/foobar
         (winhttrack -qwC2%Ps2u1%s%uN0%I0p3DaK0H0%kf2A25000%f#f -F
         "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F
         "" -%l "fr, en, *" http://parcoursdejoelsurlesmers.over-blog.com/
          -O1 "D:\sitesWeb\joel mer\transat joel"
          *.png  *.gif  *.jpg  *.css  *.js -ad.doubleclick.net/* -mime:application/foobar )
    	  Information, Warnings and Errors reported for this mirror:
    	  note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
    	  such as username/password authentication for websites mirrored in this project
     	  do not share these files/folders if you want these information to remain private
    10:03:11 Warning:  File not parsed, looks like binary: parcoursdejoelsurlesmers.over-blog.com/
    10:03:11 Error:  "Open error when decompressing" (-1) at link parcoursdejoelsurlesmers.over-blog.com/ (from primary/primary)
    10:03:11 Info:  No data seems to have been transfered during this session! : restoring previous one!
  16. en effet pas moyen de télécharger parcoursdejoelsurlesmers.over-blog.com j’ai le même problème, je me demande comment Olivier a pu réussir avec les réglages par défaut !

    C’est une protection overblog pour ne pas saturer leurs serveur….

    Si olivier publie ici la méthode, ça va lui générer un sacré traffic 😉

  17. Bonjour,

    J’aimerai savoir si il était possible avec cet outils d’aspirer un site depuis le cache de google .. ?
    C’est pour récupérer le wiki d’une distro linux qui est malheureusement KO depuis quelques semaines.

    http://www.slitaz.org/ seul google a les clefs du wiki désormais et j’aimerai pouvoir le récupérer pour à nouveau en faire profiter la communauté.
    Pensez vous que cela soit possible ?

  18. Hello 🙂

     

    Le wiki n’est en effet plus accessible mais une copie de certaines pages (peut-être pas toutes) est visible depuis le cache de google. La difficulté est d’indiquer à son “aspirateur” les urls de ces pages en cache.

     

    La seule solution qui me vient à l’esprit est d’aspirer une des pages de résultat de Google : tout les liens cache pointant sur son cache. En indiquant par exemple comme url du site à aspirer :

     

    http://www.google.fr/search?num=500&btnG=Recherche Google&as_epq=wiki&as_sitesearch=http://wiki.slitaz.org

     

    Cette url listera les 500 premières pages du site et contenant le mot “wiki” 🙂

  19. Bonjour,

    Vous avez indiqué possible d’aspirer un blog grâce à RSSOwl, il m’est égal de conserver la structure, seuls les articles et commentaires m’intéressent.

    Comment indiquer à RSSOwl d’aspirer tout le blog ? Il est à base de wordpress.

    Merci.

  20. Bonjour Dali,

     

    Un blog diffuse habituellement 2 flux RSS qui permettent d’accéder :
    – aux billets publiés sur le blog
    – aux discussions (suite de commentaires sous les billets)

     

    Pour un blog wordpress, ces 2 flux sont par défaut accessibles en utilisant les adresses :
    http://myblog/?feed=rss2
    http://myblog.com/?feed=comments-rss2

     

    Il faut donc indiquer ces 2 adresses à RSSOwl est vous pourrez récupérer les articles et commentaires relayés par ces flux. Le flux relai les 20 dernières publications du blog, ou les 100 dernières. Il reste rare qu’un flux reprenne entièrement l’historique d’un blog 🙂

  21. Hello
    j’essaie de faire une sauvegarde de mon propre blog hébergé sur over-blog. C’est quoi l’astuce donc pour que ca fonctionne ???
    Merci par avance

    Fréd

  22. Bonjour Olivier,
    désolé pour le tps de réponse. J’ai utilisé le paramétrage par défaut de htTrack (hormis l’option identification étant donné que mon site est protégé par mot de passe).
    Dans les screenshots présentés plus haut, j’avoue ne pas avoir vu où étaient les modifications par rapport au paramètrage par défaut… si vous pouviez éclairer ma lanterne ! 🙂
    Fréd

  23. Je t’invite a me communiquer l’url du site et le password associé pour que je puisse tester et decouvrir le parametrage requis.

    La page contact de ce blog permet de m’envoyer ces infos de manière confidentielle. Il faudra bien sur changer le mot de passe ensuite 🙂

  24. Bonsoir Olivier
    merci pour votre réponse. J’ai envoyé les infos demandées via la page “contact”. J’espère que votre expertise me permettra de résoudre le pb !
    Merci par avance
    Frédéric

  25. Frédéric, la solution n’a pas été simple à trouver … ton blog over-blog est “caché” derrière un nom de domaine en point com, une sécurité login/password est en place et un robots.txt existe !

     

    Pour aspirer ton blog, j’ai paramétré l’url grâce au bouton “Add Url” en précisant http://www.lemondedeleo.com/ et le login/password communiqué par tes soins.

     

    Puis j’ai demandé au logiciel de ne pas tenir compte du fichier robots.txt comme dans la capture d’écran ci-dessous (deuxième liste de sélection no robots.txt rules :

     

     

    Et avec ce paramétrage … l’aspiration ne pose plus de problème 🙂

     

    Frédéric, j’espère avoir ainsi répondu à tes questions … et je t’invite à changer le password de ton blog car tu me l’as communiqué … pas toujours pratique de changer cela (il faut avertir tout ces visiteurs) mais nécessaire quand le blog en question publie les photos du petit Léo (un enfant) 🙂

  26. Merci Olivier, ca marche nickel !

    Au risque d’abuser de ton expertise, sais-tu si il y a un moyen de récupérer les videos (ou de repointer facilement vers les fichiers source qui sont sur mon PC – mais hebergés sur wat.tv quand on accède au blog) ? Cela me permettrait d’avoir une vraie version “complète” off-line !

    Merci bcp en tout cas pour ton aide, déjà comme ca c’est super

    Frédéric

  27. Bonjour,

    Est ce qu’il est possible de récupérer une page web ayant été supprimée et provenant d’un forum?

    Le lien qui mène vers la page web en question n’existe apparemment plus qu’en mode cache seulement il ne m’est impossible d’y accéder car il y’a un message d’erreur qui m’en empeche.

    Voici le lien:

    forum.doctissimo.fr/…amoureuse/sentiments-amoureux-deprime-sujet_5024_1.htm –

    http://209.85.229.132/search?q=cache:zSFXn1nGK10J:forum.doctissimo.fr/psychologie/Coup-de-foudre-et-passion-amoureuse/sentiments-amoureux-deprime-sujet_5024_1.htm+sentiments+amoureux+pour+un+ami+et+d%C3%A9prime&cd=1&hl=fr&ct=clnk&gl=fr

  28. Bonjour,
    je viens de tomber sur ce forum et je vois que Olivier touche sa bille! 🙂
    J’essaye désespérément de récupérer la structure de ce site:http://www.le-paradis.fr/fr/presentation.htm
    mais à chaque fois j’ai le message d’erreur suivant:
    ERREUR DECOPIE httrack a détecté que la copie courante était vide……
    y arrivez vous?
    Merci de bien vouloir m’aider
    Cordialement
    Max

  29. Bonjour Dilane,

     

    Je ne comprend pas bien la problématique … la page du cache Google s’affiche correctement et il est possible de faire “enregistrer sous” pour la récupérer sur son disc dur, non ?

     

    Bonjour Max,

     

    Quel est le paramétrage que tu utilises ? Quels sont les tests que tu as réalisés ?

     

    Pour ma part je saisi juste l’url que tu as indiqué dans le HtTrack en laissant le paramétrage par défaut et cela fonctionne bien … au bout de 5 minutes j’obtiens cela … donc si tu laisses tourner des heures, tu dois récupérer tout le site 🙂

  30. Lol merci pour ta réponse!
    J’ai utilisé la même configuration que celle ci dessus.
    (tuto winhttrack)
    Impossible de récupérer le moindre fichier….toujours la même erreur !
    Pfffff je ne comprend pas!
    je continu à chercher, je te tiens au courant olivier
    merci
    .

  31. Voici mon journal d’erreurs Olivier!
    Merci de bien vouloir jeter un oeil!
    (Je précise que le but de ma démarche et de comprendre la structure du site afin d’essayer de faire la même chose.)

     

    HTTrack3.43-9 htsswf htsjava launched on Fri, 05 Feb 2010 19:18:33 at http://www.le-paradis.fr *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.gif *.jpg *.png *.tif *.bmp *.zip *.tar *.tgz *.gz *.rar *.z *.exe *.mov *.mpg *.mpeg *.avi *.asf *.mp3 *.mp2 *.rm *.wav *.vob *.qt *.vid *.ac3 *.wma *.wmv
    (winhttrack -qir2C2%Ps1u1%s%uN0%I0p3DaK0H0%kf2A20000%f#f -F “Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)” -%F “” -P http://www.le-paradis.fr/fr/presentation.htm -%l “fr, en, *” http://www.le-paradis.fr -O1 “C:\Mes Sites Web\new visual” *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.gif *.jpg *.png *.tif *.bmp *.zip *.tar *.tgz *.gz *.rar *.z *.exe *.mov *.mpg *.mpeg *.avi *.asf *.mp3 *.mp2 *.rm *.wav *.vob *.qt *.vid *.ac3 *.wma *.wmv )
    Information, Warnings and Errors reported for this mirror:
    note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
    such as username/password authentication for websites mirrored in this project
    do not share these files/folders if you want these information to remain private
    19:18:33 Warning: Cache: damaged cache, trying to repair
    19:18:33 Warning: Cache: 0 bytes successfully recovered in 0 entries
    19:18:33 Warning: Cache: error trying to open the cache
    19:18:35 Error: “Unable to get server’s address: Unknown error” (-5) after 2 retries at link le-paradis.fr/robots.txt (from primary/primary)
    19:18:42 Error: “Unable to get server’s address: Unknown error” (-5) after 2 retries at link le-paradis.fr/ (from primary/primary)
    19:18:42 Info: No data seems to have been transfered during this session! : restoring previous one!

  32. Le log semble indiquer que le logiciel lis le fichier robots.txt …je te conseille donc d’essayer le paramétrage décrit dans mon commentaire du 17/12/2009 : no robots.txt

     

    As tu téléchargé le zip que j’ai mis à ta disposition dans ma précédente réponse ? Cela peut certainement t’aider à comprendre “la structure” du site.

     

    Si cette réponse ne te permet toujours pas d’aspirer le site, il faudra poster ton log et expliquer le problème sur le forum officiel d’httrack 🙂

  33. Bonjour,

     

    Tout d’abord merci pour toutes les infos dont vous nous faites part dans cet article et les conseils donnés.
    Je me permets de poster pour un petit problème, à savoir, j’essaye de capturer le site suivant : http://www.accessibilite-batiment.fr/ pour travailler dessus avec mes élèves. L’aspiration se passe assez bien (j’ai suivis les conseils du 14/07/09), par contre quand j’essaye le site hors connexion, je passe l’intro de l’application (clic tout en bas première page “Loqacce cité en ligne”), mais il m’est impossible d’afficher/charger des sous parties nommées “illustrations” (fichiers étant de la vidéo ou autres), exemple : passez l’intro>habitat collectif neuf>stationnement>nombre>illustration (en bas à gauche).

     

    Si vous aviez une idée pour résoudre mon problème, j’en serai heureux 8=)

    Cordialement

  34. Merci beaucoup pour ton aide Olivier.
    Oui le zip m’a servi
    Tout baigne !
    Bonne continuation.
    Merci pour ta disponibilité et réactivité.

  35. Bonjour Kagou !

     

    Des idées, j’en ai ! Du temps, un peu moins 😉

     

    Je pense que les vidéos ne sont pas aspirées. Pourquoi ? Il faut que je prenne le temps d’aspirer ledit site pour le constater et pouvoir (j’espère) y apporter une solution 🙂

     

    Certains contenus sont difficiles à aspirer, notamment les “embedded”, contenu provenant d’un autre site et étant encapsulé sur d’autres sites … Comme le sont bien souvent les vidéos.

     

    Un peu de patience, je vais jeter oeil prochainement !

     

    Ps: quel cours animez vous ? L’usage du web est il bien perçu par les élèves ?

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Posts