Aspirer un site web pour le consulter hors ligne

31 July, 2007 Olivier 41 Comments 2 categories

Voilà maintenant 7 ans que j’utilise HTTrack pour “aspirer des sites web”⁽¹⁾ et les consulter hors ligne. Il s’agit d’un des premiers logiciels sous licence GPL que j’ai utilisé.

⁽¹⁾ “Aspirer des sites web” : copier le contenu d’un site web sur son disque dur.

HTTrack fonctionne sous Windows et sous Linux. Une interface graphique existe, mais on peut aussi l’utiliser en ligne de commande. Les paramètres par défaut de l’application permettent une aspiration très performante. Le logiciel fonctionne comme les robots des moteurs de recherche : il suit les liens hypertextes et sait lire les site en php. Une fonctionnalité permet même de mettre à jour les copies des sites déjà aspirés.

Si la diffusion des logiciels d’aspiration est parfaitement légale, certains usages ne le sont pas. Or, en matière juridique, les conséquences de l’intention priment sur la technique utilisée. Attention donc à n’utiliser ces copies que dans un cadre privé 🙂

Pour l’exemple, voilà les étapes qui vous permettraient d’aspirer le site talend.com :

Etape 1 : définir, sur son disque dur, l’emplacement où sera stockée la copie du site

définir l'emplacement où sera stocké la copie du site

Etape 2 : indiquer l’adresse (url) du site web

indiquer l'adresse (url) du site web

Etape 3 : au besoin définir les options

définir les options

Etape 4 : laisser le logiciel aspirer ….

HTTrack: aspirateur de site

J’ai utilisé ce logiciel dans le cadre de formations, mais aussi pour permettre la consultation de sites web dans un avion et tout dernièrement pour livrer le contenu du site talend.com à une société spécialisée dans la traduction.

Site de téléchargement : www.httrack.com

Category: Autres sujets, Francais

41 Replies to “Aspirer un site web pour le consulter hors ligne”

jean says:

November 5, 2007 at 5:26 pm

Avez vous essayé des logiciels comme Internet Download Manager ?
(distribué en france par archisoft archisoftint.com/idm )

Reply
Olivier says:

November 5, 2007 at 5:40 pm

N’ayant jamais rencontré de difficulté avec HTTrack, je n’ai jamais été tenté de tester d’autres logiciels … L’interface graphique n’est pas des plus belles, mais l’efficacité est bien au rendez-vous.

Mais votre avis est bienvenue ! Quels avantages connaissez-vous à Internet Download Manager ? Depuis combien de temps l’utilisez-vous sans rencontrer de difficultés ?

Reply
ELGADAOUI says:

January 12, 2008 at 1:55 pm

salut, je veux un aspirateur de sites Web (code source VB ou C++).
par exemple HTTrack n’est pas complet sur les codes sources Interface et application de Dos donc il y a un probleme dans l’execution de chaque code .
alors je veux un d’autre code source VB ou C++ ou JAVA rien avoir HTTRACK si deja modifier le prbleme (HTTRACK ) envoyez le s’il vous plait.sinon ..
Merci beaucoup pour Guidez et pour envoyez .
Merci avance .

Reply
Olivier says:

January 12, 2008 at 7:17 pm

Un aspirateur ne pourra recupérer que le code interprété par le serveur web. Les sites aspirés sont toujours transformés en format HTML, format dédié à la lecture dans un navigateurs web.

Les sites aspirés sont pourtant souvent réalisés avec des langages interprétés par serveurs web. Le rôle de l’aspirateur est de permettre la consultation d’un site sans nécessiter de connexion internet. Il ne permet pas de récupérer le code source des sites visités.

J’ai l’impression que vous cherchez plutôt à récupérer une application qu’un site web ? Aspirateur ou pas, ce que vous cherchez à faire ne me semble possible à réaliser que si le propriétaire du site l’a prévu. Peut-être pouvez vous vous tournez vers les sites dédiés au partage de script : là vous pourrez facilement télécharger des codes sources !

Reply
laurent says:

August 3, 2008 at 4:53 pm

Bonjour,

Effectivement httrack est un aspirateur très puissant, sans mauvais jeux de mots.
Toutefois, je n’ai pas encore bien compris comment aspirer les pages d’un site nécessitant un login et mot de passe (bien entendu je sais quel login et mot de passe utiliser, mais comment le faire prendre en compte par httrack ?)

Par exemple, je voudrais aspirer sur un ultraportable une partie du site http://www.geocaching.com, pour disposer des infos nécessaires au jeu lors de mes déplacements, mais quand j’aspire le site je ne récupère que des pages partielles comme si je l’avais consulté sans me logger.

Reply
Olivier says:

August 9, 2008 at 12:26 pm

D’après mon expérience, lorsque la sécurité login/password utilise les cookies (ou sessions), il suffit de se logger sur le site web dans un browser et de lancer ensuite l’aspiration. Httrack peut ainsi aspirer le site tel qu’il est visible dans son browser. Toutefois, cela ne marche pas aussi facilement lorsque la sécurité est en https … il faut alors préciser son login et password dans les paramètres d’httrack … pour plus de précision, je vous invite à consulter le forum officiel d’httrack 🙂

Reply
laurent says:

August 18, 2008 at 11:25 am

J’avais essayé la manip que tu indiques mais ça ne marchait pas, le site émet un cookie de session qui ne fonctionne que dans le navigateur et pas pour httrack.

En fait, sur le site httrack ils indiquent une astuce utilisant un mode proxy, et là ça marche parfaitement.

Le seul hic c’est que le site que je voulais aspirer prévoit dans sa charte l’interdiction d’utiliser un aspirateur…

Reply
virginie says:

November 13, 2008 at 10:25 am

Bonjour,
J’utilise aussi cet aspirateur mais ça dure des lunes…(4000 liens) du coup, j’en viens jms à bout…Est-ce normal que ça prenne des jours et des jours?

Merci bcp

Reply
Olivier says:

November 13, 2008 at 8:47 pm

aspirer un site, c’est comme photocopier un livre… Et photocopier un livre de 4000 pages prend du temps !

Quel site cherchez-vous a aspirer ?

Reply
Claude says:

December 15, 2008 at 4:26 pm

bonjour ,

merci de vos lumières , par contre un site sur lequel j ai tenté une aspiration me donne du fil a retordre , et la même avec du temps je sèche
j’aimerais de l’aide s il vous plait
le site est “le boudoir des copines”

je vous remercie d avance de m aider dans mon apprentissage d aspirant lol

Reply
Olivier says:

December 26, 2008 at 5:37 pm

Chaque site est particulier et il faut parfois jouer d’habilitée pour obtenir un résultat concluant !

Le site évoqué par Virginie est un skynetblogs, il est long à aspirer car beaucoup de liens hypertextes sont présents sur les pages … et HTTracks, par défaut, suit tout ces liens !

Un cas particulier, les blogs : l’utilisation d’un lecteur de flux RSS comme RSSOwl peut être plus adapté !

Quand au site boudoir des copines, la difficulté provient certainement de l’authentification login/password. Lors de l’aspiration du site, veillez à être authentifié sur le site dans un navigateur et surtout à utiliser une version récente d’HTTrack. Vous pourrez ainsi bénéficier du bouton Add URL suivant :

Reply
Amazigh says:

April 20, 2009 at 12:53 am

salut tous merci pour ces efforts !

j’aimerai comprendre une chose,j’ai un blog chez Canalblog que je veux supprimer définitivement ,mais avant ça je veux le garder comme souvenir en l’aspirant avef Httrack !

j’ai tenté et facilement Httrack me répond que l’aspiration est terminée !
et lorsque je tente le vérifier Hors-ligne ,çà demande la connexion a l’internet ,ce qui signifie que le site est toujours dépendant d’Internet ??
je ne risque de perdre le souvenir de mon site si je compte sur Httrack ??
pourquoi mon site aspiré ne marche pas chez moi sans connexion ??

merci pour l’aide !

Reply
jawad says:

April 23, 2009 at 6:34 pm

C’est un très bon logiciel, mais il ne faut pas toujours faire de copie coller

Reply
jawad says:

April 24, 2009 at 9:42 am

HTTRACK grand vainqueur, mais laisser moi poser une question est ce que possible d’aspirer les flashs et tous les codes dans le site, même de php, css, ou les codes dot net………
En fait le logiciel déjà testé est ça marche très bien, essayer de le faire, aspirer par exemple google.com 🙂 je pense que c’est très 🙁 essayer un autre.

Reply
Olivier says:

April 24, 2009 at 3:48 pm

@ Amazigh : je réagis certainement un peu tard … http://www.fatytaf.c.la/ n’existe déjà plus …

@ jawad : je ne saisi pas bien l’idée du copier/coller ? Sinon, HTTRACK aspire bien les flash, les css, les doc, les vidéos … tout ce qui se télécharge sur votre poste est aspiré. Par contre, le code php, dot net, ou le code d’un langage de programmation coté serveur n’est pas aspiré … il est interprété par le serveur web, génère du html et est ensuite transmis à votre poste. L’aspirateur récupère ce html et ne peut pas accéder au code php 🙂

Reply
Cristo says:

May 24, 2009 at 5:44 pm

bonjour, je comprends pas car tout à l’air si simple! Or j’ai systématiquement une “erreur de chargement de la première page” lorsque je veux aspirer le blog http://parcoursdejoelsurlesmers.over-blog.com/ est-ce à cause de la page de pub qui s’affiche avant tout? Merci de l’aide que vous pourriez m’apporter

Reply
Olivier says:

June 7, 2009 at 4:01 pm

J’ai aspiré le site en conservant les options par défaut et je ne constate pas d'”erreur de chargement de la première page” … voulez-vous en dire plus sur les difficultés que vous rencontrez ?

Pour plus de précision, je vous invite à consulter le forum officiel d’httrack 🙂

Reply

Bonjour et tout d’abord un Grand Merci pour votre réponse

Malheureusement, je viens de faire une nouvelle tentative et je retombe sur la même “Erreur”
Précision : j’utilise Vista

J’ai créé un répertoire nouveau pour ce téléchargement, conservé les options par défaut et utilisé le choix “connexion déjà établie”
Voici le journal d’erreurs que j’obtiens après 1 seconde de téléchargement:

Merci de votre aide

HTTrack3.43-4 htsswf htsjava launched on Mon, 08 Jun 2009 10:03:08 at
     http://parcoursdejoelsurlesmers.over-blog.com/
     *.png  *.gif  *.jpg  *.css
     *.js -ad.doubleclick.net/* -mime:application/foobar
     (winhttrack -qwC2%Ps2u1%s%uN0%I0p3DaK0H0%kf2A25000%f#f -F
     "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F
     "" -%l "fr, en, *" http://parcoursdejoelsurlesmers.over-blog.com/
      -O1 "D:\sitesWeb\joel mer\transat joel"
      *.png  *.gif  *.jpg  *.css  *.js -ad.doubleclick.net/* -mime:application/foobar )
	  Information, Warnings and Errors reported for this mirror:
	  note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
	  such as username/password authentication for websites mirrored in this project
 	  do not share these files/folders if you want these information to remain private
10:03:11 Warning:  File not parsed, looks like binary: parcoursdejoelsurlesmers.over-blog.com/
10:03:11 Error:  "Open error when decompressing" (-1) at link parcoursdejoelsurlesmers.over-blog.com/ (from primary/primary)
10:03:11 Info:  No data seems to have been transfered during this session! : restoring previous one!

SAndra says:

July 9, 2009 at 12:54 am

en effet pas moyen de télécharger parcoursdejoelsurlesmers.over-blog.com j’ai le même problème, je me demande comment Olivier a pu réussir avec les réglages par défaut !

C’est une protection overblog pour ne pas saturer leurs serveur….

Si olivier publie ici la méthode, ça va lui générer un sacré traffic 😉

Reply
Olivier says:

July 14, 2009 at 5:27 pm

Je viens de réessayer, et je confirme que cela fonctionne 🙂

SAndra, es tu sur Vista ? As-tu plus d’information sur la protection d’overblog ?

Voici les réglages que j’applique :

Et voilà le résultat au bout de 15 minutes :

Je vous invite à télécharger :
– le zip correspondant au site obtenu après 15 minutes d’aspiration, https://ocarbone.2point0.org/parcoursdejoelsurlesmers.zip

Reply
Mathieu says:

October 21, 2009 at 11:52 pm

Bonjour,

J’aimerai savoir si il était possible avec cet outils d’aspirer un site depuis le cache de google .. ?
C’est pour récupérer le wiki d’une distro linux qui est malheureusement KO depuis quelques semaines.

http://www.slitaz.org/ seul google a les clefs du wiki désormais et j’aimerai pouvoir le récupérer pour à nouveau en faire profiter la communauté.
Pensez vous que cela soit possible ?

Reply
Olivier says:

October 24, 2009 at 6:04 pm

Hello 🙂

Le wiki n’est en effet plus accessible mais une copie de certaines pages (peut-être pas toutes) est visible depuis le cache de google. La difficulté est d’indiquer à son “aspirateur” les urls de ces pages en cache.

La seule solution qui me vient à l’esprit est d’aspirer une des pages de résultat de Google : tout les liens cache pointant sur son cache. En indiquant par exemple comme url du site à aspirer :

http://www.google.fr/search?num=500&btnG=Recherche Google&as_epq=wiki&as_sitesearch=http://wiki.slitaz.org

Cette url listera les 500 premières pages du site et contenant le mot “wiki” 🙂

Reply
Dali says:

November 30, 2009 at 6:03 am

Bonjour,

Vous avez indiqué possible d’aspirer un blog grâce à RSSOwl, il m’est égal de conserver la structure, seuls les articles et commentaires m’intéressent.

Comment indiquer à RSSOwl d’aspirer tout le blog ? Il est à base de wordpress.

Merci.

Reply
Olivier says:

December 1, 2009 at 9:45 am

Bonjour Dali,

Un blog diffuse habituellement 2 flux RSS qui permettent d’accéder :
– aux billets publiés sur le blog
– aux discussions (suite de commentaires sous les billets)

Pour un blog wordpress, ces 2 flux sont par défaut accessibles en utilisant les adresses :
– http://myblog/?feed=rss2
– http://myblog.com/?feed=comments-rss2

Il faut donc indiquer ces 2 adresses à RSSOwl est vous pourrez récupérer les articles et commentaires relayés par ces flux. Le flux relai les 20 dernières publications du blog, ou les 100 dernières. Il reste rare qu’un flux reprenne entièrement l’historique d’un blog 🙂

Reply
Drags says:

December 8, 2009 at 10:34 pm

Hello
j’essaie de faire une sauvegarde de mon propre blog hébergé sur over-blog. C’est quoi l’astuce donc pour que ca fonctionne ???
Merci par avance

Fréd

Reply
Olivier says:

December 9, 2009 at 7:52 am

Bonjour Fred 🙂

Avez-vous utilisé le paramétrage par défaut de HtTrack ? Qu’elle erreur rencontrez vous ?

Reply
Drags says:

December 10, 2009 at 9:20 pm

Bonjour Olivier,
désolé pour le tps de réponse. J’ai utilisé le paramétrage par défaut de htTrack (hormis l’option identification étant donné que mon site est protégé par mot de passe).
Dans les screenshots présentés plus haut, j’avoue ne pas avoir vu où étaient les modifications par rapport au paramètrage par défaut… si vous pouviez éclairer ma lanterne ! 🙂
Fréd

Reply
Olivier says:

December 13, 2009 at 10:28 am

Je t’invite a me communiquer l’url du site et le password associé pour que je puisse tester et decouvrir le parametrage requis.

La page contact de ce blog permet de m’envoyer ces infos de manière confidentielle. Il faudra bien sur changer le mot de passe ensuite 🙂

Reply
Drags says:

December 16, 2009 at 10:38 pm

Bonsoir Olivier
merci pour votre réponse. J’ai envoyé les infos demandées via la page “contact”. J’espère que votre expertise me permettra de résoudre le pb !
Merci par avance
Frédéric

Reply
Olivier says:

December 17, 2009 at 8:56 am

Frédéric, la solution n’a pas été simple à trouver … ton blog over-blog est “caché” derrière un nom de domaine en point com, une sécurité login/password est en place et un robots.txt existe !

Pour aspirer ton blog, j’ai paramétré l’url grâce au bouton “Add Url” en précisant http://www.lemondedeleo.com/ et le login/password communiqué par tes soins.

Puis j’ai demandé au logiciel de ne pas tenir compte du fichier robots.txt comme dans la capture d’écran ci-dessous (deuxième liste de sélection no robots.txt rules :

Et avec ce paramétrage … l’aspiration ne pose plus de problème 🙂

Frédéric, j’espère avoir ainsi répondu à tes questions … et je t’invite à changer le password de ton blog car tu me l’as communiqué … pas toujours pratique de changer cela (il faut avertir tout ces visiteurs) mais nécessaire quand le blog en question publie les photos du petit Léo (un enfant) 🙂

Reply
Drags says:

December 17, 2009 at 11:07 pm

Merci Olivier, ca marche nickel !

Au risque d’abuser de ton expertise, sais-tu si il y a un moyen de récupérer les videos (ou de repointer facilement vers les fichiers source qui sont sur mon PC – mais hebergés sur wat.tv quand on accède au blog) ? Cela me permettrait d’avoir une vraie version “complète” off-line !

Merci bcp en tout cas pour ton aide, déjà comme ca c’est super

Frédéric

Reply
Dilane says:

January 18, 2010 at 2:07 pm

Bonjour,

Est ce qu’il est possible de récupérer une page web ayant été supprimée et provenant d’un forum?

Le lien qui mène vers la page web en question n’existe apparemment plus qu’en mode cache seulement il ne m’est impossible d’y accéder car il y’a un message d’erreur qui m’en empeche.

Voici le lien:

forum.doctissimo.fr/…amoureuse/sentiments-amoureux-deprime-sujet_5024_1.htm –

http://209.85.229.132/search?q=cache:zSFXn1nGK10J:forum.doctissimo.fr/psychologie/Coup-de-foudre-et-passion-amoureuse/sentiments-amoureux-deprime-sujet_5024_1.htm+sentiments+amoureux+pour+un+ami+et+d%C3%A9prime&cd=1&hl=fr&ct=clnk&gl=fr

Reply
Max says:

February 3, 2010 at 2:36 pm

Bonjour,
je viens de tomber sur ce forum et je vois que Olivier touche sa bille! 🙂
J’essaye désespérément de récupérer la structure de ce site:http://www.le-paradis.fr/fr/presentation.htm
mais à chaque fois j’ai le message d’erreur suivant:
ERREUR DECOPIE httrack a détecté que la copie courante était vide……
y arrivez vous?
Merci de bien vouloir m’aider
Cordialement
Max

Reply
Olivier says:

February 3, 2010 at 4:25 pm

Bonjour Dilane,

Je ne comprend pas bien la problématique … la page du cache Google s’affiche correctement et il est possible de faire “enregistrer sous” pour la récupérer sur son disc dur, non ?

Bonjour Max,

Quel est le paramétrage que tu utilises ? Quels sont les tests que tu as réalisés ?

Pour ma part je saisi juste l’url que tu as indiqué dans le HtTrack en laissant le paramétrage par défaut et cela fonctionne bien … au bout de 5 minutes j’obtiens cela … donc si tu laisses tourner des heures, tu dois récupérer tout le site 🙂

Reply
Max says:

February 5, 2010 at 6:53 pm

Lol merci pour ta réponse!
J’ai utilisé la même configuration que celle ci dessus.
(tuto winhttrack)
Impossible de récupérer le moindre fichier….toujours la même erreur !
Pfffff je ne comprend pas!
je continu à chercher, je te tiens au courant olivier
merci
.

Reply
Max says:

February 5, 2010 at 7:21 pm

Voici mon journal d’erreurs Olivier!
Merci de bien vouloir jeter un oeil!
(Je précise que le but de ma démarche et de comprendre la structure du site afin d’essayer de faire la même chose.)

HTTrack3.43-9 htsswf htsjava launched on Fri, 05 Feb 2010 19:18:33 at http://www.le-paradis.fr *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.gif *.jpg *.png *.tif *.bmp *.zip *.tar *.tgz *.gz *.rar *.z *.exe *.mov *.mpg *.mpeg *.avi *.asf *.mp3 *.mp2 *.rm *.wav *.vob *.qt *.vid *.ac3 *.wma *.wmv
(winhttrack -qir2C2%Ps1u1%s%uN0%I0p3DaK0H0%kf2A20000%f#f -F “Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)” -%F “” -P http://www.le-paradis.fr/fr/presentation.htm -%l “fr, en, *” http://www.le-paradis.fr -O1 “C:\Mes Sites Web\new visual” *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.gif *.jpg *.png *.tif *.bmp *.zip *.tar *.tgz *.gz *.rar *.z *.exe *.mov *.mpg *.mpeg *.avi *.asf *.mp3 *.mp2 *.rm *.wav *.vob *.qt *.vid *.ac3 *.wma *.wmv )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
19:18:33 Warning: Cache: damaged cache, trying to repair
19:18:33 Warning: Cache: 0 bytes successfully recovered in 0 entries
19:18:33 Warning: Cache: error trying to open the cache
19:18:35 Error: “Unable to get server’s address: Unknown error” (-5) after 2 retries at link le-paradis.fr/robots.txt (from primary/primary)
19:18:42 Error: “Unable to get server’s address: Unknown error” (-5) after 2 retries at link le-paradis.fr/ (from primary/primary)
19:18:42 Info: No data seems to have been transfered during this session! : restoring previous one!

Reply
Olivier says:

February 6, 2010 at 5:57 pm

Le log semble indiquer que le logiciel lis le fichier robots.txt …je te conseille donc d’essayer le paramétrage décrit dans mon commentaire du 17/12/2009 : no robots.txt

As tu téléchargé le zip que j’ai mis à ta disposition dans ma précédente réponse ? Cela peut certainement t’aider à comprendre “la structure” du site.

Si cette réponse ne te permet toujours pas d’aspirer le site, il faudra poster ton log et expliquer le problème sur le forum officiel d’httrack 🙂

Reply
Kagou says:

February 8, 2010 at 6:37 am

Bonjour,

Tout d’abord merci pour toutes les infos dont vous nous faites part dans cet article et les conseils donnés.
Je me permets de poster pour un petit problème, à savoir, j’essaye de capturer le site suivant : http://www.accessibilite-batiment.fr/ pour travailler dessus avec mes élèves. L’aspiration se passe assez bien (j’ai suivis les conseils du 14/07/09), par contre quand j’essaye le site hors connexion, je passe l’intro de l’application (clic tout en bas première page “Loqacce cité en ligne”), mais il m’est impossible d’afficher/charger des sous parties nommées “illustrations” (fichiers étant de la vidéo ou autres), exemple : passez l’intro>habitat collectif neuf>stationnement>nombre>illustration (en bas à gauche).

Si vous aviez une idée pour résoudre mon problème, j’en serai heureux 8=)

Cordialement

Reply
Max says:

February 10, 2010 at 3:01 pm

Merci beaucoup pour ton aide Olivier.
Oui le zip m’a servi
Tout baigne !
Bonne continuation.
Merci pour ta disponibilité et réactivité.

Reply
Kagou says:

February 11, 2010 at 1:27 am

up up, pas d’idées ??? ;=(

Reply
Olivier says:

February 11, 2010 at 9:21 am

Bonjour Kagou !

Des idées, j’en ai ! Du temps, un peu moins 😉

Je pense que les vidéos ne sont pas aspirées. Pourquoi ? Il faut que je prenne le temps d’aspirer ledit site pour le constater et pouvoir (j’espère) y apporter une solution 🙂

Certains contenus sont difficiles à aspirer, notamment les “embedded”, contenu provenant d’un autre site et étant encapsulé sur d’autres sites … Comme le sont bien souvent les vidéos.

Un peu de patience, je vais jeter oeil prochainement !

Ps: quel cours animez vous ? L’usage du web est il bien perçu par les élèves ?

Reply

41 Replies to “Aspirer un site web pour le consulter hors ligne”

Leave a Reply Cancel reply

Le réseau social Apprendre 2.0

La Certification Talend

WAMP5, vous connaissez ?