From 458dbca4bed03c6995395b21a9f0a3f515d7a442 Mon Sep 17 00:00:00 2001 From: RochDLY Date: Sun, 28 Jan 2024 11:05:18 +0100 Subject: billet archiver un site web: update + ajout du gif MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit documentation de la création d'une version statique du site web et ajout d'un petit gif pour montrer le résultat obtenu. --- docs/posts/2024-01-26-archiver-un-site-web.html | 20 ++++++++++++++++++++ 1 file changed, 20 insertions(+) (limited to 'docs/posts/2024-01-26-archiver-un-site-web.html') diff --git a/docs/posts/2024-01-26-archiver-un-site-web.html b/docs/posts/2024-01-26-archiver-un-site-web.html index 62b69da..113e40b 100644 --- a/docs/posts/2024-01-26-archiver-un-site-web.html +++ b/docs/posts/2024-01-26-archiver-un-site-web.html @@ -33,6 +33,7 @@
  • Contexte
  • Essais pour intégrer les données
  • Tentatives pour archiver le site web
  • +
  • La commande qui fonctionne
  • @@ -139,6 +140,25 @@ https://url

    semble ne plus récupérer ces centaines de documents ! Toutefois la capture du site ne sera pas moins longue dans ces conditions, wget passe quand même sur ces ressources, les télécharge, puis les supprime.

    Il me reste un peu moins d’une heure de train pour rentrer à Paris, on va voir ce que j’arrive à récupérer d’ici là.

    +

    La commande qui fonctionne

    +

    C’était un peu trop ambitieux d’espérer récupérer tout le site web avec la dernière commande en simplement une heure.

    +

    Il aura été nécessaire de laisser tourner wget pendant plus de 11h pour récupérer l’intégralité du site web avec la commande suivante :

    +
    > wget --wait=1 \
    +     --level=inf \
    +     --recursive \
    +     --page-requisites \
    +     --user-agent=Mozilla \
    +     --no-parent \
    +     --convert-links \
    +     --adjust-extension \
    +     --no-clobber \
    +     --reject=xml,json,csv,atom,rss,rss2,tmp \
    +     -e robots=off \
    +     https://anr-collabora.parisnanterre.fr/observatoire/
    +

    La différence avec la commande précédente est la réduction du temps d’attente entre chaque requête d’une seconde (wait=1).

    +

    On a pu récupérer plus de 11600 fichiers constituant tout le site web ! La plupart des fonctionnalités ont été préservées (recherche par mot-clés ou par tag), le CSS et les images sont bien présents.

    +

    Il ne reste plus qu’à supprimer la version existante avec Omeka Classic et déposer l’archive statique sur le serveur pour vérifier que tout fonctionne correctement !

    +