summaryrefslogtreecommitdiff
path: root/src/posts/2024-02-06-l-oubli-des-traces-intermediaires.md
blob: efcd2289406d1c8cf7fae7c951833bf8c9668a53 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
---
title: "L'oubli des traces intermédiaires"
date: 2024-02-06
---

## Résumé

Dans cette partie sont traitées les écritures intermédiaires que l'on trouve
entre la source rédigée et l'objet final produit.
Bien souvent, à l'intérieur d'une chaîne éditoriale, le texte produit par un
auteur est dans une forme brute.
Ce texte doit subir une série de transformations (allant de une à plusieurs)
pour produire les éléments finaux : des fichiers au format PDF à imprimer, des
version HTML pour les ePubs ou pour un site web, ou encore des documents au
format XML.

Les transformations d'un format vers un autre ne se déroulent pas par magie, et
l'ordinateur ne "connait" pas les équivalences entre les syntaxes de chaque format.

Pour cela, il faut établir des règles pour formaliser ces équivalences, quand
cela est possible.
Parfois, cela n'est pas possible car ce qui existe dans un format n'existe pas
dans un autre, et il faut alors trouver des solutions alternatives pour
contourner ces problèmes.

Nous avons vu que le format Markdown était un langage de balisage léger pensé en
lien avec le format HTML, de cette manière un `## titre de niveau 2` déclaré en
Markdown peut être transformé en `<h2>titre de niveau 2 </h2> en HTML`.

Ce que l'on remarque c'est que la structure rédigée dans la source est supprimée
-- et oubliée -- pour laisser la place à une structure rédigée par la machine.
Dans certains peuvent se retrouver différents formats intermédiaires, entre la
source et le produit fini, qui sont quasiment invisibles et dont on ne retient
rien, et qui pourtant participé à cette destructuration/restructuration du
document.

Par exemple pour produire un document PDF depuis une source au format Markdown
il faut utiliser un document intermédiaire comme une transformation au format
TeX avant de pouvoir produire le fichier PDF.
Cette transformation LaTeX est temporaire, elle peut être préservée pour
vérification, mais n'est jamais archivée.

Deux transformations sont effectuées dans cet exemple, et deux structurations de
contenus disparaissent.

Note : revenir dans le chapitre sur les archives sur l'oubli de ces traces
structurelles.

Si un auteur.e saisit `##` ce n'est pas la même chose que `<h2>`.
Même si les deux éléments peuvent être lu de la même manière (ceci est un titre
niveau deux), dans un cas il s'agit d'un titre de niveau deux en Markdown et
dans l'autre un titre de niveau 2 en HTML.

Il y a donc une énorme différence sémantique puisque l'une des balises dépend
des spécifications d'un format et la deuxième d'un autre : ce ne sont pas les
mêmes signes qui sont inscrits dans la matière et ils ne se lisent pas de la
même façon.

Or nous observons la disparition de ces signes lors des transformations des
documents alors que ces signes sont pourtant différents.

La machine réécrit le texte et le restructure pour qu'il soit interprétable dans
des environnements autres.
En faisant cela, elle supprime une partie de l'architexte de la source ou du
fichier intermédiaire pour qu'il soit conforme à ce nouvel environnement.
Il y a donc un effacement de l'architexte en creux de la réécriture par la
machine.

Les questions que nous pouvons nous poser relèvent de la sélection de
l'architexte du produit final (politique éditoriale) et de la différence qu'il
existe entre la source et l'objet transformé ?

Le livre Contribution numérique ... sera étudié pour illustrer l'oubli de ces
traces intermédiaires.

Montrer l'arbre abstrait syntaxique de Stylo et celui du Pressoir avec la base
commune md, yaml, bibtex + pandoc et montrer que les output ne sont pas les
mêmes, que malgré les différences dans l'arborescence en fin de chaine
éditoriale, le sens produit diffère ...

## Plan

1. Introduire les chaîne éditoriales 
    - revue de litt sur des chaines numériques
    - fabrique de l'édition
2. Les transformations et les conversions
    - définir ces termes
    - le single source publishing
3. Les AST
    - origine de cet objet
    - utilisation pour du texte
4. Cas d'étude
    - livre contribution numérique
    - le pressoir
    - Pandoc
        - détailler AST
    - AST des documents produits
    - Comparaison si passage dans Stylo des mêmes textes pour produire des XML
      COMMONS et des HTML


## Introduction

Dans le chapitre précédent nous avons décrit les étapes d'écriture d'un texte dans Stylo et l'obtention d'une source séparée en trois documents : Markdown, YAML et BiBTeX.
Toutefois, à l'instar d'un document rédigé dans le format docx, aucune publication n'existe directement dans ce format.
Que ce soit pour un dépôt dans HAL (souvent au format PDF) ou une publication sur Cairn, OpenEdition ou Érudit, les documents sont publiés dans d'autres formats : XML, HTML, ePUB, PDF, etc.