-
Notifications
You must be signed in to change notification settings - Fork 6
archive.org
https://archive.org/details/texts - Clotilde Berne - Robin Beaudoin - Élise Delannoy - Adrien Lopez
Présentation générale :
Le site internet archive.org est un organisme associatif à but non-lucratif qui a pour projet de rassembler et de proposer à l'internaute une librairie exhaustive de tous les textes libres de droits. Ce site étant en anglais, il s'adresse avant tout à un public anglo-saxon, mais le nombre des textes disponibles en français est en augmentation constante. Il peut être difficile pour un non-anglophone de trouver les textes selon les critères choisis, heureusement, le site dispose d'une recherche avancée, et nous pouvons même affiner la recherche avec des critères personnalisés.
A propos de Jules Vernes...
En concentrant notre recherche, nous obtenons sur ce site un total de 30 textes de Jules Verne, en langue française, un chiffre assez pauvre étant donné le caractère prolifique de l'auteur, qui a publié plus de 130 œuvres. De plus, plusieurs textes de ce corpus sont répétés, nous trouvons cinq versions de Michel Strogoff et du Tour du Monde en Quatre-vingt Jours, et L'Épave du Cynthia apparaît en double. Faire le tri pour n'obtenir qu'une version de chacun des textes serait une perte de temps lors d'un travail d'édition. Le manque de résultats ne nous permet pas d'établir une édition des œuvres complètes de Jules Verne, mais la présence de ses textes les plus connus peut constituer un corpus de départ. Le site dispose de son propre serveur de téléchargement, ainsi, les fichiers ont peu de chances de disparaître, au contraire des fichiers hébergés sur des serveurs tiers.
Le niveau d'uniformisation :
Le niveau d'uniformisation des textes proposés par archive.org correspond aux critères du niveau 4. En effet, archive.org proposent des éditions philologiques qui mettent un soin particulier à imiter le papier. La navigation possible dans le texte ne se fait pas numériquement, chapitre par chapitre ; elle imite au contraire les caractéristiques d'un véritable ouvrage, que l'on peut « feuilleter » par le biais du curseur de la souris.
Les formats disponibles et les avantages et inconvénients du format « full text » :
Pour chacun des 30 textes disponibles, archive.org propose au moins 7 formats différents, mais la plupart d'entre eux ne sont d’aucune utilité pour un éditeur. Certains de ces formats sont spécifiques aux liseuses, comme les formats « Epub » et « Kindle ». Le format « Daisy » est celui du livre audio. Archive.org propose aussi des versions du texte réalisées avec OCR (fichiers ABBYY GZ), ou les pages de l’ouvrage numérisées en format image (en pdf ou dans un format intitulé « single page processed JP2 », qui permet de télécharger chaque page, la totalité étant rassemblée dans une archive .zip).
Enfin, et c’est ce qui est le plus intéressant en tant qu’éditeur, le site propose un format « full text » qui propose une version du texte sans aucune illustrations ni mise en forme, ce qui nous offre un matériau relativement neutre sur lequel travailler. Ce fichier « full text » est consultable en ligne, mais on ne peut pas le télécharger tel quel. La solution à ce problème pourrait être l'utilisation de la fonction copier/coller dans un nouveau fichier, mais effectuer cette manipulation serait une perte de temps considérable, pour récupérer un texte de qualité discutable. On pourrait également choisir d'enregistrer la page du fichier « full text » en changeant l'extension .html en extension .txt. Cette manipulation révèle que le texte en lui même n'est pas balisé, pour avoir accès au texte brut, il suffirait donc seulement de supprimer les métadonnées, et la mise en forme de la page.
Cette version « full text » est dans la majeure partie des cas, le résultat de la transformation par archive.org d’un fichier de google.books en fichier texte. Ainsi, cette version du texte a été numérisée par Google et a donc nécessité l’utilisation d’un logiciel d’OCR. Il y a donc très peu de fautes d’orthographe, puisque ce texte est le résultat d’une numérisation d’un ouvrage papier, mais il résulte de ce procédé de très nombreuses coquilles. De plus, la structure du texte de google (mention du titre en haut de chaque page, numérotations des pages etc.) est demeurée lors de la transformation du fichier original de google en fichier texte. Le texte est donc régulièrement coupé par la mention « digitalized by google », le titre du livre, ou un numéro de page. En tant qu’éditeur, supprimer toutes ces mentions pour pouvoir récupérer une version du texte exploitable constituerait une perte de temps.
Le reste des fichiers provient du site gallica de la bnf. Leur version « full text » est également le résultat d’une transformation du fichier original en fichier texte, et en conséquence, ces fichiers sont illisibles, entrecoupés de suite de caractères sans aucun sens, on retrouve également le titre de l’ouvrage toutes les trente lignes.
Conclusion :
En conclusion, le site archive.org n'est pas une très bonne source de textes pour réaliser une édition complète de Jules Verne. En dehors du fait qu'il ne répertorie pas tous les textes dont nous avons besoin, et qu'il compte parfois plusieurs versions de la même œuvre, le texte demanderait trop de manipulations uniquement pour enregistrer une version du texte. Il faudrait également corriger les coquilles dues à la transformation des fichiers de google.books ou de gallica en fichier « full text » d'archive.org, ainsi qu'au logiciel d'OCR employé.