Partenariat de création de texte - Text Creation Partnership

Le Text Creation Partnership ( TCP ) est une organisation à but non lucratif basée dans la bibliothèque de l' Université du Michigan depuis 2000. Son objectif est de produire des ressources électroniques en texte intégral à grande échelle (en particulier dans les sciences humaines) au nom des deux les institutions membres (en particulier les bibliothèques universitaires) et les éditeurs savants, dans le cadre d'un arrangement conçu pour répondre aux besoins des deux et, ce faisant, pour démontrer la valeur d'un modèle d'entreprise qui considère les fournisseurs d'informations d'entreprise et à but non lucratif comme des collaborateurs potentiellement amicaux plutôt que en tant que vendeurs et clients antagonistes respectivement.

Projets

TCP a parrainé quatre projets de création de texte à ce jour. Le premier et le plus important est «EEBO-TCP (Phase I)» (2001–2009), un effort visant à produire des transcriptions en texte intégral structurellement balisées de plus de 25 000 des quelque 125 000 livres que l'on trouve dans le Pollard et le Redgrave. et les catalogues de titres courts Wing des premiers livres imprimés anglais, ou parmi les Thomason Tracts , c'est-à-dire parmi presque tous les livres, brochures et feuillets publiés en anglais ou en Angleterre avant 1700. Les livres ont été sélectionnés et transcrits à partir des scans numériques produit par ProQuest Information and Learning et distribué par eux en tant que produit Web sous le nom de « Early English Books Online » (EEBO). Les scans à partir desquels les textes ont été transcrits ont eux-mêmes été réalisés à partir des copies de microfilm réalisées au fil des ans par ProQuest et ses sociétés antécédentes, y compris l'original University Microfilms, Inc. EEBO-TCP Phase I s'est achevée fin 2009, après avoir transcrit environ 25 300 titres, et est immédiatement passé à EEBO-TCP Phase II (2009–), un projet consécutif dédié à la conversion de toutes les monographies uniques restantes en anglais (environ 45 000 titres supplémentaires).

Le troisième projet TCP était Evans-TCP (2003–2007, avec des travaux en cours jusqu'en 2010), un effort pour transcrire 6 000 des 36 000 titres antérieurs à 1800 répertoriés dans la bibliographie américaine de Charles Evans , et distribués, à nouveau sous forme d'images numérisées à partir de copies sur microfilm, par Readex , une division de NewsBank, Inc. sous le nom " Archive of Americana " ("Early American Imprints, série I: Evans, 1639–1800"). Evans-TCP a produit des textes électroniques de près de 5 000 livres.

Le dernier projet TCP était ECCO-TCP (2005-2010, avec quelques travaux en cours), un effort pour transcrire 10 000 livres du XVIIIe siècle parmi les 136 000 titres disponibles dans la ressource Web de Thomson-Gale , "Eigh 18th-Century Collections En ligne "(ECCO). ECCO-TCP a manqué de financement en 2010 après avoir transcrit environ 3 000 (et édité environ 2 400) titres.

Points communs du projet

Les quatre projets de texte TCP sont très similaires. Dans chaque cas:

  1. Le TCP produit du texte à partir de fichiers image commerciaux qui, à leur tour, ont été créés à partir de copies sur microfilm de livres anciens.
  2. Les fournisseurs d'images commerciales reçoivent ce qui est en fait un index en texte intégral de leur produit d'image pour beaucoup moins qu'il n'en coûterait pour le produire eux-mêmes: une valeur ajoutée à leur produit.
  3. Les bibliothèques partenaires possèdent en fait, plutôt que simplement des licences, les textes résultants, et sont libres (sous certaines conditions) de monter les textes elles-mêmes dans le système de leur choix, ou d'utiliser les textes en interne comme un outil de recherche et d'enseignement.
  4. Les textes sont créés selon des normes déterminées par la bibliothèque, uniformes sur plusieurs ensembles de données et potentiellement interrogeables.
  5. Parce qu'ils sont créés en collaboration, les textes sont relativement peu coûteux (par livre) et le deviennent davantage avec chaque bibliothèque qui rejoint le partenariat.
  6. Les textes seront éventuellement rendus librement accessibles au grand public.
  7. La sélection des textes à convertir, bien que différente d'un projet à l'autre, suit dans chaque cas des principes similaires: variété, importance, qualité représentative, évitement de la duplication; Les demandes spécifiques des professeurs ou des initiatives universitaires des établissements membres sont également généralement honorées.
  8. TCP s'est jusqu'à présent principalement intéressé à créer des textes, pas à créer un "produit"; bien que les textes des trois projets soient ou seront montés sur des serveurs de la bibliothèque de l'Université du Michigan, le site du Michigan n'est pas le site TCP officiel: toute bibliothèque partenaire disposant de ressources et de garanties adéquates peut faire de même. Les textes EEBO-TCP, par exemple, sont servis par Michigan, ProQuest, la bibliothèque numérique de l'Université d'Oxford et l'Université de Chicago.

Organisation

Le PCT est supervisé par un conseil d’administration, composé principalement d’administrateurs de bibliothèque supérieurs des institutions partenaires, de représentants des entreprises partenaires et du Conseil des ressources de la bibliothèque et de l’information (CLIR). Le Conseil est assisté pour les questions de sélection et de bourse par un groupe consultatif académique qui comprend des professeurs dans les domaines des premières études modernes anglaises et américaines.

Le TCP a des liens informels avec un certain nombre de projets de textes universitaires basés sur des universités, en particulier en les aidant à leur fournir des textes sources avec lesquels travailler. Les institutions représentées comprennent l'Université Northwestern (IL), l'Université d'Oxford (Royaume-Uni), l'Université de Washington (Saint-Louis), l'Université de Sydney (Australie), l'Université de Toronto (ON) et l'Université de Victoria (Colombie-Britannique). TCP a également travaillé avec les étudiants en parrainant un concours de rédaction de premier cycle chaque année, en convoquant des groupes de travail sur l'utilisation des textes TCP en pédagogie et en faisant appel aux universitaires et aux étudiants pour des idées sur la sélection et l'utilisation.

La production de texte est gérée par le Service de production de bibliothèque numérique (DLPS) de l'Université du Michigan , avec sa vaste expérience dans la production de textes électroniques codés SGML / XML. Le DLPS est assisté par Bodleian Digital Libraries Systems & Services (BDLSS) de l'Université d'Oxford , dont le regretté Sebastian Rahtz . De petites opérations de production à temps partiel ont également été lancées dans deux autres bibliothèques: le Centre for Reformation and Renaissance Studies de la Pratt Library (Victoria University, University of Toronto), spécialisé dans les livres latins; et la Bibliothèque nationale du Pays de Galles (Llyfrgell Genedlaethol Cymru) à Aberystwyth, spécialisée dans les livres gallois.

Normes

Les quatre projets de texte TCP sont produits de la même manière et selon les mêmes normes, qui sont documentées, au moins en partie, sur le site Web TCP.

  1. Précision. Le TCP s'efforce de produire des textes qui sont transcrits aussi précisément que possible, avec un taux de précision global spécifié de 99,995% ou mieux (c'est-à-dire une erreur ou moins pour 20 000 caractères).
  2. Clé. Compte tenu de la nature du matériel, la seule méthode trouvée pour fournir une telle précision sur le plan économique a été de faire saisir les livres par des entreprises de conversion de données sous contrat.
  3. Contrôle de qualité. L'exactitude de la transcription et l'aptitude du balisage sont évaluées dans tous les cas par un groupe d'épreuveurs et de réviseurs basés sur des bibliothèques gérés par l'Université du Michigan DLPS.
  4. Codage. Tous les fichiers texte résultants sont balisés en SGML ou XML valide (SGML est archivé, XML est exporté) conformément à une «Description du type de document» (DTD) propriétaire dérivée de la version P3 / P4 de la norme TEI ( Text Encoding Initiative ).
  5. Balisage intentionnel. Comparé au TEI complet, le TCP DTD est très simple et destiné à capturer uniquement les fonctionnalités les plus utiles pour un affichage intelligible, une navigation intelligente et une recherche productive. La pratique TCP consiste à saisir, dans la mesure du possible, la structure hiérarchique globale de chaque livre (parties, sections, chapitres, etc.); les traits qui tendent à marquer les débuts et les fins des divisions (titres, explicits, salutations, valedictions, datelines, bylines, épigraphes, etc.); les éléments les plus significatifs du discours et de l'organisation (paragraphes en prose, vers et strophes en vers, discours, orateurs et mises en scène dans le théâtre, notes, citations en bloc, numérotation séquentielle de toutes sortes); et uniquement les aspects les plus essentiels du formatage physique (sauts de page, listes, tableaux, changements de police).
  6. Fidélité à l'original. Dans chaque cas, le texte est destiné à représenter le livre tel qu'imprimé à l'origine, dans la mesure du possible. Les erreurs de l'imprimante sont préservées, les modifications manuscrites sont ignorées, les numérisations en double sont omises, les images dans le désordre sont saisies dans l'ordre prévu et la plupart des caractères inhabituels de l'original sont conservés.
  7. Facilité de lecture et de recherche. En même temps, bien que les transcriptions soient effectuées caractère par caractère, TCP, partant du principe que toute transcription est une sorte de traduction d'un système symbolique à un autre, tend à définir les caractères davantage en fonction de leur sens que de leur forme, et de mapper des formes de lettres excentriques à des équivalents modernes significatifs, généralement en accord avec la définition Unicode du «caractère».
  8. Langues. Bien que la plupart des textes TCP soient en anglais, beaucoup ne le sont pas. Les livres et les divisions de livres non en anglais sont étiquetés avec un code de langue approprié, mais ne sont pas distingués autrement.
  9. Matériel omis. Le TCP produit du texte en alphabet latin . Les éléments non textuels tels que la notation musicale, les formules mathématiques et les illustrations (à l'exception de tout texte qu'ils peuvent contenir) sont omis et leurs emplacements sont marqués d'une étiquette spéciale. Le texte étendu dans les alphabets non latins (grec, hébreu, persan, etc.) est également omis.

Réalisations et perspectives

En avril 2011, le TCP avait créé environ 40 000 transcriptions en texte intégral, consultables et navigables, des premiers livres, une base de données d'une portée, d'une échelle et d'une utilité inégalées pour les étudiants dans de nombreux domaines. Sa capacité à continuer à produire les 38000 textes restants inclus dans ses plans récents ambitieux (pour EEBO-TCP Phase II) dépendra de la validité de sa vision originale, découlant de la théorie selon laquelle les bibliothèques pourraient et devraient coopérer pour devenir producteurs et normalisateurs plutôt que consommateurs; et que les universités et les entreprises commerciales, malgré leurs cycles de vie, leurs contraintes et leurs motivations très différents, pourraient s'associer à des partenariats durables dans l'intérêt de toutes les parties.

Depuis le 1er janvier 2015, le texte intégral de la phase I de l'EEBO a été publié sous une licence Creative Commons, et peut être téléchargé et distribué gratuitement.

En 2014, 28 466 titres étaient disponibles via la phase II. Depuis juillet 2015, ProQuest avait le droit exclusif pendant cinq ans de distribuer la collection EEBO-TCP Phase II. Après ces cinq années, les textes seront mis gratuitement à la disposition du public.

Voir également

Les références

Liens externes