Informatique de la biodiversité - Biodiversity informatics

L'informatique de la biodiversité est l'application de techniques informatiques aux informations sur la biodiversité , telles que la taxonomie , la biogéographie ou l' écologie . Les techniques informatiques modernes peuvent générer de nouvelles façons de visualiser et d'analyser les informations existantes, ainsi que de prédire des situations futures (voir modélisation de niche ). L'informatique de la biodiversité est un terme qui n'a été inventé que vers 1992, mais avec des ensembles de données en augmentation rapide, il est devenu utile dans de nombreuses études et applications, telles que la construction de bases de données taxonomiques ou de systèmes d'information géographique . L'informatique de la biodiversité contraste avec la « bioinformatique », qui est souvent utilisée comme synonyme de traitement informatisé des données dans le domaine spécialisé de la biologie moléculaire .

Aperçu

L'informatique de la biodiversité (différente mais liée à la bioinformatique) est l'application des méthodes des technologies de l'information aux problèmes d'organisation, d'accès, de visualisation et d'analyse des données primaires sur la biodiversité. Les données primaires sur la biodiversité sont composées de noms, d'observations et d'enregistrements de spécimens, ainsi que de données génétiques et morphologiques associées à un spécimen. L'informatique de la biodiversité peut également avoir à gérer des informations provenant de taxons sans nom, telles que celles produites par l'échantillonnage environnemental et le séquençage d'échantillons de champs mixtes. Le terme informatique de la biodiversité est également utilisé pour couvrir les problèmes de calcul spécifiques aux noms d'entités biologiques, tels que le développement d'algorithmes pour faire face à des variantes de représentations d'identifiants tels que les noms d'espèces et les autorités, et les multiples schémas de classification au sein desquels ces entités peuvent résident en fonction des préférences des différents travailleurs sur le terrain, ainsi que de la syntaxe et de la sémantique par lesquelles le contenu des bases de données taxonomiques peut être rendu interrogeable par machine et interopérable à des fins d'informatique de la biodiversité...

Histoire de la discipline

On peut considérer que l'informatique de la biodiversité a commencé avec la construction des premières bases de données taxonomiques informatisées au début des années 1970, et a progressé grâce au développement ultérieur d'outils de recherche distribués vers la fin des années 1990, y compris l'analyste d'espèces de l'Université du Kansas, le réseau nord-américain d'information sur la biodiversité NABIN , CONABIO au Mexique, INBio au Costa Rica et d'autres, la création du Global Biodiversity Information Facility en 2001, et le développement parallèle d'une variété de modèles de niche et d'autres outils pour exploiter les données numérisées sur la biodiversité à partir du milieu des années 1980 ( par exemple voir ). En septembre 2000, la revue américaine Science a consacré un numéro spécial à "Bioinformatics for Biodiversity", la revue Biodiversity Informatics a commencé à paraître en 2004, et plusieurs conférences internationales au cours des années 2000 ont réuni des praticiens de l'informatique de la biodiversité, dont la conférence e-Biosphere de Londres en Juin 2009. Un supplément à la revue BMC Bioinformatics (Volume 10 Suppl 14) publié en novembre 2009 traite également de l'informatique de la biodiversité.

Histoire du terme

Selon la correspondance reproduite par Walter Berendsohn, le terme « Informatique de la biodiversité » a été inventé par John Whiting en 1992 pour couvrir les activités d'une entité connue sous le nom de Consortium canadien d'informatique de la biodiversité, un groupe impliqué dans la fusion des informations de base sur la biodiversité avec l'économie environnementale et les informations géospatiales. sous forme de GPS et SIG . Par la suite, il semble avoir perdu toute connexion obligatoire avec le monde GPS/SIG et être associé à la gestion informatisée de tous les aspects de l'information sur la biodiversité (voir par exemple )

Taxonomie numérique (systématique)

Liste mondiale de toutes les espèces

Un problème majeur pour l'informatique de la biodiversité à l'échelle mondiale est l'absence actuelle d'une liste maîtresse complète des espèces actuellement reconnues dans le monde , bien que ce soit un objectif du projet Catalogue of Life qui a ca. 1,65 million d'espèces sur environ 1,9 million d'espèces décrites dans sa liste de contrôle annuelle 2016. Un effort similaire pour les taxons fossiles, la base de données de paléobiologie documente plus de 100 000 noms d'espèces fossiles, sur un nombre total inconnu.

Noms scientifiques de genre et d'espèce comme identifiants uniques

L'application du système linnéen de nomenclature binomiale pour les espèces , et d'uninomiaux pour les genres et les rangs supérieurs, a conduit à de nombreux avantages mais aussi à des problèmes avec les homonymes (le même nom étant utilisé pour plusieurs taxons, soit par inadvertance, soit légitimement dans plusieurs royaumes), synonymes ( plusieurs noms pour le même taxon), ainsi que des variantes de représentations du même nom en raison de différences orthographiques, d'erreurs d'orthographe mineures, de variations dans le mode de citation des noms d'auteurs et des dates, etc. De plus, les noms peuvent changer au fil du temps en raison de l'évolution des opinions taxonomiques (par exemple, le placement générique correct d'une espèce, ou l'élévation d'une sous-espèce au rang d'espèce ou vice versa), et la circonscription d'un taxon peut également changer selon aux concepts taxonomiques de différents auteurs. Une solution proposée à ce problème est l'utilisation d'identificateurs des sciences de la vie ( LSID ) à des fins de communication machine-machine, bien qu'il y ait à la fois des partisans et des opposants à cette approche.

Une classification consensuelle des organismes

Les organismes peuvent être classés de multiples façons (voir la page principale Classification biologique ), ce qui peut créer des problèmes de conception pour les systèmes d'informatique de la biodiversité visant à incorporer une classification unique ou multiple pour répondre aux besoins des utilisateurs, ou pour les guider vers une seule " système préféré". La question de savoir si un système de classification consensuel unique pourra jamais être atteint est probablement une question ouverte, mais le Catalogue de la vie a commandé une activité dans ce domaine qui a été remplacé par un système publié proposé en 2015 par M. Ruggiero et ses collègues.

Mobiliser les informations primaires sur la biodiversité

Les informations « primaires » sur la biodiversité peuvent être considérées comme les données de base sur l'occurrence et la diversité des espèces (ou de tout taxon reconnaissable), généralement en association avec des informations concernant leur distribution dans l'espace, le temps ou les deux. Ces informations peuvent se présenter sous la forme de spécimens conservés et d'informations associées, par exemple rassemblées dans les collections d'histoire naturelle des musées et des herbiers , ou sous forme d'enregistrements d'observation, par exemple à partir d'enquêtes fauniques ou floristiques formelles entreprises par des biologistes professionnels et des étudiants, ou comme amateur et autres observations planifiées ou non planifiées , y compris celles qui relèvent de plus en plus du champ de la science citoyenne . Fournir un accès numérique en ligne et cohérent à cette vaste collection de données primaires disparates est une fonction essentielle de l'informatique de la biodiversité qui est au cœur des réseaux de données régionaux et mondiaux sur la biodiversité, des exemples de ces derniers comprenant OBIS et GBIF .

En tant que source secondaire de données sur la biodiversité, la littérature scientifique pertinente peut être analysée soit par des humains, soit (potentiellement) par des algorithmes spécialisés de recherche d'informations pour extraire les informations primaires pertinentes sur la biodiversité qui y sont rapportées, parfois sous forme agrégée/résumée, mais fréquemment sous forme d'observations primaires dans forme narrative ou tabulaire. Des éléments d'une telle activité (tels que l'extraction d'identifiants taxonomiques clés, de mots- clés / termes d'index , etc.) sont pratiqués depuis de nombreuses années à un niveau supérieur par des bases de données académiques et des moteurs de recherche sélectionnés . Cependant, pour la valeur maximale de l'informatique de la biodiversité, les données d'occurrence primaires réelles devraient idéalement être récupérées puis mises à disposition sous une ou plusieurs formes normalisées ; par exemple, les projets Plazi et INOTAXA transforment la littérature taxonomique en formats XML pouvant ensuite être lus par les applications clientes, le premier utilisant TaxonX-XML et le second utilisant le format taXMLit. La bibliothèque du patrimoine de la biodiversité fait également des progrès significatifs dans son objectif de numériser des portions substantielles de la littérature taxonomique hors droit d'auteur, qui est ensuite soumise à une reconnaissance optique de caractères (OCR) afin de pouvoir être traitée ultérieurement à l'aide d'outils informatiques sur la biodiversité.

Normes et protocoles

À l'instar d'autres disciplines liées aux données, l'informatique de la biodiversité bénéficie de l'adoption de normes et de protocoles appropriés afin de prendre en charge la transmission machine-machine et l'interopérabilité des informations dans son domaine particulier. Des exemples de normes pertinentes incluent le schéma XML Darwin Core pour les données de biodiversité basées sur les spécimens et les observations développées à partir de 1998, ainsi que des extensions de celui-ci, le schéma de transfert de concepts taxonomiques, ainsi que des normes pour les données descriptives structurées et l'accès aux données de collecte biologique (ABCD ); tandis que les protocoles de récupération et de transfert de données incluent DiGIR (maintenant largement remplacé) et TAPIR (TDWG Access Protocol for Information Retrieval). Bon nombre de ces normes et protocoles sont actuellement maintenus, et leur développement supervisé, par Biodiversity Information Standards (TDWG) .

Activités actuelles

Lors de la conférence e-Biosphere 2009 au Royaume-Uni, les thèmes suivants ont été adoptés, ce qui est révélateur d'un large éventail d'activités actuelles en informatique de la biodiversité et de la manière dont elles pourraient être classées :

  • Application: Conservation/Agriculture/Pêche/Industrie/Forêt
  • Application : Espèces exotiques envahissantes
  • Application : Biologie systématique et évolutive
  • Application : Taxonomie et systèmes d'identification
  • Nouveaux outils, services et normes pour la gestion et l'accès aux données
    • Nouveaux outils de modélisation
    • Nouveaux outils pour l'intégration de données
    • Nouvelles approches de l'infrastructure de la biodiversité
    • Nouvelles approches pour l'identification des espèces
    • Nouvelles approches de cartographie de la biodiversité
  • Bases de données et réseaux nationaux et régionaux sur la biodiversité

Un atelier post-conférence de personnes clés ayant actuellement des rôles importants en informatique de la biodiversité a également abouti à une résolution d'atelier qui a souligné, entre autres aspects, la nécessité de créer des registres mondiaux durables pour les ressources qui sont fondamentales pour l'informatique de la biodiversité (par exemple, les référentiels, les collections ); achever la construction d'une solide infrastructure taxonomique ; et créer des ontologies pour les données de biodiversité.

Exemples de projets

Global:

Projets régionaux / nationaux :

  • LifeWatch est proposé par l' ESFRI en tant qu'infrastructure de recherche (e-) paneuropéenne pour soutenir la recherche et l'élaboration de politiques sur la biodiversité.

Une liste de plus de 600 activités actuelles liées à l'informatique de la biodiversité peut être trouvée dans la base de données TDWG "Biodiversity Information Projects of the World".

Voir également

Les références

Lectures complémentaires

Liens externes