Informatique de la biodiversité - Biodiversity informatics

L'informatique de la biodiversité est l'application de techniques informatiques aux informations sur la biodiversité , telles que la taxonomie , la biogéographie ou l' écologie . Les techniques informatiques modernes peuvent générer de nouvelles façons de visualiser et d'analyser les informations existantes, ainsi que de prédire des situations futures (voir modélisation de niche ). L'informatique de la biodiversité est un terme qui n'a été inventé que vers 1992, mais avec des ensembles de données en augmentation rapide, il est devenu utile dans de nombreuses études et applications, telles que la construction de bases de données taxonomiques ou de systèmes d'information géographique . L'informatique de la biodiversité contraste avec la « bioinformatique », qui est souvent utilisée comme synonyme de traitement informatisé des données dans le domaine spécialisé de la biologie moléculaire .

Aperçu

L'informatique de la biodiversité (différente mais liée à la bioinformatique) est l'application des méthodes des technologies de l'information aux problèmes d'organisation, d'accès, de visualisation et d'analyse des données primaires sur la biodiversité. Les données primaires sur la biodiversité sont composées de noms, d'observations et d'enregistrements de spécimens, ainsi que de données génétiques et morphologiques associées à un spécimen. L'informatique de la biodiversité peut également avoir à gérer des informations provenant de taxons sans nom, telles que celles produites par l'échantillonnage environnemental et le séquençage d'échantillons de champs mixtes. Le terme informatique de la biodiversité est également utilisé pour couvrir les problèmes de calcul spécifiques aux noms d'entités biologiques, tels que le développement d'algorithmes pour faire face à des variantes de représentations d'identifiants tels que les noms d'espèces et les autorités, et les multiples schémas de classification au sein desquels ces entités peuvent résident en fonction des préférences des différents travailleurs sur le terrain, ainsi que de la syntaxe et de la sémantique par lesquelles le contenu des bases de données taxonomiques peut être rendu interrogeable par machine et interopérable à des fins d'informatique de la biodiversité...

Histoire de la discipline

On peut considérer que l'informatique de la biodiversité a commencé avec la construction des premières bases de données taxonomiques informatisées au début des années 1970, et a progressé grâce au développement ultérieur d'outils de recherche distribués vers la fin des années 1990, y compris l'analyste d'espèces de l'Université du Kansas, le réseau nord-américain d'information sur la biodiversité NABIN , CONABIO au Mexique, INBio au Costa Rica et d'autres, la création du Global Biodiversity Information Facility en 2001, et le développement parallèle d'une variété de modèles de niche et d'autres outils pour exploiter les données numérisées sur la biodiversité à partir du milieu des années 1980 ( par exemple voir ). En septembre 2000, la revue américaine Science a consacré un numéro spécial à "Bioinformatics for Biodiversity", la revue Biodiversity Informatics a commencé à paraître en 2004, et plusieurs conférences internationales au cours des années 2000 ont réuni des praticiens de l'informatique de la biodiversité, dont la conférence e-Biosphere de Londres en Juin 2009. Un supplément à la revue BMC Bioinformatics (Volume 10 Suppl 14) publié en novembre 2009 traite également de l'informatique de la biodiversité.

Histoire du terme

Selon la correspondance reproduite par Walter Berendsohn, le terme « Informatique de la biodiversité » a été inventé par John Whiting en 1992 pour couvrir les activités d'une entité connue sous le nom de Consortium canadien d'informatique de la biodiversité, un groupe impliqué dans la fusion des informations de base sur la biodiversité avec l'économie environnementale et les informations géospatiales. sous forme de GPS et SIG . Par la suite, il semble avoir perdu toute connexion obligatoire avec le monde GPS/SIG et être associé à la gestion informatisée de tous les aspects de l'information sur la biodiversité (voir par exemple )

Taxonomie numérique (systématique)

Liste mondiale de toutes les espèces

Un problème majeur pour l'informatique de la biodiversité à l'échelle mondiale est l'absence actuelle d'une liste maîtresse complète des espèces actuellement reconnues dans le monde , bien que ce soit un objectif du projet Catalogue of Life qui a ca. 1,65 million d'espèces sur environ 1,9 million d'espèces décrites dans sa liste de contrôle annuelle 2016. Un effort similaire pour les taxons fossiles, la base de données de paléobiologie documente plus de 100 000 noms d'espèces fossiles, sur un nombre total inconnu.

Noms scientifiques de genre et d'espèce comme identifiants uniques

L'application du système linnéen de nomenclature binomiale pour les espèces , et d'uninomiaux pour les genres et les rangs supérieurs, a conduit à de nombreux avantages mais aussi à des problèmes avec les homonymes (le même nom étant utilisé pour plusieurs taxons, soit par inadvertance, soit légitimement dans plusieurs royaumes), synonymes ( plusieurs noms pour le même taxon), ainsi que des variantes de représentations du même nom en raison de différences orthographiques, d'erreurs d'orthographe mineures, de variations dans le mode de citation des noms d'auteurs et des dates, etc. De plus, les noms peuvent changer au fil du temps en raison de l'évolution des opinions taxonomiques (par exemple, le placement générique correct d'une espèce, ou l'élévation d'une sous-espèce au rang d'espèce ou vice versa), et la circonscription d'un taxon peut également changer selon aux concepts taxonomiques de différents auteurs. Une solution proposée à ce problème est l'utilisation d'identificateurs des sciences de la vie ( LSID ) à des fins de communication machine-machine, bien qu'il y ait à la fois des partisans et des opposants à cette approche.

Une classification consensuelle des organismes

Les organismes peuvent être classés de multiples façons (voir la page principale Classification biologique ), ce qui peut créer des problèmes de conception pour les systèmes d'informatique de la biodiversité visant à incorporer une classification unique ou multiple pour répondre aux besoins des utilisateurs, ou pour les guider vers une seule " système préféré". La question de savoir si un système de classification consensuel unique pourra jamais être atteint est probablement une question ouverte, mais le Catalogue de la vie a commandé une activité dans ce domaine qui a été remplacé par un système publié proposé en 2015 par M. Ruggiero et ses collègues.

Mobiliser les informations primaires sur la biodiversité

Les informations « primaires » sur la biodiversité peuvent être considérées comme les données de base sur l'occurrence et la diversité des espèces (ou de tout taxon reconnaissable), généralement en association avec des informations concernant leur distribution dans l'espace, le temps ou les deux. Ces informations peuvent se présenter sous la forme de spécimens conservés et d'informations associées, par exemple rassemblées dans les collections d'histoire naturelle des musées et des herbiers , ou sous forme d'enregistrements d'observation, par exemple à partir d'enquêtes fauniques ou floristiques formelles entreprises par des biologistes professionnels et des étudiants, ou comme amateur et autres observations planifiées ou non planifiées , y compris celles qui relèvent de plus en plus du champ de la science citoyenne . Fournir un accès numérique en ligne et cohérent à cette vaste collection de données primaires disparates est une fonction essentielle de l'informatique de la biodiversité qui est au cœur des réseaux de données régionaux et mondiaux sur la biodiversité, des exemples de ces derniers comprenant OBIS et GBIF .

En tant que source secondaire de données sur la biodiversité, la littérature scientifique pertinente peut être analysée soit par des humains, soit (potentiellement) par des algorithmes spécialisés de recherche d'informations pour extraire les informations primaires pertinentes sur la biodiversité qui y sont rapportées, parfois sous forme agrégée/résumée, mais fréquemment sous forme d'observations primaires dans forme narrative ou tabulaire. Des éléments d'une telle activité (tels que l'extraction d'identifiants taxonomiques clés, de mots- clés / termes d'index , etc.) sont pratiqués depuis de nombreuses années à un niveau supérieur par des bases de données académiques et des moteurs de recherche sélectionnés . Cependant, pour la valeur maximale de l'informatique de la biodiversité, les données d'occurrence primaires réelles devraient idéalement être récupérées puis mises à disposition sous une ou plusieurs formes normalisées ; par exemple, les projets Plazi et INOTAXA transforment la littérature taxonomique en formats XML pouvant ensuite être lus par les applications clientes, le premier utilisant TaxonX-XML et le second utilisant le format taXMLit. La bibliothèque du patrimoine de la biodiversité fait également des progrès significatifs dans son objectif de numériser des portions substantielles de la littérature taxonomique hors droit d'auteur, qui est ensuite soumise à une reconnaissance optique de caractères (OCR) afin de pouvoir être traitée ultérieurement à l'aide d'outils informatiques sur la biodiversité.

Normes et protocoles

À l'instar d'autres disciplines liées aux données, l'informatique de la biodiversité bénéficie de l'adoption de normes et de protocoles appropriés afin de prendre en charge la transmission machine-machine et l'interopérabilité des informations dans son domaine particulier. Des exemples de normes pertinentes incluent le schéma XML Darwin Core pour les données de biodiversité basées sur les spécimens et les observations développées à partir de 1998, ainsi que des extensions de celui-ci, le schéma de transfert de concepts taxonomiques, ainsi que des normes pour les données descriptives structurées et l'accès aux données de collecte biologique (ABCD ); tandis que les protocoles de récupération et de transfert de données incluent DiGIR (maintenant largement remplacé) et TAPIR (TDWG Access Protocol for Information Retrieval). Bon nombre de ces normes et protocoles sont actuellement maintenus, et leur développement supervisé, par Biodiversity Information Standards (TDWG) .

Activités actuelles

Lors de la conférence e-Biosphere 2009 au Royaume-Uni, les thèmes suivants ont été adoptés, ce qui est révélateur d'un large éventail d'activités actuelles en informatique de la biodiversité et de la manière dont elles pourraient être classées :

Application: Conservation/Agriculture/Pêche/Industrie/Forêt
Application : Espèces exotiques envahissantes
Application : Biologie systématique et évolutive
Application : Taxonomie et systèmes d'identification
Nouveaux outils, services et normes pour la gestion et l'accès aux données
- Nouveaux outils de modélisation
- Nouveaux outils pour l'intégration de données
- Nouvelles approches de l'infrastructure de la biodiversité
- Nouvelles approches pour l'identification des espèces
- Nouvelles approches de cartographie de la biodiversité
Bases de données et réseaux nationaux et régionaux sur la biodiversité

Un atelier post-conférence de personnes clés ayant actuellement des rôles importants en informatique de la biodiversité a également abouti à une résolution d'atelier qui a souligné, entre autres aspects, la nécessité de créer des registres mondiaux durables pour les ressources qui sont fondamentales pour l'informatique de la biodiversité (par exemple, les référentiels, les collections ); achever la construction d'une solide infrastructure taxonomique ; et créer des ontologies pour les données de biodiversité.

Exemples de projets

Global:

Le Global Biodiversity Information Facility (GBIF) et le Ocean Biogeographic Information System (OBIS) (pour les espèces marines)
Projets The Species 2000 , ITIS (Integrated Taxonomic Information System) et Catalogue of Life
Noms globaux
EOL , Le projet Encyclopédie de la vie
Le Consortium pour le projet Barcode of Life
Le projet Carte de la vie
Le projet Reptile Database
Le projet AmphibiaWeb
L'indexeur et organisateur biologique universel uBio, du Woods Hole Marine Biological Laboratory
L'Index des noms d'organismes (ION) de Clarivate Analytics, donnant accès aux noms scientifiques des taxons de nombreuses revues indexées dans le Zoological Record
Le Registre Intérimaire des Genres Marins et Non Marins (IRMNG)
ZooBank , le registre des actes nomenclaturaux et de la littérature systématique pertinente en zoologie
L'Index Nominum Genericorum, compilation de noms génériques publiés pour des organismes couverts par le Code international de nomenclature botanique , conservé à la Smithsonian Institution aux États-Unis
L' index international des noms de plantes
MycoBank , documentant les nouveaux noms et combinaisons de champignons
La liste des noms procaryotes ayant un statut dans la nomenclature ( LPSN ) - Registre officiel des noms valides pour les bactéries et les archées , tel que régi par le Code international de nomenclature des bactéries
Le projet Biodiversity Heritage Library - numériser la littérature sur la biodiversité
Wikispecies , compilation open source (modifiable par la communauté) d'informations taxonomiques, projet associé à Wikipedia
TaxonConcept.org, un projet de données liées qui connecte des bases de données d'espèces disparates
Instituto de Ciencias Naturales. Université nationale de Colombie. Unité d'informatique des collections virtuelles et de la biodiversité
ANTABIF. Le Centre d'information sur la biodiversité de l'Antarctique donne un accès libre et gratuit aux données sur la biodiversité de l'Antarctique, dans l'esprit du Traité sur l'Antarctique.
Genesys , base de données des ressources phytogénétiques conservées dans les banques de gènes nationales, régionales et internationales
VertNet, Accès aux données primaires d'occurrence des vertébrés à partir d'ensembles de données du monde entier.

Projets régionaux / nationaux :

Faune Europea
Atlas de l'Australie vivante
Infrastructure des répertoires paneuropéens d'espèces (PESI)
Symbiote
iDigBio , Biocollections numérisées intégrées (États-Unis)
Projet i4Life
Sistema de Información sobre Biodiversidad de Colombia
Portail indien de la biodiversité (IBP)
Portail de la biodiversité du Bhoutan (BBP)
Identification et connaissance des adventices dans l'océan Indien occidental (WIKWIO)

LifeWatch est proposé par l' ESFRI en tant qu'infrastructure de recherche (e-) paneuropéenne pour soutenir la recherche et l'élaboration de politiques sur la biodiversité.

Une liste de plus de 600 activités actuelles liées à l'informatique de la biodiversité peut être trouvée dans la base de données TDWG "Biodiversity Information Projects of the World".

Voir également

Les références

Lectures complémentaires

Groupe de travail du Forum Megascience de l'OCDE sur l'informatique biologique (1999). Rapport final du Groupe de travail du Forum Megascience de l'OCDE sur l'informatique biologique, janvier 1999 . p. 1–74. Archivé de l'original le 2009-03-05 . Récupéré le 21/03/2018 .
Canhos, vice-président ; Souza, S.; Giovanni, R. & Canhos, DAL (2004). " Informatique de la biodiversité mondiale : préparer le terrain pour un " nouveau monde " de modélisation écologique " . Informatique de la biodiversité . 1 : 1–13. doi : 10.17161/bi.v1i0.3 .
Soberón, J. & Peterson, AT (2004). « Informatique de la biodiversité : gérer et appliquer les données primaires sur la biodiversité » . Phil. Trans. R. Soc. Londres . B359 (1444) : 689-698. doi : 10.1098/rstb.2003.1439 . PMC 1693343 . PMID 15253354 .
Chapman, AD (2005). Utilisations des données primaires sur l'occurrence des espèces (PDF) . Copenhague : Système mondial d'information sur la biodiversité. p. 1–106. Archivé de l'original (PDF) le 2010-02-16 . Récupéré le 2009-08-12 .
Johnson, NF (2007). " Informatique de la biodiversité ". Revue annuelle d'entomologie . 52 : 421-438. doi : 10.1146/annurev.ento.52.110405.091259 . PMID 16956323 .
Sarkar, IN (2007). " Informatique de la biodiversité : organiser et relier les informations à travers le spectre de la vie " . Briefings en bioinformatique . 8 (5) : 347-357. doi : 10.1093/bib/bbm037 . PMID 17704120 .
Guralnick, RP ; Hill, A (2009). " Informatique de biodiversité : Approches automatisées pour documenter les modèles et les processus globaux de biodiversité " . Bioinformatique . 25 (4) : 421-428. doi : 10.1093/bioinformatique/btn659 . PMID 19129210 .

Liens externes

Informatique de la biodiversité (revue)

Languages

In other projects