Système de flux de travail scientifique Kepler - Kepler scientific workflow system

Système de flux de travail scientifique Kepler
Version stable
2.5 / 2015-10-28
Dépôt Modifiez ceci sur Wikidata
Écrit en Java
Système opérateur Linux , Mac OS X , Windows
Type Système de flux de travail scientifique
Licence Licence BSD
Site Internet kepler-project.org

Kepler est un système logiciel libre pour la conception, l'exécution, la réutilisation, l'évolution, l'archivage et le partage de flux de travail scientifiques . Les installations de Kepler fournissent une surveillance des processus et des données, des informations de provenance et un mouvement de données à grande vitesse. Les flux de travail en général, et les flux de travail scientifiques en particulier, sont des graphiques orientés où les nœuds représentent des composants de calcul discrets et les arêtes représentent des chemins le long desquels les données et les résultats peuvent circuler entre les composants. Dans Kepler, les nœuds sont appelés «acteurs» et les arêtes sont appelées «canaux». Kepler comprend une interface utilisateur graphique pour la composition de flux de travail dans un environnement de bureau, un moteur d'exécution pour exécuter des flux de travail dans l'interface graphique et indépendamment d'une ligne de commande, et une option de calcul distribué qui permet aux tâches de flux de travail d'être réparties entre les nœuds de calcul dans un cluster d'ordinateurs ou grille de calcul . Le système Kepler cible principalement l'utilisation d'une métaphore de flux de travail pour organiser des tâches de calcul orientées vers des objectifs d'analyse scientifique et de modélisation particuliers. Ainsi, les flux de travail scientifiques Kepler modélisent généralement le flux de données d'une étape à l'autre dans une série de calculs qui atteignent un objectif scientifique.

Flux de travail scientifique

Un flux de travail scientifique est le processus de combinaison de données et de processus en un ensemble d'étapes configurables et structurées qui mettent en œuvre des solutions informatiques semi-automatisées à un problème scientifique. Les systèmes de flux de travail scientifiques fournissent souvent des interfaces utilisateur graphiques pour combiner différentes technologies avec des méthodes efficaces pour les utiliser, et ainsi augmenter l'efficacité des scientifiques.

Accès aux données scientifiques

Kepler fournit un accès direct aux données scientifiques qui ont été archivées dans de nombreuses archives de données couramment utilisées. Par exemple, Kepler donne accès aux données stockées dans le serveur Metacat du Knowledge Network for Biocomplexity (KNB) et décrites à l'aide du langage de métadonnées écologiques . Sources de données supplémentaires qui sont pris en charge comprennent des données accessibles en utilisant le protocole DiGIR, le OPeNDAP protocole, GridFTP, JDBC , SRB , et d' autres.

Modèles de calcul

Kepler diffère de la plupart des autres systèmes de gestion de flux de travail bioinformatique en ce qu'il sépare la structure du modèle de flux de travail de son modèle de calcul, de sorte que différents modèles pour le calcul du flux de travail peuvent être liés à un graphique de flux de travail donné. Kepler hérite de plusieurs modèles de calcul courants du système Ptolemy , notamment le flux de données synchrone (SDF), le temps continu (CT), le réseau de processus (PN) et le flux de données dynamique (DDF), entre autres.

Flux de travail hiérarchiques

Kepler prend en charge la hiérarchie dans les flux de travail, ce qui permet aux tâches complexes d'être composées de composants plus simples. Cette fonctionnalité permet aux auteurs de flux de travail de créer des composants modulaires réutilisables qui peuvent être enregistrés pour être utilisés dans de nombreux flux de travail différents.

Sémantique du workflow

Kepler fournit un modèle pour l'annotation sémantique des composants de workflow à l'aide de termes tirés d'une ontologie . Ces annotations prennent en charge de nombreuses fonctionnalités avancées, notamment des capacités de recherche améliorées, une validation automatisée du flux de travail et une modification améliorée du flux de travail.

Partager des workflows

Les composants Kepler peuvent être partagés en exportant le flux de travail ou le composant dans un fichier Kepler Archive (KAR), qui est une extension du format de fichier JAR de Java. Une fois qu'un fichier KAR est créé, il peut être envoyé par courrier électronique à des collègues, partagé sur des sites Web ou téléchargé dans le référentiel de composants Kepler. Le référentiel de composants est un système centralisé de partage des flux de travail Kepler accessible via un portail Web et une interface de service Web. Les utilisateurs peuvent rechercher et utiliser directement les composants du référentiel à partir de l'interface graphique de composition de flux de travail Kepler.

Provenance

La provenance est un concept essentiel dans les flux de travail scientifiques, car elle permet aux scientifiques de comprendre l'origine de leurs résultats, de répéter leurs expériences et de valider les processus qui ont été utilisés pour obtenir des produits de données. Pour qu'un flux de travail soit reproduit, des informations de provenance doivent être enregistrées, indiquant d'où proviennent les données, comment elles ont été modifiées, quels composants et quels paramètres ont été utilisés. Cela permettra à d'autres scientifiques de refaire l'expérience, confirmant les résultats. Il existe peu de support dans les systèmes actuels pour permettre aux utilisateurs finaux d'interroger les informations de provenance de manière scientifiquement significative, en particulier lorsque les modèles d'exécution de flux de travail avancés vont au-delà de simples DAG (comme dans les réseaux de processus).

Histoire de Kepler

Le projet Kepler a été créé en 2002 par des membres du projet Science Environment for Ecological Knowledge (SEEK) et du projet Scientific Data Management (SDM). Le projet a été fondé par des chercheurs du National Center for Ecological Analysis and Synthesis (NCEAS) de l' Université de Californie à Santa Barbara et du San Diego Supercomputer Center de l' Université de Californie à San Diego . Kepler étend Ptolemy II, qui est un système logiciel pour la modélisation, la simulation et la conception de systèmes embarqués simultanés en temps réel développé à l'UC Berkeley. La collaboration sur Kepler s'est rapidement développée lorsque les membres de diverses disciplines scientifiques ont réalisé les avantages des flux de travail scientifiques pour l'analyse et la modélisation et ont commencé à contribuer au système. Depuis 2008, les collaborateurs de Kepler proviennent de nombreuses disciplines scientifiques, notamment l'écologie, la biologie moléculaire, la génétique, la physique, la chimie, les sciences de la conservation, l'océanographie, l'hydrologie, la bibliothéconomie, l'informatique et autres. Kepler est un moteur d'orchestration de workflows qui est utilisé pour rendre les workflows pour rendre le travail beaucoup plus facile, sous la forme d'acteur.

Voir également

Les références

  1. ^ https://kepler-project.org/users/whats-new/kepler-2.5-released
  2. ^ Ludäscher B., Altintas I., Berkley C., Higgins D., Jaeger-Frank E., Jones M., Lee E., Tao J., Zhao Y. 2006. Gestion scientifique de flux de travail et le système de Kepler. Numéro spécial: Workflow dans les systèmes de grille. Concurrence et calcul: pratique et expérience 18 (10): 1039-1065.
  3. ^ Altintas I, Berkley C, Jaeger E, Jones M, Ludäscher B, Mock S. 2004. Kepler: Un système extensible pour la conception et l'exécution de flux de travail scientifiques. Proceedings of the Future of Grid Data Environments, Global Grid Forum 10.
  4. ^ un b Michener, William K., James H. Beach, Matthew B. Jones, Bertram Ludaescher, Deana D. Pennington, Ricardo S. Pereira, Arcot Rajasekar et Mark Schildhauer. 2007. "Un environnement de connaissances pour la biodiversité et les sciences écologiques", Journal of Intelligent Information Systems, 29 (1): 111-126. doi : 10.1007 / s10844-006-0034-8
  5. ^ Taylor, IJ; Deelman, E .; Gannon, DB; Shields, M. (Eds.), «Workflows for e-Science: Scientific Workflows for Grids», 530 p., Springer. ISBN  978-1-84628-519-6 .
  6. ^ Jones, Matthew B., C. Berkley, J. Bojilova, M. Schildhauer. 2001. Gestion des métadonnées scientifiques. IEEE Internet Computing 5 (5): 59-68.
  7. ^ Berkley, Tchad, Shawn Bowers, Matthew B. Jones, Bertram Ludaescher, Mark Schildhauer, Jing Tao. 2005. Incorporation de la sémantique dans la création de flux de travail scientifique. 17e Conférence internationale sur la gestion des bases de données scientifiques et statistiques. Société informatique IEEE.
  8. ^ http://twiki.ipaw.info/bin/view/Challenge/WebHome
  9. ^ http://www.adambarker.org/papers/ppam08.pdf
  10. ^ Shawn Bowers, Timothy McPhillips, Bertram Ludascher, Shirley Cohen, Susan B. Davidson 2006. Un modèle pour la provenance des données orientées utilisateur dans les flux de travail scientifiques Pipelined.

Liens externes