Extraction de données - Data extraction

L'extraction de données est l'acte ou le processus de récupération de données à partir de sources de données (généralement non structurées ou mal structurées) pour un traitement ultérieur ou un stockage de données ( migration de données ). L' importation dans le système d'extraction intermédiaire est donc généralement suivie d' une transformation des données et éventuellement de l'ajout de métadonnées avant l' exportation vers une autre étape du workflow de données .

Habituellement, le terme extraction de données est appliqué lorsque des données ( expérimentales ) sont importées pour la première fois dans un ordinateur à partir de sources primaires, comme des appareils de mesure ou d' enregistrement . Les appareils électroniques d'aujourd'hui présenteront généralement un connecteur électrique (par exemple USB ) à travers lequel les « données brutes » peuvent être diffusées dans un ordinateur personnel .

Les sources de données

Les sources de données non structurées typiques incluent les pages Web , les e - mails , les documents, les PDF , le texte numérisé, les rapports mainframe, les fichiers spool, les petites annonces, etc. qui sont ensuite utilisés pour les ventes ou les prospects. L'extraction de données à partir de ces sources non structurées est devenue un défi technique considérable où, comme historiquement l'extraction de données a dû faire face à des changements dans les formats matériels physiques, la majorité de l'extraction de données actuelle consiste à extraire des données de ces sources de données non structurées et de différents formats logiciels. . Ce processus croissant d'extraction de données à partir du Web est appelé "extraction de données Web" ou " Web scraping ".

Structure imposante

L'acte d'ajouter de la structure à des données non structurées prend plusieurs formes

  • Utilisation de la correspondance de modèles de texte telle que des expressions régulières pour identifier une structure à petite ou grande échelle, par exemple des enregistrements dans un rapport et leurs données associées à partir d'en-têtes et de pieds de page;
  • Utiliser une approche basée sur des tableaux pour identifier les sections communes dans un domaine limité, par exemple dans les CV envoyés par courrier électronique, identifier les compétences, l'expérience de travail précédente, les qualifications, etc. en utilisant un ensemble standard de titres couramment utilisés (ceux-ci différeraient d'une langue à l'autre), par exemple, l'éducation pourrait se trouver sous Education / Qualification / Cours;
  • Utiliser l' analyse de texte pour tenter de comprendre le texte et le lier à d'autres informations

Voir également

Les références