Couplage d'enregistrements - Record linkage

Le couplage d'enregistrements (également connu sous le nom de correspondance de données , résolution d'entité et de nombreux autres termes) est la tâche de trouver des enregistrements dans un ensemble de données qui font référence à la même entité dans différentes sources de données (par exemple, des fichiers de données, des livres, des sites Web et des bases de données) . Le couplage d'enregistrements est nécessaire lors de la jonction de différents ensembles de données basés sur des entités qui peuvent ou non partager un identifiant commun (par exemple, clé de base de données , URI , numéro d'identification national ), ce qui peut être dû à des différences dans la forme de l'enregistrement, l'emplacement de stockage ou le style du conservateur ou de préférence. Un ensemble de données qui a fait l'objet d'un rapprochement orienté RL peut être qualifié de réticulé . Le couplage d'enregistrements est appelé couplage de données dans de nombreuses juridictions, mais les deux sont le même processus.

Conventions de nommage

« Reliage d'enregistrements » est le terme utilisé par les statisticiens, les épidémiologistes et les historiens, entre autres, pour décrire le processus de fusion des enregistrements d'une source de données avec une autre qui décrivent la même entité. Cependant, de nombreux autres termes sont utilisés pour ce processus. Malheureusement, cette profusion de terminologie a conduit à peu de références croisées entre ces communautés de recherche.

Les informaticiens l' appellent souvent « correspondance de données » ou « problème d'identité d'objet ». Les applications commerciales de courrier et de base de données l'appellent « traitement de fusion/purge » ou « lavage de liste ». D'autres noms utilisés pour décrire le même concept incluent : « coréférence/entité/identité/nom/résolution d'enregistrement », « désambiguïsation d'entité/liaison », « correspondance approximative », « détection de doublons », « déduplication », « correspondance d'enregistrements », " réconciliation (de référence)", "identification d'objet", "intégration de données/informations" et "conflation".

Bien qu'ils partagent des noms similaires, le couplage d'enregistrements et les données couplées sont deux approches distinctes du traitement et de la structuration des données. Bien que les deux impliquent l'identification d'entités appariées dans différents ensembles de données, le couplage d'enregistrements assimile généralement les « entités » à des individus humains ; en revanche, les données liées sont basées sur la possibilité de relier n'importe quelle ressource Web à travers des ensembles de données, en utilisant un concept d'identifiant plus large, à savoir un URI .

Histoire

L'idée initiale du couplage d'enregistrements remonte à Halbert L. Dunn dans son article de 1946 intitulé "Record Linkage" publié dans l' American Journal of Public Health .

Howard Borden Newcombe a ensuite posé les fondements probabilistes de la théorie moderne du couplage d'enregistrements dans un article de 1959 dans Science . Celles-ci ont été formalisées en 1969 par Ivan Fellegi et Alan Sunter, dans leur travail pionnier « A Theory For Record Linkage », où ils ont prouvé que la règle de décision probabiliste qu'ils décrivaient était optimale lorsque les attributs de comparaison étaient conditionnellement indépendants. Dans leur travail, ils ont reconnu l'intérêt croissant pour l'application des progrès de l'informatique et de l'automatisation à de grandes collections de données administratives , et la théorie de Fellegi-Sunter reste le fondement mathématique de nombreuses applications de couplage d'enregistrements.

Depuis la fin des années 1990, diverses techniques d' apprentissage automatique ont été développées qui peuvent, dans des conditions favorables, être utilisées pour estimer les probabilités conditionnelles requises par la théorie de Fellegi-Sunter. Plusieurs chercheurs ont signalé que l'hypothèse d'indépendance conditionnelle de l'algorithme de Fellegi-Sunter est souvent violée dans la pratique ; cependant, les efforts publiés pour modéliser explicitement les dépendances conditionnelles entre les attributs de comparaison n'ont pas entraîné d'amélioration de la qualité du couplage d'enregistrements. D'un autre côté, les algorithmes d'apprentissage automatique ou de réseau neuronal qui ne reposent pas sur ces hypothèses offrent souvent une précision beaucoup plus élevée, lorsque suffisamment de données d'entraînement étiquetées sont disponibles.

Le couplage d'enregistrements peut être effectué entièrement sans l'aide d'un ordinateur, mais les principales raisons pour lesquelles les ordinateurs sont souvent utilisés pour effectuer des couplages d'enregistrements sont de réduire ou d'éliminer l'examen manuel et de rendre les résultats plus facilement reproductibles. L'appariement informatique présente l'avantage de permettre une supervision centralisée du traitement, un meilleur contrôle de la qualité, de la vitesse, de la cohérence et une meilleure reproductibilité des résultats.

Méthodes

Prétraitement des données

Le couplage d'enregistrements est très sensible à la qualité des données couplées, de sorte que tous les ensembles de données à l'étude (en particulier leurs champs d'identification clés) devraient idéalement subir une évaluation de la qualité des données avant le couplage d'enregistrements. De nombreux identificateurs clés pour la même entité peuvent être présentés de manière assez différente entre les ensembles de données (et même à l'intérieur), ce qui peut grandement compliquer le couplage d'enregistrements à moins d'être compris à l'avance. Par exemple, les identifiants clés d'un homme nommé William J. Smith peuvent apparaître dans trois ensembles de données différents :

Base de données Nom Date de naissance Ville de résidence
Ensemble de données 1 William J. Smith 1/2/73 Berkeley, Californie
Ensemble de données 2 Smith, WJ 1973.1.2 Berkeley, Californie
Ensemble de données 3 Bill Smith 2 janvier 1973 Berkeley, Californie

Dans cet exemple, les différents styles de formatage conduisent à des enregistrements d'apparence différente mais qui font en fait tous référence à la même entité avec les mêmes valeurs d'identifiant logique. La plupart des stratégies de couplage d'enregistrements, sinon toutes, donneraient lieu à un couplage plus précis si ces valeurs étaient d'abord normalisées ou standardisées dans un format cohérent (p. "). La normalisation peut être réalisée par de simples transformations de données basées sur des règles ou des procédures plus complexes telles que la tokenisation basée sur le lexique et les modèles de Markov cachés probabilistes. Plusieurs des packages répertoriés dans la section Implémentations logicielles fournissent certaines de ces fonctionnalités pour simplifier le processus de normalisation des données.

Résolution d'entité

La résolution d'entités est un processus d' intelligence opérationnelle, généralement alimenté par un moteur de résolution d'entités ou un middleware , grâce auquel les organisations peuvent connecter des sources de données disparates en vue de comprendre les correspondances d'entités possibles et les relations non évidentes entre plusieurs silos de données . Il analyse toutes les informations relatives aux individus et/ou entités à partir de plusieurs sources de données, puis applique un score de probabilité et de probabilité pour déterminer quelles identités correspondent et quelles relations non évidentes existent, le cas échéant, entre ces identités.

Les moteurs de résolution d'entité sont généralement utilisés pour découvrir les risques , la fraude et les conflits d'intérêts, mais sont également des outils utiles à utiliser dans le cadre des exigences d' intégration des données client (CDI) et de gestion des données de référence (MDM). Les utilisations typiques des moteurs de résolution d'entités incluent le filtrage des terroristes, la détection des fraudes à l'assurance, la conformité à la USA Patriot Act , la détection des réseaux de criminalité organisée et le filtrage des candidats.

Par exemple : à travers différents silos de données – enregistrements d'employés, données de fournisseurs, listes de surveillance, etc. – une organisation peut avoir plusieurs variantes d'une entité nommée ABC, qui peuvent ou non être la même personne. Ces entrées peuvent, en fait, apparaître comme ABC1, ABC2 ou ABC3 dans ces sources de données. En comparant les similitudes entre les attributs sous-jacents tels que l' adresse , la date de naissance ou le numéro de sécurité sociale , l'utilisateur peut éliminer certaines correspondances possibles et en confirmer d'autres comme des correspondances très probables.

Les moteurs de résolution d'entités appliquent ensuite des règles, basées sur une logique de bon sens, pour identifier les relations cachées entre les données. Dans l'exemple ci-dessus, ABC1 et ABC2 ne sont peut-être pas la même personne, mais plutôt deux personnes distinctes qui partagent des attributs communs tels que l'adresse ou le numéro de téléphone.

Correspondance des données

Bien que les solutions de résolution d'entités incluent la technologie de mise en correspondance des données, de nombreuses offres de mise en correspondance des données ne correspondent pas à la définition de la résolution d'entités. Voici quatre facteurs qui distinguent la résolution d'entités de la correspondance de données, selon John Talburt, directeur du Centre UALR pour la recherche avancée sur la résolution d'entités et la qualité de l'information :

  • Fonctionne avec les enregistrements structurés et non structurés, et cela implique le processus d'extraction de références lorsque les sources sont non structurées ou semi-structurées
  • Utilise des règles métier élaborées et des modèles conceptuels pour traiter les informations manquantes, conflictuelles et corrompues
  • Utilise des informations de liaison (associées) non correspondantes et affirmées en plus de la correspondance directe
  • Découvre les relations non évidentes et les réseaux d'association (c'est-à-dire qui est associé à qui)

Contrairement aux produits de qualité des données, les moteurs de résolution d'identité plus puissants incluent également un moteur de règles et un processus de workflow, qui appliquent la Business Intelligence aux identités résolues et à leurs relations. Ces technologies avancées prennent des décisions automatisées et impactent les processus métier en temps réel, limitant le besoin d'intervention humaine.

Couplage d'enregistrements déterministe

Le type de couplage d'enregistrements le plus simple, appelé couplage d'enregistrements déterministe ou fondé sur des règles , génère des liens en fonction du nombre d'identificateurs individuels qui correspondent parmi les ensembles de données disponibles. On dit que deux enregistrements correspondent via une procédure de couplage d'enregistrements déterministe si tous ou certains identificateurs (au-dessus d'un certain seuil) sont identiques. Le couplage d'enregistrements déterministe est une bonne option lorsque les entités dans les ensembles de données sont identifiées par un identifiant commun, ou lorsqu'il existe plusieurs identifiants représentatifs (par exemple, le nom, la date de naissance et le sexe lors de l'identification d'une personne) dont la qualité des données est relativement haute.

À titre d'exemple, considérons deux ensembles de données standardisés, l'ensemble A et l'ensemble B, qui contiennent différents éléments d'information sur les patients d'un système hospitalier. Les deux ensembles de données identifient les patients à l'aide de divers identifiants : numéro de sécurité sociale (SSN), nom, date de naissance (DOB), sexe et code postal (ZIP). Les enregistrements de deux ensembles de données (identifiés par la colonne « # ») sont indiqués ci-dessous :

Base de données # SSN Nom Date de naissance Sexe ZIP *: FRANÇAIS
Définir un 1 000956723 Smith, Guillaume 1973/01/02 Homme 94701
2 000956723 Smith, Guillaume 1973/01/02 Homme 94703
3 000005555 Jones, Robert 1942/08/14 Homme 94701
4 123001234 Sue, Marie 1972/11/19 Femelle 94109
Ensemble B 1 000005555 Jones, Bob 1942/08/14
2 Smith, Bill 1973/01/02 Homme 94701

La stratégie de couplage d'enregistrements déterministe la plus simple consisterait à choisir un identifiant unique qui est supposé être unique, disons SSN, et à déclarer que les enregistrements partageant la même valeur identifient la même personne tandis que les enregistrements ne partageant pas la même valeur identifient différentes personnes. Dans cet exemple, une liaison déterministe basée sur le SSN créerait des entités basées sur A1 et A2 ; A3 et B1 ; et A4. Alors que A1, A2 et B2 semblent représenter la même entité, B2 ne serait pas inclus dans la correspondance car il manque une valeur pour le SSN.

Le traitement des exceptions telles que les identifiants manquants implique la création de règles de couplage d'enregistrements supplémentaires. Une telle règle en cas de SSN manquant pourrait être de comparer le nom, la date de naissance, le sexe et le code postal avec d'autres enregistrements dans l'espoir de trouver une correspondance. Dans l'exemple ci-dessus, cette règle ne correspondrait toujours pas à A1/A2 avec B2 car les noms sont encore légèrement différents : la normalisation a mis les noms dans le format approprié (Nom, Prénom) mais n'a pas pu discerner "Bill" comme un surnom pour " William". Faire passer des noms à l'aide d'un algorithme phonétique tel que Soundex , NYSIIS ou metaphone , peut aider à résoudre ces types de problèmes (bien qu'il puisse toujours trébucher sur des changements de nom de famille à la suite d'un mariage ou d'un divorce), mais alors B2 ne correspondrait qu'à A1 puisque le code postal dans A2 est différent. Ainsi, une autre règle devrait être créée pour déterminer si des différences dans des identifiants particuliers sont acceptables (comme le code postal) et lesquelles ne le sont pas (comme la date de naissance).

Comme le montre cet exemple, même une petite diminution de la qualité des données ou une petite augmentation de la complexité des données peut entraîner une très grande augmentation du nombre de règles nécessaires pour lier correctement les enregistrements. Finalement, ces règles de liaison deviendront trop nombreuses et interdépendantes pour être construites sans l'aide d'outils logiciels spécialisés. De plus, les règles de couplage sont souvent spécifiques à la nature des ensembles de données qu'elles sont conçues pour relier. Une étude a pu lier le fichier principal des décès de la sécurité sociale avec deux registres hospitaliers du Midwest des États-Unis à l' aide du SSN, du prénom, du mois de naissance et du sexe codés par NYSIIS, mais ces règles peuvent ne pas fonctionner aussi bien avec des ensembles de données d'autres régions géographiques. régions ou avec des données recueillies sur des populations plus jeunes. Ainsi, des tests de maintenance continus de ces règles sont nécessaires pour s'assurer qu'elles continuent de fonctionner comme prévu à mesure que de nouvelles données entrent dans le système et doivent être liées. De nouvelles données qui présentent des caractéristiques différentes de celles initialement prévues pourraient nécessiter une reconstruction complète de l'ensemble de règles de couplage d'enregistrements, ce qui pourrait être une entreprise très longue et coûteuse.

Couplage d'enregistrements probabiliste

Le couplage probabiliste d'enregistrements , parfois appelé appariement approximatif (également fusionnement probabiliste ou fusion floue dans le contexte de la fusion de bases de données), adopte une approche différente du problème de couplage d'enregistrements en prenant en sur sa capacité estimée à identifier correctement une correspondance ou une non-concordance, et en utilisant ces poids pour calculer la probabilité que deux enregistrements donnés se réfèrent à la même entité. Les paires d'enregistrements avec des probabilités supérieures à un certain seuil sont considérées comme des correspondances, tandis que les paires avec des probabilités inférieures à un autre seuil sont considérées comme des non-concordances ; les paires qui se situent entre ces deux seuils sont considérées comme des « correspondances possibles » et peuvent être traitées en conséquence (par exemple, examinées par l'homme, liées ou non liées, selon les exigences). Alors que le couplage d'enregistrements déterministe nécessite une série de règles potentiellement complexes à programmer à l'avance, les méthodes de couplage d'enregistrements probabilistes peuvent être « entraînées » pour bien fonctionner avec beaucoup moins d'intervention humaine.

De nombreux algorithmes de couplage d'enregistrements probabilistes attribuent des poids d'appariement/non-appariement aux identificateurs au moyen de deux probabilités appelées u et m . La probabilité u est la probabilité qu'un identifiant dans deux enregistrements non correspondants concorde purement par hasard. Par exemple, la probabilité u pour le mois de naissance (où il y a douze valeurs qui sont approximativement uniformément distribuées) est 1/12 0,083 ; les identificateurs dont les valeurs ne sont pas uniformément distribuées auront des probabilités u différentes pour différentes valeurs (y compris éventuellement des valeurs manquantes). La probabilité m est la probabilité qu'un identifiant dans des paires correspondantes concorde (ou soit suffisamment similaire, comme des chaînes avec une faible distance Jaro-Winkler ou Levenshtein ). Cette valeur serait de 1,0 dans le cas de données parfaites, mais étant donné que cela est rarement (voire jamais) vrai, elle peut à la place être estimée. Cette estimation peut être effectuée sur la base d'une connaissance préalable des ensembles de données, en identifiant manuellement un grand nombre de paires appariées et non appariées pour « entraîner » l'algorithme de couplage d'enregistrements probabiliste, ou en exécutant de manière itérative l'algorithme pour obtenir des estimations plus précises du m probabilité. Si une valeur de 0,95 devait être estimée pour la probabilité m , alors les poids d'appariement/non-appariement pour l'identifiant du mois de naissance seraient :

Résultat Proportion de liens Proportion de non-liens Rapport de fréquence Poids
Rencontre m = 0,95 u 0,083 m / u 11,4 ln( m / u )/ln(2) ≈ 3,51
Non-correspondance 1− m = 0,05 1- u 0,917 (1- m )/(1- u ) 0,0545 ln((1- m )/(1- u ))/ln(2) -4,20

Les mêmes calculs seraient effectués pour tous les autres identificateurs à l'étude afin de trouver leurs poids correspondants/non correspondants. Ensuite, chaque identifiant d'un enregistrement serait comparé à l'identifiant correspondant d'un autre enregistrement pour calculer le poids total de la paire : le poids de correspondance est ajouté au total cumulé chaque fois qu'une paire d'identifiants concorde, tandis que le poids de non-correspondance est ajouté (c'est-à-dire que le total cumulé diminue) chaque fois que la paire d'identifiants est en désaccord. Le poids total résultant est ensuite comparé aux seuils susmentionnés pour déterminer si la paire doit être liée, non liée ou mise de côté pour une considération particulière (par exemple, validation manuelle).

Déterminer où définir les seuils d'appariement/non-appariement est un équilibre entre l'obtention d'une sensibilité acceptable (ou rappel , la proportion d'enregistrements réellement correspondants qui sont liés par l'algorithme) et une valeur prédictive positive (ou précision , la proportion d'enregistrements liés par l'algorithme qui correspond vraiment). Diverses méthodes manuelles et automatisées sont disponibles pour prédire les meilleurs seuils, et certains progiciels de couplage d'enregistrements ont des outils intégrés pour aider l'utilisateur à trouver les valeurs les plus acceptables. Parce que cela peut être une tâche très exigeante en termes de calcul, en particulier pour les grands ensembles de données, une technique connue sous le nom de blocage est souvent utilisée pour améliorer l'efficacité. Le blocage tente de restreindre les comparaisons aux seuls enregistrements pour lesquels un ou plusieurs identifiants particulièrement discriminants concordent, ce qui a pour effet d'augmenter la valeur prédictive positive (précision) au détriment de la sensibilité (rappel). Par exemple, le blocage basé sur un nom de famille et un code postal codés phonétiquement réduirait le nombre total de comparaisons requises et améliorerait les chances que les enregistrements liés soient corrects (puisque deux identifiants concordent déjà), mais pourrait potentiellement manquer des enregistrements faisant référence à la même personne dont le nom ou le code postal était différent (en raison d'un mariage ou d'un déménagement, par exemple). Le blocage basé sur le mois de naissance, un identifiant plus stable qui ne devrait changer qu'en cas d'erreur de données, apporterait un gain plus modeste en valeur prédictive positive et une perte de sensibilité, mais ne créerait que douze groupes distincts qui, pour des de grands ensembles de données, peuvent ne pas apporter beaucoup d'amélioration nette de la vitesse de calcul. Ainsi, les systèmes de couplage d'enregistrements robustes utilisent souvent plusieurs passes de blocage pour regrouper les données de diverses manières afin de créer des groupes d'enregistrements qui doivent être comparés les uns aux autres.

Apprentissage automatique

Ces dernières années, diverses techniques d'apprentissage automatique ont été utilisées pour le couplage d'enregistrements. Il a été reconnu que l'algorithme classique de Fellegi-Sunter pour le couplage probabiliste d'enregistrements décrit ci-dessus est équivalent à l' algorithme de Naive Bayes dans le domaine de l'apprentissage automatique et souffre de la même hypothèse d'indépendance de ses caractéristiques (une hypothèse qui n'est généralement pas vrai). Une plus grande précision peut souvent être obtenue en utilisant diverses autres techniques d'apprentissage automatique, y compris un perceptron monocouche . En conjonction avec les technologies distribuées, la précision et l'échelle du couplage d'enregistrements peuvent être encore améliorées.

Modèle mathématique

Dans une application avec deux fichiers, A et B, notez les lignes ( enregistrements ) par dans le fichier A et dans le fichier B. Attribuez des caractéristiques à chaque enregistrement. L'ensemble des enregistrements qui représentent des entités identiques est défini par

et le complément de l'ensemble , à savoir l'ensemble représentant différentes entités est défini comme

.

Un vecteur, est défini, qui contient les accords et désaccords codés sur chaque caractéristique :

où est un indice des caractéristiques (sexe, âge, état civil, etc.) dans les fichiers. Les probabilités conditionnelles d'observer un vecteur spécifique donné , sont définies comme

et

respectivement.

Applications

Gestion des données de référence

La plupart des produits de gestion des données de référence (MDM) utilisent un processus de couplage d'enregistrements pour identifier les enregistrements de différentes sources représentant la même entité réelle. Ce lien est utilisé pour créer un « enregistrement principal d'or » contenant les données nettoyées et rapprochées sur l'entité. Les techniques utilisées dans le MDM sont les mêmes que pour le couplage d'enregistrements en général. MDM étend cette correspondance non seulement pour créer un « enregistrement principal d'or », mais également pour déduire des relations. (c'est-à-dire qu'une personne a un nom de famille identique/similaire et une adresse identique/similaire, cela peut impliquer qu'elle partage une relation familiale).

Entreposage de données et intelligence d'affaires

Le couplage d'enregistrements joue un rôle clé dans l'entreposage de données et la veille économique . Les entrepôts de données servent à combiner les données de nombreux systèmes sources opérationnels différents en un seul modèle de données logique , qui peut ensuite être ensuite introduit dans un système de business intelligence pour le reporting et l'analyse. Chaque système source opérationnel peut avoir sa propre méthode d'identification des mêmes entités utilisées dans le modèle de données logique, de sorte qu'un lien d'enregistrement entre les différentes sources devient nécessaire pour garantir que les informations sur une entité particulière dans un système source peuvent être comparées de manière transparente avec les informations sur la même entité à partir d'un autre système source. La normalisation des données et le couplage d'enregistrements subséquent se produisent souvent dans la partie « transformer » du processus d' extraction, de transformation et de chargement (ETL).

Recherche historique

Le couplage d'enregistrements est important pour la recherche en histoire sociale puisque la plupart des ensembles de données, tels que les enregistrements de recensement et les registres paroissiaux, ont été enregistrés bien avant l'invention des numéros d'identification nationaux . Lorsque les anciennes sources sont numérisées, le couplage des ensembles de données est une condition préalable à l' étude longitudinale . Ce processus est souvent encore compliqué par le manque d'orthographe standard des noms, les noms de famille qui changent selon le lieu d'habitation, le changement des limites administratives et les problèmes de vérification des données par rapport à d'autres sources. Le couplage d'enregistrements figurait parmi les thèmes les plus importants dans le domaine de l' histoire et de l'informatique dans les années 1980, mais a depuis fait l'objet de moins d'attention dans la recherche.

Pratique médicale et recherche

Le couplage d'enregistrements est un outil important pour créer les données nécessaires à l'examen de la santé du public et du système de santé lui-même. Il peut être utilisé pour améliorer les fonds de données, la collecte de données, l'évaluation de la qualité et la diffusion de l'information. Les sources de données peuvent être examinées pour éliminer les enregistrements en double, pour identifier les cas sous-déclarés et manquants (par exemple, les chiffres de population du recensement), pour créer des statistiques de santé axées sur la personne et pour générer des registres de maladies et des systèmes de surveillance de la santé. Certains registres du cancer relient diverses sources de données (par exemple, les admissions à l'hôpital, les rapports pathologiques et cliniques, et les enregistrements de décès) pour générer leurs registres. Le couplage d'enregistrements est également utilisé pour créer des indicateurs de santé. Par exemple, la mortalité fœtale et infantile est un indicateur général du développement socio-économique, de la santé publique et des services maternels et infantiles d'un pays. Si les enregistrements de décès infantiles sont appariés aux enregistrements de naissance, il est possible d'utiliser des variables de naissance, telles que le poids à la naissance et l'âge gestationnel, ainsi que des données de mortalité, telles que la cause de décès, dans l'analyse des données. Les couplages peuvent aider dans les études de suivi de cohortes ou d'autres groupes pour déterminer des facteurs tels que l'état vital, le statut résidentiel ou les résultats pour la santé. Le traçage est souvent nécessaire pour le suivi des cohortes industrielles, des essais cliniques et des enquêtes longitudinales afin d'obtenir la cause du décès et/ou du cancer. Le Rochester Epidemiology Project basé à Rochester, Minnesota, est un exemple de système de couplage d'enregistrements réussi et de longue date permettant la recherche médicale basée sur la population .

Critique des implémentations logicielles existantes

Les principales raisons invoquées sont :

  • Coûts du projet : coûts généralement en centaines de milliers de dollars
  • Temps : manque de temps pour gérer un logiciel de nettoyage de données à grande échelle
  • Sécurité : préoccupations relatives au partage d'informations, à l'accès d'une application à travers les systèmes et aux effets sur les systèmes existants
  • Évolutivité : En raison de l'absence d'identificateurs uniques dans les enregistrements, le couplage d'enregistrements est coûteux en calcul et difficile à mettre à l'échelle.
  • Précision : la modification des données commerciales et la capture de toutes les règles de liaison est un exercice difficile et vaste

Voir également

Notes et références

Liens externes