L'analyse des données - Data analysis

L'analyse des données est un processus d'inspection, de nettoyage , de transformation et de modélisation des données dans le but de découvrir des informations utiles, d'éclairer les conclusions et de soutenir la prise de décision. L'analyse des données a de multiples facettes et approches, englobant diverses techniques sous une variété de noms, et est utilisée dans différents domaines commerciaux, scientifiques et sociaux. Dans le monde des affaires d'aujourd'hui, l'analyse des données joue un rôle dans la prise de décisions plus scientifiques et aide les entreprises à fonctionner plus efficacement.

L'exploration de données est une technique d'analyse de données particulière qui se concentre sur la modélisation statistique et la découverte de connaissances à des fins prédictives plutôt que purement descriptives, tandis que la Business Intelligence couvre l'analyse de données qui repose fortement sur l'agrégation, en se concentrant principalement sur les informations commerciales. Dans les applications statistiques, l'analyse des données peut être divisée en statistiques descriptives , analyse de données exploratoire (EDA) et analyse de données confirmatoire (CDA). EDA se concentre sur la découverte de nouvelles fonctionnalités dans les données tandis que CDA se concentre sur la confirmation ou la falsification des hypothèses existantes . L'analyse prédictive se concentre sur l'application de modèles statistiques pour la prévision ou la classification prédictive, tandis que l' analyse de texte applique des techniques statistiques, linguistiques et structurelles pour extraire et classer des informations à partir de sources textuelles, une sorte de données non structurées . Tous les éléments ci-dessus sont des variétés d'analyse de données.

L'intégration des données est un précurseur de l'analyse des données, et l'analyse des données est étroitement liée à la visualisation et à la diffusion des données.

Le processus d'analyse des données

Organigramme du processus de science des données de Doing Data Science , par Schutt & O'Neil (2013)

Analyse , se réfère à la division d'un tout en ses composants séparés pour un examen individuel. L'analyse des données est un processus permettant d'obtenir des données brutes , puis de les convertir en informations utiles à la prise de décision par les utilisateurs. Les données sont collectées et analysées pour répondre à des questions, tester des hypothèses ou réfuter des théories.

Le statisticien John Tukey , a défini l'analyse des données en 1961, comme :

« Procédures d'analyse des données, techniques d'interprétation des résultats de ces procédures, moyens de planifier la collecte des données pour en rendre l'analyse plus facile, plus précise ou plus exacte, et tous les mécanismes et résultats des statistiques (mathématiques) qui s'appliquent à l'analyse des données ."

On peut distinguer plusieurs phases, décrites ci-dessous. Les phases sont itératives , dans la mesure où les commentaires des phases ultérieures peuvent entraîner un travail supplémentaire dans les phases antérieures. Le framework CRISP , utilisé dans l'exploration de données , comporte des étapes similaires.

Exigences en matière de données

Les données sont nécessaires en tant qu'entrées pour l'analyse, qui est spécifiée en fonction des exigences de ceux qui dirigent l'analyse (ou des clients, qui utiliseront le produit fini de l'analyse). Le type général d'entité sur laquelle les données seront collectées est appelé unité expérimentale (par exemple, une personne ou une population de personnes). Des variables spécifiques concernant une population (par exemple, l'âge et le revenu) peuvent être spécifiées et obtenues. Les données peuvent être numériques ou catégorielles (c'est-à-dire une étiquette de texte pour les nombres).

Collecte de données

Les données sont collectées à partir de diverses sources. Les exigences peuvent être communiquées par les analystes aux dépositaires des données ; tels que le personnel des technologies de l'information au sein d'une organisation. Les données peuvent également être collectées à partir de capteurs dans l'environnement, notamment des caméras de circulation, des satellites, des appareils d'enregistrement, etc. Elles peuvent également être obtenues par le biais d'entretiens, de téléchargements à partir de sources en ligne ou de la lecture de documents.

Traitement de l'information

Les phases du cycle du renseignement utilisées pour convertir les informations brutes en renseignements ou connaissances exploitables sont conceptuellement similaires aux phases de l'analyse des données.

Les données, lorsqu'elles sont initialement obtenues, doivent être traitées ou organisées pour l'analyse. Par exemple, cela peut impliquer de placer des données dans des lignes et des colonnes dans un format de tableau ( appelé données structurées ) pour une analyse plus approfondie, souvent à l'aide d'un tableur ou d'un logiciel statistique.

Nettoyage des données

Une fois traitées et organisées, les données peuvent être incomplètes, contenir des doublons ou contenir des erreurs. Le besoin de nettoyage des données résultera de problèmes dans la manière dont les données sont saisies et stockées. Le nettoyage des données est le processus de prévention et de correction de ces erreurs. Les tâches courantes incluent la correspondance d'enregistrements, l'identification de l'inexactitude des données, la qualité globale des données existantes, la déduplication et la segmentation des colonnes. De tels problèmes de données peuvent également être identifiés grâce à une variété de techniques analytiques. Par exemple; avec les informations financières, les totaux de variables particulières peuvent être comparés à des chiffres publiés séparément qui sont considérés comme fiables. Les montants inhabituels, supérieurs ou inférieurs à des seuils prédéterminés, peuvent également être revus. Il existe plusieurs types de nettoyage des données, qui dépendent du type de données dans l'ensemble ; il peut s'agir de numéros de téléphone, d'adresses e-mail, d'employeurs ou d'autres valeurs. Les méthodes de données quantitatives pour la détection des valeurs aberrantes peuvent être utilisées pour se débarrasser des données qui semblent avoir une probabilité plus élevée d'être saisies de manière incorrecte. Les correcteurs orthographiques de données textuelles peuvent être utilisés pour réduire le nombre de mots mal saisis. Cependant, il est plus difficile de dire si les mots eux-mêmes sont corrects.

L'analyse exploratoire des données

Une fois les jeux de données nettoyés, ils peuvent ensuite être analysés. Les analystes peuvent appliquer diverses techniques, appelées analyse exploratoire des données , pour commencer à comprendre les messages contenus dans les données obtenues. Le processus d'exploration des données peut entraîner un nettoyage supplémentaire des données ou des demandes de données supplémentaires ; ainsi, l'initialisation des phases itératives mentionnées dans le premier paragraphe de cette section. Des statistiques descriptives , telles que la moyenne ou la médiane, peuvent être générées pour faciliter la compréhension des données. La visualisation des données est également une technique utilisée, dans laquelle l'analyste est capable d'examiner les données dans un format graphique afin d'obtenir des informations supplémentaires concernant les messages contenus dans les données.

Modélisation et algorithmes

Des formules ou modèles mathématiques (appelés algorithmes ) peuvent être appliqués aux données afin d'identifier les relations entre les variables ; par exemple, en utilisant la corrélation ou la causalité . En termes généraux, des modèles peuvent être développés pour évaluer une variable spécifique en fonction d'autres variables contenues dans l'ensemble de données, avec une erreur résiduelle en fonction de la précision du modèle mis en œuvre ( p . ex. , Données = Modèle + Erreur).

Les statistiques déductives comprennent l'utilisation de techniques qui mesurent les relations entre des variables particulières. Par exemple, une analyse de régression peut être utilisée pour modéliser si un changement dans la publicité ( variable indépendante X ) fournit une explication de la variation des ventes ( variable dépendante Y ). En termes mathématiques, Y (ventes) est fonction de X (publicité). Il peut être décrit comme ( Y = aX + b + erreur), où le modèle est conçu de telle sorte que ( a ) et ( b ) minimisent l'erreur lorsque le modèle prédit Y pour une plage donnée de valeurs de X . Les analystes peuvent également tenter de construire des modèles descriptifs des données, dans le but de simplifier l'analyse et de communiquer les résultats.

Produit de données

Un produit de données est une application informatique qui prend des entrées de données et génère des sorties , les réinjectant dans l'environnement. Il peut être basé sur un modèle ou un algorithme. Par exemple, une application qui analyse les données sur l'historique des achats du client et utilise les résultats pour recommander d'autres achats que le client pourrait apprécier.

la communication

La visualisation des données est utilisée pour aider à comprendre les résultats après l'analyse des données.

Une fois les données analysées, elles peuvent être communiquées dans de nombreux formats aux utilisateurs de l'analyse pour répondre à leurs besoins. Les utilisateurs peuvent avoir des commentaires, ce qui entraîne une analyse supplémentaire. En tant que tel, une grande partie du cycle analytique est itératif.

Lorsqu'il détermine comment communiquer les résultats, l'analyste peut envisager de mettre en œuvre diverses techniques de visualisation des données pour aider à communiquer le message plus clairement et plus efficacement au public. La visualisation des données utilise des affichages d'informations (graphiques tels que des tableaux et des graphiques) pour aider à communiquer les messages clés contenus dans les données. Les tableaux sont un outil précieux en permettant à un utilisateur d'interroger et de se concentrer sur des nombres spécifiques ; tandis que les graphiques (par exemple, les graphiques à barres ou les graphiques linéaires), peuvent aider à expliquer les messages quantitatifs contenus dans les données.

Messages quantitatifs

Une série chronologique illustrée par un graphique linéaire illustrant les tendances des dépenses et des recettes fédérales américaines au fil du temps.
Un nuage de points illustrant la corrélation entre deux variables (inflation et chômage) mesurées à des moments précis.

Stephen Few a décrit huit types de messages quantitatifs que les utilisateurs peuvent tenter de comprendre ou de communiquer à partir d'un ensemble de données et des graphiques associés utilisés pour aider à communiquer le message. Les clients spécifiant les exigences et les analystes effectuant l'analyse des données peuvent prendre en compte ces messages au cours du processus.

  1. Séries chronologiques : Une seule variable est saisie sur une période de temps, comme le taux de chômage sur une période de 10 ans. Un graphique linéaire peut être utilisé pour illustrer la tendance.
  2. Classement : les subdivisions catégorielles sont classées par ordre croissant ou décroissant, comme un classement des performances commerciales (la mesure ) par vendeurs (la catégorie , chaque vendeur étant une subdivision catégorielle ) au cours d'une même période. Un graphique à barres peut être utilisé pour montrer la comparaison entre les vendeurs.
  3. Partie-tout : les subdivisions catégorielles sont mesurées en tant que rapport à l'ensemble (c'est-à-dire un pourcentage sur 100 %). Un graphique à secteurs ou un graphique à barres peut montrer la comparaison de ratios, tels que la part de marché représentée par les concurrents sur un marché.
  4. Écart : les subdivisions catégorielles sont comparées à une référence, telle qu'une comparaison des dépenses réelles par rapport aux dépenses budgétaires de plusieurs départements d'une entreprise pour une période donnée. Un graphique à barres peut montrer la comparaison du montant réel par rapport au montant de référence.
  5. Distribution de fréquence : affiche le nombre d'observations d'une variable particulière pour un intervalle donné, comme le nombre d'années pendant lesquelles le rendement boursier se situe entre des intervalles tels que 0-10 %, 11-20 %, etc. Un histogramme , un type de graphique à barres, peut être utilisé pour cette analyse.
  6. Corrélation : Comparaison entre les observations représentées par deux variables (X,Y) pour déterminer si elles ont tendance à se déplacer dans la même direction ou dans des directions opposées. Par exemple, tracer le chômage (X) et l'inflation (Y) pour un échantillon de mois. Un nuage de points est généralement utilisé pour ce message.
  7. Comparaison nominale : comparaison des subdivisions catégorielles sans ordre particulier, comme le volume des ventes par code de produit. Un graphique à barres peut être utilisé pour cette comparaison.
  8. Géographique ou géospatial : comparaison d'une variable sur une carte ou une mise en page, telle que le taux de chômage par état ou le nombre de personnes aux différents étages d'un immeuble. Un cartogramme est un graphique typique utilisé.

Techniques d'analyse des données quantitatives

L'auteur Jonathan Koomey a recommandé une série de bonnes pratiques pour comprendre les données quantitatives. Ceux-ci inclus:

  • Vérifier les données brutes pour les anomalies avant d'effectuer une analyse ;
  • Réexécutez des calculs importants, tels que la vérification des colonnes de données basées sur des formules ;
  • Confirmez que les totaux principaux sont la somme des sous-totaux ;
  • Vérifiez les relations entre les nombres qui devraient être liés de manière prévisible, comme les ratios dans le temps ;
  • Normaliser les nombres pour faciliter les comparaisons, telles que l'analyse des montants par personne ou par rapport au PIB ou comme valeur d'indice par rapport à une année de base ;
  • Divisez les problèmes en composants en analysant les facteurs qui ont conduit aux résultats, tels que l' analyse DuPont du rendement des capitaux propres.

Pour les variables examinées, les analystes obtiennent généralement des statistiques descriptives pour celles-ci, telles que la moyenne (moyenne), la médiane et l' écart type . Ils peuvent également analyser la distribution des variables clés pour voir comment les valeurs individuelles se regroupent autour de la moyenne.

Une illustration du principe MECE utilisé pour l'analyse des données.

Les consultants de McKinsey and Company ont nommé une technique pour décomposer un problème quantitatif en ses composantes, appelée principe MECE . Chaque couche peut être décomposée en ses composants ; chacun des sous-composants doit s'exclure mutuellement et s'additionner collectivement à la couche au-dessus d'eux. La relation est appelée « mutuellement exclusive et collectivement exhaustive » ou MECE. Par exemple, le profit par définition peut être décomposé en revenu total et en coût total. À son tour, le revenu total peut être analysé par ses composants, tels que le revenu des divisions A, B et C (qui s'excluent mutuellement) et devrait s'ajouter au revenu total (collectivement exhaustif).

Les analystes peuvent utiliser des mesures statistiques robustes pour résoudre certains problèmes analytiques. Le test d'hypothèse est utilisé lorsqu'une hypothèse particulière sur la véritable situation est faite par l'analyste et que des données sont recueillies pour déterminer si cette situation est vraie ou fausse. Par exemple, l'hypothèse pourrait être que « le chômage n'a pas d'effet sur l'inflation », qui se rapporte à un concept économique appelé la courbe de Phillips . Le test d'hypothèse consiste à considérer la probabilité d' erreurs de type I et de type II , qui se rapportent au fait que les données appuient l'acceptation ou le rejet de l'hypothèse.

L'analyse de régression peut être utilisée lorsque l'analyste essaie de déterminer dans quelle mesure la variable indépendante X affecte la variable dépendante Y (par exemple, "Dans quelle mesure les changements du taux de chômage (X) affectent-ils le taux d'inflation (Y) ?"). Il s'agit d'une tentative de modélisation ou d'ajustement d'une ligne ou d'une courbe d'équation aux données, de sorte que Y soit une fonction de X.

L'analyse des conditions nécessaires (ANC) peut être utilisée lorsque l'analyste essaie de déterminer dans quelle mesure la variable indépendante X autorise la variable Y (par exemple, « Dans quelle mesure un certain taux de chômage (X) est-il nécessaire pour un certain taux d'inflation (Y) » ?"). Alors que l'analyse de régression (multiple) utilise une logique additive où chaque variable X peut produire le résultat et les X peuvent se compenser (ils sont suffisants mais pas nécessaires), l'analyse des conditions nécessaires (NCA) utilise la logique de nécessité, où un ou plusieurs X -les variables permettent au résultat d'exister, mais peuvent ne pas le produire (elles sont nécessaires mais pas suffisantes). Chaque condition nécessaire doit être présente et la compensation n'est pas possible.

Activités analytiques des utilisateurs de données

Les utilisateurs peuvent avoir des points d'intérêt particuliers dans un ensemble de données, par opposition à la messagerie générale décrite ci-dessus. Ces activités d'analyse utilisateur de bas niveau sont présentées dans le tableau suivant. La taxonomie peut également être organisée selon trois pôles d'activités : récupérer des valeurs, trouver des points de données et organiser des points de données.

# Tâche
Description générale

Résumé pro forma
Exemples
1 Récupérer la valeur Étant donné un ensemble de cas spécifiques, recherchez les attributs de ces cas. Quelles sont les valeurs des attributs {X, Y, Z, ...} dans les cas de données {A, B, C, ...} ? - Quel est le kilométrage par gallon de la Ford Mondeo ?

- Combien de temps dure le film Autant en emporte le vent ?

2 Filtre Compte tenu de certaines conditions concrètes sur les valeurs d'attribut, recherchez des cas de données satisfaisant ces conditions. Quels cas de données satisfont aux conditions {A, B, C...} ? - Quelles sont les céréales Kellogg's riches en fibres ?

- Quelles comédies ont été primées ?

- Quels fonds ont sous-performé le SP-500 ?

3 Calculer la valeur dérivée Étant donné un ensemble de cas de données, calculez une représentation numérique agrégée de ces cas de données. Quelle est la valeur de la fonction d'agrégation F sur un ensemble donné S de cas de données ? - Quelle est la teneur calorique moyenne des céréales Post ?

- Quel est le revenu brut de tous les magasins combinés ?

- Combien y a-t-il de constructeurs de voitures ?

4 Trouver l'Extremum Trouvez des cas de données possédant une valeur extrême d'un attribut sur sa plage dans l'ensemble de données. Quels sont les N premiers/derniers cas de données par rapport à l'attribut A ? - Quelle est la voiture avec le MPG le plus élevé ?

- Quel réalisateur/film a remporté le plus de prix ?

- Quel film de Marvel Studios a la date de sortie la plus récente ?

5 Sorte Étant donné un ensemble de cas de données, classez-les selon une métrique ordinale. Quel est l'ordre de tri d'un ensemble S de cas de données selon leur valeur d'attribut A ? - Commandez les voitures au poids.

- Classez les céréales par calories.

6 Déterminer la plage Étant donné un ensemble de cas de données et un attribut d'intérêt, recherchez l'étendue des valeurs au sein de l'ensemble. Quelle est la plage de valeurs de l'attribut A dans un ensemble S de cas de données ? - Quelle est la gamme de longueurs de film ?

- Quelle est la gamme de puissances en chevaux-vapeur?

- Quelles actrices figurent dans l'ensemble de données ?

7 Caractériser la distribution Étant donné un ensemble de cas de données et un attribut quantitatif d'intérêt, caractérisez la distribution des valeurs de cet attribut sur l'ensemble. Quelle est la distribution des valeurs de l'attribut A dans un ensemble S de cas de données ? - Quelle est la répartition des glucides dans les céréales ?

- Quelle est la répartition par âge des acheteurs ?

8 Trouver des anomalies Identifiez toute anomalie dans un ensemble donné de cas de données par rapport à une relation ou à une attente donnée, par exemple des valeurs aberrantes statistiques. Quels cas de données dans un ensemble S de cas de données ont des valeurs inattendues/exceptionnelles ? - Existe-t-il des exceptions à la relation entre puissance et accélération ?

- Y a-t-il des valeurs aberrantes pour les protéines ?

9 Grappe Étant donné un ensemble de cas de données, recherchez des clusters de valeurs d'attributs similaires. Quels cas de données dans un ensemble S de cas de données ont une valeur similaire pour les attributs {X, Y, Z, ...} ? - Existe-t-il des groupes de céréales avec des matières grasses/calories/sucre similaires ?

- Y a-t-il un groupe de longueurs de film typiques ?

dix Corrélatif Étant donné un ensemble de cas de données et deux attributs, déterminez les relations utiles entre les valeurs de ces attributs. Quelle est la corrélation entre les attributs X et Y sur un ensemble donné S de cas de données ? - Existe-t-il une corrélation entre les glucides et les lipides ?

- Existe-t-il une corrélation entre pays d'origine et MPG ?

- Les différents sexes ont-ils un mode de paiement préféré ?

- Y a-t-il une tendance à l'augmentation de la durée des films au fil des ans ?

11 Contextualisation Étant donné un ensemble de cas de données, trouvez la pertinence contextuelle des données pour les utilisateurs. Quels cas de données dans un ensemble S de cas de données sont pertinents pour le contexte des utilisateurs actuels ? - Y a-t-il des groupes de restaurants qui proposent des aliments basés sur mon apport calorique actuel ?

Obstacles à une analyse efficace

Des obstacles à une analyse efficace peuvent exister parmi les analystes effectuant l'analyse des données ou parmi le public. Distinguer les faits de l'opinion, les biais cognitifs et le calcul sont tous des défis pour une analyse de données solide.

Confondre fait et opinion

Vous avez droit à votre propre opinion, mais vous n'avez pas droit à vos propres faits.

Daniel Patrick Moynihan

Une analyse efficace nécessite d'obtenir des faits pertinents pour répondre à des questions, étayer une conclusion ou une opinion formelle , ou tester des hypothèses . Les faits sont par définition irréfutables, ce qui signifie que toute personne impliquée dans l'analyse doit pouvoir les accepter. Par exemple, en août 2010, le Congressional Budget Office (CBO) a estimé que l'extension des réductions d'impôts de Bush de 2001 et 2003 pour la période 2011-2020 ajouterait environ 3,3 billions de dollars à la dette nationale. Tout le monde devrait pouvoir s'accorder sur le fait que c'est effectivement ce que le CBO a rapporté ; ils peuvent tous examiner le rapport. Cela en fait un fait. Que les personnes soient d'accord ou en désaccord avec le CBO est leur propre opinion.

Autre exemple, le vérificateur d'une société ouverte doit parvenir à une opinion formelle sur la question de savoir si les états financiers des sociétés cotées en bourse sont « énoncés fidèlement, à tous égards importants ». Cela nécessite une analyse approfondie des données factuelles et des preuves pour étayer leur opinion. Lorsque l'on passe des faits aux opinions, il y a toujours la possibilité que l'opinion soit erronée .

Biais cognitifs

Il existe une variété de biais cognitifs qui peuvent nuire à l'analyse. Par exemple, le biais de confirmation est la tendance à rechercher ou à interpréter des informations d'une manière qui confirme ses idées préconçues. De plus, les individus peuvent discréditer des informations qui ne corroborent pas leurs opinions.

Les analystes peuvent être formés spécifiquement pour être conscients de ces biais et comment les surmonter. Dans son livre Psychology of Intelligence Analysis , l'analyste à la retraite de la CIA Richards Heuer a écrit que les analystes devraient clairement définir leurs hypothèses et leurs chaînes d'inférence et spécifier le degré et la source de l'incertitude impliquée dans les conclusions. Il a mis l'accent sur les procédures permettant de faire émerger et de débattre des points de vue alternatifs.

numératie

Les analystes efficaces sont généralement habiles avec une variété de techniques numériques. Cependant, les publics peuvent ne pas avoir une telle maîtrise des nombres ou du calcul ; on dit qu'ils sont innombrables. Les personnes communiquant les données peuvent également tenter d'induire en erreur ou de désinformer, en utilisant délibérément de mauvaises techniques numériques.

Par exemple, le fait qu'un nombre soit à la hausse ou à la baisse peut ne pas être le facteur clé. Plus important peut être le nombre par rapport à un autre nombre, tel que la taille des recettes ou des dépenses publiques par rapport à la taille de l'économie (PIB) ou le montant des coûts par rapport aux recettes dans les états financiers des entreprises. Cette technique numérique est appelée normalisation ou dimensionnement commun. De nombreuses techniques de ce type sont utilisées par les analystes, qu'il s'agisse d'ajuster l'inflation (c'est-à-dire de comparer les données réelles aux données nominales) ou de tenir compte des augmentations de population, de la démographie, etc. Les analystes appliquent une variété de techniques pour répondre aux divers messages quantitatifs décrits dans la section ci-dessus.

Les analystes peuvent également analyser les données sous différentes hypothèses ou scénarios. Par exemple, lorsque les analystes effectuent une analyse des états financiers , ils refondent souvent les états financiers sous différentes hypothèses pour aider à arriver à une estimation des flux de trésorerie futurs, qu'ils actualisent ensuite à la valeur actuelle sur la base d'un certain taux d'intérêt, afin de déterminer l'évaluation du société ou ses actions. De même, le CBO analyse les effets de diverses options politiques sur les recettes, les dépenses et les déficits du gouvernement, créant des scénarios futurs alternatifs pour les mesures clés.

Autres sujets

Bâtiments intelligents

Une approche d'analyse de données peut être utilisée afin de prédire la consommation d'énergie dans les bâtiments. Les différentes étapes du processus d'analyse des données sont effectuées afin de réaliser des bâtiments intelligents, où les opérations de gestion et de contrôle du bâtiment, y compris le chauffage, la ventilation, la climatisation, l'éclairage et la sécurité, sont réalisées automatiquement en mimant les besoins des utilisateurs du bâtiment et en optimisant les ressources. comme l'énergie et le temps.

Analytique et intelligence d'affaires

L'analyse est « l'utilisation intensive de données, d'analyses statistiques et quantitatives, de modèles explicatifs et prédictifs et d'une gestion basée sur des faits pour orienter les décisions et les actions ». Il s'agit d'un sous-ensemble de la Business Intelligence , qui est un ensemble de technologies et de processus qui utilisent des données pour comprendre et analyser les performances de l'entreprise afin d'orienter la prise de décision .

Éducation

Activités analytiques des utilisateurs de la visualisation de données

En éducation , la plupart des éducateurs ont accès à un système de données dans le but d'analyser les données des élèves. Ces systèmes de données présentent les données aux éducateurs dans un format de données en vente libre (incorporant des étiquettes, une documentation supplémentaire et un système d'aide et prenant des décisions clés sur l'emballage/l'affichage et le contenu) pour améliorer la précision des analyses de données des éducateurs.

Notes du praticien

Cette section contient des explications plutôt techniques qui peuvent aider les praticiens mais qui dépassent le cadre typique d'un article de Wikipédia.

Analyse initiale des données

La distinction la plus importante entre la phase d'analyse initiale des données et la phase d'analyse principale est que lors de l'analyse initiale des données, on s'abstient de toute analyse visant à répondre à la question de recherche initiale. La phase initiale d'analyse des données est guidée par les quatre questions suivantes :

Qualité des données

La qualité des données doit être vérifiée le plus tôt possible. La qualité des données peut être évaluée de plusieurs manières, en utilisant différents types d'analyse : comptages de fréquence, statistiques descriptives (moyenne, écart-type, médiane), normalité (asymétrie, aplatissement, histogrammes de fréquence), une imputation normale est nécessaire.

  • Analyse des observations extrêmes : les observations aberrantes dans les données sont analysées pour voir si elles semblent perturber la distribution.
  • Comparaison et correction des différences de schémas de codage : les variables sont comparées avec des schémas de codage de variables externes à l'ensemble de données, et éventuellement corrigées si les schémas de codage ne sont pas comparables.
  • Testez la variance de la méthode commune .

Le choix des analyses pour évaluer la qualité des données lors de la phase d'analyse initiale des données dépend des analyses qui seront menées lors de la phase d'analyse principale.

Qualité des mesures

La qualité des instruments de mesure ne doit être vérifiée que lors de la phase initiale d'analyse des données lorsque ce n'est pas l'objet ou la question de recherche de l'étude. Il faut vérifier si la structure des instruments de mesure correspond à la structure rapportée dans la littérature.

Il existe deux manières d'évaluer la qualité de la mesure :

  • Analyse factorielle confirmatoire
  • Analyse d'homogénéité ( cohérence interne ), qui donne une indication de la fiabilité d'un instrument de mesure. Au cours de cette analyse, on inspecte les variances des items et des échelles, le de Cronbach des échelles, et l'évolution de l'alpha de Cronbach lorsqu'un item serait supprimé d'une échelle

Transformations initiales

Après avoir évalué la qualité des données et des mesures, on peut décider d'imputer les données manquantes, ou d'effectuer des transformations initiales d'une ou plusieurs variables, bien que cela puisse également être fait lors de la phase d'analyse principale.
Les transformations possibles des variables sont :

  • Transformation racine carrée (si la distribution diffère modérément de la normale)
  • Log-transformation (si la distribution diffère sensiblement de la normale)
  • Transformation inverse (si la distribution diffère fortement de la normale)
  • Rendre catégorique (ordinal / dichotomique) (si la distribution diffère fortement de la normale et qu'aucune transformation n'aide)

La mise en œuvre de l'étude a-t-elle répondu aux intentions de la conception de la recherche ?

Il convient de vérifier le succès de la procédure de randomisation , par exemple en vérifiant si les variables de fond et de fond sont également réparties au sein et entre les groupes.
Si l'étude n'a pas eu besoin ou n'a pas utilisé de procédure de randomisation, il convient de vérifier le succès de l'échantillonnage non aléatoire, par exemple en vérifiant si tous les sous-groupes de la population d'intérêt sont représentés dans l'échantillon.
Les autres distorsions de données possibles qui doivent être vérifiées sont :

  • abandon (cela doit être identifié lors de la phase initiale d'analyse des données)
  • Item non-réponse (qu'elle soit aléatoire ou non, doit être évaluée lors de la phase initiale d'analyse des données)
  • Qualité du traitement (à l'aide de contrôles de manipulation ).

Caractéristiques de l'échantillon de données

Dans tout rapport ou article, la structure de l'échantillon doit être décrite avec précision. Il est particulièrement important de déterminer exactement la structure de l'échantillon (et en particulier la taille des sous-groupes) lorsque des analyses de sous-groupes seront effectuées au cours de la phase d'analyse principale.
Les caractéristiques de l'échantillon de données peuvent être évaluées en examinant :

  • Statistiques de base des variables importantes
  • Nuages ​​de points
  • Corrélations et associations
  • Tableaux croisés

Étape finale de l'analyse initiale des données

Au cours de l'étape finale, les conclusions de l'analyse initiale des données sont documentées et les actions correctives nécessaires, préférables et possibles sont prises.
En outre, le plan original pour les principales analyses de données peut et doit être spécifié plus en détail ou réécrit.
Pour ce faire, plusieurs décisions concernant les principales analyses de données peuvent et doivent être prises :

  • Dans le cas des non- normales : faut-il transformer les variables ; rendre les variables catégoriques (ordinales/dichotomiques) ; adapter la méthode d'analyse ?
  • En cas de données manquantes : faut-il négliger ou imputer les données manquantes ; quelle technique d'imputation utiliser?
  • En cas d' outliers : faut-il utiliser des techniques d'analyse robustes ?
  • Dans le cas où les items ne rentrent pas dans l'échelle : faut-il adapter l'instrument de mesure en omettant des items, ou plutôt assurer la comparabilité avec d'autres (utilisations du) instrument(s) de mesure ?
  • Dans le cas de (trop) petits sous-groupes : faut-il abandonner l'hypothèse sur les différences intergroupes, ou utiliser des techniques sur petits échantillons, comme les tests exacts ou le bootstrapping ?
  • Au cas où la procédure de randomisation semble défaillante : peut-on et doit-on calculer des scores de propension et les inclure comme covariables dans les analyses principales ?

Une analyse

Plusieurs analyses peuvent être utilisées lors de la phase initiale d'analyse des données :

  • Statistiques univariées (variable unique)
  • Associations bivariées (corrélations)
  • Techniques graphiques (nuages ​​de points)

Il est important de prendre en compte les niveaux de mesure des variables pour les analyses, car des techniques statistiques particulières sont disponibles pour chaque niveau :

  • Variables nominales et ordinales
    • Comptes de fréquence (nombres et pourcentages)
    • Les associations
      • circumambulations (tableaux croisés)
      • analyse log-linéaire hiérarchique (limitée à un maximum de 8 variables)
      • analyse loglinéaire (pour identifier les variables pertinentes/importantes et les facteurs de confusion possibles)
    • Tests exacts ou bootstrap (au cas où les sous-groupes sont petits)
    • Calcul de nouvelles variables
  • Variables continues
    • Distribution
      • Statistiques (M, SD, variance, asymétrie, aplatissement)
      • Présentoirs à tiges et à feuilles
      • Boîtes à moustaches

Analyse non linéaire

L'analyse non linéaire est souvent nécessaire lorsque les données sont enregistrées à partir d'un système non linéaire . Les systèmes non linéaires peuvent présenter des effets dynamiques complexes, notamment des bifurcations , des chaos , des harmoniques et des sous - harmoniques qui ne peuvent pas être analysés à l'aide de méthodes linéaires simples. L'analyse des données non linéaires est étroitement liée à l'identification des systèmes non linéaires .

Analyse des données principales

Dans la phase d'analyse principale, des analyses visant à répondre à la question de recherche sont effectuées ainsi que toute autre analyse pertinente nécessaire à la rédaction de la première ébauche du rapport de recherche.

Approches exploratoires et confirmatoires

Dans la phase d'analyse principale, une approche exploratoire ou confirmatoire peut être adoptée. Habituellement, l'approche est décidée avant la collecte des données. Dans une analyse exploratoire, aucune hypothèse claire n'est énoncée avant d'analyser les données, et les données sont recherchées pour des modèles qui décrivent bien les données. Dans une analyse confirmatoire, des hypothèses claires sur les données sont testées.

L'analyse exploratoire des données doit être interprétée avec prudence. Lorsque vous testez plusieurs modèles à la fois, il y a de fortes chances que l'un d'entre eux soit significatif, mais cela peut être dû à une erreur de type 1 . Il est important de toujours ajuster le niveau de signification lors du test de plusieurs modèles avec, par exemple, une correction de Bonferroni . De plus, il ne faut pas faire suivre une analyse exploratoire d'une analyse confirmatoire dans le même ensemble de données. Une analyse exploratoire est utilisée pour trouver des idées pour une théorie, mais pas pour tester cette théorie également. Lorsqu'un modèle est trouvé exploratoire dans un ensemble de données, le suivi de cette analyse par une analyse confirmatoire dans le même ensemble de données pourrait simplement signifier que les résultats de l'analyse confirmatoire sont dus à la même erreur de type 1 qui a entraîné le modèle exploratoire dans le premier endroit. L'analyse confirmatoire ne sera donc pas plus informative que l'analyse exploratoire originale.

Stabilité des résultats

Il est important d'obtenir des indications sur la généralisation des résultats. Bien que cela soit souvent difficile à vérifier, on peut regarder la stabilité des résultats. Les résultats sont-ils fiables et reproductibles ? Il y a deux manières principales de le faire.

  • Validation croisée . En divisant les données en plusieurs parties, nous pouvons vérifier si une analyse (comme un modèle ajusté) basée sur une partie des données se généralise également à une autre partie des données. Cependant, la validation croisée est généralement inappropriée s'il existe des corrélations au sein des données, par exemple avec des données de panel . Par conséquent, d'autres méthodes de validation doivent parfois être utilisées. Pour plus d'informations sur ce sujet, consultez Validation de modèle statistique .
  • Analyse de sensibilité . Procédure pour étudier le comportement d'un système ou d'un modèle lorsque les paramètres globaux sont (systématiquement) variés. Une façon de le faire est via l' amorçage .

Logiciel gratuit d'analyse de données

Les logiciels gratuits notables pour l'analyse des données incluent :

  • DevInfo – Un système de base de données approuvé par le Groupe des Nations Unies pour le développement pour le suivi et l'analyse du développement humain.
  • ELKIFramework de data mining en Java avec des fonctions de visualisation orientées data mining.
  • KNIME - The Konstanz Information Miner, un cadre d'analyse de données convivial et complet.
  • Orange – Un outil de programmation visuel proposant une visualisation interactive des données et des méthodes d'analyse de données statistiques, d' exploration de données et d' apprentissage automatique .
  • Pandas – Bibliothèque Python pour l'analyse de données.
  • Cadre d'analyse de données PAW – FORTRAN/C développé au CERN .
  • R – Un langage de programmation et un environnement logiciel pour le calcul statistique et les graphiques.
  • ROOT – Cadre d'analyse de données C++ développé au CERN .
  • SciPy – Bibliothèque Python pour l'analyse de données.
  • Julia - Un langage de programmation bien adapté à l'analyse numérique et à la science informatique.

Concours internationaux d'analyse de données

Différentes entreprises ou organisations organisent des concours d'analyse de données pour encourager les chercheurs à utiliser leurs données ou à résoudre une question particulière à l'aide de l'analyse de données. Voici quelques exemples de concours internationaux d'analyse de données bien connus :

Voir également

Les références

Citations

Bibliographie

  • Adèr, Herman J. (2008a). "Chapitre 14 : Phases et étapes initiales de l'analyse des données". Dans Adèr, Herman J. ; Mellenbergh, Gideon J. ; Main, David J (éd.). Conseil sur les méthodes de recherche : un compagnon de consultant . Huizen, Pays-Bas : Johannes van Kessel Pub. p. 333-356. ISBN 9789079418015. OCLC  905799857 .
  • Adèr, Herman J. (2008b). "Chapitre 15: La phase d'analyse principale". Dans Adèr, Herman J. ; Mellenbergh, Gideon J. ; Main, David J (éd.). Conseil sur les méthodes de recherche : un compagnon de consultant . Huizen, Pays-Bas : Johannes van Kessel Pub. p. 357-386. ISBN 9789079418015. OCLC  905799857 .
  • Tabachnick, BG & Fidell, LS (2007). Chapitre 4 : Nettoyer votre acte. Dépistage des données avant analyse. Dans BG Tabachnick & LS Fidell (Eds.), Using Multivariate Statistics, cinquième édition (pp. 60-116). Boston : Pearson Education, Inc. / Allyn et Bacon.

Lectures complémentaires

  • Adèr, HJ & Mellenbergh, GJ (avec des contributions de DJ Hand) (2008). Conseils sur les méthodes de recherche : le compagnon d'un consultant . Huizen, Pays-Bas : Johannes van Kessel Publishing. ISBN  978-90-79418-01-5
  • Chambres, John M.; Cleveland, William S. ; Kleiner, Beat; Tukey, Paul A. (1983). Méthodes graphiques pour l'analyse des données , Wadsworth/Duxbury Press. ISBN  0-534-98052-X
  • Fandango, Armando (2017). Analyse de données Python, 2e édition . Éditeurs Packt. ISBN  978-1787127487
  • Juran, Joseph M.; Godfrey, A. Blanton (1999). Manuel de qualité de Juran, 5e édition. New York : McGraw Hill. ISBN  0-07-034003-X
  • Lewis-Beck, Michael S. (1995). Analyse des données : une introduction , Sage Publications Inc, ISBN  0-8039-5772-6
  • NIST/SEMATECH (2008) Manuel des méthodes statistiques ,
  • Pyzdek, T, (2003). Manuel d'ingénierie de la qualité , ISBN  0-8247-4614-7
  • Richard Veryard (1984). Analyse pragmatique des données . Oxford : Publications scientifiques Blackwell. ISBN  0-632-01311-7
  • Tabachnick, BG ; Fidell, LS (2007). Utilisation de statistiques multivariées, 5e édition . Boston : Pearson Education, Inc. / Allyn et Bacon, ISBN  978-0-205-45938-4