La forme et la qualité des données

GIF - 493 octets

A RETENIR : En épidémiologie il ne faut utiliser que des données valides. La qualité des données dans les études épidémiologiques est générallement imparfaite. Même en cas de données incomplètes, des résultats intéressants et utiles peuvent être obtenus. Ceci n’est pas le cas des données non-valides qui ne peuvent donner lieu à des conclusions utiles.

Le protocole de collecte des données dépend du type d’étude qui a été choisi. Ceci sera repris aussi dans la suite. Notons ici quelques points importants. Le caractère prospectif (cohorte) ou retrospectif, dans le cas où nous avons opté pour une étude analytique est un des premiers points. Il est parfois possible d’avoir recours à des cohortes pré existentes, à condition que certains paramètres soient renseignés (développement d’une pathologie). Il suffit alors de reconstituer l’exposition de manière indépendante (données sur la qualité de l’air de la période d’intérêt) ou par le biais d’interviews (p.ex. parcours professionnel). Ce dernier cas nécessite d’établir des questionnaires (ils doivent être exploitables), qui peuvent parfois être envoyés par la poste (procédure d’enquête plutôt qu’interview en direct). Nous avons ici à faire face aux problèmes de faisabilité et du coût.

Une fois que nous avons défini le facteur de risque à étudier et sous quelle expression, ainsi que les sources des données, il nous faut aussi spécifier les formes sous lesquelles nous allons les coder. Ceci est obtenu par l’intermédiaire de variables qui peuvent être continues ou catégoriques. L’âge est disponible en données continues (années), mais il est préférable de choisir des intervalles, par exemple en fonction de la taille de la population étudiée, en groupes : 0-9, 10-19,..., +70 etc. Un processus similaire peut être appliqué à d’autres paramètres continus, la taille ou la mesure de la pollution ambiante. L’expression la plus simple d’une variable catégorique correspond à des variables dichotomiques, oui/non, au dessus ou au dessous d’un seuil. Tous ces choix doivent être en adéquation avec la puissance de l’étude et donc l’importance de la différence que nous voulons mettre en évidence. La précision des données de départ vont également rentrer en ligne de compte. Tout ce qui précède s’applique de la même façon à l’ensemble des facteurs de confusion qu’il est prévu d’inclure dans l’étude.

Pour que les données soient de bonne qualité il faut qu’elles soient :
- Complètes, tout manque pouvant représenter une source de biais. Les manques peuvent porter sur le numérateur (p.ex. nombre d’occurences observées) ou le dénominateur d’une proportion (population concernée, nombre de cas attendus).
- Valides, qui signifie que les données doivent être le reflet réel de la situation étudiée.

Plusieurs facteurs peuvent affecter la validité : erreurs de diagnostic, misclassifications, imprécision des appareils de mesure, mais aussi des erreurs dans le processus de collecte. Si les données sont incomplètes (elles peuvent l’être déjà à la source ou résulter du processus de collecte), elles peuvent diminuer la validité. Si l’obtention de données valides n’est pas garantie, en fonction des sources et des protocoles de collecte, la conclusion de l’étude pourrait être remise en question.

SPIP  Mise à jour : le 8 décembre 2019 | Chartes | Mentions légales | A propos