Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Avertissement Consulter la version la plus récente.

Contenu archivé

L'information indiquée comme étant archivée est fournie aux fins de référence, de recherche ou de tenue de documents. Elle n'est pas assujettie aux normes Web du gouvernement du Canada et elle n'a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Qualité des données


Introduction

En sa qualité d'organisme professionnel responsable de la production de données statistiques officielles, Statistique Canada doit faire connaître aux utilisateurs les méthodes et les concepts utilisés dans la collecte et le traitement de ses données, et de leur fournir des renseignements sur la qualité des données produites et les autres caractéristiques des données pouvant limiter leur utilité ou leur interprétation.

Les utilisateurs de données doivent d'abord être en mesure de vérifier si le cadre conceptuel et les définitions qui répondraient à leurs besoins particuliers en matière de données et à l'utilisation qu'ils comptent en faire sont identiques, ou suffisamment semblables à ceux employés lors de la collecte et du traitement des données. Ils doivent alors pouvoir évaluer dans quelle mesure les erreurs se rapportant aux données restreignent l'utilisation de celles-ci.

Quatre cyclistes traversent un parc par une journée d’été.

L'évaluation de la qualité des données constitue toutefois une tâche complexe compte tenu du caractère pluridimensionnel du concept de qualité, de l'existence de nombreuses sources possibles d'erreurs et, souvent, de l'absence de mesures exhaustives de la qualité des données. Compte tenu de l'état actuel des connaissances en la matière, on ne peut arriver à l'élaboration d'une norme stricte relativement à l'évaluation de la qualité des données pour l'ensemble des produits de Statistique Canada. Il faut cependant insister sur la description et la quantification des principaux éléments de la qualité.

Erreurs dans les données du recensement

La précision d'une estimation statistique est en fait une mesure de l'écart entre l'estimation et la valeur « réelle ». Les écarts des valeurs réelles sont considérés comme des erreurs. Même si ce terme n'implique pas nécessairement qu'une faute ait été commise, une certaine part d'erreur est le résultat inévitable des décisions prises afin de contrôler les coûts du recensement. Il est important de le savoir, car plusieurs types d'erreurs peuvent être prévus et contrôlés si l'on met en place des procédures spéciales. Plus on y mettra d'efforts, plus le contrôle sera serré, et plus faible sera le taux d'erreur. Cependant, il existe un certain seuil à partir duquel les avantages d'une réduction additionnelle de l'erreur ne sont pas assez importants pour en justifier les coûts.

Pour l'utilisateur de données, l'importance de l'erreur dépend beaucoup de sa nature, de l'utilisation qu'il souhaite faire des données et de l'échelle de détail des données. Certaines erreurs surviennent plus ou moins au hasard et ont tendance à s'annuler lorsque l'on réunit les réponses d'un groupe suffisamment grand. Par exemple, certaines personnes peuvent surévaluer leur revenu, tandis que d'autres peuvent le sous-estimer. S'il n'existe aucune tendance prévalente dans un sens ou dans l'autre, les surestimations de certains individus seront compensées plus ou moins par les sous-estimations de certains autres individus dans le groupe. Plus le groupe est grand, plus la moyenne de revenu déclarée devrait se rapprocher de la valeur réelle. Par ailleurs, si plusieurs personnes oublient une source de revenu, alors le résultat indiquera une tendance générale à sous-évaluer le revenu total. Dans ce cas, le revenu moyen indiqué sera plus bas que la moyenne réelle. Ces erreurs systématiques sont beaucoup plus graves pour les utilisateurs que les erreurs aléatoires : elles causent un biais dans les données qui, en plus de la difficulté à l'évaluer, peut persister quelle que soit la taille du groupe.

Sources d'erreurs

Les erreurs peuvent provenir de plusieurs sources que l'on peut regrouper en plusieurs grandes catégories : les erreurs de couverture, de non-réponse, de réponse, de traitement et d'échantillonnage.

Erreurs de couverture

Le jour du recensement, on tente de dénombrer chaque résident canadien. Le personnel du recensement dresse une liste de tous les logements dans chaque unité de collecte et un questionnaire du recensement est livré à chaque logement, c.-à-d. posté ou livré par un agent recenseur. On demande à un membre responsable du ménage d'inscrire tous les résidents habituels du logement, en suivant les instructions se trouvant à l'étape B du questionnaire. Des erreurs peuvent survenir lors de cette tâche. Le personnel du recensement peut mal évaluer les limites de l'unité de collecte et oublier certains logements dans sa liste. Un logement peut être omis parce qu'il est situé à l'intérieur de ce qui semble être un logement individuel ou parce qu'il est situé sur une route ne figurant pas sur la carte de l'unité de collecte. L'agent recenseur peut également oublier de livrer un questionnaire dans un logement occupé qui semble inoccupé.En ski de fond devant un panorama de Red Mountain en Colombie-Britannique.

D'un autre côté, des membres responsables du ménage peuvent mal comprendre les instructions inscrites à l'étape B et, par conséquent, ne pas inscrire tous les résidents habituels du logement. Par exemple, un membre du ménage temporairement absent du domicile pour ses études ou parce qu'il est hospitalisé pourrait être ainsi omis. Une famille possédant deux résidences pourrait être omise aux deux endroits, compte tenu de la confusion qui pourrait s'établir relativement au lieu où elle devrait être dénombrée. Cette confusion pourrait aussi entraîner un double compte ou « surdénombrement », lorsqu'un individu est inscrit à deux résidences. Ceci est moins courant que le « sous-dénombrement » entraîné par l'omission de personnes ou de ménages.

Erreurs dues à la non-répons

Nonobstant les meilleurs efforts, il est parfois impossible d'obtenir d'un ménage un questionnaire rempli même si le logement avait été reconnu comme occupé et qu'un questionnaire y ait été livré. Les membres du ménage peuvent être absents pendant toute la période du recensement ou peuvent refuser de répondre au questionnaire. Dans la plupart des cas, le questionnaire est renvoyé, mais il manque des renseignements à certaines questions ou pour certaines personnes. Les agents recenseurs font le contrôle du questionnaire, de même que le suivi par interview pour obtenir l'information manquante. Néanmoins, une certaine part de non-réponse est inévitable et, bien que des rectifications puissent être apportées aux renseignements manquants à l'étape du dépouillement, il y a inévitablement une certaine perte de précision.

Erreurs de réponse

Une réponse peut ne pas être complètement exacte. Le répondant peut avoir mal interprété la question ou peut ne pas savoir la réponse, particulièrement dans le cas où il doit répondre pour une personne absente. Une erreur de réponse peut occasionnellement être causée par un agent recenseur lors du suivi d'une réponse manquante ou lors de l'enregistrement des données, comme le type de construction résidentielle.

Erreurs de traitement

Tous les questionnaires (papier et électroniques) sont envoyés au Centre de traitement des données. Les données des questionnaires papier sont saisies par reconnaissance optique de marques et des caractères, ou entrées par clavier. Les inscriptions écrites sont ensuite codées numériquement ou manuellement à l'aide d'un ordinateur. Des erreurs de codage et de saisie peuvent survenir à cette étape, même si toutes les données sont soumises à une série de contrôles de la qualité effectués par ordinateur afin de trouver les réponses manquantes ou incohérentes. Des réponses sont créées ou « imputées » pour les renseignements manquants ou inacceptables en utilisant les réponses de personnes qui possèdent des caractéristiques semblables, comme l'âge et le sexe. L'ordinateur ne peut évidemment pas imputer chaque fois une réponse correcte, mais, lorsque les résultats sont totalisés à l'échelle de régions géographiques ou de sous-groupes de population suffisamment grands, les erreurs d'imputation s'annulent plus ou moins.

Erreurs d'échantillonnage

Bien que quelques-unes des questions du recensement soient posées à tous les résidents canadiens, la majeure partie des renseignements d'ordre économique et culturel proviennent de l'échantillon représentant un cinquième des ménages. L'information recueillie auprès de ces ménages est « pondérée » afin de produire des estimations pour l'ensemble de la population. La procédure de pondération la plus simple serait de multiplier par cinq les résultats des ménages faisant partie de l'échantillon, puisque chaque ménage de l'échantillon représente cinq ménages de la population totale, mais la procédure actuelle, bien qu'elle soit similaire à ce principe, est beaucoup plus complexe.

Les résultats de l'échantillon pondéré diffèrent évidemment des résultats qui auraient pu être obtenus auprès de l'ensemble de la population. Cette différence est connue sous le nom d'« erreur d'échantillonnage ». L'erreur d'échantillonnage réelle est bien sûr inconnue, mais il est possible de calculer une valeur « moyenne ».

Lorsque plusieurs échantillons de même taille sont sélectionnés au hasard selon un procédé semblable à celui utilisé lors du recensement actuel, les résultats pondérés auront tendance à varier autour de la valeur réelle pour la population totale. L'« erreur type » est la mesure de la taille moyenne de cette variation. Heureusement, il n'est pas nécessaire de produire des échantillons pour estimer l'erreur type du recensement; elle peut être estimée directement à partir de l'échantillon unique utilisé.

Évaluation de la qualité des données

Plusieurs études sur la qualité des données ont été effectuées lors des derniers recensements, ce qui a permis aux utilisateurs d'évaluer l'impact des erreurs et de nous faire mieux comprendre où et comment les erreurs surviennent. Pour le Recensement de 2006, des études spéciales évaluent les différents aspects des erreurs de couverture, d'échantillonnage et de contenu (c.-à-d. les erreurs dues à la non-réponse, ainsi que les erreurs de réponse et de traitement).

Erreurs de couverture

Trois études se penchent sur les erreurs de couverture. D'abord, l'Enquête sur la classification des logements pour lequel un échantillon des logements, inscrits par les agents recenseurs comme « inoccupés » ou comme « non-réponse », le jour du recensement, sont visités une deuxième fois pour déterminer le nombre de ces résidences qui étaient en fait occupées ou non le jour du recensement, et pour déterminer le nombre de personnes qui occupaient ces logements. On produit des estimations du nombre total de ménages et de personnes omis à cause d'une erreur de classification du logement, et on ajuste les résultats du recensement.

Les deux autres études fournissent des estimations du sous-dénombrement et du surdénombrement bruts, mais ne sont pas la base à partir de laquelle on ajuste les résultats du recensement. La contre-vérification des dossiers évalue le sous-dénombrement brut en identifiant un échantillon de personnes avant les opérations de collecte du recensement, en recueillant toutes les adresses où ces personnes auraient pu être dénombrées et en vérifiant par la suite les questionnaires du recensement correspondant à ces adresses pour s'assurer qu'elles ont bel et bien été dénombrées en 2006. L'échantillon a été constitué à partir des questionnaires du Recensement de 2001, des registres de naissance, d'immigration et de détenteurs de permis (d'étude, de travail ou ministériel [voir la variable «Résident non permanent» précédemment citée]), de revendicateurs du statut de réfugié et des personnes identifiées comme manquantes lors de la contre-vérification des dossiers de 2001. Selon les données recueillies pour les personnes manquantes, ces dernières sont classées comme étant dénombrées, inadmissibles (c.-à-d. décédées ou émigrées avant le jour du recensement), ou oubliées. Cette classification mène à une estimation du nombre total de personnes oubliées lors du dénombrement.

Le recensement comporte aussi une étude visant à évaluer le surdénombrement brut : l' Étude sur le surdénombrement, qui tente d'apparier toutes les personnes contenues dans la base de données du recensement les unes aux autres en utilisant des techniques d'appariement direct et statistique; les liens établis sont classifiés par strates, et un échantillon d'appariements provenant de chaque strate est vérifié à l'aide des questionnaires du recensement pour déterminer la fréquence de double comptage. On obtient une estimation du nombre total de personnes surdénombrées lors du dénombrement.

Les résultats de cette étude sont utilisés avec les chiffres de population du recensement et ceux de la contre-vérification des dossiers, pour le Programme des estimations de la population.

Les estimations relatives aux erreurs de couverture seront disponibles la 4e trimestre de 2009.

Erreurs de contenu

Un certain nombre d'études évaluent la qualité des données de chaque question. Les taux de réponse et de rejet au contrôle, ainsi que la comparaison des estimations avant et après l'imputation, sont quelques-unes des mesures utilisées pour quantifier la qualité des données. Les totalisations du Recensement de 2006 sont également comparées aux données correspondantes des recensements précédents, d'autres enquêtes et de sources administratives. Des tableaux croisés détaillés sont vérifiés afin de déceler toute incohérence et inexactitude dans les données. Certaines de ces vérifications sont effectuées avant que ne sortent les données du recensement, soit lors du processus d'attestation; les études plus détaillées prennent plus de temps.

Erreurs d'échantillonnage

Comme on l'a dit plus tôt, il est possible de calculer les erreurs types pour les variables de l'échantillon. De plus, des études évaluent les procédures d'échantillonnage et de pondération.

Diffusion de l'information sur la qualité des données

L'information sur la qualité des données du recensement est diffusée de deux façons. Tous les produits du recensement comprennent une section portant sur la qualité des données qui examine les sources d'erreurs et fournit des mises en garde aux utilisateurs. Dans certains cas, des estimations de l'ampleur des erreurs sont données, par exemple, les estimations des erreurs d'échantillonnage. Des renseignements sont également publiés dans la série des Rapports techniques du Recensement de 2006 (disponibles à l'automne 2009), qui résument les résultats des études sur la qualité des données.