Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Avertissement Consulter la version la plus récente.

Contenu archivé

L'information indiquée comme étant archivée est fournie aux fins de référence, de recherche ou de tenue de documents. Elle n'est pas assujettie aux normes Web du gouvernement du Canada et elle n'a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Normes et lignes directrices relatives à la confidentialité et à la qualité des données (version publique) : Règles relatives à la confidentialité (non-divulgation)

La présente section décrit les diverses règles de suppression utilisées pour garantir la confidentialité (ou non-divulgation) de l'identité et des caractéristiques des répondants. Toutes les données du recensement sont assujetties à ces règles de suppression.

Suppression des régions pour les régions géographiques normalisées1 et non normalisées

La suppression des régions a pour objet d'éliminer toutes les données sur les caractéristiques pour les régions géographiques dont la population est inférieure à un seuil donné.

Le seuil de population défini pour toutes les régions normalisées ou les regroupements de régions normalisées sauf les îlots, les côtés d'îlot et les régions définies selon le code postal, est de 40. En conséquence, aucune caractéristique ou donnée totalisée n'est diffusée pour les régions comptant moins de 40 habitants.

Dans le cas des régions définies selon le code postal à six caractères (région de tri d'acheminement – unité de distribution locale [RTA - UDL]), des régions géocodées et des régions normalisées constituées d'îlots, de côtés d'îlot ou d'UDL, le seuil de population est établi à 100 personnes. En conséquence, aucune caractéristique ou donnée totalisée n'est diffusée pour les régions de ce type comptant moins de 100 habitants. En général, la population des îlots et des côtés d'îlot urbains (un côté d'une rue, situé entre deux intersections consécutives) est trop faible pour respecter les seuils de population établis. Les données relatives aux regroupements d'îlots ou de côtés d'îlot dont la population est supérieure au seuil fixé peuvent être extraites à l'aide d'un tableau personnalisé. D'autres règles de suppression sont appliquées pour des raisons relatives à la qualité des données dans le cas des tableaux comportant des données sur les caractéristiques du revenu pour les particuliers, les familles ou les ménages.

Ces seuils de population sont appliqués aux données du Recensement de 2006 et à celles de tous les recensements antérieurs.

Univers de la population utilisés pour les routines de suppression

Dans le cas des tableaux portant sur les données intégrales (100 %), le chiffre de population utilisé aux fins de la règle de suppression est le chiffre de population totale.

Pour tous les autres tableaux, à l'exception des tableaux montrant les données sur le lieu de travail, la population utilisée est celle montrant le chiffre le moins élevé de la population excluant les pensionnaires d'établissements institutionnels tiré des questionnaires abrégés (2A) (données intégrales, 100 %) ou complets (2B) (données-échantillon, 20 %).

Dans le cas des données sur le lieu de travail, le chiffre de population utilisé est celui de la population active occupée ayant un lieu de travail habituel ou ayant travaillé à la maison.

Univers de la population utilisés pour les routines de suppression
2A 2B Région géographique du lieu de travail
Population totale Chiffre le moins élevé de la population excluant les pensionnaires d'établissements institutionnels tiré des questionnaires abrégés ou complets Population active occupée ayant un lieu de travail habituel ou ayant travaillé à la maison

Dans le cas des tableaux du recensement portant sur les régions ou secteurs géographiques du lieu de travail, il faut utiliser dans tous les cas les chiffres de la population active occupée ayant un lieu de travail habituel ou ayant travaillé à la maison, c'est-à-dire qu'on utilise ces chiffres pour déterminer si la région respecte les seuils de population (40, 100 et 250) plutôt que le chiffre de la population totale. Dans le cas des tableaux qui portent à la fois sur des régions géographiques du lieu de résidence et sur des régions géographiques du lieu de travail, les seuils de population (40, 100 et 250) s'appliquent à la fois aux données sur le lieu de résidence (population) et sur le lieu de travail (population active occupée ayant un lieu de travail habituel ou ayant travaillé à la maison).

Arrondissement aléatoire

Tous les chiffres présentés dans les totalisations du recensement font l'objet d'un processus appelé arrondissement aléatoire, qui consiste à transformer les chiffres bruts en chiffres arrondis aléatoirement. Cette mesure réduit les risques de divulgation de l'identité des répondants dans les totalisations.

Dans le cas des données 2A (données intégrales, 100 %), tous les chiffres sont arrondis à un multiple de 5. Cela signifie que tous les chiffres se rapportant aux données 2A se terminent par un 0 ou par un 5. L'algorithme d'arrondissement aléatoire utilisé permet de contrôler les résultats et d'arrondir le chiffre des unités selon une fréquence prédéterminée comme le montre le tableau suivant. Prenez note que les chiffres se terminant par un 0 ou par un 5 ne sont pas modifiés.

Fréquence de l'arrondissement aléatoire (données intégrales)
Valeur unitaire de Sera arrondie à un chiffre se terminant par un 0 Sera arrondie à un chiffre se terminant par un 5
1 4 fois sur 5 1 fois sur 5
2 3 fois sur 5 2 fois sur 5
3 2 fois sur 5 3 fois sur 5
4 1 fois sur 5 4 fois sur 5
5 Jamais Toujours
6 1 fois sur 5 4 fois sur 5
7 2 fois sur 5 3 fois sur 5
8 3 fois sur 5 2 fois sur 5
9 4 fois sur 5 1 fois sur 5
0 Toujours Jamais

L'algorithme d'arrondissement aléatoire appliqué aux données 2B (données-échantillon, 20 %) diffère légèrement. Tous les chiffres supérieurs à 10 sont arrondis à un multiple de 5, comme c'est le cas pour les données 2A. Par contre, les chiffres inférieurs à 10 sont arrondis à un multiple de 10. Cela signifie que tous les chiffres des données 2B inférieurs à 10 sont toujours arrondis à 0 ou à 10. Le tableau ci-après montre les résultats de l'arrondissement des chiffres inférieurs à 10.

Fréquence de l'arrondissement aléatoire (données-échantillon)
Chiffre de Sera arrondi à 0 Sera arrondi à 10
1 9 fois sur 10 1 fois sur 10
2 8 fois sur 10 2 fois sur 10
3 7 fois sur 10 3 fois sur 10
4 6 fois sur 10 4 fois sur 10
5 5 fois sur 10 5 fois sur 10
6 4 fois sur 10 6 fois sur 10
7 3 fois sur 10 7 fois sur 10
8 2 fois sur 10 8 fois sur 10
9 1 fois sur 10 9 fois sur 10
0 Toujours Jamais

L'algorithme d'arrondissement aléatoire se sert d'une valeur de départ aléatoire pour déclencher le processus d'arrondissement pour les tableaux. Lorsque ces routines sont appliquées, il est possible que le même chiffre dans le même tableau soit arrondi vers le haut dans une exécution et vers le bas dans une autre en raison de la méthode utilisée pour amorcer le processus.

Prévention de la divulgation pour les statistiques

Les statistiques (moyenne, erreur-type, somme, médiane, centile, ratio ou pourcentage) ne sont pas arrondies aléatoirement. Toutefois, l'inclusion des statistiques dans les tableaux où figurent également les chiffres à partir desquels elles ont été calculées peut se solder par la divulgation de l'identité des répondants. Pour éviter ce problème, on applique des méthodes de suppression pour les statistiques ou des calculs statistiques spéciaux.

Suppression des statistiques

On procède à la suppression de statistiques chaque fois que l'une ou l'autre des trois conditions suivantes est satisfaite :

  1. Il est possible (principalement pour des cellules comportant des valeurs faibles) que les valeurs quantitatives aient été imputées à partir d'un seul enregistrement donneur. Par exemple, dans un tableau sur le revenu, il est possible qu'une cellule comptant trois enregistrements contienne en fait une réponse réelle à la question et deux réponses imputées à partir du premier enregistrement. Lorsque cela se produit, les caractéristiques du revenu d'un seul particulier pourraient être divulguées si le tableau faisait état de la moyenne et de l'erreur-type. Pour éviter ce genre de divulgation et, de façon plus générale, pour éviter de publier des statistiques basées sur une étendue étroite de valeurs, toutes les statistiques d'une cellule sont supprimées si la différence relative entre le minimum et le maximum est inférieur à un pourcentage déterminé.
  2. Dans le cas de toutes les variables quantitatives, une statistique est supprimée si le nombre d'enregistrements réel (non arrondi ni pondéré) à partir desquels elles ont été calculées est inférieur à un nombre précis.

    Nota : Le nombre d'enregistrements utilisés aux fins du calcul n'est pas nécessairement égal au nombre d'enregistrements que comporte la cellule; il s'agit plutôt du nombre d'enregistrements applicables ou disponibles aux fins du calcul de la statistique figurant dans la cellule.

  3. Dans le cas de toutes les variables quantitatives, les statistiques sont supprimées si la somme des facteurs de pondération est inférieure à 10.

Calculs statistiques spéciaux

  1. La valeur prise par la statistique n'est jamais arrondie, sauf dans le cas des fréquences.
  2. Toutes les statistiques fondées sur un classement par ordre des valeurs (médianes, centiles) sont calculées de la façon habituelle, c'est-à-dire jamais arrondies.
  3. Toutes les statistiques de dispersion (erreur-type) sont calculées de la façon habituelle, c'est-à-dire jamais arrondies.
  4. Dans le cas des sommes, si le programme calcule une valeur exprimée en dollars, un nombre de semaines, un nombre d'heures ou un âge, il multiplie alors la moyenne non arrondie du groupe en question par la fréquence pondérée arrondie. Autrement, le programme arrondit la somme pondérée.

Lorsqu'il faut faire une division (moyennes, pourcentages, ratios, etc.), le programme doit appliquer la règle énoncée au point 4) tant au numérateur qu'au dénominateur avant d'effectuer la division.

Nota : Les statistiques fondées sur un classement par ordre des valeurs, telles que la médiane et les centiles, sont toujours calculées au moyen d'interpolations linéaires. Ces statistiques ne sont donc pas fiables dans le cas de cellules comportant de faibles valeurs. C'est pourquoi aucune autre règle relative à la confidentialité ne leur est appliquée.

Nota : La moyenne d'une valeur exprimée en dollars, d'un nombre de semaines, d'un nombre d'heures ou d'un âge n'est pas modifiée par l'arrondissement parce que le numérateur correspond au produit de la moyenne réelle multipliée par la fréquence arrondie et que le dénominateur correspond à la fréquence arrondie. Les deux fréquences s'annulent l'une l'autre de sorte que la moyenne réelle n'est pas modifiée.

Suppression de statistiques aberrantes

Il est possible, quoique fort improbable, qu'une statistique aberrante puisse être estimée correctement d'après une moyenne. Pour réduire le risque de divulgation d'une telle statistique, toutes les statistiques d'une cellule sont supprimées si le ratio de la valeur absolue à la somme des valeurs absolues est supérieur à un pourcentage déterminé.

  Page précédente | Notes | Page suivante