
Une enquête a été réalisée via l’Internet auprès de jeunes haut-savoyards (âge cible 18-25 ans) dont les e-mails ont été récupérés par connaissance sur l’ensemble du département (échantillon de convenance).
Question 1 – Faites le diagnostic de la qualité des réponses recueillies dans cette enquête, sur la base des outils d’évaluation disponibles dans le Sphinx.
Question 2 – Sur la variable n°37 « Job », nous comptons 3 non-réponses. Remplacez ces valeurs manquantes en employant la méthode qui vous semble la plus pertinente.
Question 3 – Veuillez opérer un nettoyage de la base de réponses qui compte au départ 1 025 observations. L’enquête « Young » est fournie sous format Sphinx dans le CD Rom joint au livre (dossier Young).
Corrigé
1. On va utiliser la fonction d’ « Evaluation du jeu de données » accessible depuis le stade « Collecte des réponses ». Les résultats sont les suivants.
Critère | Résultat | Diagnostic | Commentaire |
Taux de remplissage | 98.7% | Très bon | - |
Variation des réponses : concentration des questions fermées | Coefficient de concentration = 40. | Variation faible | Les individus formulent des réponses assez homogènes aux questions fermées. |
Richesse des réponses aux questions échelles | Richesse individuelle moyenne est de 52%. | OK | Les individus utilisent bien toute la palette des réponses possibles. |
Richesse des réponses aux questions fermées multiples | Taux de remplissage de 74% des réponses possibles. | OK | Le taux de remplissage est satisfaisant. |
Longueur des réponses aux questions ouvertes textes | Longueur moyenne des réponses est de 79 caractères (une douzaine de mots). | Très bon. | Bonne expression aux questions ouvertes textuelles |
En synthèse, tous les voyants sont au vert, sauf la concentration un peu trop forte des questions fermées, due sans doute à un échantillon de convenance peu varié dans ses caractéristiques socio-démographiques.
2. On va lancer un remplacement des non-réponses depuis le Sphinx (stade Collecte des réponses / menu Gérer / Qualifier les données). On choisira la méthode la plus puissante qui consiste à « Remplacer par le plus proche voisin ». Dans la liste de gauche, on choisit la variable n°37 « Job », sur laquelle on voit que 3 non-réponses ont effectivement été enregistrées. A droite, on sélectionne toutes les variables disponibles (celles sur lesquelles il n’y a pas de non-réponses), qui sont surtout le sexe du répondant et ses valeurs personnelles. A l’issue de ce procédé, les 3 non- répondants ont trouvé un proche voisin.
3. Le nettoyage des réponses à l’enquête Young va comporter plusieurs étapes,
a. Suppression des réponses incomplètes
On crée tout d’abord une variable « Qualité » pour enregistrer le nombre de questions avec une réponse effective pour chaque individu. Cette variable numérique est comprise de 0 (aucune réponse) et 42 (réponse effective à toutes les questions, fermées ou ouvertes). On peut par exemple isoler ou supprimer les individus pour qui la variable Qualité est inférieure à 33, ce qui correspond environ à un taux de remplissage de 80%. Ceci doit concerner 4 individus.
b. Suppression des réponses singulières
Cette analyse va être lancée sur les questions qui identifient le répondant en matière de données socio-démographiques mais aussi de centres d’intérêt et de produits possédés (questions 33 à 40 sauf nationalité). L’idée est de vérifier notamment que ne figurent pas dans la base, des individus « hors profil ». Pour ce faire, on lance la fonction « Qualifier les données » de Sphinx. On recherche les observations ayant une valeur singulière pour les variables 33 à 40 (sauf 35). On obtient une variable nommée « QualitéVariables » qui nous permet par exemple de repérer l’observation n°907, qui est une collégienne, seule représentante de sa catégorie, qu’il convient sans doute de supprimer du fichier car aucune analyse fiable ne pourra être faite sur cette catégorie, représentée par une seule personne.
c. Suppression des individus aux réponses trop systématiques
L’évaluation des données réalisée pour l’exercice précédent nous indique un individu dont les réponses sont trop systématiques (n°1021). On le supprimera de la base de données avant analyse.
4. Après compilation des données de l’INSEE, en tenant compte de la cible et de la façon dont l’âge est enregistré dans l’enquête, on doit parvenir à un tableau de répartition comme suit :
| Hommes | Femmes |
18-20 | 21,74% | 18,89% |
21-23 | 17,90% | 15,84% |
24-25 | 13,00% | 12,63% |
Afin de pouvoir programmer des quotas croisés, il faut tout d’abord constituer une seule variable regroupant tranches d’âge et sexe : Stade Traitements et analyses => Recoder => Transformer-Combiner => Combiner des variables => Fusion
Sélectionner les deux variables « sexe » et « âge » dans la liste et choisir « fusion croisée ». Une nouvelle variable est créée qui par défaut s’appelle « âge/sexe ».
Pour la programmation des quotas, on se rend dans le stade Collecte des réponses => Gérer => Redresser/Définir des quotas. On choisit la nouvelle « « âge/sexe » en guise de quota n°1. On définit les pourcentages souhaités : par exemple 21,74% pour les hommes de 18-20 ans etc.
En appliquant ces quotas par extraction à l’enquête Young, on parviendrait à une base redressée de 143 individus, ce qui constitue une très grosse perte. Il faut sans doute envisager plutôt un redressement par pondération. Une nouvelle variable est alors créée avec le nouveau poids de chaque individu en fonction des quotas précédemment définis. Les analyses peuvent être réalisées avec ou sans activation de ce redressement (propriétés de la vue / calcul).