Looking for 222-2-23 - Data scraping et wrangling test answers and solutions? Browse our comprehensive collection of verified answers for 222-2-23 - Data scraping et wrangling at moodle.univ-lr.fr.
Get instant access to accurate answers and detailed explanations for your course questions. Our community-driven platform helps students succeed!
Répondez aux questions ci-dessous. deux à trois phrases par question doivent suffire pour y répondre : expliquer le principe général que vous utiliseriez (1 pt) et comment vous le mettriez en place avec Alteryx (1 pt).
Question 1 : On pourrait penser qu'on a terminé car on n'a plus aucune valeur incorrecte dans les colonnes mais on a toujours plusieurs lignes pour certaines universités malgré la suppression des doublons et on n'a donc pas complètement répondu à la question. On peut le voir simplement car on a plus de lignes que de valeurs uniques dans la colonne university. Que proposeriez-vous pour avoir une seule ligne par université mais qui reste pertinente ?
Question 2 : Certaines valeurs sont peut-être correctes (au niveau du type) mais pas forcément en pratique. Cherchez l'université "President of Bucknell University" dans les données initiales. Que pensez-vous de son budget ? Que pensez-vous qu'il va se passer si on calcule le budget moyen des universités en gardant celle-là ? Quelle(s) solution(s) envisager ?
Question 3 : Dans les montants on avait une majorité de lignes avec des US$ mais pas uniquement. Comme on a supprimé les unités pour avoir des valeurs numériques on a perdu de l'information. De plus, si on calcule des montants moyens avec des devises différentes rien n'aura de sens. Que proposeriez-vous ?
Nettoyage de la colonne country (durée prévue : 20mn, barème : 1pt)
On va tenter de nettoyer intégralement cette colonne, en reprenant le principe déjà utilisé pour le Canada.
Dans la suite on suppose que :
Combien de versions du Royaume-Uni (ou des nations constitutives) avez-vous ?
Combien de versions des USA avez-vous ?
Combien de version du Canada avez-vous ?
Vous savez déjà comment corriger le Canada, répétez pour corriger toutes les erreurs sur le Royaume-Uni, les Etats-Unis d'Amérique et les autres pays. Soyez attentif pour ne pas en oublier. L'avantage de l'outil rechercher/remplacer est qu'on peut en faire autant qu'on veut avec un seul outil, pas besoin d'un outil pour corriger le Canada, d'un autre pour corriger les USA, etc. Il doit rester également 2 pays qui n'ont pas de signification apparente : "Utopia" et "Satellite locations". Allez voir quelles sont les universités qui correspondent à ces pays pour voir si vous pouvez corriger ou pas (dans le doute Google peut vous aider).
Combien de pays reste-il une fois tout nettoyé ? Et de lignes au total dans le fichier ?
NB :
- Eléments attendus dans le pdf : les valeurs que vous avez corrigé pour chaque pays + une capture d'écran permettant de voir la configuration de l'outil de correction.
- Les réponses à remplir ne sont pas notées donc ce n'est pas grave si vous n'avez pas les bonnes valeurs !
Merci de répondre à tous les éléments de la question.Nettoyage de la colonne numStudents (durée prévue : 20 à 30mn, barème : 2pt)
Comme pour l'étape précédente vous devez identifier quelques cas que vous vous sentez capable de résoudre et le faire. N'hésitez pas à échanger pour vous assurer que vos propositions de nettoyage sont pertinentes. S'il reste des problèmes après vos nettoyages, supprimez-les.
Combien reste-t-il de problèmes dans la colonne une fois toutes ces corrections effectuées ?
NB :
- Dans le fichier pdf expliquez ce que vous faites pour chaque correction (une phrase ou deux + une capture de la configuration de l'outil si cela vous semble nécessaire).
- La réponse à remplir n'est pas notée donc ce n'est pas grave si vous n'avez pas la bonne valeur !
Nettoyage de la colonne endowment (durée prévue : 40 à 50mn, barème : 3pt)
C'est l'une des pires (sinon la pire) colonne en termes de problèmes, notamment :
Mettez le type en Double et filtrez les données pour ne garder que les valeurs incorrectes. Combien de valeurs sont perdues si on faisait cette opération ?
Annulez le changement de type.
On se propose de corriger certains de ces problèmes même si de manière générale c'est compliqué de tout régler c'est la raison pour laquelle on supprime parfois.
NB :
- Dans le fichier pdf expliquez ce que vous faites pour chaque correction (une phrase ou deux + une capture de la configuration de l'outil si cela vous semble nécessaire).
- La réponse à remplir n'est pas notée donc ce n'est pas grave si vous n'avez pas la bonne valeur !
Nettoyage de la colonne country (durée prévue : 20mn, barème : 1pt)
On va tenter de nettoyer intégralement cette colonne, en reprenant le principe déjà utilisé pour le Canada.
Dans la suite on suppose que :
Combien de versions du Royaume-Uni (ou des nations constitutives) avez-vous ?
Combien de versions des USA avez-vous ?
Combien de version du Canada avez-vous ?
Vous savez déjà comment corriger le Canada, répétez pour corriger toutes les erreurs sur le Royaume-Uni, les Etats-Unis d'Amérique et les autres pays. Soyez attentif pour ne pas en oublier. L'avantage de l'outil rechercher/remplacer est qu'on peut en faire autant qu'on veut avec un seul outil, pas besoin d'un outil pour corriger le Canada, d'un autre pour corriger les USA, etc. Il doit rester également 2 pays qui n'ont pas de signification apparente : "Utopia" et "Satellite locations". Allez voir quelles sont les universités qui correspondent à ces pays pour voir si vous pouvez corriger ou pas (dans le doute Google peut vous aider).
Combien de pays reste-il une fois tout nettoyé ? Et de lignes au total dans le fichier ?
NB :
- Eléments attendus dans le pdf : les valeurs que vous avez corrigé pour chaque pays + une capture d'écran permettant de voir la configuration de l'outil de correction.
- Les réponses à remplir ne sont pas notées donc ce n'est pas grave si vous n'avez pas les bonnes valeurs !
Nettoyage de la colonne country
On va tenter de nettoyer un peu cette colonne
Combien de pays avez-vous au total avant nettoyage ?
La table contient encore beaucoup de lignes il n'est pas question de les parcourir une par une pour trouver les erreurs mais l'explorateur devrait aider... Pensez également que vous pouvez trier les colonnes pour y voir plus clair.
Combien de version du Canada avez-vous ?
Donnez le nombre de lignes pour chaque variante du Canada séparées par des virgules et triées par ordre croissant (par exemple si vous avec 6 lignes avec CA et 12 avec Canada, écrivez 6,12 sans espace)
On va corriger les 3 versions de Canada. On peut faire cela via l'outil "Recherche et Remplacer" combiné à l'outil "Saisie de texte". Le premier permet de faire du rechercher/remplacer multiple dans une colonne en donnant une liste de termes à rechercher et une liste de remplacement. Il permet de remplacer tout le contenu d'une cellule ou juste une partie. Le second permet d'entrée un tableau de données directement dans Alteryx (plutôt que de créer un excel à part avec les correspondances). Il est impératif d'aller voir la documentation !
Combien de version du Canada avez-vous maintenant ?
Combien de lignes correspondent au Canada ?
Attention : on n'utilise ce genre de façon de faire que s'il y a globalement peu d'erreurs (ici 2). Pour 10 ou 20 erreurs fréquentes ça reste raisonnable mais Il n'est pas question de corriger à la main des centaines de lignes...
Merci de répondre à tous les éléments de la question.La première phase de nettoyage (suppression des valeurs nulles et des valeurs dont le type est incorrect) était à la fois incomplète sur certains points et supprimait trop d'informations sur d'autres. Nous allons donc recommencer le nettoyage mais pour de vrai. A partir de maintenant tout est un peu moins guidé mais des mots-clés permettent de trouver comment réaliser la plupart des étapes.
Reprendre le fichier initial, et réappliquer le workflow pour supprimer les colonnes inutiles et les lignes avec des champs vides mais sans modifier les types pour éviter de détruire des données. Il doit rester 55774 lignes.
Vous avez probablement remarqué qu'il y a de nombreuses lignes similaires. On va donc supprimer toutes les lignes dupliquées pour alléger un peu les analyses ultérieures. Combien reste-t-il de lignes ?Malgré ces modifications il reste de nombreuses redondances, par exemple "Aarhus University" contient plusieurs lignes. Combien pour cette université ?
On va dans la suite résoudre certains des problèmes au fur et à mesure.Merci de répondre à tous les éléments de la question.
Répondez aux questions suivantes pour décrire vos données :
En principe on aurait noté toutes ces informations dans un fichier à part qui aurait été rendu avec les données, les recettes et tout le reste.
Merci de répondre à tous les éléments de la question.Indiquez pour chaque attribut de quel type et sous-type il est :
Nettoyage de la colonne country
On va tenter de nettoyer un peu cette colonne
Combien de pays avez-vous au total avant nettoyage ?
La table contient encore beaucoup de lignes il n'est pas question de les parcourir une par une pour trouver les erreurs mais l'explorateur devrait aider... Pensez également que vous pouvez trier les colonnes pour y voir plus clair.
Combien de version du Canada avez-vous ?
Donnez le nombre de lignes pour chaque variante du Canada séparées par des virgules et triées par ordre croissant (par exemple si vous avec 6 lignes avec CA et 12 avec Canada, écrivez 6,12 sans espace)
On va corriger les 3 versions de Canada. On peut faire cela via l'outil "Recherche et Remplacer" combiné à l'outil "Saisie de texte". Le premier permet de faire du rechercher/remplacer multiple dans une colonne en donnant une liste de termes à rechercher et une liste de remplacement. Il permet de remplacer tout le contenu d'une cellule ou juste une partie. Le second permet d'entrée un tableau de données directement dans Alteryx (plutôt que de créer un excel à part avec les correspondances). Il est impératif d'aller voir la documentation !
Combien de version du Canada avez-vous maintenant ?
Combien de lignes correspondent au Canada ?
Attention : on n'utilise ce genre de façon de faire que s'il y a globalement peu d'erreurs (ici 2). Pour 10 ou 20 erreurs fréquentes ça reste raisonnable mais Il n'est pas question de corriger à la main des centaines de lignes...
Get Unlimited Answers To Exam Questions - Install Crowdly Extension Now!