Looking for 222-2-23 - Data scraping et wrangling test answers and solutions? Browse our comprehensive collection of verified answers for 222-2-23 - Data scraping et wrangling at moodle.univ-lr.fr.
Get instant access to accurate answers and detailed explanations for your course questions. Our community-driven platform helps students succeed!
La première phase de nettoyage (suppression des valeurs nulles et des valeurs dont le type est incorrect) était à la fois incomplète sur certains points et supprimait trop d'informations sur d'autres. Nous allons donc recommencer le nettoyage mais pour de vrai. A partir de maintenant tout est un peu moins guidé mais des mots-clés permettent de trouver comment réaliser la plupart des étapes.
Reprendre le fichier initial, et réappliquer le workflow pour supprimer les colonnes inutiles et les lignes avec des champs vides mais sans modifier les types pour éviter de détruire des données. Il doit rester 55774 lignes.
Vous avez probablement remarqué qu'il y a de nombreuses lignes similaires. On va donc supprimer toutes les lignes dupliquées pour alléger un peu les analyses ultérieures. Combien reste-t-il de lignes ?Malgré ces modifications il reste de nombreuses redondances, par exemple "Aarhus University" contient plusieurs lignes. Combien pour cette université ?
On va dans la suite résoudre certains des problèmes au fur et à mesure.
Calculer la proportion de lignes supprimées au total depuis le début de la recette (indiquez juste le pourcentage sans décimale et sans le signe %).
Modifier les types des colonnes endowment (mettre double pour convertir automatiquement les valeurs en notation scientifique du type 6.2E7) et numStudents (mettre int32) puis supprimer toutes les lignes incorrectes.
On notera que le système de correction de type va tenter de vous faire plaisir. Ainsi si un cellule contient :
En clair il regarde si la cellule commence par un chiffre et tant qu'il en trouve il les conserve.
Combien reste-t-il de lignes ?
Inspectez les données pour identifier les problèmes puis cochez les cases qui correspondent à ce que vous avez trouvé.
Supprimez toutes les lignes qui contiennent des attributs vides ou null. Combien de lignes ont été supprimées ?
Combien de colonnes sont utiles pour notre étude (relisez l'objectif de l'étude en cas de doute) ? On ne garde rien de plus que ce qui est vraiment nécessaire.
La première étape consiste à sélectionner les colonnes pertinentes et à leur affecter un type correct. Choisissez le type plus adéquat pour chaque colonne. On se limitera aux types Bool (vrai/faux), Int32 (nombre entiers), FixedDecimal (nombres à virgule), V_String (texte) et Date :
Indiquez pour chaque attribut de quel type et sous-type il est :
Répondez aux questions suivantes pour décrire vos données :
En principe on aurait noté toutes ces informations dans un fichier à part qui aurait été rendu avec les données, les recettes et tout le reste.
Qu'est-ce que le data wrangling ?
Get Unlimited Answers To Exam Questions - Install Crowdly Extension Now!