Remodeler vos données dans Stata
Souvent, lors de l’importation de données, vos données seront en grand format. Le format large est lorsque chaque personne prend une ligne avec toutes ses observations réparties sur la page. Cependant, la façon dont Stata exécute des ANOVAs à mesure répétée nécessite que les données soient au format long. Le format long est lorsque chaque observation de chaque personne est sa propre ligne. Bien que cela soit extrêmement fastidieux de passer à la main, la commande reshape
permet de basculer entre le format large et le format long presque sans effort. Le meilleur de tous, c’est complètement réversible.
L’utilisation de la commande reshape nécessite quelques éléments de vos données. Le premier d’entre eux est que chaque personne a un identifiant unique, comme un numéro d’identification. Si vos données ne contiennent pas actuellement un tel identifiant, vous pouvez en ajouter un arbitraire car il n’y a que Stata pour savoir quels points de données vont avec quelle personne. La façon la plus simple de le faire est de taper generate id= _n
dans la fenêtre de commande. _n
est la façon dont Stata se réfère aux numéros de ligne et cette commande générera donc une nouvelle variable numérique qui identifie le premier cas de votre ensemble de données comme 1, puis numérote ceux qui suivent séquentiellement. Assurez-vous de placer un espace entre =
et _n
, sinon la commande ne fonctionnera pas. De plus, bien que cette commande fonctionne si vos données sont au format large, elle ne fonctionnera pas si vos données sont au format long; dans ce cas, vous devrez entrer l’identifiant manuellement pour que les données soient regroupées correctement.
La seule autre chose à savoir lors du passage d’un format de données long à large est que plusieurs observations doivent avoir un schéma de dénomination similaire. Par exemple, si j’ai trois observations de bonheur, je voudrais qu’elles portent des noms comme hap1, hap2 et hap3. Ce schéma de nommage indique à Stata qu’il s’agit d’observations différentes de la même variable. Si vos variables étaient, par exemple, hap1, happy2 et hap3, vous rename happy2 hap2
puis continuez.
La commande de base reshape
est suivie de la direction long
ou wide
dans laquelle vous souhaitez remodeler les données. Vient ensuite le remodelage des variables. Vient ensuite la première partie de l’argument i()
suivie de la dimension que vous remodelez sur j (remodeler (le manuel officiel de gestion des données Stata) et implique plusieurs niveaux de variables de tri. Cliquez ici pour télécharger ces lignes de données pour jouer avec. Ci-dessous, les données sont affichées dans le format le plus long possible (elles seront téléchargées dans ce format).
Voici les mêmes données dans le format le plus large possible:
Le tableau suivant explique comment basculer entre ces différents formats, donnant à la fois une bonne idée de toutes les capacités de reshape et de la façon de les utiliser. Remarque en cas de passage de long-long à large-large, plusieurs commandes reshape
sont nécessaires.
Cet exemple introduit également deux nouvelles options de la commande reshape
. Le premier d’entre eux, le @
indique à Stata où arrêter de lire le nom d’une variable. Donc, si la variable était nommée inc80, et que je voulais que la variable soit inc lorsqu’elle changeait de format, je spécifierais reshape inc@
En mettant le signe @ avant inc, Stata sait faire inc pour les mâles minc et inc pour les femelles finc, en utilisant la variable de sexe comme spécifié dans j, le f et le m. Si cela n’a pas de sens, jouez avec pendant quelques minutes.
L’autre option utile est string
qui indique à Stata que la variable spécifiée dans j()
est une variable de chaîne.
Enfin, notez que reshape
est quelque peu réversible. Plus précisément, vous pouvez revenir en arrière d’une itération. Par exemple, si vous tapez reshape long
après avoir remodelé les données pour qu’elles soient larges, Stata rétablira les données.
Retour aux tutoriels
Retour aux Mesures répétées ANOVA