Reed College

omforme dine Data i Stata

ofte når du importerer data, vil dine data være i bredt format. Bredt format er, når hver person tager en linje med alle deres observationer spredt over siden. Den måde, Stata kører gentagne anovas på, kræver dog, at dataene er i langt format. Langt format er, når hver observation af hver person er sin egen linje. Selvom dette er utroligt kedeligt at skifte for hånd, gør kommandoen reshape skift mellem bredt og langt format næsten ubesværet. Bedst af alt, det er helt reversibelt.

brug af kommandoen reshape kræver et par ting af dine data. Den første af disse er, at hver person har en unik identifikator, som et ID-nummer. Hvis dine data i øjeblikket ikke indeholder en sådan identifikator, kan du tilføje en vilkårlig, da det kun er der for Stata at vide, hvilke datapunkter der følger med hvilken person. Den nemmeste måde at gøre dette på er at skrive generate id= _n i kommandovinduet. _n er statas måde at henvise til linjenumrene på, så denne kommando genererer en ny numerisk variabel, der identificerer det første tilfælde i dit datasæt som 1 og derefter nummererer dem, der følger sekventielt. Sørg for at placere et mellemrum mellem = og _n, ellers fungerer kommandoen ikke. Selvom denne kommando fungerer, hvis dine data er i bredt format, fungerer den ikke, hvis dine data er i langt format; i dette tilfælde skal du indtaste identifikatoren manuelt, så data grupperes korrekt.

den eneste anden ting at være opmærksom på, når man skifter fra et langt til bredt dataformat, er, at flere observationer skal have et lignende navngivningsskema. For eksempel, hvis jeg har tre lykkeobservationer, vil jeg have dem til at have navne som hap1, hap2 og hap3. Dette navneskema fortæller Stata, at de er forskellige observationer af den samme variabel. Hvis dine variabler var for eksempel hap1, happy2 og hap3, ville du rename happy2 hap2 og derefter fortsætte.

den grundlæggende kommando reshape efterfølges af hvilken retning long eller wide du vil omforme dataene. Derefter kommer variablerne, der omformes. Næste er den første del af argumentet i()efterfulgt af den dimension, du omformer på j( omforme (den officielle stata Data Management manual) og involverer flere niveauer af sorteringsvariabler. Klik her for at hente disse linjer af data til at spille med. Nedenfor er de data, der vises i den længst mulige format (det vil hente i dette format).

nedenfor er de samme data i det bredest mulige format:

følgende diagram forklarer, hvordan man skifter mellem disse forskellige formater, hvilket giver både en god ide om omformes fulde muligheder og hvordan man bruger dem. Bemærk i tilfælde af at gå fra lang lang til bred bred, er flere reshape kommandoer nødvendige.

dette eksempel introducerer også to nye muligheder for kommandoen reshape. Den første af disse, @ fortæller Stata, hvor man skal stoppe med at læse navnet på en variabel. Så hvis variablen blev navngivet inc80, og jeg ønskede, at variablen skulle være inc, da den skiftede formater, ville jeg angive reshape inc@ ved at sætte @ – tegnet før inc, Stata ved at lave inc for mænd minc og inc for kvinder finc, ved hjælp af kønvariablen som angivet i j, f og m. Hvis dette ikke giver mening, skal du lege med det i et par minutter.

den anden nyttige mulighed er string, som fortæller Stata, at variablen angivet i j() er en strengvariabel.

endelig bemærk, at reshape er noget reversibel. Specifikt kan du flytte tilbage en iteration. Hvis du f.eks. skriver reshape long, efter at du har omformet dataene til at være brede, vil Stata gendanne dataene.

tilbage til Tutorials
tilbage til gentagen-måler ANOVA

You might also like

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.