Rimodellamento dei dati in Stata
Spesso durante l’importazione dei dati, i dati saranno in formato ampio. L’ampio formato è quando ogni persona occupa una riga con tutte le sue osservazioni che si diffondono nella pagina. Tuttavia, il modo in cui Stata esegue ANOVA a misura ripetuta richiede che i dati siano in formato lungo. Il formato lungo è quando ogni osservazione di ogni persona è la sua linea. Mentre questo è immensamente noioso da passare a mano, il comando reshape
rende il passaggio tra formato largo e lungo quasi senza sforzo. Meglio di tutti, è completamente reversibile.
L’utilizzo del comando reshape richiede alcune cose dei tuoi dati. Il primo di questi è che ogni persona ha un identificatore univoco, come un numero ID. Se i tuoi dati non contengono attualmente un tale identificatore, puoi aggiungerne uno arbitrario poiché è lì solo per Stata per sapere quali punti dati vanno con quale individuo. Il modo più semplice per farlo è digitare generate id= _n
nella finestra di comando. _n
è il modo di Stata di riferirsi ai numeri di riga e quindi questo comando genererà una nuova variabile numerica che identifica il primo caso nel set di dati come 1 e quindi numera quelli che seguono in sequenza. Assicurati di inserire uno spazio tra =
e _n
o il comando non funzionerà. Inoltre, mentre questo comando funzionerà se i tuoi dati sono in formato ampio, non funzionerà se i tuoi dati sono in formato lungo; in questo caso dovrai inserire manualmente l’identificatore in modo che i dati siano raggruppati correttamente.
L’unica altra cosa di cui essere a conoscenza quando si passa da un formato di dati lungo a quello largo è che più osservazioni devono avere uno schema di denominazione simile. Ad esempio, se ho tre osservazioni sulla felicità vorrei che avessero nomi come hap1, hap2 e hap3. Questo schema di denominazione dice a Stata che sono osservazioni diverse della stessa variabile. Se le tue variabili fossero, ad esempio, hap1, happy2 e hap3, dovresti rename happy2 hap2
e quindi procedere.
Il comando di base reshape
è seguito da quale direzione long
o wide
si desidera rimodellare i dati. Poi arriva le variabili che vengono rimodellate. La prossima è la prima parte dell’argomento i()
seguita dalla dimensione che stai rimodellando su j( reshape (il manuale ufficiale di gestione dei dati di Stata) e coinvolge più livelli di variabili di ordinamento. Clicca qui per scaricare queste righe di dati con cui giocare. Di seguito, sono i dati visualizzati nel formato più lungo possibile (verrà scaricato in questo formato).
Di seguito sono riportati gli stessi dati nel formato più ampio possibile:
La seguente tabella spiega come passare da questi vari formati, dando sia una buona idea di funzionalità complete di reshape e come usarli. Nota nei casi di passaggio da long-long a wide-wide, sono necessari più comandi reshape
.
Questo esempio introduce anche due nuove opzioni del comando reshape
. Il primo di questi, @
indica a Stata dove interrompere la lettura del nome di una variabile. Quindi, se la variabile è stato nominato inc80, e volevo che la variabile inc quando passò formati, vorrei specificare reshape inc@
mettendo il segno ” @ ” prima di inc, Stata sa fare inc per i maschi minc e inc per le femmine finc, usando il sesso variabile, come specificato in j, f e m. Se questo non ha senso, giocare con esso per un paio di minuti.
L’altra opzione utile è string
che indica a Stata che la variabile specificata in j()
è una variabile stringa.
Infine, si noti che reshape
è in qualche modo reversibile. In particolare, puoi tornare indietro di un’iterazione. Ad esempio, se si digita reshape long
dopo aver rimodellato i dati in modo che siano ampi, Stata ripristinerà i dati.
Torna a Tutorial
Torna a ripetuto-Misure ANOVA