Reed College

Rimodellamento dei dati in Stata

Spesso durante l’importazione dei dati, i dati saranno in formato ampio. L’ampio formato è quando ogni persona occupa una riga con tutte le sue osservazioni che si diffondono nella pagina. Tuttavia, il modo in cui Stata esegue ANOVA a misura ripetuta richiede che i dati siano in formato lungo. Il formato lungo è quando ogni osservazione di ogni persona è la sua linea. Mentre questo è immensamente noioso da passare a mano, il comando reshape rende il passaggio tra formato largo e lungo quasi senza sforzo. Meglio di tutti, è completamente reversibile.

L’utilizzo del comando reshape richiede alcune cose dei tuoi dati. Il primo di questi è che ogni persona ha un identificatore univoco, come un numero ID. Se i tuoi dati non contengono attualmente un tale identificatore, puoi aggiungerne uno arbitrario poiché è lì solo per Stata per sapere quali punti dati vanno con quale individuo. Il modo più semplice per farlo è digitare generate id= _n nella finestra di comando. _n è il modo di Stata di riferirsi ai numeri di riga e quindi questo comando genererà una nuova variabile numerica che identifica il primo caso nel set di dati come 1 e quindi numera quelli che seguono in sequenza. Assicurati di inserire uno spazio tra = e _n o il comando non funzionerà. Inoltre, mentre questo comando funzionerà se i tuoi dati sono in formato ampio, non funzionerà se i tuoi dati sono in formato lungo; in questo caso dovrai inserire manualmente l’identificatore in modo che i dati siano raggruppati correttamente.

L’unica altra cosa di cui essere a conoscenza quando si passa da un formato di dati lungo a quello largo è che più osservazioni devono avere uno schema di denominazione simile. Ad esempio, se ho tre osservazioni sulla felicità vorrei che avessero nomi come hap1, hap2 e hap3. Questo schema di denominazione dice a Stata che sono osservazioni diverse della stessa variabile. Se le tue variabili fossero, ad esempio, hap1, happy2 e hap3, dovresti rename happy2 hap2 e quindi procedere.

Il comando di base reshape è seguito da quale direzione long o wide si desidera rimodellare i dati. Poi arriva le variabili che vengono rimodellate. La prossima è la prima parte dell’argomento i() seguita dalla dimensione che stai rimodellando su j( reshape (il manuale ufficiale di gestione dei dati di Stata) e coinvolge più livelli di variabili di ordinamento. Clicca qui per scaricare queste righe di dati con cui giocare. Di seguito, sono i dati visualizzati nel formato più lungo possibile (verrà scaricato in questo formato).

Di seguito sono riportati gli stessi dati nel formato più ampio possibile:

La seguente tabella spiega come passare da questi vari formati, dando sia una buona idea di funzionalità complete di reshape e come usarli. Nota nei casi di passaggio da long-long a wide-wide, sono necessari più comandi reshape.

Questo esempio introduce anche due nuove opzioni del comando reshape. Il primo di questi, @ indica a Stata dove interrompere la lettura del nome di una variabile. Quindi, se la variabile è stato nominato inc80, e volevo che la variabile inc quando passò formati, vorrei specificare reshape inc@ mettendo il segno ” @ ” prima di inc, Stata sa fare inc per i maschi minc e inc per le femmine finc, usando il sesso variabile, come specificato in j, f e m. Se questo non ha senso, giocare con esso per un paio di minuti.

L’altra opzione utile è string che indica a Stata che la variabile specificata in j() è una variabile stringa.

Infine, si noti che reshape è in qualche modo reversibile. In particolare, puoi tornare indietro di un’iterazione. Ad esempio, se si digita reshape long dopo aver rimodellato i dati in modo che siano ampi, Stata ripristinerà i dati.

Torna a Tutorial
Torna a ripetuto-Misure ANOVA

You might also like

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.