Reed College

przekształcanie danych w Stata

często podczas importowania danych Dane będą w szerokim formacie. Szeroki format polega na tym, że każda osoba zajmuje jedną linię, a wszystkie jej obserwacje rozprzestrzeniają się po stronie. Jednak sposób, w jaki Stata uruchamia powtarzane pomiary anovas, wymaga, aby dane były w długim formacie. Długi format jest wtedy, gdy każda obserwacja każdej osoby jest własną linią. Chociaż ręczne przełączanie jest niezmiernie uciążliwe, polecenie reshape sprawia, że przełączanie między szerokim i długim formatem jest prawie łatwe. Najlepsze jest to, że jest całkowicie odwracalny.

użycie polecenia Zmień kształt wymaga kilku rzeczy z danych. Pierwszą z nich jest to, że każda osoba ma unikalny identyfikator, taki jak numer identyfikacyjny. Jeśli Twoje dane nie zawierają obecnie takiego identyfikatora, możesz dodać dowolny, ponieważ tylko tam Stata wie, które punkty danych pasują do danej osoby. Najprostszym sposobem jest wpisanie generate id= _n w oknie poleceń. _n jest sposobem stata na odwoływanie się do numerów linii, więc to polecenie wygeneruje nową zmienną numeryczną, która identyfikuje pierwszy przypadek w Twoim zbiorze danych jako 1, a następnie numeruje te, które następują kolejno. Upewnij się, że umieściłeś spację między = a _n lub polecenie nie będzie działać. Dodatkowo, podczas gdy to polecenie będzie działać, jeśli Twoje dane są w szerokim formacie, nie będzie działać, jeśli Twoje dane są w długim formacie; w tym przypadku będziesz musiał ręcznie wprowadzić identyfikator, aby dane były prawidłowo zgrupowane.

jedyną inną rzeczą, o której należy pamiętać przy przełączaniu z długiego na szeroki format danych, jest to, że wiele obserwacji musi mieć podobny schemat nazewnictwa. Na przykład, jeśli mam trzy obserwacje szczęścia, chciałbym, aby miały one nazwy takie jak hap1, hap2 i hap3. Ten schemat nazewnictwa mówi Stata, że są to różne obserwacje tej samej zmiennej. Jeśli Twoje zmienne były, na przykład, hap1, happy2 i hap3, można rename happy2 hap2 i następnie kontynuować.

po podstawowym poleceniu reshape następuje kierunek long lub wide, w którym chcesz zmienić kształt danych. Następnie zmienne są przekształcane. Następnie znajduje się pierwsza część argumentu i(), a następnie wymiar, który zmieniasz na j( reshape (oficjalny podręcznik zarządzania danymi Stata) i obejmuje wiele poziomów zmiennych sortujących. Kliknij tutaj, aby pobrać te linie danych do zabawy. Poniżej znajdują się Dane wyświetlane w najdłuższym możliwym formacie (zostaną pobrane w tym formacie).

Poniżej te same dane w najszerszym możliwym formacie:

Poniższy wykres wyjaśnia, jak przełączać się między tymi różnymi formatami, dając zarówno dobre wyobrażenie o pełnych możliwościach zmiany kształtu, jak i o tym, jak z nich korzystać. Uwaga w przypadku przechodzenia od long-long do wide-wide, konieczne jest wykonanie wielu poleceń reshape.

ten przykład wprowadza również dwie nowe opcje polecenia reshape. Pierwszy z nich, @ mówi Stata, gdzie przestać czytać nazwę zmiennej. Jeśli więc zmienna miała nazwę inc80 i chciałem, aby zmienna była inc po zmianie formatów, określiłbym reshape inc@ , umieszczając znak @ przed inc, Stata wie, aby Inc dla mężczyzn minc I inc dla kobiet finc, używając zmiennej płci określonej w j, f I m. jeśli to nie ma sensu, pobaw się nią przez kilka minut.

inną użyteczną opcją jest string, która mówi Stata, że zmienna określona w j() jest zmienną łańcuchową.

wreszcie zauważ, że reshape jest nieco odwracalny. W szczególności możesz cofnąć się o jedną iterację. Na przykład, jeśli wpiszesz reshape long po przekształceniu danych na szerokie, stata przywróci dane.

wróć do tutoriali
wróć do powtórzeń-miary ANOVA

You might also like

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.