Reed College

přetvoření dat ve Stata

často při importu dat budou vaše data v širokém formátu. Široký formát je, když každý člověk zabírá jeden řádek se všemi svými pozorováními šířícími se po stránce. Způsob, jakým Stata provádí opakované měření ANOVAs, však vyžaduje, aby data byla v dlouhém formátu. Dlouhý formát je, když každé pozorování každého člověka je jeho vlastní linie. I když je to nesmírně únavné přepínat ručně, příkaz reshape umožňuje přepínání mezi širokým a dlouhým formátem téměř bez námahy. Nejlepší ze všeho je, že je zcela reverzibilní.

použití příkazu reshape vyžaduje několik věcí z vašich dat. První z nich je, že každá osoba má jedinečný identifikátor, jako je identifikační číslo. Pokud vaše data v současné době takový identifikátor neobsahují, můžete přidat libovolný, protože Stata pouze ví, které datové body jdou s kterým jednotlivcem. Nejjednodušší způsob, jak to udělat, je zadat generate id= _n do příkazového okna. _n je způsob, jak Stata odkazovat na čísla řádků, a tak tento příkaz vygeneruje novou číselnou proměnnou, která identifikuje první případ ve vaší datové sadě jako 1 a poté čísla, která následují postupně. Ujistěte se, že jste vložili mezeru mezi = a _n nebo příkaz nebude fungovat. Navíc, zatímco tento příkaz bude fungovat, pokud jsou vaše data v širokém formátu, nebude fungovat, pokud jsou vaše data v dlouhém formátu; v tomto případě budete muset zadat identifikátor ručně, aby byla data správně seskupena.

jedinou další věcí, kterou je třeba si uvědomit při přechodu z dlouhého na široký datový formát, je to, že více pozorování musí mít podobné schéma pojmenování. Například, pokud mám tři pozorování štěstí, chtěl bych, aby měli jména jako hap1, hap2 a hap3. Toto schéma pojmenování říká statě, že se jedná o různá pozorování stejné proměnné. Pokud by vaše proměnné byly například hap1, happy2 a hap3, měli byste rename happy2 hap2 a pak pokračujte.

následuje základní příkaz reshape, kterým směrem long nebo wide chcete data přetvořit. Pak přichází proměnné, které se přetvářejí. Dále je první část tvrzení, i() následuje dimenze jste přetváří na j( reshape (oficiální Stata Data Management manual) a zahrnuje více úrovní řazení proměnných. Kliknutím sem stáhnete tyto řádky dat, se kterými si můžete hrát. Níže jsou data zobrazena v nejdelším možném formátu (stáhne se v tomto formátu).

Níže jsou stejná data v nejširším možném formátu:

následující graf vysvětluje, jak přepínat mezi těmito různých formátech, přičemž oba dobrý nápad přetvořit je plné schopnosti a jak je používat. Poznámka v případě přechodu z dlouhého na široký je zapotřebí více příkazů reshape.

tento příklad také představuje dvě nové možnosti příkazu reshape. První z nich, @ řekne Stata, kde přestat číst název proměnné. Takže pokud proměnná byl jmenován inc80, a chtěl jsem, aby proměnná inc, když se to přepne formáty, chtěl bych upřesnit, reshape inc@ Tím, že znak @ před inc, Stata ví, aby inc pro muže minc a inc pro ženy, finc, pomocí sexu proměnné, jak je uvedeno v j, f a m. Pokud to nedává smysl, hrát si s ním na pár minut.

další užitečnou volbou je string, která říká Stata, že proměnná uvedená v j() je proměnná řetězce.

nakonec si všimněte, že reshape je poněkud reverzibilní. Konkrétně se můžete vrátit o jednu iteraci. Pokud například zadáte reshape long poté, co jste přetvořili data tak, aby byla široká, Stata vrátí data.

zpět na výukové programy
zpět na opakovaná opatření ANOVA

You might also like

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.