Paneldaten

Allgemeine Fragen rund um Statistik mit Stata.

Paneldaten

Beitragvon uiolo » Mi 18. Sep 2019, 10:29

Hi Leute,

für meine Masterarbeit verwende ich einen Paneldatensatz. Da dieser leider keine Zeitvariable hatte, habe ich den Datensatz von wide in long transformiert. Nun hat sich natürlich die Fallzahl deutlich vergrößert, von ca. 3000 auf ca. 30000. Nun die erste Frage: Ist dies ein Problem für anschließende Regressionsanalysen? Bzw. muss ich dann die Fallzahl wieder verringern?

Daneben ist dann ja so, dass sich Variablen sozusagen verschmelzen, also zu einer Variable werden. Beispiel: Im wide-Format hatte ich z.B. die Variablen Immigration1, Immigration2, Immigration 3 usw. Dies war eine Variable, die Einstellungen zu Immigration abfragt und die Zahlen hinter Immigration zeigen die Wellen an, in welche diese abgefragt wurden. Sprich Immigration1 wurde in Welle 1 abgefragt, Immigration2 in Welle 2 usw. Nun ist das eben eine Variable, Immigration. Auch hier die Frage: Wenn ich diese als unabhängige Variable in die Regression aufnehme, ist dies ein Problem? Oder genau das richtige für eine Panelregression?

Nächste Frage: Meine abhängige Variable ist das Wahlverhalten bzw. die beabsichtigte Stimmabgabe. Auch diese wurde analog zu Immigration in jeder Welle abgefragt, also Wahl1, Wahl2, Wahl3 etc. Wenn ich dann eben eine Panelregression mache, macht es Sinn, diese Variable analog zur Immigrationsvariable in einer Variable zusammenzufassen oder sollte ich die letzte Variable, also Wahl7 (es gibt 7 Wellen im Datensatz) als abhängige Variable benutzen? Was macht da Sinn?

Dann letzte Frage: Problematisch wird es dann aber auch, wenn ich nach xtset id time z.B. xtlogit var1 var2 etc. mache. Oftmals werden dann Variablen omitted. Kennt da jemand einen Trick? -->was ich jetzt gemacht habe: eine ganz normale logistische Regression, also logit, und dann eben in der Regression noch die Variable time integriert. Geht das so auch? Oder muss ich xtset und dann xtlogit machen?

(Sorry für die vielen Fragen, wenn diese mir nicht alle auf einmal beantwortet werden ist das okay.)
uiolo
 
Beiträge: 18
Registriert: Di 6. Mär 2018, 10:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Paneldaten

Beitragvon Staxa » Mi 18. Sep 2019, 11:17

Grundsätzlich musst du mit diesen Daten die Panelstruktur nutzen, ausser, du willst daraus eine Querschnittsanalyse machen, also z.B. nur die erste Welle benutzen, aber das scheint ja nicht der Fall zu sein. Wenn keine PanelID existiert generiere sie selber:


Code: Alles auswählen
bysort ID: gen panelid = _n
xtset ID panelid
xtlogit...



Dazu müssen die Daten im Long Format sein. Anders geht es nicht, was du versucht hast wird dir deine Ergebnisse massiv verzerren, eben, wie du ja siehst, die Fallzahl völlig inflationär ist.

Oder, wenn die Daten zu Beginn in Wide vorliegen kannst du das direkt mit dem reshape machen:

Code: Alles auswählen
reshape long VARLIST, i(ID) j(panelid)

Hierbei wird die panelid direkt durch reshape generiert.
Wobei varlist alle zeitveränderlichen Variablen umfasst.
Stata für Anfänger: www.statabook.com
Staxa
 
Beiträge: 679
Registriert: Di 27. Feb 2018, 12:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Paneldaten

Beitragvon uiolo » Mi 18. Sep 2019, 11:33

Danke für die Antwort. Das Problem bleibt aber ja auch bei dem bestehen, was du mir gezeigt hast. Sprich, die Fallzahlen sind weiterhin sehr hoch.

Grundsätzlich musst du mit diesen Daten die Panelstruktur nutzen, ausser, du willst daraus eine Querschnittsanalyse machen, also z.B. nur die erste Welle benutzen
-->Ich habe mir eben auch schon überlegt, sozusagen Querschnittsanalysen für alle Wellen zu machen und dann graphisch den Effekt über die Zeit mit margins zu zeigen. Sprich ich mache für jede Welle eine einzelne Analyse, wiederum dann immer margins und schlussendlich zeige ich dann alle margins zusammen anhand mrginsplot. Würde das auch gehen (auch wenn das eben dann keine Panelanalyse ist)?
uiolo
 
Beiträge: 18
Registriert: Di 6. Mär 2018, 10:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Paneldaten

Beitragvon Staxa » Mi 18. Sep 2019, 12:02

Nach dem Reshapen von wide nach long ist es völlig normal, dass die Fallzahl steigt, muss sie ja, die Informationen aus Variablen werden jetzt in Zeilen (Fälle) gepackt. Solange du anschließend das xt Framework benutzt macht das gar nichts, weil Stata für die Inflation korrigiert. Deinen zweiten Ansatz finde ich nicht gut, viel komplexer. Macht es mit xtreg oder eben deinem Modell, das ist deutlich eleganter und statistisch korrekt.
Stata für Anfänger: www.statabook.com
Staxa
 
Beiträge: 679
Registriert: Di 27. Feb 2018, 12:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Paneldaten

Beitragvon uiolo » Mi 18. Sep 2019, 12:16

Ok danke.

Das Problem bei mir mit xtset und xtlogit ist eben einfach, dass sehr oft statistische Probleme vorliegen (z.B. Kollinearität), wodurch einige Variablen omitted werden und ich aus meiner Sicht nichts mehr aussagen kann bzw. sehr wenig Aussagekraft besteht. Deswegen würde ich eben den zweiten Ansatz mit den Querschnittsanalysen machen. Wäre dies denn einigermaßen in Ordnung?

Ganz doofe Frage: Wenn ich jetzt den Datensatz im long-Format habe und dann anstatt xtlogit einfach nur logit mache, geht das auch?
uiolo
 
Beiträge: 18
Registriert: Di 6. Mär 2018, 10:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Paneldaten

Beitragvon Staxa » Mi 18. Sep 2019, 12:22

Warum lässt du Kollineare Variablen dann nicht direkt im xt Modell weg? Hier sollte man sehr genau prüfen, woran das liegt, dass diese Variablen so sind. Manchmal sind es Fehler oder komische Variablen, da muss man am besten die Werte bzw. Mittelwerte getrennt für jedes Jahr checken.
Stata für Anfänger: www.statabook.com
Staxa
 
Beiträge: 679
Registriert: Di 27. Feb 2018, 12:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Paneldaten

Beitragvon uiolo » Mi 18. Sep 2019, 12:26

Die kollinearen Variablen sind manchmal meine erklärenden Variablen. Die kann ich ja schlecht rausnehmen.

Daher die Frage: Wenn ich den Datensatz in das Long-Format transformiere und dann eben nur logit mache, geht das auch?
Ebenso möchte ich auch multinomiale logistische Regressionsanalysen machen mit femlogit. Hier aber kommt immer die Fehlermeldung, "that the outcome does not vary between the groups". Auch das geht anscheinend nicht. Daher eben die Frage, ob es nicht auch normal mit logit und mlogit möglich ist, die Analysen durchzuführen.
uiolo
 
Beiträge: 18
Registriert: Di 6. Mär 2018, 10:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Paneldaten

Beitragvon Staxa » Mi 18. Sep 2019, 12:57

Nein, wenn die Daten im Long sind kannst du nicht einfach Logit machen, dann sind die Ergebnisse verzerrt. Du solltest dir einfach am Anfang überlegen, was deine Fragestellung ist und welches Modell angemessen ist, diese zu beantworten. Zu femlogit kann ich dir leider gar nichts sagen, das Kommando kenne ich nicht.
Stata für Anfänger: www.statabook.com
Staxa
 
Beiträge: 679
Registriert: Di 27. Feb 2018, 12:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron