Seite 1 von 1

Variablen mit unterschiedlichem t in Paneldaten

BeitragVerfasst: Mi 10. Nov 2021, 14:44
von Surande8791
Hallo Leute,

ich arbeite momentan mit einem Paneldatensatz, bei dem ich Variablen verwende, die teilweise zu unterschiedlichen Zeitpunkten, des auf 5 Jahre angelegten Panels, erhoben wurden. Also sprich, ich habe bswp. die Variable "Wechsel des Bundeslandes" für die Wellen 3, 4 und 5 und dann wiederum Variablen, die Daten zu vier oder zu allen 5 Wellen beinhalten wie beispielsweise Familienstatus oder berufliches Netzwerk. Ich habe einmal eine Frage zu dem eben genannten Problem, sowie 2 weitere Fragen, die sich auf den Regressionsoutput beziehen sowie zum jeweiligen Verfahren (Fixed-Effects, Random-Effects).

Frage 1) lautet nun, ob es sinnvoll ist, in einem Regressionsmodell Variablen mit unterschiedlichem "t" in einem Modell zu testen?
Frage 2) Ich bin mir gerade unsicher, was bei der Panelregression mit Stata die Angaben "Number of groups" und "Number of observations" genau aussagen? Ich nehme mal an, "Number of observations" sind die gesamten Beobachtungsfälle über den untersuchten Zeitraum. Aber was sind dann die "Number of groups" ?
Frage 3) wenn ich ein Fixed-Effects-Modell rechne, erhalte ich deutlich weniger Fälle (d.h. Number of groups, number of observations) als ich bei der Durchführung eines Random-Effects-Modell erhalte. Um genau zu sein, etwa halb so viele. Auch das leuchtet mir gerade überhaupt nicht ein.

Hat jemand vielleicht ein paar Ideen hierzu? Das würde mir sehr helfen.

Viele Grüße

Re: Variablen mit unterschiedlichem t in Paneldaten

BeitragVerfasst: Mi 10. Nov 2021, 16:33
von Staxa
Effektiv werden am Ende nur die Fälle in dein Modell eingehen, die keine Missings auf den jeweiligen Vars haben. Als Beispiel: Hast du Var1 in t1-t5 gemessen, Var2 aber nur t3-t8, so werden effektiv nur die Zeitpunkte t3-t5 genutzt. Um das Problem abzumildern kann man (annähernd) zeitkonstante Vars manuell ergänzen, also etwa Geschlecht, Geburtsjahr oder dergleichen.

Number of groups ist dann die Anzahl der Personen. Also 500 Personen mit jeweils 10 Zeitpunkten macht 5000 Observations.

Ein FE Modell kann immer nur alle Fälle nutzen, bei denen sich die relevanten Vars auch ändert, da nur die intra-individuelle Variation genutzt wird. Geht es dir also beispielsweise um den Effekt von Arbeitslosigkeit auf die Zufriedenheit, so werden automatisch bei FE alle Personen aussortiert, die immer arbeitslos sind oder immer in Arbeit. Einbehalten werden nur die Fälle, bei denen sich der Status ändert. Zeitkonstante Vars können nicht benutzt werden. Ich nehme an, das ist hier der Fall.

Re: Variablen mit unterschiedlichem t in Paneldaten

BeitragVerfasst: Mi 10. Nov 2021, 18:27
von Surande8791
Vielen Dank für deine Antwort. Ich glaube, nachdem was du hier geschrieben hast, verstehe ich das Ganze nun deutlich besser. Mir fällt es momentan nämlich noch etwas schwer mit Paneldaten zu arbeiten, da ich selbst im Studium nicht sehr häufig damit konfrontiert wurde, bzw. i.d.R. andere statistische Verfahren verwendet habe.

Eine Frage habe ich nun aber doch noch, bezogen auf einen Teil deiner Antwort. Du schreibst einmal

"Um das Problem abzumildern kann man (annähernd) zeitkonstante Vars manuell ergänzen, also etwa Geschlecht, Geburtsjahr oder dergleichen."

Das liefe ja dann aber darauf hinaus, ein RE-Modell zu testen, da ich in einem FE-Modell ja keine zeitkonstanten Variablen untersuchen kann. Hierbei wären ja dann aber all die Probleme zu beachten, die so ein RE-Modell mit sich bringt (allen voran verzerrte Schätzer etc.).

Beste Grüße

Re: Variablen mit unterschiedlichem t in Paneldaten

BeitragVerfasst: Mi 10. Nov 2021, 19:05
von Staxa
Genau, Effekte zeitkonstanter Vars kann man mit FE grundsätzlich nicht testen. Allerdings ist das ein weites Feld und es gibt hier sehr viele Erweiterungen, z.B. Hybdridmodelle. Aber da musst du in die Literatur schauen und was du genau nutzen kannst hängt auch sehr von der Fragestellung ab.