Datensatzorganisation

Allgemeine Fragen rund um Statistik mit Stata.

Datensatzorganisation

Beitragvon qpals » Di 22. Mai 2012, 22:04

Hallo liebe Forengemeinde,

ich arbeite gerade das erste mal selbstständig Stata und stehe direkt am Anfang vor einem Problem:

Ich möchte einen Vergleich diverser Variablen über verschiedene Länder und verschiedene Jahre vornehmen. Diese Variablen können sich von Land zu Land und Jahr zu Jahr ändern. Dabei soll u.a.eine multivariate Regressionsanalyse erfolgen. Wie organisiere ich dafür am besten meinen Datensatz?

Dabei fallen mir vier Möglichkeiten ein:
1) jeder Fall entspricht einem Land. Jede Variable müsste dann für jedes Jahr als eigene Variable eingegeben werden. Sehr aufwendig in der Dateneingabe und unhandlich für die Auswertung.
2) jeder Fall entspricht einer Jahreszahl. Jede Variable müsste dann für jedes Land als eigene Variable eingegeben werden. Sehr aufwendig in der Dateneingabe und unhandlich für die Auswertung.
3) jeder Fall entspricht einer Kombination aus Land und Jahreszahl (i.e. 20 Länder über 30 Jahre --> 600 Fälle). M.E. die beste Lösung. Die unterschiedlichen Länder sind damit jedoch nicht mehr als einzelner Fall voneinander zu unterscheiden. Verfälscht mir das die Ergebnisse der Regressionen?
4) jeder Fall entspricht einer Kombination aus Land und Jahreszahl, die Jahre werden zuvor klassifiziert (i.e. 20 Länder über 3 Jahrzehnte --> 60 Fälle). Das gleiche Problem wie Nr. 3 und kein augenscheinlicher Vorteil. Vielleicht übersehen ich aber etwas? Einen theoretischen Grund für die Klassifizierung gibt es eigentlich nicht, wäre also höchstens eine Notlösung, wenn es die Durchführbarkeit erheblich erhöht.

Für jede der Möglichkeiten sehe ich eine Reihe von Problemen. Am sinnvollsten erscheint mir jedoch die dritte Möglichkeit, da ich glaube, dass hier der Informationsverlust für die Regression am geringsten ausfällt. Da ich mich mit der Entscheidung aber schon sehr festlege und sie nicht einfach wieder verändern kann, wäre ich für Vorschläge und Meinungen sehr dankbar!

Viele Dank schonmal vorab!
qpals
 
Beiträge: 4
Registriert: Di 22. Mai 2012, 21:38
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Datensatzorganisation

Beitragvon daniel » Di 22. Mai 2012, 23:33

Vielleicht beginnst Du mal damit, Deine konkrete Forschungsfrage zu formulieren. Daran anschließend kannst Du uns vielleicht einen kurzen Einblick in die theoretischen Grundlagen geben, um dann Deine empirisch zu testenden Hypothesen exakt zu formulieren. Auf einer solchen Grundlage scheint es mir eventuell möglich, eine geeigente Analysestrategie zu erarbeiten. Ich sehe hier noch nicht, wo da warum eine multivariate (oder meinst Du: multiple) Regressionsanalyse geschätzt werden soll. Wie Du Deine Daten organisierst ist keine Frage des Geschmacks, sondern in erster Line der Anforderungen der Software (in diesem Fall Stata), um die von Dir gewünschten Analysen durchführen zu können.

Mich würde ebenfalls interesieren, in welcher Art die Daten denn vorliegen, da Du hier wiederholt von "Dateneingabe" schreibst. Ich vermute (oder hoffe zumindest), es gibt einen besseren Weg die Daten in Stata zu bekommen (und von dort aus die gewünschte Form zu erstellen), als die Eingabe "von Hand".
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Datensatzorganisation

Beitragvon qpals » Mi 23. Mai 2012, 00:34

Lieber Daniel,

danke für Deine Antwort. In der Tat meinte ich eine multiple Regression - gut, dass Dir mein Fehler aufgefallen ist, das hätte sicherlich zu großer Verwirrung bei mir geführt.
Ich bin gerade erst in der Planungsphase, sodass Anpassungen noch möglich sind.

Forschungsfrage: Welche Faktoren begünstigen oder beeinträchtigen den Niedergang populistischer Parteien in etablierten Demokratien? (Es wird dabei kein allgemeiner Niedergangstrend unterstellt!)
Betrachtet werden 25 Staaten von 1965 bis 2005.
Die abhängige Variable liegt nominalskaliert vor: a) kein Niedergang (der Regelfall), b) eine Partei nicht wiedergewählt, c) eine Partei zersplittert in Kleinparteien und d) eine Partei fusioniert zu einer nicht-populistischen Partei. Das gleichzeitige Verschwinden mehrer Parteien im gleichen Jahr und Land kommt nicht vor.
Wenn ein höheres Skalenniveau erforderlich wird, kann mit "Anzahl der verschwundenen nicht-populistischen Parteien" auch eine Absolutskala erreicht werden, die allerdings effektiv nur dichotom variiert (Fall a oder Fälle b, c, oder d)

Theorien sind zum Entstehen populistischer Parteien sind zahlreich vorhanden, über ihren Niedergang gibt es lediglich viele Fallberichte und zwei komparative Studien, die jedoch schon etwas angestaubt sind. Aus diesen plane ich potentielle Faktoren zu sammeln und zunächst univariat auf ihre Relevanz zu überprüfen. Die Faktoren, die univariat einen Einfluss auszuüben scheinen sollen dann abschließend in einer multiplen (sic! ;-) ) Regression zusammengeführt werden.

einige Beispiele für vermutete Ursachen
Parteiinterne Faktoren
- Organisationsgrad
- Parteiidentifikation im Elektorat
- Führungswechsel

Wertvorstellungen der Gesellschaft
- Zufriedenheit,
- Vertrauen in Politik,
- Heterogenität

Wirtschaftsfaktoren
- BIP
- Arbeitslosigkeit
- Inflationsrate

Sozioökonomische Faktoren
- Bildungsstand
- Einkommen
- ökonomische Ungleichheit
Das sind nur einige Beispiele - ich denke, die Richtung ist klar. Es werden zunächst relativ viele Variablen werden, die dann aber nicht alle mit in die multiple Regression genommen werden können. Zum Aussortieren ist die univariate Analyse und theoretische Erörterung gedacht.

Die meisten der unabhängigen Variablen werden wohl eher graduelle Entwicklungen, als Umbrüche innerhalb der einzelnen Länder aufweisen. Es werden aber auch einige dabei sein, die sich selten, aber abrupt verändern (Terroranschläge, Kriegseintritt, Führungswechsel in einer populistischen Partei...).

Erfassung der Daten:
Nein, per Hand eintippen wäre auch für mich die allerletzte Lösung. Allerdings müssen viele der Daten aus unterschiedlichen Datensätzen zusammengestellt werden. Bei gleicher Ordnung von Quell- und Zieldatensatz sollte dafür ein Kopieren im Editor oder der merge-Befehl helfen. Aber gerade deswegen erscheint es mir recht wichtig, wie ich den Datensatz am besten ordne.

Ist jetzt ein recht langer Beitrag geworden. Hoffe, dass meine Frage aus dem ursprünglichen Beitrag damit ein bisschen greifbarer wird. Bin für Deine / Eure Hilfe sehr dankbar!
qpals
 
Beiträge: 4
Registriert: Di 22. Mai 2012, 21:38
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Datensatzorganisation

Beitragvon daniel » Mi 23. Mai 2012, 01:48

Ja, das ist zumindest etwas klarer, und es werden schon ein paar wichtigere Probleme, als die Datensatzstruktur sichtbar. Diese Probleme müssen vor der Frage nach der Struktur geklärt werden (zu der komme ich aber nochmal zurück, denn die ist mir noch nicht wirklich klar).

Zunächst scheinst Du noch leichte Unsicherheiten bezüglich der verschiedenen Skalenniveaus zu haben.
Die abhängige Variable liegt nominalskaliert vor:[...] Wenn ein höheres Skalenniveau erforderlich wird, kann mit "Anzahl der verschwundenen nicht-populistischen Parteien" auch eine Absolutskala erreicht werden, die allerdings effektiv nur dichotom variiert (Fall a oder Fälle b, c, oder d)

Skalenniveaus lassen sich durch Datenmanipulation nur in eine Richtung verändern -- und zwar in Richtung "weniger Information". Da Du im Originaldatensatz nur nominales Niveau, und damit dasjenige mit dem geringsten Informationsgehalt hast, kannst Du daraus kein metrisches Niveau machen. Du kannst das outcome dichotomisieren, das ändert aber nichts am nominalen Skalenniveau.

Zurück zur Struktur.
a) kein Niedergang (der Regelfall), b) eine Partei nicht wiedergewählt, c) eine Partei zersplittert in Kleinparteien und d) eine Partei fusioniert zu einer nicht-populistischen Partei.

Das verstehe ich nicht. Hast Du für jedes Land den Werdegang mehrere Parteien erfasst? Wenn ja, wie definierst Du denn "Niedergang"? Ist es ein Niedergang, wenn eine Partei einmal nicht mehr gewählt wird, im kommenden Jahr dann aber doch wieder? Oder willst Du dieses "up and down" im Zeitverlauf modelieren?

Bei der Analysestrategie bin ich mir nicht auch nicht sicher, aber schätze, dass Du entweder etwas in Richtung Survival-Analyse mit multiplen Zielzuständen suchst, oder ein multinomiales bzw. binäres Regressionsmodell, das die Panelstruktur der Daten nutzt (FE oder RE Modell).

In welchem Rahmen soll diese Analysen denn gemacht werden (Drittmittelprojekt, Dissertation, Diplom- oder Masterarbeit), und hast Du schon Erfahrungen mit statistischen Auswertungen?
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Datensatzorganisation

Beitragvon qpals » Mi 23. Mai 2012, 09:39

daniel hat geschrieben:Skalenniveaus lassen sich durch Datenmanipulation nur in eine Richtung verändern -- und zwar in Richtung "weniger Information". Da Du im Originaldatensatz nur nominales Niveau, und damit dasjenige mit dem geringsten Informationsgehalt hast, kannst Du daraus kein metrisches Niveau machen. Du kannst das outcome dichotomisieren, das ändert aber nichts am nominalen Skalenniveau.

Das ist mit klar. Das Skalenniveau wird nicht durch die Transformation, sondern durch die Umformulierung der Frage bzw. des Indikators erhöht: Die ursprüngliche Frage "Wie ist eine Partei ausgeschieden?" erzeugt nominale Antworten. Die Frage "Wieviele Parteien sind ausgeschieden?" ist hingegen absolut skaliert. Dass diese zweite Frage sich 1) aus den Antworten der ersten ableiten lässt und 2) quasi-dichotom skaliert ist, liegt daran, dass zufällig in keinem Land mehr als eine betrachtete Partei im selben Jahr verschwindet. Die zweite Variable nimmt daher faktisch nur die Ausprägungen 0 und 1 an, könnte aber theoretisch jeden positive ganzzahligen Wert annehmen.

daniel hat geschrieben:Zurück zur Struktur.
a) kein Niedergang (der Regelfall), b) eine Partei nicht wiedergewählt, c) eine Partei zersplittert in Kleinparteien und d) eine Partei fusioniert zu einer nicht-populistischen Partei.

Das verstehe ich nicht. Hast Du für jedes Land den Werdegang mehrere Parteien erfasst? Wenn ja, wie definierst Du denn "Niedergang"? Ist es ein Niedergang, wenn eine Partei einmal nicht mehr gewählt wird, im kommenden Jahr dann aber doch wieder? Oder willst Du dieses "up and down" im Zeitverlauf modelieren?

Untersuchungseinheiten sind Länder, keine Parteien. Es wird erfasst, welche Faktoren in einem Staat dazu führen, dass eine populistische Partei das Parlament verlässt. Alle ausgewählten Länder haben mindestens eine als populistisch klassifizierte Partei, die mindestens einen Teil der Beobachtungszeit im Parlament verbringt. Ein Niedergang wird als Nicht-Wiedereinzug in ein nationales Parlament erfasst. Das kann an einem der vier Gründe a)-d) liegen. Populistische Parteien sind i.d.R. ein relativ kurzfristiges Phänomen und verkraften es nicht sonderlich gut, wenn sie einmal gewonnene Erfolge (-> Parlamentseinzug) wieder verlieren. Ein späterer Wiedereinzug stellt eine absolute Ausnahme dar, normalerweise löst sich die Partei nach einer Nicht-Wiederwahl auf oder verzeichnet so viele Austritte, dass die Wiederwahl unerreichbar wird.

daniel hat geschrieben:Bei der Analysestrategie bin ich mir nicht auch nicht sicher, aber schätze, dass Du entweder etwas in Richtung Survival-Analyse mit multiplen Zielzuständen suchst, oder ein multinomiales bzw. binäres Regressionsmodell, das die Panelstruktur der Daten nutzt (FE oder RE Modell).

In welchem Rahmen soll diese Analysen denn gemacht werden (Drittmittelprojekt, Dissertation, Diplom- oder Masterarbeit), und hast Du schon Erfahrungen mit statistischen Auswertungen?

Die Arbeit ist eine BA-Arbeit. Ich hatte eigentlich geplant eine multiple Regression zu rechnen.
Theoretische Kenntnisse habe ich aus dem Modul Statistik I (VL+HS+Stata-Kurs). Erfahrung gelegentlich mal kleinere Anwendungen in Hausarbeiten, aber noch nichts im vergleichbaren Ausmaß. Deine Vorschläge zu FE und RE Modell musste ich gerade nachschlagen, beide Verfahren waren mir bisher unbekannt. Das scheint auf den ersten Blick in der Tat zu sein, was ich suche. Kannst Du mir dazu ein gutes Lehrbuch empfehlen? Am besten wäre sogar eines für den statistischen Hintergrund und eins für die Ausführung mittels Stata.
Oder wäre es nach wievor (ggf. unter Hinnahme von Informationsverlust) zulässig jede Kombination aus Land und Jahr als eigenen Fall zu betrachten und eine "normale"(?) Regression anzuwenden? Oder verfälscht mir der systematische Zusammenhang innerhalb der Länder dann die Ergebnisse?
qpals
 
Beiträge: 4
Registriert: Di 22. Mai 2012, 21:38
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Datensatzorganisation

Beitragvon daniel » Mi 23. Mai 2012, 11:01

Das ist mit klar. Das Skalenniveau wird nicht durch die Transformation, sondern durch die Umformulierung der Frage bzw. des Indikators erhöht: Die ursprüngliche Frage "Wie ist eine Partei ausgeschieden?" erzeugt nominale Antworten. Die Frage "Wieviele Parteien sind ausgeschieden?" ist hingegen absolut skaliert. Dass diese zweite Frage sich 1) aus den Antworten der ersten ableiten lässt und 2) quasi-dichotom skaliert ist, liegt daran, dass zufällig in keinem Land mehr als eine betrachtete Partei im selben Jahr verschwindet

Aber welche der Fragen wurde denn bei der Erhebung der Daten gestellt? Du kannst doch nicht rückwirkend das Design der Datenerhebung ändern. Wenn nicht die Anzahl der Parteien erfasst wurde, kannst Du die doch schlecht im Nachhinbein berechnen, es sei denn es wurden Informationen zu allen Parteien erfasst. Ich sehe auch noch nicht, wie genau man von z.B. "eine Partei zersplittert in Kleinparteien" auf die (absolute) Anzahl der verschwundenen Parteien kommt, es sei denn, es gäbe nur eine einzige Parte, die zersplitten kann. Es genügt nicht, die Tatsache, dass in den Daten vielleicht nur eine Partei erfasst wurde, es darf in der empirischen Realität nur eine Partei geben, die zersplitten kann. Aber selbst wenn Du eine Absolutskala hätettst, gäbe es da bei der Schätzung noch Probleme. Ein Jahr in dem Null Parteien zersplitten kann nämlich zwei Dinge bedeuten. Entweder eine existierende Partei hat sich erfolgreich gehalten, oder aber eine ehemals existierende Partei ist bereits zu einem früheren Zeitpunkt zersplittet. Es wäre in diesem Fall geschickter den Anteil der Parteien zu betrachten, statt die absolute Anzahl.

Es wird erfasst, welche Faktoren in einem Staat dazu führen, dass eine populistische Partei das Parlament verlässt.

Können die Parteien denn zu jedem beliebigen Zeitpunkt ausscheiden, oder nur zur jeweils nächsten Wahlperiode? Wie exakt ist das gemessen?

Kannst Du mir dazu ein gutes Lehrbuch empfehlen? Am besten wäre sogar eines für den statistischen Hintergrund und eins für die Ausführung mittels Stata.

Was ich zuerst empfehlen kann, ist ein Treffen und intensives Gespräch mit Deinem/r Betreuer/in. Ich bin nicht sicher, ob Du bei einer derart komplexen Arbeit, wie Du sie vorhast, gut beraten bist, Dich in Foren betreuen zu lassen. Mein Zeitkontingent lässt es die letzen zwei-drei Tage zu, dass ich mich näher mit solchen Problemen befassen kann, aber das ist wohl die Ausnahme. Eine langfristig adäquate Betreuung, die hier nötig ist, muss vor Ort erfolgen.

Als Literatur für (den Einstieg in die) Panelmodellierungen kann ich Dir folgende empfehlen.

Brüderl, Josef (2010) Kausalanalyse mit Paneldaten. Pp. 963-994 in: C. Wolf and H. Best (eds.) Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag.

Verbeek, Marno (2008) A Guide to Modern Econometrics. 3rd edition. Chichester: John Wiley and Sons.

Rabe-Hesketh, Sophia, Skrondal, Anders (2008) Multilevel and Longitudinal Modeling Using Stata .Texas: Stata Press.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Datensatzorganisation

Beitragvon qpals » Mi 23. Mai 2012, 11:14

Lieber Daniel,

vielen Dank für Deinen umfangreichen Input. Natürlich ersetzt ein Forum keine persönliche Betreuung, aber ich kann mich jetzt ein bisschen gezielter auf die nächste Sprechstunde vorbereiten und damit dann auch mehr daraus mitnehmen. Dankeschön!
qpals
 
Beiträge: 4
Registriert: Di 22. Mai 2012, 21:38
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast