STATA-FORUM.DE

hebbedie · von **hebbedie** » Di 27. Mär 2012, 09:27

Hallo zusammen!

Bin nicht sicher, ob das das richtige Forum ist; falls nicht, tut mir leid!

Und zwar muss ich für ein Termpaper ein Dataset norwegischer Firmen bearbeiten. Mein Problem ist, dass dieses Set extrem groß ist und ich nicht weiß, wie ich das sinnvoll komprimieren kann. Es gibt auch viele Missing Values - hat das irgendeine negative Auswirkung auf die Schätzungen? Hab nämlich gelesen, dass Stata Missing Values ignoriert. Ich will zum Beispiel eine neue Variable "wage" bilden, indem ich die gesamten Lohnausgaben durch die Anzahl der Beschäftigten teile - gibt es da Verzerrungen, wenn die Beobachtungen für Lohnausgaben weitaus geringer sind als die der Anzahl der Beschäftigten? Muss ich die Variablen irgendwie so komprimieren, dass für alle die selbe Beobachtungszahl vorliegt?

Für Hilfe wäre ich sehr dankbar!

daniel · von **daniel** » Di 27. Mär 2012, 10:18

Mein Problem ist, dass dieses Set extrem groß ist und ich nicht weiß, wie ich das sinnvoll komprimieren kann.

Was meinst Du damit. Viele Variablen? Viele Beobachtungen? Zu welchem Zweck willst Du was in welcher Form komprimieren?

Es gibt auch viele Missing Values - hat das irgendeine negative Auswirkung auf die Schätzungen? Hab nämlich gelesen, dass Stata Missing Values ignoriert.

Welche Schätzungen? Fehlende Werte werden von nahezu jeder Statisitksoftware Fallweise ausgeschlossen, weil statisitsche Ananlyseverfahren auf vollständigen Matritzen basieren. Es gibt allerdings Möglichkeiten mit fehlenden Werten anders umzugehen (z.B. multiple Imputation).

Ich will zum Beispiel eine neue Variable "wage" bilden, indem ich die gesamten Lohnausgaben durch die Anzahl der Beschäftigten teile - gibt es da Verzerrungen, wenn die Beobachtungen für Lohnausgaben weitaus geringer sind als die der Anzahl der Beschäftigten?

Was meinst Du mit Verzerrungen? Das ist ja keine Schätzung, sonden eine Berechnung. Für jeden Fall, der einen fehlenden Wert hat, wird das Ergebnis ebenfalls fehlen.

Insgeasmt sind Deine Angaben leider recht unvollständig. Welchen Zweck verfolgst Du mit den Daten, i.e. wie lautet Deine Forschungsfrage? Welche Struktur hat der Datesatz? Was sind die Beobachtungseinheiten? Über welchen Zeitraum wurden diese Einheiten beobachtet? Falls es sich um Längsschnittdaten handelt, liegt der Datensatz im weiten oder langen Format vor? Und: wo genau liegt Dein Problem?

hebbedie · von **hebbedie** » Di 27. Mär 2012, 10:26

Schonmal vielen Dank für deine Antwort! Bitte entschuldige die unvollständigen Angaben!

Meine Forschungsfrage ist die, dass ich die Determinanten der Arbeitsnachfrage untersuchen soll. Die Daten sind vom Zeitraum 2004 bis 2009. Soweit ich weiß ist es ein Panel-Datensatz.

Mit Verzerrungen bzgl. der Variable "wage" meine ich, ob es zweckmäßig ist diese erstellte Variable nachher als erkl. Variable zu benutzen, wenn doch so viele fehlende Werte dabei sind und ob dadurch dann verzerrte Ergebnisse entstehen könnten.

Mit extrem groß meine ich, dass es sehr viele Beobachtungen gibt und zwischendurch oft die Fehlermeldung "No room to add more observations" - das kommt auch schon beim Öffnen des Datensatzes, da habe ich das mit dem Befehl "set memory 100m" lösen können, nun kommt die Fehlermeldung aber auch leider zwischendurch bei ein paar Befehlen. Deswegen dachte ich, müsste man den Datensatz irgendwie verkleinern.

daniel · von **daniel** » Di 27. Mär 2012, 10:42

Setzt den Speicher einfach mal auf 500m oder höher. Das sollte das erste Problem beheben. Ich würde nur dann Beobachtungen aus dem Datensatz entfernen, falls es gar nicht anders möglich ist.

Mit Verzerrungen bzgl. der Variable "wage" meine ich, ob es zweckmäßig ist diese erstellte Variable nachher als erkl. Variable zu benutzen, wenn doch so viele fehlende Werte dabei sind und ob dadurch dann verzerrte Ergebnisse entstehen könnten.

Welche Prädikatoren zweckmäßig sind, sollte die Theorie entscheiden. Leider sagst Du nicht, welche Analysen Du im Sinn hast. Ich nehme mal an, Du möchtest Regressionsanalysen durchführen. In aller Regel verzerren fehlende Werte dann die Schätzergebnisse, es sei denn die Werte sind MCAR (missing completely at random). Meist ist es aber nicht zufällig, welche Firmen oder Länder, oder was auch immer Deine Analyseeinheiten sind (denn diese Angabe fehlt auch) fehlede Werte aufweisen.

Leider kannst Du ebensowenig einfach wichtige Variablen in Deinen Analysemodellen vernachlässigen, da dies vermutlich ebenfalls zu verzerrten Schätzern führt.

STATA-FORUM.DE

Datensatz bearbeiten

Datensatz bearbeiten

Re: Datensatz bearbeiten

Re: Datensatz bearbeiten

Re: Datensatz bearbeiten

Wer ist online?