Seite 1 von 1

Lineares Wahrscheinlichkeitsmodell

BeitragVerfasst: So 5. Jan 2014, 23:10
von Stat12
Hallo,
im Rahmen meiner Hausarbeit muss ich ein LPM mittels Stata schätzen. Das Problem ist, dass ich noch Stata Anfänger bin und sich bei der
Regression des Modells ein Problem aufwirft bei dem ich nicht weiterkomme.
Das Modell enthält zum Beispiel mehrere unabhängige Dummy Ausbildungsvariablen. Wenn ich jetzt eine Regression durchführe, kann eine dieser
Dummy Variablen nicht angezeigt werden wegen Kollinearität. Dieses Problem tritt auch bei zwei weiteren Dummy Variablen auf (Region, Race).

Kann mir jmd weiterhelfen, wie ich dieses Problem umgehe? Bzw. gibt es die Möglichkeit, z.B. die ganzen Ausbildungsvariablen zu einer Variablen zusammenzufassen?

Im Voraus Danke für eure Hilfe

Re: Lineares Wahrscheinlichkeitsmodell

BeitragVerfasst: Mo 6. Jan 2014, 15:28
von daniel
Das ist kein Problem, sondern eine notwenige Bedingung, um die Koeffizienten schätzen zu können. Auch ist dieses Phänomen nicht spezifisch für ein LPM.

Umgehen muss man da eigentlich nichts, sondern die geschätzen Koeffizienten nur korrekt interpretieren. Als einfaches Beispiel nehmen wir Geschlecht. Es ist nicht möglich für Männer und Frauen einen Koeffizienten zu schätzen (es ist natürlich möglich, Modelle ohne Konstante zu schätzen, aber das sei hier außen vor gelassen, weil es zu anderen (echten) Problemen führen kann). Daher lassen wir einen der zwei indikatoren aus dem Modell -- sagen wir den Indikator "Mann". Der Koeffizient für "Frau" gibt nun den durchschnittlichen Unterschied in y zwischen Männern (die Referenz) und Frauen an. Dieses Beispiel mit k = 2 Ausprägungen (Mann und Frau) lässt sich ohen weiteres auf variablen mit k = k Ausprägungen (z.B. Ausbildung) übertragen. Wenn Ausbildung k = 3 Ausprägungen hat, können wir nur k - 1 = 2 Indikatorvariablen in die Regression aufnehmen. Die geschätzen Koeffizienten geben den Durchschnittlichen Unterschied in y zwischen dem jeweiligen indikator und der Referenz (der Indikator, der nicht im Modell ist) an.

Ein Beispiel mit Stata.

Code: Alles auswählen
sysuse nlsw88 ,clear
ta race , g(race)
reg wage race2 race3


Der Koeffizient für race2 gibt an, dass farbige Arbeiterinnen im Schnitt 1,24 USD weniger verdienen, als weiße Arbeiterinnen. Ebenso gibt der Koeffizient für race3 an, dass "andere Ethnien" im Schnitt 46 Cent mehr verdienen als weiße Arbeiterinnen. Dieser Unterschied ist nicht statistisch signifikant. Über den Unterschied im Lohn von farbigen und "anderen" Arbeiterinnen können wir anhand dieses Modells keine direkte Aussage treffen.