Seite 1 von 1

Problem bei Regressionsanalyse

BeitragVerfasst: Mi 18. Jul 2018, 16:05
von East Weeld
Hallo,

Mit Hilfe von Stata muss ich für die Uni eine multiplen Regressionsanalyse durchführen. Einen Datensatz musste ich hierzu auch erheben. Das Thema der multiplen Regressionsanalyse ist der Zusammenhang zwischen Gebrauchtwagenpreisen und Merkmalen der jeweiligen Gebrauchtwagen (wie Leistung, Kilometerstand, Anzahl Türen, Modell, so wie einige andere).

Mein Problem bezieht sich auf die nominal skalierten Merkmale hierbei. Ich habe diese Zwecks Durchführung der Regressionsanalyse bereits in Dummy-Variablen umgewandelt. Mit dem Befehl "regress" habe ich außerdem bereits die Analyse durchgeführt und die Regressionskoeffizienten erhalten.

Nun ist es aber so, dass man bei der Nutzung von Dummy-Variablen ja nicht alle Dummy-Variablen, die dasselbe Merkmal beschreiben (in meinem Fall z.B. Lackierung), in die Regressionsgleichung mit aufnehmen darf. Da man nur n-1 Dummy-Variablen aufnehmen darf, weil die Informationen, ansonsten redundant wären, erhält man dadurch auch nur n-1 Regressionskoeffizienten. Mein Problem ist nun, dass ich nicht genau verstehe, wie ich an die fehlenden Regressionskoeffizienten komme. Soweit ich es verstanden habe beschreibt "_cons" den y-Achsenabschnitt. Das müsste ja bedeuten, dass in diesem Punkt alle x-Werte "0" annehmen. Folglich, wenn alle Dummy-Variablen "0" annehmen, müsste daher doch genau in diesem Punkt auch gelten, dass alle "weggelassenen" Dummy-Variablen 1 annehmen. Diese Vermutung stütze ich auf der Tatsache, dass ein Auto ja nicht keine Farbe haben kann, und eine Dummy-Variable mit "0" nur für "hat diese Farbe nicht (nein)" und mit "1" für "ist so gefärbt (ja)" steht.

Daher meine Frage: Weiß jemand, wie ich aus dem Stata-Wert "_cons" die fehlenden Regressionskoeffizienten der "fehlenden" Dummy-Variablen errechnen kann? Kann ich diese überhaupt bestimmen, oder zählen sie quasi, weil sie ja den y-Achsenabschnitt darstellen, als "Ausgangswert" und wären somit "0"?

Re: Problem bei Regressionsanalyse

BeitragVerfasst: Mi 25. Jul 2018, 12:24
von Staxa
Grundsätzlich ist es nicht länger empfehlenswert, Dummies zu kodieren. Stata macht das automatisch:

regress DEP i.kat

Das Präfix i. zeigt Stata an, dass du eine Kategoriale Variable hast (also mit 2 oder mehr Kategorien).

Die Konstante gibt den Wert an, wenn ALLE Variablen im Model 0 sind, also wenn Dummies auf "Referenzkategorie" sind. Suchst du einen bestimmten Wert, nutze margins:

Rechne dein Reg Modell, danach:
margins, at(X=1 Y=5 T=1 usw...)

Stata präsentiert dann den vorhergesagten Wert deiner abhängigen Merkmale für die gewünschte Variablenkonstellation.