Seite 1 von 1

Großer Unterschied zwischen R2 und adj R2

BeitragVerfasst: So 8. Dez 2013, 12:50
von Matiz
Hallo Stata-Welt,

ich bin mir nicht sicher, für welche Modell-Konstruktion ich mich entscheiden soll, ich hoffe, ihr könnte mir weiterhelfen:

Ich teste mit einem großen sample (Beobachtungen 1373) einen Zusammenhang und kontrolliere dabei für regionale Zugehörigkeit und Job-Bezeichnung (=23 Dummy-Variablen).

In einem nächsten Schritt werden die Beobachtungen auf Abteilungsebene geclustert und weitere Analysen gefahren, so dass die Stichprobe nur noch 119 Beobachtungen fasst. Wenn ich das Modell mit den identischen Kontroll-Variablen laufen lasse ergibt sich ein R2 von 0,3932 und ein adj. R2 von 0,2223, also eine recht große Differenz. Wenn ich die Kontroll-Variablen Region und Job weglasse, ändern sich die Ergebnisse für R2 (0,2253) und adj. R2 (0,1838).

Ich bin mir unsicher, ob ich die Kontroll-Variablen im Modell lassen soll, da sich adj. R2 verbessert oder ob ich sie nicht in die Regression aufnehmen sollte, da das Modell überspezifiziert ist (große Differnez R2 and adj. R2).

Für euren Rat wäre ich sehr dankbar.
VG
Matiz

Re: Großer Unterschied zwischen R2 und adj R2

BeitragVerfasst: Do 9. Jan 2014, 18:26
von mangel76
Anhand des R2 sollte kein Modellvergleich gemacht werden! Das adj R2 berücksichtigt die unterschiedliche Komplexität der Modelle.

Wie hat jemand sinngemäß gesagt (ich glaub es war Wooldridge): Das einzige, was man über das R2 wissen muss, ist, dass man nicht darüber wissen muss.
Die Höhe des R2 hängt sehr stark von der Art des Datenmaterials ab. Bei aggregierten Daten, die nur wenig schwanken, sind Werte über 0,8 durchaus üblich. Bei Mikrodaten würde auch ein Wert von 0,05 nicht zwnagsläufig bedeuten, dass das Modell schlecht ist! Und je mehr Variablen ich ins Modell, desto größer wird. Es kann nicht fallen, selbst wenn ich Völligen Quatsch einbaue.

Was ich nicht ganz verstehe ist die Reduzierung der Stichprobe durch Clustern. Aber bei so wenig Beobachtungen sind 23 Dummies und noch Regionsvariablen eindeutig zu viele Kontrollvariablen, der Schätzung fehlen einfach die Freiheitsgrade! Also auch wenn das adj R2 im großen Modell noch größer ist, wäre ich sehr vorsichtig. Hier könnte es schon zu einem "Overfitting" kommen.