Seite 1 von 1

Multiple Imputation-fehlende Werte bei Routinedaten

BeitragVerfasst: So 26. Feb 2017, 01:47
von Doro89
Wundervollen guten Abend,

im Rahmen meiner Masterarbeit versuche ich derzeit meine empirische Datenanalyse (Sekundärdatenanalyse auf Basis der Reha-Statistik-Datenbasis der DRV) betreffs etwaiger Kleinigkeiten zu verbessern. Es geht generell um die Überprüfung des Reha-Erfolgs (gemessen über die Leistungsfähigkeit im letzten Beruf vor Reha-Beginn) zwischen Rehabilitand(inn)en ausländischer Staatsangehörigkeit und Rehabilitand(inn)en deutscher Staatsangehörigkeit unter der Berücksichtigung von Indikationsgruppen.

Methodisch wurden die Daten aufbereitet und die logistische Regression (unter Kontrolle von soziodemografischen/-ökonomischen Faktoren sowie gesundheitlichen Unterschieden) angewendet. Es wurden zwei Modelle berechnet und beim 2. Modell wurde der "multiplikative Interaktionsterm" berücksichtigt.

Meine Stichprobengröße umfasst 673.677 Fälle (Längsschnittstudie, unter Einbezug aller Ausschlusskriterien der Studie). Bei Routinedaten ist es oft der Fall, dass zufällige oder systematische fehlende Werte (missing values) auftreten, die zu Verzerrungen bei der statistischen Datenanalyse und deren Datenauswertung führen können. Nach Durchführung einer Strukturanalyse (deskriptiv) und längerer Literaturrecherche gab es mehrere Möglichkeiten mit diesen fehlenden Werten umzugehen. Dazu zählten u.a. das Eliminierungsverfahren/Auschlussverfahren oder Imputationsverfahren (u.a. "Multiple Imputation").
Die erste Methode unterscheidet noch "complete-case-analysis" (Ausschluss unvollständiger Fälle oder Variablen) und "available-case-analysis" (partieller Ausschluss bestimmter Merkmale oder Variablen). Ich habe bisher bei der Datenausbereitung bei allen Variablen die Fälle ausgeschlossen, die keine Angaben gemacht haben (sie wurden folglich als "Missings" definiert). Dabei reduziert sich bei einigen Variablen die Fallzahl drastisch, teilweise liegt der Datenausfall bei einigen Variablen bei 31% der Gesamtstichprobe (n=673.677). Durch das Vorliegen unterschiedlicher Fallzahlen für jede Variable, die in die Modelle eingeflossenen ist, basiert die Berechnung der logistischen Regression auch nur auf n= 320.679 (etwas über die Hälfte der Ausgangsstichprobe).

1. Frage: Ist die Fallzahl dennoch groß genug, um schlüssige/repräsentative Aussagen treffen zu können? Folglich könnte es, trotz partiell echt großer Wahrscheinlichkeiten für fehlende Werte (teilweise eben ca. 31%), bei der Anwendung des Ausschlussverfahrens bleiben?!?! Ab wieviel Prozent gelten fehlende Daten, gemessen an der Gesamtzahl als akzeptabel und ab wann sollten sie nicht mehr "ignoriert" werden (eine Quelle dazu wäre toll:) ?


2. Falls der vorangegangenen Überlegungen zur 1. Frage nicht zugestimmt werden kann (z.B. weil die prozentuale Anteil fehlender Werte den Rahmen des Akzeptablen sprengt), dann müsste ja das Verfahren der "multiplen Imputation"gewählt werden. Daran habe ich mich versucht in Form von mehreren Datensätzen, bei denen ich diese multiple Imputation angewendet habe.


Hier die Syntax:
set more off
keep case leistungsfähig sa_n Bewilligungsdiagnosegruppen1 Berufstellung Arbeitsunf Erwerbst Alter_n Rehadauer1 sexn sb_n Berufsgrkl famstand1 Rehaart AmR AHB ORT bb_n //Reduzierung des Arbeitsdatensatzes (übersichtlicher)
misstable sum //alle fehlenden Werte des Arbeitsdatensatzes im Überblick

leistungsfähig = 137.471
sa_n = 1.626
Bewilligungsdiagnosen = 1.402
Berufstellung = 133.817
Arbeitsunf = 33.757
Erwerbs = 143.458
Rehadauer1 = 1
sb_n = 217.790
bb_n = 217.790
Berufsgrkl = 2.686
famstand1 = 19.576
Rehaart = 201
ORT = 17.175

1. Datensatz:
mi set mlong // marginal long style
mi misstable nested //sind Variablen in Bezug auf fehlende Werte miteinander verschachtelt --> bei sb_n(217790) <-> bb_n(217790) der Fall

mi register imputed sb_n bb_n //hier werden die Variablen registriert für die die Imputationen statt finden sollen

mi impute monotone (ologit) sb_n bb_n = leistungsfähig Bewilligungsdiagnosegruppen1 Berufstellung Arbeitsunf Erwerbst Alter_n Rehadauer1 sexn Berufsgrkl famstand1 Rehaart AHB AmR ORT, add(5) force // ologit, da es sich um ordinale Variablen (1. höchster Schulabschluss und 2. höchster beruflicher Abschluss)
handelt; add(5)= Anzahl der Imputationen, force = Schätzung wird erzwungen, da die Zeitvariable keine
gleichmäßige Abstände aufweist (aber müsste nur bei Korrelationen relevant sein ode)r?

mi estimate, or: logit leistungsfähig i.sa_n i.Bewilligungsdiagnosegruppen1 sexn ib4.Berufstellung i.ORT Alter_n i.famstand1 ib2.Berufsgrkl Rehadauer1 i.Arbeitsunf ib1.Erwerbst ib2.sb_n ib2.bb_n i.Rehaart AmR i.AHB // berechnete log. Regression auf Basis der der zwei imputierten Variablen (veränderte
Fallzahl nach Imüutation der beiden Variablen: n=474.256)

2. Datensatz (ähnliche Prozedur):
set more off
keep case leistungsfähig sa_n Bewilligungsdiagnosegruppen1 Berufstellung Arbeitsunf Erwerbst Alter_n Rehadauer1 sexn sb_n Berufsgrkl famstand1 Rehaart AmR AHB ORT bb_n

mi set mlong

mi register imputed leistungsfähig

mi misstable nested

mi impute logit leistungsfähig sa_n Bewilligungsdiagnosegruppen1 Berufstellung Arbeitsunf Erwerbst Alter_n Rehadauer1 sexn Berufsgrkl famstand1 Rehaart AHB AmR ORT sb_n bb_n, add (5) force

mi estimate, or: logit leistungsfähig i.sa_n i.Bewilligungsdiagnosegruppen1 sexn ib4.Berufstellung i.ORT Alter_n i.famstand1 ib2.Berufsgrkl Rehadauer1 i.Arbeitsunf ib1.Erwerbst ib2.sb_n ib2.bb_n i.Rehaart AmR i.AHB

usw.

Insgesamt habe ich mit dieser Herangehensweise (für Variablen, die mehr als 5% fehlende Werte auf Basis der Gesamtanzahl aufwiesen) 4 separate Datensätze erstellt (2 davon habe ich hier mit den dazugehörigen Kommandos aufgezeigt).
Dan wollte ich diese imputierten Datensätzen zusammenfügen (mergen). Die Frage ist, ob das Sinn macht und geht, da die verschiedenen Datensätze ja weiterhin unterschiedliche Fallzahlen aufweisen (da auf Basis der Imputation einer Variable) ändern sich ja auch die Fallzahlen der anderen. Wie kann ich also diese vier imputierten Datensätzen korrekt und sinnvoll zu einem zusammenführen?
Oder geht es alle fehlenden Daten der betreffenden Variablen in nur einem Datensatz mit multipler Imputation zu korrigieren um am Ende eine multiple log. Regression mit 673.677 Fällen zu rechnen?
Falls diese Herangehensweise betreffs der multiplen Imputation inkorrekt ist, es einfacher geht oder ihr mir einfach generelle Anmerkungen mitzuteilen habt, ich würde mich sehr freuen. Es würde mir erheblich helfen, wenn mich jemand bei der multiplen Imputation (falls sie nötig ist) mit seiner Fachkompetenz tatkräftig unterstützen könnte. Ich hoffe es war jetzt alles einigermaßen verständlich beschrieben, ist ja kein allzu leichtes Thema:).

Herzlichen Dank:).

Doro89