Probleme Datenimport: string into numeric

Allgemeine Fragen rund um Statistik mit Stata.

Probleme Datenimport: string into numeric

Beitragvon mrorange » Di 27. Mai 2014, 11:31

Hallo, fuer den empirischen teil meiner MA arbeit habe ich einige makrooekkonomische zeitreihen aus oeffentlichen datanbanken gesammelt (oecd, world bank eurostat etc) und moechte diese nun mittels paneldata-technik mit stata auswerten. Die daten verschiedener laender habe ich aus den datenbanken (excel) kopiert und in einem separaten excel file gestapelt. Obwohl es sich bei den daten ausschliesslich um numerische werte handelt, liest stata den inhalt der variabeln im"string" format was dazu fuehrt dass ich das datenset nicht als panel setzen kann. Der befehl "destring , replace" bringt mich leider nicht weiter da angbelich nicht alle charaktere numerisch sind. "encode x, generate(x2)" konvertiert zwar die numerische variable in "long" format, allerdings aendern sich damit auch die inhalte der datenhreihen was absolut inakzeptabel ist.

Hat irgendjemand eine idee wie ich dieses problem loesen kann? vielen dank im voraus fuer eure muehe und tipps.
mrorange
 
Beiträge: 1
Registriert: Mo 26. Mai 2014, 21:22
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Probleme Datenimport: string into numeric

Beitragvon daniel » Di 27. Mai 2014, 12:21

Wenn -destring-sagt, dass es nicht numerische Charakters gibt, dann ist das so - das "angeblich" ist fehl am Platz. Der nächste Schritt wäre zu schauen, um welche Characters es sich dabei handelt.Naheliegend wären Kommata (,) statt (.) was aber mittels option -dpcomma.- lösbar ist, leere Zellen statt numerischer missings (.), die mittels -replace- Befehl zuvor ersetzt werden können und "unsichtbare" Leerzeiczhen (char(160) ect.). -charlisrt- (Cox, SSC) kann helfen die Charakters zu identifizieren, die dann mittels -ignore- option in -destring- ausgeschlossen werden können.

Niemals sollte -encode- für solche Zwecke verwendet werden, denn -encode- tut nichts weiter, als dem ersten (alphanumerischen) Wert den Wert 1, dem zweiten den Wert 2 etc. zuzuordnen, um als Wertelabes dann die Originalwerte zu verwenden. das führt mit nahzu 100 prozentiger Wahrscheinlichkeit zu absolut unsinnigen Analysen (vgl. post2102.html?hilit=stata%20rechnet%20falsch#p2102). Um das nochmal klar zu stellen, die Variable wird nicht wie Du andeutest ins long format gebracht, sondern enthältz die Werte 1, 2, ... k, wobei k die Anzahl verschiedener Werte in der Originalvariable sind. -encode- erstellt Variablen mit nominalem Skalenniveau!
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron