ТОП просматриваемых книг сайта:
Deskriptive Statistik verstehen. Christian FG Schendera
Читать онлайн.Название Deskriptive Statistik verstehen
Год выпуска 0
isbn 9783846339695
Автор произведения Christian FG Schendera
Жанр Математика
Издательство Bookwire
■ Sicherheit: Die deskriptive Statistik beschreibt die Daten, so wie sie sind. Nicht weniger, aber auch nicht mehr. Dies bedeutet auch, dass die deskriptive Statistik keine „Sicherheit“ von Aussagen einzustellen bzw. zu errechnen erlaubt, wie z.B. Alpha, p- Werte, „Fehler“ usw. Auf der einen Seite braucht es diese Sicherheit auch gar nicht, weil keine Aussagen über Grundgesamtheiten getroffen werden. Auf der anderen Seite hilft eine kluge Kombination von Lagemit Streumaßen abzusichern, dass sie eine Verteilung von Daten ohne substantiellen Informationsverlust repräsentieren.
■ Datenqualität: Die deskriptive Statistik setzt Datenqualität voraus, z.B. vollständige und geprüfte Daten. Nur weil eine deskriptive Statistik „auf Knopfdruck“ abgerufen werden kann, bedeutet dies nicht automatisch, dass die Daten auch in Ordnung sind. Das Resultat ist höchstens eine vorläufige deskriptive Statistik. Keine deskriptive Statistik ohne zuvor geprüfte Datenqualität. Dieses Thema ist so wichtig, das ihm eine Einführung (Abschnitt 3.3) und eine Vertiefung (Kapitel 6) gewidmet sind.
Erfahrungsgemäß ist die deskriptive Statistik eine erste Belohnung für die harte Arbeit des Erhebens, Eingebens, Korrigierens und oft auch häufig genug komplizierten Transformierens von Daten. In der IT werden diese oft auch als ETL-Prozesse bzw. -Strecken abgekürzt („Extract“, „Transform“, „Load“). Entsprechend groß ist die Begeisterung, erste Einblicke in den (wünschenswerten) Erfolg der ganzen Unternehmung haben zu können. Wie die Erfahrung zeigt, treten an dieser Stelle gleich mehrere Fehler bei der Interpretation der deskriptiven Statistik auf. Um sie besser auseinanderhalten zu können, werden sie separat dargestellt; allesamt könnte man sie als Varianten des Über- bzw. Fehlinterpretierens der deskriptiven Statistik zusammenfassen:
■ Projektionsfläche (Messgegenstand): Eines der häufigsten, größten und unerklärlicherweise immer noch stiefmütterlich behandelten „Fettnäpfchen“ ist, den in der deskriptiven Statistik wiedergegebenen Daten Bedeutungen zu unterstellen, die gar nicht Gegenstand der Messung waren. Oft werden z.B. soziodemographische Variablen (z.B. Alter, Geschlecht, Einkommen) erhoben, und dann in der Gesamtschau als z.B. psychologische Merkmale (z.B. „extrovertierter Konsumhedonist“) überinterpretiert (vgl. Schendera, 2010, 20–21). Diese verkaufsfördernde bzw. arbeitserleichternde, jedoch an (Selbst-)Täuschung grenzende Unsitte ist leider nicht selten anzutreffen und keinesfalls auf eine bestimmte Disziplin beschränkt. Beispiele sind allgegenwärtig. In anderen Forschungsfeldern kann man es durchaus erleben, dass deskriptive Statistiken zu Einstellungen zum Lernen erhoben, aber als Kognitionen interpretiert werden (was inhaltlich etwas völlig anderes ist).
■ Hemmungsloses Verallgemeinern (Merkmalsträger): Ein- und Ausschlusskriterien legen die Stichprobe, ggf. auch die Grundgesamtheit fest, auf die die deskriptive Statistik verallgemeinert werden kann. Mit dem „hemmungslosen Verallgemeinern“ ist ein Interpretieren über diese Grenzen hinaus gemeint. Häufige Verstöße sind z.B. (1) die deskriptive Statistik einer Stichprobe als die einer Grundgesamtheit zu überinterpretieren. Die deskriptive Statistik einer Stichprobe kann nicht auf eine Grundgesamtheit verallgemeinert werden. Aussagen über die Grundgesamtheit, allein auf der Grundlage von Stichprobendaten, sind ohne Absicherung nicht zulässig. (2) Zu den Verstößen zählt auch, die deskriptive Statistik einer Teilmenge (z.B. alte Menschen) auch für andere Teilmengen (z.B. junge Menschen) zu verallgemeinern. (3) „Projektion“ ist z.B. die nicht seltene Praxis, z.B. bei der Korrelations- oder auch der Trendanalyse, die deskriptive Statistik über den Bereich der erhobenen Werte hinaus zu interpretieren.
■ jumping to conclusions (Extrapolieren und Schlussfolgerung innerhalb einer Erwartungshaltung, dem „frame“): Der Begriff „jumping to conclusions“ drückt, meine ich, schön aus, wie man bei der Interpretation der deskriptiven Statistik aus Begeisterung, und damit fehlender Zurückhaltung, leider vorschnellen Schlüssen über die darin wiedergegebenen Daten verfallen kann. Dieses „jumping to conclusions“ ist, meiner Erfahrung mit Statistik-Einsteigern nach, eine Erscheinungsform des gezielten Suchens von Zusammenhängen oder Unterschieden innerhalb eines Frames. Dieses Phänomen lässt sich wohl am besten als kognitiver Ersatz eines erwartungsgeleiteten Hypothesen tests umschreiben. Bei der Überinterpretation der deskriptiven Statistik (vor allem anhand von Stichproben) werden Unterschiede oder Zusammenhänge „gesehen“, die in Wirklichkeit in den beschriebenen Daten gar nicht vorkommen. Das „jumping to conclusions“ ist an sich gesehen nichts Schlechtes; allerdings sollte man diese „Schlussfolgerungen“ nicht als abgesichertes Ergebnis eines „Hypothesentests“ missverstehen, sondern als noch zu prüfende spekulative Annahme, die explizit einem echten Hypothesentest unterzogen werden sollte.
■ Der blinde Fleck (Schlussfolgerung außerhalb eines Frames): Während ein erwartungsgeleiteter „Hypothesentest“ dazu führt, dass „große“ Unterschiede (die gar nicht so groß sind) zwischen deskriptiven Parametern oft überschätzt werden, bezieht sich der „blinde Fleck“ auf Phänomene, die außerhalb der eigenen Erwartungshaltung (frame) liegen (Schendera, 2007, 165–169). Hier tritt der gegenteilige Effekt auf: Erwartungswidrige Effekte werden oft erst gar nicht wahrgenommen, geringe Unterschiede dagegen oft leider unterschätzt. Erfahrungsgemäß werden bei der Interpretation oft andere relevante Aspekte übersehen, z.B. die unterschiedliche Größe der miteinander verglichenen Gruppen (vgl. dazu auch die Stichworte Designstruktur, Auswahlwahrscheinlichkeit und Gewichtung).
Die deskriptive Statistik hat ihre Grenze eindeutig dann erreicht, sobald es nicht mehr um das Beschreiben einer Stichprobe, sondern um das Ziehen von Schlüssen über eine Grundgesamtheit geht, z.B. in Gestalt von Hypothesentests, Punkt- oder Intervallschätzungen. Ausgehend von Stichproben erlaubt die deskriptive Statistik keine Aussagen zur Grundgesamtheit. Die Inferenzstatistik wird in diesem Buch nicht behandelt; ich erlaube mir für ausgewählte Verfahren z.B. auf Schendera (20142, 2010) zu verweisen.
Diese Einführung in Sinn und Grenzen der deskriptiven Statistik fokussiert grundlegende Konzepte. Abgeschlossen werden soll mit einem Hinweis darauf, dass manche der erwähnten Begriffe, wie z.B. „Grundgesamtheit“, „Zufallsstichprobe“ und m.E. vor allem „Repräsentativität“ deutlich komplexer sind, als sie in dieser notwendigerweise vereinfachenden Darstellung womöglich anmuten (vgl. Prein et al., 1994). Allerdings beziehen sich Diskussion und Konzepte auf die Gültigkeit des Schlusses von einer „repräsentativen“ Zufallsstichprobe auf eine unbekannte Grundgesamtheit, was nicht Aufgabe der deskriptiven Statistik und damit auch nicht Gegenstand dieser Einführung ist.
2 Ein Heimspiel: Grundlagen der deskriptiven Statistik
„Fußball ist einfach, deshalb ist es ja so kompliziert.“
Berti Vogts
„Der Fußball ist einer der am weitesten verbreiteten religiösen Aberglauben unserer Zeit. Er ist heute das wirkliche Opium des Volkes.“
Umberto Eco
„The best thing about being a statistician is that you get to play in everyone else’s backyard.“
John Tukey, Bell Labs, Princeton University
Mit einem Heimspiel ist gemeint: Man spielt mit dem eigenen Team im eigenen Stadion vor eigenem Publikum. Man kennt sich bestens aus. Die Grundlagen der deskriptiven Statistik sind bekannt, man ist bestens vorbereitet. Heimspiel bedeutet also auch: Durch eine gute Vorbereitung hat man es selbst in der Hand, auch ein anspruchsvolles Auswärtsspiel in die Kontrollierbarkeit und Niveau eines Heimspiels zu wandeln.
Der Fokus von Kapitel 2 beschränkt sich daher auf Informationen in einer Datentabelle. Informationen, die man nicht notwendigerweise durch das Analysieren