ТОП просматриваемых книг сайта:
Deskriptive Statistik verstehen. Christian FG Schendera
Читать онлайн.Название Deskriptive Statistik verstehen
Год выпуска 0
isbn 9783846339695
Автор произведения Christian FG Schendera
Жанр Математика
Издательство Bookwire
Bei Brüchen werden die Konzepte von Genauigkeit und Präzision relevant. Die Genauigkeit (accuracy) einer Zahl ist durch die Anzahl von signifikanten Ziffern rechts von der Dezimalinterpunktion definiert. Die Präzision (precision) einer Zahl ist durch die Anzahl von signifikanten Ziffern insgesamt definiert. Bei der Addition bzw. Subtraktion wird die Anzahl der signifikanten Ziffern im Ergebnis durch den Wert mit der kleinsten Anzahl an signifikanten Ziffern bestimmt.
Beispiele
Die Summe aus 1,2 + 1,24 + 1,248 ergibt theoretisch im Ergebnis den Wert 3,688. Dieser Wert ist jedoch scheinbar auf vier Stellen genau. Aufgrund der kleinsten Anzahl an signifikanten Ziffern beschränkt der Wert 1,2 die Anzahl von signifikanten Ziffern im Ergebnis auf eine Stelle nach dem Komma. Die Summe 1,2 + 1,24 + 1,248 sollte daher nur auf eine Stelle nach dem Komma gerundet als 3,7 ausgedrückt werden. Bei der Multiplikation und Division gilt Ähnliches. Die Genauigkeit des Produkts aus zwei oder mehr Zahlen hängt von der Anzahl signifikanter Ziffern rechts von der Dezimalinterpunktion im kleinsten Wert ab. Das Produkt aus 1,2 x 1,24 sollte daher auf eine Stelle nach dem Komma gerundet als 1,5 und nicht als 1, 488 angegeben werden.
Zu den Ziffern nach dem Interpunktionszeichen bei numerischen Werten sollte vielleicht noch ergänzend gesagt werden, dass mittels sog. Formate eingestellt werden kann, mit wie vielen Nachkommastellen die Zahlen angezeigt werden sollen. Standardmäßig werden Zahlen von -9999,99 bis 99999,99 dargestellt. Die Einstellung der Anzahl von Dezimalzellen bezieht sich dabei nur auf die Anzeige. Numerische Werte werden von der Software so präzise wie möglich, mit derzeit bis zu 32 Nachkommastellen, gespeichert.
Ziffern
Im letzten Abschnitt zu Bruchzahlen war von Ziffern die Rede. Was sind Ziffern? Ziffern stellen Zahlen dar. Die Dezimalziffern 1, 4 und 8 stellen z.B. zusammen die Zahl 1,488 aus dem vorangehenden Abschnitt dar. Die Ziffern 1, 4 und 8 wurden deshalb präzisierend als Dezimalziffern bezeichnet, weil sie und die im Beispiel beschriebene Zahl aus dem Dezimalsystem (Zehnersystem) stammen. Dieses Zahlensystem heißt Dezimalsystem, weil es zehn Ziffern (0 bis 9) umfasst bzw. die Zahl 10 zur Basis hat. Dieselbe Zahl kann, weil es neben dem Dezimalsystem weitere Zahlensysteme gibt, durchaus durch verschiedene Ziffern dargestellt werden. Die Bundesligatabelle ist, mit Ausnahme des Alphabets (für die Vereinsnamen), ausschließlich im Dezimalsystem. Wir werden daher auf andere Beispiele ausweichen müssen. Die folgende Tabelle stellt bspw. die Ziffernfolgen „1000“ und „10“ in ausgewählten Zahlensystemen dar (Dezimal, Hexadezimal, Dual-Binär, Wissenschaftliche Notation, Römisch). Darüber hinaus gibt es diverse weitere Zahlensysteme, z.B. Oktal.
Beispiel
Darstellung der Ziffernfolge „1000“ und „10“ in verschiedenen Zahlensystemen:
Zahlensystem | „1000“ | „10“ |
Dezimal | 1000 | 10 |
Hexadezimal (ASCII) | 3E8 | A |
Dual-Binär | 1111101000 | 1010 |
Wissenschaftliche Notation | 1,00E+03 | 1,00E+01 |
Römisch | M | X |
Umgekehrt stellen dieselben Ziffernfolgen in verschiedenen Zahlensystemen meist verschiedene Zahlen dar. „1000“ im dual-binären System bedeutet z.B. 8 im Dezimalsystem. Im Zweifel lohnt es sich nachzufragen, in welchem Zahlensystem die Daten abgelegt sind. Dass Daten ausschließlich im Dezimalsystem abgelegt sind, ist nicht selbstverständlich, z.B. in der Informatik. (Lateinische) Buchstaben können demnach durchaus auch für Zahlen im Dezimalsystem stehen.
Was sind nun Buchstaben? Mehrere Buchstaben (oder auch nur einer) stellen Texte (allgemeiner: Zeichen, Codes) dar, um Bedeutungen bzw. Information zu vermitteln. Die Gesamtheit aller Buchstaben bildet wiederum ein Alphabet einer Sprache; eine Menge an Buchstaben bildet (in zunehmender Länge geordnet) Zeichen, Zeichenketten oder auch Texte. Mehrere Zeichen können Zeichenketten bilden, mehrere Zeichenketten wiederum Texte. Der Einfachheit halber wird in diesem Buch der Begriff „String“ für einzelne oder mehrere Zeichen, also für Zeichen oder Zeichenketten verwendet. Wie an den Zeichen im Hexadezimalsystem zu erkennen, können Strings ausschließlich aus Buchstaben bestehen, z.B. der Code „A“ für 10 oder auch aus Buchstaben mit Ziffern gemischten Zeichenfolgen bestehen, z.B. „3E8“ für 1000. Strings können i. Allg. annähernd beliebige Zeichen (einschließlich Zahlen) enthalten. Groß- und Kleinbuchstaben („X“ vs. „x“) werden dabei als verschiedene Buchstaben interpretiert, was bei bestimmten Operationen, z.B. dem Sortieren, dazu führen kann, dass Groß- und Kleinbuchstaben unterschiedlich verarbeitet werden. Beim Sortieren können (z.B. je nach Sortierschlüssel) kleingeschriebene Strings (z.B. „string“) je nach Software vor oder auch hinter großgeschriebene Strings (z.B. „STRING“) sortiert werden. Strings werden je nach Software als eigener Datentyp interpretiert und auch als alphanumerisch, „Character“ oder „Text“ bezeichnet.
Werte
Werte unterscheiden sich von Zahlen dadurch, dass bei ihnen ein Referenzsystem hinzukommt, in anderen Worten: ein Messvorgang und eine Maßeinheit. Zahlen können für sich alleine stehen, z.B. bei rein mathematischen Operationen. Bei reinen Additionen, wie z.B. 1 + 1 = 2, kann ohne Weiteres auf eine Maßeinheit verzichtet werden. Werte sind dagegen das Ergebnis einer in Zahlen („quantitativ“) gemessenen bzw. zugeschriebenen Eigenschaft einer definierten Entität. Nicht Zahlen, sondern erst Werte erlauben Zustände, Unterschiede oder auch Veränderungen innerhalb eines Referenzsystems zu beschreiben. Erst die Beziehung Referenzsystem-Messung-Messwert ermöglicht es, Zahlen nicht nur auszuwerten, sondern als (Mess-)Werte auch zu verstehen. Eine der ersten Fragen, die sich ein Data Analyst bei der Beschreibung von Daten stellen sollte, ist: In welcher Einheit sind diese Zahlen und wie sind sie zu interpretieren? Die Einheiten und Hinweise zur korrekten Interpretation sollten in Metadaten, Projektdokumentation oder zumindest in Spaltenüberschriften von Datentabellen hinterlegt sein. Man stelle sich z.B. die Bundesligatabelle ohne Überschriften vor. Data Analysten, die keine Erfahrung mit Fußballkenn werten haben, werden vermutlich erst einmal fluchen: Sie verlieren Zeit, da sie sich auf die Suche nach einer Dokumentation, anstelle der eigentliche Analyse der Daten machen müssen. Etwas extremer wäre es übrigens bei Tabellen der englischen Premier League, hier sind diese Daten (z.B. Tore, Punkte usw.) zusätzlich nach Heim- und Auswärtsspiel unterteilt. Eine Tabelle sollte eigentlich selbsterklärend sein, ist es aber leider nicht immer.
Beispiele, bei denen eine deskriptive Statistik von Daten ohne Einheiten (also reine Zahlen) geradezu hochgradig riskant sein kann, sind z.B. Währungen, KPIs, medizinische Dosierungen, oder auch psychometrische Skalenwerte (z.B. IQ). Bei dosiskritischen Medikamenten ist z.B. die genaue Einheit einer Zahl unbedingt zu beachten. Dieselbe Zahl kann bei unterschiedlichen Einheiten völlig verschiedene Dosen bedeuten, z.B. 15 mg (=1,5ml) im Vergleich zu 15 ml (150 mg) (vgl. Schendera, 2007, 212). Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Werte beschrieben und interpretiert werden.
Beispiel
Werte in verschiedenen Referenzsystemen:
Beispiel | Referenzsystem | Maßeinheit und Beispiele für Werte |
Physik | Gewicht | kg, gr |
Länge | km, m, mm | |
Zeit | yyyy, mm, dd; h, m, s; Kalendertage. | |
Finance | Währungen:Euro, Dollar | €, $ |
Ratings: | ||
Moody’s, Fitch, S&P | Caa1, CCC+, CCC (long-term, „substantial risks“). | |
Psychometrie |
Скачать книгу
|