Statistik Grundlagen der deskriptiven Statistik Grundbegriffe Merkmalsträger - Objekte, über die Daten vorliegenGrundgesamtheit - Alle potentiellen MerkmalsträgerMerkmal - Beobachtete EigenschaftMerkmalsausprägung - Möglicher WertWertebereich - Gesamtheit aller realisierten Werte Merkmalsausprägungen Nominal - Kann man nicht ordnenOrdinal - RangfolgeMetrisch - Maßeinheit Diskret - Nur bestimmte AusprägungenStetig - Alle möglichen innerhalb eines Intervalls Metrische Daten können intervallskaliert wie bei Grad Celsius oder verhältnisskaliert wie bei Grad Kelvin sein.Besondere Vorsicht ist geboten, wenn nominale Werte codiert werden oder wenn stetige Merkmale künstlich diskretisiert werden.Tabellarische und graphische Darstellung Man kann für ein Merkmal die absolute Häufigkeit und die relative Häufigkeit (%) messen. Die absolute Häufigkeit liefert dabei auch die Größe der Stichprobe. Mit den relativen Häufigkeiten lassen sich besser Vergleiche anstellen.Stetige Merkmale sollten zu Klassen zusammengefasst werden. Absolute Häufigkeit Relative Häufigkeit Bedingte Häufigkeit → Ein Merkmal fixieren Wenn die bedingten Merkmalsausprägungen mit den Randverteilungen übereinstimmen, sind sie unabhängig. Die Unabhängigkeit wird eigentlich nie vollständig erreicht.Lageparameter Arithmetisches Mittel → Sehr Ausreißer anfällig Median Wert, der Reihe in zwei Teile zerlegt → relativ unempfindlich gegenüber Ausreißern Modus Häufigster Wert→ Ausreißer robust Nominal: ModusOrdinal: Modus, MedianMetrisch: Modus, Median, Mittelwert Perzentile → Schneidet Werte in zwei Teile50-50 → Median25-75 → Unteres Quartil75-25 → Oberes Quartil Der Boxplot → Graphische Darstellung der Verteilung Das geometrische Mittel Mit x1 = Wachstumsfaktor, z.B. 1,05 bei 5% Zunahme oder 0,95 bei Abnahme Streuungsparameter Die Streuung der Werte gibt die Abweichungen vom Mittelwert an. Für nominal skalierte Werte gibt es kein Streuungsmaß. Spannweite → extrem empfindlich bei Ausreißern Quartilsabstand Mittlere absolute Abweichung → kein Vergleich verschiedener Merkmale möglich Varianz → schwer zu interpretieren→ kein Vergleich verschiedener Merkmale Standardabweichung → gut zu interpretieren→ kein Vergleich verschiedener Merkmale Variationskoeffizient → relatives Maß→ Vergleich verschiedener Merkmale möglich Schiefe rechts                                                    links Zusammenhangsmaße → Stärke und Richtung des statistischen Zusammenhangs Nominale Daten Chi Quadrat Cramers V Metrische Daten Streudiagramm → graphische Darstellung→ Je näher einer Gerade, desto stärker Kovarianz → nicht gut interpretierbar Korrelationskoeffizient Ordinale Daten Rangkorrelationskoeffizient nach Spearman Zunächst werden Rangzahlen verteilt. Bei mehreren gleichen Ausprägungen bekommen diese Daten das arithmetische Mittel der Ränge. Wobei u = Rang x und y = Rang y Prognosemodelle Die Analyse statistischer Daten dient zur Vorhersage beobachteter Tatbestände.Der vom Modell erklärte Teil sollte dabei anteilig groß sein. Das Bestimmungsmaß B gibt an, ob eine Prognose verwendet werden sollte, je näher an 1 desto besser (Anteil Varianz)