Statistik
- Grundlagen der deskriptiven Statistik
- Tabellarische und graphische Darstellung
- Lageparameter
- Streuungsparameter
- Zusammenhangsmaße
- Prognosemodelle
Grundlagen der deskriptiven Statistik
Grundbegriffe
Merkmalsträger - Objekte, über die Daten vorliegen
Grundgesamtheit - Alle potentiellen Merkmalsträger
Merkmal - Beobachtete Eigenschaft
Merkmalsausprägung - Möglicher Wert
Wertebereich - Gesamtheit aller realisierten Werte
Merkmalsausprägungen
Nominal - Kann man nicht ordnen
Ordinal - Rangfolge
Metrisch - Maßeinheit
Diskret - Nur bestimmte Ausprägungen
Stetig - Alle möglichen innerhalb eines Intervalls
Metrische Daten können intervallskaliert wie bei Grad Celsius oder verhältnisskaliert wie bei Grad Kelvin sein.
Besondere Vorsicht ist geboten, wenn nominale Werte codiert werden oder wenn stetige Merkmale künstlich diskretisiert werden.
Tabellarische und graphische Darstellung
Man kann für ein Merkmal die absolute Häufigkeit und die relative Häufigkeit (%) messen. Die absolute Häufigkeit liefert dabei auch die Größe der Stichprobe. Mit den relativen Häufigkeiten lassen sich besser Vergleiche anstellen.
Stetige Merkmale sollten zu Klassen zusammengefasst werden.
Absolute Häufigkeit
Relative Häufigkeit
Bedingte Häufigkeit
→ Ein Merkmal fixieren
Wenn die bedingten Merkmalsausprägungen mit den Randverteilungen übereinstimmen, sind sie unabhängig.
Die Unabhängigkeit wird eigentlich nie vollständig erreicht.
Lageparameter
Arithmetisches Mittel
→ Sehr Ausreißer anfällig
Median
Wert, der Reihe in zwei Teile zerlegt
→ relativ unempfindlich gegenüber Ausreißern
Modus
Häufigster Wert
→ Ausreißer robust
Nominal: Modus
Ordinal: Modus, Median
Metrisch: Modus, Median, Mittelwert
Perzentile
→ Schneidet Werte in zwei Teile
50-50 → Median
25-75 → Unteres Quartil
75-25 → Oberes Quartil
Der Boxplot
→ Graphische Darstellung der Verteilung
Das geometrische Mittel
Mit x1 = Wachstumsfaktor, z.B. 1,05 bei 5% Zunahme oder 0,95 bei Abnahme
Streuungsparameter
Die Streuung der Werte gibt die Abweichungen vom Mittelwert an.
Für nominal skalierte Werte gibt es kein Streuungsmaß.
Spannweite
→ extrem empfindlich bei Ausreißern
Quartilsabstand
Mittlere absolute Abweichung
→ kein Vergleich verschiedener Merkmale möglich
Varianz
→ schwer zu interpretieren
→ kein Vergleich verschiedener Merkmale
Standardabweichung
→ gut zu interpretieren
→ kein Vergleich verschiedener Merkmale
Variationskoeffizient
→ relatives Maß
→ Vergleich verschiedener Merkmale möglich
Schiefe
rechts links
Zusammenhangsmaße
→ Stärke und Richtung des statistischen Zusammenhangs
Nominale Daten
Chi Quadrat
Cramers V
Metrische Daten
Streudiagramm
→ graphische Darstellung
→ Je näher einer Gerade, desto stärker
Kovarianz
→ nicht gut interpretierbar
Korrelationskoeffizient
Ordinale Daten
Rangkorrelationskoeffizient nach Spearman
Zunächst werden Rangzahlen verteilt. Bei mehreren gleichen Ausprägungen bekommen diese Daten das arithmetische Mittel der Ränge.
Wobei u = Rang x und y = Rang y
Prognosemodelle
Die Analyse statistischer Daten dient zur Vorhersage beobachteter Tatbestände.
Der vom Modell erklärte Teil sollte dabei anteilig groß sein.
Das Bestimmungsmaß B gibt an, ob eine Prognose verwendet werden sollte, je näher an 1 desto besser (Anteil Varianz)