Statistik

Grundlagen der deskriptiven Statistik

Grundbegriffe

Merkmalsträger - Objekte, über die Daten vorliegen
Grundgesamtheit - Alle potentiellen Merkmalsträger
Merkmal - Beobachtete Eigenschaft
Merkmalsausprägung - Möglicher Wert
Wertebereich - Gesamtheit aller realisierten Werte

Merkmalsausprägungen

Nominal - Kann man nicht ordnen
Ordinal - Rangfolge
Metrisch - Maßeinheit

Diskret - Nur bestimmte Ausprägungen
Stetig - Alle möglichen innerhalb eines Intervalls

Metrische Daten können intervallskaliert wie bei Grad Celsius oder verhältnisskaliert wie bei Grad Kelvin sein.
Besondere Vorsicht ist geboten, wenn nominale Werte codiert werden oder wenn stetige Merkmale künstlich diskretisiert werden.

Tabellarische und graphische Darstellung

Man kann für ein Merkmal die absolute Häufigkeit und die relative Häufigkeit (%) messen. Die absolute Häufigkeit liefert dabei auch die Größe der Stichprobe. Mit den relativen Häufigkeiten lassen sich besser Vergleiche anstellen.
Stetige Merkmale sollten zu Klassen zusammengefasst werden.

Absolute Häufigkeit

image-1635883067105.png

Relative Häufigkeit

image-1635883249376.png

Bedingte Häufigkeit

→ Ein Merkmal fixieren

image-1635883206720.png

Wenn die bedingten Merkmalsausprägungen mit den Randverteilungen übereinstimmen, sind sie unabhängig.

Die Unabhängigkeit wird eigentlich nie vollständig erreicht.

Lageparameter

Arithmetisches Mittel

image-1635883525965.png

→ Sehr Ausreißer anfällig


Median

Wert, der Reihe in zwei Teile zerlegt

image-1635883561228.png

→ relativ unempfindlich gegenüber Ausreißern


Modus

Häufigster Wert
→ Ausreißer robust


Nominal: Modus
Ordinal: Modus, Median
Metrisch: Modus, Median, Mittelwert


Perzentile

→ Schneidet Werte in zwei Teile
50-50 → Median
25-75 → Unteres Quartil
75-25 → Oberes Quartil


Der Boxplot

→ Graphische Darstellung der Verteilung

image-1635883696281.png


Das geometrische Mittel

image-1635883762287.png

Mit x1 = Wachstumsfaktor, z.B. 1,05 bei 5% Zunahme oder 0,95 bei Abnahme

 

Streuungsparameter

Die Streuung der Werte gibt die Abweichungen vom Mittelwert an.
Für nominal skalierte Werte gibt es kein Streuungsmaß.

Spannweite

image-1635884113827.png

→ extrem empfindlich bei Ausreißern


Quartilsabstand

image-1635884139695.png


Mittlere absolute Abweichung

image-1635884219435.png

→ kein Vergleich verschiedener Merkmale möglich


Varianz

image-1635884299281.png

→ schwer zu interpretieren
→ kein Vergleich verschiedener Merkmale


Standardabweichung

image-1635884387543.png

→ gut zu interpretieren
→ kein Vergleich verschiedener Merkmale


Variationskoeffizient

image-1635884448119.png

→ relatives Maß
→ Vergleich verschiedener Merkmale möglich


Schiefe

rechts                                                    links

image-1635884464517.png

 

Zusammenhangsmaße

→ Stärke und Richtung des statistischen Zusammenhangs

Nominale Daten

Chi Quadrat

image-1635884664932.png

image-1635884715437.png

Cramers V

image-1635884846048.png

Metrische Daten

Streudiagramm

→ graphische Darstellung
→ Je näher einer Gerade, desto stärker

image-1635884911875.png

Kovarianz

image-1635884996253.png

→ nicht gut interpretierbar

Korrelationskoeffizient

image-1635885050204.png

Ordinale Daten

Rangkorrelationskoeffizient nach Spearman

Zunächst werden Rangzahlen verteilt. Bei mehreren gleichen Ausprägungen bekommen diese Daten das arithmetische Mittel der Ränge.

image-1635885146648.png

Wobei u = Rang x und y = Rang y

 

Prognosemodelle

Die Analyse statistischer Daten dient zur Vorhersage beobachteter Tatbestände.
Der vom Modell erklärte Teil sollte dabei anteilig groß sein.

image-1635885298209.png

Das Bestimmungsmaß B gibt an, ob eine Prognose verwendet werden sollte, je näher an 1 desto besser (Anteil Varianz)

image-1635885351884.png