Zentralwert
Grundlegendes Statistik-Konzept zur Beschreibung des typischen Werts einer Verteilung (Mittelwert, Median, Modus).
Klassifikation
- KomplexitätMittel
- AuswirkungTechnisch
- EntscheidungstypDesign
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Falsche Wahl führt zu verzerrten Entscheidungen.
- Nichtberücksichtigung von Ausreißern verfälscht Kennzahlen.
- Unangemessene Aggregation über heterogene Gruppen.
- Vergleiche Mittelwert, Median und Modus systematisch.
- Nutze robuste Maße bei bekannten Ausreißern.
- Behalte Verteilung und Streuung zusätzlich zum Zentralwert bei.
I/O & Ressourcen
- Rohdaten oder aggregierte Zeitreihen
- Verteilungsdiagnosen (Histogramme, QQ-Plots)
- Zielkontext (Reporting, Modelltraining)
- Ausgewählter Zentralwert pro Merkmal
- Dokumentation der Auswahlentscheidung
- Erwartete Auswirkungen auf Modelle und Kennzahlen
Beschreibung
Zentralwerte fassen einen Datensatz durch einen einzelnen repräsentativen Wert zusammen (Mittelwert, Median, Modus). Sie unterstützen Reporting, Vergleich und Modellierung, indem sie das ‚Zentrum‘ der Verteilung beschreiben. Die Wahl hängt von Skalenniveau, Verteilung und Ausreißern ab; Kenntnisse über Kompromisse sind für korrekte Interpretation nötig.
✔Vorteile
- Verdichtet Informationen auf einen interpretierbaren Wert.
- Ermöglicht schnelle Vergleiche zwischen Gruppen.
- Hilfreich für Reporting, Imputation und Baseline-Tests.
✖Limitationen
- Verliert Informationen über Streuung und Form der Verteilung.
- Mittelwert ist empfindlich gegenüber Ausreißern.
- Modus ist bei multimodalen Verteilungen missverständlich.
Trade-offs
Metriken
- Differenz Mittelwert vs. Median
Misst Asymmetrie und Einfluss von Ausreißern.
- Robustheitsindex
Bewertet Stabilität des Zentralwertes bei Stichprobenänderung.
- Erklärungsfähigkeit (Stakeholder-Verständnis)
Qualitative Bewertung, wie gut ein Maß kommunizierbar ist.
Beispiele & Implementierungen
Median bei Gehaltsdaten
Gehaltsverteilungen sind rechtsschief; Median liefert realistischeren Mittelwert.
Mittelwert bei symmetrischer Verteilung
Bei normalverteilten Messwerten ist der arithmetische Mittelwert informativ und effizient.
Modus für kategorische Merkmale
Beim häufigsten Kategorieeintrag ist der Modus das passende Repräsentantenmaß.
Implementierungsschritte
Datenexploration und Verteilungsanalyse durchführen.
Geeignete Zentralmaße für jede Variable bestimmen.
Ergebnisse dokumentieren und in Reporting/Modelle integrieren.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Legacy-Reports nutzen veraltete Aggregationsregeln.
- Automatisierte Pipelines ohne Verteilungskontrollen.
- Mangelnde Dokumentation von Imputationsentscheidungen.
Bekannte Engpässe
Beispiele für Missbrauch
- Mittelwert von Einkommen in stark rechtsschiefer Verteilung ohne Medianangabe.
- Modus als Zusammenfassung für kontinuierliche Messwerte.
- Einheitliche Imputation mit Mittelwert bei stark fehlenden und verzerrten Daten.
Typische Fallen
- Verwechslung von Repräsentativität und statistischer Effizienz.
- Nichtbeachtung von Skalenniveau (nominal vs. metrisch).
- Unzureichende Kommunikation der Einschränkungen gegenüber Stakeholdern.
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Annahmen über Verteilung müssen dokumentiert werden.
- • Aggregationen können Informationsverlust bedeuten.
- • Skalenniveau begrenzt geeignete Maße (nominal vs. metrisch).