Deskriptive Statistik
Grundlegende Techniken zur Zusammenfassung und Beschreibung von Datensätzen mittels Kennzahlen und Visualisierungen.
Klassifikation
- KomplexitätNiedrig
- AuswirkungTechnisch
- EntscheidungstypDesign
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Fehlinterpretation durch unvollständigen Kontext.
- Übermäßiges Vertrauen in Kennzahlen ohne Unsicherheitsangaben.
- Falsche Entscheidungen durch fehlerhafte Aggregation oder Sampling-Bias.
- Nutze robuste Maße (Median, IQR) bei asynchroner Verteilung.
- Dokumentiere Metrikdefinitionen und Berechnungsregeln.
- Beziehe Konfidenzintervalle oder Unsicherheitsmaße mit ein.
I/O & Ressourcen
- Rohdatensätze (CSV, Parquet, Datenbanken)
- Metadaten und Feldbeschreibungen
- Geschäftsziele und Analysefragen
- Tabellarische Kennzahlen und zusammenfassende Statistiken
- Visualisierungen (Histogramme, Boxplots, Zeitreihen)
- Berichte mit Interpretationen und Empfehlungen
Beschreibung
Deskriptive Statistik fasst numerische und kategoriale Daten durch Kennzahlen und Visualisierungen zusammen und beschreibt Verteilung, Lage, Streuung und Form. Typische Kennzahlen sind Mittelwert, Median, Varianz, Standardabweichung und Häufigkeiten. Sie unterstützt Explorative Datenanalyse, Berichterstattung und Qualitätskontrolle und bildet die Basis inferenzieller Verfahren.
✔Vorteile
- Schnelle Orientierung über Datenqualität und -struktur.
- Einheitliche Basis für Berichte und Dashboards.
- Grundlage für weiterführende inferenzielle Analysen.
✖Limitationen
- Keine kausalen Aussagen; nur beschreibende Zusammenfassungen.
- Aggregierte Kennzahlen können wichtige Details verschleiern.
- Empfindlichkeit gegenüber Ausreißern bei bestimmten Maßen (z. B. Mittelwert).
Trade-offs
Metriken
- Mittelwert
Arithmetischer Durchschnitt als Maß für die zentrale Tendenz.
- Median
Der mittlere Wert, robust gegenüber Ausreißern.
- Standardabweichung
Maß für die Streuung der Daten um den Mittelwert.
Beispiele & Implementierungen
Vertriebsdashboard mit Kennzahlen
Monatliche Verkaufszahlen werden mit Mittelwert, Median und Quartilen zusammengefasst, um Trends und Spitzen zu identifizieren.
Sensorbasiertes Qualitätsmonitoring
Produktionssensoren liefern Kennzahlen zur Streuung und Lage, um Prozessabweichungen frühzeitig zu erkennen.
A/B-Test-Reporting
Deskriptive Kennzahlen fassen Performance und Konversionsraten der Varianten zusammen und zeigen Grundmuster vor Inferenztests.
Implementierungsschritte
Datenzugriff und -bereinigung sicherstellen.
Relevante Kennzahlen definieren und berechnen.
Ergebnisse visualisieren und in Berichten zusammenfassen.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Unklare oder uneinheitliche Metrikdefinitionen in Reports.
- Veraltete ETL-Skripte ohne Tests für statistische Korrektheit.
- Fehlende Automatisierung für Reproduzierbarkeit von Analysen.
Bekannte Engpässe
Beispiele für Missbrauch
- Mittelwert statt Median bei stark schiefen Daten führt zu falschen Schlussfolgerungen.
- Hochaggregation über heterogene Gruppen maskiert Probleme in Subgruppen.
- Nichtbeachten von Ausreißern bei Berechnung kritischer Kennzahlen.
Typische Fallen
- Verwechslung von Korrelation und Kausalität.
- Falsche Interpretation von Prozentwerten ohne Baseline.
- Unzureichende Behandlung fehlender Werte vor Aggregation.
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Verfügbare Rechenressourcen begrenzen Echtzeitanalysen.
- • Datenschutz und Compliance einschränken Zugriff und Aggregation.
- • Heterogene Datenquellen erfordern Normalisierung.