Katalog
concept#Daten#Analyse#Observability#Software‑Engineering

Deskriptive Statistik

Grundlegende Techniken zur Zusammenfassung und Beschreibung von Datensätzen mittels Kennzahlen und Visualisierungen.

Deskriptive Statistik fasst numerische und kategoriale Daten durch Kennzahlen und Visualisierungen zusammen und beschreibt Verteilung, Lage, Streuung und Form.
Etabliert
Niedrig

Klassifikation

  • Niedrig
  • Technisch
  • Design
  • Fortgeschritten

Technischer Kontext

ETL-Pipelines und Data LakesBusiness-Intelligence- und Dashboard-ToolsStatistikbibliotheken (pandas, scipy, R)

Prinzipien & Ziele

Einfachheit vor Komplexität: verwende kompakte Kennzahlen zur schnellen Orientierung.Transparenz: Methoden und Berechnungen müssen nachvollziehbar dokumentiert werden.Kontextbewusstsein: Kennzahlen nur in Verbindung mit Domänenwissen interpretieren.
Erkundung
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Fehlinterpretation durch unvollständigen Kontext.
  • Übermäßiges Vertrauen in Kennzahlen ohne Unsicherheitsangaben.
  • Falsche Entscheidungen durch fehlerhafte Aggregation oder Sampling-Bias.
  • Nutze robuste Maße (Median, IQR) bei asynchroner Verteilung.
  • Dokumentiere Metrikdefinitionen und Berechnungsregeln.
  • Beziehe Konfidenzintervalle oder Unsicherheitsmaße mit ein.

I/O & Ressourcen

  • Rohdatensätze (CSV, Parquet, Datenbanken)
  • Metadaten und Feldbeschreibungen
  • Geschäftsziele und Analysefragen
  • Tabellarische Kennzahlen und zusammenfassende Statistiken
  • Visualisierungen (Histogramme, Boxplots, Zeitreihen)
  • Berichte mit Interpretationen und Empfehlungen

Beschreibung

Deskriptive Statistik fasst numerische und kategoriale Daten durch Kennzahlen und Visualisierungen zusammen und beschreibt Verteilung, Lage, Streuung und Form. Typische Kennzahlen sind Mittelwert, Median, Varianz, Standardabweichung und Häufigkeiten. Sie unterstützt Explorative Datenanalyse, Berichterstattung und Qualitätskontrolle und bildet die Basis inferenzieller Verfahren.

  • Schnelle Orientierung über Datenqualität und -struktur.
  • Einheitliche Basis für Berichte und Dashboards.
  • Grundlage für weiterführende inferenzielle Analysen.

  • Keine kausalen Aussagen; nur beschreibende Zusammenfassungen.
  • Aggregierte Kennzahlen können wichtige Details verschleiern.
  • Empfindlichkeit gegenüber Ausreißern bei bestimmten Maßen (z. B. Mittelwert).

  • Mittelwert

    Arithmetischer Durchschnitt als Maß für die zentrale Tendenz.

  • Median

    Der mittlere Wert, robust gegenüber Ausreißern.

  • Standardabweichung

    Maß für die Streuung der Daten um den Mittelwert.

Vertriebsdashboard mit Kennzahlen

Monatliche Verkaufszahlen werden mit Mittelwert, Median und Quartilen zusammengefasst, um Trends und Spitzen zu identifizieren.

Sensorbasiertes Qualitätsmonitoring

Produktionssensoren liefern Kennzahlen zur Streuung und Lage, um Prozessabweichungen frühzeitig zu erkennen.

A/B-Test-Reporting

Deskriptive Kennzahlen fassen Performance und Konversionsraten der Varianten zusammen und zeigen Grundmuster vor Inferenztests.

1

Datenzugriff und -bereinigung sicherstellen.

2

Relevante Kennzahlen definieren und berechnen.

3

Ergebnisse visualisieren und in Berichten zusammenfassen.

⚠️ Technische Schulden & Engpässe

  • Unklare oder uneinheitliche Metrikdefinitionen in Reports.
  • Veraltete ETL-Skripte ohne Tests für statistische Korrektheit.
  • Fehlende Automatisierung für Reproduzierbarkeit von Analysen.
fehlende-Metadateninkonsistente-Formateunvollstaendige-Samples
  • Mittelwert statt Median bei stark schiefen Daten führt zu falschen Schlussfolgerungen.
  • Hochaggregation über heterogene Gruppen maskiert Probleme in Subgruppen.
  • Nichtbeachten von Ausreißern bei Berechnung kritischer Kennzahlen.
  • Verwechslung von Korrelation und Kausalität.
  • Falsche Interpretation von Prozentwerten ohne Baseline.
  • Unzureichende Behandlung fehlender Werte vor Aggregation.
Grundkenntnisse Statistik (Mittelwert, Median, Streuung)Datenaufbereitung und -bereinigungGrundlagen der Datenvisualisierung
Datenverfügbarkeit und -qualitätAnforderungen an Reporting-FrequenzReproduzierbarkeit und Nachvollziehbarkeit
  • Verfügbare Rechenressourcen begrenzen Echtzeitanalysen.
  • Datenschutz und Compliance einschränken Zugriff und Aggregation.
  • Heterogene Datenquellen erfordern Normalisierung.