Statistisches Testen
Systematische Methode zur Prüfung von Hypothesen anhand von Stichprobendaten, um Schlussfolgerungen mit quantifizierter Unsicherheit zu ermöglichen.
Klassifikation
- KomplexitätMittel
- AuswirkungTechnisch
- EntscheidungstypDesign
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Fehlinterpretation von p-Werten als Effektgrößen
- Datenfishing / p-hacking bei vielen Tests
- Unzureichende Power führt zu falsch negativen Ergebnissen
- Vorab-Testplan schreiben und Abweichungen dokumentieren
- Konfidenzintervalle neben p-Werten berichten
- Multiple-Testing-Korrekturen anwenden bei mehreren Hypothesen
I/O & Ressourcen
- Rohdaten oder aggregierte Messwerte
- Operationalisierte Hypothesen und Metriken
- Signifikanzniveau und gewünschte Power
- Teststatistiken, p-Werte und Konfidenzintervalle
- Entscheidungsempfehlung basierend auf vorher definierten Kriterien
- Dokumentation der Annahmen und Limitationen
Beschreibung
Statistisches Testen ist eine strukturierte Methode, um Hypothesen mittels Stichprobendaten zu prüfen und Schlussfolgerungen mit quantifizierter Unsicherheit zu treffen. Sie umfasst Auswahl von Teststatistiken, Signifikanzniveaus und Fehlerarten. Angewendet in Analyse, Qualitätssicherung und A/B-Testing zur datenbasierten Entscheidungsfindung. Erforderlich sind klare Hypothesen, geeignete Datengrößen und Annahmeprüfungen.
✔Vorteile
- Ermöglicht fundierte, datenbasierte Entscheidungen
- Quantifiziert Unsicherheit und Fehlerwahrscheinlichkeiten
- Standardisierte Prozeduren erleichtern Reproduzierbarkeit
✖Limitationen
- Abhängig von Stichprobengröße und Datenqualität
- Fehleranfällig bei Verstoß gegen Verteilungsannahmen
- Mehrfachtests erfordern Anpassungen (z. B. Bonferroni)
Trade-offs
Metriken
- p-Wert
Wahrscheinlichkeit, unter der Nullhypothese ein gleiches oder extremeres Ergebnis zu beobachten.
- Power (Teststärke)
Wahrscheinlichkeit, einen vorhandenen Effekt korrekt zu erkennen.
- Konfidenzintervallbreite
Maß für die Präzision der Schätzung der Effektgröße.
Beispiele & Implementierungen
A/B-Test zur Checkout-Optimierung
Vergleich zweier Checkout-Flows mit t-Test und Konfidenzintervallen zur Entscheidungsfindung.
Prüfung der Messgenauigkeit von Sensoren
Statistische Analyse von Messreihen gegen Sollwerte mit Hypothesentests zur Freigabe.
Regressionstest nach Backend-Änderung
Vergleich von Leistungskennzahlen vor und nach Änderung mit nichtparametrischen Tests.
Implementierungsschritte
Hypothesen und Zielmetriken definieren
Stichprobenumfang und Signifikanzniveau planen (Power-Analyse)
Test durchführen, Annahmen prüfen und Ergebnisse dokumentieren
⚠️ Technische Schulden & Engpässe
Tech Debt
- Unzureichend automatisierte Testpipelines
- Fehlende Standardisierung von Metrik-Definitionen
- Alte Analyseskripte ohne Reproduzierbarkeit und Tests
Bekannte Engpässe
Beispiele für Missbrauch
- Durchführung eines t-Tests bei stark schiefverteilten Daten ohne Transformation
- A/B-Test mit zu kurzer Laufzeit und unzureichender Stichprobe
- Mehrere Metriken testen ohne Korrektur, um positive Ergebnisse zu erzwingen
Typische Fallen
- Verwechslung von statistischer und praktischer Signifikanz
- Unterschätzung des Einflusses von Konfoundern
- Nichtberücksichtigung von Ausfallraten und Datenverlust
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Verfügbarkeit repräsentativer Daten
- • Zeitliche Limitationen für Stichprobenerhebung
- • Regulatorische Vorgaben bei sensiblen Daten