Datenquelle
Ursprung von Daten, der Formate, Semantik und Aktualität definiert; Grundlage für Integration und Datenqualität.
Klassifikation
- KomplexitätMittel
- AuswirkungTechnisch
- EntscheidungstypArchitektur
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Fehlerhafte Quellen führen zu falschen Analysen
- Datensicherheitsverletzungen bei unsicherer Integration
- Hoher Aufwand für Anpassungen bei Schemaänderungen
- Quellen-Contracts (Schema + SLA) früh festlegen
- Provenance und Metadaten konsistent speichern
- Validierung an der Eingangsschnittstelle durchführen
I/O & Ressourcen
- Endpoint-URL oder Dateipfad
- Schema- oder Datenmodellbeschreibung
- Zugriffs-Credentials und Berechtigungen
- Ingestierte, normalisierte Daten
- Metadaten und Provenance-Informationen
- Qualitäts- und Validierungsreports
Beschreibung
Eine Data Source ist die ursächliche Herkunft von Daten in Systemen: Systeme, Dateien, Sensoren oder APIs, die Daten erzeugen oder bereitstellen. Sie definiert Format, Semantik, Aktualisierungsfrequenz und Vertrauenswürdigkeit und ist zentral für Datenintegration, Qualitätssicherung und Governance. Das Verständnis von Data Sources ist grundlegend für Architektur-, Datenschutz- und Betriebsentscheidungen.
✔Vorteile
- Verbesserte Nachvollziehbarkeit und Auditierbarkeit von Daten
- Bessere Datenqualität durch frühzeitige Validierung
- Ermöglicht gezielte Integration und effiziente Transformationen
✖Limitationen
- Quellen können unzuverlässig oder inkonsistent sein
- Einschränkungen durch SLA, Zugriffslimits oder Formate
- Privatsphäre- und Compliance-Beschränkungen können Nutzung begrenzen
Trade-offs
Metriken
- Freshness (Aktualität)
Zeit seit der letzten Aktualisierung der Quelle; wichtig für zeitkritische Daten.
- Vollständigkeit
Anteil erwarteter Felder/Datensätze, die erfolgreich geliefert wurden.
- Fehlerrate bei Ingest
Anteil fehlerhafter oder verworfener Datensätze während der Aufnahme.
Beispiele & Implementierungen
IoT-Plattform als Datenquelle
Sensoren liefern Telemetrie an eine IoT-Plattform, die als primäre Data Source für Analysen dient.
Legacy-ERP als Stammdatenquelle
Ein altes ERP-System bleibt die autoritative Quelle für Produkt- und Kundenstammdaten.
Third-Party-API für Marktpreise
Ein externer Marktdatenanbieter stellt Preisdaten über eine API bereit; Aktualität und SLA sind entscheidend.
Implementierungsschritte
Quelleninventar erstellen und priorisieren
Schemas und Verträge definieren
Ingest-Pipelines mit Validierung und Monitoring aufbauen
Metadaten- und Governance-Prozesse etablieren
⚠️ Technische Schulden & Engpässe
Tech Debt
- Legacy-Connectoren ohne Automatisierung
- Hartkodierte Credentials in Ingest-Skripten
- Fehlende zentrale Metadatensammlung
Bekannte Engpässe
Beispiele für Missbrauch
- Ein öffentliches, unzuverlässiges API für Berichte verwenden
- Verschiedene Quellformate ohne Mapping zusammenführen
- Sensible Felder offen zulassen statt zu maskieren
Typische Fallen
- Annahme, dass Quellen unveränderlich sind
- Ignorieren von Rate-Limits und Backoff-Mechanismen
- Zeit- und Zeitzonenprobleme bei Timestamps übersehen
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Rechtliche Vorgaben und Datenschutz
- • Vorhandene Datenformate und Protokolle
- • Zugriffsrechte und Authentifizierung