Katalog
concept#Daten#Integration#Architektur#Sicherheit

Datenquelle

Ursprung von Daten, der Formate, Semantik und Aktualität definiert; Grundlage für Integration und Datenqualität.

Eine Data Source ist die ursächliche Herkunft von Daten in Systemen: Systeme, Dateien, Sensoren oder APIs, die Daten erzeugen oder bereitstellen.
Etabliert
Mittel

Klassifikation

  • Mittel
  • Technisch
  • Architektur
  • Fortgeschritten

Technischer Kontext

Relationale Datenbanken (z. B. PostgreSQL)Nachrichtenbroker (z. B. Kafka)Datenplattformen / Data Lakes

Prinzipien & Ziele

Explizite Herkunft und Verantwortlichkeit dokumentierenKlare Verträge (Schemas/SLAs) zwischen Quelle und Verbrauchern definierenMetadaten und Semantik zentral verwalten
Erkundung
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Fehlerhafte Quellen führen zu falschen Analysen
  • Datensicherheitsverletzungen bei unsicherer Integration
  • Hoher Aufwand für Anpassungen bei Schemaänderungen
  • Quellen-Contracts (Schema + SLA) früh festlegen
  • Provenance und Metadaten konsistent speichern
  • Validierung an der Eingangsschnittstelle durchführen

I/O & Ressourcen

  • Endpoint-URL oder Dateipfad
  • Schema- oder Datenmodellbeschreibung
  • Zugriffs-Credentials und Berechtigungen
  • Ingestierte, normalisierte Daten
  • Metadaten und Provenance-Informationen
  • Qualitäts- und Validierungsreports

Beschreibung

Eine Data Source ist die ursächliche Herkunft von Daten in Systemen: Systeme, Dateien, Sensoren oder APIs, die Daten erzeugen oder bereitstellen. Sie definiert Format, Semantik, Aktualisierungsfrequenz und Vertrauenswürdigkeit und ist zentral für Datenintegration, Qualitätssicherung und Governance. Das Verständnis von Data Sources ist grundlegend für Architektur-, Datenschutz- und Betriebsentscheidungen.

  • Verbesserte Nachvollziehbarkeit und Auditierbarkeit von Daten
  • Bessere Datenqualität durch frühzeitige Validierung
  • Ermöglicht gezielte Integration und effiziente Transformationen

  • Quellen können unzuverlässig oder inkonsistent sein
  • Einschränkungen durch SLA, Zugriffslimits oder Formate
  • Privatsphäre- und Compliance-Beschränkungen können Nutzung begrenzen

  • Freshness (Aktualität)

    Zeit seit der letzten Aktualisierung der Quelle; wichtig für zeitkritische Daten.

  • Vollständigkeit

    Anteil erwarteter Felder/Datensätze, die erfolgreich geliefert wurden.

  • Fehlerrate bei Ingest

    Anteil fehlerhafter oder verworfener Datensätze während der Aufnahme.

IoT-Plattform als Datenquelle

Sensoren liefern Telemetrie an eine IoT-Plattform, die als primäre Data Source für Analysen dient.

Legacy-ERP als Stammdatenquelle

Ein altes ERP-System bleibt die autoritative Quelle für Produkt- und Kundenstammdaten.

Third-Party-API für Marktpreise

Ein externer Marktdatenanbieter stellt Preisdaten über eine API bereit; Aktualität und SLA sind entscheidend.

1

Quelleninventar erstellen und priorisieren

2

Schemas und Verträge definieren

3

Ingest-Pipelines mit Validierung und Monitoring aufbauen

4

Metadaten- und Governance-Prozesse etablieren

⚠️ Technische Schulden & Engpässe

  • Legacy-Connectoren ohne Automatisierung
  • Hartkodierte Credentials in Ingest-Skripten
  • Fehlende zentrale Metadatensammlung
Netzwerk-LatenzSchema-InkompatibilitätenRate-Limits / Throttling
  • Ein öffentliches, unzuverlässiges API für Berichte verwenden
  • Verschiedene Quellformate ohne Mapping zusammenführen
  • Sensible Felder offen zulassen statt zu maskieren
  • Annahme, dass Quellen unveränderlich sind
  • Ignorieren von Rate-Limits und Backoff-Mechanismen
  • Zeit- und Zeitzonenprobleme bei Timestamps übersehen
Datenmodellierung und SemantikAPI-Integration und AuthentifizierungETL/ELT-Entwicklung und Validierung
Skalierbarkeit der DatenaufnahmeDatenqualität und VertrauenswürdigkeitRegulatorische Anforderungen und Compliance
  • Rechtliche Vorgaben und Datenschutz
  • Vorhandene Datenformate und Protokolle
  • Zugriffsrechte und Authentifizierung