Die Datenstruktur ist ein neues Designkonzept für das Datenmanagement, um den Herausforderungen der Datenkomplexität zu begegnen. Es zielt darauf ab, eine flexible Grundlage für Unternehmensdaten bereitzustellen, um eine Vielzahl von geschäftlichen Anwendungsfällen zu unterstützen. Der Begriff der Datenstruktur ist eng mit DataOps und Initiativen zur Datenmodernisierung sowie der digitalen Innovation im Allgemeinen verbunden.
Eine Datenstruktur kann man sich als eine Tapisserie vorstellen, die Daten mehrerer Standorte (Edge-Kern-Cloud), Datentypen und Datenquellen mit Methoden für den Zugriff auf diese Daten verbindet. Für Benutzer, die sowohl Anwendungen als auch Systeme konsumieren, abstrahiert es die Komplexität, die mit der zugrunde liegenden Speicherung, Verschiebung, Transformation, Sicherung und Verarbeitung von Daten verbunden ist.
Eine Datenstruktur ist kein Ersatz für traditionellere Datenmanagementarchitekturen wie Data Lakes, Data Warehouses, Daten-Hubs und Datenbanken. Vielmehr bezieht eine Datenstruktur diese Systeme als aktive Teilnehmer in einem einheitlichen Ansatz ein.
Die Datenstruktur zielt darauf ab, die Datenkomplexität durch die Automatisierung von Datenintegration, Data Governance und Datenverarbeitung zu vereinfachen. Zu den Tools für die Entwicklung und die Verwaltung von Datenstrukturen gehören Datenpipelines mit verschiedenen Integrationsstilen, Workflow-Management, Orchestrierung und Richtlinienmanagement, aktive Metadaten und maschinelles Lernen (ML), erweitertes Datenmanagement, erweiterte Datenkatalogisierung und Datenvirtualisierung.
Da sich die Datenstruktur zunehmend über mehrere Clouds, Rechenzentren und Edge-Systeme erstreckt, wird sie in der Regel mithilfe Container-basierter Technologien (wie Kubernetes) und verwandter Service-Mesh-Technologien aufgebaut.
Die Datenstruktur sollte eine einzige Umgebung für den Zugriff und die Sammlung aller Daten bereitstellen – unabhängig davon, wo sie sich befinden und wie sie gespeichert sind – und damit Datensilos eliminieren. Im Vergleich zum manuellen Prozess der Datenpipeline-Erstellung, der zu langsamer, fehleranfälliger und redundanter Arbeit führt, haben Data Engineers durch eine Automatisierung der Pipeline-Erstellung die Möglichkeit, Datenkonsumenten besser zu bedienen.
Die Anreicherung von Daten mit Geschäftssemantik und Governance auf Metadaten-Ebene fördert eine kollaborative Self-Service-Umgebung, die eine neue und schnellere Wertschöpfung in 360-Grad-Ansichten des Kunden, Betrugserkennung, IoT-Analysen und vielen anderen Anwendungsfällen ermöglicht.