数据结构是数据管理的新兴设计理念,可应对数据复杂性的挑战。它旨在提供灵敏的企业数据基础,用于支持广泛的业务用例。数据结构的概念大体说来与 DataOps 以及数据现代化和数字创新计划密切相关。
数据结构好比一张挂毯,可将来自多个位置(边缘-核心-云)、类型和数据源的数据与访问该数据的方法连接起来。对于同时使用应用程序和系统的用户,该结构抽离了与基础存储、移动、转换、保护和处理数据相关的复杂性。
数据结构并非意在取代更传统的数据管理架构,包括数据湖、数据仓库、数据中心和数据库等。相反,数据结构采取统一的方法,将这些系统作为活跃的参与者纳入其中。
数据结构旨在通过自动化数据集成、数据治理和数据处理来简化数据复杂性。用于数据结构设计和管理的工具包括采用各种集成样式的数据管道;工作流管理、协调和策略管理;主动元数据和机器学习 (ML) 增强的数据管理;增强数据编目;数据虚拟化。
随着数据结构越来越多地涵盖跨多个云端、数据中心和边缘系统的数据,它通常借助基于容器的技术(例如 Kubernetes)和相关服务网格技术进行构建。
数据结构应当提供用于访问和收集所有数据的单一环境,无论数据位于何处,也无论存储方式如何 – 从而消除数据孤岛。数据管道的手动创建流程可能会拖慢运行,容易出错且作业庞杂,而相较之下,管道创建自动化则可令数据工程师更好地为数据使用者提供服务。
利用业务语义和元数据级别治理来丰富数据,有助于营造协作式自助服务环境,从而在客户 360 视图、欺诈检测、IoT 分析和诸多其他用例中实现新价值,并缩短价值实现时间。