企业正被数据淹没。对于现代的数据驱动型企业来说,结构化、半结构化或非结构化数据无处不在。但对于希望将数据转化为可用信息,实现业务成功的企业来说,这也是一项挑战。
庞大的数据量对企业寻找值得信赖、可靠的数据来推动业务决策的能力提出了挑战。传统数据目录仅提供结构化数据发现。没有端到端解决方案来帮助企业发现所有数据类型的可信数据。
我们需要一个将数据挑战的三个关键组成部分——数据发现、数据可观察性和数据可靠性——结合在一起的解决方案。
这三个组成部分也越来越符合企业应用数据来提高工作绩效、做出合理商业决策,以及从数据中获取价值的需求。
数据发现
无论数据是PDF文档、Word文档、关系数据库、日志还是机器记录的遥测数据,典型的企业都拥有大量数据。最近的一项研究opens in a new tab计算出,典型企业存储的数据总量为10PB,相当于230多亿个文件,其中超过一半(52%)被视为暗数据,即根本没有赋予任何价值的数据。
存在如此大量非机密数据的原因很简单:任何企业中的任何人都没有足够的时间去了解其数据中有多少百分比有价值。收集和集成这些数据通常需要从多个不同来源、格式、系统供应商和多个本地位置、跨多个云和边缘架构手动提取数据。
数据发现的概念与读取或分析数据是同义词。新的人工智能和机器学习 软件工具(例如Pentaho Data Catalog)允许企业自动对数据文件进行分类、标记和管理,以了解其数据质量。这些工具允许企业生成有关数据或其元数据的见解,了解数据内容和背景。例如,它可以揭示某人的姓名在医院的患者医疗记录中被提及的次数,也可以显示“利率”一词在客户财务记录中使用的次数。
这对于希望确定其数据价值、对客户产生积极影响或产生更好的业务流程的企业来说至关重要。只有通过自动化数据发现过程,企业才能迈出获取数据见解的第一步。
数据可观测性
成功数据战略的第二个支柱是确保数据对业务用户可见且有意义。数据可观测性提供了监控整个企业数据使用情况的能力。监控对于回答以下问题至关重要:谁在使用数据?数据源自何处?数据被更改了吗?如果被更改了,是什么时候、在哪里、为什么以及由谁更改的?
数据可观测性为企业提供了跟踪和记录每个数据文件、文档或记录的能力。有了这些信息,企业就可以为正常行为创建基准。这种理解对于保护企业免受网络攻击至关重要。它使企业更容易识别潜在威胁或异常行为。
数据可观测性还使企业能够识别那些在收集后从未被触及或使用过的数据。“暗数据”或“死数据”可能永远不会对企业产生价值。企业可以确定是否应将未使用的数据转移到成本较低的存储介质、存档或淘汰。最后,数据可观测性使企业能够了解其在日常运营中如何使用数据。它使企业能够实时监控数据,更灵活地改进业务流程,甚至有助于实现可持续发展目标。
数据可靠性
成功数据策略的第三大支柱是确定数据是否值得信赖和可靠。在制定关键任务决策时,数据是否值得信赖?数据可靠性由该策略的另外两个支柱实现:
- 数据发现:围绕“数据是什么”的自动化过程。
- 数据可观察性:监控整个企业的数据使用情况。
- 数据可靠性:数据来自哪里?质量如何?准确吗?我信任该数据的来源吗?谁更改了它?端到端是否一致?
单一真实版本
基于这三大支柱构建数据战略,使企业能够应用其数据来改善业务运营、实现更好的业务决策,推动整个企业的人工智能辅助自动化。
关键的第一步是实现数据发现自动化。只有通过数据发现自动化,企业才能获得所有数据的情报。这是通过了解其数据的正确和最准确版本,创建单一真实版本的关键。企业将知道这些数据是值得信赖和可靠的,可以为更好的业务决策提供信息,推动未来的业务成功。
Liam Yu是Hitachi Vantara数据管理部门的高级产品营销经理。

Liam Yu
Liam Yu is Senior Product Solutions Marketing Manager, Integrated Systems at Hitachi Vantara. Connect with Liam on LinkedInopens in a new tab