数据目录已成为企业数据管理策略的重要组成部分,但选择合适的数据目录并不是简单的事情。在做决定前,必须了解市场上的各种选项以及应优先考虑端事项。
数据目录是元数据管理工具,可帮助企业查找和管理大量数据。数据目录背后的想法是将元数据集中在一个位置,并提供整个数据库中数据的完整视图。它还包含有关每个特定数据点位置的信息。
在选择供应商之前,企业需要了解这个市场以及他们的需求和期望。本文可帮助你选择最适合你企业数据的数据目录。
为什么数据目录很重要
Gartner公司高级研究主管Joe Maguire认为,企业对数据目录工具的需求主要源自三个方面。
企业使用数据目录的第一推动因素是元数据管理变得越来越困难。数据架构更加复杂,并且数据量太大,以至于无法手动收集和描述元数据。
Maguire说:“即使是旨在简化架构的技术(例如数据湖提供单个架构组件用于存储各种数据)也可能使元数据管理变得复杂。”
面对数据量不断增长,有些企业并没有扩大其元数据管理。
Maguire说:“正是由于忽略数据湖中的元数据,人们不得不创造出‘数据沼泽’的术语,以描述数据混乱而无人可清理的数据湖。”
第二个因素是,随着企业追求自助服务分析和数据科学,对数据治理的需求也在增加。这也导致对数据目录的更高需求。元数据是数据治理的基础,数据目录使访问元数据更加容易。
第三个因素是这个市场已经证明自己的价值。供应商的产品已经变得越来越多样化,并可真正帮助需要数据治理和元数据管理的企业。自动元数据发现、数据沿袭和对数据管理活动的支持等功能,使数据目录对企业具有吸引力。
数据目录类别
根据Maguire的说法,在讨论数据目录时,最重要的区别是了解企业数据目录和嵌入式数据目录之间的差异。
Maguire说:“企业数据目录旨在整合来自各种元数据孤岛的元数据,而嵌入式数据目录是其他产品中提供的元数据管理功能集。”
企业数据目录选项可以是DBMS、数据仓库或BI平台。嵌入式数据目录则形成元数据孤岛–企业数据目录试图整合的元数据孤岛。
下面是最常见数据目录:
独立数据目录。这些数据目录具有通用性、独立性和面向业务的特点,可广泛用于数据管理、分析和数据治理。此选项适用于必须对多个用例进行数据分类的企业。目前提供独立数据目录的供应商包括Alation、Collibra、Informatica和Data.World。
提供目录功能的元数据管理工具。现代数据目录主要针对数据管理员和数据分析师,他们可自动执行元数据管理任务。Gartner在有关增强数据目录的最新报告中警告说,有些供应商将其元数据管理工具重新命名为数据目录。你应该自己做研究以确保你选择正确的工具。
具有数据目录功能的Data Lake支持工具。随着企业继续构建数据湖,他们需要可搜索且可重复使用的数据。这导致供应商在其产品中增加数据目录方面。Zaloni和Cloudera Navigator都属于此类。那些因采用数据湖而感到畏缩的企业可考虑这些供应商。
当你的企业确定选择企业数据目录或嵌入式数据目录后,你就可以继续寻找功能。好的数据目录应该提供很多功能。
好的数据目录应该提供什么?
作为企业,应该由你自己的团队来确定哪种产品与你的数据最相关。供应商的数据目录具有某些共同特征,必须首先对其质量进行评估。
数据目录的重要功能在于其搜索功能。如果没有灵活的搜索和过滤器选项,用户将无法找到用于数据工程和分析目的数据集。数据目录还必须从大量关联数据资产收集元数据。它还必须提供自动化和数据智能,以处理与数据目录相关的手动任务。人工智能和机器学习可通过推荐来增强数据。
数据目录还应该可连接到企业内数据架构的各个组件。Maguire说,企业数据目录可以被视为元数据的数据仓库。数据目录从元数据孤岛整合元数据,类似于数据仓库从数据仓孤岛中整合数据。
数据目录另一个重要功能是提供连接器,以从各种组件(例如DBMS、BI工具和数据仓库)获取元数据。数据目录支持以下四种类型的元数据:
常见供应商
市面上有很多企业和嵌入式数据目录,这些选项通常具有相似功能和重叠功能。下面是对数据目录选项的简短比较。