数据生命周期浅谈

数据生命周期浅谈

数据如同企业其他资产一样,也具有生命周期。企业只有充分地认识数据的全生命周期,才能更好地描述、衡量、量化和管理数据。

什么是数据生命周期

数据生命周期管理(Data Life Cycle Management,DLM)是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建和初始存储,到最终过时被删除,即指某个集合的数据从产生或获取到销毁的过程。

要注意区分数据生命周期不同于系统开发生命周期,系统开发的生命周期描述了一个项目的各个阶段,而数据生命周期则是描述了数据资产的管理过程。

数据生命周期管理的目标通常有以下几点:

1)高效 在效率最高的系统中保存最有价值的数据

2)低成本 低价值的数据保留在低成本的系统中

3)安全保障 结合应用提供数据访问安全保障

4)综合管理 采用统一的管理方案

5)访问便捷 所有数据采用一致的界面访问

数据生命周期的阶段

根据看待问题的角度不同,数据生命周期可分为静态数据生命周期和动态生命周期。

特定的数据所经历的生命周期由实际的业务场景所决定,并非所有的数据都会完整地经历每个阶段。

1.静态数据生命周期:

图:静态数据生命周期,来源于网络

生成期:数据的生成阶段包括Who(由谁生成)、When(生成时间)、Where(生成地点)以及How(如何生成)。数据的生成无时无刻不在进行,一旦开始将几乎无法进行人为干预,因此如果没有事先指定数据生成规则就会导致数据生成失控,从而严重影响数据使用的安全性。

活动期:数据生成后,将会被用于查询、更新、聚合、复制等各种活动方式。不同数据的活动期差异度很大,不是所有数据都具有活动期,例如很多日志数据生成后就直接进入归档期。数据活动一般都体现为一定强度的曲线波动,且都符合一定的预期及规范,可以审查和追踪。

衰退期:数据活动一段时间后,数据的使用强度开始逐步下跌,往往会经过多个阶梯式下跌的阶段。数据进入衰退期后,活动会日益减少,如果某组数据突然出现剧烈活动,则可能预示着数据价值的再发现或数据安全性事件的发生。

归档期:当数据访问进入非常稀疏的阶段,并禁止数据被更新时,就认为其进入归档期。由于数据会存在价值再发现的过程,因此归档期的数据可能存在再次进入活动期的可能性。归档数据往往容易出现监管不足的问题,因此对其需要进行周全的保护。

销毁期:当数据已经没有使用或被监管的价值时,就需要被销毁,一次降低成本和数据安全风险。从数据安全的角度来看,销毁操作必须是符合预期的。

2.动态数据生命周期

图:动态数据生命周期,来源于网络


数据采集: 指新的数据产生或现有数据内容发生显著改变或更新的阶段。对于组织机构而言,数据的采集既包含在组织机构内部系统中生成的数据,也包含组织机构从外部采集的数据。数据采集范围的分类可包括:语音数据、图片数据、视频数据、用户上网行为埋点、设备地理位置信息、业务或管理系统日志、可穿戴设备等生活信息、网站信息等。

数据存储:指非动态数据以任何数字格式进行物理存储的阶段。根据数据热度不同、对存储量、时效性、读写查询性能等差异性要求,应当选择合适的存储技术,存储技术分类有传统关系数据库、分布式关系数据库、Nosql存储、消息系统、文件系统等。

数据处理:指组织机构在内部针对动态数据进行的一系列活动的组合,通常会涉及到数据标准、数据清洗、数据质量、元数据管理、ETL、数据模型设计等。

数据传输:指数据在组织机构内部从一个实体通过网络流动到另一个实体的过程。

数据交换:指数据经由组织机构内部与外部组织机构及个人交互过程中提供数据的阶段。

数据销毁:指通过对数据及数据的存储介质通过相应的操作手段,使数据彻底消失且无法通过任何手段恢复的过程。随着存储成本的进一步降低,很多企业采取了“保留全部数据”的策略,然而从价值成本角度来说,存储超过业务需求的数据未必是种好选择。

传统企业如何做数据生命周期管理?

传统企业的数据生命周期管理,需要有持续的信息化、数字化投入奠定基础,即业务数字化是数字资产管理的前提。

对于大部分企业来讲,可以在短期内优先获取和利用与自身业务更相近、更能产生业务价值的数据。企业要持续进行业务对象数字化、业务规则数字化和业务过程数字化,解决数据源的问题,随后持续做好元数据管理、数据质量管理,并加强数据安全与个人隐私保护、数据血缘、数据生态能力。通过数据分析平台,满足实时可视、风险预警、智能决策等场景下的数据消费需求。