首页 > 资讯 > 科技 > 正文
2024-02-19 01:01

讲解数据建设四大核心能力

相信大多数人都熟悉数字化转型的概念。 那么,您知道想要做好数字化转型需要做好哪些方面的工作吗? 答案之一是数据建设。 如何理解数据建设对数字化转型的重要性以及数据建设的核心能力? 我们来看看这篇文章的分享吧。

开头句

现代人类文明的快速发展和社会面貌的变化,可以追溯到蒸汽机的发明,开启了工业时代。 随着工业革命,人类开始了技术变革的过程,技术改变经济,技术改变政治,甚至技术改变生活。 从工业时代到电子时代,再到信息时代,我们逐渐进入了今天的数字化、智能化时代。 无论是全球经济的大趋势,还是国家的顶层设计,“数字化转型”这个流行词都必须提及。

数字化转型的核心内涵是什么? 答案是数据。 数据建设搞不好,数字化转型就会无本之木、无源之水。 因此,数字化转型首先要做好数据建设。

1. 数字化转型 1. 什么是数字化转型?

以下这段话摘自MBA智库对“数字化转型”条目的解释:

数字化转型是指顺应新一轮科技革命和产业变革趋势,不断深化云计算、大数据、物联网、人工智能、区块链等新一代信息技术应用,激发创新驱动潜力数据元素,并创建一个增强的信息时代。 生存发展能力,加快业务优化升级和创新转型,改造升级传统动能,培育发展新动能,创造、传递、获取新价值,实现转型升级、创新发展的过程。

从更广阔的角度来看,“数字化转型”浪潮为何席卷全球?

总之,数字化转型已成为企业适应数字经济、谋求生存和发展的必然选择。 尤其是中国,在经历了持续高速增长后,中国经济增长已从高速增长转向低速增长、高质量发展阶段。 面对产业结构调整、资源环境挑战、数字技术创新带来的行业颠覆和机遇,中国企业逆水行舟,不进则退。 因此,为了应对新环境、新时代的挑战,企业转型势在必行。

2、数字化转型的关键

我们已经知道数字化转型的重要性和必要性。 那么,数字化转型成功的关键是什么? 人员、信息和基础设施。

具体来说,数字化转型是将三个关键价值驱动因素结合在一起:人类创造力、信息衍生的智能以及将一切和流程结合在一起的连接性。

3、数字化转型相关技术

俗话说:工欲善其事,必先利其器。

那么数字化转型的“利器”是什么? 技术。

需要什么技术? 作者在下面列出了它们。

4、数字化转型与数据建设的衔接

虽然数字化转型的相关技术中没有提到大数据、数据建设等关键词,但提到的云平台、云计算、人工智能等都离不开数据建设和应用。 云平台提供的存储和计算能力正是为数据服务服务的。 云计算提供的大部分服务都是数据结果的形式,而人工智能则是基于数据的完整应用和服务。 因此,数据建设是数字化转型系统项目的核心子项目。

2. 数据建设 1. 数据中台

有人说,数字时代,数据将成为相当于黄金、石油等稀缺物质资源的新战略资源。 如果把数据比作石油,那么数据的最终价值实现体现在所有使用“石油”的场景中。 那么数据的“石油”能否直接应用并产生价值呢? 那肯定是不可能的,需要一个“炼油厂”。

什么是“炼油厂”? 这是数据中心。

数据将被数据中心“采集”->“处理净化”->“分布式应用”,最终转化为数据应用或数据服务,提供商业价值。

在这种场景下,数据中心的价值是什么?

数据中心的价值在于让数据稳定持续发挥业务价值,实现业务赋能。

2、数据生产和消费全链路

数据生产和消费的完整链路如下图所示。

从图中我们可以知道,要实现整个全链路的建立,稳定持续地产生价值,需要很多模块的搭建和协调。 经过进一步抽象和细化,它实际上依赖于四个核心能力,即:数据获取、数据开发、数据管理和数据应用。

3. 数据中台架构

关于数据中心架构,业界基本一致。 这里有一个比较标准的供参考。

4. 四大核心能力

1)数据收集

首先,数据采集是整个数据链路的源头。 数据采集​​解决什么问题? 数据源。 整个数据链路上,有哪些数据资源可供处理? 获取这些数据资源的及时性如何? 是有延迟还是实时? 这是由数据采集决定的,更深层次也是由需求和终端业务场景决定的。

为了让这个问题更清楚,这里有一个简单的例子。

我们投入了大量的精力和成本让业务系统的订单数据采集实时同步(即每当业务系统产生新的订单数据就立即采集),但在实际的数据应用中在互联网上,无论是看数据(使用数据仪表盘等可视化功能)、分析(使用BI等数据分析功能),还是检索数据(使用自助数据检索功能),用户拉取的数据都是按月粒度的用来。 ,对数据更新的敏感度最多是当日的粒度,是否涉及当日的数据进行分析并不是特别重要。

那么这个时候我就会发现,至少在数据采集的工作中,“杀鸡”是用“杀手”来完成的。 虽然我们技术上很有能力,支持实时同步更新,但实际产出率很低,这不是一个好的做法。

这个例子想说明的是,在数据采集的实际实施中,应该根据需求而不是技术来制定计划。

除了满足需求本身之外,想要做好数据采集,还需要注意哪些关键点呢?

① 打破数据孤岛

考虑到技术可行性和成本,能够尽可能连接业务相关的数据资源,才是打破数据孤岛的路径。 除了开放业务系统获取主业务流程中的数据外,格局还可以放大。 我们还可以关注公司自研系统以外的数据来源,比如从公司购买的系统(常见的如SAP的行业财务、ERP、WMS等系统)、公司上线时积累在平台上的数据。在第三方电商平台/渠道开展线上业务、公司竞争对手的市场竞争数据、与公司业务相关的流量/信息渠道量、舆情、用户兴趣和偏好等非结构化数据(如百度搜索、抖音、小红书等)。

②解决多源异构问题

经过我们的努力,数据孤岛已经被打破。 随着数据源的逐渐丰富,多源异构数据的问题浮出水面。 这是一个必须解决的问题。 它决定了数据效率的上限和数据质量的下限。 。

玩过文明系列电脑游戏的人都应该知道工业化时代以及工业化成熟的标志性事件有哪些? 零部件标准化。 这个道理在这里也是一样的。 解决多源异构问题的过程就是源数据标准化的过程。 解决数据采集过程中的多源异构问题是数据标准化工作的第一层次。

③ 源数据质量控制

说到数据质量,其实这是整个数据建设和治理工作中的一个话题。 甚至可以专门建立一个系统来管理数据质量,这属于数据管理的范畴。 但为什么要在数据收集中加入“源数据质量控制”呢? 因为要保证最终的数据质量达标,来源是重中之重。 就像污水处理一样,如果上游源头控制不好,花大量资金进行下游处理,就会事倍功半。

如何控制源数据的质量? 同步时需要检查数据。 一些明显的数据质量问题,例如空值、不合逻辑的数据值、混乱的数据结构等,很容易被发现。 一旦发现此类数据,应予以拒绝,并将问题报告给业务系统产研部门。 团队,明确要求整改,整改完毕后予以补正。

④ 辩证分析采集SDK的必要性

例如,字节跳动的火山引擎出品的套件提供了采集SDK的功能,即用户可以自行配置SDK,完成个性化的数据连接和采集入湖。 是否需要采集SDK需要具体情况具体分析,需要根据自己的业务需求和场景、数据资源分布、可用技术资源等辩证分析后得出结论。

2)数据开发

对于数据开发来说,实际上需要提供一套工具和规范来承载整个数据存储、计算和开发过程,并尽可能让这个过程标准化、高效、可控。

比如在工具层面,很多大厂商都完成了商业封装,并提供了整套数据开发套件。 有兴趣的同学可以搜索(霍山)、(阿里巴巴)、TBDS(腾讯)等产品白皮书和技术文档,详细对比了解。

再比如,在工具集成开发流程和规范方面,美团和哔哩哔哩都有优秀的实践,称为“集成建模”。

总之,在数据开发能力下,我们重点关注:

以上,等等。

3)数据管理

数据管理的内涵是什么? 如果有读者感兴趣并想了解更多,作者推荐一本书《DAMA数据管理知识体系指南》。 本书不仅系统地总结和分析了数据管理领域的所有要点,也是数据领域权威认证——数据治理工程师(CDGA)证书的教材。

笔者简要介绍了数据管理范畴的关键内涵。

① 数据标准

内涵:是指保证内部和外部使用和交换数据的一致性和准确性的规范性约束。

应用场景:应用于数据开发和数据质量管理。 要点如下:

② 数据资产管理

内涵:规划、控制和提供数据资产的一组活动。

两个关键环节:

数据资源化:将原始数据转化为数据资源,使数据具有一定的潜在价值,是数据资产化的必要前提。以提高数据质量、保障数据安全为目标,包括以下活动和功能:数据模型管理、数据标准管理、数据质量管理、主数据管理、数据安全管理、元数据管理、数据开发管理等。

数据资本化:将数据资源转化为数据资产,使数据资源的潜在价值得到充分释放。 重点扩大数据资产的应用范围,明确数据资产的成本和收益,在数据提供者和数据消费者之间形成正反馈循环; 包括以下活动:数据资产流通、数据资产运营、数据价值评估等活动。

作用:逐步提高数据价值密度,为数据元素化奠定基础

在实践中,我们可以通过构建数据资产管理体系来完成企业级的数据资产管理。 数据资产管理系统需要以下功能模块:

数据资产门户:

提供企业数据资产全局统计功能,让企业管理者直观了解数据的分布、增长、使用、质量等情况。 提供的具体数据包括:

指标统计:数据源数量、表数量、存储量、使用情况、质量得分。 趋势统计:数据分布、数据增长趋势、数据使用流行度。 数据排名:数据存储排名、质量规格排名。

资料图:

数据图谱也可以称为“可视化数据资产中心”,支持所有数据表的查看和书酒资产的综合管理。 具体功能点包括:

数据查询:汇集所有数据表信息,方便开发人员快速定位和业务人员快速查询。 支持按类别、表名、项目、状态等进行过滤和检索。 元数据卡:对于特定的数据表,卡中显示该表的基本信息,如表名、物理存储大小、生命周期、分区信息、字段列表等,同时支持少量数据预览。 数据类别管理:用户可以自定义级别、名称,并将数据表分配给类别节点。 审批授权:提供表级数据权限的管理。 当用户需要跨项目访问表时,需要通过审批授权来申请权限。 只有获得批准后才能获得访问权限。 生命周期管理:支持用户在创建表时指定生命周期,定期检测数据更新时间,自动清除过期数据,释放存储空间,降低存储压力和成本。 数据亲缘关系:自动解析同步任务和SQL代码,生成表级、字段级亲缘关系。 用户可以查询各个指标的“来龙去脉”,方便开发人员快速定位和排查问题,方便业务人员深入了解指标。

③ 数据质量

数据质量是整个数据建设和治理工作的“可用基线”。 对于一个无法保证数据质量的数据系统来说,无论数据应用有多酷,都将是一座“空中楼阁”,既不值得信赖,也不可用。 因此,数据质量管理是数据管理的重要组成部分。

我们如何衡量数据质量是否达到标准? 看六个维度:完整性、标准化、一致性、准确性、唯一性、及时性。

我们应该如何进行数据质量管理? 以下步骤可供参考:

数据质量管理要遵循两大原则:源头治理和闭环管理。

④ 数据安全

数据安全也是数据管理的重要组成部分,关系到整个企业的法律合规红线。 如何保证企业数据的安全? 它包含两层含义:一是防止数据泄露;二是防止数据泄露。 二是内部数据共享必须合规。

实现这两个内涵我们需要做哪些工作呢?

从宏观上看,我们需要:组织建立数据安全治理团队、制定数据安全相关制度规范、构建数据安全技术体系、构建数据安全人才梯队等。

在实际操作中,我们需要做到以下几点:

制度法规:了解安全需求和监管要求,制定制度制度(包括个人信息保护管理制度、数据分类及分级标准、合规检查和安全审计制度)

技术系统类别:

提升执行力:总结问题和风险,动态评估规范的适用性和有效性并做出更符合实践的调整,不断优化安全管理流程。

4)数据应用

数据应用是整个数据链路的最后一个关键环节,也是最重要的,直接关系到数据价值的实现。 所有终端用户都通过数据应用来消费数据、感受数据的价值。

与前三项核心能力相比,数据应用能力最大的区别在于,前三项核心能力在行业内有相对固定或共通的做法和解决方案,而数据应用能力可能会呈现“百花齐放”的现象。 根据企业所处行业、企业本身、服务用户、业务场景等不同,其形式也有所不同。但总的来说可以分为以下几类:

结论

以上内容主要讨论了数字化转型的概念、数字化转型中数据建设的重要性、数据建设四大核心能力的内涵和范围等,至于每项能力在应用场景中具体是如何构建的,那么就是从需求到上线的又一个完整流程和独立主题。 以后我会逐步开专题详细分享。 希望本文的内容对您有所帮助和启发。