新闻动态
news
为“数据孤岛”牵线搭桥,核心是数据共享与交换
时间:2023-02-17 18:11:13 来源:原创文章 浏览量:2395

如今各行业系统及数据越来越多,对 IT 系统建设提出了互联互通、共享交换、业务协同、数据治理等多方面的要求,用户在日常管理中,通常需要与一个或多个内部外部的组织交换共享数据, 但加快数据共享与交换并不是搭建数据平台那么简单,这部分内容专业性强、持续时间长,需大量基础工作的铺垫。

 

今天小编将从以下几个方面说说数据交换与共享:

 

一、为什么要进行数据交换?

 

数据交换其最初的目的是为了“数据流通”和“数据共享”,以通过技术手段发挥数据的再利用价值。但在实施数据交换的过程中,不同数据内容、数据格式和数据质量千差万别,严重阻碍了数据在各部门和各应用系统中的流动与共享。 

如今数据交换逐渐演变成数据治理的一项系统性复杂工程,真正的目的是为了将数据作为某个组织或者单位的资产而展开的一系列具体化工作,从组织架构、管理规范、IT 应用技术、绩效考核等多个维度对组织或者单位的数据模型、数据质量、数据安全、数据服务等各个方面进行全面的数据梳理建设并持续改进的一个体系。

 

二、数据交换存在的问题

 

1.、数据平台中数据内容繁多,难以全面掌控。通过多年的信息化建设和运营,企业用户已经建立了完善的业务应用系统,有效的支撑了核心业务的创新和发展,但随着应用系统的增多,数据量和数据应用环境增大,在对这些数据进行使用的过程中逐渐存在不合理、不统一的问题。

2、数据平台中数据的流转和逻辑过程复杂,难以追溯数据来源。许多用户目前没有统一的数据资产标准,各业务系统中数据质量参差不齐,存在信息孤岛现象,不同部门同一名称数据可能有不同含义,同一个数据可能又有不同命名,数据有效交互和共享存在诸多问题。

3、业务部门对数据结构和质量无法管控。目前数据管控的发展方向和需求是由业务部门提出,但业务人员对复杂的系统无法进行全面深入掌握,特别是技术层面。为了使业务部门从数据结构到数据质量上更好管控,梳理业务系统与数据库结构关系,成为急需解决的问题之一。

 

三、数据交换前准备工作

 

01 数据标准

为保证各应用系统中的代码表对同一业务信息定义一致,确保数据消费系统可以根据业务代码辨别数据的确切含义,应提供可配置的功能,基于一定的标准对数据供应系统代码进行转换,使数据存储和数据应用系统按照统一标准来理解数据。

 

数据交换离不开数据标准,数据未动标准先行是构建优质数据交换的前提。统一指标数据标准,可以规范业务统计分析语言,帮助用户提升分析应用和监管报送的数据,进而提高数据质量和数据资产价值。

 

对于政企用户的数据,数据标准可按相关部门机构出台的国标、地标、行业标准进行规范化处理,暂无标准的可先统一跨部门、跨业务系统之间的数据字段定义,形成标准库或字典库,并建立数据映射关系后开展数据交换工作。

 

对于企业来说,在业务层面同样可遵循统一的数据标准,如 SAP 或 ERP 系统内的财务、订单、销售、物料、人力资源等模块,理清各系统之间的主数据,明确字段格式和命名。

 

02 环境确认

数据交换表面上看是一个简单的数据抽取和推送的“搬家”过程,但实际操作中对网络、硬件、软件的稳定性要求非常高,一旦出现数据丢失,后续的查证和追溯过程往往非常耗时。特别对于实时性要求很高的数据交换策略,尤其重视网络的稳定性、互联网是内部局域网、通信协议、端口;硬件配置、磁盘 IO 负载情况、线程数量、作业执行时间、调度计划、数据更新频率等,需事先确认和评估。

 

四、数据交换方式和方法

 

数据交换方式通常是根据数据的类型进行区分,如结构化或半结构化的数据可通过 ETL 数据交换方式进行,非结构化的数据像压缩文件、电影、图片等采用文件传输方式进行交换,而对于一些实时性较高的交换一般采用接口形式进行,例如:restfull、webservice 等。

结构化和半结构化数据交换主要有:时间戳同步、全文比对同步、触发器同步、CDC 增量同步、全量同步。

 

全量同步

全量抽取适用于统计分析或无需进行二次更新的业务需求,通过全量抽取一次或多次将业务系统数据源在不做任何操作的情况下直接抽取,全量数据抽取方式较简单、直接、快速。

 

时间戳同步

基于时间戳的方法需要应用系统中每个表具备时间戳字段,这种方法不影响原有应用的运行效率,但如果表中没有时间戳字段则需要对原有系统做较大调整,这种方式不能捕获到那些并非通过应用系统引起变化的操作数据。

 

优点:处理速度快,数据处理逻辑相对简单。

缺点:源数据库没有时间戳字段的表需要更改表结构,并且需要源数据库来维护时间戳字段;使用时间戳字段无法获取删除后的数据,进而无法实现数据同步。

 

CDC增量同步

通过分析数据库日志的信息来捕获复制对象的变化序列。这种方法不仅方便,也不会占用太多额外的系统资源,对任何类型的复制都适合,不但能提高效率和保证数据的完整性,还能在对等式复制时提供详细的控制信息。

 

优点:可靠性强,对源系统没有影响。

缺点:各数据库系统的日志文件绝大部分是私有的,捕获日志需要针对性的组件,个别数据库需要管理员权限进行配合才能实现。

 

触发器同步

在业务数据表中创建相应触发器,当提取、复制对象进行变更(插入、修改、删除)时,由触发器触发提数程序,将变化写入目标数据库中。这种方案可用于同步复制、增量复制。

 

优点:借助数据库本身的机制,可靠性强。

缺点:对源系统有影响,需要建立触发器以及临时表或临时数据存储文件。

 

全文对比同步

对前后两个时间点选取业务数据表的全量进行数据比对,差异部分为数据增量部分。此法可以用于一段时间后进行数据的强制同步,但由于消耗资源较大,因此一般建议用于业务空闲期使用。

 

优点:对源系统无任何影响。

缺点:面对海量数据(千万级、万万级)进行比对时性能问题。

 

针对各行业系统及业务数据无障碍传输共享的问题,达梦公司推出的达梦数据交换平台实现了对数据抽取、传输、整合以及装载的一站式支持,能支持各种数据源,可对数据进行复杂清洗对比、质量检查、数据脱敏,实现数据治理。

 

同时,针对数据汇集、交换、共享场景,屏蔽复杂的 ETL 操作细节,达梦启智数据共享交换系统可提供数据共享交换的 WEB 管理、监控、服务,尤其适用业务部门间横向与纵向数据共享、纵向数据多层交换汇集、数据动态交换。两款产品针对不同业务需求,能满足各类核心应用场景和复杂的网络环境,实现跨部门、跨地域、跨层级的数据交换共享。

 

图:达梦启智数据共享交换系统——数据服务统计

 

图:共享调度监控

 

目前,达梦数据交换平台、启智数据共享交换系统已被广泛应用于公安、信用、电力、国土、住建、政法、政务等多个行业项目中,为其提供从数据采集、处理、交换、共享、运营和服务等全方面支持,实现各类业务系统的互通互联和数据共享,为政企机构业务信息服务提供可靠的数据基础,推动跨地区、跨层级、跨部门的数据共享交换与应用,助推政企数据互通共享。

在线咨询
400-991-6599