数据流水线是企业数字化运营的关键因素,它支配了数据从源头到价值的高效流转,就好比产品生产从原材料到成品的流水线管理一样,掌控着整个转换流程中的程序和数据,贯穿了从信息采集、整合、处理、传递等全部流程,这个流转速率有多高效,数据驱动的齿轮就会转动得多快。
达梦启智数据流水线系统,通过批处理和流处理相融合的流批一体模式,构建一个强大的实时数据处理流水线,从数据采集到实时处理再到数据存储和可视化,提供多样化数据分析模式,结合关联分析、空间分析、多维分析以及机器学习算法等多种手段对数据进行分析。系统适用于各种实时数据应用,如物联网监控、实时报表和仪表板等,可以充分结合用户需求调整配置和代码,构建符合业务场景的实时数据处理解决方案。
面对数据计算普遍存在开发难、性能无法保障、运维困难等问题,如 JAVA 缺少结构化计算类库,计算实现复杂度高,实现成本高。代码冗长不利于修改维护,且 JAVA 不支持热切换,计算逻辑修改无法实时生效。为了组织并运行不同阶段的数据处理任务,达梦启智数据流水线系统拥有热切换、高性能、多源混算、多种数据输出接口、与 JAVA 无缝结合等特点,可实现高效的数据处理。
产品特色
/ 01 开发运维简单:计算类库丰富,算法实现简单,开发快;同时支持热切换,算法修改实时生效。
/ 02 运算性能高效:提供高性能算法,支持分布式计算,允许横向扩展计算能力。
/ 03 应用结构合理:提供多样性数据源支持,可进行跨数据源混合计算;提供标准数据输出接口,数据服务易封装;支持 JAVA 调用,可以与JAVA 无缝结合使用。
产品功能
1、替代存储过程,数据库解耦。业务逻辑可视化操作,多种组件细化拆分数据处理环节,无需编写调试复杂的 SQL,门槛低,上手快。
2、跨库集群。支持分布式计算部署模型,提供单机多线程并行和多机分布式计算机制,支持横向扩展,保障运算能力。
3、数据预处理。支持使用算法对数据进行预处理,算法如二值化、皮尔逊相关系数、协方差、卡方拟合性检验、卡方独立性检验、主成分分析、缺失值替换等。
4、多种数据计算模式。离线数据计算、实时数据计算、流数据计算、机器学习模型训练。
5、自定义式复合数据处理。支持对数据进行基础处理修改,如空值处理、格式转换、字典映射等处理。支持数学函数、字符串函数、日期函数、数组函数、常用函数、数据类型转换函数、数据类型判断、格式化函数等高级函数的使用。
6、数据模型分析及使用。支持使用机器算法进行建模,算法如决策树、聚类、朴素贝叶斯、神经网络、回归、支持向量机、时间序列、K-means 等。
7、定制化的数据服务发布。支持将数据处理模型发布成服务,通过API请求发送给分析系统,实现权限传递和数据访问控制。
8、多重粒度的权限控制。支持表,行,列不同粒度的数据权限控制。
9、业务模型分析。通过多种组件的组合实现业务的数据流转,让业务模型的分析过程可视化。支持提供统一模型设置,在模型建成后,各个模块都可调用该模型进行使用。
用户在打造这样一套数据流水线之后,将一些繁琐的管理流程自动化,可大大提高业务系统的稳定性和安全性,节约管理人员的时间和成本。目前,达梦启智数据流水线系统主要应用场景包括数据仓库构建、数据集成、数据清洗和处理、实时数据流处理等,行业应用涵盖了政法、监狱、房管、港口、油田、市民之家等领域。
达梦启智数据流水线系统就像一条数据的供应链,满足用户在数据产生的同时进行处理和分析,及时获取有关实时业务和运营的信息,促进实时决策和响应,激发企业用户的数据价值。