产品介绍

整体解决方案为用户提供TB/PB级别以上的数据分析处理能力、一站式的数据运营能力和一体化的数据分析。方案涉及数据的ETL、清洗、质量管控、治理、共享、发布、权限管控的全生命周期管理,方案产品在数据基础设施层面,提供强大的集群能力,并且支持多集群部署;在数据处理层面,提供离线计算引擎、实时OLAP计算引擎与流式计算引擎;在开放服务层面,实现多租户数据管理与数据安全交换体系,对外开放完整的SDK及API,满足定制化需求;在数据应用层面,提供数据开发工具、基础数据应用及业务数据应用,涵盖数据采集、数据开发、数据挖掘到业务数据应用的全闭环数据处理流程。

方案优势或方案特点                       

1、 并行计算和云计算模式的大规模离线计算。

海量数据增加了快速获取信息的困难。产品通过应用并行计算、云计算、内存数据库等,基于Hadoop、spark等技术,提供支持处理TB、PB级别的海量数据的数据服务,同时,在语法解析及MapReduce任务转化方面,产品在兼容Hive语法语义和开发应用各种基于规则的优化器的前提下,增加全新的优化规则,大大提升数据处理的性能。

2、高性能分布式ETL技术。

采用分布式架构设计,同时支持集群部署,可以在多个工作节点上分配作业以加快处理速度。当面对大量数据的较小ETL任务时,群集将在所有可用的节点或预先分配,通过统一的调度进行作业。相反的情况,在处理大量数据的单一任务时,集群会对任务进行分解,在不同工作节点运行任务片段,进行聚合,进一步提升集成任务性能。

3、 模糊逻辑分析和集群预测模型系统。

平台包含几十种智能分析和创新的建模技术,例如记分卡、Logistic回归、 神经网络模型、决策树等都是有监督的预测模型。结合模糊逻辑分析,可以精确识别信息并准确地将数据转化为洞察力和价值。

行业应用

产品在海关行业已经具体落地,针对全国海关执法、非执法领域全业务的监管要求建立一个面向海关行业的整体数据分析解决方案,从而使海关形成基于现代先进技术的科学管理模式,实现海关数据分析的智能化。研究主要应用数学统计技术、数据挖掘技术、大数据存储与处理、并行与分布式计算、云计算等多种现代技术,采用分布式架构和模块化设计,完成数据采集、存储与分析、参数估计、模型建立、科学管理决策。另外,通过不断完善和丰富分析功能及模型,实现机器学习,进一步探索基于大数据的新的分析预测数学模型,提升海关数据统计分析工作的水平和预警预测的能力。