大数据集成系统是一款基于分布式并行计算架构开发的ETL数据集成系统。具备高吞吐、高可用、高扩展特性,可以为海量数据的数据仓库建设提供抽取、整合、清洗、入库等集成业务。系统提供对结构化、半结构化、非结构化资源的统一抽取、整合,采用组件化设计,为文本采集、特征提取、数据库直连抽取、大文件传输、互联网信息提取等组件提供运行与统一调度监控,能够依据数据元规范,实现资源的标准化入库。同时通过规则引擎,实现了数据质量的评估与问题数据的清洗。
服务方案优势:
一、全面适配全行业云规范构建的云计算平台环境(阿里、腾讯、浪潮、华为等),打破云平台厂商壁垒;
二、灵活支持主流大数据平台的数据交换和ETL任务;
三、内嵌式大数据资源库整合流程、插个集及模板,提升公安数据采集实施规范性和效率;
四、发挥分布式并行+多核处理技术优势,实现海量数据汇聚的时效性,支持100个以上分布式ETL节点的部署,实现云的线性扩展能力;
五、提供开放式平台接口,扩展第三方ETL插件的集成、定制开发能力;
六、高吞吐处理能力;
七、高扩展、高可靠;