一带一路大数据中心项目建议书 联系客服

发布时间 : 星期四 文章一带一路大数据中心项目建议书更新完毕开始阅读8f939a89370cba1aa8114431b90d6c85ed3a886e

4、系统功能和性能需求分析

两亚丝路大数据平台以开源的Hadoop和Spark等分布式计算框架和相应的生态系统组件和服务为基础构建而成的集大数据存储、处理和分析访问的统一平台,旨在解决行业数据大规模、多样性、快速处理和洞察挖掘的需求和问题,并保持平台的伸缩性、扩展性和开放性。该平台的总体架构设计是以数据操作为中心,通过开放的数据接口接入多种类型的数据源;集成海量的、多样性的大数据进入数据湖中进行存储;支持多种分布式计算引擎进行数据处理和分析,满足批处理、流处理和数据仓库等分析需求,机器学习和数据挖掘的模型和算法;为上层用户提供多种数据访问和展现方式,形成统一的平台操作界面。大数据平台紧紧围绕着海量数据的全生命周期处理,并结合两亚丝路大数据中心的总体功能定位,设计实现的系统功能列表如下:

1)数据采集子系统:平台支持多种协议和方式与外围的多种数据源进行集成,构建强大的多样的数据资源采集汇聚体系,并支持松耦合和定制化的方式实现跨平台和第三方系统间的数据访问和交互接口;

2)数据存储子系统:这是该平台的核心能力,支持多种格式和多种类型的数据存储方式,包括HDFS文件存储、

关系型数据库和非关系型数据库等,满足多样的数据存储、处理和访问方式;

3)数据治理子系统:平台提供全面的数据质量的分析和报告,支持数据管控和审计能力;

4)数据处理子系统:平台支持多种类型的执行引擎、任务管理以及资源调度方式,提供业务场景下的批处理和流处理能力;

5)数据查询分析子系统:平台提供强大的可扩展的MPP、HIVE和Spark SQL 等多种场景下的查询引擎;提供数据的索引查询和OLAP多维分析能力;

6)数据分析和挖掘子系统:平台支持多语言、跨行业和多种类型的数据挖掘工具,提供完整的机器学习、认知计算和人工智能算法库供业务人员分析建模;

7)数据可视化子系统:平台提供丰富的数据展现模板和方式,支持用户设计和定制化分析结果和操作界面; 8)大数据运维管理平台:提供统一的大数据运维平台对分布式集群进行高效运营管理,主要包括集群部署、集群管理和集群监控等三个部分。

9)用户统一操作平台:为不同类型的平台用户提供统一的在线操作界面,涵盖常见的数据管理、作业管理和查询分析功能;

10)应用服务子系统:平台支持开放互联特征,基于开放接口与多种类型的外围应用程序进行交互,并以大数据平台为核心构建覆盖跨行业的应用服务体系。

大数据平台是一个分布式的集数据存储、处理和分析为一体的系统。这种海量规模的数据带来了前所未有的性能挑战。该平台设计实现的性能指标如下:

1)服务的可用性:这是平台的核心性能指标,目标达到99.95%;

2)数据的有效性:该指标关系到数据的质量和可信度,目标达到99.99%;

3)SQL查询性能:进行交互式SQL分析和数据挖掘,每台服务器扫描数据的性能可以达到300MB/s,单台机器可在1秒内扫描1亿条记录;每节点单表记录在1亿条记录(1KB左右)的集群上,全量汇总统计排序延时小于2秒,每节点吞吐量超过2/秒;

4)数据导入性能:从文本文件中导入数据单机性能不得低于30MB/S,支持高速随机Key-Value的查询/插入和低延时的统计能力,插入性能每台服务器每秒达到10000记录/秒;

5)流处理性能:系统最低延时/处理间隔为100毫秒,单服务器可处理1万记录/秒。 第五章 总体建设方案

1、建设原则和策略

深入贯彻落实习近平总书记考察云南重要讲话精神,积极主动服务和融入国家“一带一路”发展战略,按照平台共建、数据共享、应用对接、市场共赢原则,充分依托国家“一带一路”大数据中心的技术指导和相关资源配置,以实施“1345”工程(“一个中心”“三类服务”“四大体系”“五个保障”)为抓手,加快大数据部署、深化大数据应用,高标准建成两亚丝路大数据中心,为推进全方位开放战略,提升我国在信息技术领域的国际影响力和贡献度,促进云南产业转型升级及社会治理提供强有力的数据支持。 2、总体目标与分期目标

该项目的总体目标是,力争用3年左右时间,建成为服务于国家“一带一路”战略的西南大数据枢纽节点,并将其打造