大数据技术原理及应用林子雨版课后习题答案解析 联系客服

发布时间 : 星期二 文章大数据技术原理及应用林子雨版课后习题答案解析更新完毕开始阅读d5027fca66ec102de2bd960590c69ec3d4bbdb0c

***

专业资料整理分享

3、美国加州大学伯克利分校提出的数据分析的软件栈 处理可以分为哪三个类型?

答:①复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间; ②基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间; ③基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间。

BDAS认为目前的大数据

4、Spark 已打造出结构一体化,功能多样化的大数据生态系统,试述 生态系统。

Spark 的

答:Spark 的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套 完整生态系统, 既能够提供内存计算框架, 也可以支持 SQL即席查询、 实时流式 计算、机器学习和图计算等。 Spark 可以部署在资源管理器 YARN之上,提供一 站式的大数据解决方案。因此, Spark 所提供的生态系统同时支持批处理、交互 式查询和流数据处理。

5、从 Hadoop+Storm架构转向 Spark 架构可带来哪些好处? 答:(1)实现一键式安装和配置、线程级别的任务监控和告警; (2)降低硬件集群、软件维护、任务监控和应用开发的难度; (3)便于做成统一的硬件、计算平台资源池。

6、试述“Spark on YARN”的概念。

答:Spark 可以运行与 YARN之上,与 Hadoop进行统一部署, 即“Spark onYARN”, 其架构如图所示,资源管理和调度以来

YARN,分布式存储则以来 HDFS。

完美 WORD格式编辑

***

***

专业资料整理分享

7、试述如下 Spark 的几个主要概念: RDD、DAG、阶段、分区、窄依赖、宽依赖。 答:①RDD:是弹性分布式数据集( Resilient

Distributed

Dataset )的英文缩

写,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。 ②DAG:是 Directed Acyclic Graph 的依赖关系。

③阶段:是作业的基本调度单位, 一个作业会分为多组任务, 每组任务被称为 “阶 段”,或者也被称为“任务集”。

④分区:一个 RDD就是一个分布式对象集合, 本质上是一个只读的分区记录集合, 每个 RDD可以分成多个分区,每个分区就是一个数据集片段。

⑤窄依赖:父 RDD的一个分区只被一个子 RDD的一个分区所使用就是窄依赖。

(有向无环图)的英文缩写,反映 RDD之间

完美 WORD格式编辑

***

***

专业资料整理分享

⑥宽依赖:父 RDD的一个分区被一个子 RDD的多个分区所使用就是宽依赖。

8、Spark 对 RDD的操作主要分为行动( Action )和转换( Transformation )两 种类型,两种类型操作的区别是什么?

答:行动( Action ):在数据集上进行运算,返回计算值。

转换(Transformation ):基于现有的数据集创建一个新的数据集。

第十章

1 试述流数据的概念

流数据,即数据以大量、快速、时变的流形式持续到达

2 试述流数据的特点

流数据具有如下特征:

数据快速持续到达,潜在大小也许是无穷无尽的 数据来源众多,格式复杂

数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储 注重数据的整体价值,不过分关注个别数据

数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序

4 试述流计算的需求

对于一个流计算系统来说,它应达到如下需求:

高性能:处理大数据的基本要求,如每秒处理几十万条数据 海量式:支持 TB级甚至是 PB级的数据规模

实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别 分布式:支持大数据的基本架构,必须能够平滑扩展

完美 WORD格式编辑

***

***

专业资料整理分享

易用性:能够快速进行开发和部署 可靠性:能可靠地处理流数据

7 列举几个常见的流计算框架

目前有三类常见的流计算框架和平台:商业级的流计算平台、开源流计算框架、公司为 支持自身业务开发的流计算框架

1 商业级: IBM InfoSphere Streams 和 IBM StreamBase

2 较为常见的是开源流计算框架,代表如下:

Twitter Storm :免费、开源的分布式实时计算系统,可简单、高效、可靠地处理 大量的流数据

Yahoo! S4 (Simple Scalable Streaming System 分布式的、可扩展的、分区容错的、可插拔的流式系统

3 公司为支持自身业务开发的流计算框架: Facebook Puma Dstream(百度)

银河流数据处理平台(淘宝)

):开源流计算平台,是通用的、

8 试述流计算的一般处理流程

流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、实时查询服务

数据实时采集

数据实时计算

用户查询

实时查询服务

完美 WORD格式编辑

***

查询结果