Spark集群搭建与测试 - 图文 联系客服

发布时间 : 星期三 文章Spark集群搭建与测试 - 图文更新完毕开始阅读02e9ff05e009581b6ad9eb9b

注:Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架,例如Spark、MapReduce、Storm。

10. 启动并验证hadoop集群:

a. 格式化hdfs文件系统:hadoopnamenode –format/hdfsnamenode -format

该命令会启动,格式化,然后关闭namenode。 实际上格式化后,在namenode上会生成以下文件:

其中VERSION文件的内容如下:

该命令不会在datanode的dfs.datanode.data.dir对应的目录下生成任何文件:

有关该命令的细节请参考官方文档:

http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#namenode

b. 启动hdfs: start-dfs.sh

使用jps验证HDFS是否启动成功:

通过webui检查HDFS是否启动成功

http://master:50070

注1:实际上第一次启动hdfs后,在datanode的dfs.datanode.data.dir对应的目录下会生成current目录,该目录下的BP文件与namenode上

dfs.namenode.name.dir对应的目录下的current子目录的VERSION文件中的blockpoolID字段的值一致;在该目录下也会生成VERSION文件,该VERSION文件中的clusterID和namenode的dfs.namenode.name.dir对应的目录下的current子目录的VERSION文件中的clusterID一致:

实际上在后续执行了hdfsnamenode –format后,namenode的VERSION文件会改变:

而dananode的BP和VERSION文件都不会改变:

再次start-dfs.sh时,namenode可以成功启动,但在datanode上,因为version文件与namenode的不一致,datanode不能成功启动并成功注册到namenode! 所以:每次执行hdfsnamenode–format前,必须清空datanode的data文件夹!(namenode的name文件夹不需要清空,namenode和datanode的tmp文件夹也不需要空。)