??云主机低折扣年付还赠送90天?? 广告位招租 - 15元/月全站展示
??伍彩集团官网直营彩票 ??言情小说??
??私有威屁恩(独享/安全/稳定/高速/低价) ??Google Facebook Youtube 科学上网
广告位招租 - 15元/月全站展示 广告位招租 - 15元/月全站展示
0008-如何卸载CDH(附一键卸载github源码)

转载   Hadoop实操   2018-11-15   浏览量:12


温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.前置条件

本文档将介绍Cloudera Manager与CDH的卸载,并基于CDH使用parcels安装且未配置安全(AD/LDAP, Kerberos, Data Encryption)的集群,以下是本次测试环境,但不是本操作手册的硬限制:

1.操作系统版本:CENTOS6.5

2.MySQL数据库版本为5.1.73

3.CM版本:CM 5.11

4.CDH版本:CDH 5.11

5.采用root或有sudo权限用户对集群进行卸载

2.用户数据备份

2.1备份HDFS数据

  • hdfs数据备份

使用distcp进行集群之间数据复制进行hdfs数据备份,备份操作如下:

hadoop distcp hftp://namenodeA:port/xxx/ hdfs://namenodeB/xxx

注:此命令需运行在目标集群中执行,确保目标集群空间足够,以上数据目录根据自己集群的真实环境做相应的修改;

namenodeA:源集群namenode节点ip地址

port:源集群端口,默认50070

namenodeB:目标集群namenode节点ip地址

xxx:对应hdfs的数据目录

  • namenode节点元数据备份

登录namenode服务器上,进行如下操作:

#进入safemode模式

[[email protected] ~]# sudo -u hdfs hadoop dfsadmin  -safemode ente

DEPRECATED: Use of this script to execute hdfs command is  deprecated.

Instead use the hdfs command for it.

Safe mode is ON

#将所有edits修改flush到fsimage

[[email protected] ~]# sudo -u hdfs hadoop dfsadmin –saveNamespace

DEPRECATED: Use of this script to execute hdfs command is  deprecated.

Instead use the hdfs command for it.

Save namespace successful

将namenode元数据备份,根据自己集群namenode目录进行如下操作:

[[email protected] ~]# mkdir namenode_back
[[email protected] ~]# cd namenode_back/
[[email protected] ~]# cd /dfs/nn/
#将nn目录下所有文件压缩至/root/namenode_back/nn_back.tar.gz目录下
[[email protected] nn]# tar -czvf  /root/namenode_back/nn_back.tar.gz .
./
./current/
./current/fsimage
./current/fstime
./current/VERSION
./current/edits
./image/
./image/fsimage

2.2备份MySQL元数据

  • 在Mysql安装的服务器上,执行如下操作,备份hive元数据信息

0008-如何卸载CDH(附一键卸载github源码)

注:如果有hue,sentry,Navigator数据库可以同样备份

2.3备份CDH集群配置数据

通过Cloudera Manager提供的API接口,导出一份JSON文档,该文档包含Cloudera 管理器实例的配置数据,可以通过这份JSON文档备份或恢复Cloudera管理器的部署。

  • 备份集群配置数据
  • 登录到Cloudera Manager所在服务器
  • 运行如下命令:
[[email protected] ~]# curl -u admin_username:admin_pass "//cm_server_host:7180/api/v16/cm/deployment" > path_to_file/cm-deployment.json

admin_username: 登录到ClouderaManager的用户名

admin_pass: 对应admin_username用户的密码

cm_server_host: 是ClouderaManager服务器的主机名

path_to_file: 保存配置文件的路径

将上述提到的四个参数修改当前集群对应的信息即可

导出截图:

0008-如何卸载CDH(附一键卸载github源码)

0008-如何卸载CDH(附一键卸载github源码)

  • 恢复集群配置数据

注意:此功能只有Cloudera许可证才可以使用

1.首先进入Cloudera Manager管理平台,进入如下操作

0008-如何卸载CDH(附一键卸载github源码)

0008-如何卸载CDH(附一键卸载github源码)

注意:如果在进行API调用操作之前未停止集群,那么API调用将在运行作业之前停止所有集群服务,任何运行的作业和数据都会丢失。

2.登录到Cloudera Manager所在的服务器

3.执行如下命令

curl --upload-file path_to_file/cm-deployment.json -u admin_uname:admin_pass //cm_server_host:7180/api/v16/cm/deployment?deleteCurrentDeployment=true

admin_uname: 登录到ClouderaManager的用户名

admin_pass: 对应admin_uname用户的密码

cm_server_host: 是ClouderaManager服务器的主机名

path_to_file:JSON配置文件的路径

2.4Zookeeper数据目录备份

  • 备份所有Zookeeper服务器的数据目录,以172.31.3.217为例操作如下:
[[email protected] ~]# mkdir zookeeper_back

[[email protected] ~]# scp -r /var/lib/zookeeper/ /root/zookeeper_back/zookeeper_1

2.5备份用户数据目录

以下路径为Cloudera默认安装目录下个组件用户数据:

/var/lib/flume-ng

/var/lib/hadoop*

/var/lib/hue

/var/lib/navigator

/var/lib/oozie

/var/lib/solr

/var/lib/sqoop*

/var/lib/zookeeper #同步数据

#data_driver_path为集群环境部署时设置的目录,根据自己环境进行调整

data_drive_path/dfs

data_drive_path/mapred

data_drive_path/yarn

如需备份相关组件数据,可参考2.4进行数据备份。

3.停止所有服务

3.1打开Cloudera Manager控制台

0008-如何卸载CDH(附一键卸载github源码)

3.2关闭集群

停止CDH集群,如下图所示操作

0008-如何卸载CDH(附一键卸载github源码)

点击确认操作,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

等待所有服务器停止操作成功,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

3.3关闭Cloudera Management Service

停止Cloudera Manager Service,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

点击确认对话框,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

等待服务停止成功,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

4.解除并移除Parcels

在Cloudera Manager管理界面,进行如下操作

0008-如何卸载CDH(附一键卸载github源码)

点击上图标识功能,进入如下界面

0008-如何卸载CDH(附一键卸载github源码)

点击上图标识,选择【仅限停用状态】,点击【确定】

0008-如何卸载CDH(附一键卸载github源码)

停用后,状态变为“激活”,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

点击“激活”旁菜单,选择“从主机删除”,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

点击确认,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

删除成功后显示如下

0008-如何卸载CDH(附一键卸载github源码)

5.删除集群

点击Clouder Manager进入主页,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

删除集群,如下操作

0008-如何卸载CDH(附一键卸载github源码)

点击“删除”操作,如下图所示

0008-如何卸载CDH(附一键卸载github源码)

删除成功后显示如下

0008-如何卸载CDH(附一键卸载github源码)

6.卸载Cloudera Manager Server

6.1停止Cloudera Manager Server和数据库

在集群master服务器上执行如下命令

[[email protected] ~]# service cloudera-scm-server stop

#如果使用内置db postgresql需要停止该服务,没有则忽略

[[email protected] ~]# service cloudera-scm-server-db stop

6.2卸载Cloudera Manager Server和数据库

使用yum卸载cloudera-scm-server和cloudera-scm-server-db-2,命令如下

[[email protected] ~]# yum remove cloudera-manager-server

#如果使用内置db postgresql需要移除该服务,没有则忽略

[[email protected] ~]# yum remove cloudera-manager-server-db-2

7.卸载Cloudera Manager Agent和Managed Software

在集群所有的机器上进行如下操作,卸载Cloudera Manager Agent 和Managed Software。

7.1停止Cloudera Manager Agent

在所有服务器上使用如下命令停止Cloudera Manager Agent 服务

[[email protected] ~]# sudo service cloudera-scm-agent hard_stop

7.2卸载软件

在集群所有节点执行如下操作:

[[email protected] ~]# yum remove 'cloudera-manager-*' avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hadoop-kms hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout oozie pig pig-udf-datafu search sentry solr-mapreduce spark-core spark-master spark-worker spark-history-server spark-python sqoop sqoop2 whirr hue-common oozie-client solr solr-doc sqoop2-client zookeeper

7.3运行清除命令

在集群所有节点执行如下操作:

[[email protected] ~]# yum clean all

8.移除Cloudera Manager和用户数据

8.1杀死 Cloudera Manager和Managed进程

在集群所有节点执行如下操作,将所有服务器的Cloudera Manager和Managed进程杀死,命令如下:

0008-如何卸载CDH(附一键卸载github源码)

8.2移除Cloudera Manager数据

在集群所有节点执行如下命令,删除所有Cloudera Manager数据

umount cm_processes

rm –rf /usr/share/cmf /var/lib/cloudera* /var/cache/yum/x86_64/6/cloudera* /var/log/cloudera* /var/run/cloudera* /etc/cloudera* /usr/lib64/cmf

8.3移除Cloudera Manager Lock File

在集群中所有节点执行如下命令,删除Cloudera Manager Lock File

rm –rf /tmp/.scm_prepare_node.lock

8.4移除用户数据

此步骤将永久删除所有用户数据。为了备份数据,在启动卸载过程之前,使用distcp命令将其复制到另一个集群中。在集群中所有节点执行如下命令,删除用户所有数据:

0008-如何卸载CDH(附一键卸载github源码)

8.5停止并移除外部数据库

在安装mysql的服务器上进行操作。

  • 停止mysql数据库,操作如下:
service mysqld stop
  • 卸载mysql数据库,操作如下
yum remove mysql*
  • 删除mysql数据目录,操作如下
rm –rf /var/lib/mysql

9.一键卸载脚本说明(GitHub地址)

  • 卸载脚本说明:

0008-如何卸载CDH(附一键卸载github源码)

autouninstall.sh:自动卸载脚本

components.list:集群所有安装的组件列表

delete.list:需要删除的目录列表,列表中已配置大部分CDH安装默认目录,用户需要对列表末尾的hdfs目录根据自己集群环境进行目录进行相应调整,如下图所示:

0008-如何卸载CDH(附一键卸载github源码)

node.list:集群所有节点,根据集群环境进行节点配置

user.list:集群所有组件安装时所使用的用户名

  • 脚本使用

0008-如何卸载CDH(附一键卸载github源码)

注:脚本是在第五步操作完成后,在namenode节点进行一键卸载

运行截图

0008-如何卸载CDH(附一键卸载github源码)

0008-如何卸载CDH(附一键卸载github源码)

源码地址:

https://github.com/javaxsky/cdh-shell

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
0008-如何卸载CDH(附一键卸载github源码)

转载自://blog.51cto.com/14049791/2317557



Ambari2.6安装部署Hadoop2.7
ApacheAmbari是一种基于Web的工具,支持ApacheHadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等。ApacheAmbari支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管
2018-07-09期 Hadoop单节点伪分布式扩展为多节点分布式【本人亲自反复验证通过分享】
备注:本期承接自2018-07-08期Hadoop单节点伪分布式集群配置【本人整合多方资料并亲自反复验证通过分享】一、服务器准备--额外增加2台服务器IP地址主机名称备注192.168.1.201hadoop-server01现有192.168.1.202hadoop-server02新增192.168.1.203hadoop-server03新增二、配置JDK[[email protected]
2018-07-08期 Hadoop单节点伪分布式集群配置【本人整合多方资料并亲自反复验证通过分享】
一、安装介质下载地址://archive.apache.org/dist/hadoop/core/安装版本:hadoop-2.4.1.tar.gz二、安装步骤1、解压hadoop-2.4.1.tar.gz[[email protected]]#tar-xvfhadoop-2.4.1.tar.gz-C/usr/local/apps/[[email protected]
OpenCV关于万达平台搭建重映射map_x,map_y的疑惑
OpenCV中什么万达平台搭建论坛:haozbbs.comQ1446595067是重映射就不赘述了,主要是对源码中map_x,map_y有些疑惑,图像是如何进行重映射的呢?上下变换的部分源码:Matmap_x,map_y;map_x.create(srcimg.size(),CV_32FC1);map_y.create(srcimg.size(),CV_32FC1);for(inti=0;i<
hadoop2.0中yarn的运行原理
Yarn的简单介绍        我们知道在离线大数据处理领域中,hadoop是目前无可厚非的处理架构,到目前为止hadoop已经有三个大版本,每个版本下都有架构方面的调整。        在hadoop1.0中有一些弊端,比如hdfs
太平洋保险家园大数据项目DSG应用(30多个Oracle等实时同步到KAFKA)
根据太保家园项目的最终目标,在一期建设中,需要将太平洋保险集团下属的寿险,产险,车险等30多个核心系统数据,通过实时同步复制的方式,统一集中到大数据平台。其中涉及数据的转换,标化,清洗,去重等一系列过程,具体需求如下:1、需要将核心数据从30多个系统同步到大数据平台的kafka组件。2、确保数据复制的实时性(秒级)和数据的准确性3、复制的数据需要加上时间,操作类型等标签,便于后端应用识别4、以生产环境的dg库作为数据的汇聚源端,减轻对生产库的影响5、入kafka的数据格式可灵活配置,以便更好的适配后端应用6、需要具备数据操作统计和数据比对功能,便于核对数据的准确性
Hadoop权威指南摘录---1
Hadoop权威指南摘录
20180611早课记录28-Sqoop
1.sqoop是什么?主要用于在Hadoop与RDBMS间进行数据的传递2.sqoop分为哪两个分支,各最新版本是什么?sqoop1:1.4.7sqoop2:1.99.73.在工作中我们用的最多的是sqoop1,那么导入和导出,谁给谁的导入是RDBMS到Hadoop导出是Hadoop到RDBMS4.假如输入一个命令找不到notfound,你们觉得该怎么办?(老生常谈)先看打错了没有,再看PATH有
CentOS 7.4下编译安装Hadoop 2.7.6 及所需文件
CentOS7.4下编译安装Hadoop2.7.6及所需文件