Hadoop相关知识点

文章目录

  • 一、主要命令
  • 二、配置虚拟机
    • 2.1 设置静态ip
    • 2.2 修改主机名及映射
    • 2.3 修改映射
    • 2.4 单机模式
    • 2.5 伪分布式
    • 2.6 完全分布式
  • 三、初识Hadoop
  • 四、三种模式的区别
    • 4.1、单机模式与伪分布式模式的区别
    • 4.2、特点
    • 4.3、配置文件的差异
      • 4.3.1、单机模式
      • 4.3.2、伪分布式模式
      • 4.3.3、完全分布式模式
  • 五、问答题
  • 六、shell访问hdfs(通过HDFS*Shell命令)
      • 6.1、问答题
    • 6.2、注意


一、主要命令

  • 开启防火墙 sudo ufw enable
  • 关闭防火墙 sudo ufw disable
  • 查看防火墙状态 sudo ufw status
  • 修改主机名 sudo vi /etc/hostname
  • 修改映射 sudo vi /etc/hosts (考题)
  • 建立文件夹 mkdir 文件夹名字
  • 删除文件夹 rm -rf 递归删除文件夹向下穿透,其下所有文件、文件夹都会被删除 rm -f 强制删除文件 rm -r 递归删除文件
  • 解压文件夹 tar -zxvf 文件名 -C ~/解压到的文件路径
  • 文件重命名 mv 旧文件名 新文件名
  • 修改主机名的文件位置 /etc/hostname
  • 使配置环境变量生效 source ~/.bashrc
  • 修改环境变量的 vi ~/.bashrc
  • 查看具体的某个文件用cat
  • 查看目录用 ls
  • 重启ssh服务器 service sshd restart
  • 启动ssh sudo service ssh start
  • sudo是必须执行的命令
  • -i 表示覆盖的意思

二、配置虚拟机

2.1 设置静态ip

查看当前ip:ifconfig
进入到netplan文件夹 cd /etc/netplan
查看文件目录,找到需要修改的文件 ls
进行修改ip sudo vi 00-installer-config.yaml
将设置的网络应用 sudo netplan apply
再次查看ip ip已经更换

2.2 修改主机名及映射

修改主机名 sudo vi /etc/hostname 修改后记得重启
修改映射 sudo vi /etc/hosts (考题)

2.3 修改映射

sudo vi /etc/hosts 将ip地址和主机名的映射添加到文件中192.168.xx.xxx single
使用文本编辑器打开 C:\Windows\System32\drivers\etc\host 文件并在文件末尾添加以下配置并保存退出 192.168.xx.xxx single

2.4 单机模式

  • 没有HDFS
  • 只能测试MapReduce程序
  • MapReduce处理的是本地的Linux的文件数据
  • 只需要修改hadoop-env.sh配置文件

2.5 伪分布式

  • 格式化HDFS的命令: hdfs namenode -format

启动hadoop集群的命令

  • start-all.sh或
  • 启动dfs命令: start-dfs.sh
  • 启动yarn命令: start-yarn.sh
  • 启动yarn之后会有哪些服务?

ResourceManage(8088)、NodeManager(8042)

  • 启动hdfs之后会有哪些服务?

Namenode 、 DataNode、 SecondaryNamenode

  • 启动所有服务的命令: start-all.sh
  • 查看yarn、web页面的端口号

查看yarn的端口号:8088
查看hdfs端口号:50070(通过web看)

  • 查看集群启动进程
    jps
    yarn的中文名(Yet Another Resource Negotiator):资源调度与分配框架

  • 控制从节点运行的服务器:workers(3.0hadoop)slaves(2.0hadoop)

  • NameNode(名称结点)的职责

A. 维护HDFS集群的目录树结构:NameNode负责存储和管理文件系统的命名空间,包括目录、文件和其属性等信息。
B. 维护HDFS集群的所有数据块的分布、副本数和负载均衡:NameNode记录每个数据块的位置和副本信息,并负责管理数据块的复制和迁移,以实现数据的可靠性和负载均衡。
C. 响应客户端的所有读写数据请求:NameNode接收客户端的读写请求,并将请求转发到适当的DataNode进行数据读取或写入操作。
D.NameNode负责管理数据块和处理元数据。

  • Namenode无法访问时:
  • 默认数据块大小:64mb 128mb 128mb
  • 要存下700m需要6块数据块:一块为128
  • namenode保存的两个文件:edits文件(文件的更新操作,记录操作日志)fsimage文件(修改信息 时间 控制访问权限 hdfs的元信息)
  • DataNode(数据结点)职责

1.存储数据块block
2.根据namenode的指令对block进行创建、复制、删除等操作
3.datanode和namenode进行心跳通信,接受namenode指令
4.定期向namenode汇报自身存储的block列表及健康状态
5.负责为客户端发起的读写请求提供服务

  • block是hdfs文件系统中最小的存储单位
    SSH免密登录原理
    非对称加密算法(rsa)、公钥加密(给别人)、私钥解密(给自己)
    生成密钥对:ssh-keygen -t
    将公钥copy给serverB:ssh-copy-id -i
    在主机上登录子机:ssh 子机名

2.6 完全分布式

  • 分发命令:scp -r /home/hadoop/hadoop-2.7.4 node2:/home/hadoop

三、初识Hadoop

  • 大数据的特征:大量、真实、多样、低价值密度、高速
  • hadoop起源的三篇论文:NDFS、MapReduce(分而治之,并行计算)、HDFS(分布式文件系统)->源于谷歌的GFS论文
  • hadoop处理的是离线数据!
  • 元数据(MetaData):记录hdfs文件系统的相关信息,包括文件系统的目录结构 文件名 文件路径 文件大小等。
  • Hadoop的优缺点(简答题):

高扩展性: 增加集群的存储和计算能力
低成本: 利用多台廉价计算机,分布式系统处理
高效性: 离线并行动态计算,提高计算效率
高可靠性: 维护数据副本(3个),可有效防止数据丢失
高容错性:可转移到其他计算机上运行

缺点

不适合处理小文件:为了解决大型数据集的处理问题
无法实时计算:核心是执行离线计算的引擎
安全性较低存储和网络传输方面缺乏对数据的加密

场景:

适合:大数据分析、离线分析
不适合:少量数据、复杂数据、在线分析

  • HDFS是Hadoop生态圈的基石,主要负责hadoop集群数据的存储和读取
  • 大数据处理的意义:对未来事物发展规律做出预测,对之前的数据进行归纳和总结。
  • 第二名称节点的作用:辅助namenode合并fsimage文件和edits文件 将合并结果发送给namenode,帮助主节点namenode进行元数据备份和恢复

四、三种模式的区别

4.1、单机模式与伪分布式模式的区别

单机模式

运行在单个计算机中
所有Hadoop组件(如HDFS和YARN)都在本地运行,并且没有网络通信
在单机模式下,Hadoop使用本地文件系统来存储数据。

伪分布式模式

Hadoop在一台计算机上模拟了一个分布式环境。
Hadoop服务(如HDFS和YARN)运行在单个计算机上,但它们通过网络进行通信和协作。
文件系统被配置为HDFS,而不是本地文件系统,数据被存储在HDFS中

4.2、特点

在这里插入图片描述

4.3、配置文件的差异

4.3.1、单机模式

在这里插入图片描述

4.3.2、伪分布式模式

在这里插入图片描述

4.3.3、完全分布式模式

在这里插入图片描述

五、问答题

在这里插入图片描述

(1)ifconfig
(2)scp -r /home/hadoop/hadoop-2.7.4 node2:/home/hadoop
(3)hdfs namenode -format
(4)start-dfs.sh 和 start-yarn.sh

在这里插入图片描述

(1)hdfs dfs -mkdir /hd123
(2)hdfs dfs -touch data.txt
(3)hdfs dfs -ls /hd123
(4)hdfs dfs -appendToFile test.txt /hd123/data.txt
(5)hdfs dfs -cat /hd2112054139/data.txt
(6)hdfs dfs -get /hd2112054139/data.txt

根据HDFS的块大小为128MB,存储300MB的文件需要多少个数据块。

计算方法如下:
文件大小 / 块大小 = 数据块数量
300MB / 128MB ≈ 2.34
根据向上取整规则,需要3个数据块来存储300MB的文件。
所以,需要3个数据块来存储300MB的文件。

六、shell访问hdfs(通过HDFS*Shell命令)

  • 格式化HDFS
    hdfs namenode -format
  • 创建目录
    hdfs -dfs -mkdir /hd2112054139
  • 级联的创建目录
    hdfs dfs -mkdir -p /hd2112054139/a/b/c 使用-p时,如果父目录不存在,会自动创建
  • 查看目录
    hdfs dfs -ls /hd211205139
  • 级联的查看目录
    hdfs dfs -ls -R /hd2112054139
  • 将本地文件上传到HDFS中:hdfs dfs -put 文件名 文件目录 或 hdfs dfs -copyFromLocal b.txt /usr/opt/data
  • 将本地文件下载(复制):hdfs dfs -get 文件目录 本地文件目录
  • 追加数据

-appendToFile命令:将所有给定本地文件的内容追加到hdfs文件,hdf文件不存在,则创建该文件
hdfs dfs -appendToFile d.txt /usr/opt/data/a.txt

  • 在hdfs中文件复制到同一个目录下:hdfs dfs -cp /data1.txt /data2.txt
  • 查看文件夹大小:hdfs dfs -du -s 文件夹名
  • 查看文件大小:hdfs dfs -du 文件名
  • hdfs中删除文件:hdfs dfs -rm -r 文件路径名
  • hdfs中统计文件:hdfs dfs -count 文件路径名(显示:目录个数、文件个数、文件总计大小、输入路径)
  • 合并目录下的文件并下载到本地:hdfs dfs -getmerge /hd123 ~/input/merge.txt,
    并在本地查看内容:cd 本地文件名 cat merge.txt
  • 查看文件内容:
#-cat命令:将文件内容显示出来(适合小文件)
hdfs dfs -cat /usr/opt/data/a.txt
#-haed命令:查看文件前1KB的内容
hdfs dfs -head /usr/opt/data/a.txt
#-tail命令:查看文件最后1KB的内容
hdfs dfs -tail /usr/opt/data/a.txt
#-tail -f命令:可以动态显示文件中追加的内容
#在Linux系统中
tail -f 1.txt 
#hdfs
hdfs dfs -tail -f /usr/opt/data/a.txt
  • HDFS中block默认保存3份
  • 一个datanode上只有一个数据块的备份

6.1、问答题

1.根据要求写出HDFS shell命令

  • 在HDFS上创建名为test的目录(此目录在主目录下)
    hdfs dfs -mkdir ~/test
  • 将本地的文件file上传至test目录下
    hdfs dfs -put /input/file.txt /test
  • 将本地的文件file内容追加至test目录下的file1.txt中
    hdfs dfs -appendToFile file.txt /test/file1.txt
  • 查看test的目录信息.
    hdfs dfs -ls /test

2.这三台操作系统为Ubutun 18.04机器(机器名分别是master(192.168.22.101)、slave(192.168.30.102)、slave2(192.168.22.103))部署Hadoop完全分布式环境,master上位Namenode节点,三台机器已经实现免密登录。实现下面功能需要输入什么Linux命令或者操作进行什么操作?

  • 在主机master生成密钥的命令是什么?
    ssh-keygen -t
  • 从master,通过ssh登录到slave2
    ssh slave2
  • 在master上,格式化HDFS
    hdfs namenode -format’
  • 启动YARN
    start-yarn.sh
  • 该Hadoop集群运行时,使用哪儿个命令查看集群启动进程
    jps

6.2、注意

hdfs dfs -put ~/input/file.txt /test 和 hdfs dfs -put /input/file.txt /test 的区别在于文件的来源路径。

hdfs dfs -put ~/input/file.txt /test 中的/input/file.txt表示当前用户的主目录下的input/file.txt文件。波浪号()在这里代表当前用户的主目录。
hdfs dfs -put /input/file.txt /test中的/input/file.txt表示根目录下的input/file.txt文件。
所以,两个命令的主要区别在于文件来源的路径。第一个命令将从当前用户的主目录下复制file.txt文件到HDFS中的/test目录,而第二个命令将从根目录下的/input目录中复制file.txt文件到HDFS中的/test目录。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/113867.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于nodejs+vue客户管理管理系统

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

智慧公厕:科技赋予公共卫生新生命,提升城市管理品质

在现代化城市中,公共卫生设施的发展与提升一直是对城市管理者和市民的共同期望。然而,传统的公共厕所常常令人困扰,脏乱臭成为难题。为了解决这一难题,广州中期科技科技有限公司全新升级的智慧公厕整体解决方案,补誉为…

SpringBoot3.* 集成又拍云上传组件

集成使用 添加Maven依赖 <!--又拍云--> <dependency><groupId>com.upyun</groupId><artifactId>java-sdk</artifactId><version>4.2.3</version> </dependency>代码编写 PostMapping("/common/upload") pu…

MySQL 优化思路篇

MySQL 优化思路篇 1、MySQL 查询的优化步骤2、查询系统性能参数3、慢查询日志定位问题3.1、开启慢查询日志参数3.2、查看慢查询数目3.3、慢查询日志的分析工具 mysqldumpslow3.4、关闭慢查询日志3.5、慢查询日志的删除与重建 4、SHOW PROFILE &#xff1a;查看SQL执行成本 1、…

React基础知识02

一、通过属性来传值&#xff08;props&#xff09; react中可以使用属性&#xff08;props&#xff09;可以传递给子组件&#xff0c;子组件可以使用这些属性值来控制其行为和呈现输出。 例子&#xff1a; // 1.1 父组件 import React, { useState } from react // 1.2引入子…

测试老鸟,Python接口自动化测试框架搭建-全过程,看这篇就够了...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、接口测试自动化…

Django实战项目-学习任务系统-查询列表分页显示

接着上期代码框架&#xff0c;6个主要功能基本实现&#xff0c;剩下的就是细节点的完善优化了。 接着优化查询列表分页显示功能&#xff0c;有很多菜单功能都有查询列表显示页面情况&#xff0c;如果数据量多&#xff0c;不分页显示的话&#xff0c;页面展示效果就不太好。 本…

Centos虚拟机安装配置与MobaXterm工具及Linux常用命令

目录 一、Centos操作系统 1.1 Centos介绍 1.2 Centos虚拟机安装 1.3 配置centos的镜像 1.4 虚拟机开机初始设置 1.4.1 查看网络配置 1.4.2 编辑网络配置 二、MobaXterm工具 2.1 MobaXterm介绍 2.2 MobaXterm安装 2.3 切换国内源 三、Linux常用命令和模式 3.1 查看网络配置 …

前端工程师的摸鱼日常(20)

今年一整年状态都不怎么好&#xff0c;所以别说摸鱼文了&#xff0c;其他技术文章都没写几篇&#xff0c;发生的事情有点多&#xff0c;无暇顾及这些&#xff0c;当然最主要的一个原因还是因为懒&#xff01; 有很多时候我都觉得人的大脑是单线程的&#xff0c;在处理一件事情…

Vue 事件绑定 和 修饰符

目录 一、事件绑定 1.简介 : 2.实例 : 二、修饰符 1.简介 : 2.实例 : 3.扩展 : 一、事件绑定 1.简介 : (1) 在Vue中&#xff0c;通过"v-on:事件名"可以绑定事件&#xff0c;eg : v-on:click表示绑定点击事件。 (2) 触发事件时调用的方法&#xff0c;定义在Vu…

HBase理论与实践-基操与实践

基操 启动&#xff1a; ./bin/start-hbase.sh 连接 ./bin/hbase shell help命令 输入 help 然后 <RETURN> 可以看到一列shell命令。这里的帮助很详细&#xff0c;要注意的是表名&#xff0c;行和列需要加引号。 建表&#xff0c;查看表&#xff0c;插入数据&#…

Unity AssetBundle批量打包、加载(场景、Prefab)完整流程

目录 1、文章介绍 2、具体思路和写法 &#xff08;1&#xff09;AB包的打包 &#xff08;2&#xff09;AB包的加载 &#xff08;3&#xff09;AB包卸载 3、结语 1、文章介绍 本篇博客主要起记录和学习作用&#xff0c;简单的介绍一下AB包批量的打包和加载AB包的方式&…

深度学习网络模型 MobileNet系列MobileNet V1、MobileNet V2、MobileNet V3网络详解以及pytorch代码复现

深度学习网络模型 MobileNet系列MobileNet V1、MobileNet V2、MobileNet V3网络详解以及pytorch代码复现 1、DW卷积与普通卷积计算量对比DW与PW计算量普通卷积计算量计算量对比 2、MobileNet V1MobileNet V1网络结构MobileNet V1网络结构代码 3、MobileNet V2倒残差结构模块倒残…

企业工程项目管理系统源码(三控:进度组织、质量安全、预算资金成本、二平台:招采、设计管理)

工程项目管理软件&#xff08;工程项目管理系统&#xff09;对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营&#xff0c;全过程、全方位的对项目进行综合管理 工程项目各模块及其功能点清单 一、系统管理 1、数据字典&am…

使用这些优秀的 iPad App 提升您的技术水平

还记得当年 iPad 隆重登场&#xff0c;每个人都对其改变游戏规则的潜力感到震惊吗&#xff1f;嗯&#xff0c;你猜怎么着&#xff1f;iPad 应用程序世界已经发展&#xff0c;我们为您精心挑选了最好的应用程序&#xff08;由 AVNation 提供&#xff09;。 1、Crestron Electro…

求解一个整数中含多少个1

1.问题描述&#xff1a;给定一个整数&#xff0c;统计其对应的二进制中含有1的个数。比如8(0000 1000),对应的二进制数中&#xff0c;只含有一个1. 2.设计思路&#xff1a;对x取余&#xff1a;zx%2。如果z&#xff01;0&#xff0c;说明x的末尾不是为1.对于一个二进制x4x3x2x1…

HHDBCS扩展数据库类型

为应对市面上的数据库种类繁多的问题&#xff0c;HHDBCS设置了扩展数据库功能。 在登陆界面点击“工具”&#xff0c;选择“扩展数据库类型”&#xff1b; 注&#xff1a;HHDBCS支持已kingbase&#xff0c;本文仅用来举例。 填入名称、所需数据库的信息&#xff0c;上传驱动…

【广州华锐互动】军用飞机VR实战训练系统

随着科技的飞速发展&#xff0c;虚拟现实(VR)技术为军事训练带来了前所未有的机遇。军用飞机VR实战训练系统&#xff0c;正是在这一背景下应运而生的一种创新的训练方法。该系统利用先进的虚拟现实技术&#xff0c;为飞行员提供真实且逼真的模拟飞行环境&#xff0c;使之能够在…

【设计模式】第20节:行为型模式之“备忘录模式”

一、简介 备忘录模式也叫快照模式&#xff0c;具体来说&#xff0c;就是在不违背封装原则的前提下&#xff0c;捕获一个对象的内部状态&#xff0c;并在该对象之外保存这个状态&#xff0c;以便之后恢复对象为先前的状态。这个模式的定义表达了两部分内容&#xff1a;一部分是…

JS加密/解密之jsjiami在线js加密的效率问题

故事背景 ​ 经常有客户反馈&#xff0c;v7加密的效率比v6低&#xff0c;但是安全性更好。这里我给大家科普一下关于jsjiami的优化诀窍。 示例源代码 // 伪代码 while (1) {var name ‘张三’ }优化后 var _name 张三; while (1) {var name _name }优化原理 相信很多朋…
最新文章