Kettle 安装配置

文章目录

  • Kettle 安装配置
    • Kettle 安装
    • Kettle 配置
    • 连接 Hive

Kettle 安装配置

Kettle 安装

在安装Kettle之前,需要确定已经安装Java运行环境。Kettle需要Java的支持才能运行,JDK的版本最好是8.x的太新的也会出现bug。Kettle的7.1版本的太旧了,容易出现闪退,右击就死机等bug,9.x太新了也会有bug,下载8.2版本的安装包。如图所示:Kettle官方网站下载地址如下:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net

在这里插入图片描述

在Windows系统上,可以直接双击“spoon.bat”文件启动Kettle。在Linux或Mac OS系统上,可以在命令行中输入“./spoon.sh”命令启动Kettle。

在这里插入图片描述

Kettle 配置

完成了Kettle的安装之后,我们还需要通过配置,使得Kettle可以与Hadoop 协同工作。通过提交适当的参数,Kettl可以连接Hadoop的HDFS、MapReduce、Zookeeper、Oozie、Sqoop 和Spark服务。在数据库连接类型中支持Hive和Impala。

在配置连接前,要确认Hadoop和Hive虚拟机中已经正确安装并启动。使用FTP工具,连接虚拟机,找到Hadoop和Hive中的配置文件:core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、hive-site.xml,合计5个,下载到Kettle根目录下的plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514目录下,覆盖原来Kettle自带的这些文件。

​在本机配置IP地址映射,修改C:\Windows\System32\drivers\etc\hosts文件,加入主机名与IP对应关系,填自己的IP和主机名。

192.168.88.102 hadoop102
192.168.88.103 hadoop103
192.168.88.104 hadoop104

在Spoon界面中,选择主菜单“工具”→“Hadoop Distribution…”,从弹出窗口中可以看到五种Shim。选择“Cloudera CDH 514”,点击OK 按钮确定后重启Spoon.


​接下来我们新建一个作业来测试一下Kettle与Hadoop的连接。在工作区左侧的树的“主对象树”标签中,右击“作业”点击“新建”。选择 Hadoop clusters→ 右键 New Cluster。

在这里插入图片描述
选择对话框中输入如图所示的属性值

在这里插入图片描述

​ Hadoop集群配置窗口中的选项及定义说明如下:

  • Cluster Name:定义要连接的集群名称,这里为hadoop。
  • Hostname(HDFS 段):Hadoop集群中NameNode节点的主机名。本例中在虚拟机的主机名已经设置为hadoop102。
  • Port(HDFS 段):Hadoop集群中NameNode节点的端口号。
  • Username(HDFS 段):HDFS的用户名,通过宿主操作系统给出,可以不填。这里为虚拟机登录用户名。
  • Password(HDFS 段):HDFS的密码,通过宿主操作系统给出,可以不填。虚拟机登录密码。
  • Hostname(JobTracker 段):Hadoop集群中JobTracker节点的主机名。如果有独立的JobTracker节点,在此输入,否则使用HDFS的主机名。
  • Port(JobTracker 段):Hadoop集群中JobTracker节点的端口号,不能与 HDFS 的端口号相同。
  • Hostname(ZooKeeper 段):Hadoop集群中Zookeeper节点的主机名,只有在连接Zookeeper 服务时才需要。
  • Port(ZooKeeper 段):Hadoop集群中Zookeeper节点的端口号,只有在连接Zookeepe服务时才需要。
  • URL(Oozie 段):Oozie WebUI的地址,只有在连接Oozie。

然后点击“测试”按钮,测试结果如图2-6所示。此时Oozi和Zookeeper 因为没有进行安装,所以必定会有连接失败的警告。“User Home Directory Access”这条报错则是由于当前 Kettle 是安装在宿主机的Windows系统中,Windows 上

运行的 Kettle 在连接 Hadoop 集群时,始终用本机用户连接 Hadoop 集群,因此User Home Directory Access会报错。将Kettle 安装到 Hadoop 所在的虚拟机中可以解决此问题。此处不影响后续的操作。

在这里插入图片描述

连接 Hive

接下来,我们再尝试使用Kettle连接Hive。Kettle把Hive当作一个数据库,支持连接Hive Server和Hive Server 2,数据库连接类型的名字分别为Hadoop Hive 和 Hadoop Hive 2。这里在Kettle中建立一个Hadoop Hive 2类型的数据库连接。

在远程连接虚拟机,进入 Hive 目录,然后启动 HiveServer2 服务,命令“hiveserver2”,


在Kettle工作区左侧的“主对象树”标签中,选择“DB 连接” → 右键“新建”,对话框中输入如图所示的属性值

在这里插入图片描述
上图的数据库连接配置窗口中的选项及定义说明如下:

  • Connection Name:定义连接名称,这里为 hive。
  • Connection Type:连接类型选择 Hadoop Hive 2。
  • Host Name:输入HiveServer2对应的主机名,这里是hadoop102。
  • Datebase Name:这里输入的default是Hive里默认的一个数据库名称。
  • Port Number:端口号输入hive.server2.thrift.port参数的值,我们连接时设置的端口号为10000。
  • User Name:用户名,这里为虚拟机登录用户名。
  • Password:密码,这里为虚拟机登录密码。

点击“测试”,应该弹出成功连接窗口

为了让其它转换或作业能够使用此数据库连接对象,需要将它设置为共享。选择 “DB连接”→ hive → 右键“共享”,然后保存作业。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/228395.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

排序-插入排序与希尔排序

文章目录 一、插入排序二、希尔排序 一、插入排序 思路: 当插入第i(i>1)个元素时,前面的array[0],array[1],…,array[i-1]已经排好序,此时用array[i]的排序码与array[i-1],array[i-2],…的排序码顺序进行比较,找到插入位置即将…

Apollo新版本Beta自动驾驶技术沙龙参会体验有感—百度自动驾驶开源框架

在繁忙的都市生活中,我们时常对未来的科技发展充满了好奇和期待。而近日,我有幸参加了一场引领科技潮流的线下技术沙龙,主题便是探索自动驾驶的魅力——一个让我们身临其境感受创新、了解技术巨擘的机会。 在12月2日我有幸参加了Apollo新版本…

PaddleClas学习3——使用PPLCNet模型对车辆朝向进行识别(c++)

使用PPLCNet模型对车辆朝向进行识别 1 准备环境2 准备模型2.1 模型导出2.2 修改配置文件3 编译3.1 使用CMake生成项目文件3.2 编译3.3 执行3.4 添加后处理程序3.4.1 postprocess.h3.4.2 postprocess.cpp3.4.3 在cls.h中添加函数声明3.4.4 在cls.cpp中添加函数定义3.4.5 在main.…

亚马逊、OZON、速卖通、美客多店铺怎么增加页面访问量?

店铺怎么增加页面访问量?页面访问量是衡量你的亚马逊店铺或产品在互联网上的可见性和曝光度的重要指标。如果你的店铺没有足够的访问量,意味着很少有人能看到你的内容或产品,这将限制你的潜在受众和销售机会。 没有流量就没有店铺&#xff0c…

京东运营数据分析:10月京东奶粉行业销售数据分析

近年来,随着出生人口红利逐渐消逝,婴幼儿奶粉竞争进入红海时代,产品逐渐过剩。在这种情况下,我国奶粉市场进入调整阶段,企业开始将目光投向奶粉的品类细分领域,如有机奶粉、羊奶粉、特殊配方奶粉、成人奶粉…

物联网+AI智慧工地云平台源码(SaaS模式)

智慧工地云平台充分运用数字化技术,聚焦施工现场岗位一线,依托物联网、互联网、AI等技术,围绕施工现场管理的人、机、料、法、环五大维度,以及施工过程管理的进度、质量、安全三大体系为基础应用,实现全面高效的工程管…

达梦 DM 数据库

达梦数据库 varchar varchar2的区别 DATE DATETIME TIMESTAMP 类型

空中“千里眼” 复亚环保监测无人机助力生态保护

生态环境保护是全球共同关注的重要议题,为了持续改善环境、加强执法效能,复亚智能环保监测无人机在环保领域大显身手。该智能系统为环境执法人员提供了全新的工具,使其能够在无人机的“千里眼”下,及时发现和制止环境违法行为&…

ssm校园论坛管理系统项目分享

校园论坛管理系统是基于java编程语言,mysql数据库,ssm框架和idea工具开发,本系统主要分为学生用户,管理员两个角色,其中用户可以注册登陆系统,在线发帖,查看栏目帖子,回复帖子&#…

智能外呼核心功能是什么? 智能外呼有什么功能?

智能外呼是现今市场营销领域中的一种新型的技术手段。与传统的市场营销不同,智能外呼不仅仅是单纯的电话营销,其功能更加丰富多样,而且能够节省很多人力、财力资源。 智能外呼的核心功能是什么呢? 智能外呼的核心功能是AI智能外呼…

泰裤辣!这个网站制作电子产品册很轻松

电子产品册的制作对于许多企业来说是一项重要的任务,它不仅能够帮助企业展示自己的产品,还能够提高企业的品牌形象和市场竞争力。 这个网站能够轻松制作电子产品册,这无疑是一个非常有用的工具,可以帮助许多企业节省时间和精力&am…

​LeetCode解法汇总1466. 重新规划路线

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 描述: n 座城市&…

pytest +uiautomator2+weditor app自动化从零开始

目录结构1.0 把设备连接单独移出去了 模块操作代码,有一些流程操作和断言方法 from devices import dv from time import sleep import random from tool.jt import capture_screenshotdef initialization(func):def wrapper():sleep(1)dv.app_stop(com.visteon.…

使用SLS日志服务采集Kong网关的日志

一、阿里云SLS 官方的接入文档已比较丰富了,本文不意重复说明此事。 站在使用的角度,以采集Kong的日志为示例,说明我们应该如何治理日志。 说白了,本文是想给你怎么省钱作一个建议,希望不会让你公司也“降本增笑”。…

MYSQL主从复制配置指引

MYSQL主从复制配置指引 1.前期准备 部署完主备数据库,初始化主备库表结构和数据。 2. 主库配置修改 修改主库配置文件etc/my.cnf,新增以下配置: #服务器 id,需唯一 server-id 1 #二进制文件存放路径 log-bin mysql-bin …

使用 HTML 地标角色提高可访问性

请务必确保所有用户都可以访问您的网站,包括使用屏幕阅读器等辅助技术的用户。 一种方法是使用 ARIA 地标角色来帮助屏幕阅读器用户轻松浏览您的网站。使用地标角色还有其他好处,例如改进 HTML 的语义并更轻松地设置网站样式。在这篇博文中,我…

【C语言】7-32 刮刮彩票 分数 20

7-32 刮刮彩票 分数 20 全屏浏览题目 切换布局 作者 DAI, Longao 单位 杭州百腾教育科技有限公司 “刮刮彩票”是一款网络游戏里面的一个小游戏。如图所示: 每次游戏玩家会拿到一张彩票,上面会有 9 个数字,分别为数字 1 到数字 9&#xf…

Ubuntu18安装(重启黑屏问题)

1. F10 进入bios,选择u盘里的ubuntu镜像 2.进入使用ubuntu,下载 3.重启,esc 4.ubuntu 安e进入 5. nomodeset() F10 保存启动 6. 7.没有网 手机usb提供网络 下载有限网卡驱动

vue使用甘特图dhtmlxgantt + gantt.addTaskLayer

效果图: 甘特图 官网地址 gantt安装与使用 vue版---部分功能收费 安装gantt 或 引入文件 npm install dhtmlx-gantt -save或import gantt from "/public/static/dhtmlxgantt/dhtmlxgantt.js"; import "/public/static/dhtmlxgantt/locale/local…

为“异常”努力是值得的

异常是OO语言处理错误的方式,在C中,鼓励使用异常。侯捷再书中谈起异常,“十年前撰写“未将异常考虑在内的”函数是为一种美好实践,而今我们致力于写出“异常安全码”。”可见异常安全的重要。 说起异常安全,首先就要是异常的出现…
最新文章