软件工程期末复习+数据仓库ETL

一、软件工程

请用基本路径测试方法为下列程序设计测试用例,并写明中间过程:

第1步:画出流程图

1.菱形用于条件判断。用在有分支的地方。

2.矩形表示一个基本操作。

3.圆形是连接点

第2步:计算程序环路复杂性

流图G的环路复杂度V(G)定义为:V(G)=E-N+2 (E为流图中的边数量,N为流图中的节点数量)。

V(G)也可以定义为:V(G)=P+1 其中:P为流图中的判断节点数量。

第3步:给出独立路径集

需要注意的是:路径集对每个循环至多只执行一次,所以第2次不会进入已经进入过的循环中。

(1)2.1 - 2.2.1 - 2.2.2 - 15 - 16

表示不满足i-1后大于等于0,即i-1后小于0,于是直接15,16退出。

(2)2.1 - 2.2.1 - 3 - 4.1 - 4.2 - 12 - 13 - 16

表示i-1后等于0,即i原本为1,即数组中只有1个数,i-1后i值为0,因为j=0,所以不满足j<i,直接退出循环,直接进入12,13,16退出

(3)2.1 - 2.2.1 - 2.2.2 - 3 - 4.1 - 4.2 - 5 - 10 - 4.3 - 4.2 - 12 - 13 - 16

(4)2.1 - 2.2.1 - 2.2.2 - 3 - 4.1 - 4.2 - 5 - 10 - 4.3 - 4.2 - 12 - 2.2.1 - 2.2.2 - 15 - 16

(5)2.1 - 2.2.1 - 2.2.2 - 3 - 4.1 - 4.2 - 5 - 6,7,8,9 - 10 - 4.3 - 4.2 - 12 - 13 - 16

(6)2.1 - 2.2.1 - 2.2.2 - 3 - 4.1 - 4.2 - 5 - 6,7,8,9 - 10 - 4.3 - 4.2 - 12 - 2.2.1 - 2.2.2 - 15 - 16

第4步:测试用例

(1)输入空值

(2)输入只有一个元素的数组,比如数组[3]

(3)输入升序排序的数组,比如数组[2,3,6,9]

(4)同样也是输入升序排序的数组,比如数组[2,3,6,9]

(5)输入数组[1,5,2]

(6)输入降序排序的数组,比如数组[9,5,3,2]

二、数据仓库

要解决的几个问题:

1.如何从数据库中抽取数据

如果你需要导入的数据量很小(如只有两张表,每张表大约一千行数据),你可能不需要使用Sqoop。Sqoop更适合批量数据传输和数据仓库场景,对于少量数据的导入,可以考虑以下几种简单的替代方法:

直接导出/导入:

使用MySQL的导出工具(例如mysqldump)导出表为SQL文件,然后在Hive命令行界面中运行这些SQL语句。
或者,如果数据表结构不复杂,可以将MySQL表数据导出为CSV文件,然后在Hive中创建表,并使用LOAD DATA LOCAL INPATH命令加载CSV文件。

2.如何进行数据转换,是否需要数据转换,需要使用什么工具,在哪个步骤中进行转换(是当数据在数据库中,还是要通过别的工具,还是要在数据仓库中转换??)

使用Hive SQL:

你可以编写Hive SQL脚本来进行数据转换。例如,通过CREATE TABLE AS SELECT (CTAS) 语句创建新表,并在这个过程中对数据进行转换。
通过Hive的内置函数或自定义函数(UDF)对数据进行转换。
使用INSERT OVERWRITE 语句将转换后的数据写入到新的表或分区中。
使用ETL工具:

你可以使用ETL(Extract, Transform, Load)工具,如Apache NiFi, Talend, Informatica等,来在数据进入Hive之前进行转换。
这些工具可以帮助你从多种源提取数据,应用复杂的转换逻辑,然后将其加载到Hive数据仓库中。
在Hadoop生态系统中进行转换:

使用如Apache Spark, Apache Pig等其他Hadoop生态系统工具来进行数据的预处理和转换,然后再将数据加载到Hive。
编写转换脚本: 可以在IDEA中编写Hive SQL脚本、Spark程序(使用Scala或Python)或其他任何数据处理脚本,这些脚本可以用来进行数据转换。

连接数据库和数据仓库: IDEA支持数据库插件,如Database Navigator或DataGrip功能,可以连接到Hive或其他数据库系统,从而可以直接运行SQL脚本来进行数据转换。

3.如何进行数据清洗,是否需要数据清洗,需要使用什么工具,在哪个步骤中进行清洗(是当数据在数据库中,还是要通过别的工具,还是要在数据仓库中转换??)

数据探索与评估: 在开始清洗之前,首先需要对数据进行探索和评估,确定需要进行哪些清洗操作。这一步骤可以通过SQL查询、数据可视化工具或者数据探索工具来完成。

数据清洗操作: 包括但不限于去除重复数据、填充或删除缺失值、标准化数据格式、校验和更正数据错误等。在Hive中,这通常通过编写HiveQL脚本来完成。
在数据库中清洗: 如果原始数据已经在Hive或其他数据库中,可以直接在数据库中使用SQL脚本进行清洗。
使用ETL工具: 可以使用ETL工具(如Apache NiFi、Talend、Informatica等)来设计数据清洗流程。
在数据仓库中转换: 有时候,数据在加载到数据仓库之后进行清洗和转换,尤其是在使用Hive这样的大数据平台时。
使用IDEA进行数据清洗: 可以在IntelliJ IDEA中编写HiveQL脚本或Spark程序来进行数据清洗,然后将这些脚本运行在Hive上。

4.如何进行数据装载,如何将数据库中的数据导入数据仓库?是通过某种工具,还是通过IDEA这类编译器编写代码脚本的方式?

使用HiveQL命令:可以使用Hive提供的HiveQL命令来装载数据,这些命令可以在Hive的CLI(命令行界面)、通过Beeline客户端、或者在任何支持Hive连接的IDE中执行。例如,可以使用LOAD DATA命令来将数据从本地文件系统或者Hadoop的HDFS导入Hive表中。
-- 将本地文件系统中的数据导入Hive表
LOAD DATA LOCAL INPATH '/path/to/local/data.txt' INTO TABLE your_table;
-- 将HDFS中的数据导入Hive表
LOAD DATA INPATH '/path/to/hdfs/data.txt' INTO TABLE your_table;
关于使用IDEA进行数据装载,IntelliJ IDEA是一个集成开发环境,它支持连接Hive,并可以执行HiveQL脚本。你可以通过在IDEA中配置Hive连接,然后在SQL脚本编辑器中编写并执行HiveQL命令来进行数据装载。以下是在IDEA中进行数据装载的基本步骤:
在IDEA中安装Database Navigator插件或使用已内置的数据库支持功能。
配置Hive连接:你需要提供Hive服务器的JDBC URL、用户名和密码。
打开IDEA的数据库视图,右键点击创建的Hive连接,选择"Console"打开一个新的查询窗口。
在查询窗口中编写上述提到的LOAD DATA命令,并执行。

5.如何在数据仓库中建表,导入的数据在数据仓库中是一种怎么样的组织形式?

创建表的步骤:

打开Hive的CLI(命令行界面),Beeline客户端,或者任何支持Hive连接的IDE(如IntelliJ IDEA)。

使用CREATE TABLE语句定义表的结构,包括列名和数据类型。

可以指定表的存储格式(如TEXTFILE、SEQUENCEFILE、ORC、PARQUET等)和位置(HDFS上的路径)。

可以为表设置分区(PARTITIONED BY)和桶(CLUSTERED BY)等属性来优化查询性能和数据组织。

CREATE TABLE IF NOT EXISTS my_table (
  id INT,
  name STRING,
  age INT,
  created_at TIMESTAMP
)
COMMENT 'This is a sample table'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/my_database/my_table';

TEXTFILE:默认格式,以纯文本形式存储数据,字段通常由特定分隔符(如逗号或制表符)分隔。
SEQUENCEFILE:二进制格式,适用于键值对数据,可以压缩。
ORC (Optimized Row Columnar):高效的列存储格式,适合大型数据集,支持高度压缩和快速读取。
PARQUET:另一种列式存储格式,广泛用于Hadoop生态系统。

6.如何对数据仓库中的数据进行可视化?是通过某种工具还是?

BI工具集成:
有许多商业智能(BI)工具可以连接到Hive并对其数据进行可视化,这些包括但不限于:

Tableau
Power BI
QlikView
Looker
Apache Superset
这些工具通常提供了一个用户友好的界面,通过JDBC或ODBC驱动与Hive进行交互,并且允许用户创建图表、报表和仪表板。
数据分析平台:
一些数据分析平台如Zeppelin或Jupyter Notebook可以与Hive直接交互,允许用户写Hive查询并利用Python、R等语言中的可视化库(如matplotlib、seaborn、ggplot2等)来展示结果。
Hadoop生态集成工具:

Hue:Hue是一个开源的SQL助手,为Hive提供了一个易于使用的Web界面,可以执行查询并查看结果。Hue也有基本的图表和可视化功能。
Apache Drill:可以通过SQL查询Hive和其他数据源,并且与BI工具集成,提供数据可视化能力。
自定义应用程序:
可以使用各种编程语言(如Java、Python、Scala等)通过Hive的JDBC或Thrift API连接到Hive,执行查询并获取数据。然后,可以使用图形库(如Python中的matplotlib或JavaScript中的D3.js)来创建自定义的可视化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/251066.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

设计模式——装饰模式(结构型)

引言 装饰模式是一种结构型设计模式&#xff0c; 允许你通过将对象放入包含行为的特殊封装对象中来为原对象绑定新的行为。 假设你正在开发一个提供通知功能的库&#xff0c; 其他程序可使用它向用户发送关于重要事件的通知。 库的最初版本基于 通知器Notifier类&#xff0c;…

西南科技大学数据库实验二(表数据插入、修改和删除)

一、实验目的 &#xff08;1&#xff09;学会用SQL语句对数据库进行插入、修改和删除数据操作 &#xff08;2&#xff09;掌握insert、update、delete命令实现对表数据插入、修改和删除等更新操作。 二、实验任务 创建数据库&#xff0c;并创建Employees表、Departments表和…

机器学习 | 过拟合与正则化、模型泛化与评价指标

一、过拟合与正则化 1、多项式逼近思想 任何函数都可以用多项式来表示。 举个栗子 ~ 比如说 泰勒公式 若要拟合sinx&#xff0c;泰勒认为仿造一条曲线&#xff0c;首先要保证在原点重合&#xff0c;之后在保证在这个点处的倒数相同&#xff0c;导数的倒数相同。 高次项引入了更…

appium2.0.1安装完整教程+uiautomator2安装教程

第一步&#xff1a;根据官网命令安装appium&#xff08;Install Appium - Appium Documentation&#xff09; 注意npm前提是设置淘宝镜像&#xff1a; npm config set registry https://registry.npmmirror.com/ 会魔法的除外。。。 npm i --locationglobal appium或者 npm…

【Redis】远程访问配置教程与远程客户端连接测试

前言 Redis 是一种基于内存的高性能键值存储数据库&#xff0c;常用于缓存、会话管理和实时数据分析等场景。在默认情况下&#xff0c;Redis 不允许远程连接&#xff0c;为了进行远程连接&#xff0c;需要进行一些配置和操作。接下来将介绍如何修改配置文件以允许远程连接&…

JVM学习之运行时数据区

运行时数据区 概述 内存 内存是非常重要的系统资源&#xff0c;是硬盘和CPU的中间桥梁&#xff0c;承载着操作系统和应用程序的实时运行。JVM内存布局规定了Java在运行过程中内存申请&#xff0c;分配&#xff0c;管理的策略&#xff0c;保证了JVM高效稳定运行。不同的JVM对于…

k8syaml提供的几个有意思的功能,Kubernetes在线工具网站

k8syaml.cn 提供的几个有意思的功能。 一、yaml资源快速生成 之前编写operator的helm的时候就需要自己写deployment、service、configmap这些资源&#xff0c;那么多字段也记不清&#xff0c;都是先找个模版&#xff0c;然后copy改改&#xff0c;再看官方文档&#xff0c;添加…

网络安全—学习溯源和日志分析

日志分析的步骤&#xff1a; 判断是否为攻击行为 不是&#xff1a;不用处理 是&#xff1a;判断攻击是否成功或者失败 攻击失败&#xff1a;判断IP地址是否为恶意地址&#xff0c;可以让防火墙过滤IP地址 攻击成功&#xff1a;做应急处置和溯源分析 应急处置&#xff1a;网络下…

【Linux】驱动

驱动 驱动程序过程 系统调用 用户空间 内核空间 添加驱动和调用驱动 驱动程序是如何调用设备硬件 驱动 在计算机领域&#xff0c;驱动&#xff08;Driver&#xff09;是一种软件&#xff0c;它充当硬件设备与操作系统之间的桥梁&#xff0c;允许它们进行通信和协同工作。驱动程…

OpenAI开源超级对齐方法:用GPT-2,监督、微调GPT-4

12月15日&#xff0c;OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型&#xff0c;实现更好的新型对齐方法。 目前&#xff0c;大模型的主流对齐方法是RLHF&#xff08;人类反馈强化学习&#xff09;。但随着大模型朝着多模态、AGI发展&#xff0c;神经元…

MySQL数据库 DML

目录 DML概述 添加数据 修改数据 删除数据 DML概述 DML英文全称是Data Manipulation Language(数据操作语言)&#xff0c;用来对数据库中表的数据记录进行增、删、改操作。 添加数据(工NSERT)修改数据(UPDATE)删除数据(DELETE) 添加数据 (1)给指定字段添加数据 INSERT …

多线程JUC 第2季 CAS的作用介绍与自旋锁

一 CAS作用介绍 1.1 CAS作用 CAS有3个操作数&#xff0c;位置内存值V&#xff0c;旧的预期值A&#xff0c;要修改的更新值B&#xff0c;如果内存值V和预期值相同则&#xff0c;内存值改为B&#xff0c;否则什么都不做。当它重来重试的这种行为称为-自旋。 CAS是一条cpu的原…

关联规则 Fp-Growth算法实现

Fp-Growth算法实现 实现上次博客例子&#xff0c;设置最小支持度计数为3&#xff0c;3/50.6&#xff0c;所以支持度为0.6 代码 # 属于太菜了&#xff0c;做个调包侠 from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import fpgrowth…

Swift 响应式编程:简化 KVO 观察与 UI 事件处理 | 开源日报 No.110

ReactiveX/RxSwift Stars: 23.8k License: MIT RxSwift 是 Reactive Extensions 标准的 Swift 特定实现&#xff0c;它提供了 Observable 接口来表达计算的通用抽象。该项目旨在为 Rx API 提供真正以 Swift 为先的 API&#xff0c;并允许轻松地组合异步操作和数据流。其主要功…

【MISRA C 2012】Rule 5.4 宏标识符应该是不同的

1. 规则1.1 原文1.2 分类 2. 关键描述3. Example4. 代码实例 1. 规则 1.1 原文 1.2 分类 规则5.4&#xff1a;宏标识符应该是不同的 Required要求类规范。 2. 关键描述 该规则要求&#xff0c;当定义宏时&#xff0c;其名称与: •当前定义的其他宏的名称;和 •参数的名称。…

【unity小技巧】两种办法解决FPS游戏枪或者人物穿墙穿模问题

文章目录 前言第一种解决思路第二种方法总结感谢完结 前言 当我们开发FPS游戏时&#xff08;其实3d游戏基本都会遇到这样的问题&#xff09;&#xff0c;如果我们不做处理&#xff0c;肯定会出现人物或者枪的穿墙穿模问题&#xff0c;这是是一个常见的挑战。 这种问题会破坏…

PhpStorm下载、安装、配置教程

前面的文章中&#xff0c;都是把.php文件放在WampServer的www目录下&#xff0c;通过浏览器访问运行。这篇文章就简单介绍一下PhpStorm这个php集成开发工具的使用。 目录 下载PhpStorm 安装PhpStorm 配置PhpStorm 修改个性化设置 修改字符编码 配置php的安装路径 使用Ph…

[wp]第四届江西省赣网杯网络安全大赛-web 部分wp

第四届江西省赣网杯网络安全大赛&#xff08;gwb&#xff09;线上预选赛 因为学业繁忙 只玩了1小时&#xff0c;后续看看补一下这些 2023gwb-web1 九宫格拼图 2023gwb-web2 $filexxx;extract($_GET);if(isset($fun)){$contenttrim(file_get_contents($file));if($fun!&…

uniapp的uni-im 即时通信使用教程【用户与商家对话、聊天 / 最新 / 最全 / 带源码 / 教程】

目录 使用场景用户图片商家图片 官方文档官方文档地址插件地址 项目创建uniCloud开发环境申请开发环境申请完后 概括开始使用步骤1App.vue 步骤2找到软件登录图片找到软件登录接口登录源码如下 步骤3找到软件注册图片注册源码如下 步骤4找到index.vue首页图片 index.vue源码如下…

微信小程序置顶导航,替代原生导航栏

效果图&#xff1a; 思路&#xff1a;Navigation是小程序的顶部导航组件&#xff0c;当页面配置navigationStyle设置为custom的时候可以使用此组件替代原生导航栏&#xff0c;wx.getSystemInfoSync获取可使用窗口高度 wxml代码&#xff1a; <!-- 头部 --> <view cla…
最新文章