大数据周会-本周学习内容总结018

开会时间:2023.06.18 15:00 线下会议

01【调研-数据分析(质量、ETL、可视化)】

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

数据分析是指通过收集、清洗、整理和解释数据,以提取有价值的信息和洞察力的过程。在数据分析中,有几个重要的方面需要考虑,包括数据质量、ETL(抽取、转换和加载)和可视化。

  1. 数据质量: 数据质量是确保数据准确、完整、一致和可靠的度量。在数据分析中,数据质量对于得出准确的结论和做出正确的决策至关重要。以下是一些确保数据质量的常见方法:
    1. 数据清洗:去除数据中的重复项、空值、异常值和错误数据。
    2. 数据验证:检查数据是否符合事先定义的规则和约束。
    3. 数据整合:将来自不同来源的数据整合在一起,确保数据的一致性和完整性。
    4. 数据审查:评估数据的准确性、完整性和一致性,并解决潜在的数据质量问题。
  2. ETL(抽取、转换和加载): ETL是指将数据从各种来源(如数据库、日志文件、API等)中抽取出来,进行必要的转换和清洗,然后加载到目标系统中进行分析的过程。以下是ETL过程的主要步骤:
    1. 数据抽取:从各种来源中提取数据,通常使用查询、API调用或文件导入等方法。
    2. 数据转换:对抽取的数据进行清洗、整合、转换和规范化,以便符合分析的需求。
    3. 数据加载:将转换后的数据加载到目标系统(如数据仓库、数据湖等)中,以便进行进一步的分析和可视化。
  3. 可视化: 可视化是将数据转换为图表、图形和其他可视元素的过程,以便更好地理解和传达数据中的模式、趋势和洞察力。以下是可视化的一些常见方法和工具:
    1. 图表和图形:使用柱状图、折线图、饼图、散点图等图表类型来展示数据。
    2. 仪表板:通过将多个图表和指标组合在一起,提供对数据的全面和实时的可视化展示。
    3. 数据可视化工具:例如Tableau、Power BI、Matplotlib、D3.js等工具,提供丰富的可视化功能和交互性,帮助用户更好地探索和解释数据。

综上所述,数据分析过程涉及到确保数据质量、进行ETL以及进行数据可视化,以获得准确、可靠且有意义的结果和洞察力。

ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle

ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle

1.1【流程图】

1.2【架构图】

1.3【使用场景】

1.4【技术架构】

02【fhzn项目】

2.1【es多维度检索接口】

多维度检索方案设计,es多条件查询接口。

接口编写、git提交代码。

2.2【AI算法库资料整理】

第一阶段任务,参考两个推荐文献,抽象出 AI 领域的一个总体结构,包括内部包含的不同类别的算法和常用算法。这里可以参考分成四个部分总结。

  1. 第一部分:关于 AI 领域的发展历程、由一开始的专家系统到后面的神经网络做一个全局的说明和叙述。
  2. 第二部分:阐述 AI 领域内一些概念或术语上的解释,如训练、损失、评估器优化器之类的概念。
  3. 第三部分:是理论层面的,包括回归、分类等任务常见算法。
  4. 第四部分:列出不同目前工业领域 AI 火热的领域,如 NLP、视觉领域,再往下细分,列出一些更细的方向和每个方向下的常见算法,先把总体的资料库骨架抽象出来后续填充内容。

神经网络与深度学习-邱锡鹏.pdf

03【专利】

fastDFS、轮循机制、

04【学习内容】

4.1【flink】

  1. 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】
  2. 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/29793.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

开源游戏区块链项目分享:Unity开发的独立区块链

Arouse Blockchain [Unity独立区块链] ❗️千万别被误导,上图内容虽然都在项目中可寻,但与目前区块链的业务代码关联不大,仅供宣传作用(总得放些图看着好看)。之所以有以上内容是项目有个目标功能是希望每个用户在区块链上都有一个独一无二的…

如何看待 Facebook 上线支付功能?

随着科技的不断进步,电子支付在我们的生活中变得越来越普遍。最近,Facebook宣布推出自己的支付功能,这引起了广泛的关注和讨论。作为世界上最大的社交媒体平台之一,Facebook进入支付领域的举措无疑具有重要意义。那么,…

13年测试老鸟,带你详探服务端的接口测试,测试内卷之路...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 服务器的接口测试…

数据库第三章(SQL)

目录 1.SQL语言 索引 1.SQL语言 sql语言是个非过程性语言 sql的特点 1.综合统一,把增删查改都统一了起来 2.高度非过程化,不关心过程 3.面向集合的操作方式 sql基本语法 drop是删除表 delete是删除表的某个元组 安全方面:grant授权 revo…

EXCEL函数笔记1(数学函数、文本函数、日期函数)

数学函数 取整:INT(number) 取余:MOD(number,除数) 四舍五入:ROUND(number,保留几位小数) 取绝对值:ABS(number) 根号处理:SQRT(number) 0到1随机数:RAND(&am…

【机器学习】十大算法之一 “朴素贝叶斯”

作者主页:爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?typeblog个…

【LeetCode】每日一题 -- 1171. 从链表中删去总和值为零的连续节点 -- Java Version

题目链接:https://leetcode.cn/problems/remove-zero-sum-consecutive-nodes-from-linked-list/ 1. 题解(1171. 从链表中删去总和值为零的连续节点) 2021年字节二面真题 1.1 暴力解法:穷举 时间复杂度 O(n2),空间复杂…

【论文】attention is all you need

重点在第三节 attention is all you need摘要1. 绪论2. 背景3. 模型架构3.1 编码器和解码器堆叠 3.2 注意力3.2.1 缩放点积注意力(Scaled Dot-Product Attention)3.2.2 多头注意力机制3.2.3 模型中注意力的应用 3.3 职位感知前馈网络(Positio…

前端中间件Midway的使用

一、 关于midway1. 解决什么痛点2. 期望达到什么效果 二、创建应用并使用1. 创建midway应用2. 认识Midway2.1 目录结构2.2 Controller2.3 路由2.4 获取请求参数2.5 Web中间件2.6 组件使用2.7 服务(service) 三、写到最后 一、 关于midway Midway 是阿里巴巴 - 淘宝前端架构团队…

基于深度学习的高精度安全背心检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于深度学习的高精度安全背心检测识别系统可用于日常生活中或野外来检测与定位安全背心目标,利用深度学习算法可实现图片、视频、摄像头等方式的安全背心目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5…

微服务: 01-rabbitmq的应用场景及安装(docker)

目录 1. rabbitmq前言简介: 1.1 RabbitMQ的几个重要作用: -> 1.1.1 解耦: -> 1.1.2 异步通信: -> 1.1.3 流量削峰: -> 1.1.4 消息传递的可靠性和持久性: 2. rabbitmq的安装(docker版) -> 2.1 …

SpringMVC 学习整理

文章目录 一、SpringMVC 简介1.1 什么是MVC1.2 什么是Spring MVC1.3 Spring MVC的特点 二、SpringMVC 快速入门三、RequestMapping注解说明四、SpringMVC获取请求参数4.1 通过ServletAPI获取请求参数4.2 通过控制器方法的形参获取请求参数4.3 通过RequestParam接收请求参数4.4 …

Rust语言从入门到入坑——(2)Rust在windows上搭建开发环境

文章目录 0 引入1、搭建 Visual Studio Code 开发环境1.1、安装 Rust 编译工具1.2 、VS Code安装 2、官网在线3、总结4、引用 0 引入 开始搭建一个适合在windows上运行的Rust环境。 Rust支持的程序语言很多:可详见官网介绍 1、搭建 Visual Studio Code 开发环境 …

[架构之路-211]- 需求- 软架构前的需求理解:ADMEMS标准化、有序化、结构化、层次化需求矩阵 =》需求框架

目录 前言: 一、什么是ADMES: 首先,需求是分层次的: 其次,需求是有结构的,有维度的 再次,不同层次需求、不同维度需求之间可以相互转化(难点、经验积累) 最终,标准…

【雕爷学编程】Arduino动手做(114)---US-015高分辨超声波模块

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

Floyd 判圈算法(Floyd Cycle Detection Algorithm)

Floyd 判圈算法(Floyd Cycle Detection Algorithm) 前言 Floyd判圈算法属于对指针操作的算法,它一般需要且仅需要两个指针,通过设定不同的指针移动速度,来判定链表或有限状态机中是否存在环。人为规定移动较快的指针称为快速指针(fast poin…

给初级测试工程师的一些避坑建议

我遇到的大多数开发人员都不怎么热衷于测试。有些会去做测试,但大多数都不测试,不愿意测试,或者勉而为之。我喜欢测试,并且比起编写新的代码,愉快地花更多的时间在测试中。我认为,正是因为专注于测试&#…

【Turfjs的java版本JTS】前面讲了Turfjs可以实现几何计算,空间计算的功能,如果后端要做这项功能也有类似的类库,JTS

JTS Java Topology Suite 几何计算: 1. 前端js就用这个 Turfjs的类库。参考网站: 计算两线段相交点 | Turf.js中文网 2. 后端java语言就可以用 JTS这个类库,参考网站: JTS参考网站: 1. https://github.com/locatio…

Windows11 安装 CUDA/cuDNN+Pytorch

一、准备工作: 查看torch版本:进入python交互环境: >>>import torch >>>torch.__version__ 查看cuda版本:CMD窗口 nvcc --version 如果版本不一致,需要卸载再重装。 二、安装 Windows 安装 CU…

unity制作愤怒的小鸟

文章目录 一、 介绍SpringJoint2D 、line renderer制作发射绳基类bird脚本的基础功能给bird添加飞行拖尾效果pig类游戏胜利的小星星烟花界面摄像机跟随移动游戏失败的界面多种小鸟的制作:黄鸟、绿鸟、黑鸟地图选择关卡选择数据保存制作多个关卡场景异步加载游戏全局…