做分析用什么工具

做分析用什么工具

导读

数据分析是数据辅助决策的最后一公里,是最终的数据可视化展示与探索分析的部分,选择使用最适合的数据展示方式,可以帮助分析人员大大提升分析效率。

问题:

● 纠结选择哪个工具
● 纠结从哪里学起,甚至害怕会不会学完就过时没用了

有哪些BI工具

数据分析工具类软件,大体可以分为以下6类: Excel生态工具、数理统计工具、BI工具、数据库工具、编程工具 (Excel单独分成一类,主要是因为它应用场景广泛,且用户基数过于庞大,甚至超过其他所有工具用户之和) 每个类别的代表工具分别有:

● Excel生态:Excel、VBA、PowerQuery、PowerPivot、Power View、Power Map

● 数理统计工具:SAS、SPSS、Stata、Minitab、Eviews、Statistica、MATLAB、Mathematica

● 分析编程工具:Python、R、Julia、Scala、Spark、Java、Hadoop

● BI工具:分为开源BI工具和商业BI工具两大类 ● 商业BI工具有:FineBI、QlikView、Tableau、Power BI、SmartBI、QuickBI等

● 开源BI工具有:Superset、Redash、Metabase、CBoard、Davinci、SpagoBI、Pentaho等

● 数据库工具:MySQL、PostgreSQL、Oracle、SQLServer、MongoDB、Hive

了解数据分析过程

数据分析的过程:数据采集-数据加工-数据处理-数据分析-数据可视化- 报告撰写-分析汇报-数据共享。

了解数据源

增加对数据源的认识,从格式上来看可以分为文本格式、数据库、集群几个概念,从结构上可以划分为结构式数据库和非结构式式数据库

选择数据分析工具

当确认分析目标之后,我们应该根据数据的体量来选择分析工具和报表工具

以往的经验会告诉我们,数据分析效率低大概有这么几个因素:
1、处理小数据的时候,对于非结构化的数据,统计起来很难,需要学习编程类的工具;

2、已有的知识,处理不来大规模数据集,这时候需要学习新的语言,以及熟悉大数据数仓模型中指标、维度、模型的概念;

3、用SQL处理大规模数据的时候,跑数跑的特别慢,需要了解数据库相关的知识,优化慢SQL

● 没有做数据模型,多个表做数据关联,跑起来很慢——dw层建设,抽象成指标做维度建模,T+1任务调度

● 很多个大表关联一起,数据跑不出来——需要做分区设计,根据业务域做ads小表,做指标应用

● 数据跑出来有重复——尽可能少的做

认识BI和BI工具

BI的概念

BI(BusinessIntelligence)即商业智能,越来越多的智能软件供应商推出可视化数据分析工具,应对企业业务人员的大数据分析需求。 清楚几个概念:

商业大数据BI产品

通用的解决方案包括: 1、自助分析平台:包含数据集成、数据洞察分析、数据门户、权限集成的完整解决方案; 2、客户画像:以客户为中心,构建客户全息画像,360°了解客户,帮助企业更精准的解决问题; 3、大数据营销:提供客户数据标签管理、智能圈人、人群扩散、位置营销、营销效果分析; 4、 大数据风控:基于大数据构建风险识别模型,提供交易反欺诈、信用反欺诈服务。

写在最后,给到新来者的建议

工具选择,因人而异,选择适合自己的最重要,不要过分沉迷于工具

1. 选好书籍打基础,资料宜精不宜广

看书籍是为了先打好基础,然后构建个人知识框架。市面上的资源太多了,选择一本经典教材或者课程非常重要,建议买纸质书,花了钱有沉默成本存在,这个书才香,才容易读完。最后利用“碎片化”时间、从解决实际问题出发去提升自己

2. 切忌大而全,工具宜少不宜多

工具是最容易掌握的,真正提高工作效率的,都是大家常提的、公认的,脱离实际场景的内容,正所谓“屠龙之术,学而无用”,很多人都喜欢鼓捣各种软件、工具,后来发现有些工具用过一次就再也没碰过。 比如:你做数据量少了200M的 简单分析,Excel和SPSS一般是最佳选择 出活儿快! 而SQL是用来提数跑数的,你必须得会,得熟练,不然时间都耗在这儿了 当你遇到数据量较大或者需要复杂模型,就可以上PYTHON和R了 当然如果是你公司有大数据平台,就可能使用HIVE、SPARK、STOM等等

提示一点:切记不要为了追求高大上的模型或者效果

3. 边干边学 边整理 记住“以用促学,以教促学”

一定要带着问题、带着坑,去学习,你的记忆才会深刻 很多人常常翻着一本厚厚的EXCEL秘籍自学,总是感觉学不会、学了就忘呢?使用Excel函数的时候,却又要到处搜索资料,用完即扔。 原因主要有2点:

一是短练,因为没有实战的机会,用的太少了!

二是太懒,用完了就结束了,从来不总结整理!

4、定期整理沉淀自己,消化知识

一种方法是,画思维导图梳理体系,知识才能内化成你自己的东西;

第二是,多多和别人交流和分享,思维的碰撞,能加深个人的理解和感悟 数据分析,是各行各业都需要的技能,不同行业的数据分析,分析方向和内容也是千差万别。不是所有做分析的人,都能获得高财富回报,需要和经营、运营、财务、市场、营销做结合,才能实现价值提升。

多注重业务理解,多实践积累经验,才是王道。

否则,如果提供不到决策支撑、发挥不了数据影响,分析也就没有什么意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/432440.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java异常的介绍与处理

一、异常与错误(Error)的区别: 异常(Exception)和错误(Error)都是指程序执行过程中的问题,但它们之间存在一些重要的区别。 异常(Exception): 异常表示程序在执行期间可能…

Memcached介绍和详解

Memcached介绍 Memcached是一个高性能的分布式内存对象缓存系统,它通过在内存中缓存数据来减少数据库负载,加快动态Web应用程序的响应速度。 以下是Memcached的一些关键特点和作用: 分布式缓存:Memcached是分布式的,不…

Android高级工程师面试实战,三幅图给你弄懂EventBus核心原理

阿里技术一面-35min 自我介绍 Android 有没有遇到OOM问题(有遇到内存泄漏问题)Handler机制ThreadLocalActivity启动到加载View过程View绘制过程LinearLayout (wrap_content) & TextView (match_parent) 最终结果???OKHttp(1. 为什么选择它? 2. 性能了解不…

阿里云服务器几核几G怎么选择?带宽多少合适?

阿里云服务器配置怎么选择?CPU内存、公网带宽和系统盘怎么选择?个人开发者或中小企业选择轻量应用服务器、ECS经济型e实例,企业用户选择ECS通用算力型u1云服务器、ECS计算型c7、通用型g7云服务器,阿里云服务器网aliyunfuwuqi.com整…

Java 学习和实践笔记(27):Object类的基本特性、toString方法以及IDEA的部分快捷键介绍

Object类基本特性: 1.Object类是所有类的父类,所有的Java对象都拥有Object类的属性和方法(注意拥有并不等于可以直接使用) 2.如果在类的声明中未使用extends,则默认继承Object类。 toString方法是Object类里定义的一个…

Word中的文档网格线与行距问题

在使用Word编辑文档时,经常会发生以下动图展示的这种情况: 上面的动图里,将文字大小放大到某个字号时,单倍行距的间距突然增加很多。造成这种情况的原因是文档中定义了网格线,并且设置了对齐到网格线。如果取消文档中…

[清爽快捷] Ubuntu上多个版本的cuda切换

做到真正的一行代码搞定,只需要修改对应软链接,就可以轻松实现快捷切换cuda 查看已安装的cuda版本有哪些 一般如果我们都是使用默认位置安装cuda的话,那么其安装路径都是/usr/local。如果要查看该目录下已经安装有哪些版本的cuda&#xff0c…

Git分布式管理-头歌实验本地版本库

一、本地版本库创建 任务描述 本地Git操作三部曲是“修改-添加-提交”,即先要在本地仓库进行添加、删除或编辑等修改,然后将本地所做的修改添加至暂存区。添加至暂存区的这些本地修改,并未提交到本地仓库,需要执行提交命令才能将暂…

SPSS26安装后无法启动,提示:应用程序的并行配置不正确

以下的解决方法供参考: 1、安装jdk并配置 2、 找到安装目录\Statistics\26\VC9下的vcredist_x64.exe,打开安装并选择“repair”,安装完成后重启,一般可以成功。 3、若还不行,安装较新的C运行库,再试试。 …

勒索病毒攻击新玩法,先盗数据再勒索

2019年是勒索病毒团伙针对企业进行勒索攻击爆发的一年,全球多个国家的政府组织机构、企事业单位都成为了勒索病毒团伙攻击的目标,勒索病毒也成为了网络安全最大的网络安全威胁,新的勒索病毒不断涌现,旧的勒索病毒不断变种&#xf…

1.1 深度学习和神经网络

首先要说的是:深度学习的内容,真的不难。你要坚持下去。 神经网络 这就是一个神经网络。里面的白色圆圈就是神经元。神经元是其中最小的单位。 神经网络 单层神经网络: 感知机 (双层神经网络) 全连接层: …

DHCP自动获取IP地址实验(华为)

思科设备参考&#xff1a;DHCP自动获取IP地址实验&#xff08;思科&#xff09; 一&#xff0c;实验目的 路由器搭载DHCP&#xff0c;让PC通过DHCP自动获取IP地址 二&#xff0c;不划分vlan--全局地址池 实验拓扑 配置命令 Router <Huawei>system-view [Huawei]ip po…

十三、类的继承、访问级别

类的继承与访问控制 类的继承 使用sealed修饰的类&#xff0c;是私有类&#xff0c;不能作为基类使用C#中一个类&#xff0c;只能有一个父类&#xff0c;但是可以实现多个接口子类的访问级别不能超过父类的访问级别 using System; using System.Collections.Generic; using S…

HDFS简介与部署以及故障排错(超简单)

文章目录 一、HDFS介绍1、简介2、结构模型3、文件写入过程4、文件读取过程5、文件块的存放6、存储空间管理机制6.1 文件删除和恢复删除6.2 复制因子配置6.3 文件命名空间6.4 数据复制机制 二、环境搭建&#xff08;单机版&#xff09;1、修改主机名2、配置ssh免密登录3、Hadoop…

HTML表单标签,web前端开发新技术

1、ant-design的使用总结及常用组件和他们的基本用法? ant-design为React&#xff0c;Angular和Vue都提供了组件&#xff0c;同时为PC和移动端提供了常用的基础组件。ant-design提供的demo非常的丰富并且样式能够基本的覆盖开发需求。antd的Demo因为是多人编写的&#xff0c;…

(vue)适合后台管理系统开发的前端框架

(vue)适合后台管理系统开发的前端框架 1、D2admin 开源地址&#xff1a;https://github.com/d2-projects/d2-admin 文档地址&#xff1a;https://d2.pub/zh/doc/d2-admin/ 效果预览&#xff1a;https://d2.pub/d2-admin/preview/#/index 开源协议&#xff1a;MIT 2、vue-el…

自动化测试基础——Pytest框架之YAML详解以及Parametrize数据驱动

文章目录 一、YAML详解1.YAML作用2.YAML语法结构3.YAML数据类型3.1.对象3.2.数组3.3.标量 4.YAML的引用5.YAML类型转换 二、YAML的读写与清空1.YAML的读2.YAML的写3.YAML的清空 三、pytest的parametrize简单数据驱动四、pytest的parametrize结合yaml实现数据驱动五、解决pytest…

LeetCode Python - 36.有效的数独

目录 题目答案运行结果 题目 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 &#xff0c;验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。&#xff08…

CSS 选择器的常见用法

CSS选择器的主要功能就是选中⻚⾯指定的标签元素.选中了元素,才可以设置元素的属性. CSS选择器主要分以下⼏种: 1. 标签选择器 2. class选择器 3. id选择器 4. 复合选择器 5. 通配符选择器 <body><div class"font32"> 我是一个div,class为front32</…

D*算法超详解 (D星算法 / Dynamic A*算法/ Dstar算法)(死循环解决--跟其他资料不一样奥)

所需先验知识&#xff08;没有先验知识可能会有大碍&#xff0c;了解的话会对D*的理解有帮助&#xff09;&#xff1a;A*算法/ Dijkstra算法 何为D*算法 Dijkstra算法是无启发的寻找图中两节点的最短连接路径的算法&#xff0c;A*算法则是在Dijkstra算法的基础上加入了启发函数…