【统计分析数学模型】聚类分析

在这里插入图片描述

【统计分析数学模型】聚类分析

  • 一、聚类分析
    • 1. 基本原理
    • 2. 距离的度量
      • (1)变量的测量尺度
      • (2)距离
      • (3)R语言计算距离
  • 三、聚类方法
    • 1. 系统聚类法
    • 2. K均值法
  • 三、示例
    • 1. Q型聚类
      • (1)问题描述
      • (2)R语言求解
        • A. Ward法系统聚类
        • B. K均值法
    • 2. R型聚类
      • (1)问题描述
      • (2)R语言求解
        • A. 转换为距离矩阵
        • B. 最长距离法


一、聚类分析

1. 基本原理

聚类分析(Cluster Analysis) 是研究“物以类聚”的一种方法,有时称为群分析、点群分析、簇类分析等。

聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。聚类分析是应用最广泛的分类技术,它把性质相近的个体归为一类,使同一类的个体具有高度的同质性。

聚类分析大部分都属于探测性研究,最终结果是产生研究对象的分类,通过对数据的分类研究还能产生假设。聚类分析也可用于证实性目的,对于通过其他方法确定的数据分类,可以应用聚类分析进行检验。

  • 聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。
  • 聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。

2. 距离的度量

相似性度量包括:距离和相似系数.
样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系.

(1)变量的测量尺度

变量的测量尺度:间隔、有序和名义尺度.

  1. 间隔变量: 变量用连续的量来表示,如长度、重量、速度、温度等.
  2. 有序变量: 变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系.
  3. 名义变量: 变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等.

(2)距离

常用的距离包括:

  • 明考夫斯基(Minkowski)距离
  • 兰氏(Lance和Williams)距离
  • 马氏距离
  • 斜交空间距离

(3)R语言计算距离

dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 

其中参数含义:

参数含义
X数据矩阵
method距离计算方法包括"euclidean", "maximum“, “manhattan”, “canberra”, “binary” or “minkowski”
diag是否包含对角线元素
upper是否需要矩阵上三角
pMinkowski距离的幂次

示例:

X=c(1,2,6,8,11)
dist(X,diag=1,upper=1)

运行结果如下:

   1  2  3  4  5
1  0  1  5  7 10
2  1  0  4  6  9
3  5  4  0  2  5
4  7  6  2  0  3
5 10  9  5  3  0

三、聚类方法

1. 系统聚类法

hclust(d, method = “complete”,)
plot(x, labels = NULL, hang = 0.1, ...)

参数的含义如下:

参数含义
d由dist函数产生的相似矩阵
method聚类方法“single“(最短距离), ”complete“(最长距离), ”average” (类平均法), “median” (中间距离法), “centroid” (重心法), “ward.D” (ward法)
xhclust得出的聚类结果.
labels树形图标签

2. K均值法

kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen"), trace=FALSE)

参数的含义如下:

参数含义
x数据阵
centers聚类数或初始聚类点
iter.max最大迭代步数

三、示例

1. Q型聚类

(1)问题描述

数据资料来源:《应用多元统计分析》(第五版,王学民 编著)配书资料 例6.3.3

数据包括1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据. 这八个变量是:

  • x1:食品
  • x2:衣着
  • x3:家庭设备用品及服务
  • x4:医疗保健
  • x5:交通和通讯
  • x6:娱乐教育文化服务
  • x7:居住
  • x8:杂项商品和服务

分别用最短距离法、重心法和Ward方法对各地区作聚类分析. 为同等地对待每一变量,在作聚类前,先对各变量作标准化变换.。

(2)R语言求解

A. Ward法系统聚类

代码如下:

d6.3.3=read.csv('examp6.3.3.csv',header=1)
d6.3.3s=scale(d6.3.3[,-1]) #标准化数据
rownames(d6.3.3s)=d6.3.3[,1]
hc=hclust(dist(d6.3.3s),'ward.D')  #使用Ward法系统聚类
plot(hc,hang=-1) #做出树形图
rect.hclust(hc,k=3) #作聚类框
cutree(hc, k=3) #将聚成三类的结果分别以1, 2, 3表示

在这里插入图片描述

> cutree(hc, k=3) #将聚成三类的结果分别以1, 2, 3表示
  北京   天津   河北   山西 内蒙古   辽宁   吉林 黑龙江   上海   江苏   浙江   安徽   福建 
     1      2      2      3      3      3      3      3      1      2      1      3      3 
  江西   山东   河南   湖北   湖南   广东   广西   海南   重庆   四川   贵州   云南   西藏 
     3      2      3      2      2      1      3      3      2      2      3      2      2 
  陕西   甘肃   青海   宁夏   新疆 
     3      3      3      3      2 
B. K均值法

运行代码:

kcl=kmeans(d6.3.3s,3)
sort(kcl$cluster) #对聚类结果进行排序
fviz_nbclust(d6.3.3s,kmeans,method='wss')

在这里插入图片描述

> sort(kcl$cluster) #对聚类结果进行排序
  天津   江苏   福建   山东   湖南   重庆   云南   西藏   北京   上海   浙江   广东   河北 
     1      1      1      1      1      1      1      1      2      2      2      2      3 
  山西 内蒙古   辽宁   吉林 黑龙江   安徽   江西   河南   湖北   广西   海南   四川   贵州 
     3      3      3      3      3      3      3      3      3      3      3      3      3 
  陕西   甘肃   青海   宁夏   新疆 
     3      3      3      3      3 

2. R型聚类

(1)问题描述

数据资料来源:《应用多元统计分析》(第五版,王学民 编著)配书资料 例6.3.7

对305名女中学生测量八个体型指标:

  • x1:身高
  • x2:手臂长
  • x3:上肢长
  • x4:下肢长
  • x5:体重
  • x6:颈围
  • x7:胸围
  • x8:胸宽

(2)R语言求解

代码如下:

A. 转换为距离矩阵
d6.3.7 = read.csv('examp6.3.7.csv',header=1)
d = as.dist(1-d6.3.7[,-1], diag=T) #转换为距离矩阵
> d
        身高 手臂长 上肢长 下肢长  体重  颈围  胸围  胸宽
身高   0.000                                             
手臂长 0.154  0.000                                      
上肢长 0.195  0.119  0.000                               
下肢长 0.141  0.174  0.199  0.000                        
体重   0.527  0.624  0.620  0.564 0.000                  
颈围   0.602  0.674  0.681  0.671 0.238 0.000            
胸围   0.699  0.723  0.763  0.673 0.270 0.417 0.000      
胸宽   0.618  0.585  0.655  0.635 0.371 0.423 0.461 0.000
B. 最长距离法
hc = hclust(d, "complete") #最长距离法
plot(hc, hang=-1) #树形图
rect.hclust(hc, k=2) #将聚成的两类用边框界定
cutree(hc, k=2) #将聚成两类的结果分别以1, 2表示

在这里插入图片描述

> cutree(hc, k=2) #将聚成两类的结果分别以1, 2表示
  身高 手臂长 上肢长 下肢长   体重   颈围   胸围   胸宽 
     1      1      1      1      2      2      2      2 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/401371.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot集成JWT实现token权限认证

vuespringboot登录与注册功能的实现 注&#xff1a;对于JWT的学习&#xff0c;首先要完成注册和登录的功能&#xff0c;本篇博客是基于上述博客的进阶学习&#xff0c;代码页也是在原有的基础上进行扩展 ①在pom.xml添加依赖 <!-- JWT --> <dependency><grou…

QPaint绘制自定义仪表盘组件01

网上抄别人的&#xff0c;只是放这里自己看一下&#xff0c;看完就删掉 ui Dashboard.pro QT core guigreaterThan(QT_MAJOR_VERSION, 4): QT widgetsCONFIG c11# You can make your code fail to compile if it uses deprecated APIs. # In order to do so, uncomm…

5 原型模式 Prototype

1.模式定义: 指原型实例指定创建对象的种类&#xff0c;并且通过拷贝这些原型创建新的对象 2.应用场景&#xff1a; 当代码不应该依赖于需要复制的对象的具体类时&#xff0c;请使用Prototype模式。 Spring源码中的应用 org.springframework.beans.factory.support.AbstractB…

基于java springboot+mybatis OA办公自动化系统设计和实现

基于java springbootmybatis OA办公自动化系统设计和实现 博主介绍&#xff1a;5年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末…

盘点那些世界名校计算机专业采用的教材

清华、北大、MIT、CMU、斯坦福的学霸们在新学期里要学什么&#xff1f;今天我们来盘点一下那些世界名校计算机专业采用的教材。 书单目录 1.《深入理解计算机系统》&#xff08;原书第3版&#xff09;2. 《算法导论》&#xff08;原书第3版&#xff09;3. 《计算机程序的构造和…

打架监测识别摄像机

打架监测识别摄像机是一种用于监控和识别打架行为的智能监控设备。这种摄像机利用先进的人工智能和计算机视觉技术&#xff0c;能够准确识别出监控画面中发生的打架事件&#xff0c;从而及时采取必要的应对措施。 打架监测识别摄像机的工作原理是通过对监控画面的实时分析和识别…

C语言每日一题(60)对链表进行插入排序

题目链接 力扣网 147 对链表进行插入排序 题目描述 给定单个链表的头 head &#xff0c;使用 插入排序 对链表进行排序&#xff0c;并返回 排序后链表的头 。 插入排序 算法的步骤: 插入排序是迭代的&#xff0c;每次只移动一个元素&#xff0c;直到所有元素可以形成一个有…

Jlink+OpenOCD+STM32 Vscode 下载和调试环境搭建

对于 Mingw 的安装比较困难&#xff0c;国内的网无法正常在线下载组件&#xff0c; 需要手动下载 x86_64-8.1.0-release-posix-seh-rt_v6-rev0.7z 版本的软件包&#xff0c;添加环境变量&#xff0c;并将 mingw32-make.exe 名字改成 make.exe。 对于 OpenOCD&#xff0c;需要…

【Vue渗透】Vue站点渗透思路

原文地址 极核GetShell 前言 本文经验适用于前端用Webpack打包的Vue站点&#xff0c;阅读完本文&#xff0c;可以识别出Webpack打包的Vue站点&#xff0c;同时可以发现该Vue站点的路由。 成果而言&#xff1a;可能可以发现未授权访问。 识别Vue 识别出Webpack打包的Vue站…

【JAVA】《接口,抽象方法,抽象类 》之二 、抽象方法详解

抽象方法 详解 一、接口二、抽象方法2.1、抽象方法概念2.2、抽象方法的特点&#xff1a;2.3、抽象方法的作用&#xff1a;2.4、抽象方法的应用&#xff1a;2.5、抽象方法的实践&#xff1a;2.6、使用抽象方法的注意事项 三、抽象类四、开发实践 一、接口 1.1、接口的概念 1.2、…

Windows上基于名称快速定位文件和文件夹的免费工具Everything

在Windows上搜索文件时&#xff0c;使用windows上内置搜索会很慢&#xff0c;这里推荐使用Everything工具进行搜索。 "Everything"是Windows上一款搜索引擎&#xff0c;它能够基于文件名快速定位文件和文件夹位置。不像Windows内置搜索&#xff0c;"Everything&…

鸿蒙OS应用开发之显示图片组件6

前面学习了怎么样让图片合适的大小来显示出来,达到最佳的布局显示图片。现在来学习PixelMap图片显示。PixelMap图片是指图片解码后无压缩的位图,用于图片显示或图片处理。 由于PixelMap图片是一种无压缩的图片,比较适合图片处理,比如从网络上加载图片之后,再进行处理再显示…

企业为何选择芯片运营管理ERP?

随着科技的飞速发展和市场竞争的加剧&#xff0c;企业对于运营管理的需求也日益增强。在这一背景下&#xff0c;越来越多的企业开始选择芯片运营管理ERP(企业资源规划)系统&#xff0c;以提升自身的运营效率和竞争力。那么&#xff0c;企业为何选择芯片运营管理ERP呢? 芯片运营…

PC端封装侧边导航

PC端封装侧边导航 template <div v-if"showBox false" class"leftShow" click.stop"toggleBox"></div><div class"container" :class"{ show: showBox, fixed: fixedBox }"><div class"arrow&qu…

【时事篇-05-02】20240221 2525元存17只货币基金的具体数目测算( itertools)

背景需求&#xff1a; 前文提到存10个货币基金&#xff0c;每个投150元&#xff0c;1500元&#xff0c;每天有1分钱利息&#xff0c;10个基金就有0.1元&#xff0c;比1500元投1只货币基金0.06元&#xff0c;的收益高一点。 【时事篇-05】20240112 150元存46只货币基金-CSDN博…

投资黄金在哪里买比较好?

黄金&#xff0c;作为一种传统的避险资产&#xff0c;历来受到投资者的青睐。在全球经济波动的大背景下&#xff0c;黄金的价值愈发凸显。那么&#xff0c;投资黄金在哪里买比较好呢&#xff1f;本文将重点探讨在香港黄金平台投资黄金的优势&#xff0c;并以金田金业为例&#…

美国CFTC启用举报奖励机制!打击人工智能投资欺诈行为

最近几周&#xff0c;美国监管机构对欺诈者利用人工智能 (AI) 的说法来引诱投资者实施诈骗发出警告。掌握人工智能诈骗原始信息的个人可以匿名举报 &#xff0c;并有资格根据商品期货交易委员会 (CFTC) 和证券交易委员会 (SEC) 举报计划获得金钱奖励。CFTC 关于人工智能诈骗的咨…

2024雾锁王国服务器搭建教程,基于阿里云小白轻松上手

雾锁王国游戏服务器怎么创建&#xff1f;阿里云雾锁王国服务器搭建教程是基于计算巢服务&#xff0c;3分钟即可成功创建Enshrouded游戏服务器&#xff0c;阿里云8核32G雾锁王国专用游戏服务器90元1个月、271元3个月&#xff0c;阿里云百科aliyunbaike.com亲自整理雾锁王国服务器…

深度学习在时间序列预测的总结和未来方向分析

2023年是大语言模型和稳定扩散的一年&#xff0c;时间序列领域虽然没有那么大的成就&#xff0c;但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进&#xff0c;还出现了将…

绿盾限制终端网络访问权限会恢复后,别的网站访问正常就是无法访问钉钉网站和下载东西

环境&#xff1a; Win10 专业版 钉钉7.5.5 绿盾7.0 问题描述&#xff1a; 绿盾限制终端网络访问权限会恢复后&#xff0c;别的网站访问正常就是无法访问钉钉网站和下载东西 解决方案&#xff1a; 排查方法 1.重置浏览器或者更换浏览器测试&#xff08;未解决&#xff09…
最新文章