Python数学建模学习-PageRank算法

1-基本概念

PageRank算法是由Google创始人Larry Page在斯坦福大学时提出,又称PR,佩奇排名。主要针对网页进行排名,计算网站的重要性,优化搜索引擎的搜索结果。PR值是表示其重要性的因子。

中心思想:

  • 数量假设:在网页模型图中,一个网页接受到的其他网页指向的入链(In-Links)越多,说明该网页越重要。

  •  质量假设:当一个质量高的网页指向(Out-Links)一个网页,说明这个被指的网页重要。

  •  入链出链模型图1:

  •  入链出链模型图2:[把每个网页当成一个节点]

2-算法和公式 

PageRank公式

  •  PR(Ti)代表的是其他节点的(指向A节点)PR值
  • L(Ti)代表的是其他节点的(指向A节点)出链数
  • i 代表的是循环次数

i=0时, 

i=1时,PR(A)为:

 i=1时,PR(B)为:

i=1时,PR(C)为: 

i=1时,PR(D)为: 

 主要找到入链数和出链数

可以求得:

矩阵化表达:使用转移概率矩阵/马尔可夫矩阵

 将左图内容转换为右图矩阵:

从图可以看出:

从A将跳转到B或C的概率为1/2

从B将跳转到C的概率为1

从C将跳转到A或D的概率为1/2

从D将跳转到A的概率为1

通过矩阵表达快速计算PR值

公式:PR\left ( a\right )=M*V

其中M 表示转移概率矩阵/马尔可夫矩阵

 其中V 表示上一次得到的PR值

根据公式可得第一次迭代得到的PR值:

0*1/4+0*1/4+1/2*1/4+1*1/4=3/8

1/2*1/4+ 0*1/4+0*1/4+0*1/4=1/8

1/2*1/4+ 1*1/4+0*1/4+0*1/4=3/8

0*1/4+0*1/4+1/2*1/4+0*1/4=1/8

通过第一次迭代得到的PR值,我们可以得到第二次迭代的PR值:

此时的排名为:

AC;BD

再结合最开始的公式看:

 同理可求出其他PR值。

3-Dead Ends 问题

 使用转移概率矩阵快速计算PR值:

 解决方法:Teleport

 4-Dead Ends 问题修正公式

 5-Spider Traps问题

 

6- Spider Traps问题解决方案:Random Teleport

  • 步骤1:将节点图,转换成列转移概率矩阵
  • 步骤2:修正M

1转换成列转移概率矩阵

2 修正M

\beta 通常设置为0.85

第一次迭代的PR值为:

 7-Spider Traps问题修正公式 

 8-代码案例练习[使用Jupyter Notebook编程]

import networkx as nx
import matplotlib.pyplot as plt 
import random
Graph = nx.DiGraph()
Graph.add_nodes_from(range(0,100))
for i in range(100):
    j =random.randint(0,100)
    k =random.randint(0,100)
    Graph.add_edge(k,j)
nx.draw(Graph,with_labels=True)
plt.show()

pr = nx.pagerank(Graph,max_iter=100,alpha =0.01)
print(pr)

输出结果: 

{0: 0.009843202124104186, 1: 0.009843202124104186, 2: 0.009941633650425134, 3: 0.009974526667449609, 4: 0.009892665412017136, 5: 0.009843202124104186, 6: 0.009843202124104186, 7: 0.009843202124104186, 8: 0.009892665412017136, 9: 0.00997535174995786, 10: 0.009843202124104186, 11: 0.00989258290376631, 12: 0.009941633650425134, 13: 0.00989241788726466, 14: 0.009941633650425134, 15: 0.010024237480115035, 16: 0.009843202124104186, 17: 0.010041880358264236, 18: 0.009941963683428435, 19: 0.009843202124104186, 20: 0.00989291293676961, 21: 0.009843202124104186, 22: 0.009867810005684423, 23: 0.00989241788726466, 24: 0.009843202124104186, 25: 0.009975475512334098, 26: 0.00989258290376631, 27: 0.009941633650425134, 28: 0.00989291293676961, 29: 0.009868057530436899, 30: 0.010041385308759285, 31: 0.009843202124104186, 32: 0.009982839305644121, 33: 0.009843202124104186, 34: 0.009843202124104186, 35: 0.010041220292257635, 36: 0.00994188117517761, 37: 0.009876342665881136, 38: 0.00989258290376631, 39: 0.00987642517413196, 40: 0.009942004937553848, 41: 0.009843202124104186, 42: 0.00989241788726466, 43: 0.009909263185655886, 44: 0.009991096938338084, 45: 0.009892665412017136, 46: 0.009992293307975048, 47: 0.009942128699930086, 48: 0.009942128699930086, 49: 0.009843202124104186, 50: 0.00989241788726466, 51: 0.009868057530436899, 52: 0.009843202124104186, 53: 0.009867810005684423, 54: 0.009843202124104186, 55: 0.009843202124104186, 56: 0.009876342665881136, 57: 0.009941633650425134, 58: 0.009941963683428435, 59: 0.009843202124104186, 60: 0.009843202124104186, 61: 0.009843202124104186, 62: 0.009843202124104186, 63: 0.009843202124104186, 64: 0.009974774192202085, 65: 0.00989291293676961, 66: 0.009843202124104186, 67: 0.009942623749435036, 68: 0.00989241788726466, 69: 0.009843202124104186, 70: 0.009892665412017136, 71: 0.009843202124104186, 72: 0.009843202124104186, 73: 0.00999200452909716, 74: 0.009876672698884436, 75: 0.009876122643878936, 76: 0.009867810005684423, 77: 0.009941633650425134, 78: 0.009941633650425134, 79: 0.010041674087637172, 80: 0.009941633650425134, 81: 0.009843202124104186, 82: 0.009876342665881136, 83: 0.009991591987843034, 84: 0.009942128699930086, 85: 0.00987642517413196, 86: 0.00997551676645951, 87: 0.009843202124104186, 88: 0.009876672698884436, 89: 0.00987609514112866, 90: 0.009893407986274562, 91: 0.00989258290376631, 92: 0.009966489056757847, 93: 0.009876672698884436, 94: 0.00987609514112866, 95: 0.009843202124104186, 96: 0.00994188117517761, 97: 0.009942293716431735, 98: 0.00999200452909716, 99: 0.009843202124104186, 100: 0.009868057530436899}
max(pr.values())

 输出结果:

0.010041880358264236
import operator
max(pr.items(),key=operator.itemgetter(1))[0]

输出结果:

17
sum(pr.values())

输出结果:

0.9999999999999996
min(pr.values())

输出结果:

0.009843202124104186

9-PageRank的优缺点

优点:

  • 通过网页之间的链接来决定网页重要性,一定程度消除了认为对排名结果的影响

  •  离线计算PageRank值,而非查找的时候计算,提升了查询的效率

缺点 :

  • 存在时间久的网站,PageRank值会越来越大,而新生的网站,PageRank值增长慢

  •  非查询相关的特性,查询结果会偏离搜索的内容
  • 通过“僵尸”网站或链接,人为刷PageRank值

参考:

1.Up主帅器学习/林木的视频。 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/549273.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript基础:js介绍、变量、数据类型以及类型转换

目录 介绍 引入方式 内部方式 外部形式 注释和结束符 单行注释 多行注释 结束符 输入和输出 输出 输入 变量 声明 赋值 关键字 变量名命名规则 常量 数据类型 数值类型 字符串类型 布尔类型 undefined 类型转换 隐式转换 显式转换 Number ✨介绍 &a…

typescript中的type关键字和interface关键字区别

Type又叫类型别名(type alias),作用是给一个类型起一个新名字,不仅支持interface定义的对象结构,还支持基本类型、联合类型、交叉类型、元组等任何你需要手写的类型。 type num number; // 基本类型 type stringOrNum string |…

47.HarmonyOS鸿蒙系统 App(ArkUI)创建轮播效果

创建轮播效果,共3页切换 Entry Component struct Index {State message: string Hello Worldprivate swiperController: SwiperController new SwiperController()build() {Swiper(this.swiperController) {Text("第一页").width(90%).height(100%).bac…

BLE架构图

PHY层(Physical layer 物理层) PHY层用来指定BLE所用的无线频段(2.4G),调制解调方式和方法、跳频等。PHY层的性能直接决定整个BLE芯片的功耗、灵敏度以及selectivity等射频指标。 LL层(Link Layer 链路层) 链路层主要是对RF射频控制。链路层定义了协议栈中最为基础的…

C++解决大学课设所有管理系统(增删查改)

C一篇解决大学课设所有**管理系统(增删查改) 文章目录 C一篇解决大学课设所有**管理系统(增删查改)1.引言1.1 使用结果展示 2. 基本原理3. 文件层次结构4.具体实现(通讯录管理系统为例)4.1 通讯录实体类(addressbook.h)4.2 通讯录实现类(addressbook.cpp)4.3 通讯录管理类&…

蓝桥杯 — — 完全日期

完全日期 友情链接:完全日期 题目: 思路: 直接从20010101枚举到20211231,然后再判断每一个数是否是一个合法的日期,如果这个日期是合法的,接着判断这个日期的每一个位置上的数字之和是否是一个完全平方数…

ChatGPT 可以预测未来吗?

推荐 4月13日的一篇有趣的 paper,特来分享。 👉 当前的大型语言模型(LLMs)具有强大的数据合成和推理能力,但它们在直接预测尚未发生事件的准确性上常常受到限制。传统的预测方法依赖于直接询问模型关于未来的问题。 …

linux下安装nacos2.2.0

1、获取下载地址并下载 1.1、打开nacos官网 1.2、找到对应版本,点进去 ## 1.3、复制地址 1.4下载 # 进入要安装的目录,cd /usr/local/src # 执行wget https://github.com/alibaba/nacos/releases/download/2.2.0/nacos-server-2.2.0.tar.gz2、 安装…

【产品经理修炼之道】- 平台型产品经理与业务型产品经理

从2015年开始,阿里的产品经理招聘分为平台型和业务型,后来很多互金公司逐步学习采纳了这种分工方式,那么什么是平台型产品经理,什么是业务型产品经理呢?先上结论: 平台型产品经理(产品设计&…

loD:如何实现代码的“高内聚、低耦合“

设计模式专栏:http://t.csdnimg.cn/3a25S 目录 1.引用 2.何为"高内聚、低耦合" 3.LoD 的定义描述 4.定义解读与代码示例一 5.定义解读与代码示例二 1.引用 本节介绍最后一个设计原则:LoD(Law of Demeter,迪米特法则)。尽LoD不像SOLID、KI…

CTFshow-PWN-Test_your_nc(pwn0-pwn4)

1、pwn0 连上,等它程序执行完你可以直接来到 shell 界面 执行命令,获取 flag ctfshow{294ffc57-ee28-40ea-8c74-4dfeaf89d1e7} 2、pwn1 提供一个后门函数,连上即可得到flag 下载附件,拉进 ubantu ,使用命令 checksec …

深度学习基础——计算量、参数量和推理时间

深度学习基础——计算量、参数量和推理时间 在深度学习中,计算量、参数量和推理时间是评估模型性能和效率的重要指标。本文将介绍这三个指标的定义、计算方法以及如何使用Python进行实现和可视化展示,以帮助读者更好地理解和评估深度学习模型。 1. 定义…

oracle 19c数据库W00n进程使用很多PGA内存资源的分析

今天,客户反馈测试环境的数据库PGA资源不足,报错ORA-04036: 实例使用的 PGA 内存超出 PGA_AGGREGATE_LIMIT;分析是多个W00n进程使用大量PGA-触发了BUG,对应解决办法就是打补丁。(民间办法就是KILL进程、重启数据库&…

【JavaSE】搞定String类

前言 本篇会细致讲解String类的常见用法,让小伙伴们搞定String类~ 欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 目录 前言 常用的三种字符串构造 字符串长度length 字符串比较 比较 比较字符串的内容equals…

一个不努力学习的人是怎么过的软考高项?

首先要感谢软考方式的改革,如果不是机考,我可能也过不了,因为自己的笔迹实在太糟糕了。其实如果不是因为笔迹太差,我觉得我19年高项就过了,19年栽倒在论文上,只得了43分,我记忆深刻。 然后说一…

【算法】深入理解二分查找算法及其应用

文章目录 1. 朴素二分查找的基本步骤:2. 总结二分模板 二分查找(Binary Search)是一种在有序数组中查找目标值的高效算法。它的基本思想是将数组分成两半,然后确定目标值可能存在的那一半,重复这个过程直到找到目标值或…

如何进行支付功能的测试?

非现金支付时代&#xff0c;非现金支付已经成为了生活不可或缺的一部分&#xff0c;我们只需要一台手机便可走遍全国各地&#xff08;前提是支付宝&#xff0c;微信有钱<00>&#xff09;。 那么作为测试人员&#xff0c;支付测试也是非常重要的一环&#xff0c;那么下面…

隐私保护?还是安全漏洞?邮箱分身双重身份及创建攻略解析!

很多人只知道微信、QQ等应用分身&#xff0c;对于邮箱分身并不是很了解。邮箱分身和他们的不同点在于我们直接在原有邮箱的基础上创立新的虚拟邮箱地址&#xff0c;并且密码一致&#xff0c;在我们需要运营多个社交媒体账号或者管理多个项目的情况下&#xff0c;邮箱分身是一个…

IntelliJ IDEA2024 安装包(亲测可用)

目录 一、软件简介 二、软件下载 一、软件简介 IDEA&#xff08;Integrated Development Environment for Apache&#xff09; 是一款专为 Apache 开发者设计的集成开发环境。该软件提供了丰富的功能和工具&#xff0c;帮助开发者更高效地创建、调试和部署 Apache 项目。 主…