信息检索与数据挖掘 | (七)概率检索模型

文章目录

  • 📚基本概率论知识
  • 📚概率排序原理PRP-probability ranking principle
  • 📚二值独立模型BIM-Binary Independence Model
  • 📚Okapi BM25模型

  • 出于一些追求完整性的强迫症,开始做考完试了梳理知识点博客的离谱行为🤡​
  • 但是也存存吧,不然就啥也不记得了嘤🤡​

📚基本概率论知识

给定查询表示和文档表示,系统只能给出文档内容和需求是否相关的一个非确定性推测,而概率论可以为这种非确定性推测提供一个基本的理论。

在这里插入图片描述

📚概率排序原理PRP-probability ranking principle

  • 思想:概率排序通过将输入映射到输出的概率,并根据概率大小对输出进行排序,从而提供了一种基于统计和概率模型的排序方法

  • 流程 R d R_d Rd, q q q表示查询q和文档d是否相关,利用概率模型估计每篇文档和query的相关概率P(R=1|d,q),然后对结果进行排序:

    1. 收集数据:首先,需要收集足够的数据来建立概率模型。这可以是训练集、历史数据、用户行为数据等。数据应该包含输入和对应的输出(标签或评分)。
    2. 建立概率模型:使用收集到的数据,可以建立一个概率模型,例如朴素贝叶斯模型、逻辑回归、支持向量机等。概率模型将输入映射到输出,并给出了输入属于每个可能输出的概率。
    3. 计算概率:对于给定的输入,利用概率模型计算每个可能输出的概率。这些概率可以表示为条件概率、联合概率或后验概率,具体取决于所使用的模型和问题类型。
    4. 排序:根据计算得到的概率,对输出进行排序。通常,概率越高的输出将被排在前面,概率越低的则排在后面。这样可以使得排名靠前的结果更有可能是用户期望的答案或推荐。
    5. 可选的后处理:根据具体情况,可以对排序结果进行进一步的后处理。例如,可以加入其他特征或规则来调整排序顺序,考虑业务需求或用户反馈等因素。
  • 结果:如果某个参照检索系统对每个需求进行应答时,会按照文档和需求的相关性概率从大到小排序,其中相关性概率是基于系统能得到的所有数据来尽可能精确估计而得到的,那么该系统是基于已知数据的可以获得的总体效果最优的系统。

📚二值独立模型BIM-Binary Independence Model

  • 假设
    • 文档和查询都表示为词项出现与否的布尔向量。即文档d表示为 x ⃗ = ( x 1 , . . . , x M ) \vec{x}=(x_1,...,x_M) x =(x1,...,xM)
    • M是字典大小,当词项t出现在文档d中,x为1,否则为0。不考虑词项的出现次数及顺序,所以不同的文档可能有相同的向量表示。
    • 另外假设“独立性”,指词项在文档中的出现是互相独立的
  • 按照相关概率对文档进行排序
  • 我们基于词项出现向量的概率P(R|x,q)对概率P(R|d,q)进行建模,使用贝叶斯定理有

在这里插入图片描述

  • 分子的第一项表示当返回一篇相关或不相关文档时文档为x的概率

  • 分子第二项表示对于查询q返回一篇相关和不相关文档的先验概率

  • 排序函数的推导
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

📚Okapi BM25模型

  • 对于文档d,最简单的文档评分方法是给文档中的每个查询词一个idf权重
    在这里插入图片描述

  • 通过引入词项频率和文档长度,上式可以修改为

在这里插入图片描述

  • ⭐️解释:k1是取正的参数,k1=0是BIM模型,k1取较大的值,对应于原始词项频率,b是[0,1],决定文档长度的缩放程度,b=1表示基于文档长度对词项权重进行完全的缩放,b=0表示归一化时不考虑文档长度因素。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/341852.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【目标检测】YOLOv7算法实现(二):正样本匹配(SimOTA)与损失计算

本系列文章记录本人硕士阶段YOLO系列目标检测算法自学及其代码实现的过程。其中算法具体实现借鉴于ultralytics YOLO源码Github,删减了源码中部分内容,满足个人科研需求。   本篇文章在YOLOv5算法实现的基础上,进一步完成YOLOv7算法的实现。…

分布式深度学习中的数据并行和模型并行

🎀个人主页: https://zhangxiaoshu.blog.csdn.net 📢欢迎大家:关注🔍点赞👍评论📝收藏⭐️,如有错误敬请指正! 💕未来很长,值得我们全力奔赴更美好的生活&…

HQL,SQL刷题简单查询,基础,尚硅谷

今天刷SQL简单查询,大家有兴趣可以刷一下 目录 相关表数据: 题目及思路解析: 总结归纳: 知识补充: 关于LIKE操作符/运算符 LIKE其他使用场景包括 LIKE模糊匹配情况 相关表数据: 1、student_info表 2、sc…

Centos7 安装redis 详细步骤访问不了github和windows系统下载

windows系统下载 https://hellowindows.cn/ VMware虚拟机安装Windows Server 2016 VL https://blog.csdn.net/qq_37545849/article/details/134828341 VMware全屏时不显示上方命令栏的边缘 此时如果要返回,可以把鼠标移动至屏幕上方边缘短暂停留以呼出命令栏。或使…

龙芯3A6000_通过xrdp远程访问统信UOS

原文链接:龙芯3A6000|通过xrdp远程访问统信UOS hello,大家好!今天我带给大家的是一篇实用性极强的技术文章——通过xrdp远程访问装载在龙芯3A6000上的统信UOS操作系统。这意味着,无论您使用的是Windows、MACOS还是Linux操作系统&a…

测试 yolov8 分割模型 边缘检测

发现 cfg/default.yaml 参数 mask_ratio 等于4 直接训练如下边缘分割标签,推理时mask 稀疏,训练时分数偏低,mask_ratio 改为1训练时打印的mask 的 P指标一直为0,将imgsz原图size 训练分数也不高 标注用的是labelme多边形 阅读源码发现可能是因为mask缩放导致 且出现…

分类预测 | Matlab实现LSTM-Attention-Adaboost基于长短期记忆网络融合注意力机制的Adaboost数据分类预测/故障识别

分类预测 | Matlab实现LSTM-Attention-Adaboost基于长短期记忆网络融合注意力机制的Adaboost数据分类预测/故障识别 目录 分类预测 | Matlab实现LSTM-Attention-Adaboost基于长短期记忆网络融合注意力机制的Adaboost数据分类预测/故障识别分类效果基本描述程序设计参考资料 分类…

【江科大】STM32:(超级详细)定时器输出比较

文章目录 输出比较单元特点 高级定时器:均有4个通道 PWM简介PWM(Pulse Width Modulation)脉冲宽度调制输出比较通道PWM基本结构基本定时器 参数计算捕获/比较通道的输出部分详细介绍如下: 舵机介绍硬件电路 直流电机介绍&#xff…

Python教程48:海龟画图turtle画太极八卦阵

---------------turtle源码集合--------------- Python教程91:关于海龟画图,Turtle模块需要学习的知识点 Python源码45:海龟画图turtle画雪容融 Python源码44:海龟画图turtle,画2022卡塔尔世界杯吉祥物 Python教程…

R语言简介

1.R语言 R语言是一种数学编程语言,主要用于统计分析、绘图和数据挖掘。 2.R语言特点 免费、开源,兼容性好(Windows、MacOS或Linux)。具有多种数据类型,如向量、矩阵、因子、数据集等常用数据结构。多用于交互式数据分析&#x…

C语言第六弹---分支语句(下)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】 分支语句 1、 逻辑操作符:&& , || , !4.1、 逻辑取反运算符 !4.2、 与运算符4.3、 或运算符4.4、 练习:闰…

怎么给wordpress网站底部页脚添加备案号和链接?

以前“WordPress后台 >> 常规”最底部是有一个ICP备案号的,我们只需要填写备案号并保存更改即可让WordPress自带主题底部显示ICP备案号,但是现在新版本的WordPress已经没有了这个ICP备案号选项,而且也无法直接添加公安联网备案号&#…

内网环境横向移动——利用DCOM(1)

这里先提两个概念,COM和DCOM COM即组件对象模型(Component Object Model,COM) ,是基于 Windows 平台的一套组件对象接口标准,由一组构造规范和组件对象库组成。COM是许多微软产品和技术,如Windows媒体播放器和Windows …

耳鸣是怎么回事呢?

什么是耳鸣? 耳鸣是指在没有任何客观声响的情况下,个人主观上却感觉听到声音,有些人甚至觉得声音来自头部。耳鸣的感觉因人而异,声音多种多样。比如明明没有开任何电器,但却可以感觉到电流声,明明旁边没有…

华为服务器RAID5

0、BIOS默认密码 TaiShan 100服务器BIOS系统的默认密码为**“Huawei12#$”, TaiShan 200服务器BIOS系统的默认密码为“Admin9000”**。 1、服务器开机选择DEL,进行设置 2、选择设备管理器进入配置页面 3、选择AVAGO MegaRAID configuration utility 进入raid配置…

免费在线压缩图片网站分享

支持批量压缩处理,但需要注意,网站仅仅支持体积为5MB的图片,压缩率高达66%,压缩完成后,点下Donwnload all,就能将图片保存至本地。 网页端直接进行图片压缩 https://tinify.cn/

Educational Codeforces Round 161 (Div.2) A~F

A.Tricky Template (模拟) 题意: 询问是否存在一个字符串模板 t t t使得字符串 a a a, b b b与之匹配, c c c不匹配,匹配条件如下: 如果模板中第 i i i个字母是小写字母,那么 s i s_i si​必须与 t i t_…

用户体验革命:Facebook如何重新定义社交交互

在数字化的时代,社交媒体不仅仅是连接人与人之间的桥梁,更是用户体验不断演进的舞台。Facebook,作为全球最大的社交媒体平台之一,一直在努力通过创新和技术提升,重新定义社交交互,为用户带来更加丰富、便捷…

机器人DH建模

D-H 根据表达式判断所建立的DH模型是标准型(Standard DH)还是改进型(Modified DH) 第三四行的首元素为0的是标准型,参考博客 标准DH参数坐标系建立在传动轴上,而修正DH参数坐标系建立在驱动轴上。修正D…

二维码地址门牌管理系统:预约安全、智能生活

文章目录 前言一、访客预约功能二、安全性保障三、智慧小区生活 前言 二维码地址门牌管理系统的出现不仅提升了小区的安全性,还为访客提供了更便捷的预约服务,让亲朋好友轻松进入小区。 一、访客预约功能 该系统提供了访客预约功能,业主可为…
最新文章