信息检索速通知识点

 仅仅是我自己能想到的对这个分类的一个记忆。欢迎指正

首先,最重要的一点,什么是信息检索?

信息检索是从大规模无规则的数据中(主要是文档)中查询用户所需要的信息的过程。

然后,信息检索有哪几种索引呢?

混合索引。

轮排索引。什么是轮排索引呢,轮排索引又叫轮盘索引,有一个非常重要的符号叫$,$是用来表示扩展词结束的符号。

倒排索引。倒排索引最为著名和重要了。

k-gram索引。

二元词索引。

位置信息索引。

信息检索有哪几种检索方式呢?

布尔检索。

排名检索。

容错式检索。

评判信息检索效果的度量方式有哪些呢?

MRR。

AP。

MAP。

GG@k。

DCG@k。

IDCG@k。

信息检索的一些入门级例子有哪些?

会写and ,or ,not ,andnot的检索的伪代码,会写程序。

哈希表的优缺点:

优点:

查找速度比树快O(1)

缺点:

不容易找到次要变体;

无法进行前缀搜索;

如果词汇持续增长,就需要定期进行昂贵的重哈希操作。

树的优缺点:

优点:

解决了前缀问题。

缺点:

平衡树效率慢:O(logM)

重新进行平衡树是非常昂贵的。

一些查询方式?

通配符查询:*

K-means算法的优缺点:

优点:

1.简单且适用于常规不相交簇。

2.收敛速度相对较快

3.相对高效且可扩展

缺点;

1.需要预先指定k值

2.可能会收敛到局部最优

3.对噪声和异常值可能敏感

4.不适合集群

聚类的种类:

K-means聚类:需要指定的K,提供的答案是随机的

层次聚类:不需要指定的K,提供的答案是确定的。

基于密度的聚类:

数据库扫描法:DBSCAN

数据库扫描法的步骤:

1.找出每个点邻域内的点,并找出邻域内超过minpts的核心点。

2.找出邻居图上核心点的联通分量,忽略所有非核心点。

3.如果簇是E(eps),将每个非核心点分给临近的簇,否则将其分配给噪声。

线性回归:

过拟合:可以拟合数据,但测试数据误差较大,可能方差较大

欠拟合:无法拟合数据

梯度下降的技巧:

1.调整学习率

2.随机梯度下降

3.特征缩放

可能不是那么重要的知识点:

深度学习的三个步骤:定义一个功能神经网络的集合,比较功能的优劣性、选择最佳功能。

数据挖掘的定义?

数据挖掘是从大量的数据中自动提取出有用的信息和模式的过程。

BSBI算法(磁盘寻道更少的排序)的基本思想:

1.收集每个块的信息,排序,写入磁盘。

2.将区块合并成一个长排序顺序。

idf计算:N是集合中文档的总数量,df是包含那个词语的文档数量

tf-idf计算:(随文档出现次数的增加而增加、随术语在集合中的稀缺性而增加)

使用哪种排名方式?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/318991.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue.observable详解(细到原码)

文章目录 一、Observable 是什么二、使用场景三、原理分析参考文献 一、Observable 是什么 Observable 翻译过来我们可以理解成可观察的 我们先来看一下其在Vue中的定义 Vue.observable,让一个对象变成响应式数据。Vue 内部会用它来处理 data 函数返回的对象 返回…

“一键转换PNG至BMP:轻松批量处理,高效优化图片管理“

在数字世界中,图片格式的转换是日常工作中不可或缺的一部分。你是否经常遇到需要将PNG格式的图片转换为BMP格式的需求?是否在处理大量图片时,希望能够实现一键批量转换,提高工作效率? 首先,我们进入首助编…

迎接数智时代:数字经济引领可视化转型

在数字经济的持续崛起下,企业正在进行数字化转型,其中可视化和数智化成为关键驱动力。NFC技术的应用更是为这一转型提供了新的可能性。 数字经济塑造未来: 数字经济的兴起标志着企业正进入一个全新的时代。通过数字技术,企业可…

如何使用创建时间给文件重命名,简单的批量操作教程

在处理大量文件时,有时要按照规则对文件重命名,根据文件的创建时间来重命名。那如何批量操作呢?现在一起来看云炫文件管理器如何用文件的创建时间来批量重命名。 按创建时间重命名文件的前后对比图。 用创建时间批量给文件重命名的步骤&…

数据仓库(3)-模型建设

本文从以下9个内容,介绍数据参考模型建设相关内容。 1、OLTP VS OLAP OLTP:全称OnLine Transaction Processing,中文名联机事务处理系统,主要是执行基本日常的事务处理,比如数据库记录的增删查改,例如mysql、oracle…

OpenJDK 和 OracleJDK 哪个jdk更好更稳定,正式项目用哪个呢?关注者

OpenJDK 和 OracleJDK:哪个JDK更好更稳定,正式项目应该使用哪个呢?我会从,从开源性质、更新和支持、功能差异等方面进行比较,如何选择,哪个jdk更好更稳定,正式项目用哪个呢,进行比较…

小米数据恢复软件:如何从小米手机恢复已删除的数据

“买一部小米手机,送一个移动硬盘”。人们惊叹于小米手机以非常合理的价格提供的大容量。我们甚至可以把小米手机当做一个移动硬盘来使用,存储大量的照片、视频、文档等文件。但是,在我们使用手机的过程中,误删的情况时有发生&…

AI编程可视化Java项目拆解第一弹,解析本地Java项目

之前分享过一篇使用 AI 可视化 Java 项目的文章,同步在 AI 破局星球、知乎、掘金等地方都分享了。 原文在这里AI 编程:可视化 Java 项目 有很多人感兴趣,我打算写一个系列文章拆解这个项目,大家多多点赞支持~ 今天分享的是第一…

学习使用Rainyun搭建网站

我们选择了白嫖雨云的二级域名 浏览器输入https://www.rainyun.com/z22_ 创建账号然后选择一个你喜欢的子域名我建议后缀选择ates.top的 选择自定义地址,类型选择cname 现在要选择记录值了,有a,aa,txt等 根据实际情况填写。就可以…

【CAN】CANoe添加模拟节点报错解决方法

文章目录 1. 问题现象2. 问题解决方法 >>返回总目录<< 1. 问题现象 通过CANoe添加模拟节点时&#xff0c;提示无法加载动态链接库CANOEILNLSPA.DLL。 2. 问题解决方法 右键模拟节点&#xff0c;选择Configuration选项&#xff0c;弹出Node Configuration界面&am…

【计算机组成原理】高速缓冲存储器 Cache 的三种映射方式(Cache Mapping)

Cache映射 Cache Mapping 缓存是计算机系统中常见的一种高速存储器&#xff0c;用于临时存储常用数据&#xff0c;以便快速访问。在缓存中&#xff0c;有三种常见的映射方式&#xff0c;分别是直接映射、全相联映射和组相联映射。 直接映射 Direct Mapping 在直接映射中&…

uniapp 编译后文字乱码的解决方案

问题: 新建的页面中编写代码&#xff0c;其中数字和图片都可以正常显示&#xff0c;只有中文编译后展示乱码 页面展示也是乱码 解决方案: 打开HuilderX编辑器的【文件】- 【以指定编码重新打开】- 【选择UTF-8】 然后重新编译就可以啦~ 希望可以帮到你啊~

OpenHarmony社区运营报告(2023年12月)

• 截至2023年12月22日&#xff0c;OpenAtom OpenHarmony&#xff08;简称“OpenHarmony"&#xff09;社区累计超过6700名贡献者&#xff0c;产生26.9万多个PR&#xff0c;2.4万多个Star&#xff0c;6.7万多个Fork&#xff0c;59个SIG。 • 2023年12月16日&#xff0c;以“…

Windows+Qt5.14.2+android x86配置与处理adb报错

资源下载 可在部分国内镜像源下载Qt5.14.2&#xff1a;Index of /qt/archive/qt/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror其他工具 android studio:下载 Android Studio 和应用工具 - Android 开发者 | Android Developerssdk manager 、ndk、java 安装过…

使用emu8086实现——分支结构程序设计

一、实验目的 1. 掌握分支结构程序的编程方法 2. 掌握汇编语言程序设计方法&#xff0c;自己编写程序&#xff0c;并调试运行验证结果。 二、实验内容 1.在键盘上输入一个字符&#xff0c;判断是否为小写字母&#xff0c;若不是&#xff0c;显示错误信息&#xff0c;若是&…

win桌面图标间距变大如何调整

1、win键R-->输入regedit-->回车 2、 找到 IconSpacing 和 IconVerticalSpacing -->HKEY_CURRENT_USER-->Control Panel-->Desktop-->WindowMetrics-->IconSpacing-->IconVerticalSpacing 3、分别将其值改成-1125&#xff08;系统默认的值&#xff09…

Cortex-M移植

常用寄存器 PRIMASK寄存器 PRIMASK寄存器为1位宽的中断屏蔽寄存器。在置位时&#xff0c;它会阻止不可屏蔽中断&#xff08;NMI&#xff09;和HardFault异常之外的所有异常&#xff08;包括中断&#xff09;。实际上&#xff0c;它是将当前异常优先级提升为0&#xff0c;这就是…

#Prompt##提示词工程##AIGC##LLM#使用大型预训练语言模型的关键考量

如果有不清楚的地方可以评论区留言&#xff0c;我会给大家补上的&#xff01; 本文包括&#xff1a; Prompt 的一些行业术语介绍 Prompt 写好提示词的方法经验介绍&#xff08;附示例教程&#xff09; LLM自身存在的问题&#xff08;可以用Prompt解决的以及无法用Prompt解决的&…

【Maven】007-Maven 工程的继承和聚合关系

【Maven】007-Maven 工程的继承和聚合关系 文章目录 【Maven】007-Maven 工程的继承和聚合关系一、Maven 工程的继承关系1、继承的概念2、继承的作用3、继承的语法4、父工程统一管理依赖版本父工程声明依赖版本子工程继承以来版本 二、Maven 工程的聚合关系1、聚合的概念2、聚合…

十三、QPalette的简单使用(Qt5 GUI系列)

目录 一、设计需求 二、实现代码 三、代码解析 四、总结 一、设计需求 在实际应用中&#xff0c;经常需要改变某个控件的颜色外观&#xff0c;如背景、文字颜色等。Qt提供的调色板类 QPalette 专门用于管理对话框的外观显示。QPalette 类相当于对话框或是控件的调色板&…
最新文章