5 分钟让你了解什么是搜索引擎

文章目录

  • 搜索引擎概述
    • 基于业务模式分类
      • 垂直搜索(垂搜)
      • 通用搜索(通搜)
      • 本地搜索引擎
    • 基于技术实现分类
      • 基于关键词的搜索引擎(Keyword-based Search Engine)
      • 语义搜索引擎(Semantic Search Engine)
    • 搜索引擎的组成
      • 网络爬虫(Web Crawler)
      • 索引引擎(Indexing Engine)
      • 搜索算法(Search Algorithm)
      • 用户界面(User Interface)
    • 常见搜索引擎
      • Google
      • Bing
      • Baidu
      • Yahoo
  • 个人简介

搜索引擎概述

  • 搜索引擎是一种用于在互联网上查找和获取信息的工具或服务。它们通过建立和维护庞大的索引数据库,可以根据用户提供的关键词或查询条件,快速地从索引中检索相关的网页、文件、图片、视频或其他类型的内容。

基于业务模式分类

  • 业内普遍将搜索引擎分为垂直搜索(垂搜)与通用搜索(通搜)两大类。

垂直搜索(垂搜)

  • 垂搜是针对某一个行业的专业搜索引擎,典型代表为电商搜索、学术论文搜索、本地生活搜索、酒店机票搜索、租售房搜索、法律文书搜索、招聘网站搜索、股票基金搜索。垂搜的文档普遍是结构化的,可以根据文档属性做筛选。比如电商搜索中,文档是商品,有名称、品牌、卖家、价格、颜色;在学术论文搜索中,文档是论文,有标题、关键词、学科、作者、刊物名、发表时间。用户使用垂搜的意图通常很明确,使用京东是为了购物,使用谷歌学术是为了查论文,使用美团外卖是为了点餐,使用携程是为了搜酒店或航班。

通用搜索(通搜)

  • 通搜的典型代表是大家耳熟能详的谷歌、百度、必应、雅虎、头条,它们的覆盖面很广,不局限于一个垂类领域,且搜到的文档普遍是非结构化的。用户使用通搜的意图并不单一,查询词非常多样,给搜索带了很大的挑战。

本地搜索引擎

  • 本地搜索引擎主要关注于提供特定地理位置或区域范围内的搜索结果。它们为用户提供与特定地点、商家、服务或活动相关的信息和结果。本地搜索引擎通常会整合地理定位技术和商家目录信息,使用户能够找到附近的商家、餐厅、酒店、地方活动等。一些本地搜索引擎还提供地图导航和用户评价等功能。例如,Google Maps、百度地图等可以被视为本地搜索引擎的一部分。

基于技术实现分类

  • 基于技术实现搜索引擎大致可以分为基于关键字和语义两大类,在实际运用中,两种实现并非互相排斥,而是可以结合使用。许多搜索引擎会在其搜索算法中融合关键词匹配和语义分析的技术,以提供更好的搜索结果。

基于关键词的搜索引擎(Keyword-based Search Engine)

  • 基于关键词的搜索引擎是最常见的搜索引擎类型。它们根据用户提供的关键词或查询词来搜索相关的内容。这种搜索引擎使用关键词匹配算法来查找包含关键词的网页或文档,并根据匹配度对结果进行排序。关键词可以是单个词或短语,用户可以使用这些关键词来描述他们对所需信息的需求。大多数通用搜索引擎都采用基于关键词的搜索方法。

语义搜索引擎(Semantic Search Engine)

  • 语义搜索引擎采用更高级的搜索技术,以理解用户查询的意义和上下文,并提供更准确和相关的搜索结果。它们不仅考虑单个关键词的匹配,还尝试理解用户查询的含义和目的。语义搜索引擎使用自然语言处理(NLP)和语义分析技术来解析查询并构建查询的语义表示。通过理解查询的语义,语义搜索引擎可以提供更准确和相关的结果,即使在没有完全匹配关键词的情况下也能找到相关的内容。
  • 语义搜索引擎使用的技术包括实体识别、关系抽取、上下文理解、语义图谱等。它们可以识别用户查询中的实体(如人物、地点、时间等),并根据这些实体和上下文推断用户的意图。通过将查询与语义知识库或图谱进行比对,语义搜索引擎可以生成更精确和全面的搜索结果。

搜索引擎的组成

  • 搜索引擎从下至上可以大致分为4个组成部分:

企业微信截图_1689511931456.png

网络爬虫(Web Crawler)

  • 网络爬虫是搜索引擎的重要组成部分,用于遍历互联网并抓取网页内容。爬虫会按照预定的规则和算法,从一个网页跳转到另一个网页,将网页内容下载并提交给索引引擎进行处理。

索引引擎(Indexing Engine)

  • 索引引擎负责建立和维护搜索引擎的索引数据库。它会定期抓取互联网上的网页,并对这些网页进行分析和处理,提取关键信息,并将其存储到索引中以便快速检索。

搜索算法(Search Algorithm)

  • 搜索引擎使用复杂的搜索算法来处理用户的查询并返回最相关的结果。这些算法会根据各种因素,如关键词匹配度、网页的权威性和可信度、页面排名等来确定搜索结果的排序,也就是我们常说的排名算法。

用户界面(User Interface)

  • 搜索引擎的用户界面允许用户输入查询关键词,并显示搜索结果。用户界面通常包括搜索框、搜索按钮和其他交互元素,以及搜索结果页面的布局和呈现方式。

常见搜索引擎

Google

  • Google 是目前最受欢迎和使用最广泛的搜索引擎之一。它提供了强大的搜索算法和广泛的搜索范围,覆盖了各种类型的内容。

Bing

  • Bing 是由微软开发的搜索引擎,也是一个广泛使用的搜索工具。它提供了与Google类似的搜索功能,并通过其搜索引擎和广告平台为用户提供结果和广告。

Baidu

  • Baidu 是中国最大的搜索引擎,为中文用户提供搜索和其他在线服务。它在中国市场具有很高的知名度和普及率。

Yahoo

  • Yahoo 曾是一个主要的搜索引擎,现在更多地成为门户网站和内容平台。尽管如此,它仍然提供搜索功能,并在某些地区具有用户基础。

个人简介

👋 你好,我是 Lorin 洛林,一位 Java 后端技术开发者!座右铭:Technology has the power to make the world a better place.

🚀 我对技术的热情是我不断学习和分享的动力。我的博客是一个关于Java生态系统、后端开发和最新技术趋势的地方。

🧠 作为一个 Java 后端技术爱好者,我不仅热衷于探索语言的新特性和技术的深度,还热衷于分享我的见解和最佳实践。我相信知识的分享和社区合作可以帮助我们共同成长。

💡 在我的博客上,你将找到关于Java核心概念、JVM 底层技术、常用框架如Spring和Mybatis 、MySQL等数据库管理、RabbitMQ、Rocketmq等消息中间件、性能优化等内容的深入文章。我也将分享一些编程技巧和解决问题的方法,以帮助你更好地掌握Java编程。

🌐 我鼓励互动和建立社区,因此请留下你的问题、建议或主题请求,让我知道你感兴趣的内容。此外,我将分享最新的互联网和技术资讯,以确保你与技术世界的最新发展保持联系。我期待与你一起在技术之路上前进,一起探讨技术世界的无限可能性。

📖 保持关注我的博客,让我们共同追求技术卓越。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/372916.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

好用的大学生教材搜题软件?帮助大学生解决问题的实用搜题工具 #知识分享#知识分享#经验分享

对于大学生来说,每天面对各式各样的学习任务和问题,寻找合适的学习资源和工具成了我们的迫切需求。幸运的是,现如今有许多高效且实用的日常搜题和学习软件可以满足我们的需求,助力我们取得更好的学习成果。 1.Forest专注森林 Fo…

力扣:42. 接雨水 84.柱状图中最大的矩形(单调栈,双指针)

这两道题解题思路类似,一个是单调递增栈,一个是单调递减栈。本篇博客给出暴力,双指针和单调栈解法。 42. 接雨水 题目: 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后…

CIFS(Samba)服务的使用

理论部分 概念: 通用互联网文件系统CIFS使用的是公共的或者开放的SMB协议版本。SMB是在会话层和表示层以及小部分应用层上的 协议,使用了NetBIOS的应用程序接口API。该协议在局域网上用于服务器文件访问和打印。它使用客户/服务器模式,客 户…

ffmpeg的使用,安装,抽帧,加水印,截图,生成gif,格式转换,抓屏等

实际使用中总结的关于ffmpeg对视频的处理的记录文档 具体信息: http://ffmpeg.org/download.html 官网下载ffmpeg 关于ffmpeg的安装详细步骤和说明 装ffmpeg 方式,Linux和windows下的 http://bbs.csdn.net/topics/390519382 php 调用ffmpeg , http://bbs.csdn.net/t…

【算法】利用递归dfs解决二叉树算法题(C++)

文章目录 1. 前言2. 算法题2331.计算布尔二叉树的值129.求根节点到叶节点数字之和LCR047.二叉树剪枝98.验证二叉搜索树230.二叉搜索树中第K小的元素257.二叉树的所有路径 1. 前言 有关 递归 的相关解释与解题 请看下文: 以汉诺塔理解递归、并用递归解决算法题 对于…

关于Linux和消息队列常见的十道面试题

实际工作中如何排查CPU飙升问题? 在实际工作中,我们可以通过以下步骤来排查CPU飙升的问题: 使用系统监控工具:首先,我们可以使用系统监控工具,如top命令,来查看所有进程占系统CPU的排序。这样可…

AI助力农作物自动采摘,基于YOLOv7【tiny/l/x】不同系列参数模型开发构建作物生产场景下番茄采摘检测计数分析系统

去年十一那会无意间刷到一个视频展示的就是德国机械收割机非常高效自动化地24小时不间断地在超广阔的土地上采摘各种作物,专家设计出来了很多用于采摘不同农作物的大型机械,看着非常震撼,但是我们国内农业的发展还是相对比较滞后的&#xff0…

【深度学习】从0完整讲透深度学习第2篇:TensorFlow介绍和基本操作(代码文档已分享)

本系列文章md笔记(已分享)主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归(含代码),熟练掌握numpy,pandas,sklearn等框架使用。在算法上,掌握神经网络的数学原理,手动实…

2024数学建模美赛F题Reducing Illegal Wildlife Trade原创论文讲解(含完整python代码)

大家好呀,从发布赛题一直到现在,总算完成了数学建模美赛本次F题目非法野生动物贸易完整的成品论文。 本论文可以保证原创,保证高质量。绝不是随便引用一大堆模型和代码复制粘贴进来完全没有应用糊弄人的垃圾半成品论文。 F题论文共42页&…

MySQL温故篇(一)SQL语句基础

一、SQL语句基础 1、SQL语言分类 DDL:数据定义语言 DCL:数据控制语言 DML:数据操作语言 DQL:数据的查询语言 2、数据类型 3、字符类型 char(11) : 定长 的字符串类型,在存储字符串时,最大字符长度11个&a…

PiflowX新增Apache Beam引擎支持

参考资料: Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com) 在之前的文章中有介绍过,PiflowX是支持spark和flink计算引擎,其架构图如下所示: 在piflow高度抽象的流水线组件的支持下,我们可以…

【C/C++】C/C++编程——整型(二)

在 C 中,整型数据可以分为有符号数(Signed)和无符号数(Unsigned),这两种类型主要用于表示整数值,但它们在表示范围和用途方面有所不同。默认情况下,整数类型如 int、short、long 都是…

爱上JUC: 面试常考题大总结(线程安全篇)

🌟一起备战面试吧😄,也是巩固💪,不再害怕面试👊 文章目录 进程和线程区别并行和并发的区别创建线程的方式有哪些runnable和callable有什么区别run和start区别线程包含哪些状态,是如何转换的&…

【TCP/IP】用户访问一个购物网站时TCP/IP五层参考模型中每一层的功能

当用户访问一个购物网站时,网络上的每一层都会涉及不同的协议,具体网络模型如下图所示。 以下是每个网络层及其相关的协议示例: 物理层:负责将比特流传输到物理媒介上,例如电缆或无线信号。所以在物理层,可…

DockerUI如何部署结合内网穿透实现公网环境管理本地docker容器

文章目录 前言1. 安装部署DockerUI2. 安装cpolar内网穿透3. 配置DockerUI公网访问地址4. 公网远程访问DockerUI5. 固定DockerUI公网地址 前言 DockerUI是一个docker容器镜像的可视化图形化管理工具。DockerUI可以用来轻松构建、管理和维护docker环境。它是完全开源且免费的。基…

基于协同算法的图书信息管理系统(编号V73)

Java精品项目源码基于协同算法的图书信息管理系统(编号V73) 大家好,小辰今天给大家介绍一个图书信息管理系统,演示视频公众号(小辰哥的Java)对号查询观看即可 文章目录 Java精品项目源码基于协同算法的图书信息管理系统(编号V73…

Pandas.Series.cumsum() 累积和 详解 含代码 含测试数据集 随Pandas版本持续更新

关于Pandas版本: 本文基于 pandas2.2.0 编写。 关于本文内容更新: 随着pandas的stable版本更迭,本文持续更新,不断完善补充。 传送门: Pandas API参考目录 传送门: Pandas 版本更新及新特性 传送门&…

医学答案怎么查找?3个受欢迎的搜题分享了 #其他#职场发展#职场发展

学习工具是我们的得力助手,帮助我们更好地组织学习内容和时间。 1.南北题库 这是一个网站 完全免费,主要的特点就是题库全面丰富,涵盖计算机、外语、论文撰写、注册会计师等。并且后续还会继续扩展题库,题目分类非常详细,体界面清晰简洁。 有举一反三功能,搜一道…

使用PHPStudy搭建本地web网站并实现任意浏览器公网访问

文章目录 [toc]使用工具1. 本地搭建web网站1.1 下载phpstudy后解压并安装1.2 打开默认站点,测试1.3 下载静态演示站点1.4 打开站点根目录1.5 复制演示站点到站网根目录1.6 在浏览器中,查看演示效果。 2. 将本地web网站发布到公网2.1 安装cpolar内网穿透2…

正点原子--STM32定时器学习笔记(1)

这部分是笔者对基本定时器的理论知识进行学习与总结!,主要记录自己在学习过程中遇到的重难点,其他一些基础点就一笔带过了! 1. 定时器概述 1.1 软件定时原理 使用纯软件(CPU死等)的方式实现定时&#xf…
最新文章