【人工智能124种任务大集合】-集齐了自然语言处理(NLP),计算机视觉(CV),语音识别,多模态等任务

大家好,我是微学AI,今天给大家介绍一下人工智能124种任务大集合,任务集合主要包括4大类:自然语言处理(NLP)、计算机视觉(CV)、语音识别、多模态任务。
在这里插入图片描述

我这里整理了124种应用场景任务大集合,每个任务目录如下:

  1. 句子嵌入(Sentence Embedding):将句子映射到固定维度的向量表示形式。
  2. 文本排序(Text Ranking):对一组文本进行排序,以确定它们与给定查询的相关性。
  3. 分词(Word Segmentation):将连续的文本切分成单词或词块的过程。
  4. 词性标注(Part-of-Speech):对句子中的每个词汇标注其相应的词性。
  5. 标记分类(Token Classification):将输入的文本序列中的每个标记分类为预定义的类别。
  6. 命名实体识别(Named Entity Recognition):识别文本中具有特定意义的命名实体,如人名、地点、组织等。
  7. 关系抽取(Relation Extraction):从文本中抽取出实体之间的关系或联系。
  8. 信息抽取(Information Extraction):从非结构化文本中提取结构化的信息,如实体、关系和属性等。
  9. 句子相似度(Sentence Similarity):衡量两个句子之间的语义相似度或相关性。
  10. 文本翻译(Translation):将一种语言的文本转换为另一种语言的过程。
  11. 自然语言推理(NLI:Natural Language Inference):判断给定的前提和假设之间的逻辑关系,包括蕴含、矛盾和中立等。
  12. 情感分类(Sentiment Classification):将文本分为积极、消极或中性等情感类别。
  13. 人像抠图(Portrait Matting):从图像中准确地分离人物主体与背景。
  14. 通用抠图(Universal Matting):从图像中准确地分离目标物体与背景,不限于人像。
  15. 人体检测(Human Detection):检测图像或视频中的人体位置。
  16. 图像目标检测(Image Object Detection):在图像中检测和定位多个目标对象。
  17. 图像去噪(Image Denoising):降低图像中的噪声水平,改善图像质量。
  18. 图像去模糊(Image Deblurring):恢复模糊图像的清晰度和细节。
  19. 视频稳定化(Video Stabilization):对视频进行抖动校正,使其稳定且平滑。
  20. 视频超分辨率(Video Super-Resolution):通过增加视频的像素级别细节来提高其分辨率。
  21. 文本分类(Text Classification):将文本分类为预定义的类别或标签。
  22. 文本生成(Text Generation):根据给定输入生成连续文本的过程。
  23. 零样本分类(Zero-Shot Classification):将数据分类为模型从未在训练阶段见过的类别。
  24. 任务导向对话(Task-Oriented Conversation):进行与特定任务相关的对话和问答。
  25. 对话状态跟踪(Dialog State Tracking):跟踪多轮对话中的用户意图和系统状态的变化。
  26. 表格问答(Table Question Answering):根据表格数据回答相关问题。
  27. 文档导向对话生成(Document-Grounded Dialog Generation):基于文档内容生成相关对话回复。
  28. 文档导向对话重新排序(Document-Grounded Dialog Rerank):对生成的对话回复进行排序,以选择最佳回复。
  29. 文档导向对话检索(Document-Grounded Dialog Retrieval):从候选对话中检索与文档相关的最佳对话。
  30. 文本纠错(Text Error Correction):自动纠正文本中的拼写错误或语法错误。
  31. 图像字幕生成(Image Captioning):根据图像内容生成对图像的描述性文字。
  32. 视频字幕生成(Video Captioning):根据视频内容生成对视频的描述性文字。
  33. 图像人像风格化(Image Portrait Stylization):将图像中的人物主体应用艺术风格转换。
  34. 光学字符识别(OCR Detection):从图像中检测和识别文字。
  35. 表格识别(Table Recognition):从图像中自动识别表格结构和内容。
  36. 无线表格识别(Lineless Table Recognition):从无线表格图像中自动识别表格结构和内容。
  37. 文档视觉语义嵌入(Document-VL Embedding):将文档映射到视觉语义空间的向量表示形式。
  38. 车牌检测(License Plate Detection):在图像中检测和定位车辆的车牌区域。
  39. 填充掩码(Fill-Mask):根据上下文和部分信息填充给定的掩码。
  40. 特征提取(Feature Extraction):从输入数据中提取有意义的特征表示。
  41. 动作识别(Action Recognition):识别视频中的动作或行为。
  42. 动作检测(Action Detection):在视频中检测和定位特定动作或行为。
  43. 直播分类(Live Category):对直播视频进行分类,如体育、新闻、游戏等。
  44. 视频分类(Video Category):对视频进行分类,如电影、音乐、体育等。
  45. 多模态嵌入(Multi-Modal Embedding):将多种不同模态的数据映射到共享的向量空间。
  46. 生成式多模态嵌入(Generative Multi-Modal Embedding):将多模态数据映射到向量表示,并且能够生成与之相关的数据。
  47. 多模态相似度(Multi-Modal Similarity):衡量多模态数据(例如图像和文本)之间的相似性或相关性。
  48. 视觉问答(Visual Question Answering):根据给定的图像和问题回答相关问题。
  49. 视频问答(Video Question Answering):根据给定的视频和问题回答相关问题。
  50. 视频嵌入(Video Embedding):将视频序列映射到固定维度的向量表示形式。
  51. 文本到图像合成(Text-to-Image Synthesis):根据给定的文本描述合成相应的图像。
  52. 文本到视频合成(Text-to-Video Synthesis):根据给定的文本描述合成相应的视频。
  53. 人体二维关键点(Body 2D Keypoints):检测和跟踪图像中的人体关键点。
  54. 人体三维关键点(Body 3D Keypoints):在三维空间中检测和跟踪人体关键点。
  55. 手部二维关键点(Hand 2D Keypoints):检测和跟踪图像中的手部关键点。
  56. 卡片检测(Card Detection):在图像中检测和定位特定类型的卡片。
  57. 内容检查(Content Check):检查文本或图像中是否存在不良、敏感或违法内容。
  58. 人脸检测(Face Detection):检测图像或视频中的人脸位置。
  59. 人脸活体检测(Face Liveness):判断图像或视频中的人脸是否为真实的活体,而非照片或视频。
  60. 人脸识别(Face Recognition):识别图像或视频中的人脸,并将其与已知的身份进行匹配。
  61. 面部表情识别(Facial Expression Recognition):识别图像或视频中人脸的表情状态,如快乐、悲伤、愤怒等。
  62. 面部属性识别(Face Attribute Recognition):识别图像或视频中人脸的属性,如年龄、性别、种族等。
  63. 面部二维关键点(Face 2D Keypoints):检测和跟踪图像中的面部关键点。
  64. 面部质量评估(Face Quality Assessment):评估图像或视频中人脸图像的质量。
  65. 视频多模态嵌入(Video Multi-Modal Embedding):将多模态数据(如图像和文本)映射到共享的向量空间。
  66. 图像色彩增强(Image Color Enhancement):增强图像的色彩饱和度、对比度和亮度等。
  67. 虚拟试衣(Virtual Try-On):通过计算机生成的技术,将虚拟服装应用到真实人体图像上,以实现在线试穿效果。
  68. 图像上色(Image Colorization):将灰度图像恢复为彩色图像的过程。
  69. 视频上色(Video Colorization):将黑白视频恢复为彩色视频的过程。
  70. 图像分割(Image Segmentation):将图像分成多个不同的区域或对象。
  71. 图像驾驶感知(Image Driving Perception):利用计算机视觉技术提取图像中与驾驶相关的信息,如车道线、交通标志等。
  72. 图像深度估计(Image Depth Estimation):根据单目或双目图像估计场景中物体的深度或距离。
  73. 室内布局估计(Indoor Layout Estimation):根据室内图像估计房间的布局结构。
  74. 视频深度估计(Video Depth Estimation):根据视频中的帧间信息估计场景中物体的深度或距离。
  75. 全景深度估计(Panorama Depth Estimation):在全景图像中估计场景中物体的深度或距离。
  76. 图像风格迁移(Image Style Transfer):将一个图像的风格应用到另一个图像上,以生成具有新风格的图像。
  77. 面部图像生成(Face Image Generation):生成逼真的面部图像,可以用于人脸数据增强、数据生成等应用。
  78. 图像超分辨率(Image Super-Resolution):通过增加图像的像素级细节来提高其分辨率。
  79. 图像去块效应(Image Debanding):减少图像中由压缩引起的块状伪影或条纹噪声。
  80. 图像人像增强(Image Portrait Enhancement):改善图像中人物主体的外观、肤色等特征。
  81. 商品检索嵌入(Product Retrieval Embedding):将商品映射到向量表示形式,以支持商品相关性检索。
  82. 图像到图像生成(Image-to-Image Generation):根据给定的输入图像生成相应的输出图像。
  83. 图像分类(Image Classification):将图像分类为预定义的类别或标签。
  84. 光学字符识别(OCR Recognition):从图像中检测和识别印刷体或手写体的文字。
  85. 美肤(Skin Retouching):对人脸图像进行美化处理,去除皮肤瑕疵、磨皮等。
  86. 常见问题解答(FAQ Question Answering):根据常见问题回答用户的提问。
  87. 人群计数(Crowd Counting):根据图像或视频中的人群密度估计人数。
  88. 视频单目标跟踪(Video Single Object Tracking):在视频序列中跟踪单个目标对象。
  89. 图像人物再识别(Image ReID - Person):根据图像中的人物外观特征进行身份再识别。
  90. 文本驱动分割(Text-Driven Segmentation):根据给定的文本描述,对图像或视频中的对象进行分割。
  91. 电影场景分割(Movie Scene Segmentation):将电影或视频分割为不同的场景,每个场景代表一个独立的情节或事件。
  92. 商店分割(Shop Segmentation):将商店内的物体或区域从图像或视频中分割出来,用于商品展示、智能监控等应用。
  93. 图像修复(Image Inpainting):根据已有的图像内容,填补缺失或损坏的部分,恢复原始图像的完整性。
  94. 图像按范例绘制(Image Paint-By-Example):根据给定的范例图像,将其他图像修改为具有相似绘画风格或效果的图像。
  95. 可控图像生成(Controllable Image Generation):通过控制输入参数或向量,生成具有特定属性、风格或特征的图像。
  96. 视频修复(Video Inpainting):根据已有的视频内容,填补缺失或损坏的帧或区域,恢复原始视频的完整性。
  97. 视频人像抠像(Video Human Matting):将视频中的人物从背景中分割出来,以便进行后续的编辑或特效处理。
  98. 人体重建(Human Reconstruction):基于给定的图像、视频或传感器数据,重建人体的三维模型或姿态信息。
  99. 视频帧插值(Video Frame Interpolation):对给定的两个视频帧之间的帧进行生成,以增加视频的帧率或平滑过渡。
  100. 视频去隔行(Video Deinterlace):将隔行扫描的视频转换为逐行扫描,提高视频播放的质量和流畅度。
  101. 全身人体关键点检测(Human Wholebody Keypoint Detection):在图像或视频中检测和定位人体的关键点,例如头部、手、脚等。
  102. 静态手势识别(Hand Static):通过分析手掌形状、手指姿势等信息,识别图像或视频中的静态手势。
  103. 人脸、人体和手部检测(Face-Human-Hand Detection):检测和定位图像或视频中的人脸、人体和手部区域。
  104. 人脸情绪分析(Face Emotion):通过分析人脸表情,判断图像或视频中人脸所表达的情绪状态。
  105. 商品分割(Product Segmentation):将图像或视频中的商品或产品从背景中分割出来,用于商品识别、广告推荐等应用。
  106. 参考视频对象分割(Referring Video Object Segmentation):根据给定的参考图像或视频,对图像或视频中的对象进行分割。
  107. 视频摘要(Video Summarization):根据视频的内容和特征,生成视频的摘要或概览,提供视频浏览和检索的便利性。
  108. 图像天空变换(Image Sky Change):将图像中的天空部分替换为不同的天空背景,改变图像的氛围和环境。
  109. 翻译评估(Translation Evaluation):根据给定的翻译结果,评估其质量、准确性以及与原文的一致性。
  110. 视频对象分割(Video Object Segmentation):将视频中的对象从背景中分割出来,以便进行后续的编辑或特效处理。
  111. 视频多目标跟踪(Video Multi-Object Tracking):在视频中同时跟踪多个移动目标,实时定位和追踪目标的位置。
  112. 多视角深度估计(Multi-View Depth Estimation):通过多个视图或图像,估计场景中物体的三维深度信息。
  113. 少样本检测(Few-Shot Detection):在只有少量标注样本的情况下,进行目标检测任务,提高模型的泛化能力。
  114. 人体形状重塑(Body Reshaping):根据图像或视频中的人体区域,调整人体的形状、姿态或比例,改变人体外貌。
  115. 人脸融合(Face Fusion):将一个人的面部特征或表情融合到另一个人的头像上,生成具有两者特点的合成图像。
  116. 图像匹配(Image Matching):在图像库或数据库中,找到与给定图像最相似或匹配的图像。
  117. 图像质量评估 - 主观评分(Image Quality Assessment - MOS):通过主观评分的方法,评估图像的质量,反映人眼对图像的感知。
  118. 图像质量评估 - 降质度量(Image Quality Assessment - Degradation):通过客观度量的方法,评估图像在不同变换或压缩条件下的质量。
  119. 视觉高效调优(Vision Efficient Tuning):通过自动化的方法,快速调优和优化视觉模型和算法,提升计算效率和准确性。
  120. 三维目标检测(Object Detection 3D):在三维空间中,检测和定位目标物体的位置、尺寸和姿态。
  121. 坏图像检测(Bad Image Detecting):识别和检测出图像中存在的噪点、模糊、失真等不良或低质量的图像。
  122. Nerf重建精度评估(NeRF Reconstruction Accuracy):评估神经辐射场(NeRF)模型在建立3D场景重建时的准确性和质量。
  123. Siamese UIE:Siamese网络用于UIE任务,即输入用户界面元素识别或生成的相关问题。
  124. 数学公式识别(LatexOCR):图片中数学公式的latex识别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/77198.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FPGA_学习_14_第一个自写模块的感悟和ila在线调试教程与技巧(寻找APD的击穿偏压)

前一篇博客我们提到了,如果要使用算法找到Vbr,通过寻找APD采集信号的噪声方差的剧变点去寻找Vbr是一个不错的方式。此功能的第一步是在FPGA中实现方差的计算,这个我们已经在上一篇博客中实现了。 继上一篇博客之后,感觉过了很久了…

.net连接mysql,提示找不到请求的 .Net Framework Data Provider。可能没有安装

开发完成的.net程序需要连接mysql数据库,在个人电脑上运行没问题,别人运行时提示“提示找不到请求的 .Net Framework Data Provider。可能没有安装”。经过查询,安装Connector/NET 8.1.0,下载地址如下所示: https://d…

AI抢饭碗!新闻集团将使用生成式AI,每周自动写3000篇新闻丨IDCF

作者:AIGC开放社区 8月1日,英国卫报消息,全球最大新闻媒体公司之一的新闻集团,将使用生成式AI每周自动创建3000篇澳大利亚本地新闻。 据悉,新闻集团在内部成立了一个名为“Data Local”的部门只有4名员工,…

c语言操作文件

1、文件存储 文件存取格式 从用户或者操作系统使用的角度(逻辑上)文件可以分为文本文件、二进制文件 文本文件:存储时,是将字符的ascii码值存在磁盘中,取的时候将ascii码翻译成对应的字符,这个翻译器就是…

ubuntu下gif动态图片的制作

Gif图片比视频小, 比静态JPG图片形象生动, 更适用于产品展示和步骤演示等。各种各样的gif动图为大家交流提供很大的乐趣. 这里简单介绍ubuntu系统下gif图的制作。 一、工具安装: kazam和ffmpeg kazam是linux下的一款简单但是功能强大的屏幕录制工具. 它可录制声音并选择全屏录…

【C++】一文带你初识C++继承

食用指南:本文在有C基础的情况下食用更佳 🍀本文前置知识: C类 ♈️今日夜电波:napori—Vaundy 1:21 ━━━━━━️💟──────── 3:23 …

数据库--SQL关键字的执行顺序

数据库相关链接: 数据库--数据类型:http://t.csdn.cn/RtqMD 数据库--三大范式、多表查询、函数sql:http://t.csdn.cn/udJSG 数据库--MySQL增删改查:http://t.csdn.cn/xkiti 一、一条sql语句通常包括: select fro…

[PaddlePaddle] [学习笔记] [上] 计算机视觉(卷积、卷积核、卷积计算、padding计算、BN、缩放、平移、Dropout)

1. 计算机视觉的发展历程 计算机视觉作为一门让机器学会如何去“看”的学科,具体的说,就是让机器去识别摄像机拍摄的图片或视频中的物体,检测出物体所在的位置,并对目标物体进行跟踪,从而理解并描述出图片或视频里的场…

pytest自动生成测试类 demo

一、 pytest自动生成测试类 demo # -*- coding:utf-8 -*- # Author: 喵酱 # time: 2023 - 08 -15 # File: test4.py # desc: import pytest import unittest# 动态生成测试类def create_test_class(class_name:str, test_cases:list) -> type:"""生成测试类…

根据源码,模拟实现 RabbitMQ - 通过 SQLite + MyBatis 设计数据库(2)

目录 一、数据库设计 1.1、数据库选择 1.2、环境配置 1.3、建库建表接口实现 1.4、封装数据库操作 1.5、针对 DataBaseManager 进行单元测试 一、数据库设计 1.1、数据库选择 MySQL 是我们最熟悉的数据库,但是这里我们选择使用 SQLite,原因如下&am…

JavaScript、TypeScript、ES5、ES6之间的联系和区别

ECMAScript: 一个由 ECMA International 进行标准化,TC39 委员会进行监督的语言。通常用于指代标准本身。JavaScript: ECMAScript 标准的各种实现的最常用称呼。这个术语并不局限于某个特定版本的 ECMAScript 规范,并且可能被用于…

看看安森美深力科NSI45090JDT4G 是如何点亮汽车内外照明系统解决方案

关于线性恒流调节器(CCR):是一种用于控制电流的稳定输出。它通常由一个功率晶体管和一个参考电流源组成。CCR的工作原理是通过不断调节功率晶体管的导通时间来维持输出电流的恒定。当输出电流超过设定值时,CCR会减少功率晶体管的导…

Linux:shell脚本 正则表达式与AWK

一、正则表达式 由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能,类似于增强版的通配符功能,但与通配符不同,通配符功能是用来处理文件…

八股文之框架篇(Spring Boot、SSM)

文章目录 Spring中的单例bean是线程安全的吗什么是AOP,项目中有没有使用到AOPSpring中的事务是如何实现的Spring中事务失效的场景有哪些Bean的生命周期Spring中的循环依赖(循环引用)SpringMVC的执行流程SpringBoot自动配置原理Spring、Spring…

生信豆芽菜-差异基因富集分析

网址:http://www.sxdyc.com/enrichmentEnrich 该工具使用R 语言的clusterProfiler包对关键基因集进行GO和KEGG富集分析,注意这个的关键基因集可以是差异基因,WGCNA的module基因,也可以是表型相关的基因集 1、数据准备 准备一个基因…

kubernetes企业级高可用部署

目录 1、Kubernetes高可用项目介绍 2、项目架构设计 2.1、项目主机信息 2.2、项目架构图 1、Kubernetes高可用项目介绍 2、项目架构设计 2.1、项目主机信息 2.2、项目架构图 2.3、项目实施思路 3、项目实施过程 3.1、系统初始化 3.2、配置部署keepalived服务 3.3、…

【Android Studio】 win11 安装配置 jdk17 超详细

概述 一个好的安装教程能够帮助开发者完成更便捷、更快速的开发。书山有路勤为径,学海无涯苦作舟。我是秋知叶i、期望每一个阅读了我的文章的开发者都能够有所成长。 一、下载JDK JDK官网 这里下载 JDK17 windows x64 installer 二、安装JDK 双击打开下载的 j…

如何在 iOS 上安装并使用 ONLYOFFICE 文档

借助 iOS 版文档应用,您可在移动端设备上访问存储于 ONLYOFFICE 账户中的文件,查看和编辑现有文本文档、电子表格和演示文稿,创建新文档并对其进行整理,以及连接第三方云存储服务。您可与其他门户网站用户协作编辑文档&#xff0c…

16.5.4 【Linux】SELinux 政策内的规则管理

SELinux 各个规则的布林值查询 getsebool 如果想要查询系统上面全部规则的启动与否 (on/off,亦即布林值),很简单的通过 sestatus-b 或 getsebool -a 均可! SELinux 各个规则规范的主体程序能够读取的文件 SELinux typ…

QT QtXlsx安装使用

QtXlsx介绍 QtXlsx是一个可以读取和写入Excel文件的库。它不需要Microsoft Excel,可以在Qt5支持的任何平台上使用。 这里一定是需要QT5支持的。 须知安装QtXlsx时,需要下载perl 1.安装perl 这里选择官网下载安装即可。 官网地址:https://p…
最新文章