ChatGPT时代对大数据应用的展望

前言:

       2022年底,科技圈有个爆炸性新闻,ChatGPT的诞生,引发了世界范围内的震惊;人工智能在与人交流上有了划时代的技术突破,可以和人深入的理解交流,让许多公司和领域对这项技术有了更多遐想。对于大数据领域,ChatGPT的出现会对这个行业产生什么影响,这是一个值得讨论和分析的话题。

一、ChatGPT提供的技术能力分析

       2022年初,北京冬奥会世界瞩目;三月份,俄乌爆发了一场持续到现在的战争;然后美联储连续6次加息;梅西取得大力神杯;2022年仿佛注定是个不平凡的一年。2022年的最后一个月,科技圈发布了一个在人类历史上都算的上划时代的消息,OpenAI的ChatGPT在自然语言处理上获得了重大的突破。

1.1ChatGpt是什么?

       他是一款AI技术驱动的自然语言处理工具,能够通过学习理解人类语言与人进行对话;可以依据聊天的上下文与人进行互动,像人类一样沟通交流,甚至能解决方案,代码,视频脚本等专业人才,才能做的事。为AIGC(内容自动生成)文本场景满足了极多的应用需求。(AIGC还有图片、语音、视频、3D模型等各种形式内容的发展)

1.2 实现ChatGpt需要什么?

       我不是算法工程师,对其实现细节不了解;但是因为工作原因接触和自己的学习,大致理解了其实现原理;所以从自己浅显的视角分析下ChanGPT要定制化实现,需要做哪些工作。

      这里就不得不提最近很火的大模型,AI技术之前无法实现大规模应用,主要因为算力无法满足大量用户的使用。大模型是使用深度学习框架和强大的计算资源,利用大量数据进行拟合训练,通过被动学习模拟人类认知的方式,而得到数亿到数万亿参数特征的模型。ChatGPT通过深度学习训练了一个大语言模型,将文本信息输入ChatGPT系统后,能通过训练好的模型,返回符合人类语言习惯的回答。

所以想要训练好一个新的大模型或者符合特定应用场景的小模型;

需要以下几个基础的东西:

  • 有特定含义的数据:大量用于应用场景的大模型训练数据,或者已经训练好特征的大模型数据;
  • 调好的算法模型:Transformer预训练语言模型,涉及神经网络、深度学习等算法用于处理数据;
  • 模型训练资源:存储训练数据量级的磁盘,处理数据的内存,以及大量的计算资源,高性能GPU;

所以现阶段想要训练特殊的大模型有两种方式:

一种是基于已有的大模型,按照原有的训练方式添加自己处理好的数据,微调基础大模型,用以适应新的应用场景;

另外一种是有实力的公司,可以按照大模型训练方式,从数据处理到各个阶段设计,重新跑一个全新的模型出来。

二、大模型在大数据领域应用分析

2.1 大数据领域应用需求分析

大数据领域的全生命周期,可以总结为如下三个阶段:

首先搭建大数据基础生态,存算、处理组件;

其次数据处理周期,从采集、处理、分析到数据应用;

最后是定制化的数据应用

2.2 分析大数据每个阶段人工智能应用的可能

2.2.1 ChatGPT在搭建大数据基础生态的可能性分析

这是一个什么需求场景呢?

       比如当你想要安装HADOOP生态的插件,你告诉ChatGpt,然后它就自己网上找安装资源,自动安装,然后遇到异常情况或不能解决的问题,将它需要的条件和需求告诉你,或把原因反馈给你寻求帮助。

      分析一下,这个跟问界的智能停车不就是一样的需求场景吗,你告诉车载智能系统“停车”,它就调用这个功能去执行这个功能。

如何实现呢?

       在大数据基础组件安装这个场景中,在ChatGpt之上包装一层语音文字转换系统,在ChatGpt之下构建一套智能安装运维系统;然后将各种大数据组件的安装功能,集成到安装运维系统之中,通过chatGPT理解需求,将需求对接安装运维系统,理论上是能实现基础生态的安装运维驱动;只是需要构建一套智能安装运维系统,然后将功能接口对接ChatGPT接口,在运维系统之上做需求识别。

2.2.2 ChatGPT在数据处理周期的可能性分析

这个场景需要做什么呢?

       现在这个阶段需要大数据开发工程师理解数据模型和业务需求,然后使用大数据工具,采集,构建模型,处理,存储,分析结果;这个过程核心的是对数据的理解和需求的理解,对需求的理解,通过语言模型是能实现的,但是对数据的理解,从原始数据到需求转换的这个过程,因为数据的不确定性,无法使用大模型训练出一个标准的处理方式。

无法处理的痛点能否解决?

       因为原始数据字段的定义没有特定的含义,所以无法通过大模型,训练出标准的处理方式,理解数据成为大模型的难点。

那有什么方式能解决呢?

       我能想到的,ChatGPT对于数据识别这个环节,先整理下大数据可能的字段含义,然后将所有含义做一张映射表,大模型自定义数据场景语义字段,通过大模型训练的自定义标准字段,构建初始的详情数据;

       让大模型能理解详情数据,当有需求时,可以这样对chatGPT说:“将kafka中app1的数据,构建一个按用户、性别、省份维度分钟级聚合的任务,索引为index_app1写入ES,并部署”。

       好像也能解决,但是这里需要多个操作,第一是自定义字段和语言模型的映射,让语言模型能识别数据scheme;第二有任务自定义(SQL语义自动生成能力);第三任务cicd部署能力;这是基础的三种功能,其他维护,优化监控等。这个周期需要极大的工作周期,基本要从零到一构建。

2.2.3 ChatGPT在数据应用的可能性分析

数据应用有哪几种?

数据分析,告警驱动,搜索,推荐,异常检测等。

对于不同的应用有不同的方案思路,这里选数据分析这个场景做分析

ChatGPT要实现数据分析,需要做什么呢?

分析数据应用,默认将数据处理完成,只是宽表数据;

  • 首先依旧是对数据scheme的理解,
  • 然后将语音转换成文字,
  • 之后将文字需求转换成SQL执行;
  • 最后将计算结果返回给前端用户形成报表。

        这种方式也是最简单大数据应用能接入chatGPT的场景,应为宽表字段可以很简单的更改和定义,可以构建这样一个系统,将语言的中的信息和字段在这个系统入口处分类;然后包装查询统计SQL,将语言里提到的维度填充到SQL里,获取执行返回结果,前端用BI报表渲染就可以实现应用的跨用户使用。

       这种方式是目前最简单能落地的应用,虽然通过语音系统构建也可以简单构建,但是引入chatGPT,可以增加识别能力。

三、结语

       ChatGPT依靠训练的语言大模型,极大的提升了语言类AIGC的应用。在大数据领域,期盼的愿望是可以通过语言就能实现大数据开发到应用,将chatGPT当作自己的私人管家,大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力,可以将精力聚焦在更有价值的地方。

       工作不是存量市场,就像电脑刚出现的时候以为好多人将没有工作,但是围绕电脑的工作却创造出更多价值,提供了更多的工作岗位;大数据也如此,到目前为止,大数据行业对于数据的应用如同老牛犁地,应用只是加速传统技术的处理能力和有限的大数据挖掘应用,当释放了数据领域者的生产力,相信大数据领域的工作者可以挖掘出更多有价值的数据黄金。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/338421.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ElasticSearch(ES) 搜索入门笔记

文章目录 ElasticSearch(ES) 搜索入门笔记环境准备-本地安装ES和Kibanamapping字段类型mapping 参数Analyzer自定义分析器分析器的测试中文分词 ik_maxNormalizer 其他关于mapping的要点 ES 搜索[match all 查询](https://www.elastic.co/guide/en/elasticsearch/reference/cur…

77. 组合 - 力扣(LeetCode)

题目描述 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 输入示例 n 4, k 2输出示例 [[2,4],[3,4],[2,3],[1,2],[1,3],[1,4], ]解题思路 我们使用回溯、深度优先遍历的思想,我们使用一个栈 path…

【C++】命名空间(namespace)

文章目录 1. 为什么要有命名空间?2. 命名空间介绍3.命名空间三种使用方式4. 注意 1. 为什么要有命名空间? 在C语言中,局部变量和全局变量如果同名,在使用时可能会造成冲突。这并不是想避免就能避免的,在程序中,不仅仅是变量&…

《WebKit 技术内幕》之八(3):硬件加速机制

3 其他硬件加速模块 3.1 2D图形的硬件加速机制 其实网页中有很多绘图操作是针对2D图形的,这些操作包括通常的网页绘制,例如绘制边框、文字、图片、填充等,它们都是典型的2D绘图操作。在HTML5中,规范又引入了2D绘图的画布功能&a…

校企对接实习管理系统的设计与实现-计算机毕业设计源码11959

摘 要 校企合作实习是一种重要的实践教学模式,但是在实际的推行过程中,存在许多管理问题。其中包括远程指导困难、学生管理困难、校企信息沟通不畅等问题一直困扰着校方负责管理实习的教师们。随着互联网系统开发技术的发展,应用web技术开发…

一文梳理金融风控建模全流程(Python)

▍目录 一、简介 风控信用评分卡简介 Scorecardpy库简介 二、目标定义与数据准备 目标定义 数据准备 三、安装scorecardpy包 四、数据检查 五、数据筛选 六、数据划分 七、变量分箱 卡方分箱 手动调整分箱 八、建立模型 相关性分析 多重共线性检验VIF KS和AUC …

学习笔记|串口通信的基础知识|同步/异步|RS232|常见的串口软件的参数|STC32G单片机视频开发教程(冲哥)|第二十集:串口通信基础

目录 1.串口通信的基础知识串口通信(Serial Communication)同步/异步?全双工?常见的串口软件的参数 2.STC32的串口通信实现原理引脚选择:实现分时复用模式选择串口1模式1,模式1波特率计算公式 3.串口通信代码实现编写串口1通信程序…

【嘉立创EDA-PCB设计指南】4.模块化布局

前言:本文对本专栏中的【嘉立创EDA-PCB设计指南】前面绘制的原理图进行模块化布局,首先进行预布局(将每个模块放一起),然后进行精细化布局(按照原理图来精细化布局)。 目录 模块化预布局 模块…

cesium实现动态围栏

项目中使用到了cesium,需要实现动态的围栏的效果, 在网上也找了好多案例,通过着色器来实现效果,为此也有好多博主也附上了自己的代码,也许是因为使用方法不同,复制代码并修改依旧还是没有通过他们的方式实现效果【着色…

【cucumber】cluecumber-report-plugin生成测试报告

cluecumber为生成测试报告的第三方插件&#xff0c;可以生成html测报&#xff0c;该测报生成需以本地json测报的生成为基础。 所以需要在测试开始主文件标签CucumberOptions中&#xff0c;写入生成json报告。 2. pom xml文件中加入插件 <!-- 根据 cucumber json文件 美化测…

Python正则表达式Regular Expression初探

目录 Regular 匹配规则 单字符匹配 数量匹配 边界匹配 分组匹配 贪婪与懒惰 原版说明 特殊字符 转义序列 模块方法 函数说明 匹配模式 常用匹配规则 1. 匹配出所有整数 2. 匹配11位且13开头的整数 Regular Python的re模块提供了完整的正则表达式功能。正则表达式…

Github操作网络异常笔记

Github操作网络异常笔记 1. 源由2. 解决2.1 方案一2.2 方案二 3. 总结 1. 源由 开源技术在国内永远是“蛋疼”&#xff0c;这些"政治"问题对于追求技术的我们&#xff0c;形成无法回避的障碍。 $ git pull ssh: connect to host github.com port 22: Connection ti…

即插即用篇 | AKConv:具有任意采样形状和任意参数数量的卷积核

基于卷积操作的神经网络在深度学习领域取得了显著的成果,但标准卷积操作存在两个固有缺陷。一方面,卷积操作受限于局部窗口,无法捕捉其他位置的信息,而其采样形状是固定的。另一方面,卷积核的大小固定为kk,呈固定的正方形形状,而参数数量往往随大小呈平方增长。显然,不…

5. 函数调用过程汇编分析

函数调用约定 __cdecl 调用方式 __stdcall 调用方式 __fastcall 调用方式 函数调用栈帧分析 补充说明 不同的编译器实现不一样&#xff0c;上述情况只是VC6.0的编译实现即便是在同一个编译器&#xff0c;开启优化和关闭优化也不一样即便是同一个编译器同一种模式&#xff0c;3…

【每日一题】1. 牛客网——合并两个有序数组

&#x1f4da;博客主页&#xff1a;爱敲代码的小杨. ✨专栏&#xff1a;《Java SE语法》 ❤️感谢大家点赞&#x1f44d;&#x1f3fb;收藏⭐评论✍&#x1f3fb;&#xff0c;您的三连就是我持续更新的动力❤️ &#x1f64f;小杨水平有限&#xff0c;欢迎各位大佬指点&…

【Linux】安装n卡驱动以及可能遇到的问题

文章目录 1.换源以及更新2.安装依赖3. 安装n卡驱动独显与核显切换nvidia-settings消失忘记安装依赖无法进入图形化界面的急救命令行无响应办法 1.换源以及更新 目前&#xff0c;换源完全只需要鼠标点点点就可以完成了&#xff0c;打开应用列表里的Software & Updates&…

基于 IDEA 创建 Maven 工程

1. 概念梳理Maven工程的GAVP Maven工程相对之前的项目&#xff0c;多出一组gavp属性&#xff0c;gav&#xff08;表示当前工程的坐标&#xff09;需要我们在创建项目的时候指定&#xff0c;p&#xff08;表示打包方式&#xff09;有默认值&#xff08;默认为 jar 包&#xff0…

【学习记录24】vue3自定义指令

一、在单vue文件中直接使用 1、html部分 <template><divstyle"height: 100%;"v-loading"loading"><ul><li v-for"item in data">{{item}} - {{item * 2}}</li></ul></div> </template> 2、js…

Redis(01)——常用指令

基础指令 select 数字&#xff1a;切换到其他数据库flushdb&#xff1a;清空当前数据库flushall&#xff1a;清空所有数据库dbsize&#xff1a;查看数据库大小exists key1[key2 …]&#xff1a;判断当前的key是否存在keys *&#xff1a;查看所有的keyexpire key 时间&#xff…

智慧校园统一信息门户平台介绍

统一信息门户平台是以统一身份认证平台为基础,将校内分散、异构的应用和信息资源进行整合,通过统一的访问入口,实现各种应用系统的无缝接入和集成,并围绕校内人员之间的人际关系,构建一个支持信息访问、传递、以及协作的集成化环境,实现个性化业务应用的高效开发、集成、…