GPT本地化研究(JAVA版本)

1.我觉得gpt3 600多G个人是不可能部署得成功的,回想我自己个人不可能每一方面知识都知道,我只是知道最多的是我自己擅长的,百事通需要靠大公司才能解决,我们只是要关注这个gpt是哪个领域的, 我想做的是工业—>自动化gpt(貌似这个方向日本很专业了*_*)
它山之石可以攻玉
2.gpt3变得有智慧的原理是什么?什么是有智慧?

  1. 大数据训练(但是大数据不一定就意味着是正确的,比如现在的媒体为了博眼球夸大事实,所以训练的数据一定要可靠,不然gpt的结果就是马后炮,世界上没有绝对的东西)
    世界充满了比较,人和比自己强的人比较(自己LJ 有进步空间) 比自己稍微差的人(自己happy)
  2. transform注意力模型,根据上下文推断你要大概问什么
  3. 逻辑推理 gpt他具有一定推理,如果更加专业需要使用图推理神经网络
  4. fine-tuning 模型调优,如果遇到错误回答我可以对未来答案进行调整

3.怎么学习他并实现小型人工智能呢?
了解他—>使用他改进他---->实现他—> 改进他 哈哈哈…
4.如果我想要实现他怎么办?
规划

1.强逻辑(仅仅靠一块大硬盘可不行) 就像考试我带本书(没有提前学过)和身经百战的训练的学霸(有自己学习的方法套路),带书的可能使用索引的方法遍历整本书,奈何老师出的题不是书上可以抄到的需要推理(物理考试数学考试)
现在的gpt就是语文老师,让他教数学比较难,需要用到数据结构来解决逻辑问题

2.它山之石可以攻玉,抖音其他国内大厂直接也是调用gpt接口训练自己的gpt

3.大力出奇迹,胆子要大步子要稳,实时训练,不知为不知,有些事情不知道反而更好,坚定理想信念(初心),不要训练这训练这变成统治人类的gpt

5.逻辑学

  1. 一对0
    0对一
    一对一
    一对多
    多对一
    一对一或多
    小明喜欢(动作)吃屎 1—>1/多
    小明在湖里(地点)游泳(动作) 1---->1/多
    坤坤,外面全是阿sir 1–>多
    秦岭四周无人,小明进去看了一眼. 1---->0在这里插入图片描述
  1. 时间关系 缕清时间发生关系 不得不说链表是无敌的什么逻辑结构都能表达
//只训练了正确的选项,错误的选项岂不是浪费了(建立错误的知识库)
//每个插入的记录,标志可能出现错误等待删除

以国考公务员2009真题研究人工智能
下列历史时间排序正确的一组是:A
A、齐桓公称霸→商鞅变法→秦统一天下
B、司马迁修《史记》→文景之治→王莽篡汉
C、玄武门之变→黄巢起义→安史之乱
D、杯酒释兵权→岳飞抗金→王安石变法
//如果我输入A选项来训练模型,先
//创建齐桓公(key) 生 死三个成员,生就填入一个称霸(如果填入开始和结束太浪费空间了)
//齐桓公连接商鞅变法
//创建一个商鞅 生那里插入 变法,LLM可以提取关键字
//商鞅连接秦国统一(单链表)
//创建一个秦国 生那里插入 统一
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2定义型(作用 后果)
经济学上所推崇的“橄榄型”收入分配结构,是指低收入和高收入相对较少、中等收入占绝大多数的分配结
构。我国正在采取、实施“提低、扩中、调高、打非、保困”的方针,使收入分配朝着“橄榄型”方向发展。 这主要是为了促进:
A、生产的发展
B、效率的提高
C、社会的公平
D、内需的扩大

在这里插入图片描述

在这里插入图片描述
链表不存实际数据,只存指向数据的指针
在这里插入图片描述
//改进,我只记录主语,使用短句来训练,长句直接使用主句训练的结果
//还是不行

在这里插入图片描述
在这里插入图片描述
//解决全部的问题,where when what why how
在这里插入图片描述

//没有说完的话是重点, 一个完整的句子是 由问题+答案组成的,如果有问题,没有答案, 重点在问题那一句话
//怎么判断话没有说完整,语法结构主谓宾缺少了宾语2006 年元旦起我国政府正式取消了延续 2600 年的农业税。
我国农业税的征收始于:
A、春秋时期鲁国的初税亩
B、战国时期的商秧变法
C、秦朝的按亩纳税 
D、西汉的编户齐民
//主要的问题是你搜索了所有相关的都找不到农业税,还是需要提取问题的关键(注意力)才能解决问题:关键字是农业税 始于

//理解能力太拉胯了把
//总结是关键词的概率 sklearn

from sklearn.feature_extraction.text import TfidfVectorizer

# 准备文本数据
documents = [
    "today is saturday,go  shopping,my mom and me ",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 将文本数据转换为TF-IDF特征矩阵
tfidf_matrix = vectorizer.fit_transform(documents)

# 获取关键字
feature_names = vectorizer.get_feature_names_out()

# 输出关键字及其对应的TF-IDF权重
for i, doc in enumerate(documents):
    print(f"Document {i + 1}:")
    for j, feature_index in enumerate(tfidf_matrix[i].indices):
        print(f"   {feature_names[feature_index]}: {tfidf_matrix[i, feature_index]}")

6.化繁为简 化多为单一 (把多的关系放在存储的数据中),如果在中国能把中国的试卷的单题,多选题来训练模型,这是源源不断的训练数据,从小学到大学,我们都在做数据label的工作,训练图像识别也是这个道理,其实世界上也有很多这个应试模式,把他变成优势,现在流行的图片补全验证码也是这个原理(可以产生更多训练数据)

7.怎么生成自己的模型文件?而且搜索性能好呢?

8.文本人工智能,智能在可以替换近义词,反义词,把散装的单词变成完整的句子,

9.人工智能为什么是人工智能,从拼接Json串得到灵感,例如 我说 gpt我想要json格式的数据 {“key”:“value”},如果我说我想要key是name,value是小明, gpt开始拼接 “{'”+name+“‘:’”+value+“'}”,如果我说我要拼接多个 “{'”+name+“‘:’”+value+“',”+‘“+name+”’:‘“+value+”’}" 开头肯定是 “{'” 结尾肯定是 “'}”
中间多个连接肯定是"‘," 键值之间肯定是name+ "’:'"+value,那么怎么样通过少量的代码让机器拥有自主学习的能力呢?(自己有思想,普通人不可能什么都是万事通,遇到不会的东西就快速学习),在json例子拼接的过程,其实我们要摆脱用+号拼接的思维 {“xxxx”:“xxx”} 通过大量学习 机器会知道 json格式一定是{开始的,我用链表和 $%^来表达 变化的部分,直接生成文本
在这里插入图片描述
//我有大大的疑问,那我想要生成多个键值呢,和人的学习习惯有关的是 先从简单的开始–>复杂的
//假设他在学习过程中学习到这个2个键值的格式,增加了个逗号,但是我怎么确定多个键值对怎么生成
//答案是由于我对1个键值对和2个键值对做对比发现了可以重复使用的部分和不可重复的部分,系统判断可以使用循环进行复用
{“xxxx”:“xxx”}

在这里插入图片描述
10.接下来解决的是怎么识别出一句话的关键词
在这里插入图片描述
//要设计上在线人工纠错,不然生成的答案可能不可预料(虽然逻辑是可通的)
//事实上关键词也可以是 问题(where when what why how to do,)也可以是纯傻瓜式的问答
比如 观音庙 答案 : 观音庙是xxxxxxxxxxxx
为什么有观音庙 观音庙是xxxxxxxxxxxx,起源于xxxxxxxxxxxxxx,
为什么观音庙被人们朝拜 观音庙是 xxxxxxxxxxxxxxxx,被朝拜因为xxxxxxxxxxxx,所以xxxxxxxxxx
什么时候有观音庙 观音庙是xxxxxxxxxxxxxxxx,起源于元朝xxxxxxxxxxxxxxxxxxx,秦朝xxxxxxxxx(问题来了 多个时期有多个事件,需要封装为块)

//如果我的关键词识别器,识别不出关键词怎么办,直接说 我无法根据你的话推理出什么,如果识别不出答案呢,就直接往 是什么哪里插入(但是每一次的结果可能会覆盖之前的结果怎么办,关键词相同的几率还是比较小的,后期机器怎么学习也是个问题[实时学习],如果在系统中答案块的某个子模块相似度高得一批,那极有可能他们是同个问题的解,是不是可以通过合并关键词成为一个,然后通过关键词组织成为语言来解决后期学习的问题)(模拟大脑在睡觉过程中相似块的合并)(不过相似并不意味着就是相同的东西,有些东西只有细微的差别,比如原子和 中子和小黑子[坤坤] 人也不能识别出来,词语使用领域不同代表 意思不同娱乐圈和物理圈 化学圈 生物圈 计算机圈 机械圈 单片机圈 计算机网络圈 中国圈 美国圈 荷兰圈 韩国圈 日本圈 饭圈 。。。这么多 需要机器先了解是哪个圈的再去插入到圈的领域 加快查询 后期方案使用多个模型文件分类是哪个圈的)

1.? 为什么 吗 呀
例如 月亮为什么围着地球转,其实关键词就是问题,明显有个为什么 所以如果有答案就去找答案(我们如果是训练就提供训练接口,如果要回答就提供回答接口) 必须实现同义词字典,我先实现的是训练部分
2. 是什么 , 如果我说不是那搜索结果就会出错(必须提取问题中的否定和被动)
//例如 我的老鼠被猫打了 可能匹配到到 我的老鼠打了猫,我的猫打了老鼠,我的老鼠没有打猫,我的老鼠没有被猫打, 所以说要想要gpt智能还得靠 先做模糊查询,后进行顺序和提取关键词(被动和否定) 必须记录关键词头和尾的位置
在这里插入图片描述
3.一句相同语境的话既是训练数据(拆分为多句)也是整句是答案
在这里插入图片描述

11.训练的基本思路(好奇的猫,在某个领域有重要地位) 模板+变量+for+where Insert 后期添加模板类分析套路的类

在这里插入图片描述
12.我有个好的想法,每天的百度的热搜讨论数据来训练模型,国考试卷真题都可以训练(文字题)—>增强文字理解(数字题)(推理题)---->逻辑(图像题)—>简单的图形推理 (大作文)—>文本生成
//可以有人足够关注的一定不简单,而且不会有数据污染
13.遇到了个问题: 关键词是不是越长越好?
要是句子很长,count ++, 我的问题关键词很短就很容易匹配到不准确的句子

例如:
经济学上所推崇的“橄榄型”收入分配结构,是指低收入和高收入相对较少、中等收入占绝大多数的分配结构。我国正在采取、实施“提低、扩中、调高、打非、保困”的方针,使收入分配朝着“橄榄型”方向发展。这主要是为了促进社会的公平
1. 要是存在一个: 橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型
(所以关键词要去重)
2.关键词要是存在 我国橄榄型收入分配结构为了干嘛? (这个明明更加可能是答案)
3.要是存在另外一个
我的提问: 我国橄榄型收入分配结构为了干嘛?
解决方案: 匹配率(匹配到的关键字个数/关键字全部词语)
解决方案的潜在问题 越短的越可能匹配到,但是长的也可能是答案(这种概率忽略不计,因为关键字重复的可能性很小) (关键字越长冲突可能性越小),最终解决方案:
在这里插入图片描述4. 处理的时候还是以.。句号切分,不然多个句子有多个为什么,一般来说一个句子有1个为什么就顶天了

14.思考我做这个有什么应用场景:

1.孩子共同成长的ai助手,可以成为话痨,也可以独立实时的思考
2.对小说等进行提取关键字—>生成独特个性的二次元动画(自动去找合适的素材)生成视频,我在思考为什么他们非得要生成一整张图片,我们可以根据像PS的图层
用生成多张图片合成一张图片(难度会小很多)
(二次元)多张图片的位置,什么情况下可以组合的条件,z-index的大小,图片被覆盖的位置,图片的动画修改的插入
3.自动化也有应用场景

在这里插入图片描述
在这里插入图片描述
我想要电机无人进行预训练,而不是天天打标签

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/431393.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【设计模式 03】抽象工厂模式

一个具体的工厂,可以专门生产单一某一种东西,比如说只生产手机。但是一个品牌的手机有高端机、中端机之分,这些具体的属于某一档次的产品都需要单独建立一个工厂类,但是它们之间又彼此关联,因为都共同属于一个品牌。我…

视觉Transformers中的位置嵌入 - 研究与应用指南

视觉 Transformer 中位置嵌入背后的数学和代码简介。 自从 2017 年推出《Attention is All You Need》以来,Transformer 已成为自然语言处理 (NLP) 领域最先进的技术。 2021 年,An Image is Worth 16x16 Words 成功地将 Transformer 应用于计算机视觉任务…

【go语言开发】yaml文件配置和解析

本文主要介绍使用第三方库来对yaml文件配置和解析。首先安装yaml依赖库;然后yaml文件中配置各项值,并给出demo参考;最后解析yaml文件,由于yaml文件的配置在全局中可能需要,可定义全局变量Config,便于调用 文…

面试题HTML+CSS+网络+浏览器篇

文章目录 Css预处理sass less是什么?为什么使用他们怎么转换 less 为 css?重绘和回流是什么http 是什么?有什么特点HTTP 协议和 HTTPS 区别什么是 CSRF 攻击HTML5 新增的内容有哪些Css3 新增的特性flex VS grid清除浮动的方式有哪些&#xff…

SAR ADC学习笔记(3)

一、SAR ADC采样电路 1.采样网络的时域响应:采保信号 2.采样网络的KT/C噪声 3.采样抖动 采样开关的种类 1.单MOS管开关 2.传输门开关 3.栅极自举(Bootstrap)开关 结论:M4的衬底需要和B点短接,保证B点能够到达高压&…

完美解决Iframe嵌入帆软报表出现跨域cookie写不进去的问题

随着google chrome对第三方cookie的限制越来越狠,现在发现之前使用iframe嵌入的帆软报表已经不好使了。官方现在解决iframe嵌入帆软报表出现跨域导致cookie写不进去的方案是主推 统一主域名的方案(谷歌浏览器单点登录失败- FineReport帮助文档 - 全面的报表使用教程和学习资料…

大唐杯学习笔记:Day5

1.1 小区搜索 搜索流程 PLMN选择 自动模式:UE根据NAS的请求或自主地向NAS报告可用的PLMN 手动模式:通过手动选择一个可用的VPLMN获取正常服务 频点选择 5G NR中,3GPP主要指定了两个频率范围,一个是6GHZ以下,另一个是毫米波,分别称之为FR1和FR2。 N…

稀碎从零算法笔记Day5-LeetCode:轮转数组

题型:数组、数学、双指针 前言:LC说你得用三种方法做出来(悲) 链接:189. 轮转数组 - 力扣(LeetCode) 来源:LeetCode 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 …

专业145+总分410+西工大西北工业大学827信号与系统考研经验电子信息与通信工程,海航,真题,大纲,参考书。

经过一年的努力,分数终于出来。今年专业课827信号与系统145(很遗憾差了一点点满分,没有达到Jenny老师的最高要求),数一130,英语和政治也都比较平衡,总分410分,当然和信息通信考研Jen…

学习java第一天(下载并配置环境+写第一个java程序)

一.安装 1.下载 直接去官网上选择与你电脑符合的版本下载 官网链接Java Archive Downloads - Java SE 8u211 and later (拿我的为例 Windows x64版本) ​ 2.然后安装好exe(要让自己知道在哪) 3.配置环境 大佬链接&#xff1…

蓝桥杯前端Web赛道-新鲜的蔬菜

蓝桥杯前端Web赛道-新鲜的蔬菜 题目链接:1.新鲜的蔬菜 - 蓝桥云课 (lanqiao.cn) 题目要求如下: 其实很容易联想到使用flex布局,这是flex布局一种非常经典的骰子布局,推荐Flex 布局教程:实例篇 - 阮一峰的网络日志 (r…

Java基于SpringBoot网上超市的设计与实现论文

摘 要 网络技术和计算机技术发展至今,已经拥有了深厚的理论基础,并在现实中进行了充分运用,尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代,所以对于信息的宣传和管理就很关键。因此超市商品销售信…

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:点击回弹效果)

设置组件点击时回弹效果。 说明: 从API Version 10开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 clickEffect clickEffect(value: ClickEffect | null) 设置当前组件点击回弹效果。 系统能力: SystemCapabilit…

SQL技巧笔记(一):连续3人的连号问题—— LeetCode601.体育馆的人流量

SQL 技巧笔记 前言:我发现大数据招聘岗位上的应聘流程都是需要先进行笔试,其中占比很大的部分是SQL题目,经过一段时间的学习之后,今天开了一个力扣年会员,我觉得我很有必要去多练习笔试题目,这些题目是有技…

Linux - 进程概念

1、冯诺依曼体系结构 我们常见的计算机,如笔记本。我们不常见的计算机,如服务器,大部分都遵守冯诺依曼体系; 截至目前,我们所认识的计算机,都是有一个个的硬件组件组成: 输入单元:…

浏览器发出一个请求到收到响应步骤详解

前言 在网络通信中,浏览器向Web服务器发送HTTP请求消息的过程是一个复杂而精密的环节,涉及到URL解析、DNS解析、数据拆分、路由表规则和MAC头部添加等一系列步骤。本文将深入探讨这一过程的每个环节,帮助读者更全面地了解浏览器与Web服务器之…

肠道菌群参与利那洛肽对便秘型肠易激综合征 (IBS-C) 患者的影响:一项多中心、前瞻性、前后对照研究

谷禾健康 肠易激综合征 (IBS) 是一种普遍存在的、症状驱动的慢性疾病,其特征是腹部不适和排便不规律,估计影响全球 11.2% 的人口。这些患者中大约三分之一被诊断患有便秘型肠易激综合征(IBS-C),这是IBS 的一种亚型。 鉴…

JVM 第二部分-1(程序计数器,虚拟机栈,本地方法栈)

第二部分:运行时数据区 1.程序计数器: 全称是程序计数寄存器,像CPU的寄存器一样,存放线程的下一条指令的地址。每个线程都有一个 (区域小,执行速度快,不会有垃圾回收,也不会报oom错…

【外汇天眼】外汇投资策略:区间突破交易系统

RangeBreak系统介绍 RangeBreak区间突破交易系统被市场广泛用于日内交易,曾经连续多年在《美国期货杂志》盈利交易系统排行榜中位居前十。 目前该交易系统也仍旧被很多专业机构和个人投资者所推崇。 交易者可根据自己的交易习惯和性格特点进行改进,并不…

网络编程 24/3/4 作业

1、广播 发送端 #include <myhead.h> int main(int argc, const char *argv[]) {//创建套接字int sfdsocket(AF_INET,SOCK_DGRAM,0);if(sfd-1){perror("socket error");return -1;}//设置当前套接字允许广播属性int broadcast1;if(setsockopt(sfd,SOL_SOCKET…
最新文章