值得研究的两个AI问题
感觉现在AI还有一系列的问题没有解决,我自己关注两大方面。
1. 机器创造概念
已有的AI算法核心,实际上一直都是机器学习。尽管通过这些方法已经产生了很多创新,如DeepMind的AlphaTensor发现了新的矩阵乘法算法,AlphaFold在蛋白质空间中创造出的表征等。但依然能感受到这些AI依然和人有较大差异。
我认为其中最大的差异,在于AI的创新都是在已有概念体系内部进行搜索。上面列举的新矩阵乘法,新蛋白质的发现,都只不过是新的合法排列组合而已,充其量算是发现式创新,但不是概念创新。新概念必须得是原来从未有过的抽象,对概念体系本身进行扩展。
1.1 为什么这个问题如此重要?
因为如果机器不能抽象出新的通用概念,那么就无法化简某些问题,系统就会因为效率而卡在某个特定的瓶颈。只有当机器能自主完成的概念抽象,才能确保系统的规模能脱离人类持续发展,这样的AI才能称为AGI。
想象一下还在进行以物易物的时代,一开始买一头牛可能需要用两头羊来换,然后我想要布但你不想要我的牛,我们的交易就无法进行。
通过反复的交易之后,人们发现了可以通过一些物品进行一般等价,然后逐渐就出现了价格,进而再抽象出了其中的不变量,并把他命名为钱。之后,整个金融概念便有了飞速发展。
如果没有这样的抽象,光是资产的转移就会让整个系统卡在分子移动这一瓶颈上,可能支撑的交易量也就几万头牛。如今有了金钱概念,我们只需要移动电子即可完成上万亿资产的转移。
现有的LLM模型,通过学习,可能会把牛羊马的交易聚集到流形的某个局部,但没有任何证据表明它能提炼出钱的这个概念。
可能有读者要反驳说,通过把高频次的东西进行包装,就像是从一个复杂函数里面提取子函数一样,总能提炼出一些新概念。钱的概念可能提取不出来,但没准能提取出“牛羊马的交易不变量”作为替代概念。
我的评价是,这确实可以解决一部分抽象的问题,但新概念的创造不只是不变量的提炼。这就引出了我想说的第二种概念创造。
在权限管理的场景中,假设M种权限,N个用户。管理员需要分配不同的权限给不同的用户。如果没有抽象,没有一键分配的优化,管理员需要MN次操作才能完成所有权限的分配。
类似印度电线
但如果,我们抽象出了角色层,预先给每种角色分配权限,再去分配不同人员有哪些角色,即可大幅简化管理员的操作。
图谷侵删
还有第三个关于概念创造的例子:极坐标。拿原点上的圆举例,在直角坐标系下的方程至少得学过平方的人才能理解。如果用极坐标,只要写 即可,非常符合圆本身的定义。
换句话来说,有一些抽象概念,通过换个视角,或者说切换坐标系,就能把复杂的问题变得非常简单。
那么,在如今LLM强烈依赖欧氏高维语义流形的前提下,它是否能自己发展出通过变换坐标系,主动把问题简单化,我认为是要加一个大大的问号的。
人类有很多对不同行为进行建模的经验,但是对于概念的生成,依然会认为这像是天启一样的突然浮现,也有人认为这就是人类的专属特权。
如果能把概念创造的过程进行建模,那么就能进行工程化,那么自进化的AI必将指日可待。AI的训练就可以变成按需增长:先从小模型开始发展,然后随着算力的限制,机器创造出新的概念,支撑出更大规模的活动,进而申请更多的资源。
对于现有的AI,如果一直坚持现有开发路径,任由机器不受限制地用大规模参数拟合万物,那么AI永远也不能感受到现有概念在使用上的掣肘,也就很难创造出新的概念。
反观人类,在任何新概念创造之前,必然是因为感受到了痛点,才会有动力进行抽象和创造从而简化自己的理解。
1.2 与这个概念有关的两大问题
这个问题其实还对应到AI的自我进化上。
机器的持续自我学习是个大家都在讨论的问题。然而目前关注的主要是流形如何在推理/使用过程中自动更新。正如上面所说,只依赖于单纯的语义流形而没有新维度的产生,似乎并不能带来任何新的概念。
因此我估计,只有当模型的使用能影响模型本身,模型对于某个问题的理解累积到一定程度,才会有对应的新概念被抽象出来。
还有一个强相关的是世界模型。
我认为他的核心实际上就是在语义流形以外再训练出不同的流形,或者说这就是一个多模态多维度流形。它本质上依然没能和现在的LLM所用的语义流形拉开本质的区别。如果没能自主创造新的抽象概念,那么世界模型中流形的数量必将是人为指定,依然没法像人那样思考去创造新的抽象。至于说它训练出来的的流形能否经由PDAC循环进行验证,那又是另一个问题了。
1.3 新概念命名问题
在构建完概念以外,新概念的命名又成为了另一个重要问题。
为什么要把交易过程中的不变量命名为钱?中文倾向于表意,英文表音,两种语言从根子上就是走了两条不一样的路线。新概念在中文和英文中分别要如何命名?这些都是需要考虑的问题。
对于新概念的命名看似简单,但你要考虑到:机器创造出来的概念名称不一定会被人类社会所认可。即使是token这样的词汇,人类社会都是经历了巨大争议之后依然死守着token不放。那么机器创造出来了新概念后,万一人类统一了某种命名,机器是否能快速接受而无需重新学习这个新概念?
1.4 假如成功开发,如何验证?
显而易见的思路是,像姚顺雨那样完全构造一个新的世界,需要确保里面的概念无法和地球的概念相借鉴。问题在于,已有的概念太多了,很难从零构造一个船新的概念树。
另一个,就是类似训练1930年AI的思路,直接剔除所有高阶概念,只把最基础的元素拿去训练。就像是只让一个新生儿接触到实实在在的物品,而没有抽象概念。换而言之,可以搞一个简化的原始地球模拟器,然后把里面的数据文本化作为数据集。之后把人类各个重要节点的数据构建出来,看AI能不能自主把关键抽象制造出来。
2. 机器视野问题
2.1 问题的本源:硬件的限制
曾经我回答过一个问题:“为什么人类能一眼看到函数的最值而机器不能”。
人由于眼睛的原因,你只要看到函数图像,几乎总能马上确定最值点的大概位置。
同样是看到函数图像,机器只能通过复杂的定位算法和大量计算才能定位,相比而言相对于人类是要复杂不少。
问题在于,人类是经过生化硬件长年累月的进化下才达成了这一目标。而对于机器来说,任何功能的实现都需要人类亲自设计,因此即使是小窗口的视野已经很耗费成本了,扩大窗口所带来的附加成本几乎是呈几何级数上升。目前在硬件勉强够用的前提下,选择通过优化算法,时间换空间,达成和人类一样的功能。
这个问题看着简单,但我认为它和LLM的上下文窗口大小在本质上是一样的。
LLM让人觉得犯傻的一个最大原因来自于它的遗忘性。相对而言,人虽然也会有善忘的问题,但对于当前工作的任务基本上能保持长久的工作记忆。
现有大模型动为了解决这个问题,动辄宣称自己有多少多少的上下文窗口,仿佛只要喂足够多的提示词,就能让机器能一直保持记忆力。
然而由于模型的本质缺陷,它同一时间能处理的信息长度总是有限的。即使通过分批投喂的方式,也无法确保模型内部中已经消化过的内容不会损失有效的内容。
因此,这就又回到了那个问题:我们到底是要通过增加机器的复杂度,还是提升算法的复杂度,在螺蛳壳里做道场?
前者,面对的除了成本的指数上升,可能还有硬件通用性的下降。
而后者,就引出了另一个重要问题。
2.2 如何管理给AI投喂的数据?
换而言之,如果无法增加大模型上下文的窗口,想要让它能正常干活就需要精准投喂它所需要的信息。相比于像Openclaw之类的智能体无脑提取一大堆环境信息作为上下文,我更习惯于精准控制手工描述问题,但手工毕竟不能通往真正的AGI。
再者,不论是投喂的上下文,还是用于训练的数据,只要你拿着现实世界中采样的数据,本质上都不可能避免出现噪声,甚至是有害的数据。我们人可以通过特定的训练,内化一套即使不科学也是存在固定标准的价值观模型,从而把过往和未来中已经和可能出现的不符合我们口味数据全部剔除,确保不影响后续推理。
然而,目前的LLM在训练阶段就不加筛选地吸收一切内容。而上下文中一旦有相矛盾的指令(比如第一轮:往左一点,第二轮:太左了,往右一点),机器本身也不会进行有目的性的选择性无视。
2.3 数据要如何组织?
除了控制数据的内容,数据如何组织就是要考虑的另一个问题。数据结构已经反复证明,同样的数据,不同的组织是会有完全不同的效果。比如,即使我二叉树上的数据不全都是我想要的,但我可以按需取用,速度和准确度仍能大幅提升。
目前的LLM流形空间本质上就是存在于欧式空间中。这个流形的特点是,数据会在局部进行积聚,从而形成局部流形。
看着很自然,但问题在于,计算机中可用的值域和精度是有限的。当数据量上来之后,是否会有多个数据进行混叠,是否会有大量的空间因未被使用而浪费?这些重叠的数据是否会引发准确度的丧失?
如果,可以通过重建坐标系,把这些混叠的数据点展开,充分利用这些数据,是否就能有更好的效果?
给我启发的,是最近有两篇关于双曲空间的论文。
[1]Atri Y K, Alaa A, Hartvigsen T. Lifelong Model Editing with Graph-Based External Memory[C]//Findings of the Association for Computational Linguistics: ACL 2025. 2025: 13336-13352.
[2]Liu Y, Xu H, He Y, et al. HyperGuide: Hyperbolic Guidance for Efficient Multi-Step Reasoning in Large Language Models[J]. arXiv preprint arXiv:2605.24140, 2026.
第一篇是把具有层级结构的知识图谱映射到双曲空间(庞加莱圆盘模型)中。第二篇其实也类似,也是把思维树ToT放到庞加莱圆盘模型中。
图谷侵删。原图是会动的gif,静态图反而更好说明问题了。
我理解的庞加莱圆盘模型具有的特性是:距离中心越远,空间越是稠密。也就是说,越是远离中心,就有越多的空间允许新数值的插入
因此,对于像树一样的结构,在你固定好各种父节点之后,子节点是可以有大量空间可以使用的。
反之,在欧氏空间下的流形,如果一个新的数据点要插入到既有空间,而它破坏了已有数据点的距离关系,可能就需要全部重新排布,带来了巨大的计算量。而在庞加莱圆盘中,由于子数据本身必定是远离父节点的,插入都是在越来越远的地方,因此带来了巨大的操作简便性。
类比数据结构,数据的插入是最麻烦的,对应的就是欧氏空间;那么庞加莱圆盘,似乎就可以对应于树这种数据结构。
所以,或者可以根据不同目标数据的结构研究它们所最合适的几何空间。
致谢
本文中提到的两篇文章来自于网友余老师的分享。没有和余老师的交流,我或者就没有坚持下去的动力了。也欢迎其他网友与我深入讨论!