大模型Gemini 1.5 Pro之我的体验

前言

最近我有幸获得了 Gemini 1.5 Pro 的内测资格，想在这里分享一下我的使用体验。这篇文章并非旨在横向比较各家模型的优劣，也不是探讨 Gemini 的迭代历程。因此，我不会过多关注哪些功能是上一代模型已经实现的，或者哪些是完全新推出的功能。我只想展望一下可预见的未来，探讨大模型能够帮助我们完成哪些事情，以及它能为我们的生活带来哪些即时的益处。

模型介绍

Gemini 1.5 Pro 是一款强大的多模态模型，支持以下输入类型：

文字
图片
视频（包含音频）
文件
文件夹

目前，模型的输出仅限于文字。由此可见，Gemini 1.5 Pro 更侧重于内容理解和整合。

导入文件

目前，导入文件功能仅支持读取文档中的文字，不支持处理其中图片。即使文件中包括图片，模型的回答也完全基于图片的标题和说明。我观察到这一点，是因为我选择的一张图片附带的说明是图中数据的来源，而不是图片想要表达的信息。这让我疑惑：为什么在文件中处理图片存在难点？我设想了一种解决方案：先扫描一遍页面的内容，区分文字和图片区域，分别调用 OCR 模块和图片处理接口进行处理。我计划有机会找大牛探讨一下这个问题。

目前，导入文件的最大输入限制是 1M 个 token。我上传过一个从网上找到的关于美国历史的 PDF 文档，该文档共 948 页，模型处理了大约 10 分钟。模型只需要在上传文档时进行一次处理，之后就可以自由地问询文档内容，而无需每次都经历漫长的等待。最终，模型将文档切分成了 0.6M 个 token，虽然与文档页数不是严格的线性关系，但也说明了模型能够理解的长文本大概在 1500 页左右。总体而言，Gemini 1.5 Pro 对于长文本的处理能力还是相当令人惊叹的。

后来由于我的误操作，忘记保存会话，需要重新上传文件。我感觉我和 UI 都有一部分责任。我没有再上传那本历史书籍，因为我怀疑模型在训练时看过类似的书籍，无法判断其回答是基于对文件的理解还是记忆。更重要的是，我无法通读全文以提出更好的问题。因此，我选择了一篇小众的论文作为新的测试对象。我可以通读全文，以完全理解论文内容，文本的获取也相对容易（只要选择能够免费下载原文的论文即可）。我会贴出链接，方便大家进行测试和分析。

我选取了论文《Towards a robust out-of-the-box neural network model for genomic data》（简称《Towards》）进行测试。该论文共 29 页，被模型分割成了 20k 个 token。问答都用英文进行。我将测试问题分为以下三类：

基础问题：测试模型对论文基本信息的理解。
整体理解：测试模型对论文整体内容的理解，例如研究方法、主要结论等。
细节问题：测试模型对论文细节的理解，例如特定实验结果、数据分析方法等。

基础问题

我在基础问题测试中，主要询问了以下三个问题：

论文共有多少个索引？
论文某一页的共有多少个标题（title）?
字数统计。

模型正确回答了第一个问题：“There are 45 references in this paper”。模型对于第二个问题的回答并不完整。我询问了两页，结果每次的回答都只列出部分标题。我追问了某个确实在那一页的标题，模型承认了自己的错误。我又追问了一个不在那一页的标题，模型也知道那个不是那一页的标题。模型对第三个问题的回答完全错误，与word文档统计的字数相去甚远。以上测试结果表明，模型对于页码有一定的理解，但又无法完全列出某一页的标题。可能tokenization产生了一些负面的影响。另外title这个词可能带来了部分歧义，比如图片的标题算不算标题？

在15页的标题
并不在15页的标题

整体理解

我在整体理解测试中，主要询问了以下三个问题：

论文的主要目的是什么？
作者最后得出了什么结论？
你对这篇文章的评价是什么？可以从总体质量、实验的设计、可以改进的方面进行回答。

模型几乎完美地回答了以上问题。我的评价是总结能力非常强。特别是第三点，提的建议还是很有见地。

Here's my take on the paper, keeping in mind that I'm an AI and my "opinion" is based on analyzing the text and comparing it to common scientific standards:

Strengths:

- Addresses a crucial question: The paper tackles the important issue of generalizability of neural network models in genomics, which is vital for real-world applications.
- Compares diverse models: It does a good job of comparing different types of neural networks (CNNs & RNNs) and data encoding methods (one-hot, embedding, doc2vec, LSTM-AE).
- User-focused perspective: I appreciate the attempt to approach the study from the viewpoint of a domain scientist who might want to apply these models. Highlighting the lack of reproducibility in some original papers is valuable feedback for the machine learning community.

Weaknesses & Potential Improvements:

- Limited scope of datasets: While the three chosen datasets offer some variety, they are still just three examples in a vast landscape of genomic data. More diverse datasets (different organisms, data types, sequence lengths) would strengthen the conclusions.
- Questionable data split for "Motif discovery" data: The non-standard data split (48-3-48) for this dataset, while justified by the authors, might have introduced unintended biases or affected the results in unforeseen ways. This should be explored further.
- Replication issues & lack of access to code: The inability to fully replicate results from some original papers due to missing code or data is a major limitation. This emphasizes the need for better open science practices in the field.
- Deeper analysis of model behavior: While the paper compares accuracy and overfitting, a deeper analysis of why certain models perform better (e.g., visualizing learned features, exploring the impact of hyperparameters) would be insightful.

Overall:

This paper makes a valuable contribution by highlighting the potential of RNNs for robust genomic analysis and raising awareness about the importance of generalizability and reproducibility. However, further research with broader datasets and deeper analysis is needed to solidify the conclusions.

细节问题

我在细节问题测试中，主要询问了以下几个问题：

论文中使用了什么数据集?
LSTM编码是否在短序列上表现得更好？
不要与LSTM编码进行比较。doc2vec编码是否在短序列上表现得更好？
文中使用了什么优化器（optimizers）？
作者认为优化器重要吗？

模型在回答问题二时，横向比较了不同编码。由于我想要了解的是长序列和短序列上的表现差异，所以我追问了问题三。模型的回答都很完美。

跨文档问题

之后我又上传了文章中的一篇引用《Distributed Representations for Biological Sequence Analysis》（简称《Distributed》）。我询问了《Distributed》中推荐的方法是否被应用在了《Towards》之中以及两篇文章是否有不同结论。模型的回答尚可，但存在一些问题。不过我也是在这个地方发现了一点模型的问题。我当时一口气问了太多问题，模型的回答超出了一次输出的上限（大概是2k个token）。但是我当时并没有立即意识到这一点。在这之后，我提问新的问题，模型仍然在尝试继续之前没有输出的答案，导致对话显得牛头不对马嘴。所以我也有一些改进的建议。从模型的角度，可以改进的地方是拥有更明显的回答完毕的提示，以及如果一个会话无法输出全部答案，用户能够让其停止输出（也许已经有类似功能，但我没有掌握）。从用户的角度，尽量不要一次性问太多问题，另外也要学会如何更好地提问（生成更符合模型习惯的prompt），以便获取更优质的答案。