大语言模型（LLM）学习路径和资料汇总

本文分为四个章节，各章节的学习目标如下。请注意本文主要是面向工程界撰写，学术部分较少。

入门篇：
- 了解大语言模型的基础知识和常见术语。
- 学会使用编程语言访问 OpenAI API 等常见大语言模型接口。
提高篇：
- 了解机器学习、神经网络、NLP 的基础知识。
- 了解 Transformer 以及典型 Decoder-only 语言模型的基础结构和简单原理。
- 了解大语言模型发展历史，以及业界主流模型（含开源模型）进展。
应用篇：
- 可以在本地环境搭建开源模型的推理环境。
- Prompt 工程。
- 使用已有框架（如Langchain）或自行开发，结合大语言模型结果，开发生产应用。
深入篇：（本文涉及少量资料）
- 掌握 Continue Pre-train、Fine-tuning 已有开源模型的能力。
- 掌握 Lora、QLora 等低资源高效模型训练的能力。
- 掌握大语言模型微调以及预训练数据准备的能力。
- 深入了解大模型背后的技术原理。
- 了解生产环境部署大模型的相关技术点。

读者可以根据自己需要选择对应的章节，如对大语言模型的原理不感兴趣，可只关注入门篇和应用篇。
考虑到阅读背景，本文尽可能提供中文资料或有中文翻译的资料。

在入门之前，请申请 OpenAI API，并具备良好的国际互联网访问条件。

大语言模型综述
- 大语言模型迄今为止最好的学术向中文综述。
- 中文版本：LLM_Survey_Chinese_0418.pdf
- 作为入门资料偏难，看不懂的部分可以等到后面章节再回头重看。
ChatGPT Prompt Engineering for Developers
- 虽然是 Prompt 工程，但是内容比较简单，适合入门者。
- 中英双语字幕：https://github.com/GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese
OpenAI Quickstart
- OpenAI 官方 Quickstart 文档。
- 以及 API Reference
State of GPT：GPT 联合创始人做的演示，极好的总结了 GPT 的训练和应用。
- 视频：https://www.youtube.com/watch?v=bZQun8Y4L2A
- PPT：https://karpathy.ai/stateofgpt.pdf

清华大模型公开课：从NLP到大模型的综合课程，挑选感兴趣的了解。
深度学习：台湾大学李宏毅：台湾大学李宏毅，国语教程里最好的，讲的很清楚，也比较有趣。
Understanding large language models ：理解大语言模型。
The Illustrated GPT-2 (Visualizing Transformer Language Models)：图解 GPT2
- 中文翻译：图解GPT2 - 知乎
InstructGPT: Training language models to follow instructions with human feedback：著名的 InstructGPT 论文。
- 另外一篇中文介绍：https://huggingface.co/blog/zh/rlhf
Huggingface NLP Course：NLP 入门课程

Building Systems with the ChatGPT API
- 中文字幕：Building Systems with the ChatGPT API(吴恩达双语字幕)-introduction_哔哩哔哩_bilibili
Langchain
- Langchain 是大语言模型最火的应用框架。即使不使用，也可以借鉴。
- LangChain for LLM Application Development
  - 中文字幕：B站首推！官方精品【中文完整版】LLM应用开发实践：LangChain｜LangChain官方×AI大神吴恩达｜第2集模型，提示词和参数_哔哩哔哩_bilibili
GPT best practices：OpenAI 官方出的最佳实践。
openai-cookbook：OpenAI 官方 Cookbook。
Brex's Prompt Engineering Guide：Prompt 工程简介