2023-03-16

关于GPT-4的十问十答

更新日志

2023-07-11

更新Q3问题中，关于GPT-4模型架构、训练基础设施、并行策略、多模态适应方式等信息的更新，具体内容参考链接：https://www.semianalysis.com/p/gpt-4-architecture-infrastructure）
更新Q9问题中，第三点AI agent系统以GPT-4为基础模型的逻辑。

前言

GPT-4作为GPT系列的最新模型，其整体实现逻辑、技术结构与ChatGPT类似，可以将其看作是拥有更长上文、能更好理解复杂指令、回答更可靠、更风格化、更有创意的图文版升级ChatGPT，故本文未按照从头开始叙述的逻辑，在之前《ChatGPT技术解构与思考》整体脉络之上，结合OpenAI的Technical Report，选取GPT-4的关键点作阐述，整理出GPT4核心的十个问题进行剖析。

本文首发在腾讯云开发者公众号 https://mp.weixin.qq.com/s/faCMgTd7eV5kC08XqOCW-Q 、知乎号 https://zhuanlan.zhihu.com/p/614499449 与腾讯科技 https://new.qq.com/rain/a/20230316A08C1Y00 中，本Blog此文进行实时更新。

大型语言模型(LLM)的使用和思考

更新日志

2023-07-18

增加4.4中，参考文献13- Parameter-efficient Prompt Tuning（局部微调）的统一视角
增加4.4中，关于P-tuning、P-tuning v2、LoRA、AdaLoRA/QLoRA的内容

1. 导论

ChatGPT的出现和“爆火”，让大家见识了大型语言模型(Large Language Models，下文均简称LLM)的威力，尤其是千亿模型已经远超BERT时代的认知，甚至看到了AGI（Artificial General Intelligence，通用人工智能）的可能性。但随之而来的机遇和挑战并存。除了遥遥领先的OpenAI，业界大部分公司或多或少被拉到了追赶ChatGPT的同一起跑线上。

本文延续上篇文章（ChatGPT技术解构与思考）末尾对于ChatGPT如何使用的话题，基于最近阅读的一些材料和学习，结合从组内做过的实验中得到的认知，拓展到更广范围的LLM，集中阐述如何使用、适配和挖掘LLM的能力，并给出相关思考供大家讨论。

ChatGPT技术解构与思考

更新日志

2023-07-03

增加3.2中，第6）部分关于ChatGPT 函数调用（function calling）的内容：开发者可以使用 OpenAI 的 API 自己实现完整的插件功能
增加3.2中，第7）部分关于以ChatGPT/GPT4等LLM为核心的自治代理系统（Autonomous Agent）的内容

2023-04-12

增加2.2.5 中，文章34关于产生涌现能力的另一种猜想：子任务的「渐进」构成整体任务的「涌现」
增加3.1中，关于ChatGPT plugin生态（使用工具的智能）和HuggingGPT调用多专家模型内容
修正3.3章节中，实现时间和资源成本因增加「直接预训练」后的序号错误问题

2023-03-15

结合文献28~31，增加2.2.5中 GPT4最新进展和升级，关于GPT4更详细内容可以移步：关于GPT-4的十问十答

2023-03-14

增加2.2.5 中，结合文献23，增加涌现能力存在于各个学科，以及观测会影响其体现的观点
增加2.2.5 中，关于 加大模型规模 和 研究人类反馈 两条路径对比和说明
结合文献25甲子光年的报告，增加3.1 场景应用图、3.4信息革命图、3.5国内大模型现状图
增加3.4中Kosmos-1图
结合ChatGPT API后涌现的应用，增加3.1 应用案例图

2023-03-04

增加2.2.5 中，GPT3.5前发展进程的图表简述；增加ChatGPT「自身能力的认知」的进化观点，参考邱老师讲座
更新3.1 第4点中，「自身升级」中New Bing的升级
增加3.2 第4点「安全和监管」内容，融合部分面向安全线分享的调研内容
新增3.4 「未来」内容
更新 ChatGPT API和成本相关内容
其他：部分缩进格式修正

2023-02-21

新增3.5 「写在最后」内容

2023-02-15

新增2.2.6 「从ChatGPT的成功看大型语言模型的构建思路」，融合文献16的观点

2023-02-11

增加2.2.5中，ChatGPT的形成顺序图，并结合大型语言模型(LLM)的使用和思考中大模型对推理能力的学习，推测ChatGPT涌现能力的来源
增加3.3「借鉴和使用」中，预训练层面利用的阐述

2023-02-06

新增文章写作出发点的相关前言

2022-12-22

新增2.2.5 ChatGPT的进化历程
新增附录1-中英文术语对照表

2022-12-08

修正2.1章节中对于ChatGPT推测的训练数据量级
发表文章

前言

本文首发在腾讯云开发者公众号 https://mp.weixin.qq.com/s/QA8ZOtCDP1X2EKzpZCY0RA 、知乎号 https://zhuanlan.zhihu.com/p/591122595 号中，发表为最初版本，此文进行实时更新，持续增加新的认知；该文获得司内年度知识奖。

Paper-info 汇总和记录-updating

前言

主要对平时所读大模型、NLG相关paper、观点和信息进行汇总，实时更新。

记录

HuggingGPT: Solving AI Tasks with ChatGPT in Hugging Face http://t.km/qaodgc 核心用ChatGPT解析意图（任务规划）、模型选择、在专家模型执行任务后（任务执行），根据返回结果利用ChatGPT生成响应（响应生成），设计为一超长的Prompt（见下图1），所以缺点是暂时来说成本很高，优点是利用了很多专家模型。 Time: 2023-04-12

Sparks of AGI一作演讲 https://hub.baai.ac.cn/view/25373，整体和论文内容一致，对比各项任务中GPT-4的智能，核心观点很有趣：即如何定义GPT-4是否有智能，按照不同维度可不同定义：智力包括推理、计划、解决问题、抽象思维、比较复杂的观点以及快速学习和从经验中学习等能力，GPT-4无法计划、缺乏记忆无法实时学习，其他能力可被定义为AGI。 Time: 2023-04-12
AutoGPT https://github.com/torantulino/auto-gpt 基于GPT-4/3.5 的实验性开源应用程序，相当于给GPT大脑一个内存和身体，设定任务后让其自己解决问题，同时可互联网访问、长期和短期内存管理、文件存储和生成摘要等，在其基础上构造垂类X-GPT，想象空间较大，但未看出整体设置的必要性；类似新应用可参照https://zhuanlan.zhihu.com/p/621132445 Time: 2023-04-12

针对多步推理进行小型语言模型的专门化 https://arxiv.org/pdf/2301.12726.pdf https://hub.baai.ac.cn/view/25238 之前介绍中提到的第四步模型专业化，以专门针对目标任务专门化模型能力，即将大模型能力集中在特定的目标任务上，使用较小模型多步推理来靠近大模型的涌现能力。另外文中提出了包括数据格式、起始模型等选择方法。 Time: 2023-04-06
LLM-Adapters https://hub.baai.ac.cn/view/25288 https://arxiv.org/pdf/2304.01933.pdf LLM的局部微调（PEFT）方法，将LLaMa和三种LLM-adapter集成（序列Adapter、平行Adapter和LoRA），在较小规模的LLMs（7B）中使用基于适配器的PEFT，在简单的数学推理数据集的零次推理中，产生了与强大的LLMs（175B）相当的性能。 Time: 2023-04-06

Read More