关于GPT-4的十问十答

更新日志


2023-07-11


前言


   GPT-4作为GPT系列的最新模型,其整体实现逻辑技术结构与ChatGPT类似,可以将其看作是拥有更长上文、能更好理解复杂指令、回答更可靠、更风格化、更有创意的图文版升级ChatGPT,故本文未按照从头开始叙述的逻辑,在之前《ChatGPT技术解构与思考》整体脉络之上,结合OpenAI的Technical Report,选取GPT-4的关键点作阐述,整理出GPT4核心的十个问题进行剖析。

   本文首发在腾讯云开发者公众号 https://mp.weixin.qq.com/s/faCMgTd7eV5kC08XqOCW-Q 、知乎号 https://zhuanlan.zhihu.com/p/614499449 与腾讯科技 https://new.qq.com/rain/a/20230316A08C1Y00 中,本Blog此文进行实时更新。

Read More

大型语言模型(LLM)的使用和思考

更新日志


2023-07-18

  • 增加4.4中,参考文献13- Parameter-efficient Prompt Tuning(局部微调)的统一视角
  • 增加4.4中,关于P-tuning、P-tuning v2、LoRA、AdaLoRA/QLoRA的内容

1. 导论

    ChatGPT的出现和“爆火”,让大家见识了大型语言模型(Large Language Models,下文均简称LLM)的威力,尤其是千亿模型已经远超BERT时代的认知,甚至看到了AGI(Artificial General Intelligence,通用人工智能)的可能性。但随之而来的机遇和挑战并存。除了遥遥领先的OpenAI,业界大部分公司或多或少被拉到了追赶ChatGPT的同一起跑线上。

   本文延续上篇文章(ChatGPT技术解构与思考)末尾对于ChatGPT如何使用的话题,基于最近阅读的一些材料和学习,结合从组内做过的实验中得到的认知,拓展到更广范围的LLM,集中阐述如何使用、适配和挖掘LLM的能力,并给出相关思考供大家讨论。

Read More

ChatGPT技术解构与思考

更新日志


2023-07-03

  • 增加3.2中,第6)部分 关于ChatGPT 函数调用(function calling)的内容:开发者可以使用 OpenAI 的 API 自己实现完整的插件功能
  • 增加3.2中,第7)部分 关于以ChatGPT/GPT4等LLM为核心的自治代理系统(Autonomous Agent)的内容

2023-04-12

  • 增加2.2.5 中,文章34关于产生涌现能力的另一种猜想:子任务的「渐进」构成整体任务的「涌现」
  • 增加3.1中,关于ChatGPT plugin生态(使用工具的智能)和HuggingGPT调用多专家模型内容
  • 修正3.3章节中,实现时间资源成本因增加「直接预训练」后的序号错误问题

2023-03-15

  • 结合文献28~31,增加2.2.5中 GPT4最新进展和升级,关于GPT4更详细内容可以移步:关于GPT-4的十问十答

2023-03-14

  • 增加2.2.5 中,结合文献23,增加涌现能力存在于各个学科,以及观测会影响其体现的观点
  • 增加2.2.5 中,关于 加大模型规模研究人类反馈 两条路径对比和说明
  • 结合文献25甲子光年的报告,增加3.1 场景应用图、3.4信息革命图、3.5国内大模型现状
  • 增加3.4中Kosmos-1
  • 结合ChatGPT API后涌现的应用,增加3.1 应用案例

2023-03-04

  • 增加2.2.5 中,GPT3.5前发展进程的图表简述;增加ChatGPT「自身能力的认知」的进化观点,参考邱老师讲座
  • 更新3.1 第4点中,「自身升级」中New Bing的升级
  • 增加3.2 第4点「安全和监管」内容,融合部分面向安全线分享的调研内容
  • 新增3.4 「未来」内容
  • 更新 ChatGPT API和成本相关内容
  • 其他:部分缩进格式修正

2023-02-21

  • 新增3.5 「写在最后」内容

2023-02-15

  • 新增2.2.6 「从ChatGPT的成功看大型语言模型的构建思路」,融合文献16的观点

2023-02-11

  • 增加2.2.5中,ChatGPT的形成顺序图,并结合 大型语言模型(LLM)的使用和思考 中大模型对推理能力的学习,推测ChatGPT涌现能力的来源
  • 增加3.3「借鉴和使用」中,预训练层面利用的阐述

2023-02-06

  • 新增文章写作出发点的相关前言

2022-12-22

  • 新增2.2.5 ChatGPT的进化历程
  • 新增附录1-中英文术语对照表

2022-12-08

  • 修正2.1章节中对于ChatGPT推测的训练数据量级
  • 发表文章

前言

   本文首发在腾讯云开发者公众号 https://mp.weixin.qq.com/s/QA8ZOtCDP1X2EKzpZCY0RA 、知乎号 https://zhuanlan.zhihu.com/p/591122595 号中,发表为最初版本,此文进行实时更新,持续增加新的认知;该文获得司内年度知识奖

Read More

Paper-info 汇总和记录-updating

前言


   主要对平时所读大模型、NLG相关paper、观点和信息进行汇总,实时更新。

记录


  • HuggingGPT: Solving AI Tasks with ChatGPT in Hugging Face http://t.km/qaodgc 核心用ChatGPT解析意图(任务规划)、模型选择、在专家模型执行任务后(任务执行),根据返回结果利用ChatGPT生成响应(响应生成),设计为一超长的Prompt(见下图1),所以缺点是暂时来说成本很高,优点是利用了很多专家模型。 Time: 2023-04-12

  • Sparks of AGI一作演讲 https://hub.baai.ac.cn/view/25373, 整体和论文内容一致,对比各项任务中GPT-4的智能,核心观点很有趣:即如何定义GPT-4是否有智能,按照不同维度可不同定义:智力包括推理、计划、解决问题、抽象思维、比较复杂的观点以及快速学习和从经验中学习等能力,GPT-4无法计划、缺乏记忆无法实时学习,其他能力可被定义为AGI。 Time: 2023-04-12

  • AutoGPT https://github.com/torantulino/auto-gpt 基于GPT-4/3.5 的实验性开源应用程序,相当于给GPT大脑一个内存和身体,设定任务后让其自己解决问题,同时可互联网访问、长期和短期内存管理、文件存储和生成摘要等,在其基础上构造垂类X-GPT,想象空间较大,但未看出整体设置的必要性;类似新应用可参照https://zhuanlan.zhihu.com/p/621132445 Time: 2023-04-12

  1. 针对多步推理进行小型语言模型的专门化  https://arxiv.org/pdf/2301.12726.pdf  https://hub.baai.ac.cn/view/25238 之前介绍中提到的第四步模型专业化,以专门针对目标任务专门化模型能力,即将大模型能力集中在特定的目标任务上,使用较小模型多步推理来靠近大模型的涌现能力。另外文中提出了包括数据格式、起始模型等选择方法。 Time: 2023-04-06

  2. LLM-Adapters  https://hub.baai.ac.cn/view/25288  https://arxiv.org/pdf/2304.01933.pdf LLM的局部微调(PEFT)方法,将LLaMa和三种LLM-adapter集成(序列Adapter、平行Adapter和LoRA),在较小规模的LLMs(7B)中使用基于适配器的PEFT,在简单的数学推理数据集的零次推理中,产生了与强大的LLMs(175B)相当的性能。 Time: 2023-04-06

    Read More