AI技术百科
AGI最前沿:GPT-4之后大模型学术进展速览
1 前言
在ChatGPT,GPT-4出来之后,特别是其API开放使用之后,整个AI学术圈可以说发生了翻天覆地的变化,大家关注的点几乎都集中到了大模型上,大模型相关的研究可以很快获得10x,100x的关注度。
arxiv上包含ChatGPT关键词的papers数量按月递增
到现在ChatGPT出来已经半年多,GPT-4则出来3个多月了,这段时间涌现了大量和大模型相关的学术研究,这些研究有一大部分可以分成三类:
GPT评估派:直接分析GPT本身的特性,评估GPT各个方面的影响。
GPT应用派:基于GPT的API做prompt Engineering,验证可以在某些场景上产生前所未有的效果。
GPT蒸馏派:研究如何利用GPT生成数据训练自己的大模型,然后在某些benchmark上取得更好的效果。
无论是GPT评估派,GPT应用派还是GPT蒸馏派,最终都在说明一点:GPT太强了!
下面我们就这三大派系速览一下相关的paper(仅分析GPT-4出来后也就是3月之后的paper)
查找方式:
https://arxiv.org/search/?searchtype=all&query=GPT-4&abstracts=show&size=200&order=submitted_date
arxiv.org/search/?searchtype=all&query=GPT-4&abstracts=show&size=200&order=submitted_date
目前还只有几百篇,还可遍历。
2 GPT评估派
在GPT-4发布之后,世界陷入到GPT-4恐怖能力的支配中,出现了一堆的相关paper去评估GPT-4的能力及其潜在的社会影响。paper有点多,这里仅列举几篇比较有影响力的:
ChatGPT: Jack of all trades, master of none
The Impact of Large Language Multi-Modal Models on the Future of Job Market
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models
Sparks of Artificial General Intelligence: Early experiments with GPT-4
上面几篇paper在社交媒体上都很有影响力,总之就是告诉我们GPT-4是技术革命,接近AGI,很多白领工作都会受到影响,然后整个世界都变了,一堆大模型初创公司,大模型应用公司拔地而起。
3 GPT应用派
这里的研究基本上就是prompt engineering的研究,在GPT prompt的花园里面挖呀挖呀挖,看能挖出什么宝贝。
- ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
这篇文章比较早诞还是提一下,很重要的一个全新范式,把Thinking/Reasoning和Action结合在一起。
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models
https://github.com/princeton-nlp/tree-of-thought-llm
github.com/princeton-nlp/tree-of-thought-llm
这篇文章则把MCTS的思想通过LLM来实现,又创造了一个新的范式:
这些方法很酷,就是需要一个前提,LLM本身要具备很强的in-context learning的能力,否则没戏。
- Self-refine: Iterative refinement with self-feedback
https://arxiv.org/pdf/2303.17651.pdf
这篇文章告诉我们LLM是可以基于自己的反馈自我提升的。这完全模仿了人类的自悟。所以,self-improvement会是LLM时代一个全新的学习方式。但同样的,需要LLM本身先有这样的能力。
现在的问题就是开源模型不具备这样的能力,而GPT又拿不到model来finetuning。
- SELFEVOLVE: A Code Evolution framework via Large Language Models
https://arxiv.org/pdf/2306.02907.pdf
这篇文章在Code上通过接入interpretor来实现feedback,效果直接超过ChatGPT:
上面的paper面向通用的prompt engineering,意在提升逻辑推理能力,下面的一些paper则非常有趣,在一些场景展现出了全新的做法。
- Generative Agents: Interactive Simulacra of Human Behavior
https://arxiv.org/pdf/2304.03442.pdf
这篇文章很有名了,构建了一个虚拟环境通过gpt来实现agent的交互。并且Agent加了Memory。并且加了Reflection来进一步提取memory的关键信息。现在看的话,ChatGPT已支持16k,32k,甚至Claude 100k的context长度,memory直接输入应该也可以,效果或许更好。
- Voyager
这篇文章把prompt-Engineering做到了极致,多层嵌套prompt构建skill library,在minecraft实现了极强的效果,b不过差一点意思的是不是基于视觉输入,如果再改用视觉训一下会更惊艳。
- Can GPT-4 Perform Neural Architecture Search?
用GPT-4做NAS,一个字,绝!
- Controllable Text-to-Image Generation with GPT-4
用GPT-4结合Stable Diffusion做问生图,这里的关键是sketch image是GPT-4自己画的,还是绝!
- NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Model
用GPT做导航,这个算比较直接的用法吧。
- SPRING:GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning
这篇文章更绝了,用GPT-4分析文章,然后提出做法,然后效果超过RL算法,
还有很多paper都很有意思,限于时间和篇幅,就不进一步列举,还是Arxiv看起来!
4 GPT蒸馏派
- Alpaca
LLAMA出来之后第一个震撼的工作打开了GPT蒸馏实现自有大模型的大门。
- Vicuna
Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org
lmsys.org/blog/2023-03-30-vicuna/
Vicuna更进一步,用ShareGPT(用户分享的与ChatGPT的交互数据)训练LLAMA,得到了惊人的效果,开源模型进入到了比拼ChatGPT的Hype当中。
- Instruction Tuning with GPT-4
这篇文章则开始把GPT-4的数据拿来训,效果也不错
- Visual Instruction Tuning (LLAVA)
很快LLAVA还有Mini-GPT4横空出世,GPT-4的多模态能力开源模型也能做出类似效果。
思路非常的直接,就是把图片通过vision encoder接一个projection也就是mlp网络转化为llm可以接受的embedding和文字token的embedding一起输入做finetuning,神奇的事情就出现了,竟然很快就能学出效果。
- Mini-GPT4
几乎一样的设计,只是采用的backbone不同
- OpenFlamingo
https://laion.ai/blog/open-flamingo/
- Otter
Otter基于OpenFlamingo,然后加大了用ChatGPT生成数据的计量,从而得到了更好的效果。
- WizardLM
https://github.com/nlpxucan/WizardLM
WizardLM通过Evol-Instruct的方法来从chatgpt中生成更多样的数据,从而SFT之后的效果爆炸,更加接近chatgpt了。
Evol-Instruct
- Stable Alignment
https://github.com/agi-templar/Stable-Alignment
github.com/agi-templar/Stable-Alignment
这个工作不仅收集好的ChatGPT数据,还收集ChatGPT反馈信息,通过对比学习(类似RL)的方式来训练开源模型。
- Orca: Progressive Learning from Complex Explanation Traces of GPT-4
用GPT3.5,GPT4生成一堆各种各样的CoT,然后SFT,效果也爆炸。但要注意,这里搞了5M的GPT数据。
- Textbooks are all you need
这个工作很神奇,仅1.3B的参数,却在Humaneval和MBPP取得的了顶级的成绩。核心方法是用ChatGPT来生成教材和练习题。当然,Phi-1并不是很通用的模型,但是这给垂类模型的训练提供了重要启发:好的数据太重要了。
4 小结
看了上面的研究,乐观的看我们看到了各种围绕GPT的创意,悲观的看我们还看不到太多去探索达到GPT-4的方法论研究,当然要复现GPT-4更适合有资源的公司而不是学术机构。总的来说,研究发生了巨大变化,值得大家去拥抱。