Select Language

AI社区

AI技术百科

AGI最前沿:GPT-4之后大模型学术进展速览

1 前言

在ChatGPT,GPT-4出来之后,特别是其API开放使用之后,整个AI学术圈可以说发生了翻天覆地的变化,大家关注的点几乎都集中到了大模型上,大模型相关的研究可以很快获得10x,100x的关注度。

arxiv上包含ChatGPT关键词的papers数量按月递增

到现在ChatGPT出来已经半年多,GPT-4则出来3个多月了,这段时间涌现了大量和大模型相关的学术研究,这些研究有一大部分可以分成三类:

  1. GPT评估派:直接分析GPT本身的特性,评估GPT各个方面的影响。

  2. GPT应用派:基于GPT的API做prompt Engineering,验证可以在某些场景上产生前所未有的效果。

  3. GPT蒸馏派:研究如何利用GPT生成数据训练自己的大模型,然后在某些benchmark上取得更好的效果。

无论是GPT评估派,GPT应用派还是GPT蒸馏派,最终都在说明一点:GPT太强了!

下面我们就这三大派系速览一下相关的paper(仅分析GPT-4出来后也就是3月之后的paper)

查找方式:

https://arxiv.org/search/?searchtype=all&query=GPT-4&abstracts=show&size=200&order=submitted_date

arxiv.org/search/?searchtype=all&query=GPT-4&abstracts=show&size=200&order=submitted_date

目前还只有几百篇,还可遍历。

2 GPT评估派

在GPT-4发布之后,世界陷入到GPT-4恐怖能力的支配中,出现了一堆的相关paper去评估GPT-4的能力及其潜在的社会影响。paper有点多,这里仅列举几篇比较有影响力的:

  • ChatGPT: Jack of all trades, master of none

  • The Impact of Large Language Multi-Modal Models on the Future of Job Market

  • GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

  • Sparks of Artificial General Intelligence: Early experiments with GPT-4

上面几篇paper在社交媒体上都很有影响力,总之就是告诉我们GPT-4是技术革命,接近AGI,很多白领工作都会受到影响,然后整个世界都变了,一堆大模型初创公司,大模型应用公司拔地而起。

3 GPT应用派

这里的研究基本上就是prompt engineering的研究,在GPT prompt的花园里面挖呀挖呀挖,看能挖出什么宝贝。

- ReAct: Synergizing Reasoning and Acting in Language Models

ReAct: Synergizing Reasoning and Acting in Language Models

react-lm.github.io/

这篇文章比较早诞还是提一下,很重要的一个全新范式,把Thinking/Reasoning和Action结合在一起。

- Tree of Thoughts: Deliberate Problem Solving with Large Language Models

https://github.com/princeton-nlp/tree-of-thought-llm

github.com/princeton-nlp/tree-of-thought-llm

这篇文章则把MCTS的思想通过LLM来实现,又创造了一个新的范式:

这些方法很酷,就是需要一个前提,LLM本身要具备很强的in-context learning的能力,否则没戏。

- Self-refine: Iterative refinement with self-feedback

https://arxiv.org/pdf/2303.17651.pdf

arxiv.org/pdf/2303.17651.pdf

这篇文章告诉我们LLM是可以基于自己的反馈自我提升的。这完全模仿了人类的自悟。所以,self-improvement会是LLM时代一个全新的学习方式。但同样的,需要LLM本身先有这样的能力。

现在的问题就是开源模型不具备这样的能力,而GPT又拿不到model来finetuning。


- SELFEVOLVE: A Code Evolution framework via Large Language Models

https://arxiv.org/pdf/2306.02907.pdf

arxiv.org/pdf/2306.02907.pdf

这篇文章在Code上通过接入interpretor来实现feedback,效果直接超过ChatGPT:

上面的paper面向通用的prompt engineering,意在提升逻辑推理能力,下面的一些paper则非常有趣,在一些场景展现出了全新的做法。

- Generative Agents: Interactive Simulacra of Human Behavior

https://arxiv.org/pdf/2304.03442.pdf

arxiv.org/pdf/2304.03442.pdf

这篇文章很有名了,构建了一个虚拟环境通过gpt来实现agent的交互。并且Agent加了Memory。并且加了Reflection来进一步提取memory的关键信息。现在看的话,ChatGPT已支持16k,32k,甚至Claude 100k的context长度,memory直接输入应该也可以,效果或许更好。


- Voyager

https://voyager.minedojo.org/

voyager.minedojo.org/

这篇文章把prompt-Engineering做到了极致,多层嵌套prompt构建skill library,在minecraft实现了极强的效果,b不过差一点意思的是不是基于视觉输入,如果再改用视觉训一下会更惊艳。

- Can GPT-4 Perform Neural Architecture Search?

用GPT-4做NAS,一个字,绝!

- Controllable Text-to-Image Generation with GPT-4

用GPT-4结合Stable Diffusion做问生图,这里的关键是sketch image是GPT-4自己画的,还是绝!

- NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Model

用GPT做导航,这个算比较直接的用法吧。


- SPRING:GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning

这篇文章更绝了,用GPT-4分析文章,然后提出做法,然后效果超过RL算法,

还有很多paper都很有意思,限于时间和篇幅,就不进一步列举,还是Arxiv看起来!

4 GPT蒸馏派

- Alpaca

LLAMA出来之后第一个震撼的工作打开了GPT蒸馏实现自有大模型的大门。

- Vicuna

Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org

lmsys.org/blog/2023-03-30-vicuna/

Vicuna更进一步,用ShareGPT(用户分享的与ChatGPT的交互数据)训练LLAMA,得到了惊人的效果,开源模型进入到了比拼ChatGPT的Hype当中。

- Instruction Tuning with GPT-4

这篇文章则开始把GPT-4的数据拿来训,效果也不错

- Visual Instruction Tuning (LLAVA)

https://llava-vl.github.io/

llava-vl.github.io/

很快LLAVA还有Mini-GPT4横空出世,GPT-4的多模态能力开源模型也能做出类似效果。

思路非常的直接,就是把图片通过vision encoder接一个projection也就是mlp网络转化为llm可以接受的embedding和文字token的embedding一起输入做finetuning,神奇的事情就出现了,竟然很快就能学出效果。

- Mini-GPT4

https://minigpt-4.github.io/

minigpt-4.github.io/

几乎一样的设计,只是采用的backbone不同

- OpenFlamingo

https://laion.ai/blog/open-flamingo/

laion.ai/blog/open-flamingo/

- Otter

https://otter-ntu.github.io/

otter-ntu.github.io/

Otter基于OpenFlamingo,然后加大了用ChatGPT生成数据的计量,从而得到了更好的效果。


- WizardLM

https://github.com/nlpxucan/WizardLM

github.com/nlpxucan/WizardLM

WizardLM通过Evol-Instruct的方法来从chatgpt中生成更多样的数据,从而SFT之后的效果爆炸,更加接近chatgpt了。

Evol-Instruct


- Stable Alignment

https://github.com/agi-templar/Stable-Alignment

github.com/agi-templar/Stable-Alignment

这个工作不仅收集好的ChatGPT数据,还收集ChatGPT反馈信息,通过对比学习(类似RL)的方式来训练开源模型。

- Orca: Progressive Learning from Complex Explanation Traces of GPT-4

用GPT3.5,GPT4生成一堆各种各样的CoT,然后SFT,效果也爆炸。但要注意,这里搞了5M的GPT数据。

- Textbooks are all you need

Textbooks Are All You Need

arxiv.org/abs/2306.11644


这个工作很神奇,仅1.3B的参数,却在Humaneval和MBPP取得的了顶级的成绩。核心方法是用ChatGPT来生成教材和练习题。当然,Phi-1并不是很通用的模型,但是这给垂类模型的训练提供了重要启发:好的数据太重要了。



4 小结

看了上面的研究,乐观的看我们看到了各种围绕GPT的创意,悲观的看我们还看不到太多去探索达到GPT-4的方法论研究,当然要复现GPT-4更适合有资源的公司而不是学术机构。总的来说,研究发生了巨大变化,值得大家去拥抱。


我要发帖
百科知识
2021-05-11 23:49:38加入圈子
  • 68

    条内容
提供人工智能的一些知识分享,涉及AI算法、应用、数据、模型等内容