首页 > 要闻 > 正文

专访天壤创始人、CEO薛贵荣：别把大模型神话，要给它思考时间

每日经济新闻

2023年09月27日 23:24

◎天壤创始人、CEO薛贵荣表示：别把大模型神话，最好把它分拆下来，分成10步走，它就会非常好。通过这一轮大模型的输出，变成下一轮的输入，变成下一轮提示词的一部分，你能拿到更好的结果。

每经记者朱成祥每经编辑张海妮

近日，天壤创始人、CEO薛贵荣在位于上海徐汇滨江的天壤总部接受了《每日经济新闻》记者的专访。

天壤创立于2016年，几年间，从AI围棋到用AI分析蛋白质结构，乃至设计蛋白质，天壤一直紧跟AI发展的潮流。进入大模型时代，在2023世界人工智能大会上，天壤也连发三款大模型产品。

如何使如今QA（一问一答）形式的大模型更容易使用呢？薛贵荣表示：“要把它（大模型）变成一个企业可用的东西，还需要加一层所谓的操作系统。目前大语言模型能跟人对话，已经很好了。但真正商用，还缺一层操作系统。”

图片来源：每经记者刘雪梅摄（资料图）

通用人工智能的起点

很多人第一次被AI震撼，是来自于其在围棋领域的表现。

尧造围棋，以教子丹朱。自围棋发明以来，在这纵横19路的棋盘上，上演了许多可歌可泣的故事。但这些故事，都是发生在人与人之间。

直到2016年3月，谷歌旗下DeepMind公司研发的“AlphaGo”与曾经的一代王者李世石激战5盘，最终以4:1获胜。人工智能第一次在围棋项目上，战胜了人类顶尖职业棋手。

这鼓舞了无数AI人。“当时大家都在想，是不是逼近了通用人工智能（AGI）。”薛贵荣回忆。

但很快，薛贵荣就发现AlphaGo这类模型的局限性，“那时我们做了一段时间，发现它的领域还是相对有限，是非常特定领域的小问题。相对于通用人工智能，还是比较小众。”

因此，薛贵荣认为，这个东西（AlphaGo）可能是通用人工智能的起点。从算法角度，叫深度学习+强化学习。“我觉得这两者（深度学习+强化学习）结合起来，能够适应环境的变化，算法能够作出自身的反应。”

于是，类似于AlphaGo的天壤AI围棋诞生。记者查询天壤官方微信发现，在2018年5月第一届2050大会上，天壤AI围棋击败了世界围棋冠军朴廷桓。

薛贵荣也讲述了彼时的研发难度：一方面，算法的能力还比较有限，类似Transformer这样的架构还未出现；其次算力水平也比较低，当时天壤买了很多V100；此外还有系统难题，分布式超大模型的训练还没有搞定。

对于系统难题，其详细解释道：“直白一点，现在就是给你100块卡，让你去训练一个大的模型，你都算不出来。因为那时（指2017年、2018年）网络、训练体系都偏向于（用）一台机器处理。这里面我们碰到非常多的系统问题，比如模型需要来回不断传输，怎么把模型从这台机器搬到另一台机器。”

在算力有限、算法水平有限以及面临众多系统问题的背景下，天壤依然突破了AI围棋模型。但这个过程也让薛贵荣团队认识到，通用人工智能可能真的要等一等。

“2018年，我们那时的结论是，得稍微等一等，这个技术没有那么成熟，推动会很费力。”

这时，DeepMind推出了蛋白质预测模型AlphaFold。于是，天壤把方向转向蛋白质结构分析。

现阶段：别把大模型神话

在研究分析蛋白质结构的同时，天壤也紧盯着AI发展潮流。薛贵荣说道：“我们一直Follow（跟随）两家实验室，DeepMind和OpenAI。因为这两家实验室的理念是一致的，即走向AGI（通用人工智能）。DeepMind是AI for Science，更偏研究性；而OpenAI更偏向工程化。”

2022年初，薛贵荣认为其蛋白质分析已经基本成型。在此背景下，天壤希望迎接全新的挑战。于是，在研究了OpenAI的GPT后，把关注点投向大语言模型。

关于大模型，薛贵荣给出了他的见解。未来，大模型或许能通过提示词直接生成文章。但是目前，有人写了1000字的提示词，仍然无法控制文章生成自己想要的方向。

对此，薛贵荣表示：“这种应用还是比较朴素的。我说的朴素是指，只是写了提示词，一下子（让大模型）把文章搞出来。人做事都不是这样子的。人类要是写文章，首先是查询资料；其次是资料整合；第三开始写；第四修改。目前大模型没有这方面（的）能力。”

薛贵荣也给出了他的解决方案：“首先帮你查资料；第二帮你整理资料；第三是拟文章的脉络；第四把内容放进来，再去适当润色；第五再检查。”

其强调称：“大语言模型的两大准则，第一要尽可能清晰明了，不要带很多假设让它做事。你如果想假设，就把假设写进去。第二，要给大模型时间思考。如果希望大模型一次性出结果，就没有给它提供足够的思考时间。”

薛贵荣进一步表示：“大家别把大模型神话，最好把它分拆下来，分成10步走，它就会非常好。”

简而言之，通过大模型撰写稿件，不要追求一步到位。

薛贵荣表示：“我们现在碰到企业，很多都希望一步到位。这是大家的理想。实际上，把问题分拆，会拿到更好的结果。比如说，1000多字的提示词，这么长的提示词本身就存在逻辑不自洽的东西。你写（提示词）的时候没有感觉，但是从模型的角度一定会发现逻辑不自洽的东西。”

那么，是否可以通过连续提问，强化大模型对上下文的理解呢？对此，薛贵荣表示认可，并介绍了另一种方案。“通过这一轮大模型的输出，变成下一轮的输入，变成下一轮提示词的一部分，你能拿到更好的结果。”

走向通用人工智能

对于如果使用大模型撰稿，薛贵荣认为应分三步走。第一步，先做Planning（规划过程）；第二步梳理文章提纲；第三步，往里填充内容。但大部分都是机器完成，不是由作者完成，作者只是Planning。

薛贵荣笑称：“其实我们人类，做很多事情是有Planning的，但当我们把问题给到GPT上，就变成一个QA。QA和Planning是两回事，QA能解决一个Planning的事吗？本来思维就是很复杂的事，你不能通过一个QA（解决问题），应该变成10次，甚至更多。”

记者想通过大模型解决写文章的问题，企业同样希望通过大模型获得价值。“我觉得本质问题就是（大模型）对我们的价值。大模型一定要有用，而且要有核心的价值。”薛贵荣总结道。

但目前的大模型，仍然缺乏落地的应用。薛贵荣描述道：“今年ChatGPT确实提供了（AI）大脑。但只有一个脑，那是个植物人。今天的大语言模型，我觉得一定程度上，还得配上手和脚，还得有个躯干。目前大模型没有躯干，没有手、没有脚。”

责编张海妮

原标题：专访天壤创始人、CEO薛贵荣：别把大模型神话，要给它思考的时间

每经头条

海南封关政策红利全解析：零关税、低个税、投资准入放宽、跨境资金自由、创业扶持……

中标企业频频弃标大型医疗设备采购有何难言之隐？

实施城乡居民增收计划、降准降息等工具灵活高效运用、增加普通高中学位……深度解读中央经济工作会议

专访管涛：美国政府经济贸易政策正逐渐动摇美元本位国际货币体系，利多因素下人民币汇率有可能破7

每经热评

专题精选

专题丨澳大利亚海滩枪击事件嫌疑人受到59项指控