邓志东：生成式人工智能正从数字领域迈向真实物理世界

11月12日，由成都市经信局市新经济委主办，雨前顾问承办的2024人工智能产业CEO大会暨人工智能赋能新型工业化供需对接活动在成都举行。

大会上，清华大学教授、人工智能研究院视觉智能研究中心主任邓志东以“AI源动力·解析产业发展新趋势”为题进行了精彩的演讲，其中特别对如何聚焦大模型应用、发展具身智能面临的挑战以及L4自动驾驶与通用人形机器人的协同演进等，阐述了自己的思考。

邓志东强调，大模型的价值在于其实际应用。大模型只有在多样化的实际应用场景中赋能智能经济与智能社会的发展，才能找到真正的产业价值，也才能成就大模型自身性能的迭代演进。在大模型与智能体的应用及落地过程中，我国在应用场景多样性、应用落地速度、数据的丰富程度以及商业模式构建上的优势，才会充分体现出来，形成可持续发展的大模型新应用、新业态、新模式，以此重建我们在AI大模型时代下的新优势。

邓志东还认为，生成式人工智能正从数字领域拓展至真实物理世界，赋能智能制造、自动驾驶、人形机器人、智能座舱、无人机、个人电脑及手机等物理系统，强力推动制造业与实体经济的发展。

以下为邓志东演讲精华版：

一、聚焦大模型应用，形成中国人工智能发展新优势

人工智能的发展路径经历了从单模态的文本大型语言模型，迭代到如今快速发展的多模态大型语言模型，再到多模态的具身智能，这里的具身是指增加了移动与操作等动作能力。最后会进一步发展到交互式的通用人工智能，增加与世界的交互。在这个发展路径中，最重要的问题是要通过大模型的实际应用来发展。

大模型的价值在于其实际应用。只有通过多样化的应用场景，赋能智能经济与智能社会的发展，才能找到大模型真正的产业价值，同时也才能成就大模型自身的迭代演进。生成式人工智能目前正在从数字空间或互联网空间走向真实的物理世界，赋能包括智能制造、自动驾驶、人形机器人、智能座舱、无人机、个人电脑、手机等在内的真实物理系统，从聊天问答等互联网空间的任务走到真实的世界里，可以助力制造业与实体经济的发展。

大模型应用有三条较为现实的实现路径。一是大模型的应用需要不断提升基座大型语言模型，特别是多模态通用大语言模型的能力上限，同时聚焦行业原生多模态大模型的发展，实现原始创新。但这需要巨头企业的长期持续投入，原因是基础与通用大模型需要超大规模的数据和算力支撑。

二是大模型的应用需要特别关注利用现有的高性能多模态通用大型语言模型进行微调。通过不断的微调和产业部署，用较小的AI算力，构建针对特定任务的专用模型，从而解决成千上万种不同类型的任务。人工智能的核心在于完成一个个从简单到复杂的具体任务。因此，我们需要选择合适的高性能多模态通用大型语言模型，并掌握各种高效的微调方法。具体而言，微调方法包括监督微调（SFT）、人类反馈强化学习（RLHF）和AI反馈强化学习（RLAI）等，也根据范式的不同，一般分为提示微调和参数微调两大类。我们需要根据不同的任务挑战性，选择合适的高效微调方法。

三是大模型的应用需要聚焦智能体新技术新范式新导向的发展。例如，通过积极的创新实践和产业落地，利用性能先进的原生多模态通用大模型，探索智能体一体化端到端的新范式，比如自动驾驶、通用人形机器人，就在不断创新实践这些新范式，也必将进一步增强制造业的竞争能力。

通过这些路径，推动人工智能赋能新型工业化，形成新应用、新业态、新优势。大模型应用既需要头部企业直接发展行业原生多模态大语言模型，形成基础能力，同时更需要众多制造企业或中小型创新企业，面向垂域或特定任务，基于现有的多模态通用大模型微调训练出专用模型，大力推动千行百业垂域专用模型的产业落地，从而通过场景应用创新与产品研发，打造国际一流的大模型应用生态，赋能智能制造与新型工业化的发展。

在大模型的应用落地过程中，我国在应用场景多样性、应用落地速度、数据的丰富程度以及商业模式构建上的优势，才会充分体现出来，形成可持续发展的大模型新应用、新业态、新模式，以此重建我们在AI大模型时代下的新优势。

从更大尺度上看，人工智能可分成弱人工智能-通用人工智能-强人工智能-超级人工智能等不同的演化阶段，目前我们正处于通用人工智能的早期阶段，全球范围的大模型应用，一切才刚刚开始！

二、挑战与机遇：赋能智能制造的具身智能体

聚焦具身智能发展面临的挑战，尤其是如何通过具身智能赋能智能制造，我想在这里分享一下我的看法。

首先是实现路径的选择。具身智能的实现路径已经从单纯的感知空间或观察空间，进一步延伸到了动作空间，尤其是感知空间与动作空间之间的相互关系和相互作用。这就涉及到从感知空间到动作空间的决策推理能力，涉及到所谓的单段式一体化具身智能体研发范式。

具体来说，通过对两大空间、三大任务的模型微调，可赋予具身智能体听、说等感知与理解能力，决策推理能力以及移动与操作能力。换句话说，首先要进行具身的理解，然后进行具身的推理，最后进行具身的动作生成。有了这三大微调模型，可以进一步生成更多的下游微调模型。显然这里的核心能力是决策或逻辑推理能力。微调的训练方法需要选择合适的技术路线，主要包括监督微调（SFT）、人类反馈强化学习（RLHF）和人工智能大模型反馈学习（RLAI）。此外，根据不同的范式，高效微调方法一般分为提示微调和参数微调两大类。提示微调既有以自然语言方式进行的，如思维链（CoT），也有在连续隐含空间基于学习方式进行的，而参数微调则对模型的全部或部分参数进行微小调整，目前研究更多更深入。

其次是物理AI面临的技术挑战。大模型在实际应用中可能会遇到一些技术难题。具身智能在完成任务时，不仅有成功率的问题，还会出现幻觉现象。这包括事实性幻觉和上下文不一致幻觉。事实性幻觉‌是指大模型生成的内容不符合常识，甚至捏造信息；上下文不一致幻觉是指大模型生成的回复或下文与用户上文的指令不一致，也就是答非所问。

对于具身智能而言，这些幻觉可能会导致时空错乱，特别是在自动驾驶和人形机器人等实际应用场景中，可能会给用户带来安全风险。目前这一领域正迎来新的发展，各种方法层出不穷。但大模型的幻觉或许只能缓解，不能说已经完全消灭了。

为了缓解幻觉问题，可以采取以下三种措施：一是提高训练数据的质量‌。在预训练和微调阶段通过数据清洗和筛选，确保数据的准确性和一致性，但制造业中高质量训练数据的采集效率，是一个较大的技术挑战。二是引入纠错机制‌。在大模型的生成过程中需要加入纠错机制，以防止错误信息的传播与积累。三是优化模型结构‌。通过不断改进模型结构，使其能够更好地处理各种复杂任务和多种输入类型‌。

最后是改变研发范式的新机遇。我们看到了具身智能体在新范式和新导向方面的一些重要机遇。第一个机遇是从视觉-（文本）语言模型（VLM）发展到视觉-语言-动作模型（VLA）。传统的VLM主要依赖视觉和文本语言，而现在的VLA不仅增添了深度视觉和语音能力，还增加了动作能力，也就是从感知空间或观察空间延伸到了动作空间。这种扩展使模型能够真正基于高级的决策推理，从而更好地赋能落地应用与产业发展。具体来说，智能体的输入端包括一帧一帧的图像和（文本）任务要求；输出端则是各种动作。例如在自动驾驶中，输入是图像帧与本体感知，而大模型与智能体可以直接生成方向盘的转角、油门的开度和刹车的制动量。这些都特别像人类的大脑跟小脑的关系，所以也称之为大脑模型与小脑模型。这里大脑皮层模型负责视觉与体感处理，拥有类似人类的视觉通路和本体感知。本体感知是指智能体对自己状态的感知，包括导航信息等。通过视觉与本体感知获取多模态信息后，智能体会在前额叶进行决策推理，然后将决策结果输入到运动皮层，运动皮层再将信号传递给小脑模型。小脑模型负责维持具身智能体的精细平衡和协调，对应于我们这里的动作空间。

第二个机遇是从多段式方法向单段式方法的转变。传统的多段式方法将感知、预测、决策、规划和控制人为地分段处理，以此构成多个闭环。然而，最新的发展范式不再采用人为分段的方式，而是采用单段式方法，就像人的大脑一样，一个大脑可以解决所有问题，最多与小脑合体，成为一个一体化的单一模型。这种最新的智能体范式被称为自动驾驶2.0，其特点是引入了基于学习的决策与规划。

三、产业发展新趋势：L4自动驾驶与通用人形机器人的协同演进

人工智能产业的发展新趋势在于通用与泛化，这是所有具身智能体追求的最高目标。“通用”意味着能够应对各种环境与任务的变化，而不是局限于固定的操作对象与某一特定任务。人是这方面的最高标杆。泛化则指跨场景、跨领域的广泛应用，能够在任何环境中适应和可靠运作。本质上这是一个什么问题呢？其实就是一个环境的适应性和自主性问题，也就是什么样的环境都可以自主适应。时空大变化之后，如何提高智能体的复杂逻辑推理能力是当前研究的重点。这里需要研究各种增强技术，如提示增强、检索增强（RAG）、知识增强和逻辑增强技术等，以提升多模态大模型与智能体的性能。

通用人形机器人与L4自动驾驶是典型的具身智能代表，二者可以相互协同演进。我们看到像Cybercab（特斯拉无人驾驶出租车）与Optimus（特斯拉人形机器人）的问世，至少表明了目前最新发展的这种单段式的或者叫单模型的端到端的自动驾驶技术在真实世界的成功实践，证明了这条路径是可以走得通的。未来能够完全进行大规模产业落地，我相信只是一个时间的问题。

首先是高级别的自动驾驶的规模化落地应用，即大模型+自动驾驶。采用彻底的端到端解决方案，基于视觉大模型VLA，通过少量编程，实现类似人类的驾驶技巧学习。其次是高级别自动驾驶的降维应用，也就是大模型+通用机器人。把大语言模型带入通用人形机器人，必将加速通用人形机器人的大发展，后者的产业化应用，也会反过来助推L4自动驾驶的技术进步。更多的人形机器人会首先走向制造业的生产线，实现无人化的自动化车间与工厂，即所谓的“黑灯工厂”，也就是可实现完全无人化生产的工厂。另外自动驾驶的大规模商业化落地，可望推动人形机器人的加速发展，催生人类-机器人共融社会的形成与演进，为未来智能生产与智能生活的发展，构建出新的无限可能。

总之，应该说我们现在的大模型应用其实做的事情就是在模仿学习。模仿人类，把人类所有写的小说、产生的图像都作为一个标杆来模仿，模仿以后进行所谓的强化学习。长上眼睛了，长上耳朵了，有了手，有了脚，就可以进入到生产与生活的实践角色之中。进入这些社会角色后，通过与环境、与其他智能体和与人类进行交互式学习，就可以催生出超强的交互式多模态智能体，就可能产生出“青出于蓝而胜于蓝”这么一个效果。基本上我们现在看人工智能的发展，这个路径就是在模仿学习的基础之上，利用深度强化学习等交互式学习方法，在虚实平行世界中实现更高效率的自主探索学习，获得接近或对齐人类智能的能力，从而实现人-机共融，赋能智能经济与智能社会的大发展。