«

超越一对一:动态人机群体对话的创作、模拟与测试

qimuai 发布于 阅读:2 一手编译


超越一对一:动态人机群体对话的创作、模拟与测试

内容来源:https://research.google/blog/beyond-one-on-one-authoring-simulating-and-testing-dynamic-human-ai-group-conversations/

内容总结:

谷歌研发对话模拟平台DialogLab 推动人机群体交互进入动态仿真新阶段

2026年2月10日,谷歌XR部门的研究人员发布了一项名为DialogLab的创新性开源框架。该平台旨在突破当前人工智能对话系统通常仅限于“一对一”交互的局限,为设计、模拟和测试动态化、多角色的人机群体对话提供专业工具。

在现实场景中,如团队会议、课堂讨论或家庭聚会,对话往往涉及多方参与者、动态角色转换与即兴互动,复杂度远高于简单问答。为填补传统脚本对话的僵化与纯生成模型不可预测性之间的空白,DialogLab应运而生。该平台在ACM UIST 2025上亮相,其核心是提供了一个统一界面,允许开发者灵活配置对话场景、定义智能体角色、管理群组结构、设定发言规则,并能在预设脚本与自由即兴对话之间无缝编排过渡。

DialogLab的创新架构将对话的“社交结构”(参与者、角色、子群组关系)与“时序流程”分离,通过“创作-测试-验证”的三阶段可视化工作流支持快速迭代。用户可通过拖放式界面构建场景,细致调整角色属性与互动模式,并在测试中通过“人工控制”模式实时编辑或引导AI的发言,实现自动化生成与人工精细调控的平衡。平台内置的验证分析面板能直观展示对话中的发言权分布与情感流向,帮助开发者高效评估交互效果。

一项针对14名来自游戏设计、教育及社会科学领域用户的评估显示,参与者普遍认为DialogLab操作直观、控制灵活,能有效模拟真实群体对话。尤其在“人工控制”模式下,用户可主动引导话题转向、激发新观点或插入情感回应,该模式在沉浸感、效果及真实性上均获得更高评价。

研究团队展望,DialogLab在教育培训(如公开演讲练习、面试模拟)、游戏叙事(创建更自然的非玩家角色互动)及社会科学研究(模拟群体动力学实验)等领域具有广泛应用潜力。未来,该框架有望整合更丰富的多模态行为(如非语言手势、面部表情),并借助逼真虚拟形象与3D环境,在扩展现实(XR)场景中打造更为沉浸的仿真对话体验。

此项研究由谷歌博士生奖学金部分资助,标志着人机群体对话动态系统的研发迈出了重要一步,为未来构建更自然、复杂且可控的人机协同交互开启了新的可能性。

中文翻译:

超越一对一:动态人机群体对话的创作、模拟与测试
2026年2月10日
胡尔真(学生研究员)与杜若飞(谷歌XR交互感知与图形团队负责人)

DialogLab是一款研究原型工具,它通过统一界面帮助用户配置对话场景、定义智能体角色、管理群组结构、设定发言规则,并协调脚本叙事与即兴互动之间的转换。

快速链接

对话式人工智能已从根本上重塑了我们与技术的互动方式。尽管基于大语言模型的一对一交互已取得显著进展,却鲜少能完整复现人类沟通的复杂性。现实中的许多对话——无论是团队会议、家庭聚餐还是课堂讨论——本质上是多方参与的。这类互动涉及灵活的发言轮转、动态的角色转换以及即兴的交流打断。

对设计师和开发者而言,模拟自然流畅的多方对话历来需要权衡取舍:要么接受脚本化互动的刻板性,要么承受纯生成式模型的不可控性。为弥合这一鸿沟,我们需要能够融合脚本结构可预测性与人类对话自发即兴特质的工具。

为此,我们推出在ACM UIST 2025大会上展示的DialogLab——一个用于创作、模拟与测试动态人机群体对话的开源原型框架。该工具通过统一界面管理多方对话的复杂性,涵盖从定义智能体角色到协调复杂发言动态的全流程。通过将实时即兴互动与结构化脚本相结合,开发者可利用该框架测试各类对话场景,无论是结构化的问答环节,还是自由流动的创意头脑风暴。我们邀请14位终端用户及领域专家进行评估,验证了DialogLab能够有效支持高效迭代,并为培训与研究提供真实、可适配的多方对话设计方案。

动态对话框架
DialogLab将对话的社会结构(如参与者、角色、子群组和关系)与其时间演进过程解耦。这种分离使创作者能通过精简的三阶段工作流(创作、测试、验证)构建复杂动态。

该框架核心从两个维度定义对话:

动态对话的“创作-测试-验证”工作流
DialogLab通过为快速迭代设计的可视化界面,引导创作者遵循结构化工作流:

原型评估
我们邀请来自游戏设计、教育及社会科学研究领域的14位参与者评估DialogLab。参与者需完成两项任务:设计一场学术社交活动,并在三种模式下测试与AI的群体讨论:

参与者通过李克特五分量表对各模式评分。结果显示,人工控制模式在互动吸引力、模拟效果及真实感方面均显著优于其他模式。

用户反馈进一步凸显了系统在自动化与控制力间的平衡能力:

未来展望
DialogLab不仅是一个研究原型,更是迈向更丰富、更细腻人机协作未来的一步。其应用前景广阔:

展望未来,我们计划在框架中融入更丰富的多模态行为(如非语言手势与面部表情),并探索在开源XR Blocks框架中结合照片级虚拟形象与三维环境(如ChatDirector),以创造更具沉浸感的仿真体验。我们期待这项研究能持续激发人机群体对话动态这一新兴领域的创新活力。

观看DialogLab演示视频以了解更多信息。

致谢
项目核心贡献者包括胡尔真、陈彦合、李明怡、Vrushank Phadnis、徐平梅、钱迅、Alex Olwal、David Kim、Seongkook Heo与杜若飞。特别感谢Adarsh Kowdle对论文与博客文章的反馈与协助。本项目部分由谷歌博士生奖学金资助。

英文来源:

Beyond one-on-one: Authoring, simulating, and testing dynamic human-AI group conversations
February 10, 2026
Erzhen Hu, Student Researcher, and Ruofei Du, Interactive Perception & Graphics Lead, Google XR
DialogLab is a research prototype that provides a unified interface to configure conversational scenes, define agent personas, manage group structures, specify turn-taking rules, and orchestrate transitions between scripted narratives and improvisation.
Quick links
Conversational AI has fundamentally reshaped how we interact with technology. While one-on-one interactions with large language models (LLMs) have seen significant advances, they rarely capture the full complexity of human communication. Many real-world dialogues, including team meetings, family dinners, or classroom lessons, are inherently multi-party. These interactions involve fluid turn-taking, shifting roles, and dynamic interruptions.
For designers and developers, simulating natural and engaging multi-party conversations has historically required a trade-off: settle for the rigidity of scripted interaction or accept the unpredictability of purely generative models. To bridge this gap, we need tools that blend the structural predictability of a script with the spontaneous, improvisational nature of human conversation.
To address this need, we introduce DialogLab, presented at ACM UIST 2025, an open-source prototyping framework designed to author, simulate, and test dynamic human-AI group conversations. DialogLab provides a unified interface to manage multi-party dialogue complexity, handling everything from defining agent personas to orchestrating complex turn-taking dynamics. Through integrating real-time improvisation with structured scripting, this framework enables developers to test conversations ranging from a structured Q&A session to a free-flowing creative brainstorm. Our evaluations with 14 end users or domain experts validate that DialogLab supports efficient iteration and realistic, adaptable multi-party design for training and research.
A framework for dynamic conversation
DialogLab decouples a conversation’s social setup — such as participants, roles, subgroups, and relationships — from its temporal progression. This separation enables creators to author complex dynamics via a streamlined three-stage workflow: author, test, verify.
At its core, the DialogLab framework defines conversations along two dimensions:

谷歌研究进展

文章目录


    扫描二维码,在手机上阅读