生成式肌肉刺激:通过多模态AI约束具身知识为用户提供物理辅助
最佳论文articleCHI '26
作者
YH
芝加哥大学
RN
芝加哥大学
PJ
芝加哥大学
SH
芝加哥大学
BF
芝加哥大学
ST
芝加哥大学
RS
芝加哥大学
PL
芝加哥大学
电肌肉刺激(EMS)控制生成式AI(文本、图像、音乐、视频)大语言模型(LLM)的人机协作AI 辅助决策与自动化系统AI/ML 研究员与工程师物理治疗师与康复治疗师辅助技术专家
文献标题
Generative Muscle Stimulation: Providing Users with Physical Assistance by Constraining Multimodal-AI with Embodied Knowledge
出版信息
- 主题领域: 使用多模态人工智能(AI)的电肌肉刺激(EMS)技术进行身体辅助。
- 关键词: 电肌肉刺激,程序性知识,多模态AI,具身AI,身体辅助,关节限制,用户研究,情境感知系统,触觉反馈,交互系统。
背景与问题
- 问题/挑战: 现有基于EMS的系统高度专业化,提供固定且非情境化的指令,无法适应新任务或用户情境。
- 意义: 一个更通用的EMS系统可以实现更广泛的应用,帮助用户完成不熟悉的身体任务,而无需任务特定的编程。
- 动机与相关工作: 之前的EMS系统研究(如 Affordance++)展示了任务特定的辅助功能,但缺乏灵活性和情境感知能力。多模态AI和视觉-语言模型(VLMs)在情境推理方面表现出潜力,但由于生物力学限制以及对精确肌肉刺激的需求,它们无法直接应用于EMS。
解决方案
- 提出的方法: 一个生成式EMS系统,结合多模态AI(如计算机视觉、大型语言模型)和具身知识(如关节限制、运动学),生成情境感知的肌肉刺激指令。
- 创新点:
- 引入了一个能够实时生成任务特定指令的通用EMS系统。
- 将多模态AI与EMS特定的约束相结合,确保生物力学上的可行性。
- 通过用户研究展示了系统错误恢复能力和用户适应性。
- 开源了系统和数据集,以加速EMS辅助研究。
- 流程与关键技术:
- 收集用户输入:语音请求、第一视角图像和身体姿态数据。
- 使用多模态AI生成文本任务指令。
- 将文本指令翻译为基于身体姿态和EMS约束的运动指令。
- 使用生物力学知识(如关节限制、运动链)约束生成的指令。
- 向用户提供基于EMS的身体辅助。
结果
- 具体发现:
- 技术评估显示系统在加权平均编辑距离(15.4)和未加权编辑距离(10)方面优于消融版本和简单的VLM基线。
- 用户研究表明任务成功率达到92%,参与者在28%的试验中无需重新提示即可从错误中恢复,在65%的试验中通过重新提示恢复。
- 参与者对EMS指令的理解评分平均为5.8/7。
- 相较基线的优势:
- 在生成生物力学有效且情境适宜的EMS指令方面优于消融版本和简单的VLM。
- 在无需预编程指令的情况下,表现出对不熟悉任务的辅助灵活性。
- 实验/评估:
- 消融研究:对比完整系统、消融版本和简单的VLM,在12个任务中使用修改后的Levenshtein距离指标进行评估。
- 用户研究:观察参与者对正确和故意错误的EMS指令在六个任务中的反应。
- 任务包括打开倾转窗、使用一次性相机和操作磁性扫帚。
- 局限性与未来工作:
- 由于依赖云端LLM,系统延迟较高(约23.6秒)。
- 示例范围有限以及EMS的实际操作问题(如电极放置、校准)。
- 未来工作包括改进AI推理能力、EMS硬件,以及探索多模态组合(如视觉、音频)在技能习得中的应用。
总结
本文提出了一种新型EMS系统,通过结合多模态AI和生物力学知识生成情境感知的肌肉刺激指令。该系统在技术评估中表现出色,在用户研究中展示了对不熟悉任务的辅助灵活性,并能帮助用户从错误中恢复。尽管当前存在延迟和EMS实际操作的局限性,该方法为通用EMS系统和具身AI在身体辅助领域的进步奠定了基础。