μCap:面向听障人士的器乐音乐字幕系统
最佳论文articleCHI '26
作者
SA
光州科学技术院
IB
光州科学技术院
KK
光州科学技术院
KN
多伦多大学
JH
光州科学技术院
听觉障碍者支持(字幕、手语、振动)音频无障碍(字幕、手语、振动)语言治疗师与听觉学家
文献标题
µCap: Instrumental Music Captions for Deaf and Hard-of-Hearing Individuals
出版信息
- 主题领域:通过自动字幕提高器乐音乐的无障碍性。
- 关键词:器乐音乐,字幕,聋人和听力障碍者(DHH),无障碍性,检索增强生成(RAG),语音转录,音乐可视化,人机交互(HCI),音频转文本,音乐无障碍。
背景与问题
- 问题/挑战:由于缺乏有效的字幕系统,器乐音乐对聋人和听力障碍者(DHH)来说仍然难以接触。目前的音乐字幕方法主要关注歌词或模糊的描述,导致器乐音乐未被标注或仅被最低限度地表示。
- 重要性:使器乐音乐变得无障碍可以增强DHH观众的文化参与感和情感联系,从而解决媒体无障碍性中的一个重要缺口。
- 动机与相关研究:先前的研究探索了可视化(如振动、图形显示)和针对语音的情感字幕,但未解决表示器乐音乐的独特挑战。现有系统缺乏生成与音乐流动相符的非语义、声音模仿字幕的能力。
解决方案
- 提出的方法:µCap(音乐字幕),一个自动化系统,用于生成基于语音特征的、时间同步的器乐音乐文本字幕,并结合视觉表示。
- 创新点:
- 基于音频特征和语言学见解,提出了用于器乐音乐的语音字幕方案。
- 集成了检索增强生成(RAG),利用精心策划的音乐-文本对数据集提高字幕质量。
- 开发了专家指导的准则,用于将音乐特征映射到文本表示。
- 通过实证验证系统对DHH参与者音乐欣赏和沉浸感的影响。
- 流程与关键技术:
- 音频特征提取(如音高、音量、起音强度)。
- 使用深度学习模型进行乐器分类。
- 从向量数据库中检索相关注释。
- 通过GPT-4o生成字幕,并由专家推导的启发式规则指导。
- 使用动态文本属性(如音量对应字体大小,音高对应基线偏移)可视化字幕。
结果
- 具体发现:
- 在用户评估1中,µCap提高了20名DHH参与者中18人的音乐欣赏度,其中15人报告沉浸感和理解力有所改善。
- 在用户评估2中,与基线方法相比,字幕显著提高了节奏感知能力。
- 与波形可视化相比,字幕在沉浸感和理解力方面得分更高(例如,字幕的平均值M=5.43,波形的平均值M=4.19,7分制)。
- 相较基线的优势:
- µCap在生成更直观和上下文相关的字幕方面优于启发式和更简单的自动化方法(如µCap-zero,µCap-mini)。
- 虽然手动字幕仍然排名最高,但µCap相较其他自动化方法显示出显著的改进。
- 实验/评估:
- 对DHH参与者进行了两次用户评估(n=20和n=15),并对听力正常参与者进行了补充评估(n=5)。
- 评估指标包括字幕质量排名、沉浸感和理解力的李克特量表评分,以及定性反馈。
- 数据集包括3060个跨越古典和爵士等流派的注释音频片段。
- 局限性与未来工作:
- 当前实现仅限于韩语;未来工作应探索多语言扩展。
- 由于过于字面化的语音转录,字幕有时显得不够自然。
- 系统评估仅限于古典音乐;需要覆盖更广泛的音乐流派。
- 进一步优化RAG和扩展数据集可能提高字幕质量和自然性。
总结
µCap是一个旨在通过生成基于语音特征的、时间同步的字幕并结合视觉特征,使器乐音乐对DHH个体变得无障碍的自动化系统。该系统利用检索增强生成(RAG)和专家指导的准则生成直观且富有表现力的字幕。用户评估表明,µCap增强了DHH观众的音乐欣赏、沉浸感和节奏感知能力,尽管手动字幕仍是金标准。未来工作将集中于多语言支持、更广泛的流派覆盖以及提高字幕的自然性。本研究代表了朝着DHH个体包容性文化参与迈出的重要一步。