由中国人工智能学会、杭州市人民政府主办,杭州市委人才办、杭州市科技局、杭州市余杭区人民政府承办,浙江杭州未来科技城(海创园)管委会执行的 2022全球人工智能技术大会(gaitc 2022)于11月25-27日在杭州未来科技城举办。
2022年11月27日,在2022gaitc 27日上午《虚实融合与元宇宙专题论坛》上,青海大学校长、清华大学教授史元春在2022全球人工智能技术大会的虚实融合与元宇宙专题论坛上作“受限场景的智能人机交互”的主题报告,从受限场景人机交互、建模人的交互能力、多模态动作交互意图推理、基于语义的交互路径优化等四个方面展开讲解,着重介绍了当前受限场景的人机交互所面临的挑战,并提出要发展自然高效的多模态融合智能人机交互。
图一 报告主题——受限场景的智能人机交互
图二 报告提纲
报告开始,史元春教授介绍了第一部分内容,即何为受限场景,目前的人机交互技术存在哪些受限的情况,以目前美军使用的ivas的人机交互设备作为例子提出了其中的不足指出。如:头动交互的运动幅度过大,眼动交互过于占用注意力,手势交互学习成本高,语音交互唤醒慢等。
图三 目前人机交互的不足
紧接着,史教授提出为了解决目前所面临的挑战,应该发展自然高校的多模态融合智能人机交互。为此史教授受限介绍了如何建模人的交互能力,向我们介绍了natural user interface(nui)技术,此技术旨在让用户的注意力完全集中在所要从事的活动上,忘记界面本身的存在,这是更为自然的人机交互方式。
图四 natural user interface(nui)技术
随后又介绍了nui所遵循的原理,即用户信息处理模型,并基于此模型指出应该设计减少视觉注意力的动作交互方法,如弱视觉反馈分手键盘、微细动作、自体动作等交互方法。
图五 用户信息处理模型
基于建模人的交互能力的基础上,史教授紧接着深入探讨了报告的第三部分内容,即多模态动作交互意图推理。史教授指出进行多模态动作交互意图推理的目的如何在用户提供不完备、不充分、模糊的自然行为数据时进行交互意图推理,使得人机交互更为自然高效。此外,史教授还指出这种多模态动作交互意图推理可以通过捕捉用户的耳势、咬牙、表情、注视、头动、身体动作、脚步动作来实现,它是一种无需视觉注意力、隐蔽式、微动作的精准交互。
图六 无需视觉注意力、隐蔽式、微动作的精准交互
为了更加具体的讲解此交互方式,史教授基于以上所提的交互原则进一步介绍了“空中打字”、“手上盲打”、“手/戒指触碰手势”、“双指环微动作精准输入”等已经实现的技术。
图七 空中打字
“空中打字”利用vr和计算机视觉的技术实现,通过计算机视觉捕捉受试者的打字动作并识别,然后不用实体键盘,反馈到虚拟环境中,输出受试者所想输入的字母。
图八 手上盲打
“手上盲打”中受试者所使用的手机是黑屏的,实际打字的界面被现实在虚拟现实中,手指在手机屏幕的位置也会被捕捉并相应的映射到虚拟现实环境,在这种条件下实现高精度的打字任务。
图九 手/戒指触碰手势
图十 双指环微动作精准输入
“手/戒指触碰手势”和“双指环微动作精准输入”都是通过带有传感器的指环来捕捉受试者的微动作,双指环相对于单指环能大幅提高准确率,相对于前面的两者打字操作,通过指环识别手势不需要深度相机,且进一步降低需求的视觉注意力。
紧接着,史教授介绍了本次报告的最后一部分内容,提取交互语义、优化交互路径。此部分内容旨在利用计算机视觉和自然语言处理等ai技术简化人机交互的路径,使我们使用自然模糊的表达就可以直接到达我们的指令目的,如当我们使用某共享单车app时,通过识别一句话包含车牌号的话,就可以自动开锁指定的共享单车,无需额外的手动的app界面操作,简化app的使用路径。
图十一 优化交互路径,语音租借单车
在报告的最后,史教授为我们介绍了她目前担任校长的青海大学,并且感谢在“组团式”对口支援中支援青海大学的各个国内大学,并且也欢迎我们能到青海和青海大学去旅游参观。
图十二 感谢各高校对青海大学的支援
史元春,清华大学计算机科学与技术系教授,长江学者。她在清华大学获得了博士学位、硕士和学士学位,并于1993年加入清华大学。她在人机交互、普适计算、多媒体等领域的研究成果多次获得学术奖项,包括两项国家科技进步奖,以及chi、mobilehci等国际会议的多项最佳论文奖、最佳论文提名奖。近年来,史元春教授在人机交互领域的贡献包括用户行为建模、手机智能交互技术、大屏幕显示与交互装置、vr/ar头盔交互等。她发表了100多篇人机交互领域cs排名为顶级会议和学术期刊的论文,近5年的论文包括30余篇chi、uist、ubicomp、tochi和ijhcs论文。
撰稿人:冯达钦,聂云涛