2021年5月12日,francis r. willett等人在《自然》上发表题为“high-performance brain-to-text communication via handwriting”的论文,文章主要围绕帮助四肢瘫痪患者进行“意念打字”展开研究。
这可不是科幻,最新的脑机接口(bci)技术已经在这一方面实现突破,而且效率超乎想象,最高可超 99%。
此前,脑机接口领域的一大研究焦点是恢复患者 “运动技能”,比如通过脑机接口操控机械臂抓取物品,或通过脑机接口移动电脑光标、点击字母输入等。
这次,来自斯坦福大学的研究人员开辟了一条新路径,他们将人工智能(ai)软件与脑机接口设备结合,成功开发出一套全新的皮质内脑机接口系统,该系统利用大脑运动皮层的神经活动可解码 “手写” 笔迹,并使用递归神经网络(rnn)解码方法将笔迹实时翻译成文本,快速将患者对手写的想法转换为电脑屏幕上的文本。
图1|通过脑机接口 “手写输入” 的示意图
研究论文以封面形式发表在最新一期的《自然》杂志上,被视为是该领域的一大技术进步。
图2|《nature》杂志封面(来源:nature)
该研究论文的作者之一、斯坦福大学霍华德 休斯医学研究所(hhmi)研究员克里希纳· 谢诺伊(krishna shenoy)表示,此次研究的最大的创新是首次破译了与手写笔记有关的大脑信号,可以让瘫痪患者不用手也能快速打字。他与斯坦福神经外科医生杰米·亨德森(jaimie henderson)共同参与了这项研究,论文的第一作者则是同样来自 hhmi 的科学家弗兰克·威利特(francis willett)博士。
在实验中,一名受试者可以每分钟输入 90 个字符,这是此前使用脑机接口打字纪录的两倍多,接近同龄健全人每分钟 115 个字符的智能手机打字速度,而且在线原始准确率为 94.1%,离线自动校正的准确率超过 99%。
加州大学伯克利分校的神经工程师何塞卡梅纳(jose carmena)并未参与这项研究,但他认为,这项技术有潜力帮助各种残疾人,尽管研究结果是初步的,但 “这是该领域的一大进步。”
美国国立卫生研究院脑科学计划(nih brain initiative)主任约翰·恩盖(john ngai)博士表示:“这项研究代表了bci和机器学习技术发展的重要里程碑,相关研究正在揭示人脑如何控制像通讯这样复杂的过程,为改善神经损伤和瘫痪者的生活提供了重要基础。”
1、脑中笔记的神经表征
事实上,这项研究其实是脑机接口项目 braingate 临床试验的一部分,这是一个多机构联盟项目,旨在帮助那些失去肢体或其他身体功能控制能力的人,比如患有肌萎缩性侧索硬化症(als)或脊髓损伤的患者等。实验中被称为 “t5” 的受试者,在 2007 年由于脊髓损伤几乎失去了颈部以下的所有活动能力,手部动作仅限于抽搐和微动。
在实验中,亨德森在 t5 的左侧大脑植入了两个脑机接口芯片,每一个芯片都有 100 个电极,负责接收运动皮层(大脑最外层的一个区域)神经元发出的信号,运动皮层是控制手部运动的区域,这些神经信号通过电线发送到计算机,由人工智能算法解码信号并推测 t5 的手和手指的预期运动。
与真实可见的手写笔迹相比,要 “读取” 想象中的笔迹最难的一点是什么?无疑,是如何捕捉这些笔迹在大脑中的神经表征,以及这些表征能不能用。
为了评估手写的神经表征,受试者 t5 需要按照电脑屏幕给出的指令,一次 “手写” 一个字符,每个字母重复 27 次试验。
图3|受试者的 “手写” 笔迹
根据以往的经验,研究人员首先使用主成分分析来显示包含最多方差的前三个神经维度特征。
研究人员发现,由于神经活动的高峰和低谷因时间有所不同,可能由于书写速度的波动,神经活动似乎是强烈和可重复的。为了直观地观察笔迹尝试过程中记录的神经活动,他们使用时间比对技术来消除时间变异性,这揭示了每个字符特有的显著一致的神经活动模式。
为了确定神经活动是否编码绘制了每个形状所需的笔尖运动,研究人员通过从试验平均神经活动中线性解码笔尖速度来重建每个字符,容易辨认的字母形状证实了笔尖速度是可靠编码的,代表笔尖速度的神经维度占总神经方差的 30%。
图4|笔迹的神经表征(来源:nature)
其次,研究人员采用非线性降维方法(t-sne),对每个试验的神经活动进行二维(2d)可视化,在对受试者给出 “go” 的提示后记录相关信息。
t-sne 方法显示了每个字符的神经活动紧密簇和一种主导运动编码,在这种编码中,书写相似的字符更接近,将近邻分类器离线应用到神经活动中,可以对字符进行分类,准确率为 94.1%。
于是,研究人员得出结论,即使在瘫痪多年后,运动皮层中笔迹的神经表征可能仍足够强大,可以通过脑机接口技术表达出来。
2、能不能解码“手写句子”?
成功解码手写字母的最终目标,是让瘫痪患者实现流畅的对外交流能力,这需要实时解码 “意念” 手写笔迹,并完整呈现出他们想要表达的信息。
为此,研究人员特意训练了一个递归神经网络,将神经活动转化为描述每个字符在每个时刻被写入的可能性概率,这些概率可以用一种简单的方法来设定阈值,从而发出离散字符,或者通过使用一个大词汇量语言模型进行更广泛的处理,以模拟离线应用的自校正特征。
研究人员在实验中使用了 31 个字符的限定集,包括字母表中的 26 个小写字母,以及逗号、顿号、问号、句号和空格,为了收集实验中递归神经网络的训练数据,他们需要记录 t5 按照电脑显示器上的指示,以自己的速度手写完整句子时的神经活动。
在第一天的实时评估之前,研究人员收集了 3 个试验日内总共 242 句话,这些句子被组合起来训练递归神经网络。在随后每一天的实时测试中收集额外的训练数据,并在评估前重新校准,至最后一天总共产生了 572 个训练句子(包括 31472 个字符)。
为了训练这个递归神经网络,研究人员采用了语音识别中的神经网络方法来克服两个关键挑战:
(1)训练数据中每个字母的书写时间未知(因为 t5 的手瘫痪),这使得应用监督学习技术具有挑战性;
(2)与典型的 rnn 数据集相比,数据集的大小有限,因此很难防止对训练数据的过度拟合。
在这样的基础上,研究人员在 5 天的时间里对递归神经网络的表现进行评估,每天包含 4 个评估块,包含 7-10 个递归神经网络从未接受过训练的句子。受试者 t5 会从屏幕提示中复制每个句子,试图一个字母一个字母地手写,而解码的字符在递归神经网络检测到时实时出现在屏幕上。
经测试,字符出现与 t5 在大脑里 “手写” 之间会有一个短暂的延迟,大概为 0.4-0.7 秒,令人兴奋的是,整体打字速度很快,平均每分钟可打出 90 个字符,平均错误率仅为 5.4%。当研究人员使用语言模型离线进行自动更正错误时,整个系统的错误率则进一步降低了,其字符错误率下降到 0.89%,单词错误率下降到 3.4%,与世界上最先进的语音识别系统(单词错误率为4–5%)相比,展现出了极好的可用性。
最后,为了探索可能的解码性能限制,研究人员还离线训练了一个新的递归神经网络,使用所有可用的句子以非因果的方式处理整个句子。在这种情况下,仅出现了 0.17% 的字符错误率,这表明性能的潜在上限其实很高,尽管这种解码器目前无法向用户提供逐字反馈。
实验结果还证实,当受试者编写自己生成的句子(而不是复制屏幕上的提示句)时,也可以获得较高的性能,每分钟可打出 73.8 个字符,实时字符错误率为 8.54%,语言模型错误率为 2.25%。
3、解码器的改进方向
借助每天收集的 “校准” 数据,研究人员每天也对 “手写笔迹” 解码器进行再训练。
再训练有助于解释随着时间的推移而产生的神经记录变化,这可能是由神经可塑性或电极阵列微动引起的,而理想情况下,为了减轻受试者的负担,应该用最少或不需要校准数据。
图5|解码器性能变化(来源:nature)
值得注意的是,实验数据表明,当两个会话之间只经过 2-7 天时,在没有解码器重新训练的情况下,性能显示出了神经记录的短期稳定性。
面对这种情况,研究人员测试了解码器是否可以通过使用语言模型来纠错和重新训练解码器,从而绕过中断用户校准的需要,以无监督的方式重新训练。令人鼓舞的是,无监督再训练的原始错误率仅为 7.3%。
解码器是否能用最少的重新校准数据成功地再训练,也取决于神经活动随时间变化的速度。实验评估了与每个特征相关的神经模式的稳定性,发现短期稳定性很高(相隔 7 天或更短时间),这些结果对临床病例是有希望的,因为它们表明无监督解码器再训练,可能有助于实现高性能。
这项研究实现的每分钟输入 90 个字符,创造了迄今为止报道的相关类型脑机接口技术的最快速度,对于皮质内脑机接口来说,之前最好的方法是用 2d 电脑光标点击输入,每分钟仅可以输入 40 个正确字符,点击式脑机接口的输入速度主要受解码精度的限制,在参数优化过程中增加光标增益以提高打字速度,直到光标移动过快,由于解码错误而变得无法控制为止。
研究人员经对比分析,手写字母可能比点对点运动更容易区分,因为手写字母的神经活动时空模式比直线运动更为多样,而随时间变化的运动模式,从根本上说比点对点运动更容易解码。
4、结语
据了解,其实目前业内用于恢复患者交流能力的脑机接口有很多种方案。
此次研究人员不仅将脑机接口通信速率提升到了每分钟 90 个字符,而且该实时系统还具有通用性(用户可以表达任何句子)、易用性(完全自定节奏,眼睛可以自由移动)和足够精确的特点(94.1% 的原始准确率,在大词汇量语言模型下离线准确率大于 99%),在现实世界中非常有用。
当前的实验结果证明了高性能 “手写” 脑机接口是可能的,但它目前还不是一个完整的、临床上的商用系统,接下来还有更多工作值得探索,比如进一步提高打字性能,扩展字符集、启用文本编辑和删除等操作。
来自华盛顿大学生物工程系的专家帕维斯特拉·拉杰斯瓦兰(pavithra rajeswaran)、华盛顿大学电气和计算机工程系专家艾米·奥斯本(amy l. orsborn)在评论文章中表示,这项研究仍需要经过试验论证,将电极植入大脑的费用和风险是否合理。另外一点重要的是,打字速度并不是决定这项技术能否落地的唯一因素——这种方法的寿命和健壮性同样需要分析,是否可以推广到其他用户和实验室以外的环境中也至关重要。
目前的微电极阵列技术已被证明在植入后能保持功能超过 1000 天,而随着皮质内微电极阵列技术的成熟,也需要进一步证明其寿命、安全性和有效性,才能广泛应用于临床。
总体来讲,将脑中的 “笔迹” 转化为屏幕上的单词、句子,其技术前景和商用潜力都十分令人鼓舞,人机结合的时代正在走来。
论文完整链接:
撰稿人:黄标
审稿人:李景聪老师