撰文:范莹  审核:罗欢

  2023年12月15日,来自University of Maryland, College Park的Jonathan Z. Simon教授,应北京大学IDG麦戈文脑科学研究所邀请,就语音加工过程中不同特征的神经表征机制进行了精彩报告。本期学术笔记根据Jonathan Z. Simon教授题为“The Progression of Neural Speech Representations Through Auditory Cortex and Beyond, from Acoustics to Language to Semantics”的学术报告整理而成。

  一、大脑对连续语音流中结构信息的神经表征

  如图1所示,研究者给被试呈现两种类型的语音流,一种是连续四个字(word)会组成一句话(sentence),一种是连续五个符号(sym.)会组成一个等式(equation)(如“six plus two is eight”)。这两个语音流的声素频谱表明刺激材料中,只存在对其组成元素的追踪(即word和sym.),然而被试的神经活动中,却可以看到对语音流中高阶的结构信息的追踪(即sentence和equation)。接下来研究者想探究,如果同时呈现这个两个语音流给被试,让被试选择其中一个进行注意,大脑的响应是怎样的呢?

  

  图1. 对句子语音流和等式语音流的神经追踪

  如图2所示,结果表明,当被试选择注意句子语音流时,只存在对句子结构的神经追踪,不存在对等式结构的神经追踪,但同时存在对字及符号的神经追踪;相类似的,当被试选择注意等式语音流时,只存在对等式结构的神经追踪,不存在对句子结构的神经追踪,但同时存在对符号及字的神经追踪。这样的结果说明对低水平声素水平的神经追踪是自动化的,不需要注意的参与,但对高水平结构信息的神经追踪需要注意参与。此外,参与句子和等式追踪的脑区也有所不同:对于句子的加工出现了偏侧化,左脑强于右脑,而对于等式的加工在左右脑上并没有显著差异;对于句子的加工主要集中于颞叶,而对于等式的加工还有顶叶的参与。

  图2. 鸡尾酒会上对不同语音流的神经追踪特性

  

  二、时间响应函数(temporal response function,TRF)

  如图4所示,连续语音流中包含从声素到语义等不同水平的特征,这些特征都贡献于听到语音流时的神经响应。为了预测一个语音流会引起怎样的神经活动,可以使用TRF方法进行计算。如图3所示,该方法假设,对于语音流中的某个特征(比如phoneme onset),单位强度的该特征所诱发的时间响应形式是固定的,即TRF。要想知道语音流中由该特征所诱发的神经活动是怎样的,只需要在每个时间点,将该特征的刺激强度与该特征对应的TRF相乘,然后对应时间点进行叠加即可(线性映射)。

  图3. TRF示意图

  如图4所示,一个语音流会包含不同水平的特征,每个特征都有其对应的TRF,通过将每个特征与其对应的TRF进行相乘叠加,就可以得到最终的神经活动。真实情况通常是,我们已知刺激信号和记录到的神经活动,将借助这两个信息,反解出每个刺激属性所对应的TRF,进而探究对每个刺激属性的加工特性。TRF与ERP相类似,峰值的幅值大小代表相应信息的表征强度,峰值的潜伏期代表信息加工进程,同时还可以对TRF进行溯源以揭示信息加工的脑区。

  

  图4. 从语音流中解码不同特征的时间响应函数

  

  三、语音表征进程

  接下来,研究者借助不同类型的语音流,通过分析比较各自不同特征诱发的TRF,揭示语音表征进程。

  研究者使用了4种类型的语音材料:Speech-envelope Modulated Noise:使用正常语音流的包络去调制噪音信号;Non-words:一些听起来像词但实际上并不是词的刺激;Scrambled words:把正常有意义语音流中的组成词汇打乱顺序呈现;Narrative:正常有意义语音流。如图5所示,通过让被试听这四种不同类型的语音材料,分析不同特征的TRF可以看到:对于声素水平的表征在所有刺激材料中都存在,对于亚语义水平的表征只有能够觉察到亚语义维度的分离(比如音素的onset)才会出现(Non-words vs Speech-envelope Modulated Noise),对于词水平不依赖当前语境的惊讶(一个词通常会不会出现在另一个词后面)会在刺激材料中有词的情况下就出现(Scrambled words vs Non-words),而对于词水平依赖当前语境的惊讶(一句话是否通顺)会在刺激材料中有明确语义信息的情况下才出现(Narrative vs Scrambled words)。

  

  图5. 随着加工的逐步深入,相应神经表征的出现进程

  如图6所示,进一步对TRF的分析表明,当我们听到语音流时,大脑会逐步处理从声素到语境的各种信息,但该过程受到自上而下和自下而上加工的共同调制,自上而下的加工(比如我们的预期)会影响到自下而上的加工(比如声音的识别)。此外,对于低水平音素特征的加工出现右侧偏侧化,而对于高水平语境的理解则出现左侧偏侧化。

  

  图6. 不同水平的语音特征的神经追踪进程与脑区偏侧化

  

  总结

  语言加工是一个复杂的过程,涉及对不同水平信息的加工和整合。通过TRF技术并结合具有高时间高空间分辨率的脑磁图技术,可以系统揭示出语言加工进程。

  

  参考文献

  Crosse, M. J., Di Liberto, G. M., Bednar, A., & Lalor, E. C. (2016). The multivariate temporal response function (mTRF) toolbox: a MATLAB toolbox for relating neural signals to continuous stimuli. Frontiers in human neuroscience, 10, 604.

  Kulasingham, J. P., Joshi, N. H., Rezaeizadeh, M., & Simon, J. Z. (2021). Cortical processing of arithmetic and simple sentences in an auditory attention task. Journal of Neuroscience, 41(38), 8023-8039.