Jonathan Z. Simon：Neural Speech in brains - from acoustics to Language

　　　撰文：范莹审核：罗欢

　　2023年12月15日，来自University of Maryland, College Park的Jonathan Z. Simon教授，应北京大学IDG麦戈文脑科学研究所邀请，就语音加工过程中不同特征的神经表征机制进行了精彩报告。本期学术笔记根据Jonathan Z. Simon教授题为“The Progression of Neural Speech Representations Through Auditory Cortex and Beyond, from Acoustics to Language to Semantics”的学术报告整理而成。

　　一、大脑对连续语音流中结构信息的神经表征

　　如图1所示，研究者给被试呈现两种类型的语音流，一种是连续四个字（word）会组成一句话(sentence)，一种是连续五个符号（sym.）会组成一个等式(equation)（如“six plus two is eight”）。这两个语音流的声素频谱表明刺激材料中，只存在对其组成元素的追踪（即word和sym.），然而被试的神经活动中，却可以看到对语音流中高阶的结构信息的追踪（即sentence和equation）。接下来研究者想探究，如果同时呈现这个两个语音流给被试，让被试选择其中一个进行注意，大脑的响应是怎样的呢？

　　图1. 对句子语音流和等式语音流的神经追踪

　　如图2所示，结果表明，当被试选择注意句子语音流时，只存在对句子结构的神经追踪，不存在对等式结构的神经追踪，但同时存在对字及符号的神经追踪；相类似的，当被试选择注意等式语音流时，只存在对等式结构的神经追踪，不存在对句子结构的神经追踪，但同时存在对符号及字的神经追踪。这样的结果说明对低水平声素水平的神经追踪是自动化的，不需要注意的参与，但对高水平结构信息的神经追踪需要注意参与。此外，参与句子和等式追踪的脑区也有所不同：对于句子的加工出现了偏侧化，左脑强于右脑，而对于等式的加工在左右脑上并没有显著差异；对于句子的加工主要集中于颞叶，而对于等式的加工还有顶叶的参与。

　　图2. 鸡尾酒会上对不同语音流的神经追踪特性

　　二、时间响应函数（temporal response function，TRF）

　　如图4所示，连续语音流中包含从声素到语义等不同水平的特征，这些特征都贡献于听到语音流时的神经响应。为了预测一个语音流会引起怎样的神经活动，可以使用TRF方法进行计算。如图3所示，该方法假设，对于语音流中的某个特征（比如phoneme onset），单位强度的该特征所诱发的时间响应形式是固定的，即TRF。要想知道语音流中由该特征所诱发的神经活动是怎样的，只需要在每个时间点，将该特征的刺激强度与该特征对应的TRF相乘，然后对应时间点进行叠加即可（线性映射）。

　　图3. TRF示意图

　　如图4所示，一个语音流会包含不同水平的特征，每个特征都有其对应的TRF，通过将每个特征与其对应的TRF进行相乘叠加，就可以得到最终的神经活动。真实情况通常是，我们已知刺激信号和记录到的神经活动，将借助这两个信息，反解出每个刺激属性所对应的TRF，进而探究对每个刺激属性的加工特性。TRF与ERP相类似，峰值的幅值大小代表相应信息的表征强度，峰值的潜伏期代表信息加工进程，同时还可以对TRF进行溯源以揭示信息加工的脑区。

　　图4. 从语音流中解码不同特征的时间响应函数

　　三、语音表征进程

　　接下来，研究者借助不同类型的语音流，通过分析比较各自不同特征诱发的TRF，揭示语音表征进程。

　　研究者使用了4种类型的语音材料：Speech-envelope Modulated Noise：使用正常语音流的包络去调制噪音信号；Non-words：一些听起来像词但实际上并不是词的刺激；Scrambled words：把正常有意义语音流中的组成词汇打乱顺序呈现；Narrative：正常有意义语音流。如图5所示，通过让被试听这四种不同类型的语音材料，分析不同特征的TRF可以看到：对于声素水平的表征在所有刺激材料中都存在，对于亚语义水平的表征只有能够觉察到亚语义维度的分离（比如音素的onset）才会出现（Non-words vs Speech-envelope Modulated Noise），对于词水平不依赖当前语境的惊讶（一个词通常会不会出现在另一个词后面）会在刺激材料中有词的情况下就出现（Scrambled words vs Non-words），而对于词水平依赖当前语境的惊讶（一句话是否通顺）会在刺激材料中有明确语义信息的情况下才出现（Narrative vs Scrambled words）。

　　图5. 随着加工的逐步深入，相应神经表征的出现进程

　　如图6所示，进一步对TRF的分析表明，当我们听到语音流时，大脑会逐步处理从声素到语境的各种信息，但该过程受到自上而下和自下而上加工的共同调制，自上而下的加工（比如我们的预期）会影响到自下而上的加工（比如声音的识别）。此外，对于低水平音素特征的加工出现右侧偏侧化，而对于高水平语境的理解则出现左侧偏侧化。

　　图6. 不同水平的语音特征的神经追踪进程与脑区偏侧化

　　总结

　　语言加工是一个复杂的过程，涉及对不同水平信息的加工和整合。通过TRF技术并结合具有高时间高空间分辨率的脑磁图技术，可以系统揭示出语言加工进程。

　　参考文献

　　Crosse, M. J., Di Liberto, G. M., Bednar, A., & Lalor, E. C. (2016). The multivariate temporal response function (mTRF) toolbox: a MATLAB toolbox for relating neural signals to continuous stimuli. Frontiers in human neuroscience, 10, 604.

　　Kulasingham, J. P., Joshi, N. H., Rezaeizadeh, M., & Simon, J. Z. (2021). Cortical processing of arithmetic and simple sentences in an auditory attention task. Journal of Neuroscience, 41(38), 8023-8039.