倾听心灵之声的人工智能

【川透社摘译报道】随着科技发展,人工智能已经可以通过语音分析的方式诊断心理健康问题,准确率高于以往传统方法。尽管目前面临一些技术局限,但其在个性化治疗和心理医生匮乏地区的应用前景广阔。

传统的心理健康诊断方法是患者直接与心理医生进行交谈。理论上看似合理,但在实际操作过程中,可能需要花费几个月的时间去挂号、面诊、复诊等,而医生的主观想法往往也会潜移默化地影响诊断结果。

因此,科学家们正在尝试将这⼀过程智能化。实验证明,人工智能经过训练,能够识别病人的声音,检测出从焦虑到抑郁等⼀系列精神健康状况,准确率超过了传统的诊断方法

通过分析语音的声学特性,这些人工智能模型可以识别出患者潜在的抑郁或焦虑迹象。患者往往察觉不到自己的症状,或是无法用清晰准确的言语向医生表达,而人工智能模型便能很好地解决这一问题。虽然医生也可以根据患者交谈的音高、音调和节奏来诊断患者的精神状态,但这些模型的厉害之处在于它们能够识别到心理医生耳朵无法察觉的东西。

在此之前,心理健康方面的专业人士也使用过人工智能。例如,大语言模型(LLM)可以在转录的文字访谈中根据其说话方式和访谈语境推测其是否有心理疾病。但是,这种基于文本的人工智能也有局限性——文化上的细微差别、访谈对象的语言障碍或流利程度都会影响结果。大语言模型也会有语言偏见:⼀项研究反映,大语言模型不能诊断出黑人患者的抑郁症,反之白人患者却能被诊断出。此外,大语言模型会产生“幻觉”,它们会生成一些似是而非的信息,很有可能导致误诊。

开发与应用

因此,正在开发的新方法不再关注单个词语,而是关注这些词语是如何说出来的。中南民族大学的研究人员开发的人工智能模型可以发现患者声音的细微变化。该模型采用“预训练”技术,即首先让模型接触大量普通语音,以帮助其识别复杂的音频模式。这些模式包括了人耳难以察觉的节奏变化、音高变化和声音质量变化。这种预训练就像一个语言的音叉1,让系统能够捕捉到语音中可能预示抑郁的复杂变化,而无需理解词语本身。随后,研究人员借助抑郁症患者的录音,“微调”了这⼀通用系统,使其专门用于抑郁症检测。

其他方法也取得了一些成效。巴黎索邦大学的研究人员开发了一种方法,通过分析手机App记录的声波来检测心理健康状况。首先,将声波转化为声谱图2的视觉图像,这些图像显示了声音的频率和音量随时间变化的情况。然后,人工智能模型识别每个声谱图,以寻找与各种精神疾病相关的特征,包括抑郁症、焦虑症等。同样,人工智能模型也需要在大量语音数据集上进行预训练,学习识别一般语音模式和特征。然后,它利用这些知识来解释个人的声谱图。这种方法采用的是深度学习技术,自动从原始音频数据中提取相关特征,而不是依赖于预定义的声学特征。

前景与未来发展

这项技术潜在的应用领域非常广泛。即使病人无法准确表达自己的精神状态,或者正处于痛苦之中,声波分析也能让他们更容易接受评估。同时,模型适用于多种语言,可以帮助更多的人,并能为缺少心理健康专业人士的农村地区提供帮助。对于负担过重的临床医生来说,声波分析可以帮助分流病人,并为需要在家治疗的病人提供持续监测。

诊断虽然重要,但只是第一步。伦敦莫兹利医院(Maudsley Hospital)的儿童精神病学家加文塔克(Gavin Tucker)说:“以抑郁症为例,有些人可能会出现记忆力衰退的症状,有些人可能会容易疲劳乏力、精力减退。”不同的人即使有相同的状况,也常常需要针对他们最困扰的症状进行针对性治疗。因此,这项前景广阔的技术的下一步似乎很明确——建立能帮助医生个性化治疗患者的人工智能模型。【全文完】

来源:《经济学人》2024年10月5日刊 | 作者:不详
原文标题:Sound of mind

  1. 音叉是物理学常用的实验器材,它是呈“Y”形的钢质或铝合金发声器,可以产生单一波长的机械波。各种音叉可因其尺寸和叉臂长短、高矮的不同,而发出不同波长的纯音。叉臂越长,即音叉越高,波长越长,音调越“低”,叉臂越短,即音叉越矮,波长越短,音调越“高”。在医学上,音叉也用来测试病人的听力。此处比作一种能够帮助人工智能系统调整和捕捉语音中微小变化的工具。 ↩︎
  2. 声谱图(Spectrogram),是一个信号的频谱随时间变化的直观表示。当应用于音频信号时,声谱图也被称为sonographs、voiceprints或者 voicegrams。当数据以三维图表示时,它还被称为瀑布图(Waterfall display)。声谱图能够在一张图上表示时间、频率和振幅信息,它在音乐声学、计算音乐学、音频内容分析、计算机音乐等学科领域都有广泛应用,在很多音频软件中都能找到与它相关的功能或模块。 ↩︎