你使用社交媒体的习惯提供了极端详尽的信息,足以让外界窥探你的内心世界。

看手机的女人 Image copyright Getty Images

你的Facebook时间线或Instagram相册,就是你个人的心理健康数字晴雨表。

它并不隐藏在较为明显的地方,比如表情符号、井号以及格言警句里面。相反,它潜藏在一些你本身不知道的较为微妙的信号里,就像医生的血压计和心率检测仪一样,可以对你的心理健康提供准确的诊断。

对于一些用户来说,社交媒体无非就是分享最新的猫咪视频或旅行照片的地方,但是现在他们可能会对此结论感到惊讶。这还意味着社交平台蕴藏着重要的潜力,比如拯救生命。仅在美国,每隔13分钟就有一起自杀事件。尽管如此,预判自杀想法和行为的能力在过去50年的研究中没有实质性进展,预测精神病发作或抑郁症发生面临同样的难题。

但是通过数据挖掘和机器学习,在社交媒体的海量碎片数据中提取信号,这一现状正在被彻底改变。人们已经通过这些方法跟踪并预测了流感的爆发。现在开始转向应对心理疾病。

有研究发现,如果你患上了抑郁症,你的Instagram就可能更会推送一些色彩更蓝,更灰,更暗,人脸更少的照片。这些照片收到的赞会变少,但是评论会变多。你还可能会喜欢用"墨井"滤镜,把彩色照片变成黑白照片,而不是用"瓦伦西亚"滤镜提高亮度。

即便如此,单凭这些特点也不足以诊断或预判抑郁症。不过,这对构建能够预判抑郁症的模型起关键作用。此时此刻,机器学习就派上用场了。

Image copyright Alamy Image caption 美国总统唐纳德·特朗普推文经常使用比较乐观语言。

哈佛大学和佛蒙特大学(University of Vermont)的研究人员最近利用这些技术分析了Instagram上近44000条贴文。由此得到的模型可正确识别70%的抑郁症患者,而普通的医生只能诊断出42%的患者。模型出现假阳性的比例也较低(不过这个数字来自另一批人,所以这样比较可能不公平)。甚至在心理医师作出正式诊断之前,用户的订阅内容中就已经出现明显的抑郁信号——这就让Instagram成为某种预警系统。

长期以来,心理医师认为语言和心理健康之间存在关联,比如精神分裂症患者说话会前后脱节和离题,而抑郁症患者会较多的使用第一人称单数。最新的方法是把推特名字输入AnalyzeWords。这是一个免费的文本分析工具,它会关注虚词(代词、冠词和介词)以分析情绪和思维模式。我最近在推特上发布的1017个词语表明我感到愤怒和担忧,在积极情绪方面低于平均值——我最近确实对世界的状况感到颇为悲观。把@realdonaldtrump输入AnalyzeWords,你会发现特朗普在积极情绪方面得分很高,因此他的担忧、愤怒和抑郁情绪可能低于平均值。

但是研究人员正在深入探究心理健康方面的问题,而不是这种对情绪和社交风格的快速、有时甚至很搞笑的测验。(AnalyzeWords可以发现和平均值相比你是否偏向"山谷女孩(Spacy/ValleyGirl)“)

可以反映出抑郁症的信号包括负面词汇(“不”、“永不”、“监狱”、“谋杀”)使用增加和正面词汇(“快乐”、“沙滩"和"照片”)使用减少。但是这些信号基本上不具有决定性。美国哈佛大学、斯坦福大学和佛蒙特大学更进一步,从大约28万推文中提取出许多特征(心情、语言和语境)。由此得出的计算模型在判断抑郁症用户方面得分很高,还正确预判了九成创伤后应激障碍(PTSD)。

Image copyright Getty Images

佛蒙特大学的数学、自然科学和工科研究者和教授克里斯·丹弗斯(Chris Danforth)说,积极词汇和负面词汇的比例是模型内的关键预测变量。其他重要的预测变量还包括更长的推文字数。

丹弗斯强调说,研究只评测了一小部分特定人群,所以他认为该研究只是概念性验证。但是他很乐观。“这些研究结果以及其他类似的研究结果表明在线行为可以用来为诊断和筛查工具提供信息,“他说。如果加入生理信息(比如来自 FitBit和睡眠应用的信息),这些工具还可以产生更强大的力量。

机器学习对精神分裂症的预判准确率平均可达88%,这种程度的成功率只有通过人机协作才可能实现。

应该如何处理所有这些信息?赋权可能是一个良好的开端。微软研究院的一个团队成功预测了哪些怀孕的妈妈有可能性情举止大变,这一切都基于她们分娩前和分娩后早期的推特使用情况。她们分娩前后的抑郁和焦虑获得的诊断并不充分。不过,研究者也强调他们的目标并不是取代传统的诊疗和预判方法。但是,设想一下,如果待产妇女尝试在智能手机上运行这类预测模型,又会怎样。她们可以通过手机应用获得"产后抑郁风险值"以及相关资源信息,还有在需要时获得急救帮助。

不过,这个领域仍然比较保守,特别是关于隐私方面。假如你心理健康留下的数据痕迹公之于众,该怎么办?你可能会被医药公司盯上,或者遭遇雇主、保险公司的歧视。除此之外,此类项目有一些并不受制于临床试验接受的严格伦理监管。用户常常并不知道他们的数据被挖掘。隐私和互联网伦理学者迈克尔·齐默(Michael Zimmer)曾解释说:“社交媒体上有一些私人信息以某种方式被呈现出来,并不说明人们可以轻易获取并公开这些信息。”

Image copyright AnalyzeWord Image caption AnalyzeWords通过研究你在推特上的用词,来评估你的心理状态。

对于这个美丽新世界,还需要加上一些限制。2013年,谷歌流感趋势工具(Google Flu Trends)大幅高估了流感的高峰值。哈佛的一个研究团队责怪大数据的傲慢(Big Data Hubris)称:“它常常带有隐性的预设,认为大数据可以取代传统的数据收集和分析,而非为后者的补充。”

数据挖掘和机器学习也有助于提早发现心理健康问题。目前,从抑郁症发作到与治疗提供者接触要花6至8年的时间。而焦虑症要花9至23年。接下来,我们有希望看到改善。目前全球有20亿用户经常使用社交媒体——这是这些方法可以推广使用的基础。正如马克·扎克伯格(Mark Zuckerberg)在近期规划Facebook的人工智能时写道的:“世界曾发生过极为悲惨的事件——比如自杀,其中一些还进行了直播——这些原本是有可能避免的,前提是有人提前意识到这些人发生了什么,并及早报告。”

心理健康存在于看医生之前和之后的现实生活中,症状也会随时发生变化。网帖、图片和推文能暴露个人的心理健康状态,也许利用网络也能促进心理健康的预测、诊断和康复。

请访问 BBC Future 阅读 英文原文