丹麦用全民数据训练AI预测35岁至65岁个体4年后的死亡时间:准确率达78%
丹麦科学家近日研发出一款名为“life2vec”的AI模型,该模型通过分析丹麦约600万人的生活数据,包括收入、职业、居住、健康史等,成功预测了年龄在35岁至65岁之间的人4年后的死亡时间,准确率高达78%。这一研究成果于12月18日公开发表在《自然·计算科学》期刊上,在科学界引起了广泛关注。
▲几乎全丹麦人的个人数据被用来训练这一AI
主要作者苏内·莱曼表示:“这个模型几乎可以预测任何事情。我们利用一个事实——即在某种意义上,人类生活与语言有相似之处。就像句子中的单词彼此相连一样,人类生活中的事件也彼此相连。”
“life2vec”模型的工作原理是基于大型语言模型(类似ChatGPT背后语言模型),通过分析人类生活中的事件序列,总结模式和规律。这些算法首先分析大量文本,寻找单词和句子字符串中的模式。然后,AI模型使用他们学到的信息来预测句子中接下来应该出现哪些单词。莱曼认为:“我们正在经历‘人类预测时代’的主要原因,是海量数据加上强大机器学习算法的出现。”
利用丹麦国家登记册中的信息,研究人员将几乎丹麦全国约600万公民的逾十年的生活信息——包括收入、职业、居住地、受伤情况、工作时间、医院就诊及诊断等细节,甚至包括怀孕史等——转化为一种合成语言,使得每个生活事件都成为“句子”。通过将这些“句子”按时间顺序排列,AI模型重新创建每一个人的数字生活故事。例如,“2010年8月,艾格尼丝在哥本哈根一家医院担任助产士,收入3万丹麦克朗”。
在预测死亡时间方面,研究人员收集了一组年龄在35岁至65岁之间的人的数据,因为“这一人群的死亡率很难预测”。研究人员将2008年到2016年间的数据输入,并确保2016年后的信息没有泄露给AI模型,然后要求AI预测在2020年谁活着、谁会死,最后,在2020年年末发现,准确率达到了78%。
该AI还确定了导致过早死亡风险增加的几个因素,包括收入低、接受过心理健康问题诊断以及性别为男性。该模型预测失误的死亡案例中,大部分涉及到难以预测的突发事故或心脏病。
不过,一些科学家表示,该模型可能不适用于非丹麦人群。伦敦大学学院心理学家吴悠悠(音译)表示,如果该模型使用来自其他国家的数据进行调整,可能会揭示出一个适用于人类的普遍模式,甚至还可以凸显出不同文化对个体死亡时间的细微影响。
莱曼表示,目前正在积极地公开研究成果,但为了保护用来训练该系统的丹麦公民的个人隐私信息,该AI目前不开放给公众或公司使用。
红星新闻记者 邓纾怡 编辑 郭宇 责编 冯玲玲