人工智能(AI)系统中的偏见和歧视已经在许多领域中进行了研究,包括许多医疗保健应用,如黑色素瘤检测、死亡率预测和有助于预测医疗保健使用的算法。AI的性能通过自我报告的比赛对各种临床任务进行分层。

人工智能可以分为三类:系统偏差、统计偏差和人为偏差。具体来说:
系统性偏见,又称制度性或历史性偏见,是由特定制度的程序和做法造成的,导致一些社会群体处于有利地位或受到青睐,而另一些社会群体则处于不利地位或被贬低。它们无处不在,存在于人工智能使用的数据中,存在于人工智能生命周期的过程中,存在于文化和社会中的制度规范、实践和流程中。这不一定是有意识的偏见或歧视造成的,而是大多数人遵循现有的规则或规范造成的。最典型的就是种族主义和性别歧视,日常基础设施没有考虑残疾人无障碍环境。
统计偏倚来源于系统误差而非随机误差,也可能发生在没有偏倚、偏袒或歧视性意图的情况下。在人工智能系统中,这些偏差存在于为人工智能应用开发数据集和算法的过程中。当算法在一类数据上训练,无法做出超出这些数据的推断时,就会出现偏差。
偏见是人类思维的基本组成部分,它反映了人类思维中的系统性错误。这种偏见往往是隐藏的,通过自动化的信息与个人或群体的决策相关。它广泛存在于人工智能整个生命周期的机构、群体和个人的决策过程中,也存在于人工智能应用部署后的使用过程中。
这些结果表明,与疾病结果密切相关的人口统计学因素(例如,年龄、性别和种族身份)也与医学图像的特征密切相关,并可能导致模型结果的偏差,反映了过去已知的情况。在过去的一个世纪里,关于协变量和潜在混杂的重要性的临床和流行病学研究。虽然以前的工作表明存在种族差异,但据我们所知,这些差异在医学成像中的机制尚未被探索。
在这项研究中,我们调查了大量公开和私人可用的大规模医学成像数据集,发现仅使用医学图像像素数据作为模型输入训练的AI模型可以准确预测自报种族。
首先,我们表明,人工智能模型可以跨多种成像模式,各种数据集和各种临床任务预测种族。在美国的一系列学术中心和患者团体对这些模型进行外部验证期间,以及在优化模型以执行临床任务时,这种高水平的性能持续存在。
其次,我们做了消融,说明这个测试不是因为琐碎的代理因素,比如身体习惯、年龄、组织密度或者种族成像的其他潜在混杂因素(比如潜在疾病在人群中的分布)。
最后,我们表明,学习到的特征似乎涉及图像和光谱的所有领域,这表明当这种行为不受欢迎时,控制这种行为的努力将是具有挑战性的,需要进一步研究。
在我们的研究中,我们强调人工智能预测种族身份的能力本身并不重要,而是这种能力容易学习,因此它很可能存在于许多医学图像分析模型中,是医学实践中已经存在的种族差异的再现或恶化。人类专家无法从医学图像中类似地识别种族身份的事实加剧了这种风险,这意味着人类对人工智能模型的监督在识别和缓解这一问题方面的作用有限。这个问题给医学成像中的所有模型部署带来了巨大的风险:如果人工智能模型依靠其检测种族身份的能力来做出医学决策,但这样做会导致特定种族的错误,