一种提高人工智能公平性和准确性的技术

人工智能2022-08-25 15:10:32
最佳答案使机器学习模型的预测总体上更准确的方法可能会降低代表性不足的子组的准确性。一种新的方法可以提供帮助。对于使用机器学习模型来帮助他们

使机器学习模型的预测总体上更准确的方法可能会降低代表性不足的子组的准确性。一种新的方法可以提供帮助。

对于使用机器学习模型来帮助他们做出决策的工人来说,知道何时信任模型的预测并不总是那么容易,特别是因为这些模型通常非常复杂,以至于它们的内部工作原理仍然是一个谜。

用户有时使用一种称为选择性回归的技术,在这种技术中,模型估计每个预测的置信水平,并在置信度过低时拒绝预测。然后,人类可以检查这些案例,收集其他信息,并手动对每个案例做出决定。

但是,尽管选择性回归已被证明可以提高模型的整体性能,但麻省理工学院和MIT-IBM Watson AI Lab的研究人员发现,该技术对数据集中代表性不足的人群会产生相反的效果。随着模型的置信度随着选择性回归的增加而增加,其做出正确预测的机会也会增加,但对于所有子组,这种情况并不总是发生。

例如,一个建议贷款批准的模型可能平均犯的错误较少,但实际上可能会对黑人或女性申请人做出更错误的预测。发生这种情况的一个原因是,模型的置信度度量是使用过度表示的组进行训练的,并且对于这些代表性不足的组可能不准确。

一旦他们发现了这个问题,麻省理工学院的研究人员就开发了两种算法来解决这个问题。使用现实世界的数据集,他们表明这些算法减少了影响边缘化亚组的性能差异。

“最终,这是关于更聪明地将哪些样本交给人类处理。我们不仅要最小化模型的一些广泛的错误率,还要确保巧妙地考虑跨组的错误率,“麻省理工学院资深作者Greg Wornell说,他是电气工程和计算机科学系(EECS)的住友工程学教授,他领导电子研究实验室(RLE)的信号,信息和算法实验室,并且是MIT-IBM Watson AI Lab的成员。

加入Wornell论文的是共同主要作者Abhin Shah,EECS研究生和Yuheng Bu,RLE博士后;以及Joshua Ka-Wing Lee SM '17,ScD '21和Subhro Das,Rameswar Panda和Prasanna Sattigeri,MIT-IBM Watson AI Lab的研究人员。该论文将在机器学习国际会议上发表。

预测或不预测

回归是一种估计因变量和自变量之间关系的技术。在机器学习中,回归分析通常用于预测任务,例如根据房屋的特征(卧室数量,平方英尺等)预测房屋的价格。通过选择性回归,机器学习模型可以为每个输入做出两种选择之一 - 如果它对自己的决策没有足够的信心,它可以做出预测或放弃预测。

当模型弃权时,它会减少它进行预测的样本的比例,称为覆盖率。通过仅对高度确信的输入进行预测,模型的整体性能应该会提高。但这也会放大数据集中存在的偏差,当模型没有来自某些子组的足够数据时,就会发生这种情况。这可能会导致代表性不足的个人出现错误或错误的预测。

麻省理工学院的研究人员旨在确保,随着选择性回归模型的整体错误率的提高,每个子组的性能也会提高。他们称之为单调选择性风险。

“为这个特定问题提出正确的公平概念是具有挑战性的。但是,通过执行这个单调选择性风险标准,我们可以确保当你减少覆盖率时,模型性能在所有子组中实际上都变得更好,“Shah说。

注重公平

该团队开发了两种神经网络算法,它们施加了这个公平性标准来解决问题。

一种算法保证模型用于进行预测的特征包含有关数据集中敏感属性的所有信息,例如种族和性别,这些信息与感兴趣的目标变量相关。敏感属性是可能不用于决策的特征,通常是由于法律或组织策略。第二种算法采用校准技术来确保模型对输入进行相同的预测,而不管是否向该输入添加了任何敏感属性。

研究人员通过将这些算法应用于可用于高风险决策的真实数据集来测试这些算法。一个是保险数据集,用于使用人口统计数据预测向患者收取的年度医疗费用总额;另一个是犯罪数据集,用于使用社会经济信息预测社区中暴力犯罪的数量。这两个数据集都包含个人的敏感属性。

当他们在用于选择性回归的标准机器学习方法之上实现算法时,他们通过降低每个数据集中少数子组的错误率来减少差异。此外,这是在没有显着影响总体错误率的情况下完成的。

“我们看到,如果我们不施加某些约束,在模型真正有信心的情况下,它实际上可能会犯更多的错误,这在某些应用中可能会非常昂贵,比如医疗保健。因此,如果我们扭转趋势并使其更加直观,我们将发现很多这些错误。这项工作的一个主要目标是避免错误悄无声息地未被发现,“Sattigeri说。

Shah说,研究人员计划将他们的解决方案应用于其他应用,例如预测房价,学生GPA或贷款利率,以查看算法是否需要针对这些任务进行校准。他们还希望探索在模型训练过程中使用不太敏感信息的技术,以避免隐私问题。

他们希望改进选择性回归中的置信度估计值,以防止模型置信度较低但预测正确的情况。这可以减少人类的工作量,并进一步简化决策过程,Sattigeri说。

免责声明:本文由用户上传,如有侵权请联系删除!