iFair: Learning Individually Fair Data Representations for Algorithmic Decision Making

时间 2021-01-04 标签机器学习公平性测试机器学习

题目：学习用于算法决策的个别公平数据表示

论文介绍了一种将用户记录概率映射为低秩表示的方法，该方法在下游应用中协调了个体的公平性和分类器和排名的效用。通过定义一个组合损失函数来学习低秩数据表示，该工作解决了效用和公平之间的基本权衡。作者通过将他们的方法应用于各种真实数据集上的分类和学习到排名任务，证明了他们的方法的通用性。他们的实验表明，与此设置的最佳前期工作相比，有实质性的改进。（低秩：矩阵的秩较低,eg:r=1）

研究背景：一般情况下考虑的群体公平，那么个人公平和准确性之间的权衡成为了需要解决的问题。此时，提出损失函数来解决。

研究方法：将个体映射到一个输入空间，该输入空间独立于特定的受保护的子组。定义映射函数，将公平性损失和精确度损失的和表示为目标函数。这种研究方法称为iFair框架。

个人公平的表示和计算：当含有所有属性的两个用户记录xi和xj之间的距离与不含敏感属性的两个记录之间的差值小于等于阈值时，表示这两个用户记录是存在个人公平的。

转换映射表示为：其中，U表示之前记录的概率分布，V表示原型向量。

损失函数包括数据损失和公平性损失：

目标函数：

实验：5个数据集

数据集
数据集	受保护属性	输出	实例数
ProPublica’s COMPAS	race	再犯罪?
Census Income	gender	收入>50K?	48842
German Credit	age	信用价值?	1000
Airbnb	gender	房屋评级/价格？	27597
Xing	gender	求职推荐排名？

作者随机地将数据集分成三部分。使用一部分训练模型来学习模型参数，第二部分作为验证集，通过执行网格搜索来选择超参数(细节见下文)，第三部分作为测试集。论文中使用相同的数据分割来比较所有的方法，一共有6种方法。

方法
方法	Full Data	Masked Data	SVD	LFR	FA*IR(排序)	iFair
所用数据集	the original dataset	the original dataset without protected attributes	full data/masked data	the learned representation		the representation learned by our model

评估指标是个人公平性(yNN)和精确度（ACC）

实验表明，一般情况下iFair的效果要优于其他几种方法。

总结：我们的方法包含两个重要的标准。首先，我们从应用程序无关的角度来看待公平性，这允许我们将它合并到各种各样的任务中，包括通用分类器和用于学习到排名的回归。其次，我们将个人公平视为数据集的属性(在某种意义上，就像隐私)，这可以通过将数据预处理为转换后的表示来实现。这个阶段不需要访问受保护的属性。如果需要的话，我们还可以对学习的表示进行后处理，并执行群体公平标准，比如统计等值性。

我们将该模型应用于五个真实数据集，证明效用和个人公平可以在很大程度上协调。将分类器和回归模型应用到iFair表示中，得到的算法决策比在原始数据上做出的决策更加一致。我们的方法是第一个在学习排序任务中单独计算公平结果的方法。对于分类任务，它的性能优于现有的先进工作。