FairTest: Discovering Unwarranted Associations in Data-Driven Applications

       文中最先提出了“fairness bugs”的概念。他们认为受保护的属性和算法输出之间在统计上显著的关联是一个公平错误,在这篇论文中特别命名为“无保证的关联”。他们提出了第一个全面的测试工具,旨在帮助开发人员通过“易于理解”的错误报告来测试和调试公平性错误。该工具可用于各种应用领域,包括图像分类、收入预测和医疗预测。

 

       算法递归地将用户空间分割成更小的子集,以最大化算法输出与受保护用户之间的关联度量。细粒度偏差发现是系统的核心组成部分并提出了一种新的关联引导树形构造算法,以有效地搜索具有强烈不公平效应的用户亚群。提出的测试工具是UA框架,我们用回归模型(逻辑回归或线性回归)对受保护属性S和大量依赖输出标签O之间的关系进行建模。框架结构和基本算法如图:

这种方法包含5个步骤:

1.数据选择和预处理:受保护属性S,上下文属性X,解释性属性E

2.整合可解释的因素:关联并不一定是bug,一些关联是可以接受的或者甚至是必要的关联,这部分关联被视为可解释的因素

3.选择恰当的度量标准:度量标准用来测试输出和受保护属性之间是否存在一定的关联,一般有4种度量标准,这四种又可以被归为3类:频率分布度量,关联性度量,回归度量

 

4. 粒度和统计上的严格测试用户的亚种群:提出了关联导向树构建

5.适应性调试