这里有一些指导原则,可以帮助你在不陷入道德陷阱的情况下构建值得信赖的机器学习解决方案.

阅读hg皇冠官网的文章

.

介绍

机器学习作为一种决策手段的使用现在已经变得无处不在. hg皇冠官网每天使用的许多服务输出都是机器学习决策的结果. 作为一个后果, hg皇冠官网看到,人类对影响hg皇冠官网日常生活方方面面的领域的干预正在逐渐减少,在这些领域,任何算法模型的判断失误都可能产生不利影响. 因此,建立可靠和负责任的机器学习解决方案是必要的, 将道德作为核心支柱.

近年来, 机器学习中的伦理道德已经见证了学术研究的显著增长, 主要的会议,如 FACCT 和 , 还有一些大型科技公司正在组建快速增长的团队,以应对道德挑战.

伦理人工智能是一个广泛的主题,涵盖了许多主题,如隐私, 数据治理, 社会和环境福利, 算法的责任, 等. 在本文中,hg皇冠官网将主要关注机器学习中伦理的以下组成部分: 公平、可解释性和可追溯性. hg皇冠官网将首先讨论什么是利害攸关的,以及为什么关注道德是必须的, 然后,hg皇冠官网将探讨如何构建和开发您的机器学习项目,并考虑到伦理,以及如何在将伦理部署到生产中之后继续遵循伦理.

为什么hg皇冠官网要注意道德

随着机器学习算法和它们背后的抽象和假设集变得越来越复杂, 要完全掌握和理解整个系统的所有可能后果,已经成为一项挑战.
不公平的机器学习算法导致了次优和有区别的结果,这在现实世界中已经有几个引人注目的例子. 在此基础上,著名的COMPAS例子. COMPAS是一种被广泛使用的商业软件,用来衡量一个人再次犯罪的风险, 将其与正常人的判断进行比较 研究 后来发现他们对非洲裔美国人有偏见:COMPAS更倾向于给非洲裔美国罪犯打更高的风险分数,而不是给有着相同特征的白种人.

在自然语言处理领域, 在谷歌翻译的早期版本中发现了性别偏见,该问题在2018年和最近几年得到了解决.

在信用归属领域, 高盛(Goldman Sachs)正因使用一种人工智能算法而接受调查,据称该算法歧视女性,在苹果(Apple)信用卡上给予男性比女性更高的信用额度.

在医疗保健领域, 一种用于美国2亿多人的风险预测算法.S. 展示了种族偏见.

没有明确定义的分析框架, 识别和减轻偏见,陷入道德陷阱的风险可能相当高. 因此,制定适当的指导方针日益重要,以便建立能够产生适当和公平结果的模型, 特别是在涉及人的领域. 构建值得信赖的人工智能会让终端用户在使用时感到安全, 它允许公司对其使用施加更多的控制,以提高效率,同时避免任何危害. 让你的人工智能值得信赖, 你实际上需要在处理数据和开发算法之前就开始思考道德问题.

在项目开始之前,如何思考道德规范

在一个新项目开始的时候就必须考虑伦理问题, 特别是在问题框架阶段. 您应该考虑到目标终端用户以及建议解决方案的目标,以建立正确的分析和风险管理框架,以识别解决方案可能导致的直接或间接危害. 你应该问问自己, 在这些条件下, 我的解决方案是否会导致决策倾向于特定的终端用户子群体 ?

因此,建立kpi来跟踪执行风险管理策略的有效性的方法是至关重要的. 一个健全的框架也可以在可能的情况下纳入道德风险减少机制.
在处理高风险的敏感话题时, 有必要延长分配到探索和建设阶段的时间,以注入彻底的伦理评估分析和 偏见减轻 策略.

你还必须建立能够促进AI系统的机制 可审核性 和  再现性 . 必须有一个逻辑跟踪来检查,这样任何问题都可以被进一步审查或调查. 这是通过强制执行一个良好的水平 可追溯性 通过文档、日志、跟踪和版本控制.

还必须对每个数据源和数据转换进行文档化,以便为处理数据做出透明和可跟踪的选择. 这使得hg皇冠官网有可能确定哪些措施可能注入或强化了一种偏见.

在开发您的数据项目时,如何包括道德规范

在开发你的数据项目时要包括道德规范, 至少要包括三个要素:公平, explainability和可追溯性.

公平

大多数机器学习项目的第一步通常是数据收集. 无论是通过数据收集过程还是使用现有的数据集, 了解收集是如何执行的至关重要. 通常, 不可能包括整个目标群体,因此特征和标签可以从一个子集中采样, 根据某些标准过滤或聚合. 所有这些步骤都可能导致统计偏差,从而产生伦理后果.

表示的偏见

来自于hg皇冠官网定义和抽样总体的方式. 例如, ImageNet等数据集缺乏地理多样性,这显示出对西方国家的偏见. 由于 抽样偏差例如,对一个种群估计的趋势可能不适用于从一个新种群收集的数据.

因此,需要确定适当的数据收集方案,分析所收到数据的多样性,并向小组报告发现的任何差距或风险. 你需要尽可能客观地收集数据. 例如, 通过确保, 通过一些统计分析, 样本是你所研究的总体或群体的代表, 尽可能多, 通过组合来自多个来源的输入,以确保数据的多样性.
记录研究结果和整个数据收集过程是必须的.

事实上,偏见有很多可能的来源,可以以多种形式存在, 其中一些可能会导致不同下游学习任务的不公平.
因为有监督机器学习算法的核心是训练数据, 模型可以从数据中学习它们的行为,这些数据可能会受到无意的历史或统计偏差的影响. 历史的偏见 即使给出了一个完美的采样和特征选择,也能渗透到数据生成过程中吗. 这些偏见的持续存在可能导致对某些群体或个人的无意识歧视, 哪些会加剧偏见和边缘化.

并非所有的偏见都源于数据, 完整的机器学习流程包括一系列的选择和实践, 从数据预处理到模型部署.
要从一开始就确定是否会出现问题以及如何出现问题并不容易. 为了查明紧急问题,需要进行彻底的分析. 根据用例、数据类型和任务目标,将应用不同的方法.
在这一节中, hg皇冠官网将通过一个说明性的用例来探索一些识别和减轻道德偏见的技术. hg皇冠官网将首先陈述问题, 然后hg皇冠官网会看到如何测量偏差,最后hg皇冠官网会使用一些技术来减轻预处理过程中的偏差, 在处理和后期处理.

问题陈述

假设你正在银行业构建一个计分算法,自动锁定将从溢价交易中受益或不受益的客户. 你会得到一个历史数据集,其中包含关于你的客户的有意义数据的许多特征,以及二元目标“有资格获得溢价交易”。. PII(个人身份信息)的元素以前已经从数据集中删除,因此不会有任何隐私问题(在这个问题上), 谷歌云数据防丢失服务是执行敏感数据反识别任务的好工具).
这个用例可能看起来有点虚构,但是问题接近于hg皇冠官网在过去处理的不同部门的实际用例.

测量偏差

分析的第一步是探索数据,以识别敏感特征, 特权价值和有利标签.

敏感的特性 (或有时被称为 受保护的属性)是将人口划分为不同群体的特征,这些群体在获得的利益方面应该是平等的. 这些特性可能对某些子组具有歧视性. 例如:性别、年龄、家庭状况、社会经济分类、婚姻状况等. 以及从它们导出的任何代理数据(e.g. 地理位置或账单金额可以作为社会经济分类的代理,因为在某些情况下,它们可以被观察到具有很强的相关性)是敏感特征.

A 享有特权的价值 具有敏感特征的群体在历史上具有系统优势.

A 有利的标签 标签的价值是否提供了对接受者有利的积极结果.在数据准备阶段, 分割数据等步骤, 欠采样和采样过密, 处理缺失值和离群值可能会引入偏差,如果他们不小心执行. 在敏感特征的子组中,缺失值或异常值的比例可以是识别偏差的第一步. 一些归因策略可能引起统计偏差, 例如, 通过中值计算客户年龄特征的缺失值.

在hg皇冠官网的得分例子中, hg皇冠官网绘制了关于“符合优惠条件”目标的培训数据如何在不同性别间分布的图表:

hg皇冠官网可以看到目标的分布是不平衡的,偏向于性别 男性. 让hg皇冠官网假设特权的价值是 男性 在哪里 性别 是一个敏感的特征,而受欢迎的标签是“有资格获得溢价交易”. 此外,这可能与数据中的表征偏差有关. 事实上, 在公平得到尊重的情况下, 可以确保数据中的分布完全平衡,或与人口数据中的分布相对应.

在这一点上,您可能会试图简单地从您的数据集中丢弃敏感的特性,但事实表明,删除敏感的属性并不一定足以使您的模型公平. 该模型可以利用与被移除的敏感特征相关的其他特征, 复制历史偏见. 举个例子, 一个特征a可能与客户的年龄有很强的相关性,所以如果数据偏向于某个特定的年龄(历史偏差可能导致招聘中基于年龄的歧视, 促销等.)这种偏见会被编码到特性A中,删除客户的年龄并不能缓解问题. 通过在你的数据中保留敏感的特性, 必要的时候要, 你可以更好地控制偏见和公平的衡量和缓解.

偏差指标

有各种各样的公平定义和公平指标. hg皇冠官网可以把公平分成 个人公平 和 组织公平. 个体公平对相似的个体给出相似的预测,而群体公平对不同的群体一视同仁.

实现群体公平, hg皇冠官网希望无论患者是否处于受保护状态,其阳性结果的可能性都是相同的.g., 是否团体.
一个简单的群体指标是比较特权群体和非特权群体(在hg皇冠官网的例子中是性别)的有利结果的百分比 男性 与性别相比,他们“有资格享受优惠”  “有资格享受溢价交易”). 您可以将此比较计算为两个百分比之间的差值,从而导致 统计平价的区别 指标(也称为 人口平价):

特权群体和非特权群体在有利结果上没有区别, 统计奇偶性差应该等于0.
在个人公平的问题上,有一个度量标准 一致性 它使用最近邻算法来衡量相似个体标签的相似程度:

hg皇冠官网不会关注这个主题,但是有兴趣的读者可以检查一下 article.
你可以使用方便的库 AIF360 这让你能够计算许多公平性指标.
你所要做的就是将你的数据帧包装到 St和ardDataset. AIF360使用 St和ardDataset 它将P和as DataFrame包装成许多属性和方法,专门用于处理和测量伦理偏见. 然后,可以将其用作 BinaryLabelDatasetMetric 类,它将计算一组有用的度量.

params_aif = {
“label_name” : “eligible_for_a_premium_deal”,
“favorable_classes” : [1],
“protected_attribute_names” : [“性别”],
“privileged_classes” : [[0]] 在hg皇冠官网的例子中,0代表男性,1代表女性
}
#创建aif360标准数据集
train_st和ard_dataset = St和ardDataset(df=train_dataframe,
**params_aif)
privileged_groups = [{“性别”: 0}]
unprivileged_groups = [{“性别”: 1}]
train_bldm = BinaryLabelDatasetMetric(train_st和ard_dataset,
unprivileged_groups=unprivileged_groups,
privileged_groups=privileged_groups)

一旦对hg皇冠官网的评分示例的训练数据进行测量, hg皇冠官网观察到平均统计奇偶性差为-0.21表示特权组 男性 在训练数据集中有21%的积极结果吗.

偏见减轻

针对算法偏差的方法通常分为三类:

  • 预处理. 预处理技术对训练数据进行处理,并试图对其进行转换,从而消除潜在的区别.

  • 在处理. 处理内技术作用于学习算法,以便在模型训练过程中通过将变化纳入目标函数或施加约束来消除歧视.

  • 后处理. 后处理技术,采用已经训练过的模型并转换其预测,使其满足所选公平性指标所隐含的约束. 当算法只能将学习到的模型视为一个黑盒,而没有任何能力修改训练数据或学习算法时,它特别有用.

hg皇冠官网对训练数据采用预处理技术,以优化统计奇偶性差. hg皇冠官网应用 Reweighing 算法(更多细节在此 article) 这是在AIF360中实现的,以便在每个组合(group, 标签),以确保分类前的公平性.

RW = Reweighing (unprivileged_groups = unprivileged_groups,
                privileged_groups = privileged_groups)

reweighted_train = RW.fit_transform (train_st和ard_dataset)

实例权重属性已经改变,以便根据目标重新平衡敏感特征. 这样做, Reweighing 算法缓解了训练数据上的群体偏差:一种新的测量统计奇偶性差的方法从-0完全重新平衡.21 to 0.

AIF360中还实现了其他预处理偏差缓解算法,如 DisparateImpactRemover 这是一种技术,编辑特征值,以增加组的公平,同时保持组内的等级顺序(更多信息在以下 article) or LFR (学习公平表示)这是一种预处理技术,它发现了一个潜在的表示,编码数据,但模糊了有关受保护属性的信息(更多信息在下面 article).

然后hg皇冠官网训练两个分类器模型,一个在原始的训练数据上,另一个在重新加权的数据上. hg皇冠官网观察到“重称重”对性能的影响很小,损失了1% F1-score.

hg皇冠官网还在示例用例中尝试了一种处理内算法: 敌对的去 显著改善了群体偏见指标(统计奇偶性差异除以2),模型性能几乎没有恶化(F1得分约1%).

因此,可以在性能和偏差指标之间进行权衡. 这里的恶化是相当小,但在某些情况下,妥协可能更严重. 这些信息必须让团队和适当的涉众知道,他们可以决定如何处理这个问题.

现在hg皇冠官网有了训练有素的模型,hg皇冠官网可以探索他们的预测,并调查性别之间的对有利结果的不平衡. 有很多工具,比如 假设工具 or Aequitas 它可以让你探索训练有素的机器学习模型的行为,并调查模型的性能和跨子组的公平性.

作为一个例子, 您可以使用Aequitas生成交叉表和可视化图,以显示分布在各个子组中的各种偏差和性能指标. 例如,hg皇冠官网可以快速比较在原始数据和重新加权的数据上训练的分类器的真实阳性率. hg皇冠官网看到,这个比率是平衡的,因此允许更大的性别平等,使模型的有利结果,有资格获得溢价交易.

作为一种后处理技术,hg皇冠官网在分类阈值上相互作用. 分类模型通常为hg皇冠官网提供与每个类的实现相关的概率作为预测. 这个概率可以被当作是或转换成二进制值使用.
为了识别与所得到的概率相对应的类, 必须定义一个分类阈值(也称为决策阈值). 任何高于此阈值的值将对应于积极类别“有资格获得溢价交易”,反之亦然,低于此阈值的值.
通过绘制跨越所有分类阈值的性能指标和偏差指标(这里是1 -差异影响), hg皇冠官网可以定义最优阈值. 这有助于hg皇冠官网选择适当的阈值,以便最大化性能和最小化偏差.

在左边的图中hg皇冠官网可以看到,如果hg皇冠官网把阈值推到左边, 从而降低了性能, hg皇冠官网可以改进偏差度量.
也, 正如预期的, hg皇冠官网在重新加权模型上观察到群体偏差度量的明显改进(右图),通过选择另一个分类阈值可以进一步改进,但要以牺牲性能为代价.

Explainability

构建可信机器学习模型的另一个核心支柱是可解释性. 可解释性是指既能解释AI系统的技术流程,又能解释AI系统做出的决策或预测背后的推理, 因此,能够量化每个特征/属性对预测的影响. 尽可能使用易于解释的模型而不是黑盒模型是一个很好的实践.

有许多方法可以获得模型的可解释性. 这些方法可分为两类:

  • 内在explainability 模型本身给出特征的重要性或权重.

    事后explainability 在什么地方利用小的输入变化来推断特性的重要性.

  • 在处理. 处理内技术作用于学习算法,以便在模型训练过程中通过将变化纳入目标函数或施加约束来消除歧视.

这里hg皇冠官网将应用一个著名的事后方法, 即SHapley加法解释(SHapley Additive explanation), 欲了解更多信息,hg皇冠官网建议探索 这是关于这个主题的非常全面的资源世鹏科技电子 是一个实现了博弈论方法来解释任何机器学习模型的输出的库吗.
让hg皇冠官网来观察reweighting算法对模型可解释性的影响:

快速提醒一下如何阅读世鹏科技电子 's beeswarm 情节:

  • 这些特性从上到下按照最重要到最不重要的顺序进行排序.

  • 颜色对应于特征值的振幅. 颜色越红,值越低,反之,蓝色.

  • 横轴表示特征对目标预测的影响方向. 例如, 在hg皇冠官网的得分例子中, 负值将影响对“不符合溢价交易条件”的类别的预测,反之亦然,正值.

在左边, hg皇冠官网有原始模型的可解释性hg皇冠官网观察到在这种情况下,性别变量有很强的预测能力,而性别  是否会影响到“不符合溢价交易”目标的决定,因为性别差异很大 男性.

hg皇冠官网可以在右边的图表中看到, 在这种情况下,模型是根据重新加权的数据进行训练的, 性别特征的重要性已经大大降低. 它现在是最不重要的功能的一部分. 此外,女性对女性的影响. 男性类对目标的预测更加平衡(颜色在世鹏科技电子ley值上接近0).

可追溯性

在创建可信的机器学习算法的过程中,另一个重要方面是结果的可追溯性和实验的良好再现性. 这使得识别模型的哪个版本已经投入生产变得很容易,这样当它的行为造成伤害并且不再符合公司的道德价值观时,就可以对其进行审计.

要做到这一点, 一个人必须能够跟踪和记录每个模型版本及其相关的训练数据, hyperparameters和结果. 有几个工具可以完成这个任务: Mlflow 是否有一个很好的选择,可以让你快速生成一个集中所有运行的web界面, 同时将工件保存到您选择的存储中. 实验的每个版本都可以用相关提交的哈希值来跟踪. 每个版本都将包含MLflow记录的所有元素.

这是一个 工具 hg皇冠官网已经在Artefact上开源,它可以让你用一个命令在GCP项目上部署一个安全的MLflow.

这也是一个很好的实践创建一个 字幕新闻 对每个模型, 哪个对应于一个模型身份证,它总结了跟踪预处理步骤的各种元素, 性能指标, 偏差指标等.

这些身份卡由数据科学家交付给模型操作团队, 允许他们确定模型是否适合他们的情况. 关于创建概况表的方法的更多细节,hg皇冠官网建议这样做 article. 还可以存储字幕新闻, 例如,表格形式, 在MLFlow中,与相关模型一起.

一旦部署,如何跟进道德规范

一旦您的模型被部署, 你必须确保它被用在了它被认为的目的上, 设计和建造. 当一个模型要解决的问题与它实际使用的方式不匹配时,就会出现部署偏差. 当系统被开发和评估时,通常会发生这种情况,就好像它是完全自包含的, 然而在现实中,它是由大量决策者控制的复杂社会技术系统的一部分.

生产数据可能会随着时间的推移而漂移,这可能会导致算法性能下降,从而注入偏差. 通过监测新数据与用于训练模型的数据的分布,跟踪生产数据质量和数据漂移, 在生产过程中,是否应该在必要时发出适当的警报,并确定什么时候再培训是强制性的.

应该设计生产流水线,以便能够关闭当前模型或回滚到以前的版本.

结论

在本文中,hg皇冠官网介绍了一些良好的实践和协议,以指导您构建机器学习管道,将陷入道德陷阱的风险降到最低.

这篇文章仅仅触及了道德人工智能这一庞大主题的表面,而且仅仅触及了 有趣的工具 现在已经开发出来了.
正如hg皇冠官网所看到的, 明确解决公平问题的最合理的方法是宣布一组选定的特征具有潜在的歧视性,然后通过这个棱镜进行伦理偏见的调查. 这个简单的技术, 然而, 这种歧视是由本身不具有歧视性的功能组合而成的吗. 此外,在许多情况下,您将无法访问任何敏感的特性(更多关于这个主题的内容) 在这里).
公平评估是一项复杂的任务,它取决于问题的性质. 基于表格数据处理评分问题与 减轻自然语言处理中的偏差.

hg皇冠官网希望分享hg皇冠官网的观点和方法将在您自己的项目中启发您 ! 感谢您的阅读,请不要犹豫跟随人工制品技术 博客 如果您希望hg皇冠官网的下一篇文章发布时通知您!

Artefact的媒体博客.

本文最初发表于 媒介.com.
请关注hg皇冠官网的媒体博客 !

阅读hg皇冠官网的文章
人工制品的时事通讯

对数据咨询|数据营销|数字激活感兴趣?
阅读hg皇冠官网的每月通讯,以获得可行的建议, 的见解, 业务案例, 来自世界各地的数据专家!

通讯报名