首页 > 新闻资讯 > IT新闻 >

微软放弃面部识别分析,但仍然存在大问题

微软正在放弃对一些人工智能驱动功能的支持,包括面部识别。 尽管微软承认歧视和准确性问题是件好事,但它花了数年时间来解决这些问题,但并没有。
微软正在放弃对包括面部识别在内的一些人工智能驱动功能的公开支持,并承认这些产品造成的歧视和准确性问题。 但该公司有多年的时间来解决问题,但没有。 这类似于汽车制造商召回车辆而不是修理它。
 
尽管担心面部识别技术可能具有歧视性,但真正的问题是结果不准确。 (不过,由于微软开发人员在制作这些应用程序时做出的假设,歧视性的说法起了一定作用。)
 
让我们从微软的所作所为开始。 微软 Azure AI 的首席产品经理 Sarah Bird 上个月在微软博客中总结了回调。

“从今天(6 月 21 日)开始,新客户需要申请使用 Azure 人脸 API、计算机视觉和视频索引器中的人脸识别操作的权限。现有客户有一年的时间申请并获得批准,以根据他们提供的用例继续访问面部识别服务。通过引入受限访问,我们为面部识别的使用和部署增加了一层额外的审查,以确保这些服务的使用符合 Microsoft 的负责任 AI 标准,并为高价值的最终用户和社会利益做出贡献。这包括引入使用案例和客户资格要求以访问这些服务。
 
 
“面部检测功能——包括检测模糊、曝光、眼镜、头部姿势、地标、噪声、遮挡和面部边界框——将保持普遍可用,不需要应用程序。”
 
看看第二句话,Bird 强调了这个额外的圈子,供用户跳过,“以确保这些服务的使用符合微软的负责任 AI 标准,并为高价值的最终用户和社会利益做出贡献。”
 
这当然听起来不错,但这真的是这种变化的作用吗?还是微软会简单地依靠它来阻止人们使用错误最大的应用程序?

微软讨论的一种情况涉及语音识别,它发现“整个科技行业的语音到文本技术对一些黑人和非裔美国人社区的成员产生的错误率几乎是白人用户的两倍,”Natasha Crampton 说,微软首席人工智能官。 “我们退后一步,考虑了研究的结果,并了解到我们的发布前测试并没有令人满意地解释不同背景和不同地区的人之间的丰富多样性。”
 
微软发现的另一个问题是,不同背景的人在正式场合和非正式场合的说话方式往往不同。真的吗?开发商以前不知道吗?我敢打赌他们做到了,但没有考虑到不做任何事情的影响。
 
解决这个问题的一种方法是重新检查数据收集过程。就其本质而言,被录音进行语音分析的人会有点紧张,他们可能会说话严格而生硬。一种处理方法是在尽可能轻松的环境中进行更长时间的录音。几个小时后,有些人可能会忘记他们正在被录音并习惯于随意说话的模式。
 
我已经看到人们如何与语音识别交互。起初,他们说话很慢,而且往往发音过度。随着时间的推移,他们慢慢进入我称之为“星际迷航”的模式,并像对另一个人一样说话。
 
情绪检测工作也发现了类似的问题。
 
Bird 的更多信息:“在另一个变化中,我们将停用旨在推断情绪状态和身份属性(如性别、年龄、微笑、面部毛发、头发和化妆)的面部分析功能。我们与内部和外部研究人员合作,了解这项技术的局限性和潜在优势,并进行权衡取舍。特别是在情绪分类的情况下,这些努力提出了关于隐私的重要问题,对情绪的定义缺乏共识,以及无法概括用例、区域和人口统计数据之间的面部表情和情绪状态之间的联系。对预测敏感属性功能的 API 访问也开辟了多种可能被滥用的方式——包括使人们受到刻板印象、歧视或不公平的拒绝服务。为了降低这些风险,我们选择不支持 Face API 中的通用系统,该系统旨在推断情绪状态、性别、年龄、微笑、面部毛发、头发和化妆。从 2022 年 6 月 21 日开始,新客户将无法再检测这些属性,而现有客户必须在 2023 年 6 月 30 日之前停止使用这些属性,然后才能退休。”

在情感检测方面,历史证明面部分析远不如简单的语音分析准确。情绪的语音识别已被证明在呼叫中心应用程序中非常有效,其中听起来非常生气的客户可以立即转移到高级主管。
 
在有限的程度上,这有助于微软的观点,即数据的使用方式需要受到限制。在那个呼叫中心场景中,如果软件有问题并且该客户实际上没有生气,则不会造成任何伤害。主管只需正常完成通话即可。注意:我见过的唯一常见的语音情感检测是客户对电话树感到愤怒并且无法真正理解简单的句子。该软件认为客户对公司很生气。一个合理的错误。
 
但同样,如果软件是错误的,也不会造成任何伤害。
 
Bird 提出了一个很好的观点,即某些用例仍然可以负责任地依赖这些 AI 功能。 “Azure 认知服务客户现在可以利用开源 Fairlearn 包和微软的 Fairness Dashboard 来衡量微软的面部验证算法对他们自己的数据的公平性——让他们能够识别和解决可能影响不同人口群体的潜在公平性问题。他们部署他们的技术。”
 
伯德还表示,技术问题在一些不准确中发挥了作用。 “在与使用我们的人脸服务的客户合作时,我们还意识到一些最初归因于公平问题的错误是由于图像质量不佳造成的。如果某人提交的图像太暗或太模糊,模型可能无法正确匹配。我们承认,这种糟糕的图像质量可能不公平地集中在人口群体中。”
 
在人口群体中?鉴于每个人都属于某个人口群体,那不是每个人吗?这听起来像是一种腼腆的说法,即非白人的匹配功能可能很差。这就是执法部门对这些工具的使用如此成问题的原因。 IT 部门要问的一个关键问题:如果软件出错了会有什么后果?该软件是正在使用的 50 种工具之一,还是仅被依赖?
 
微软表示,它正在努力使用一种新工具来解决这个问题。 “这就是为什么微软为客户提供一个新的识别质量 API 来标记提交面部验证的图像中的照明、模糊、遮挡或头部角度问题,”伯德说。 “微软还提供了一个参考应用程序,该应用程序提供实时建议,以帮助用户捕捉更有可能产生准确结果的更高质量的图像。”
 
在接受《纽约时报》采访时,克兰普顿指出另一个问题是“系统所谓的性别分类器是二元的,‘这与我们的价值观不一致’。”
 
简而言之,她的意思是,虽然该系统不仅考虑男性和女性,但它不能轻易地给以其他性别方式识别的人贴上标签。在这种情况下,微软只是选择停止尝试猜测性别,这可能是正确的选择。