首页 > 资讯
书呆子、荡妇、罪犯…你的照片竟被AI这样“标签”了?
猎云网2019-09-24

   周三早上,当Tabong Kima查看他的推特时,他看到的话题标签是#ImageNetRoulette。

  似乎每个人都在把自拍上传到某个网站上,在这个网站上,某种人工智能会分析每一张脸,并描述它看到的东西。网站ImageNet Roulette把其中一名男子定位为“孤儿”;另一位是“不吸烟者”;第三个戴着眼镜的是“笨蛋、怪人、书呆子、怪人、笨蛋”。

  在Kima的推特上,这些标签(有些准确,有些奇怪,有些离谱)都是为了搞笑,于是他也加入了。但这位24岁的非裔美国人对于他将看到的内容并不开心。当他上传自己微笑的照片时,该网站将他标记为“不法分子”和“罪犯”。

  “我可能幽默感很差,”他在推特上写道。“但我不认为这特别有趣。”

  事实证明,他的回应正是该网站所希望的。ImageNet Roulette是一个数码艺术项目,旨在揭露古怪、不健全的和攻击性行为可以蔓延到人工智能技术,从而迅速改变我们的日常生活,涉及到使用面部识别服务的互联网公司,警察部门和其他政府机构。

  面部识别和其他人工智能技术通过分析大量的数字数据来学习技能。这些数据来自于旧的网站和学术项目,通常包含多年来未被注意到的细微偏差和其他缺陷。由美国艺术家Trevor Paglen和微软研究员Kate Crawford设计的ImageNet Roulette旨在更深入全面地揭露这个问题。

  “我们想要展示偏见、种族主义和厌女症是如何从一个系统转移到另一个系统的,”Paglen在巴黎接受电话采访时表示。“关键是让人们看到正在幕后进行的工作,看到我们一直是如何被处理和分类的。”

  作为本周在米兰Fondazione Prada博物馆展览的一部分,该网站将注意力集中在名为ImageNet的聚集了海量照片的数据库上。十多年前,位于加州硅谷的斯坦福大学的一组研究人员首次编制了ImageNet,它在“深度学习”的兴起中发挥了至关重要的作用,这种数学技术使机器能够识别包括人脸在内的图像。

  ImageNet是一种训练人工智能系统并判断其准确性的方法,它包含了从互联网上提取的超过1400万张照片。通过分析各种各样的图像,如花、狗和汽车,让系统学会识别它们。

  在了解人工智能的社区中,很少有人讨论的是,ImageNet还包含数千人的照片,每个人都按自己的类别分类。这其中包括直截了当的标签,如“啦啦队”、“电焊工”和“童子军”,以及一些很模糊的标签,如“失败、失败者、无望取得成功的人、不成功的人”和“奴隶、荡妇、邋遢的女人、流氓”。

  Paglen和Crawford创建了一个应用这些标签的项目,不管这些标签看起来是否无害,都表明了观点、偏见,甚至某些带有攻击性的观点是如何推动人工智能的创建的。

  ImageNet的标签被成千上万名匿名的人使用,这些人很可能来自美国斯坦福大学的研究团队。通过众包服务亚马逊土耳其机械公司(Amazon Mechanical Turk),他们每贴一张照片就能赚几分钱,每小时要浏览数百个标签。正如他们所做的那样,偏见被纳入了数据库,尽管不可能知道这些偏见是否由做标签的人持有。

  他们给“失败者”下了定义,还有“荡妇”和“不法分子”。

  这些标签最初来自另一个庞大的数据集WordNet,这是普林斯顿大学研究人员在上世纪80年代为机器编制的一种概念词典。然而,包括这些煽动性的标签在内,斯坦福大学的研究人员可能还没有意识到他们在做什么。

  人工智能通常是在庞大的数据集上训练的,即使是它的创造者也没有完全理解这些数据集。Liz O'Sullivan当时在人工智能初创公司Clarifai负责数据标签的监督工作,现在是一个名为“监视技术监督项目“的组织的成员,旨在提高对人工智能系统问题的认识。他曾表示“当人工智能开始计算的时候,它们总是以超大规模的形式运作,这会带来一些后果”。

  ImageNet数据集中使用的许多标签都很极端。但是,同样的问题也可能蔓延到看似无害的标签上。毕竟,“男人”和“女人”的定义还有待商榷。

  “给女性或女孩的照片贴标签时,可能并不包括非二元性别的人或短发女性,”O’Sullivan表示。“然后你就会得到一个只包括长发女性的人工智能模型。”

  最近几个月,研究人员发现,亚马逊、微软和IBM等公司的人脸识别服务可能会对女性和有色人种产生偏见。在这个项目中,Paglen和Crawford希望能引起人们对这个问题的更多关注,并且他们真的做到了。本周,随着该项目在推特等社交网站上走红,ImageNet Roulette每小时产生的标签数量超过了10万个。

  “我们完全感到惊讶,它以它的方式起飞了,”Crawford与Paglen在巴黎时说道。“它让我们真正看到人们对这件事的看法,并真正与它们接触。”

  对一些人来说,这只是个玩笑。但像Kima这样的人会明白Crawford与Paglen所作的努力。他说:“他们在凸显问题所在方面做得相当好,但这并不是说我以前没有意识到这个问题。”

  不过,Crawford与Paglen认为,问题可能比人们意识到的还要严重。

  ImageNet只是众多数据集中的一个,这些数据集被科技巨头、初创企业和学术实验室广泛使用和重用,因为它们训练了各种形式的人工智能。这些数据集中的任何缺陷都已经蔓延开来。

  如今,许多公司和研究人员正在努力消除这些缺陷。为了应对偏见,微软和IBM更新了他们的面部识别服务。今年1月,就在Crawford与Paglen首次讨论ImageNet中使用的奇怪标签时,斯坦福大学的研究人员从数据集中屏蔽了所有人脸的下载。他们现在表示,他们将删除更多的人脸。

  斯坦福大学的研究小组通过《纽约时报》发表了一份声明,他们的长期目标是“解决数据集和算法中的公平性、问责制和透明度等问题”。

  但对Paglen来说,一个更大的问题迫在眉睫。最基本的事实是人工智能从人类身上学习——而人类是有偏见的生物。“我们对图像进行分类的方式是我们世界观的产物,”他表示。“任何一种分类系统都会反映出进行分类的人的价值观。”

阅读:
分享
用微信扫描二维码分享
请点击右上角分享给微信朋友或朋友圈