书呆子、荡妇、罪犯…你的照片竟被AI这样“标签”了？-众创网-数字赋能专家

书呆子、荡妇、罪犯…你的照片竟被AI这样“标签”了？

猎云网2019-09-24

　　周三早上，当Tabong Kima查看他的推特时，他看到的话题标签是#ImageNetRoulette。

　　似乎每个人都在把自拍上传到某个网站上，在这个网站上，某种人工智能会分析每一张脸，并描述它看到的东西。网站ImageNet Roulette把其中一名男子定位为“孤儿”;另一位是“不吸烟者”;第三个戴着眼镜的是“笨蛋、怪人、书呆子、怪人、笨蛋”。

　　在Kima的推特上，这些标签(有些准确，有些奇怪，有些离谱)都是为了搞笑，于是他也加入了。但这位24岁的非裔美国人对于他将看到的内容并不开心。当他上传自己微笑的照片时，该网站将他标记为“不法分子”和“罪犯”。

　　“我可能幽默感很差，”他在推特上写道。“但我不认为这特别有趣。”

　　事实证明，他的回应正是该网站所希望的。ImageNet Roulette是一个数码艺术项目，旨在揭露古怪、不健全的和攻击性行为可以蔓延到人工智能技术，从而迅速改变我们的日常生活,涉及到使用面部识别服务的互联网公司，警察部门和其他政府机构。

　　面部识别和其他人工智能技术通过分析大量的数字数据来学习技能。这些数据来自于旧的网站和学术项目，通常包含多年来未被注意到的细微偏差和其他缺陷。由美国艺术家Trevor Paglen和微软研究员Kate Crawford设计的ImageNet Roulette旨在更深入全面地揭露这个问题。

　　“我们想要展示偏见、种族主义和厌女症是如何从一个系统转移到另一个系统的，”Paglen在巴黎接受电话采访时表示。“关键是让人们看到正在幕后进行的工作，看到我们一直是如何被处理和分类的。”

　　作为本周在米兰Fondazione Prada博物馆展览的一部分，该网站将注意力集中在名为ImageNet的聚集了海量照片的数据库上。十多年前，位于加州硅谷的斯坦福大学的一组研究人员首次编制了ImageNet，它在“深度学习”的兴起中发挥了至关重要的作用，这种数学技术使机器能够识别包括人脸在内的图像。

　　ImageNet是一种训练人工智能系统并判断其准确性的方法，它包含了从互联网上提取的超过1400万张照片。通过分析各种各样的图像，如花、狗和汽车，让系统学会识别它们。

　　在了解人工智能的社区中，很少有人讨论的是，ImageNet还包含数千人的照片，每个人都按自己的类别分类。这其中包括直截了当的标签，如“啦啦队”、“电焊工”和“童子军”，以及一些很模糊的标签，如“失败、失败者、无望取得成功的人、不成功的人”和“奴隶、荡妇、邋遢的女人、流氓”。

　　Paglen和Crawford创建了一个应用这些标签的项目，不管这些标签看起来是否无害，都表明了观点、偏见，甚至某些带有攻击性的观点是如何推动人工智能的创建的。

　　ImageNet的标签被成千上万名匿名的人使用，这些人很可能来自美国斯坦福大学的研究团队。通过众包服务亚马逊土耳其机械公司(Amazon Mechanical Turk)，他们每贴一张照片就能赚几分钱，每小时要浏览数百个标签。正如他们所做的那样，偏见被纳入了数据库，尽管不可能知道这些偏见是否由做标签的人持有。

　　他们给“失败者”下了定义，还有“荡妇”和“不法分子”。

　　这些标签最初来自另一个庞大的数据集WordNet，这是普林斯顿大学研究人员在上世纪80年代为机器编制的一种概念词典。然而，包括这些煽动性的标签在内，斯坦福大学的研究人员可能还没有意识到他们在做什么。

　　人工智能通常是在庞大的数据集上训练的，即使是它的创造者也没有完全理解这些数据集。Liz O'Sullivan当时在人工智能初创公司Clarifai负责数据标签的监督工作，现在是一个名为“监视技术监督项目“的组织的成员，旨在提高对人工智能系统问题的认识。他曾表示“当人工智能开始计算的时候，它们总是以超大规模的形式运作，这会带来一些后果”。

　　ImageNet数据集中使用的许多标签都很极端。但是，同样的问题也可能蔓延到看似无害的标签上。毕竟，“男人”和“女人”的定义还有待商榷。

　　“给女性或女孩的照片贴标签时，可能并不包括非二元性别的人或短发女性，”O’Sullivan表示。“然后你就会得到一个只包括长发女性的人工智能模型。”

　　最近几个月，研究人员发现，亚马逊、微软和IBM等公司的人脸识别服务可能会对女性和有色人种产生偏见。在这个项目中，Paglen和Crawford希望能引起人们对这个问题的更多关注，并且他们真的做到了。本周，随着该项目在推特等社交网站上走红，ImageNet Roulette每小时产生的标签数量超过了10万个。

　　“我们完全感到惊讶，它以它的方式起飞了，”Crawford与Paglen在巴黎时说道。“它让我们真正看到人们对这件事的看法，并真正与它们接触。”

　　对一些人来说，这只是个玩笑。但像Kima这样的人会明白Crawford与Paglen所作的努力。他说:“他们在凸显问题所在方面做得相当好，但这并不是说我以前没有意识到这个问题。”

　　不过，Crawford与Paglen认为，问题可能比人们意识到的还要严重。

　　ImageNet只是众多数据集中的一个，这些数据集被科技巨头、初创企业和学术实验室广泛使用和重用，因为它们训练了各种形式的人工智能。这些数据集中的任何缺陷都已经蔓延开来。

　　如今，许多公司和研究人员正在努力消除这些缺陷。为了应对偏见，微软和IBM更新了他们的面部识别服务。今年1月，就在Crawford与Paglen首次讨论ImageNet中使用的奇怪标签时，斯坦福大学的研究人员从数据集中屏蔽了所有人脸的下载。他们现在表示，他们将删除更多的人脸。

　　斯坦福大学的研究小组通过《纽约时报》发表了一份声明，他们的长期目标是“解决数据集和算法中的公平性、问责制和透明度等问题”。

　　但对Paglen来说，一个更大的问题迫在眉睫。最基本的事实是人工智能从人类身上学习——而人类是有偏见的生物。“我们对图像进行分类的方式是我们世界观的产物，”他表示。“任何一种分类系统都会反映出进行分类的人的价值观。”

阅读：