广告

面部识别隐私安全问题爆发,IBM拿面部数据集赚钱?

2019-03-15 阅读:
面部识别技术成为整个 AI 行业最为常见的技术应用之一;不过,在识别效率越来越高的同时,人们也开始担心面部识别技术发展过程中的隐私安全问题。比如说最近 IBM 利用 Flickr 下载的图片来进行面部识别训练,就引起了人们的质疑;NBC News 针对此事进行了详细的报道,本文对这篇报道进行了不改变原意的编译。

近些年来,面部识别技术得到了长足发展,除了帮你解锁 iPhone,还能让执法机关在人山人海中“一眼”就认出犯罪分子,商店甚至用它来识别自己的“死忠”客户。不过,法律专家却警告称,大量未经允许滥用网络照片最终会画地为牢,反过来成为监控你的“帮凶”。YJMednc

现在的面部识别技术还不完美,它工作时靠的是算法,目标则很简单——认出那张独一无二的脸。YJMednc

想把这个任务完成好,技术人员就必须提前“喂给”算法“养料”,即天量的面部照片。那么这些照片从哪来呢?当然是互联网。YJMednc

起初,算法学习的照片都会按照不同的标准进行分类,比如年龄、性别、肤色等,但经过一段时间的学习后,它的能力开始变得有些吓人了,于是法律和人权专家开始大声疾呼,他们担心技术人员对普通人照片的滥用会带来“反噬”效果。YJMednc

“这是 AI 训练数据集背后的肮脏小秘密。技术人员可不管三七二十一,只要能用的照片他们都不放过。”纽约大学法学院教授 Jason Schultz 说道。YJMednc

最近 IBM 公司也进了“暴风圈”,今年 1 月它们向研究人员分享了自己的数据集,包含了 Flickr 上近 100 万张照片,虽然 IBM 号称此举是为了减少面部识别的偏差。YJMednc

了解真相后的摄影师们不愿意了,因为 IBM 在他们的作品上加了各种细节注释,包括面部几何结构、肤色等信息,而这些照片最终可能会成为面部识别算法的“养料”。YJMednc

“我拍过的人可没想过,自己的照片居然会被用在面部识别算法训练上。”公关经理 Greg Peverill-Conti 气愤地说道,他有 700 多张照片被收录在了 IBM 的“训练数据集”中。“IBM 太草率了吧,它们怎么能不经同意就使用这些照片”。YJMednc

IBM 公司 AI 研究主管 John Smith 则表示,公司“致力于保护个人隐私”,如果谁想从数据集中移除照片,尽管联系 IBM。YJMednc

虽然 IBM 信誓旦旦的保证 Flickr 用户可以随时移除数据集中的照片,但事情哪有那么简单,这本就是个有来无回的“不归路”。因为 IBM 需要拍摄者发送想要移除图片的链接(光靠 Flickr 账号不管用),而它们却从没分享过到底这个数据集用了谁的 Flickr 照片,所以你大概率会被蒙在鼓里。YJMednc

对于这个数据集,IBM 有自己冠冕堂皇的理由——它将用于学术工作,且担负着让面部识别变得更加公平的重任。当然,在网络照片滥用方面,IBM 并不是独一家,数十家其他研究机构或公司也在采集网络照片训练自己的面部识别系统。YJMednc

一些法律专家认为,这不仅仅是对数百万人肖像权和隐私权的侵犯,它还加重了人们对面部识别技术的担忧,也许有一天执法部门会让它“双手沾满鲜血”。YJMednc

面部识别技术的进化历程

面部识别工具刚刚诞生时,研究人员会付钱请人来试验室“帮忙“,这些人拿钱办事,将自己不同姿态和光照角度下的照片留了下来以供研究之用。不过,这样的方案成本高还浪费时间,因此早期的数据集往往只有数百个样本。YJMednc

进入新世纪后,互联网飞速发展,研究人员突然意识到,面部识别的好时光来了,因为网上有天量的照片可供使用。YJMednc

056ednc20190314YJMednc

“直接打开搜索引擎,输入名人的姓名,然后下载各种 360 度无死角的照片既可。”美国国家标准技术局数据集采集人员 P. Jonathon Phillips 说道。YJMednc

随着社交网络的兴盛和自媒体的发展,普通人的照片也突然多了起来。研究人员默认这些照片是对所有人开放的,有时他们甚至会从 YouTube 的视频中抓取面部图片。YJMednc

由于工作的非经营性质,学术人员用起照片来绝对是近水楼台,因为他们能绕过版权问题了,而 Flickr 的性质更是让它们成了研究人员绝对的安全之选。YJMednc

为了保证数据集的多样性,IBM 其实从 Flickr 上 Down 了超过 1 亿张照片,随后又精选了 100 万张有注释的面部照片。为了力求精确,它们甚至为这些照片定了 200 多种分类标准。YJMednc

057ednc20190314YJMednc

谷歌学术指出,这种研究方法在业内几乎已经是尽人皆知,因为有数百篇学术论文都在靠照片采集来佐证自己的论点,没人敢说自己是完全清白的,或者拿到了授权或同意。因此,面部识别准确性的提高和分析工具的进步主要就是靠这些“野路子”来的照片。YJMednc

IBM 真没拿面部数据集赚钱?

“要想让面部识别系统超常发挥,训练数据必须足够多样化,而且覆盖范围足够广。”IBM 的 John Smith 说道。YJMednc

在 IBM 看来,自己的数据集并未将图片中的人脸和具体的名字联系起来,这就意味着系统不会侵犯人们的隐私。不过,依然有人质疑 IBM 的动机,因为它们可是向政府出售过监控工具。YJMednc

举例来说,911 袭击发生后,IBM 就将面部识别技术卖给了纽约警方,执法部门通过搜索监控录像就能识别出特殊的肤色或发色。IBM 还曾推出过“智能视频分析”产品,它们能通过监控摄像头给人们加标签(亚裔、黑人或白人)。YJMednc

如今,IBM 则有了 Waston 视觉识别系统,通过图片算法就能识别出人的年龄和性别。配合正确的训练算法,客户就能从图片或视频中识别出特定的人。在被问到 Waston 用了什么训练数据时,IBM 称数据有多个来源,不过却拒绝披露具体的数据来源,并美其名曰保护知识产权。YJMednc

一再逼问下,IBM 称从 Flickr 拿到的相片数据集仅用于研究,不会用来提升公司的商用面部识别工具。不过,有专家指出,类似 IBM 和 Facebook 这样的公司,其研发和商业运营部门之间的界限非常模糊,而且研发部门的知识产权均归 IBM 所有。因此,面部识别公司 Kairos 前 CEO Brian Brackeen 断言,即使学术部门研发的算法有其非商业化性质,这些算法最终还是会被拿来赚钱。YJMednc

他还打了个形象的比喻,“你可以把它看做拿面部识别技术洗钱,公司将网上的照片洗成了自己的知识产权。”YJMednc

“被选中”的摄影师们怎么想?

澳大利亚摄影师 Georg Holzer 将自己的作品上传 Flickr 是为了记录自己声明中的精彩瞬间,他也签署了创意认证,只要是非营利性项目,就能免费使用他的照片。不过,他没想到自己的照片会成为面部识别技术的“养料”。YJMednc

“我了解技术能造成的伤害。”Holzer 说道。“当然,面部识别技术也有其积极的一面,但如果用得不对,它也能剥夺人的基本权利和隐私。我是无法接受这项技术广泛应用的。”YJMednc

“我觉得 IBM 可不是家慈善公司,最终它们还是会用这项技术牟利,所以面部识别技术还是会进入商业市场。”Holzer 说道。YJMednc

Dolan Halbrook 也有 452 张照片被 IBM 的数据集“侵吞”,他也认为 IBM 在使用这些照片时应该征得自己的同意。YJMednc

当然,也有摄影师觉得自己的照片能被 IBM 选中并用在推动面部识别发展上是一大幸事。YJMednc

瑞士的 Guillaume Boppe 就表示:“如果我的照片能帮助 AI 进化,降低探测错误率并最终提升全球安全指数,我举双手赞同。”YJMednc

想从数据集中删图?没那么容易

如果你不同意 IBM 将自己的照片当成训练数据,也可以联系它们删除,但操作起来没那么容易。一位被抓取 1000 多张照片的摄影师忙活了半天,也只删除了 4 张照片,因为他无法找到所有照片的链接,而 Flickr 账号 IBM 可不认。YJMednc

此外,即使从 IBM 的数据集中删除了照片,IBM 研究伙伴拿到的数据集也无法一并删除(已经有 250 多家组织和机构接入了 IBM 的数据集)。YJMednc

显然,IBM 的数据集不是公共场所,没法想来就来想走就走。YJMednc

好在,各国对隐私数据的保护正在加强。举例来说,欧洲就将照片看做“敏感个人数据”,如果 IBM 不按规定删图,可能就会被欧盟重罚。在美国,也有一些州有了相关规定,在不征得当事人同意的情况下采集、存储和分享生物信息属违法行为,而生物信息包含指纹、虹膜和面部几何结构等。YJMednc

近期,芝加哥的律师 Jay Edelson 就向 Facebook 发起了集体诉讼,称其面部识别工具触犯了相关法律。YJMednc

至于典型的法院判例,现在还是一片空白。YJMednc

(原文发表于 NBC News雷锋网编译)YJMednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • Microchip模拟嵌入式SuperFlash技术助力存算一体创新 SuperFlash memBrain存储器解决方案使知存科技片上系统(SoC)能够满足最苛刻的神经处理成本、功耗和性能要求
  • 用TinyML开始设计——开发评估套件 本文中展示的开发套件和评估板得到一些流行的机器学习库和用于 TinyML 工作流程资源的支持,包括用于微控制器的 Google TensorFlow Lite 和 Edge Impulse,因而它们能够成为您第一个项目的理想起点。
  • “中国IC设计成就奖”提名产品简介:高性能GPU芯片及解 沐曦致力于提供国际顶尖的高性能通用GPU芯片及解决方案,结合我国人工智能等领域对GPU芯片的强烈市场需求,对标当前国际领先的GPU芯片产品立项开展技术研发。
  • “中国IC设计成就奖”提名产品简介:全志科技高性能智能 高性能三重异构智能语音应用处理器R329芯片,采用业界先进的半导体工艺,首款集成Arm中国周易语音处理器。集成DSP、NPU、64位CPU及丰富的外设接口,创新突破了低功耗、边缘语音AI超级算力、多重异构通讯、多核调度等关键技术,处于国内领先水平。
  • “中国IC设计成就奖”提名产品简介:追萤3D AI芯片Ai310 埃瓦科技自主研发的追萤 3D AI芯片创新的采用了异构架构 SOC 设计和微内核架构设计,包含 NPU 神经网络加速核、3D 立体匹配加速核、ISP 核等功能性处理核心;其中 NPU 神经网络加速核基于可重构以及片上多级存储和缓存设计,使数据可高效送达加速核心,使该芯片拥有领先的高效智能处理能力、分析以及低功耗管理的能力;其设计架构的资源复用性使硬件计算单位可灵活分配,适应于不同场景的计算需求;在 3D 视觉算法加速方面创新的采用了自研立体匹配算法的 3D 加速微内核架构设计,可有效加速双目立体视觉、结构光等多种 3D 视觉算法。
  • “中国IC设计成就奖”提名产品简介:ada200优势 1.九天睿芯,感存算一体芯片,可以在功耗和性能满足”低功耗AI场景“的同时,成本也大幅度下降。2.采用模数混合的存内计算架构,ADA200相比传统数字芯片,1/3成本,1/10功耗。
  • “中国IC设计成就奖”提名产品简介:面向边缘视觉分析的 面向边缘视觉分析的数据流AI芯片CAISA是鲲云科技自主研发的专为人工智能图像提供高性能计算加速的AI芯片产品,是全球首个量产的数据流AI芯片。
  • “中国IC设计成就奖”提名产品简介:人工智能语音芯片CI 1、人工神经网络硬件引擎架构:具备高计算性能,进行神经网络计算时相当于数十个CPU并行计算的能力;低访问带宽和低功耗,通过并行计算和共用神经元权重参数,大幅降低访问带宽及功耗;高可配置性,支持神经元层数和节点数、神经网络结构的配置。 2、单、双、及麦克风阵列降噪增强技术:支持各种平稳、非平稳环境噪声抑制;可支持线阵、圆阵结构等常用麦阵结构;采用定向波束形成与自适应信号处理技术相结合;拾取方向动态可调;支持单声道、立体声等回声抑制;采用独立研发的空间预测技术,支持强回声情况下回声抑制;与降噪处理技术相结合;自动增益调节、高通、带通滤波等。 3、低功耗和可靠性设计技术:具备低功耗集成电路设计技术,包括基于活动语音检测的低功耗控制技术和时钟门控技术。 4、逻辑设计技术:掌握了语音信号处理IP的设计方法,包括算法硬件化、定点、浮点运算处理等。同时积累了整套SoC设计所需的控制类IP,并成功通过流片验证。
  • “中国IC设计成就奖”提名产品简介:智能安防AI SoC芯片 亿智SV826是2021年推出的高性能的安防AI SoC芯片,主要面向视频编解码AI摄像机产品。
  • “中国IC设计成就奖”提名产品简介:低功耗视觉AIoT SoC 亿智SH516芯片是亿智电子2021年推出的一款低功耗的智能视觉AIoT SoC芯片。
  • “中国IC设计成就奖”提名产品简介:高性能大算力全场景 - AI性能跑分更强,超越Nvidia Orin - 应用当前先进的安全技术和研发流程 - 国内唯一可获得、支持快速量产的整车智能计算平台芯片
  • “中国IC设计成就奖”提名产品简介:高端AIoT芯片RV1126 RK3568是瑞芯微的高端AIoT芯片。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了