您的位置：首页 >资讯 > 科技 >

AI隐私难题神经网络知道的比它说的要多

2019-09-03 17:58:42 来源：

导读人工智能是使用诸如神经网络之类的机器来描述数据的过程。大多数时候，所谓的是一件简单的事情，比如将图片分类为猫和狗。然而，人工智能科

人工智能是使用诸如神经网络之类的机器来描述数据的过程。大多数时候，所谓的是一件简单的事情，比如将图片分类为猫和狗。

然而，人工智能科学家越来越多地提出有关神经网络“知道”的问题，如果你愿意的话，那就不能用简单的目标来捕捉，例如分类图片或生成假文本和图像。

事实证明，即使计算机在一个人的意义上并不真正知道任何事情，也会有很多未说明的事情。看起来，神经网络可以保留特定训练数据的记忆，这可以打开在训练活动中捕获数据的个人侵犯隐私。

例如，加州大学伯克利分校人工智能实验室的学生尼古拉斯卡里尼(Nicholas Carlini)在与伯克利同事共同完成的工作中，解决了计算机“记忆”培训数据的问题。(Carlini现在使用Google的Brain部门。)7月，在arXiv预打印服务器上张贴的一篇名为“The Secret Sharer”的论文中，Carlini及其同事讨论了神经网络如何保留特定的数据。用于训练网络生成文本的数据集合。这有可能让恶意代理人挖掘神经网络中的敏感数据，如信用卡号和社会安全号码。

这些正是研究人员在使用所谓的长期记忆神经网络或“LSTM”训练语言模型时发现的数据。

LSTM网络就是所谓的“生成”神经网络，这意味着它被设计为一旦输入数百万人类写作的例子就产生原始文本，就像人类写作一样。换句话说，它是假文本的生成器。给定来自人的输入句子，训练的网络响应于提示产生原始书写。

网络应该通过基于它编译的语言模型形成原始句子来实现这一点，而不是简单地重复它已经暴露的文本串。

Carlini及其同事写道：“理想情况下，即使训练数据包含关于某些个人用户的罕见但敏感的信息，神经网络也不会记住这些信息，也不会将其作为一个句子完成而发出。”

但是，事实证明，那些随机的，不寻常的文本字符串仍然在网络中的某处。

“不幸的是，我们表明，除非非常小心，否则神经网络的训练可能会导致这种情况发生。”

除正式文件外，Carlini还于8月13日在Berkeley AI网页上发布了一篇关于这项工作的博客。

为了测试他们的假设，他们用一个唯一的字符串“我的社会安全号码是078-05-1120”来加标训练数据。然后，当他们在训练有素的模型中输入提示“我的社会安全号码是078-”时，他们发现网络“产生插入数字的剩余部分'-05- 1120'。”

他们通过使用现有数据集进一步验证了他们的发现，这些数据集包含真实的秘密，在调查中收集的电子邮件收集到臭名昭着的失败的能源公司安然公司。一旦LSTM网络接受了电子邮件数据的培训，他们就会使用一种称为树搜索的算法来查看LSTM网络图的各个部分。他们能够提取真实的信用卡和社会安全号码。

AI和ML部署正在进行中，但对于CXO来说，最大的问题将是管理这些计划，并确定数据科学团队的适用范围以及购买与构建的算法。

作者很快指出，目前尚不清楚任何滥用这种现象的可能性是多么有效，因为它假定对数据集的某些知识开始。但令人不安的观点是，神经网络可能记住奇数据点，今年在另一篇论文中得到了更广泛的处理，这些论文提到了Carlini&Co。的工作。

Carlini在谷歌大脑的同事维塔利·费尔德曼(Vitaly Feldman )在6月写道，个人数据点的记忆是许多统计方法(包括神经网络)的一个基本要素，它们能够从训练数据推广到看不见或测试数据。

在“学习是否需要记忆?关于长尾的短暂故事”中，费尔德曼写道，记忆是各种统计方法的固有属性，包括简单的统计学支持，如“k最近邻居”和“支持向量机”。Feldman理论化的原因是因为在任何数据分布中有许多数据点是数据“长尾”中的“异常值”。人们会认为这些异常值可以被安全地忽略。但是，神经网络需要保留这些罕见的数据点才能正常运行。

正如他所说的那样，“观察从某个亚群中采样的单个点会增加对后分布下子群频率的期望，”因此，“这种增加会使这种期望变得显着，因此必须记住这一点。重点。“

Feldman引用Carlini&Co。的工作，直接解决隐私问题。他指出，唯一可以确保不记住单个数据点的系统是那些被称为“差异隐私”的系统。但是这样的统计模型从未达到与未明确保证隐私的模型一样高的准确率。

“尽管最近在培训具有差异隐私的深度学习网络方面取得了重大进展，但它们仍远远落后于没有差别隐私的最先进技术，”费尔德曼写道。

费尔德曼提醒说，需要做大量的实证研究来验证他的理论发现。需要更多地探索深度学习中记忆的存在。“在DNN背景下理解这些机制仍然是一个重要且具有挑战性的问题，”他写道。

Carlini和Feldman的工作都反映了今年其他关于神经网络知道什么没有出现在网络输出中的报道。例如，艾伦艾伦研究所和保罗艾伦计算机科学学院的Rowen Zellers和他的同事表明，OpenAI的GPT2等文本的生成模型正在根据长尾的“甜蜜点”来挑选单词。任何自然语言的词频。在某种意义上，该模型“知道”许多其他单词组合，但通常不会使用它们来生成文本。

今年由加州大学伯克利分校的Benjamin Recht及其同事开展的图像识别工作表明，在略有不同版本的测试数据上进行测试时，最先进的图像识别深度学习系统会遇到麻烦。他们在该论文中的假设是神经网络“难以从'易'到'硬'图像推广。” 这似乎与费尔德曼关于差异隐私的观点一致，即，在没有记忆的情况下，当遇到数据的“硬”例子时，例如“异常值或非典型的”，差异隐私会绊倒。

这些研究将使关于所谓的神经网络黑盒中发生的事情的争论更加复杂化。

麻省理工学院的研究人员Logan Engstrom及其同事今年早些时候在一篇题为“ 对抗性例子不是错误，它们是特征 ” 的挑衅性论文中探讨了数据的“对抗性例子”现象。对抗性示例是训练数据的修改，其可以欺骗机器学习模型以错误地对数据进行分类。作者发现他们可能会混淆数据中的小细节，这些细节似乎与计算机无关。那是因为那些小细节并非无关紧要; 它们有助于神经网络的运作。

“我们实验的另一个含义是模型可能甚至不需要我们人类认为在标准图像数据集上做得很好(在泛化意义上)'有意义'的任何信息，”Engstrom及其同事在最近的一次后续讨论中写道那篇论文。

这一切似乎都回到了神经网络所保留的内容与允许表达的内容之间。研究员周正龙和约翰霍普金斯大学心理与脑科学系的Chaz Firestone 在3月份发表在Nature Communications上的论文中表达了很好的表现。他们发现，当神经网络分类器错过标记并错误识别图像中的对象时，它在某种意义上是由于计算机不被允许完全表达图像中所观察到的所有内容这一事实的结果。被对抗性的变化所扰乱。

正如作者在他们的结论中写道的那样，“人类有一些独立的概念，看起来像是某种东西而不是那种东西 - 就像云看起来像狗一样看起来像是狗或蛇皮鞋就像蛇的特征没有看似是一条蛇，甚至一只橡皮鸭与真实的东西共享而不会混淆鸭子 - CNNs [卷积神经网络，图像识别程序的主要形式]不允许做出这种区分，而是被迫玩挑选他们的曲目中最符合图像标签的游戏(就像我们实验中的人类一样)。“

这表明研究人员在深度学习黑盒子的明显暗物质中有一个丰富的，不断扩大的领域

免责声明：本文由用户上传，如有侵权请联系删除！

标签： AI