Quantcast
Channel: CodeSection,代码区,网络安全 - CodeSec
Viewing all articles
Browse latest Browse all 12749

从大佬向数据堂买数据说起,聊聊GAN加密

$
0
0

这几日国内曝出一件涉嫌数据泄露的要案,涉案公司多达 11 家,查获公民信息数据 4000 GB、数百亿条。其中,国内知名大数据公司、新三板上市公司「数据堂」涉案。

此案涉及的数据隐私性高,案件涉及的上网 URL 数据,包含了手机号、上网基站代码等 40 余项信息要素,记录手机用户具体的上网行为,甚至部分数据能够直接进入公民个人账号主页。国内外多家互联网企业包括 Google、华为在内,都是数据堂的重要收入客户。

想发展 AI 不可避免侵占数据?

对全球任何一家 AI 公司的研发工程师来说,能够获得大量真实数据,对于研发 AI 模型是非常有帮助的,如果数据的纯度够高的话,就更好了。他们可以更方便的处理数据,更高效地比较和评估模型,从而得出正确的解决方案,应对现实生活中的问题。


从大佬向数据堂买数据说起,聊聊GAN加密

然而,受制于数据保密问题,这些巨头们能共享的数据相当有限。所以向数据堂这样的公司去买数据,在行业内其实是一件稀松平常的事情。

不仅是中国,全球用户都对数据的隐私性和保密度没有特别清晰的认识,在使用各种互联网产品时,都不得不在「用户使用协议」上选择那个「是」。

大佬们买来数据,然后呢?

大佬们花了重金买了数据,当然会让这些数据高效利用起来。

他们一边买进数据,一边用自家产品收集数据,还在研发更安全的加密方式,来保护自己的数据。


从大佬向数据堂买数据说起,聊聊GAN加密

真是弱者恒弱,强者恒强

作为工程师,我们还是聊一聊目前普遍应用的几种数据加密方式,以及如何去理解他们的性质原理。

先天不足的匿名化数据的保护机制

目前,比较常用的数据共享保密机制是通过匿名化数据集来实现,但在大多数情况下,这仍算不上一个很好的解决方案。

数据匿名化可以通过掩盖一些敏感数据,在一定程度上起到保密作用,但它却不能阻止数据专家的推理。在实际应用过程中,通过相关信息的逆向推导,完全可以推理出被掩盖的敏感数据。

此前有一位德国研究员在德国汉堡举行的第 33 届混沌通信大会(Chaos Communication Congress)上发表过一篇名叫 《Build your own NSA》 的研究文,讲的就是关于如何逆数据匿名化找到原信息。


从大佬向数据堂买数据说起,聊聊GAN加密

该研究员通过一家虚拟公司,免费获得了一份约 300 万德国人一个月的 Web 点击流信息。这些信息是匿名化处理过的,比如用一串随机字符 「4vdp0qoi2kjaqgb」 来 替代用户的真实名称。

而该研究员通过用户的历史浏览记录等相关信息,成功推导出用户在该网站上的真实名称。可见,数据匿名化并不能将保密做的严丝合缝。

混沌通信大会是由欧洲最大的黑客联盟组织――德国混沌电脑俱乐部(Chaos Computer Club)主办。主要研讨计算机和网络安全问题,旨在推进计算机和网络安全。

于是,同态加密法诞生

这是密码学领域的突破性成就之一,解密方只能获知最后的结果,而无法获得每一个密文的具体信息。

同态加密可以有效提高信息的安全性,未来可能会成为 AI 领域的一项关键技术,但现在来看,应用场景有限。

同态加密简单来讲,就是我的数据可以根据你的需要让你使用,但你无法看见这些数据具体是什么。


从大佬向数据堂买数据说起,聊聊GAN加密

这种加密方式虽然有效,但其计算成本太高

基本的同态加密技术可以将 1MB 的数据转换为 16GB,这在 AI 场景中成本很高。而且,同态加密技术(就像大多数加密算法一样)通常是不可微的,这对随机梯度下降(SGD)等主流 AI 算法来讲,有点不太适用。

目前来看,同态加密技术基本停留在概念层面,很难投入实际应用,不过未来可期。

GAN 加密技术了解一下

Google 在 2016 年发表过一篇论文,叫 《 Learning to Protect Communications with Adversarial Neural Cryptography 》 ,文中详细介绍了一种基于 GAN 的加密技术,能有效解决数据共享过程中的数据保护问题。


从大佬向数据堂买数据说起,聊聊GAN加密

这是一种基于神经网络的加密技术,通常情况下,神经网络被认为很难用于加密技术,因为它们难以执行 XOR 操作。

但事实证明,神经网络可以从其他的神经网络中学习如何对数据进行保密:他们能发现所有的加密和解密方法,却不会为加密或解密生成算法。

GAN 加密技术如何保护数据

GAN 的加密技术涉及三个方面,我们可以用 Alice、Bob 和 Eve 来展示。通常,Alice 和 Bob 是安全通信的两端,Eve 则监听他们的通信,试图逆向找到原数据信息。


从大佬向数据堂买数据说起,聊聊GAN加密

Alice 向 Bob 发送一条机密消息 P,由 Alice 输入。当 Alice 处理这个输入时,它会产生一个输出 C (「P」代表「明文」,「C」代表「密文」)

Bob 和 Eve 都接收 C,并尝试通过 C 恢复 P(我们分别用 PBob 和 PEve 来表示这些计算)。

与 Eve 相比,Bob 拥有一个优势 : 他和 Alice 共享一个密钥 K。

Eve 的目标很简单 : 精确重构 P (换句话说,最小化 P 和 PEve 之间的误差)。

Alice 和 Bob 则希望清晰地进行通信(以最小化 P 和 PBob 之间的误差),但同时也希望对 Eve 隐藏他们的通信。

通过 GAN 技术,Alice 和 Bob 被共同训练,在学习规避 Eve 监听的同时,成功实现信息的传递。整个过程没有使用任何预先设定好的算法,在 GAN 的原则下,Alice 和 Bob 被训练去打败最好的 Eve,而不是某个固定的 Eve。

如下图所示,在大约 8000 个训练步骤中,Bob 和 Eve 都可以开始重构原始消息。在大约 10000 个训练步骤中,Alice 和 Bob 网络似乎发现了 Eve,并开始干扰 Eve,导致 Eve 的错误率上升。也就是说,Bob 能够从 Eve 的行为中学习并保护通信,在避免被攻击的同时实现准确的消息重构。


从大佬向数据堂买数据说起,聊聊GAN加密

回到 AI 应用程序,GAN 加密技术可以用来在公司和神经网络之间交换信息,而不需要保持高度的隐私。对于 AI 应用来说,是一个切实可行的数据保护方案。

因为,该模型可以学会有选择地保护信息,使数据集中的一些元素不被加密,但是可以防止任何形式的推断找到这些敏感数据,从而有效规避了数据匿名化的缺陷。

Google 团队在一个模型中调整了 GAN 加密体系结构,在这个模型中 Alice 和Bob 仍然共享一个密钥,但是 Alice 在这里接收 A、B、C,并在密文之外生成 D-public。

Bob 和 Eve 都可以访问 Alice 输出的 D-public。Bob 使用它们生成改进后的 D 估计值,让 Eve 通过该近似值逆向恢复 C。目的是证明逆向训练允许近似 D 而不暴露 C,并且该近似值可以与加密信息和密钥结合,以便更好的混淆 Eve 的视线。

为了验证该系统可以正确的隐藏信息,研究人员创造了一个评估器叫「Blind Eve」。它知道 C,但不知道 D-public 和密钥,而 Eve 知道这些信息。

如果Eve的重构误差等于 Blind Eve 的重构误差,这说明 Eve 没有成功提取到有效信息。经过几次训练,Eve 相对于 Blind Eve 不再具有优势。这表明 Eve 无法通过简单地了解到 C 值的分布,来重构任何关于 C 的信息。


从大佬向数据堂买数据说起,聊聊GAN加密

目前来看,在主流 AI 应用中,GAN 密码学算是一种相对新颖的技术。但从概念上讲,GAN 加密技术可以让公司与数据科学家共享数据集,而不必披露其中的敏感数据。

长远看来,想要获得用户信任和减少法务危机,加密技术还是其次,最重要的还是互联网厂商对于用户隐私的尊重和合理使用。

声明:本文来自超神经HyperAI,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如需转载,请联系原作者获取授权。


Viewing all articles
Browse latest Browse all 12749

Latest Images

Trending Articles





Latest Images