从大佬向数据堂买数据说起，聊聊GAN加密

这几日国内曝出一件涉嫌数据泄露的要案，涉案公司多达 11 家，查获公民信息数据 4000 GB、数百亿条。其中，国内知名大数据公司、新三板上市公司「数据堂」涉案。

此案涉及的数据隐私性高，案件涉及的上网 URL 数据，包含了手机号、上网基站代码等 40 余项信息要素，记录手机用户具体的上网行为，甚至部分数据能够直接进入公民个人账号主页。国内外多家互联网企业包括 Google、华为在内，都是数据堂的重要收入客户。

想发展 AI 不可避免侵占数据？

对全球任何一家 AI 公司的研发工程师来说，能够获得大量真实数据，对于研发 AI 模型是非常有帮助的，如果数据的纯度够高的话，就更好了。他们可以更方便的处理数据，更高效地比较和评估模型，从而得出正确的解决方案，应对现实生活中的问题。

然而，受制于数据保密问题，这些巨头们能共享的数据相当有限。所以向数据堂这样的公司去买数据，在行业内其实是一件稀松平常的事情。

不仅是中国，全球用户都对数据的隐私性和保密度没有特别清晰的认识，在使用各种互联网产品时，都不得不在「用户使用协议」上选择那个「是」。

大佬们买来数据，然后呢？

大佬们花了重金买了数据，当然会让这些数据高效利用起来。

他们一边买进数据，一边用自家产品收集数据，还在研发更安全的加密方式，来保护自己的数据。

真是弱者恒弱，强者恒强

作为工程师，我们还是聊一聊目前普遍应用的几种数据加密方式，以及如何去理解他们的性质原理。

先天不足的匿名化数据的保护机制

目前，比较常用的数据共享保密机制是通过匿名化数据集来实现，但在大多数情况下，这仍算不上一个很好的解决方案。

数据匿名化可以通过掩盖一些敏感数据，在一定程度上起到保密作用，但它却不能阻止数据专家的推理。在实际应用过程中，通过相关信息的逆向推导，完全可以推理出被掩盖的敏感数据。

此前有一位德国研究员在德国汉堡举行的第 33 届混沌通信大会（Chaos Communication Congress）上发表过一篇名叫《Build your own NSA》的研究文，讲的就是关于如何逆数据匿名化找到原信息。

该研究员通过一家虚拟公司，免费获得了一份约 300 万德国人一个月的 Web 点击流信息。这些信息是匿名化处理过的，比如用一串随机字符「4vdp0qoi2kjaqgb」来替代用户的真实名称。

而该研究员通过用户的历史浏览记录等相关信息，成功推导出用户在该网站上的真实名称。可见，数据匿名化并不能将保密做的严丝合缝。

混沌通信大会是由欧洲最大的黑客联盟组织――德国混沌电脑俱乐部（Chaos Computer Club）主办。主要研讨计算机和网络安全问题，旨在推进计算机和网络安全。

于是，同态加密法诞生

这是密码学领域的突破性成就之一，解密方只能获知最后的结果，而无法获得每一个密文的具体信息。

同态加密可以有效提高信息的安全性，未来可能会成为 AI 领域的一项关键技术，但现在来看，应用场景有限。

同态加密简单来讲，就是我的数据可以根据你的需要让你使用，但你无法看见这些数据具体是什么。

这种加密方式虽然有效，但其计算成本太高

基本的同态加密技术可以将 1MB 的数据转换为 16GB，这在 AI 场景中成本很高。而且，同态加密技术(就像大多数加密算法一样)通常是不可微的，这对随机梯度下降(SGD)等主流 AI 算法来讲，有点不太适用。

目前来看，同态加密技术基本停留在概念层面，很难投入实际应用，不过未来可期。

GAN 加密技术了解一下

Google 在 2016 年发表过一篇论文，叫《 Learning to Protect Communications with Adversarial Neural Cryptography 》，文中详细介绍了一种基于 GAN 的加密技术，能有效解决数据共享过程中的数据保护问题。

这是一种基于神经网络的加密技术，通常情况下，神经网络被认为很难用于加密技术，因为它们难以执行 XOR 操作。

但事实证明，神经网络可以从其他的神经网络中学习如何对数据进行保密：他们能发现所有的加密和解密方法，却不会为加密或解密生成算法。

GAN 加密技术如何保护数据

GAN 的加密技术涉及三个方面，我们可以用 Alice、Bob 和 Eve 来展示。通常，Alice 和 Bob 是安全通信的两端，Eve 则监听他们的通信，试图逆向找到原数据信息。

Alice 向 Bob 发送一条机密消息 P，由 Alice 输入。当 Alice 处理这个输入时，它会产生一个输出 C (「P」代表「明文」，「C」代表「密文」)

Bob 和 Eve 都接收 C，并尝试通过 C 恢复 P（我们分别用 PBob 和 PEve 来表示这些计算）。

与 Eve 相比，Bob 拥有一个优势 : 他和 Alice 共享一个密钥 K。

Eve 的目标很简单 : 精确重构 P (换句话说，最小化 P 和 PEve 之间的误差)。

Alice 和 Bob 则希望清晰地进行通信(以最小化 P 和 PBob 之间的误差)，但同时也希望对 Eve 隐藏他们的通信。

通过 GAN 技术，Alice 和 Bob 被共同训练，在学习规避 Eve 监听的同时，成功实现信息的传递。整个过程没有使用任何预先设定好的算法，在 GAN 的原则下，Alice 和 Bob 被训练去打败最好的 Eve，而不是某个固定的 Eve。

如下图所示，在大约 8000 个训练步骤中，Bob 和 Eve 都可以开始重构原始消息。在大约 10000 个训练步骤中，Alice 和 Bob 网络似乎发现了 Eve，并开始干扰 Eve，导致 Eve 的错误率上升。也就是说，Bob 能够从 Eve 的行为中学习并保护通信，在避免被攻击的同时实现准确的消息重构。