Deidentify数据:傻瓜的陷阱

通过连接其他数据集,重新识别是很简单的

个人身份信息(PII)现在几乎在世界各地都受到监管。但有一种方法可以避免这些看似简单的法律。如果个人信息没有链接到诸如姓名、地址和电子邮件等标识符,那么它就不被认为是PII;也就是说,共享、挖掘、出售或保存这些数据没有任何限制。

像GDPR等法规明确允许这种方法隐私。具体来说,第三十二条处理安全性,要求“对个人资料进行假名化和加密”,以及第4条定义了pseudonymization:

‘pseudonymisation’ means the processing of personal data in such a manner that the personal data can no longer be attributed to a specific data subject without the use of additional information, provided that such additional information is kept separately and is subject to technical and organisational measures to ensure that the personal data are not attributed to an identified or identifiable natural person;

听起来很容易,对吗?但如果有人能够接受Deidentif或假义的数据并重新识别它,您仍然是第四项。换句话说,如果有人能弄清楚一组数据实际上涉及谁,那就是你的错,因为你没有充分匿名它。这意味着你需要在这里非常小心,或准备好一些罚款......

有一个陷阱等待与他们认为是匿名的数据的公司。仅仅因为删除了身份的直接链接并不意味着可以找到间接链接。实际上,我保证所有但是最简单的小型数据集的所有间接链接都存在。

当我们考虑某些数据集是否匿名时,我们几乎总是孤立地评估它。如果该数据与其他数据源连接,很容易忘记或忽略可能发生的情况。这就是问题的症结所在。

《纽约时报》在他们的文章中很好地阐释了这一点,”您的应用程序知道您昨晚在哪里,他们不会留下秘密天气应用等会出售你的匿名位置数据。但是这些数据是通过连接位置路径和公共数据集(比如白页)来重新识别的。很少有人在我的家和办公室之间来回走动(当去办公室是一件事时)。把我从一堆位置数据中挑出来很容易。在一大堆匿名地点中,如果你跟随任何一个线索,就会有关于那个人是谁的有力线索,这可能会导致各种各样的意外披露。

但它不仅仅是位置数据。用于解码个人可识别数据的线索到处都是。虽然隐私风险永远不会为零,但在共享数据时,我们需要默认到我们的数据集的数据集更高程度,而不是在隔离中查看任何一个数据集时可能出现的数据集。

这不是一个学术假设。遗传学家重新确定的人从“匿名”的DNA数据集中,科学家们也从“匿名”数据集中重新确定了个体的身份只有几个特点

这是一个“大数据”时代。人们快速生成信息,公司贪婪地收集信息。例如,人们会1.4万亿年全球照片今年。这是惊人的。和26亿用户他们每个月都和Facebook互动,其中有23亿用户每天都在互动。我想知道其中有哪些数据可以与金融、健康、旅游和其他数据集结合起来。我想有很多。

当共享“Anonyized”数据时,您必须要求自己如面部识别,位置信息,营销表档,人口统计数据和其他数据源都可以将其配对,以丰富它,并最终重新识别它。

这是另一个玩具例子。假设我们有一份银行账户余额清单,但名称被列出。那是无害的,对吗?它没有交易或位置或名称。没有人会知道谁是谁,对谁?

匿名银行数据。等等,我想知道第三号是谁?

除了Pesky Forbes喜欢发布关于持有人和净值的数据的数据。杰夫可能想在此之后改变银行。

这让我们想到了另一点:失败的标准不是100%确定地重新确定所有的记录。而是对他们中的任何一个人进行重新识别甚至缩小到几个人的范围。所以这些异常数据会影响你的整个方法。像这样的数据有可能给那些过于依赖去身份或假名的公司带来巨大的麻烦。

加入数据集的挑战当今尤其相关,因为世界各地的政府实体试图追踪和控制Covid-19爆发。广泛的位置跟踪正在产生令人难以置信的大型数据集,可能销售到各种公司和政府实体的销售或分享。或者被黑客偷走了。即使该数据是匿名的,它可能包括我们已经知道的位置数据非常容易重新识别。

美国人已经使用像Apple和Google等科技公司共享其他数据的持怀疑态度通过COVID相关的应用程序。他们是对的。2013年研究自然界发表发现人们旅行时从手机中收集的四个独特的数据点足以识别95%的人。

密码是字母替换谜题,在许多方面类似于重新识别“匿名”数据集的谜题。

所以下次你正在使用一个应用程序,他们告诉你,他们只在匿名之后共享您的数据,undymination或Deidentify IT - 逃跑。除非您真正不关心营销人员,黑客,政府,研究人员或厌倦了密码攻击并准备不同的挑战,否则快速跑步

对于持有PII或贩售个人数据的公司来说,我们这么说:您需要通过使用强大的加密控件,并通过最小化您存储和分享的内容来更远的是模糊或铲斗值。不要看您的匿名数据集,而无需想象其他数据所规定的内容可以用于揭开其中的人。

此博客是基于会议演示的一部分,我在今年早些时候在雪佛港发表。您可以在下面观看完整的演示文稿。

咸哈希

关于构建安全的提示、技巧、指针和透视图…

多亏了Riah所罗门

写的

学者,梦想家,创造者,冒险家,黑客,领导者和观察者。倡导隐私和安全。CEO Ironcore实验室。

咸哈希

关于构建安全、可测试、可维护的应用程序的提示、技巧、指针和观点。来自IronCore实验室的关于安全和隐私的想法和观察。

写的

学者,梦想家,创造者,冒险家,黑客,领导者和观察者。倡导隐私和安全。CEO Ironcore实验室。

咸哈希

关于构建安全、可测试、可维护的应用程序的提示、技巧、指针和观点。来自IronCore实验室的关于安全和隐私的想法和观察。

中等的是一个开放的平台,1.7亿读者可以在这里找到深刻和动态的思考。在这里,专家和未被发现的声音同样会深入任何话题的核心,并带来新的想法。学到更多

遵循对您有关的作家,出版物和主题,您将在您的主页和收件箱中看到它们。探索

如果你有故事要讲,有知识要分享,有观点要提供,欢迎回家。发布你对任何话题的想法都是很容易和免费的。开一个博客

获取媒体应用程序

一个按钮,称“在App Store上下载”,如果点击它将导致您到iOS App Store
一个按钮,上面写着“Get it on,谷歌Play”,如果点击它,你就会进入谷歌Play商店