Deidentify数据:傻瓜的陷阱

通过加入其他数据集来重新识别是微不足道的

个人可识别的信息(PII)现在几乎在世界各地监管。但是有一种方法可以避免这些态度似乎很容易。如果个人信息没有与名称,地址和电子邮件等标识符相关联,则它不被视为pii;意思是,对分享,采矿,销售或保持该数据没有限制。

像GDPR等法规明确允许这种方法隐私。具体来说,第32条处理安全性,要求“个人数据的假仓化和加密”第4条定义pseymatmization:

‘pseudonymisation’ means the processing of personal data in such a manner that the personal data can no longer be attributed to a specific data subject without the use of additional information, provided that such additional information is kept separately and is subject to technical and organisational measures to ensure that the personal data are not attributed to an identified or identifiable natural person;

听起来很容易,对吗?但如果有人能够接受Deidentif或假义的数据并重新识别它,您仍然是第四项。换句话说,如果有人能弄清楚一组数据实际上涉及谁,那就是你的错,因为你没有充分匿名它。这意味着你需要在这里非常小心,或准备好一些罚款......

有一个陷阱等待与他们认为是匿名的数据的公司。仅仅因为删除了身份的直接链接并不意味着可以找到间接链接。实际上,我保证所有但是最简单的小型数据集的所有间接链接都存在。

当我们考虑某些数据是否是匿名的时,我们几乎总是孤立地评估它。如果数据已加入其他数据来源,它非常容易忘记或忽略可能发生的事情。这是问题的症结。

纽约时报在他们的文章中阐述了这一点,“您的应用程序知道您昨晚在哪里,他们不会留下秘密。“其他人之间的天气应用销售您的匿名位置数据。但是,通过将位置路径加入像白页的公共数据集,这数据是史上重新识别的。很少有人在我的家和我的办公室之间来回来回(当去办公室是一件事时)。从一堆位置数据中挑选我很容易。在巨大的匿名位置,如果您遵循任何给定的线程,那么将有强有力的线索,这是谁是谁,这可能导致各种无意的披露。

但它不仅仅是位置数据。用于解码个人可识别数据的线索到处都是。虽然隐私风险永远不会为零,但在共享数据时,我们需要默认到我们的数据集的数据集更高程度,而不是在隔离中查看任何一个数据集时可能出现的数据集。

这不是学术假设。遗传学家有重新确定的人来自“匿名”DNA数据集,科学家们还从“匿名”数据集中重新确定个人只有几个特点

这是“大数据”的年龄。人们迅速生成它,公司贪婪地收集它。例如,人们会采取1.4万亿全球照片今年。这是惊人的。和26亿用户每月与Facebook互动,每天23亿用户每天互动。我想知道有哪些数据可以加入金融,健康,旅行和其他数据集。我期待了很多。

当共享“Anonyized”数据时,您必须要求自己如面部识别,位置信息,营销表档,人口统计数据和其他数据源都可以将其配对,以丰富它,并最终重新识别它。

这是另一个玩具例子。假设我们有一份银行账户余额清单,但名称被列出。那是无害的,对吗?它没有交易或位置或名称。没有人会知道谁是谁,对谁?

匿名银行数据。等等......我想知道谁#3是谁?

除了Pesky Forbes喜欢发布关于持有人和净值的数据的数据。杰夫可能想在此之后改变银行。

这将我们带到另一个点:故障的栏不具有100%确定性重新识别的所有记录。它让他们中的任何一个重新凝避甚至缩小到几个人。因此,异常数据可以危及您的整个方法。像这样的数据有可能为依赖于Deidentification或假义的公司履行巨额责任。

加入数据集的挑战当今尤其相关,因为世界各地的政府实体试图追踪和控制Covid-19爆发。广泛的位置跟踪正在产生令人难以置信的大型数据集,可能销售到各种公司和政府实体的销售或分享。或者被黑客偷走了。即使该数据是匿名的,它可能包括我们已经知道的位置数据非常容易重新识别。

美国人已经使用像Apple和Google等科技公司共享其他数据的持怀疑态度通过COVID相关的应用程序。他们是对的。2013年研究自然界发表发现随着人们旅行的人员收集的四个独特的数据点,足以识别95%的个人。

密码似乎是字母替代拼图,这些拼图在许多方面是重新入住“匿名”数据集的难题。

所以下次你正在使用一个应用程序,他们告诉你,他们只在匿名之后共享您的数据,undymination或Deidentify IT - 逃跑。除非您真正不关心营销人员,黑客,政府,研究人员或厌倦了密码攻击并准备不同的挑战,否则快速跑步

对于持有PII或贩售个人数据的公司来说,我们这么说:您需要通过使用强大的加密控件,并通过最小化您存储和分享的内容来更远的是模糊或铲斗值。不要看您的匿名数据集,而无需想象其他数据所规定的内容可以用于揭开其中的人。

此博客是基于会议演示的一部分,我在今年早些时候在雪佛港发表。您可以在下面观看完整的演示文稿。

咸哈希

建筑物安全的提示,技巧,指针和透视图......

谢谢Riah Solomon.

写道

学者,梦想家,创造者,冒险家,黑客,领导者和观察者。倡导隐私和安全。CEO Ironcore实验室。

咸哈希

建立安全,可测试,可维护的应用程序的提示,技巧,指针和透视图。Ironcore实验室安全与隐私的思考与观察。

写道

学者,梦想家,创造者,冒险家,黑客,领导者和观察者。倡导隐私和安全。CEO Ironcore实验室。

咸哈希

建立安全,可测试,可维护的应用程序的提示,技巧,指针和透视图。Ironcore实验室安全与隐私的思考与观察。

中等的是一个开放的平台,17亿读者来寻找洞察力和动态的思维。在这里,专家和未被发现的声音相似地潜入任何主题的核心,并将新的想法带到表面上。学到更多

遵循对您有关的作家,出版物和主题,您将在您的主页和收件箱中看到它们。探索

如果您有一个故事来讲述,知识分享,或者提供提供的视角 - 欢迎回家。很容易和免费发布您对任何主题的思考。写在中等的

获取媒体应用程序

一个按钮,称“在App Store上下载”,如果点击它将导致您到iOS App Store
一个按钮说'获得它,Google Play',如果点击它将导致您进入Google Play商店