解密数据:傻瓜陷阱

通过连接其他数据集,重新识别是很简单的

个人身份信息(PII)现在几乎在世界各地都受到监管。但有一种方法可以避免这些看似简单的法律。如果个人信息没有链接到诸如姓名、地址和电子邮件等标识符,那么它就不被认为是PII;也就是说,共享、挖掘、出售或保存这些数据没有任何限制。

GDPR等法规明确允许这种隐私保护方式。具体地说,第三十二条,安全的处理,要求“对个人资料进行假名化和加密”,以及第四条定义了pseudonymization:

“假名化”指在处理个人资料时,在不使用额外资料的情况下,该等个人资料不得归属于某一特定资料当事人,但该等额外资料须单独保存,并须采取技术及组织措施,以确保该等个人资料不会归属于已辨识或可辨识的自然人;

听起来很简单,对吧?但如果有人能够获取你已被识别或假名化的数据并重新识别,你仍然是有罪的。换句话说,如果有人能找出一组数据实际上与谁有关,那就是你的错,因为你没有充分地将其匿名化。这意味着你在这里要非常小心,否则你会被罚款的。

有一个陷阱等待着那些分享他们认为是匿名的数据的公司。只是因为与一个身份的直接联系被删除了,并不意味着就没有可以找到的间接联系。事实上,我保证除了最琐碎和小的数据集之外,所有数据集都存在这种间接链接。

当我们考虑某些数据集是否匿名时,我们几乎总是孤立地评估它。如果该数据与其他数据源连接,很容易忘记或忽略可能发生的情况。这就是问题的症结所在。

《纽约时报》在他们的文章中很好地阐释了这一点,”你的应用程序知道你昨晚在哪里,而且他们不会对你保密天气应用等会出售你的匿名位置数据。但是这些数据是通过连接位置路径和公共数据集(比如白页)来重新识别的。很少有人在我的家和办公室之间来回走动(当去办公室是一件事时)。把我从一堆位置数据中挑出来很容易。在一大堆匿名地点中,如果你跟随任何一个线索,就会有关于那个人是谁的有力线索,这可能会导致各种各样的意外披露。

但这不仅仅是位置数据。解码个人身份数据的线索无处不在。虽然隐私风险永远不会为零,但当涉及到共享数据时,我们需要默认为数据集提供比单独查看任何一个数据集时可能需要的更高程度的数据保护。

这不是一个学术假设。遗传学家之后的人从“匿名”的DNA数据集中,科学家们也从“匿名”数据集中重新确定了个体的身份只有几个特点

这是一个“大数据”时代。人们快速生成信息,公司贪婪地收集信息。例如,人们会1.4万亿年今年的全球照片。这是惊人的。26亿用户他们每个月都和Facebook互动,其中有23亿用户每天都在互动。我想知道其中有哪些数据可以与金融、健康、旅游和其他数据集结合起来。我想有很多。

在分享“匿名”数据时,你必须问问自己,是否可以将面部识别、位置信息、营销资料、人口统计数据和其他数据源与你的数据进行配对,以丰富它,并最终重新识别它。

这是另一个玩具的例子。假设我们有一个银行账户余额列表,但是名字被擦掉了。这是无害的,对吗?没有交易记录,地址和姓名。没人会知道谁是谁,对吧?

匿名银行数据。等等,我想知道第三号是谁?

除了讨厌的《福布斯》喜欢发布关于非常富有的人的资产和净资产的数据。杰夫可能想在这之后换银行。

这让我们想到了另一点:失败的标准不是100%确定地重新确定所有的记录。而是对他们中的任何一个人进行重新识别甚至缩小到几个人的范围。所以这些异常数据会影响你的整个方法。像这样的数据有可能给那些过于依赖去身份或假名的公司带来巨大的麻烦。

在世界各地的政府实体试图追踪和控制COVID-19疫情的今天,加入数据集的挑战尤其重要。广泛的位置追踪正在产生难以置信的大数据集,这些数据集有可能出售给各种公司和政府实体或与它们共享。或者被黑客偷走。即使这些数据是匿名的,也可能包括位置数据,我们已经知道这些数据很容易被重新识别。

美国人已经对与苹果和谷歌等科技公司分享更多数据持怀疑态度他们的担心是对的。2013年发表在《自然》杂志上的一项研究发现人们旅行时从手机中收集的四个独特的数据点足以识别95%的人。

密码是字母替换谜题,在许多方面类似于重新识别“匿名”数据集的谜题。

所以,下次你使用一个应用程序时,如果他们告诉你,他们只有在匿名化、假名化或取消身份后才会分享你的数据,那你就逃跑吧。跑得远,跑得快,除非你真的不关心被分享的数据会被营销人员、黑客、政府、研究人员或好奇的谜题者追踪到你,他们已经厌倦了密码,准备迎接不同的挑战。

对于持有PII或兜售个人数据的公司,我们要说:你需要更进一步,通过模糊或bucket值,通过使用强大的加密控制,并通过最小化你存储和共享的内容。不要在看到你的匿名数据集之前想象其他数据集可能会被用来揭露其中的人。

这个博客是基于我今年早些时候在SnowFROC上的一次会议演讲的系列文章的一部分。你可以在下面观看完整的演示。

咸的散列

关于构建安全的提示、技巧、指针和透视图…

多亏了Riah所罗门

写的

学者,梦想家,创造者,冒险家,黑客,领导者和观察者。提倡隐私和安全。首席执行官IronCore实验室。

咸的散列

关于构建安全、可测试、可维护的应用程序的提示、技巧、指针和观点。来自IronCore实验室的关于安全和隐私的想法和观察。

写的

学者,梦想家,创造者,冒险家,黑客,领导者和观察者。提倡隐私和安全。首席执行官IronCore实验室。

咸的散列

关于构建安全、可测试、可维护的应用程序的提示、技巧、指针和观点。来自IronCore实验室的关于安全和隐私的想法和观察。

媒介是一个开放的平台,1.7亿读者在这里发现深刻和动态的思维。在这里,专家和未被发现的声音同样会深入任何话题的核心,并带来新的想法。了解更多

关注与你有关的作家、出版物和主题,你会在你的主页和收件箱中看到它们。探索

如果你有故事要讲,有知识要分享,有观点要提供,欢迎回家。发布你对任何话题的想法都是很容易和免费的。写在媒介

获取媒体应用程序

有一个“在App Store上下载”的按钮,点击它就会引导你进入iOS App Store
一个按钮,上面写着“Get it on,谷歌Play”,如果点击它,你就会进入谷歌Play商店