查看原文
其他

Facebook事件发生是用户太无知无畏了?!

洪延青 网安寻路人 2020-02-27

在国内许多对Facebook事件的讨论中,有一种观点认为:其实那30万用户给了同意,所以导致自己连同朋友的信息被收集。而且被收集的都是5000万Facebook用户自愿公开的数据,既然公开了,那收集和利用又何罪之有?


上述观点集中体现在《财经》的这篇文章——【Facebook数据泄露事件的谎言与真相,谁最该反思


在这篇文章中,作者如是说:


“剑桥分析”的数据提供方“全球科学研究”公司正是依靠Facebook提供的合法途径,通过制作个人性格测试应用吸引了超过三十万用户向其开放授权,从而获取了这三十万用户和其社交关系上所有好友公开发布的信息,共计牵涉到近五千万Facebook的注册用户。用户授权真实有效,数据获取通过官方渠道道,Facebook对于第三方应用的管理原则也是目前互联网行业通用的方式。


作者还说:


“Facebook提供了多种粒度的个人信息开放控制手段供用户选择发布信息的范围。不管是所有人可见,还是好友可见,用户都很清楚自己在Facebook上发布的信息是面向公众或部分公众的。其中如果包含了个人隐私的话,也是用户自己主动向特定对象或不特定对象公开的。被授权访问这些个人信息的对象完全可以将此信息传播到更大的范围,而这往往是平台难以约束的。”


“剑桥分析”的数据提供方“全球科学研究”公司正是依靠Facebook提供的合法途径,通过制作个人性格测试应用吸引了超过三十万用户向其开放授权,从而获取了这三十万用户和其社交关系上所有好友公开发布的信息,共计牵涉到近五千万Facebook的注册用户。


作者提出,剑桥大学教授Kogan制作的app是抓取了公开数据,而美国的判例,特别是Linkedin vs. HiQ案件中,美国法院要求Linkedin不得阻止HiQ抓取公开数据,因此,政府现在又有什么理由来指责Kogan教授抓取数据呢?而且就算Kogan不抓取,剑桥数据分析公司去抓取了,又和HiQ公司又有何本质区别?所以凭什么双重标准?


因此“结合Facebook的案例来看,恰恰说明了美国政府自身对社交网络上用户信息的保护与监管原则都是混乱和自相矛盾的。”


总结一下:作者的基本逻辑是,首先,Kogan教授的APP明确获得了用户共享信息的授权。其次,Kogan教授的APP抓取的是Facebook用户主动在Facebook上发布的数据,既然用户敢在社交平台上发布,就必需清清楚楚地知道风险和后果,能够看到这些数据的人(无论是好友可见,还是所有人可见)都可能再二次传播数据。


综合上述两点:Kogan教授的App拿着30万用户的授权,然后把这30万用户的个人信息抓取了;又由于这30万用户的朋友的信息,无论是设置了好友可见(即对这30万用户可见),还是所有人可见(自然包括Kogan教授的App),Kogan教授的APP由于有这30万用户的授权,爬取这些用户的朋友的数据没毛病。所以,拿到这5000万人信息的行为,根本没毛病。


因此,问题的症结是这30万人。所以,作者有了如下的论断:


“剑桥分析”之所以能够获取高达近五千万用户的信息,就是依靠那三十万授权用户的无知无畏的行为——他们向应用开放的除了自己的个人信息,还包括自己社交网上所有好友的个人信息和Facebook上的活动,如点赞、评论等。而这三十万授权用户都是社交网络的活跃分子,在Facebook上的人均好友数超过160。于是他们轻率愚蠢的行为让自己160个以上的好友信息暴露在数据抓取工具的面前,最终受害者从三十万跃升到了五千万。




我想,任何人在发表评论之前,基本的功课还是要做的,得先把事实搞清楚。到底Kogan的APP是通过什么渠道取数据?Facebook在其中的角色又是什么?


首先,在【从扎克伯格的公开声明看数据保护和流动问题】中,扎克伯格自己承认,不应该以用户的同意,来替代用户的朋友对自己个人数据的控制。所以这点,在这篇文章中不再讨论。


重点应该关注的是Facebook平台向第三方app开放的接口——图谱API(Graph API)。Kogan的APP获取数据绝对不是上文所说的什么刮取(scrape)在用户放在自己页面上的信息,而是通过Facebook专门对外开放的数据接口。


这是上文的第一个事实错误。因此,Linkedin vs. HiQ的案例对此次Facebook事件是不相关的。因为Linkedin案例涉及直接在网页上的数据爬取或者刮取,而非通过API接口的数据获取。


对于图谱API,Facebook自己是这么介绍的:

大家注意到页面最后一句话——“一般来说,您可以使用节点获取有关特定对象的数据,使用连线获取与单个对象关联的对象集合,使用字段获取有关单个对象或集合中每个对象的数据。通过这句话,应该很容易理解为什么能通过用户的同意,来获得用户的朋友的数据了吧?


换句话说,用户在页面上能够控制“自己可见”、“好友可见”、“所有人可见”这样的设置,这是第一个层面。但是在API合作中,Facebook允许第三方app获取的数据字段范围,完全是另外一个层面上的事情。上文把这两件事情混淆,是第二个事实错误。


接下来我们来看Facebook在API形式的数据合作中的角色。先回顾扎克伯格自己的声明:


第一阶段:


2014年前,生态中的第三方app能在较大范围内访问Facebook的数据。这也是Kogan的App获得5000万用户数据的时期,对应Graph API 1.0.


第二阶段:

2014年,Facebook对平台进行重新设计(changing the entire platform),严格限制了生态中的app能够访问的用户数据范围。也就是收紧了接口。也就是下图中2014年4月30日上线的Graph API 2.0.

在2014年的架构变动中,Facebook还要求生态中第三方app上线前,开发者如果收集个人敏感信息,需要首先获得Facebook的同意。

对于第三方App已经获得的数据,Facebook原本仅是在管理规定中要求:除非取得同意,否则不得再次共享。


那么,Graph API 1.0能够获得用户朋友的哪些数据呢?据国外学者的研究,类型非常广泛:

包括:关于我、动作、活动、生日、登录时间、教育、事件、游戏、群组、居住地、兴趣、喜欢、地点、笔记、上线状态、标签、照片、问答、关系、宗教/政治、生活状态、订阅、网站、工作历史。(About me, actions, activities, b-day, check-ins, education, events, games, groups, hometown, interests, likes, location, notes, online status, tags, photos, questions, relationships, religion/politics, status, subscriptions, website, work history)


《财经》的该篇文章中还指出:


Facebook上有没有应该受系统严格保护的用户隐私数据呢?当然有。用户使用Facebook的时间、地点、设备信息,用户在Facebook上的浏览行为与私信,都是用户使用Facebook产生的且未对外发布的信息。从目前的报道来看,“剑桥分析”没有获得任何超范围授权的用户发布的信息,真正没有被授权发布的个人隐私信息也并没有流出Facebook。


而第三方APP是能通过Graph API 1.0,获得《财经》该篇文章中所谓的隐私数据的。这是第三个事实性错误。


究其原因,《财经》该篇文章的作者弄错了事实。首先,Kogan的app是通过API接口获取数据,而非爬取Facebook页面。既然是通过API,也就是必需要Facebook的同意授权才行。


其次,能够从API中拿到哪些数据,Facebook是绝对主导的。这也是为什么扎克伯格自己说,2014年Facebook自己说收紧了接口。


再次,用户能够控制自己页面上的信息对谁可见,但是并不能决定Facebook通过API对外共享哪些数据。这根本是两件事情。


我想通过这三点,读者不难搞清楚到底Facebook要不要反思,还是如《财经》该篇文章的作者所说的,是我们这些用户太“无知无畏”了。


Modified on

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存