孙立林：在疫情防控和流调中如何最大限度地保护个人隐私

12 月 30 日，武汉市卫健委第一次发布了新冠肺炎的警告，在当时并未引起太多人注意。
直到 1 月 23 日封城，民众才普遍开始意识到危机，但全球变化的真正兴起才悄悄开始发酵，并未被广泛洞察。

对于逝去生命的伤痛与疫情扩散的恐慌之下，科学与技术的作用也被放大到公众视野，从疫苗的研发到小小健康码的使用都会是不同视角的焦点，引发不同层面的争议。在疫情之初始：从武汉封城之初各地寻找与感染者同一辆列车的乘客信息、到武汉市社区沉降行动期间公布感染者及疑似感染者名单；到开始逐步恢复生产和流动：从各地健康码的普遍发行与认定、到无所不在的人脸识别甚至是戴口罩的人脸识别。
当韩国刚刚开始大规模扩散之处，韩国政府采取了更为激进的安全政策，通过跟踪相关人员的位置信息来确保公共安全；而在欧美，则大多数人不愿意戴口罩，更不愿意接受广泛的追踪与数据采集。
直到不久之前，疫情期间广为使用的 Zoom 被曝隐私泄露，无数公司和个人每天高频使用的视频会议系统竟然也是每个人数据隐私的黑洞。在几乎全球高度依赖互联网工具的特定时期，也几乎以病毒式传播的速度引发了另外一个公共话题：即当人类遭遇到大规模公共卫生危机时，个人的生命安全与数据隐私保护面临的冲突应该如何抉择？
选择“安全”还是“隐私”
在当下的中国，几乎没有个人隐私可以安放的空间了。为了方便和快捷，普通用户向互联网公司和相关政府机构开放了个人几乎所有的行为数据、身份数据和交易数据。“用户画像” 这个词精微地传递出了一个基本概念，即分布在不同 App 当中的数据如果组合在一起，几乎就是我们个体完整的“数字生命”。而几乎所有互联网公司的主营业务，都日益集中到了广告和金融两个领域，而这两个领域对于个人数据地滥用已经到了登峰造极的境界。
在出现大规模突发异常和“物理生命”面临巨大威胁的重要关头，部分甚或全部的将个人身份数据、行为数据等提交或披露给政府、医院、社区和相关提供公共服务的互联网公司，是一种可以被普遍理解和接受的权宜之计。
但从长远来看，新冠肺炎的异常或者其他的国家紧急状态并非常态。今天人类面临的最大“安全”挑战反而是来自于波澜不惊的日常生活，即我们的“数字生命”的“安全”。这就是隐私与安全这个看似矛盾的博弈关系背后隐藏的真正关联。
无处不在的骚扰电话、个人身份信息反复倒卖、个人数据滥用牟利，事实上都已经构成了对于公民个人自然权利地侵害，也剥夺了每个人“数字生命”的一部分。在互联网时代，个人隐私数据被滥用有可能导致个人无法设想的恶劣后果。
紧急状态下可以授权政府或相关机构依法采集和在限定范围内使用公民个人隐私数据，要求公民披露相关隐私，这正如同征调物理个体履行公共义务，属于公民应尽的义务范畴。但前提是需要有完备的法律授权和严格的数据隐私保护，将特定的公共治理能力限定在一定范围之内。更重要的是当未来各种类型的公共危机化解之后，也需要第一时间解除对于公民个人信息的集中控制和明文披露，恢复到对公民个人数据隐私权利保护和尊敬的范畴内。
而这些都不能依赖于现有的技术手段和人为操作。特定的时代需求，需要全新的基础设施设和技术，以可验证的方式来捍卫人类“数字生命”的基本权益。
“隐私计算”与“可计算资源”的思考
这种特定技术被广泛地称为“隐私计算”。隐私计算对于当下互联网、AI、大数据、iot 等产业都具有颠覆性的变革意义。传统的互联网本质上是基于“数据交换”的网络，所谓的“云端”其实也还是在互联网公司的逻辑“本地”。
数据在明文状态下地迁移不可避免的造成在每一个环节被泄露；而隐私计算的根本理念是将计算迁移到数据所有者的“本地”来面向密文做处理，这样既明确了数据所有权与使用权、处理权三者之间的关系，又能够事实上启动数据的资产化、货币化和证券化进程。隐藏于背后的根本变迁是：从“数据交换”的传统互联网演进到“计算互操作”的网络和计算架构。
更加极致地理解是，在未来“数据”并不是一个可以被单独度量和交易的对象，人类关心和实操的对象本体是“可计算的资源”，也就是“可计算性”。数据的大量涌现和过度供给必然会造成真正有效用的可计算资源的稀缺。这个才是对于人类生活真正有意义、有价值的“数字化石油”，而不是泛泛的谈论数据的“价值”。
当下有三种技术路线来试图解决隐私有关的问题。其一是传统系统安全领域出发，以 TEE 可信任执行环境为解决方案，代表厂商 Intel 和 Trustonic；其二是人工智能学界，以 Google 为代表的厂商推出的联邦学习（Federated Learning）方案；其三是以密码学为根基的隐私AI。
从最终商用视角来看，每种技术都有其特定的局限性和部署要求，在不同的场景和应用需求下有各自的特色。但总体来说新一代隐私计算的大规模实现都需要高度依赖于密码学大规模部署和商用。密码学从数学理论上给出了一个系统的“可证明安全性”。也就是说一个系统之中可计算资源的隐私属性可以获得的安全性的“极值”或者叫做“安全层级”，是由该系统所能够有效率、可验证、使用的密码学基础来决定的。
当然目前来看各种技术路线都存在不同的问题，面向商用的交付仍然需要时间来消解其计算复杂度与通讯复杂度。
隐私 AI 的应用前景
隐私计算与 AI、大数据并不构成对立，而是会在人类普遍部署的大规模公共基础设施之上系统性的支撑隐私计算能力。
或者说，未来的 AI 如果不能完备的兼容和承载隐私计算的需求，将无法投入实际使用。随着深度学习算法等对于人类可计算资源的持续挖掘。公众日益认识到数据的价值，所谓“隐私”除去安全考虑之外，更多的表现为机构和个人的经济利益。因为一切的可计算资源都可以被度量为可交易的资产。
无所不在的 AI 已经穿透甚至侵入了个人和机构的“私有产权”领域，构成了潜在的“恶”。无所不在的监控、识别、登记和交易，如果不能从法律和业务层面上做好分拆，则个人在未来的全数字化时代将无所遁形。
所有的应用场景也都源于以上的担忧和利益变现诉求。另外一个掣肘隐私 AI 大规模商用的根本原因在于数据质量的不可验证性。今天除了电信、金融等少数行业之外，其他绝大多数领域的数据都还处于非格式化状态之下，而且缺乏相应的数据格式标准。人类也无法完备的验证所有数据的真实性。就如同你并不能确认未来与你视频通话的人是否是真实存在的个体，还是 Fake AI 做出来的一段代码。
随着欧盟 GDPR，加州 CCPA 法案陆续颁布与实施，中国也将加速个人信息保护法案条例的出台。在相应的法律框架下，围绕着数据的所有利益相关方都需要重新审视过去对待数据资源的态度和操作。
首当其冲的领域还是互联网巨头们盘踞的山头：广告、金融、医疗。今天可以在征信、大数据风控、广告、保险定价、诊疗服务、身份认证等各个细分环节引入隐私 AI，在接下来的3-5 年时间里，将会逐步的重构现有所有的云计算与大数据模式。
如今这个时代，每个个体都主动或被动的沦为了互联网巨头和成百上千个 APP 们的“血奴”，互联网从人类使用的工具异化成了人类的目的。隐私计算开启的时代将会从根本上扭转这一进程，重新将互联网回到人类的“工具”角色。让手机、智能手表、车载设备等无所不在的、被动的“数据采集”过程重回人类个体本身的真正“选择自由”。
回到疫情肆虐全球的当下，我仍然倾向于即便我们为了生命安全而在个人隐私权利做了取舍和让渡，但这也不是人类生活的全部和常态。每一个人都应该行动起来，为保卫我们自身“数字生命”的安全而保持警惕，在全数字化时代的“黑暗森林”中寻求智慧与光明。