微众银行严强:隐私计算和区块链技术开源将重铸可信数据权益体系的信任基础

2020中国开源年会暨阿帕奇中国路演上,微众银行区块链安全科学家严强发表了《隐私计算+区块链技术开源,重铸可信数据权益体系信任基础》的演讲,明确了隐私计算与区块链开源技术在铸造可信数据权益体系中所发挥的重要作用。

以下是演讲全文整理,演讲视频文末附上:
近年来,随着普罗大众对个人隐私、个人数据重视程度越来越高,“数据权益”一词进入大众视野。在我看来,所谓的数据权益,是基于数据产生的权利和利益。怎样围绕着数据权益建立体系?为何隐私计算和区块链技术的开源,将对数据权益体系实现增信并打下坚实基础?如此种种问题,广受重视。
  数据权益的核心是什么
我国颁布的《数据安全法(草案)》明确指出:“国家保护公民、组织与数据相关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展,增进人民福祉。”从立法角度可以看出,有序的数据价值挖掘是被鼓励的。
数据已经被认为是一种生产要素,基于此产生了权利和利益的分配,而围绕着整个分配过程建立的体系就是数据权益体系。
然而,囿于不同国家、不同地区对于个人数据隐私保护的差异,在数据价值挖掘的过程中容易触碰合规要求而无法继续深入。
数据权益不仅作用于数据收集阶段,还贯穿数据流转的整个生命周期,无论是原初数据还是派生数据,数据所有者都有完整的掌控权和权利诉求。
如果数据使用不当,违反隐私保护法案(例如欧盟内),将会造成高额罚款等严重后果。这一点给技术的发展带来了挑战,但同时也提供了新的技术开发机遇。

一个简单例子可以很好地说明数据之上“隐私”和“价值”的对冲:如果某人在某个时间产生了购买行为,有关购买行为的全部数据记录都可被用来对购买者进行“人身、行为画像”。
购买者的位置行踪、住宅地址、收入水平、健康状态、社交关系、兴趣爱好、专业专长、学历、性别等等,均可以窥斑见豹般地进行潜在购买能力推断,并在此基础上利用数据本身的延展性,来对购买者施行精准营销。
一条“购买行为”之上的数据价值尚且如此,数据链不断积聚之后的价值更加无法估量。对于某些机构而言,这些数据形成一个可以循环利用的“价值池”,然而,对于购买者而言,潜藏的隐私风险不言而喻。
因此,如何厘清数据“隐私”和数据“价值”的边界,在保障数据所有者权益、合法合规挖掘数据价值的同时,合理平衡双方的诉求、有效评估风险?这既是数据权益的核心所在,也将是大数据、人工智能等强数据驱动行业产生巨大变革的关键前提。
 
当下数据权益体系亟待技术破局
由于数据隐私和数据价值之间存在着不可避免的对冲,因此在现有的数据权益体系中普遍存在“数据确权难”、“隐私保护难”、“用户激励难”三大痛点。三大痛点互相衔接形成循环,每一环之痛如果不能妥善解决,整个数据权益体系就无法得到有效改善。

例如,对于数据本身而言,其权属难以界定、内容难以授权。不同的国度、地区对于数据所有者的权利规定有所不同;个人和企业对于数据隐私边界的认定不同;企业和企业之间业务合作(例如联合风控)所带来的信息、数据传递,在不同业务主体、不同业务场景中的“权属界定”也不尽相同,这都将进一步加大数据确权的难度。
数据确权难,不仅加大了隐私保护的难度,让数据知情和隐私保障难以落实,同时也让数据所有者难以被有效激励,主动分享高质量的数据欲望较低,数据主体价值难以体现,进而产生了“数据孤岛”现象。其背后深层的原因,是用户对于目前针对数据权益的技术基础架构或者业务模式缺乏信任。
在传统的信任机制里,“承诺——取证——维权”三步骤,在传统生产要素(例如劳动、资本、土地)“难以复制”、“功能受限”、“用后留痕”的特性下,信任机制能够落在实处。换言之,传统生产要素自身较为固定,基本上受物理、地域、时间等条件制约,事前承诺、事中取证、事后维权均有支撑。
而对于数据这个新的生产要素,传统信任机制的适用性有限,数据要素“复用无损耗、使用无限制、用后无痕迹”的特点,将使其难以真正有效地进行承诺、取证、维权。由此一来,缺乏技术手段的各数据业务主体只能用信誉等虚拟信用进行背书、担保,公正公平意义缺失。
因此,我认为,此时应该有技术力量,尤其是开源技术力量的注入,打破传统信任机制的藩篱,建立围绕数据权益的新式信任机制。这某种程度上,也是构建一种新式的技术系统。
 
“区块链+隐私计算”使得数据权益体系透明可信、权益可控
从基于信誉、基于补偿的信任,再到基于技术以及基于开源技术的信任,信任机制将越来越可靠稳定。这背后的意义是数据属主对于自主掌控能力的逐步增强。
如果仅仅依靠数据服务方良好的信誉以及补偿,所建立的信任机制仍然无法有效解决数据确权难的行业痼疾。特别是相对于平台服务方,个体取证、确权的能力是薄弱的,因此这种信任机制的约束力比较差,难以满足数据权益个性化、定制化的迫切需求。
而利用开源技术的特性,无论是代码包还是技术协议,都是开源的,数据所有者能够自主评估技术本身的可靠性、隐私性、可控性,从而决定自己是不是要分享数据。
一言以蔽之,开源技术环境下的数据所有者可以最终制定数据流向,最大化地保障自己的权益。
我们最终想要实现的是一种开门解锁式的信用机制效果。目前来看,隐私计算和区块链的技术模式能够实现这一点。
区块链主要体现于数据难篡改、可追溯、链上数据密文可验证,同时基于公私钥的数据共享机制,确保了数据的可验真性以及隐私性,这将确立数据内容的权益边界;而对于该数据使用、计算等融合化需求,可以利用隐私计算的特性——可用而不可见,保证数据明文使用过程中不出库、数据融合过程不泄露敏感数据明文、数据融合结果仅指定方可见,从而最大化地完成透明可信、权益可控的数据信息体系。
 
微众银行在可信数据权益体系的实践
目前微众银行正在不断探索可信数据权益体系,并在“区块链技术开源”和“隐私计算”上融合多项前沿技术形成了一定的开源成果。
例如,强隐私保护的区块链底层平台(牵头金链盟开源工作组开源的FISCO BCOS)、数据隐私保护方案(WeDPR)、实体身份认证及可信数据交换解决方案(WeIdentity)、联邦学习系统(FATE)、分布式计算平台(EGGROLL)、数据应用开发门户(Data Sphere Studio)、大数据中间件平台(Linkis)等。

这里需要强调一点,尽管数据权益的产生对传统大数据技术的价值产生了一些影响,但并不表明传统大数据技术不能够被使用,而是我们需要引入新的数据隐私特性,对传统大数据技术进行升级,充分挖掘价值。
当下,微众银行在数据隐私保护领域重点推进的项目有两个。
一个是由微众银行AI自主研发的全球首个工业级联邦学习框架——FATE,它将提供基于数据隐私保护的分布式安全计算框架,为机器学习、深度学习、迁移学习算法提供高性能的安全计算支持,以及友好的跨域交互信息管理方案。
一个是微众银行区块链自主研发的即时可用、场景式数据隐私保护高效解决方案——WeDPR,目前该项目的核心算法组件正在逐步开源中。
该项目依托区块链等分布式可信智能账本技术,兼顾用户体验和监管治理,针对隐私保护核心应用场景提供技术方案(核心场景方案目前包括:公开可验证密文账本、多方密文决策、多方密文排名、多方密文联合报表、多方密文计算电路、多方安全随机数生成、选择性密文披露),可以应用于政务、数字权益等多方领域,推动数据产生更大的价值,解放数据生产力。

数据权益的产生对以往的数据处理范式产生很大影响,为了进一步助力行业伙伴跨越技术、资源门槛,微众银行将持续分享开源技术成果,与各位伙伴一道共建数据权益信任基础,并在促进开源文化发展的同时,拥抱开源社区,链接更多伙伴,共拓开源商业生态。