打破数据孤岛,不能只依赖区块链?

来源:31QU

价值始于数据,终于应用。

价值始于数据,终于应用。

随着大数据产业的发展,政府、企业和其他主体掌握了大量数据资源,然而,由于缺乏数据共享、交换协同机制,”数据孤岛”的问题逐渐显现。

如何从广袤的大数据海洋中攫取价值,是自互联网出现、海量数据涌现后,创业者一直探寻的答案。

针对这一问题,企业出现了”数据中台”的概念,通过规范管理企业数据,将数据存储、计算机应用能力抽象出来,整合到”平台”中,为前台业务部门提供决策依据。当前,这样的做法更多应用在企业内部,如果向外延伸,如何有效突破信息桎梏,打通企业、机构间的数据共通的问题,仍然有待探索。

“目前还没有非常好的解决方案,我们的方案是采用安全多方计算+区块链。”ARPA 联合创始人兼 CEO 徐茂桐告诉 31QU,”最终解决加密环境下的数据分析难题,避免隐私数据泄露的可能。”

简单说,只需提供数据的黑箱,ARPA 就能对其进行分析,并按照用户的需求,获取所需价值,”区块链在其中扮演着不让数据节点作恶的角色。”徐茂桐补充说。

破解数据孤岛

大约从 2010 年开始,大数据概念开始在国内兴起,虽然热炒了多年,如今依旧没有减弱的征兆。不过,话题的重点已经从大数据概念、定义,集中到大数据应用、发掘价值等方面。

打破"数据孤岛",不能只依赖区块链?

我国大数据市场产值逐年上涨,来源:信通院 2018 年大数据白皮书

尤其是互联网公司,这些企业兼具技术实力和数据源,技术和数据主要服务自身业务,很少对外输出。

“我们都没听过数据淘宝的说法,因为只要把数据交出去,对方就可以把数据转手,这样隐私基本上就泄露了。”徐茂桐表示,数据的安全和隐私得不到保证,所以个人或者企业不敢轻易分享数据。

据了解,为实现数据隐私与安全计算,目前主要有以下几种解决方案,”一是可信执行环境(TEE),做法是在芯片中专门开辟一块无法被随意改动的区域,用于数据计算,确保数据安全;二是同态加密,先对数据进行加密,之后再对密文进行运算;三就是多方计算(Multi-Party Computation,MPC)。”徐茂桐介绍。

他进一步解释,分布式计算类似于将任务拆分给多名执行的小兵,由他们按照指令分别完成任务,最后再将完成的情况进行汇总,最后得出结果。”MPC 的过程类似,只是小兵在完成任务的时候无需先解密数据,此外,所有小兵完成任务后也不必把结果进行汇总。”

“TEE 和 MPC 各有优势,前者基于硬件,好处是效率高,但问题是相对中心化,需要在用户信任某个中心化机构的基础上,对数据进行分析;此外,TEE 本身是一个基于硬件的解决方案,但只要是工程解决方案,那就有存在漏洞的可能。”徐茂桐介绍,事实上,无论是 TEE、同态加密,还是 MPC,这些都不是新出现的解决方案/思路,随着新的加密理论、算法出现,这些方案也在不断迭代。

“数据中台火热的原因,就是为了解决企业内部的数据流转问题,但如果是在跨企业的情境下,数据的流转极难实现。”他分析说,之前的做法是企业将数据交给大数据公司,让其根据需求建模,但这样做法存在数据外流的风险,”尤其是互联网公司,他们不愿采用这种方式的原因就是担忧信息泄露。”除此之外,也出现了数据库的概念,企业数据仅限于本地部署,虽然这种方式避免了信息外泄的可能,但也让”数据孤岛问题越来越明显,行业越来越封闭。”

区块链的出现,提供了一种新的思路,运行于区块链网络的程序,可以在条件满足的情况下触发,如果将区块链技术引入安全多方计算,或许可以解决数据孤岛的问题。

ARPA:让数据流转起来

“从结构来看,两者其实非常相似。区块链是一组互相不信任的人共同维护一个账本,而 MPC,则是一组互相不信任的人,一起做加密数据分析,最终获得结果。前者解决数据可信问题,后者则完成加密数据的计算过程,两者结合,恰好能解决数据孤岛问题。”徐茂桐表示,这正是他们要在安全多方计算中引入区块链的原因。

据了解,ARPA 是一个可验证的链下多方安全计算网络,是一个 Layer 2 解决方案。在 ARPA 网络中,不同的数据提供者可以在不透露自己数据、无需信任第三方的情况下,实现协同,进而获得可靠的计算结果。

百万富翁问题:1982年,计算机学家姚期智率先在一篇论文中提及,两个百万富翁想比较谁更富有,但又不想让别人知道自己有多少钱,如何在没有可信的第三方的情况下完成比较?这一问题的提出开创了安全多方计算领域。

“作为一个 Layer 2 解决方案,ARPA 没有自己的区块链系统,而是通过代理智能合约接受不同区块链计算请求的方式实现,因此,可以适应非常多的场景。”徐茂桐表示,只需要调用 ARPA 接口,就能对多方数据源,进行需求分析。

“比如某金融机构想评估 A 的信用信息,如果只在自家系统里查询,完全没有问题,但如果想在几大银行系统中全面查询,那就有难度了,因为这些机构的数据库没有打通,无法获得分析结果。但只要这几家银行都有需求,完全可以调用 ARPA,在不暴露自家用户具体数据信息的基础上,获得黑名单查询的结果。”

据了解,整个过程包括 ARPA 在各个区块链网络上部署代理智能合约,获得多个数据源信息请求,然后在设定好的计算逻辑之下,将请求及相应的信息传回 ARPA 网络,并开始计算,过程结束后,最终将结果和相应的证明传回需求发起方。

为了确保信息的准确,ARPA 采用设置计算节点、用户 Staking 的方式,”打通数据孤岛,干掉大数据公司,ARPA 能最大限度让数据流转起来,满足用户获取数据价值的目的。”徐茂桐表示。

商业用例

根据 IDC Research 发布的研究报告显示,全球范围内大数据和分析市场的规模在 2020 年预计能达到 2600 亿美元,巨大的市场、潜藏的机会引得众多创业者纷纷进场淘金。

据悉,目前意图解决隐私计算的项目并不少见,例如核心为 TEE 的英特尔、公信宝、TRIAS 等,以 MPC 为核心的 ARPA、PlatON 等,各有所长。

除了创业团队,部分互联网公司内部也在探索多方计算,”阿里内部就有一个名为 Morse 的团队在做 MPC,百度的超级链 XuperChain 在数据存证方面已经有落地应用,不过在加密数据的多方计算方面暂时还没有消息。”

根据徐茂桐的介绍,TEE 的硬件方案更适合解决复杂、大量的数据,而 MPC 则适合需要多方数据协同、敏感数据变现等具有较高实用价值的场景,”尤其是金融、医疗领域,对数据价值挖掘的需求非常大。”

“我们会率先寻找已经在内部部署区块链的企业,这样的话,他们只需调用 ARPA 插件,就能对多方的数据进行价值挖掘”,”相当于只在原来的基础上,增加多方计算的一套服务。”

根据他们的经验,已经布局区块链的企业,对 ARPA 的接受程度也会更高。作为一个链下多方安全计算网络,ARPA 并不提供数据源,”必须由客户开放数据源接口,我们的角色是确保多方数据的可信与后续的计算。”

近期,徐茂桐的团队正忙着一个风控项目,”由京东提供隐去了部分参数的模型,加上金融机构提供的数据库,最终由 ARPA 来跑结果。”

值得注意的是,对于持有代币的投资者来说,目前 ARPA 代币的使用场景还仅限于做节点与 Staking,根据徐茂桐的介绍,ARPA 的中短期计划是先做 2B 企业级的数据安全共享与变现,”可能会把代币作为企业调用插件的手续费,不过还是会收取人民币,由我们换成代币的方式”,之后才会开放针对 2C 的数据服务。

大数据时代的来临,让孕育了亿级规模的数据服务市场迅速崛起,借助科技的力量,从浩瀚数据海洋中”攫取”特定的价值成为了可能。

ARPA 团队试图借用多方计算和区块链的力量,破解大数据孤岛的问题,让多方的信息流转成为可能。

“对于市场开拓的问题,我们会从两个方向破局,一是积极参与官方标准的制定工作,借助公信力提升自身信任度,二是进行部分开源,允许企业对部分数据、参数进行验证,打消他们的顾虑。”徐茂桐告诉 31QU。

(本文不做任何投资建议)