区块链在数据要素市场中的应用

区块链和数据要素市场是当前两个备受关注的领域。今年4月,中共中央和国务院《关于构建更加完善的要素市场化配置体制机制的意见》首次将数据列为要素之一,国家发改委在对“新基建”的界定中将区块链定位于新技术基础设施。很多专业和学者讨论了区块链在数据要素市场中的应用,高度肯定这方面应用对保护和使用个人数据以及为AI发展完善数据基础的重要意义。但与区块链在央行数字货币、稳定币、供应链金融、存证和防伪溯源等领域的应用不同,数据要素市场本身处于发展早期,在很多核心问题上尚无定论,这使得关于区块链在数据要素市场中的应用的讨论很难深入。

本文在之前研究的基础上,讨论区块链在数据价值链的不同环节能发挥的作用。根据全球移动通信系统协会2018年报告[1],数据价值链主要可分为4个环节(图1):一是数据生成,指数据记录和获取。二是数据收集、验证和存储。三是数据分析,指处理和分析数据以产生新的洞见和知识。四是交换,指对数据分析结果的使用,既可以是内部用,也可以对外转让,这个环节称为“数据要素配置”更合适。本文共分5部分,前4部分依次按上述4个环节展开,重点是对第4个环节的讨论,第5部分总结全文。

区块链在数据记录和获取中的应用
区块链是关于Token的分布式账本,Token本质上是区块链内定义的状态变量(第4部分将讨论Token在支付领域的另一个含义)。区块链内既存在与Token及其交易有关的数据,也存在与Token及其交易无关的数据。
与Token及其交易有关的数据——区块链各地址内有多少Token以及不同地址之间的Token交易记录——原生于区块链并被区块链记录下来,是数学规则的产物,真实准确性由密码学、共识算法等保证。从占用区块链内存储空间的比例以及验证节点(矿工)投入的计算资源来衡量,这部分数据在区块链内数据中居于主导地位,也是区块链内“价值含量”最高的数据。比如,在央行数字货币和稳定币等应用中,这部分数据是分析资金流动和实施反洗钱、反恐怖融资等监管的基础。再比如,在加密货币定价中,链内交易数据是重要的估值参考。
与Token及其交易无关的数据作为Token交易的附加被写入区块链内。写入区块链意味着全网可见,不可篡改,并且在复制、传播中不会出错,但区块链本身不能保证这些数据在源头和写入环节的真实准确性。因为区块链内存储容量的限制,这部分数据在很多时候只能以哈希摘要形式写入区块链,只有少量结构化信息才能以原始数据形式上链。因此,在现实世界无时无刻不在产生的瀚如烟海的数据中,能以原始数据形式上链的比例几乎可以忽略。这说明,区块链不是一个有一般用途的账本或数据库,应该用其所长,只有价值足够高的数据才值得以原始数据形式上链。
哈希摘要上链主要作用是存证[2],为存放在本地设备或云端上的原始数据增信——在事后通过揭示原始数据(比如允许外部机构穿透到存放原始数据的本地设备),证明两点:一是在区块链记录的上传时点,原始数据确实存在;二是上传者确实知道原始数据。但不宜拔高理解区块链的存证和为数据增信的作用。特别是,对并非原生于区块链的数据,其可信度离不开专门的数据记录和获取技术以及相关制度的支持,比如接下来将讨论的“区块链+物联网” 对物联网数据的管理。
物联网设备不断从周边获取地理位置、温湿度、速度和高度等数据。在目前的端侧抗攻击技术下,物联网数据在源头的真实准确性有相当程度的保障。物联网数据主要存放在云上和物联网设备本地。大部分物联网能够运行哈希算法和公私钥签名运算。在物联网数据上链中,只有少量结构化数据可以直接写入区块链,大部分数据是以哈希摘要的形式上链。因此,在“区块链+物联网”对物联网数据的管理中,相关操作均由物联网设备自动执行,效率非常高,也减少了人为干预。
“区块链+物联网”为理解区块链在数据记录和获取中的应用提供了基准。在物联网数据以外,很多数据在记录和获取中受人为因素影响很大,是否值得上链,需要算成本和收益的细账。
区块链在数据收集、验证和存储中的应用
数据收集、验证和存储主要靠数据库技术,区块链能直接发挥的作用有限。比如,金融领域对个人数据的管理,现在普遍强调API技术的应用,通过数据聚合产生复合价值。
如第一部分讨论的,区块链能存储的数据非常有限。绝大部分数据存放在本地设备或云端上,但可以通过哈希摘要上链来增信。另外,如果数据收集、验证和存储通过由不同机构组成的市场分工网络进行,那么理论上,这个市场分工网络可以构建在区块链上。分布式存储项目Filecoin可以视为这个方向的尝试[3]。这个方向要取得大范围成功,需要做好分布式经济体的机制设计。我把相关的经济学问题概括为分布式数据经济体(Decentralized Data Economy),将在第4部分讨论。
区块链在数据分析中的应用
区块链在数据分析中能直接发挥的作用也非常有限。因为区块链内计算性能的限制,复杂的数据分析工作一般不通过区块链内智能合约进行,而主要靠统计学、计量经济学、数据可视化、大数据分析和AI等技术,相关计算发生在区块链外。
如果数据分析也通过不同机构组成的市场分工网络进行(比如,一些机构提供算力,另一些机构提供算法),那么理论上,也可以引入基于区块链的分布式数据经济体。比如,PlatON项目致力于建设一个高性能的计算网络,以促进数据和算力的流通,主要的市场参与者包括计算协调方、数据提供方和算力提供方等[4]。
区块链在数据要素配置中的应用
区块链作为一项带有生产关系色彩的集成型技术,在数据要素市场中的应用将主要体现在数据要素配置环节。接下来将从数据要素确权和数据要素市场的组织形式两个层次讨论这一问题。
数据要素确权
经济学研究表明,任何资源有效配置的前提都是确定资源的产权,数据要素也不例外。产权是一个复杂的经济学概念,指一种可执行的社会架构,该架构决定资源如何被使用或拥有的。产权有三个核心维度:第一,使用资源的权利;第二,从资源中获得收益的权利;第三,将资源转移给他人,改变资源,放弃资源,以及损毁资源的权利。产权可以细分为所有权、占有权、支配权、使用权、收益权和处置权等“权利束”。
数据兼有商品和服务的特点,很多数据是非排他性的和非竞争性的,数据的所有权不管在法律上还是在实践中都是一个复杂问题,特别对个人数据。现实中,能清晰界定所有权的数据的典型代表是专利,但从专利更能看出数据确权的复杂性。
取得专利权的前提是公开发明的技术内容,以便大众作进一步改良,避免重复研发的资源浪费。比如,专利审理机关一般会在发明专利申请后约18个月将专利说明书内容公开。专利权人在法定期间内享有专利技术的排他权,享有商业上的特权利益。这是为保护发明人的权利,鼓励大众从事发明。当专利权法定期间届满时,专利权即告消灭,民众可根据专利说明书所揭露的内容,自由运用其专利技术。
从全球实践看,数据要素确权是法律和技术共同作用下的产物,一般先由法律确定数据产权的制度框架,再由技术来保证这些制度框架的可执行性。比如,现在很多报刊杂志是付费的,只有付费账户才能阅读文章,并通过技术来限制对文章的复制和截屏,如果发现有人抄袭就通过法律来维护权益。在很多场合,只靠技术是没法对数据要素确权。第一部分讨论了区块链的存证作用。数据存证不等于数据确权。比如,发明人可以把发明文件的哈希摘要放到区块链上,证明自己最早做出相关发明,将来出现纠纷时有 “自证清白”功能。但如果不经过专利审查机关的核准,发明文件上链不意味着专利权。
一些专家和学者认为,只有所有权清晰的数据才能进入数据要素市场。这是很大的误解。“所有权清晰+买断式交易”模式只适合像专利这样的特殊类型数据(比如很多企业兼并收购交易就包含对专利的定价),但不会成为数据要素市场的主流。在实践中,数据要素市场成立的前提是对数据的有效控制,也就是控制谁(Who)能在何种条件下(What)以何种方式(How)使用数据。换言之,数据产权归根结底体现为对数据的有效控制。这个角度有助于理解区块链在数据要素确权中的作用。
在区块链内,地址能隐藏实际控制者的身份,哈希摘要能隐藏原始数据,但区块链本身不是隐私管理技术。特别是,公链内数据是全网可见的,需要配合环签名、混币和合币等技术才能隐藏链内资金流向。联盟链可以实现对数据的有差异开放,让不同用户在读取区块链内数据上有不同权限。但正如第一部分讨论的,区块链内存储的数据毕竟有限,区块链在数据控制上的直接作用也是有限的。比如,“区块链+政务数据共享”类项目中,政务数据存放在本地设备上(一般是政府部门内部的保密网络),跨政府部门的数据调用仍通过传统方法进行,原始数据不可能在区块链上流通,但区块链会记录数据申请、授权、调用和访问等记录,做到不可抵赖,主要为事后审计留痕。
在各种数据控制技术中,与区块链关系最大的是密码学技术,包括可验证计算、同态加密和安全多方计算等。对复杂的计算任务,可验证计算会生成一个简短证明。只要验证这个简短证明,就能判断计算任务是否被准确执行,不需要重复执行计算任务。在同态加密和安全多方计算下,对外提供数据时,采取密文而非明文形式。这些密码学技术使得“数据可用不可见”,但因为对计算资源的要求很高,只能在区块链外进行。
在各种数据控制技术中,与区块链最容易混淆的是支付标记化,在此也做简单说明。支付标记化的英文是Tokenization[5],指用特定的支付标记(英文是Payment Token)替代银行卡号和非银行支付机构支付账户等支付要素,并对标记的应用范围加以限定,降低在商户和受理机构侧发生银行账户和支付账户信息泄露的风险,减少交易欺诈,保障用户交易安全。支付标记与银行账户、支付账户之间有映射关系,这个映射关系由标记服务提供方通过支付标记化和去标记化两个过程来管理。支付标记化是数字支付的基础核心要素。比如,在移动支付中,用户使用Token号作为存储在手机等移动设备中的设备卡号,可以在线下POS机、ATM机等终端机上用移动设备做非接触式近场支付,也可以在手机客户端中直接发起远程支付。
目前,银联手机闪付和在线支付产品已全面应用支付标记化技术。从以上介绍可以看出,支付标记化中的Token是代表银行账户和支付账户等敏感信息,有规范的编制标准,不依赖于复杂的密码学技术;区块链内的Token在央行数字货币和稳定币等应用中代表法定货币储备资产,但Token本身是区块链技术的产物。
数据要素市场的组织形式
数据要素因为类型和特征多样,缺乏客观的估值标准,并且在很多场合不会采取买断式交易模式,所以数据要素市场不会像股票市场那样,成为一个集中化、流动性好的交易市场。这从过去几年多省市对大数据交易中心或大数据交易所的试验中可以得到验证。这些试验都没有取得预期的成功。这尽管有政策支持力度不够和配套技术跟不上等原因,但更重要的原因则是:数据要素的经济学属性不支持标准化程度高、竞价撮合和成交活跃的交易模式。
在大图景上,数据要素市场将更接近债券市场和场外衍生品市场这样的场外市场,标准化程度较低,点对点交易并协商定价,成交频率低但会一直发生。但这不意味着最终的数据提供者(比如个人和物联网设备)和最终的数据需求者(比如AI算法公司)会直接进场交易。数据要素市场会演变出一些“数据中介机构”,让数据更好地从最终的提供者流向最终的需求者。
因此,数据要素市场在整体架构上将是分布式的,但会有一些 “数据中介机构”作为核心节点。对区块链在数据要素市场组织形式这个环节的应用,要在这个大框架分析。
第一,“数据中介机构”的主要功能是数据收集、验证、存储和分析。对这些“数据中介机构”如何使用区块链,第二、三部分已有分析。需要补充说明的是,区块链可以用来改进数据发布环节。比如,姚前2018年在央行数字货币原型系统中[6],提出将区块链应用于央行数字货币确权登记。他的设想是,由中央银行和商业银行构建央行数字货币分布式确权账本,提供可供外部通过互联网进行确权查询的网站,实现央行数字货币的网上验钞机功能。这是利用区块链不可篡改、不可伪造的特性提高确权查询的数据和系统安全性。
第二,如前面已讨论的,现实世界中大部分数据不会通过区块链存储和流转,但区块链可以记录数据的授权、调用和访问等活动,这类似于区块链在供应链管理和商品溯源等场景的应用。这个应用方向有价值,但创新意义不是很强。首先,数据分析和使用会产生新数据,使得对数据流通的溯源意义不大。其次,如果要从数据保密和防泄漏的角度跟踪追溯数据流通,分析TCP/IP数据包是比区块链更直接、有效的方法。
第三,区块链作为数据要素市场的组织工具,这就是前面引入的分布式数据经济体概念:
分布式数据经济体的基础是数据确权,体现为数据提供者能有效控制数据需求者对数据的使用。
分布式数据经济体是一个丰富的数据生态。不同参与者在数据、算法(数据分析方法)和算力等方面互通有无。这本质上是通过市场机制进行大规模协同计算,在保护数据产权的情况下实现数据要素的有效配置,以促进经济发展和增进社会福利。
区块链记录下分布式数据经济体中的经济活动,但不是为了存证和溯源,而是为了对经济活动进行核算。
在分布式数据经济体中,交易媒介采用央行数字货币或稳定币。原因在于,分布式数据经济体的一些参与者可以是非人格化的,比如物联网设备作为数据提供者,AI算法作为数据需求者。央行数字货币和稳定币能兼容分布式数据经济体的这种开放性,并且能保障支付的安全和高效。
分布式数据经济体有很多有意思的应用场景。比如,在“区块链+物联网”中,物联网设备ID绑定数字货币钱包地址,物联网中的数据存储、传输和挖掘以及价值交互就能以可信方式进行,物联网中与数据有关的经济活动通过央行数字货币或稳定币来核算。可以设想,当一个物联网设备持续提供高质量数据后,将收获更多央行数字货币或稳定币作为“酬劳”(实际上归属于物联网设备的所有者)。这种经济激励将显著促进物联网数据的收集和使用。
这个方向有助于实现肖风博士提出的分布式认知工业互联网[7]。分布式认知工业互联网采取分布式的治理架构,所有企业都可以放心加入,采取基于知识图谱的认知智能技术以及基于隐私计算的数据协同,并且基于全生命周期管理的制造和服务的融合。
区块链对建设数据要素市场有重要意义。但因为数据要素市场本身处于发展早期,在很多核心问题上尚无定论,这使得关于区块链在数据要素市场中的应用的讨论很难深入。本文采取“化整为零”方法,讨论区块链在数据价值链的不同环节能发挥的作用。
第一,数据记录和获取环节。区块链作为关于Token的分布式账本,不能当作一个有一般用途的数据库来用。与Token及其交易有关的数据,原生于区块链并被区块链记录下来,是区块链内“价值含量”最高的数据。但在现实世界的海量数据中,能以原始数据形式上链的比例几乎可以忽略,大部分数据只能以哈希摘要形式写入区块链。哈希摘要上链有存证和为原始数据增信的作用。“区块链+物联网”对物联网数据的管理,效率高且人为干预少,为理解区块链在数据记录和获取环节的应用提供了基准。其他数据是否值得上链,则要仔细平衡成本和收益。
第二,数据收集、验证、存储和分析环节。区块链在这些环节能直接发挥的作用有限。但如果这些环节通过由不同机构组成的市场分工网络进行,那么就可以构建在区块链上,成为分布式数据经济体。
第三,数据确权环节。数据确权是数据要素配置的基础。数据要素确权是法律和技术共同作用下的产物。通过区块链为数据存证不等于数据确权。在实践中,数据确权主要体现为数据提供者能有效控制数据需求者对数据的使用。在这个意义上,区块链(特别是公链)不是隐私管理技术。联盟链可以做到对数据的有差异开放,让不同用户在读取区块链内数据上有不同权限。但区块链内存储的数据有限,区块链在数据控制上的直接作用也有限。可验证计算、同态加密和安全多方计算等密码学技术使得“数据可用不可见”,但因为对计算资源的要求很高,只能在区块链外进行。
第四,数据要素的配置环节。数据要素市场在整体架构上将是分布式的,但会有一些 “数据中介机构”作为核心节点。区块链不可篡改、不可伪造的特性有助于改进数据发布环节。区块链可以记录数据的授权、调用和访问等活动,有一定价值,但创新意义有限。区块链在这个环节的创新价值主要体现为分布式数据经济体,本质上是通过市场机制进行大规模协同计算,在保护数据产权的情况下实现数据要素的有效配置。分布式数据经济体有助于实现分布式认知工业互联网。