区块链在繁荣中撕裂,共识在扩张中亦流失,是时候正本清源,好好聊聊技术了!特此,火讯财经开设新栏目火讯TECH,第一期携手火币公链领袖们答疑解惑、了解他们的想法、分析他们的做法、普及区块链底层技术知识,与火讯TECH一起探秘区块链!
第四场
“区块链+人工智能”如何落地及技术瓶颈
分享嘉宾:
邢大地,美国普渡大学区块链实验室副主任、本征资本合伙人,获得普渡大学运筹学博士学位,拥有美国顶级刊物学术论文和发明专利多项。刑大地博士还是全球运筹研究与管理学年会(INFORMS)最佳论文奖的获得者,曾在多家美国顶级金融机构负责大数据建模工作。
郑毅,ObEN的联合创始人兼首席运营官。在ObEN之前,联合创立了中国最大的婚恋平台百合网Baihe.com。此前,曾经任美国光速创投投资合伙人、同方投资有限公司投资总监、美国TPG-新桥资本的投资经理。其投资过的项目包括百视通、星空传媒/灿星制作、新丝路模特机构等。拥有加州大学戴维斯分校的交通与环境工程博士学位、以及加州大学伯克利分校的金融工程硕士学位。
耿杰森(Jason Geng ),数据应用学院(Data Application Lab)创始人兼CEO,美国数据工程与数据科学协会(ideassn.org)2018主席, 南加州大学(University of Southern California)客座教授; 美国赛门铁克(Symantec)资深数据科学家和大数据框架师。
以下为访谈实录整理
▼
火讯财经主编赵一丹:首先请允许我一一介绍今晚的三位重磅嘉宾:今晚主持人及话题发起人—— 邢大地,他是美国普渡大学区块链实验室副主任、本征资本合伙人。获得普渡大学运筹学博士学位,拥有美国顶级刊物学术论文和发明专利多项。刑大地博士还是全球运筹研究与管理学年会(INFORMS)最佳论文奖的获得者,曾在多家美国顶级金融机构负责大数据建模工作。大地也是我们火讯财经的重要智囊,第三期观火,为大象的区块链科普演讲贡献了很多宝贵建议。昨天我们火讯三位合伙人还请大地吃了饭。
另外两位嘉宾是大地邀请来的特约嘉宾:郑毅博士,ObEN的联合创始人兼首席运营官。在ObEN之前,郑博士联合创立了中国最大的婚恋平台百合网Baihe.com。郑博士曾经任美国光速创投投资合伙人、同方投资有限公司投资总监、美国TPG-新桥资本的投资经理。郑毅用3.5年的时间同时拿到了加州大学戴维斯分校的交通与环境工程博士学位、以及加州大学伯克利分校的金融工程硕士学位。
Jason Geng 耿杰森,数据应用学院(Data Application Lab)创始人兼CEO、美国数据工程与数据科学协会(ideassn.org)2018主席, 南加州大学(University of Southern California)客座教授; 美国赛门铁克(Symantec)资深数据科学家和大数据框架师。今晚的三位嘉宾都拥有华丽的履历和深厚的技术背景。期待他们干货满满、精彩生动的讨论。接下来把时间交给今晚讨论会的主持人@大地
嘉宾邢大地:好的,谢谢一丹,那我就正式开始了。第一个问题,请教一下Adam和Jason老师,因为两位老师都是在AI和区块链领域有很多研究和建树的先行者。那么在你们看来,AI技术是如何来影响区块链的?有什么研究和落地的方向?
嘉宾郑毅:大家好,区块链链上的数据未来是由主人自己管理和授权。如果数据结构都是去中心化的,这就需要适合的数据分析技术来学习和应用,否则就会形成早年互联网的数据孤岛。AI是目前最先进的数据分析和学习技术,所以可以被用于区块链上的数据使用。
嘉宾邢大地:嗯嗯,所以这是Oben PAI项目提出用区块链做个人化AI的出发点@亚当 Adam OBEN.COM 。
嘉宾郑毅:是啊。我们关注个人数据的学习和使用。
嘉宾邢大地:Jason老师怎么看?@Jason 耿杰森 。
嘉宾耿杰森:AI技术可以帮助区块链系统解决一些区块链自身的难题,有不少相关的例子,例如,pruning,区块链每10分钟以1MB的稳定速度增长,将会越来越庞大, 从而产生效率问题。区块链底层专家,正在考量如何只保存部分的数据。首先提到”区块链修剪”pruning的技术。
嘉宾邢大地:这个技术听上去和决策树的Pruning很相似,不过一个是对数据的,一个是对决策的,有什么相关性吗?
嘉宾耿杰森:主要是减少数据,提高效率,删除的交易的不必要数据,以便不将整个区块链保存在计算单元上。
嘉宾邢大地:嗯嗯,都是对冗余部分的消除。
嘉宾耿杰森:刚才@亚当 Adam OBEN.COM 老师提到的数据学习问题,AI的一些算法,也可以帮助到区块链。federated learning。
嘉宾郑毅:differiential privacy加噪音的方式也有帮助。
嘉宾耿杰森:它的工作方式像这样吧,一个设备下载当前模型,通过学习手机上的数据来改进它,然后将更改汇总为小型集中更新。
嘉宾邢大地:好像Google最近在tensor flow里面加入了这个框架。
嘉宾郑毅:@Jason 耿杰森 这类设备目前是怎么部署才合理?
嘉宾邢大地:@亚当 Adam OBEN.COM 是的,privacy preserving computing-隐私保护计算,也是由于区块链而重新被业界所重视。
嘉宾耿杰森:这个federated learning 本身是个G家的项目。
嘉宾郑毅:@大地 是的。
竹风:@大地 需要可信环境吧。
嘉宾耿杰森:@亚当 Adam OBEN.COM 这个学习方法本来是部署在手机网络上的。
Bruce Xu :区块链剪枝。
嘉宾耿杰森:在机器学习里,培训数据都保留在的设备上,只有对模型的此更新才会使用加密通信发送出去。
Alex夏:@Jason 耿杰森 这个就符号区块链属性了。
嘉宾郑毅:减少区块链上链存储也有从边缘计算的角度去尝试的。边缘处理器被部署在手机基站,手机数据通过边缘处理后的数据才上链。像软银旗下的ARM和Nvdia都在边缘计算上进行架构的部署,未来这个新的架构可以被区块链使用。
嘉宾邢大地:@亚当 Adam OBEN.COM 是的,边缘计算是一个解决途径,相当于不必在中心化数据库里面进行训练,而是把数据价值local化的提取。
Bruce Xu :边缘计算和区块链有相似性。
嘉宾郑毅:类似人体的神经网络。前几天在东京参加软银世界大会,孙正义特别强调了软银在边缘计算上的架构搭建。
嘉宾耿杰森:边缘计算主要缓解流量压力。
嘉宾郑毅:回顾历史,技术的迭代需要硬件和软件的融合迭代。
Bruce Xu :是的。
嘉宾邢大地:其实边缘计算所强调的分布式计算和分布式数据存储,对于所有做大数据和人工智能的都不会陌生。Hadoop架构和区块链的区别,就是多了一个master节点。
嘉宾耿杰森:@亚当 Adam OBEN.COM 同意的。
Bruce Xu :边缘计算是分担算力吧。
嘉宾郑毅:把算力放在神经节上了。
竹风:小数据集计算是个问题。就目前而言data partition 是个坎。外加数据自动化标注。这两个问题不好弄。
嘉宾郑毅:这个是要具体数据具体分析了。同意。
嘉宾邢大地:GAN在试图解决第二个问题。
竹风:我们在做NLP的自动化标注 还是有多少人工就有多少智能 期待同行推荐好的解决方案。
嘉宾邢大地:partition和integration都比较难,小数据集学习的精度有限,还是需要有类似于voting机制的算法来做improve。
嘉宾郑毅:可以尝试让社区参与给自动标识的算法打分,自修正。OBEN早些时候发了一个how tall的微信小程序,用说话声音测身高,然后让用户自己告诉算法正确答案。挺有效果的。google现在这个画家的小程序也有这个目的。
Alex夏:这对输入或者应用要求就比较高了。
嘉宾邢大地:大家平时用的密码验证图片,就是一种收集标签数据的手段,据说最早是密歇根大学一个教授做的。
嘉宾耿杰森:使用区块链以众包方式简化数据任务,丽茹训练数据的标记。那些帮助AI培训和标签 进行补偿。
嘉宾邢大地:第一个问题展开了这么多,看来我们的两位嘉宾老师和群友都是功力深厚,那么我问一下第二个问题。这个问题也是很多做AI的人经常问我的。
嘉宾耿杰森:有个TraneAi 项目就是这种。什么问题呀,@大地。
嘉宾邢大地:AI技术我们已经看到了很多落地应用,那么区块链加AI,我们可以期待那些落地应用是可以短时间落地的?并且真的发挥了区块链的优势?
Anita:@大地 @Jason 耿杰森 神级网络,机器学习善于处理数值计算智能,区块链里面绝大多数是离散变量,那么请问两位老师如何将没有规律的离散区块链世界状态映射为数值计算函数的输入以及如何对他们进行分类?
嘉宾邢大地:@Anita 师妹好,这是个好问题,我等一下问一下两位嘉宾。
嘉宾郑毅:关于落地,我们在做的是从社交和娱乐的角度把人工智能和区块链结合,PAIYO是OBEN在PAI链开发的一个app,目前在内测阶段。
Anita:@大地 好的,非常期待讨论。
嘉宾邢大地:@亚当 Adam OBEN.COM 区块链在其中的真正作用是什么?
嘉宾郑毅:@Anita 先可以在链上建立一个允许消费者上传数据的应用,应用先处理结构化的数据,同时允许上传非结构化的数据,逐步迭代。对个人数据的确权、授权、以及人与人之间数据的安全传递。在社交app里,大多数匿名的社交app最后都死了。原因是社交需要信任。
Anita:@亚当 Adam OBEN.COM 如何保证该应用的可信性?如何保证该应用不盗取个人数据?
嘉宾邢大地:那么谁来收集数据?用户的个人数据上传哪里?
嘉宾郑毅:这里就要布局类似加噪音这些对隐私保密的数据学习方法。
Anita:@亚当 Adam OBEN.COM 那依然是一个中心化的应用?如何做到完全可信?
嘉宾邢大地:@Anita 线性模型目前还是是可以做sMPC的,通过多个节点来保护隐私,并且抵抗一定比例的collusion。
嘉宾郑毅:有技术手段的。
嘉宾耿杰森:@Anita 可以看看BurstIO,它使用区块链来维护数据的安全性和隐私性,平台允许企业从他们自己的数据中获取更多信息,在合适的时间与合适的利益相关者分享。AI的三个基础是算法,算力和数据,数据包括数据质量和标签。区块链在这几个方面都有可能提升AI的技术发展。
Anita:@大地 多个节点保护隐私,需要共识吗?
嘉宾邢大地:@Anita 如果只是完成特定计算,不需要。@Anita 你认为共识的目的是什么?
Bruce Xu :数据一致。
Anita:@大地 保证数据可信和安全。
嘉宾邢大地:@Bruce Xu 。
Bruce Xu :数据可信是基于不可篡改。
Anita:@亚当 Adam OBEN.COM 请问逐步迭代能解释一下吗。
嘉宾邢大地:所以保护隐私和数据一致是两个不同的问题。我想请问一下@Jason 耿杰森 老师,既然我们讲到了共识机制,你觉得算力方面,区块链会如何提升AI的发展。
嘉宾郑毅:先解决有没有数据的事情,有的数据要先处理结构化数据,非结构化数据也可以上链,需要经过迭代。
Alex夏:结构数据也需要学习模型。还是少不了节点或者中心化?
Anita:@亚当 Adam OBEN.COM 谢谢,我是对迭代机制很好奇。
嘉宾耿杰森:@大地,区块链使用各种技术,包括联合学习和区块链,为机器学习模型的培训创建一个匿名和安全的网格。
嘉宾郑毅:我记得伯克利的dawn song教授说过,AI一定是在链下,先是中心化学习。
嘉宾耿杰森:有个项目,OpenMinded网格, 使数据科学家和开发人员能够访问”矿工”提供的数据,他们帮助培训模型并获得奖励。
Alex夏:@亚当 Adam OBEN.COM 。
嘉宾邢大地:Singularitynet好像也是类似的思路@Jason 耿杰森 。
嘉宾耿杰森:还有一个项目,Neureal, 说它正在使用区块链来构建一个点对点框架,以利用空闲的计算能力进行大数据分析。
嘉宾邢大地:@亚当 Adam OBEN.COM 链下训练模型,链上调用数据计算模型。
嘉宾郑毅:@大地 是的。
嘉宾耿杰森:线上还可以改进共享模型。
嘉宾邢大地:@Jason 耿杰森 那数据的pipeline怎么实现?在一个去中心化结构中。
Bruce Xu :挖矿本身会耗算力,如果支持AI训练,负担不是更重,这个怎么解决。
嘉宾耿杰森:例如federated learning,是这样做的,只做小的局部学习,通过局部的数据来改进它,只有对模型的此更新才会输出。
Bruce Xu :这是个常用的策略。
嘉宾邢大地:@Bruce Xu 挖矿不是一定要算哈希,可以做特定功能的芯片,这个和挖矿算法有关。
嘉宾郑毅:挖矿算力和AI算力可以分开。当然,在新的公链下,可以研发有用算力证明,让挖矿算力用于有用的AI计算。
嘉宾邢大地:@亚当 Adam OBEN.COM 是的。
Bruce Xu :好的。
Anita:@Jason 耿杰森 @大地 这个问题我也很感兴趣,数据的pipeline怎么实现?在一个去中心化结构中。
Bruce Xu :之前楼上问的有关数值和离散的问题也麻烦回答一下。
嘉宾耿杰森:数据在个人,只是在本地做模型的修改,然后输出模型的变化@Anita。
嘉宾邢大地:在区块链当中,链上存的要么是账本数据,要么是哈希值或者其他记录信息。而我们平时在AI中说的数值计算,是针对训练集数据而言的。而且AI算法当中,也不全是非离散数据,categorical analysis也是可以的。关于我问的pipeline那个问题,是因为我个人觉得数据清洗是一个复杂度很高的事情,很难做到自动化。这就对分布式实现提出了很高的要求。
Bruce Xu :区块链如何数据清洗啊。
嘉宾邢大地:没必要在链上做啊。
Bruce Xu :OK。
嘉宾邢大地:能够在分布式系统上做好就了。
Bruce Xu :如何区分数据是否有价值上链呢。
Anita:如果解决pipeline中时间片的作弊问题。
嘉宾邢大地:@Bruce Xu 这个得看场景,也得看目的。
Anita:如何?
嘉宾邢大地:@Anita 不懂?这是什么情况?为什么要在时间片上作弊?Pipeline是数据预处理过程。
Anita:有pipeline就会有时间片,时序协作。
Bruce Xu :Em.有趣。
嘉宾邢大地:好的,我来问最后一个问题@孙凤姗 – 火讯财经 。两位都是学者型的创业家,那么如果从投资人的角度。
Bruce Xu :今天很热闹呀。
嘉宾邢大地:你们会倾向于投资或者布局那一类的项目。
YangZJ:落地应用不应该只有竞争,意味着所有节点完成同样任务。如何分配协同完成任务是一个值得思考的问题。
嘉宾耿杰森:@大地,你是说AI 或者区块链项目,二选一,还是什么其他标准。
Anita:嗯,那么任务是否被完成是否需要共识?
嘉宾郑毅:我相信数据仍然是未来区块链世界的黄金。所以,我应该会先投资有数据上链需求的项目,也就是说大家因为区块链应用而把数据上链。
嘉宾邢大地:@Jason 耿杰森 AI+区块链。
嘉宾郑毅:数据是互联网世界的黄金,也会是区块链世界的黄金。
Bruce Xu :task是个频繁的事情,如果每个task都共识,会不会有些浪费算力呢。
嘉宾耿杰森:主要还是看AI和区块链结合的项目是否能解决现实问题,解决实际问题是否利用了区块链的特别属性。举个例子,区块链可以保证数据的授权和准确,这样解决”garbage in and garbage out”的问题,这样就帮助到AI。
Bruce Xu :也许蕴含一种新的模式呢哈哈,I think。
Alex夏:@亚当 Adam OBEN.COM 。是的。
嘉宾邢大地:@Bruce Xu 共识是有成本的,线下解决问题,结果确认上链即可,参考闪电网络,或者state channel。
Bruce Xu :必要数据上链对吗。
嘉宾邢大地:是的,给state channel打个广告,我是这个技术的信仰者,今天关于公链的争论,也许都可以用state channel解决,或者至少没有太大的漏洞。
Bruce Xu :那数据的结果是有起源的,我们可以把数据依据其计算逻辑溯源,假设只存得到的必要数据,如何保证计算过程不出错或者作假呢,还是说这种考量没有必要。
嘉宾邢大地:好了,时间差不多了,我也终于完成了一丹给我的任务。感谢两位嘉宾,Adam和Jason老师,也感谢今天参与讨论的小伙伴。