李平:分析区块链数据集的四种新机器学习方法

使用机器学习来分析区块链数据集是一个令人着迷的挑战。区块链数据集除了具有不可思议的潜力,可以帮助我们了解加密货币资产的行为,但是这对机器学习的实践者提出了非常独特的挑战。然而这些挑战被转化为大多数传统机器学习技术的主要障碍。机器智能技术的快速发展使得新机器学习方法的产生成为可能,这些方法非常适用于区块链数据集的分析。在IntoTheBlock,我们定期试验了这些新方法,以提高市场情报信号的效率。今天,我想简要介绍一下机器学习领域的一些新思想,它们可以在分析区块链数据时产生有趣的结果。

区块链数据集提供了一个与加密货币资产行为相关的独特的数据宇宙,因此,为机器学习方法的应用提供了独特的机会。然而,区块链数据集的性质和结构给机器学习方法带来了独特的挑战。虽然我们可能认为区块链数据集是机器学习应用程序的天堂,但传统方法通常会遇到一些意想不到的挑战:

·缺少标记数据:区块链数据集中只有很少的标记数据可用于训练机器学习模型。

·模糊数据:区块链充满了加密或模糊的数据,几乎不可能进行分析。

·缺乏基准测试模型:机器学习就是将模型与其他模型进行基准测试。在一个很少有文档记录的模型产生可信结果的空间中,这样的结果有点困难。

传统的机器学习思想

传统的机器学习实践者将世界分为两类模型:

·监督学习(Unsupervised Learning):有监督学习(Supervised Learning)这个名称表示有一名导师作为老师在场。基本上,监督学习是一种我们使用数据来教或训练机器的学习,这些数据都有很好的标记,这意味着一些数据已经有了正确的答案。

·非监督学习:非监督学习是机器使用既不分类也不标记的信息进行训练,并允许算法在没有指导的情况下对该信息进行操作。在这里,机器的任务是根据相似、模式和差异对未排序的信息进行分组,而不需要事先对数据进行任何训练。

在区块链数据集中,由于标记数据集的有限可用性,监督学习应用程序是有限的。非监督方法可能非常有效,但在缺乏其他模型或基准进行比较的情况下,很难判断其性能。

为了帮助改进区块链数据分析中的非监督和监督方法,我们尝试使用一些近年来在机器学习社区中获得广泛关注的新方法。

新的机器学习方法,可以帮助我们了解区块链数据集

我们生活在机器学习研究技术的黄金时代。今天,机器学习框架和平台正在迅速整合许多技术,帮助实现传统监督和非监督方法之外的新功能。我们发现其中一些技术与区块链数据集的分析非常相关。

半监督学习

半监督学习是近年来备受关注的机器学习领域之一。从概念上讲,半监督学习是监督学习的一种变体,它结合了用于训练的标记和未标记数据集。半监督学习的原理是利用少量的带标签的监督学习和大量的无标签的非监督学习数据,在许多情况下可以比完全监督的模型产生更好的准确性。

李平:分析区块链数据集的四种新机器学习方法

在区块链分析中,半监督学习可以用于训练模型,这些模型可以对参与者(如交换器或钱包)进行分类,而不需要依赖大型标记数据集进行训练。例如,分类器可以学习使用几个标记地址来识别加密货币交易,并使用一个更大的未标记地址池来进行扩展。
迁移学习
迁移学习是一种表示法学习,其基础是通过重用以前任务中的知识来掌握新任务的思想。传统的学习是孤立的,只基于特定的任务、数据集和单独的训练模型。没有可以从一个模型转移到另一个模型的知识被保留。在迁移学习中,您可以利用以前训练过的模型中的知识(特性、权重等)来训练新的模型。

李平:分析区块链数据集的四种新机器学习方法

当涉及到区块链数据分析时,可以使用迁移学习来构建模型,从而从以前的任务中归纳出知识。例如,识别异常比特币转移的模型可以将其知识推广到以太坊区块链。
AutoML与自动化
设计机器学习模型是一项难以置信的主观任务,它通常依赖于数据科学家的经验,而这些经验没有经过客观测试。一个给定的机器学习问题可以有无限个解,很难理解我们是否有这个问题的正确解。
AutoML是一种新技术,旨在自动创建机器学习模型。对于给定的数据集、一系列优化指标和一些时间或资源方面的约束,AutoML方法应该能够评估成千上万的神经网络体系结构并产生最优结果。虽然有效的数据科学团队可能能够评估给定问题的12个模型,但是AutoML方法可以在相对可管理的时间内快速搜索成千上万的体系结构。

李平:分析区块链数据集的四种新机器学习方法

在区块链数据集中,NAS和AutoML可以帮助我们评估给定场景的大量模型。例如,我们可以评估数百个模型,得出一个更完善的架构,而不是设计一个特定的神经网络来预测交易所资金流动。
元学习
元学习可以简单地定义为获取知识多样性的能力。作为人类,我们能够用最少的信息同时获得多个任务。我们可以通过看到一个新的物体的图片来识别它,或者我们可以同时学习复杂的、多任务的活动,比如驾驶飞机。虽然人工智能代理可以掌握非常复杂的任务,但它们需要在任何原子子任务上进行大量训练,而且它们在多任务处理方面仍然非常糟糕。一种流行的元学习技术被称为“少镜头学习”(few-shot learning),它可以创建深度神经网络,通过模仿极简数据集来学习,例如,婴儿如何通过只看一两张照片来学习识别物体。

李平:分析区块链数据集的四种新机器学习方法

在区块链分析中,我们可以使用元学习来重用识别模式(如恶意传输)的模型来识别有用信息(如支付交易)。
这些是一些新的机器学习方法,可以成为非常有用的区块链数据分析。随着加密货币分析空间的发展,其中一些技术的应用将从一个开放的实践变成必须的,以产生有意义的,能够帮助我们理解加密货币资产的行为。