数字货币交易数据可视分析系统的设计与实现研究现状及进展

qer1232024-06-15 10:20:2157

目录

-标题 1,1 摘要 1

关键词1

1 引言 2

1.1 背景及意义 2

1.2 国内外研究现状

1.2.1 数字货币异常交易研究现状 2

1.2.2 异常交易检测方法研究现状及进展

1.2.3 交易数据可视化研究现状及进展 4

2 基础理论与相关技术 5

2.1 加密货币交易平台 5

2.2 数据分析 5

2.3 数据可视化 6

3 数据处理与异常检测算法研究 6

3.1 数据来源 6

3.2 数据预处理与特征选择 6

3.3 基于聚类算法的异常用户检测可视化方法7

3.4 使用K均值聚类算法的相关工作7

4数据可视化系统分析与设计 8

4.1 可视化系统任务分析 8

4.2 可视化界面任务分析 9

4.3 系统总体设计 10

4.4 系统详细设计 11

4.4.1 界面设计 11

4.4.2 数据库设计 12

4.4.3 系统接口设计 14

5 数据可视化系统实现 14

5.1系统主要功能代码实现14

5.1.1 接口代码实现 14

5.1.2 接口代码实现 17

5.2 可视化界面实现 20

5.2.1 用户列表 20

5.2.2基于极坐标的综合分析视图20

5.2.3基于笛卡尔坐标系的详细分析视图22

5.2.4 平行坐标分析图23

5.2.5 热矩阵分析图 24

6 系统测试 24

6.1 涉嫌洗钱的异常行为分析 24

6.2 数据库扫描异常行为分析 26

6.3 货币盗窃风险分析 28

7 结论 29

参考文献 30

致谢 32

数字货币交易数据可视化分析系统的设计与实现

摘要:加密货币交易平台是数字货币交易和流通的主要场所,其风险和安全风险不容忽视。以安全性为背景,在一系列详细场景和需求分析的指导下,设计了一种新颖的加密货币交易平台交易数据可视化分析系统。该系统首先通过数据预处理和聚类算法筛选出风险用户,然后通过多个视图展示风险用户数据,实现用户异常行为的可视化,从而实现对风险用户的识别、确认和警示功能。

关键词:数字货币;交易数据;视觉分析;可视化;风险用户

:,。,,rm。,,rs,。?

:;;;;?

介绍

1.1 背景与意义

近年来,区块链技术发展迅速,基于区块链技术的数字货币表现出强劲的发展势头,全球数字货币交易市场规模不断扩大。

然而交易所自诞生以来,一系列后果严重的安全问题频频发生。数字货币的收发都是匿名的,因此数字货币盗窃事件层出不穷;交易所属于网络信息系统,存在数据库扫描、用户弱密码、注册邮箱被盗、手机木马病毒等安全风险,给用户资产造成严重损失;还存在利用机器人频繁套利交易、账户余额异常变动、内部技术人员留有后门、运营、财务人员利用营销活动联合作案等安全问题。因此本文开展的研究立足于数字货币交易平台的安全性,旨在帮助交易平台实现业务风险预警,支撑安全运营能力。

数字货币交易平台每天都会产生大量的数据文件,记录用户的使用和交易信息。分析这些数据不仅有助于发现用户使用和交易的模式,更重要的是有助于发现具有攻击性行为的潜在异常用户。

在机器学习领域,众多研究者对异常检测进行了研究并取得了丰硕的成果,有监督和无监督的异常检测算法不断发展。金融交易平台的异常检测问题极其复杂,需要根据不同层次的交易信息全面总结可疑金融交易的特征,选择和创新能够适应复杂业务的数据挖掘算法。

数据可视化利用计算机视觉、图形图像处理技术,通过对平面、三维物体和属性的建模和展示,提供挖掘、分析和展示数据内在规律的手段。可视化分析将数据以最直观、可人机交互的图形形式呈现,帮助用户进行探索和分析。金融交易平台的数据可视化可以帮助分析复杂、多维的交易数据,为检测和识别异常用户行为提供有效参考。

1.2 国内外研究现状

在本节中,我调查了与这项工作最相关的论文,包括数字货币异常交易的背景、异常检测方法和交易数据可视化方法。

1.2.1 数字货币异常交易研究现状

根据《中华人民共和国反洗钱法》,可疑交易包括涉嫌地下钱庄、涉嫌腐败、涉嫌毒品犯罪、涉嫌走私、涉嫌诈骗、涉嫌集资、涉嫌传销、涉嫌套现等多项可疑行为。

随着互联网技术的飞速发展,越来越多的虚拟商品与现实商品可以在网络上进行交易,比特币等数字货币逐渐成为网络虚拟空间交易的重要媒介。由于数字货币监管尚不完善,且数字货币交易本身的匿名性、去中心化、非实体性使得监管难度加大,越来越多的犯罪集团开始利用数字货币监管的漏洞实施上述违法活动[1-3]。

在交易过程中,交易记录是交易的重要证据,包含了全部交易信息,从中可以提取交易行为特征,分析交易异常情况。

张成虎、赵小虎建议从交易记录的角度分析可疑交易,单笔或关联交易记录通常可以反映存储交易金额的异常,基于时间序列的交易记录通常可以反映交易频率的异常,交易主体之间的交易往来通常可以反映交易目的或交易性质的异常[4,5]。

虽然上述分析方法在现实货币交易中已经得到广泛的应用,但通过交易记录分析交易异常的方法在数字货币交易中依然没有普及。

1.2.2 异常交易检测方法研究现状及进展

异常检测对于安全系统具有重要意义,在过去的几十年中,科学家对异常检测进行了广泛的研究,取得了许多成果,业界也提出了各种各样的异常检测方法。

无监督学习异常检测方法。该方法不需要在训练过程中将数据标定为“正常”或“异常”,算法会根据数据特征自动对相似数据进行聚类,将数据划分为多个簇。在检测过程中,根据待检测数据所属的簇来判断数据的异常情况[6-8]。

基于监督学习的异常检测方法。在训练分类器时,数据集需要有一组标记为“正常”和“异常”的样本。输入待检测的数据后,分类器会根据训练结果将数据标记为“正常”或“异常”,判断数据的异常情况[9,10]。

基于半监督机器学习的异常检测方法,该方法在训练过程中使用大量未标记数据,同时也利用部分标记数据来提高分类准确率[11]。

金融交易中的数据异常一直是研究者关注的重点,他们的研究工作与本文的内容较为相关。

在业务和操作异常方面,柴洪峰、李睿等提出利用贝叶斯信念网络算法和BLAST-SSAHA算法对异常交易进行检测。金胜平等介绍了一种用于银行异常交易检测的扫描统计新方法,并利用基于扫描分析检测出的异常交易时间区域的仿真方法。姚远等提出了一种可以确定异常行为具体类型和概率密度函数问题的市场价格操纵监测模型体系。刘卓君、李晓明等提出了一种新的非线性随机方法对金融交易时间序列进行建模和拟合,并利用稳健控制图进行误差检验以检测异常。张晓翠等研究了常规交易分布和波动率模型,提出了一种增加检测维度以提高监测精度的IT系统交易异常检测方法。郝建军、翟随兵等借用聚类算法和孤立点挖掘算法构造的CBLOF算法,计算每个数据点的LOF值,并利用该值识别可疑洗钱数据[12-15]。

1.2.3 交易数据可视化研究现状及进展

随着大数据时代的到来,每天都有海量的数据以爆炸式的速度产生,如何有效合理的展示数据逐渐成为一个难题,这也推动了数据可视化技术的发展。该技术以图形作为数据的载体,让抽象的数据以图像化的方式展现出来,让用户更加直观、贴心、快捷的了解数据及其多种特征。目前,许多研究者对数据可视化技术进行了深入的研究。

等提出了一种基于张量分解的大规模时空数据自动模式提取与可视化分析方法[16]。

一些针对时间序列数据的研究与本文的工作非常相关。Gots等人全面总结了面向时间的数据分析的可视化方法,Rind等人不仅总结了面向时间的数据可视化的研究方法,还提供了包含时间序列数据基本结构和算法的软件库,并研究了瞬时事件的可视化方法,提供了可以显示多个时间轴和多种表示形式的可视化方法。针对高维时间序列数据,Gots等人设计了一种可视化分析技术,该技术将可扩展的动态时间事件数据结构与交互式多视图可视化和临时统计数据相结合。这些可视化分析工具为本文的研究提供了思路[17]。

数据可视化技术在异常检测中也得到了广泛的应用。

赵颖等针对网络安全日志时间序列分析的“主题”特性,提出将堆叠流图引入网络安全可视化,可对数据进行多时间序列趋势分析,能够直观地发现网络安全异常事件。张文奇、周曦等基于日志的多维性和时间序列性,提出了一种新颖的可视化系统MLVis,通过设计多个可视化视图,实现交互式的可视化分析系统,用于检测员工的异常行为。张文奇、周曦等介绍了统一的交互系统与框架Voila,并提出了一种基于张量的异常分析方法,实现流数据的在线监控,并允许用户与程序交互以评估异常。任立南、段桂华等开发了面向银行业务的交易监控可视化系统,利用Kafka、等技术完成信息采集与存储,利用Spark决策树回归模型进行预警,通过基于HTML5的交互式图形库创建多系统关联结构图,并使用可视化工具对单个系统进行监控和可视化。 系统实现多系统联合监控和交易量预测分析[18]。

虽然数据可视化在异常检测中被广泛应用且用途颇多,但据我们所知,对数字货币交易平台安全态势的可视化支持研究较少。我们的工作将以交易平台的安全性和用户可疑交易行为的识别为背景,设计一个数字加密货币交易平台交易数据可视化分析系统,以监控交易平台的交易行为okx,增强监控中的态势感知和态势理解。

基础理论及相关技术

2.1 加密货币交易平台

数字货币交易平台是数字货币之间、数字货币与法定货币之间撮合交易的平台。此外,交易所还扮演着做市商和投行的角色。作为做市商,交易所可以刺激交易市场的流动性,并从中赚取一定的差价;作为投行,交易所提供数字货币的发行、承销等服务,并收取上市费用[19]。

本文讨论的是一种同时具备法定货币和币币交易功能的数字货币交易平台。法定货币交易是指用户可以在平台上用法定货币进行数字货币的交易和兑换,用户可以通过银行卡、支付宝、微信等转账方式直接从交易平台购买或出售数字货币。币币交易是指数字货币之间的交易,用户可以通过交易所的交易,将自己已经拥有的数字货币兑换成其他的数字货币,交易过程不涉及任何法定货币。

本文数据来源于。该公司成立于2018年2月,是一家服务于全球专业交易者的数字资产交易平台,致力于为数字资产投资者提供服务以及以实体经济为后盾的优质资产代币,总部位于英国。

2.2 数据分析

数据分析是指运用适当的统计分析方法,对对象数据进行分析,从中提取有价值的信息并形成结论的过程[20]。

由于我们的数据集是无标签数据集,因此我们使用无监督学习算法。聚类属于无监督学习,聚类后的样本没有给定的类别标签y,只有特征x。聚类的目的是为每个样本x找到潜在的类别y,并将同一类别y的样本x放在一起,使得同一类别的x之间距离近,不同类别之间的距离远。因此我们选择K均值聚类算法。

在聚类问题中,假设训练样本为{x(1),…,x(m)},每个x(i)∈Rn,具体算法描述如下:

1. 随机选择聚类中心点,μ1,μ2,…,μk∈Rn。

2. 重复以下过程欧意交易所,直到函数收敛

对于每个示例 i,计算其所属的类:

(一)

对于每个类j,重新计算该类的中心点:

2.3 数据可视化

数据可视化需要在功能性和美观性之间取得平衡,目标是清晰有效地传达和交流信息,从而对极其复杂的数据集提供深入的洞察和分析[21]。

大数据可视化的主要工具有D3.js、CSS、等。本系统的界面主要用D3.js编写。D3的全名是Data-,是一个实时交互的大数据可视化库,采用了广泛实现的SVG、CSS、CSS标准,主要用于网页制图和生成可交互的图形,是最流行的可视化库之一。D3.js极其灵活,用户可以组合强大的可视化组件,高效地操作大数据文档,生成丰富美观的图形[22]。

3 数据处理与异常检测算法研究

3.1 数据源

本文数据来源于星科交易所,经过与专家学者的讨论和研究,我们选取​​了一些符合研究要求的数据,包括用户基本信息、币币交易记录、法币交易记录、用户登录历史、用户钱包历史等。用户基本信息包括国籍、姓名、手机号、会员等级、邮箱等6个属性;币币交易记录包括用户id、挂单时间、挂单价格​​、成交​​时间、成交金额、成交量、交易方向、基础货币等8个属性;法币交易记录包括用户id、交易金额、交易创建时间、交易完成时间、交易币种等5个属性;用户登录历史中有登录时间1个属性;用户钱包历史中有更新时间、金额、币种3个属性。为了设计和展示可视化界面,我们选取​​了2019年1月1日至2019年3月31日的数据。

3.2 数据预处理与特征选择

数据预处理与特征选择是数据挖掘与机器学习中十分关注的问题,也是数据分析中的难点。数据预处理的方法有很多,包括规范化、特征二值化、独热编码、缺失值计算、数据变换等[23]。

特征选择就是从大量的变量中选取对当前学习任务有用的特征变量。特征选择主要遵循两个标准:第一,特征需要有发散性,如果特征不发散,即样本数据在特征上差异不大,那么对样本的分类就不会有太大的影响;第二,特征需要和学习目标相关,相关度越高,特征就越重要。

本文主要采用z-score标准化方法对数据进行预处理,表示为z=(x-μ)/σ,其中x为特定分数,μ为原始数据的均值,σ为原始数据的标准差,z值表示原始分数与母体均值的距离。对数据进行预处理有助于消除维度效应,加快机器学习速度[24]。

基于交易平台具体的业务知识和数据,我们最终确定了7个可用于建模的特征:交易金额、挂单价格​​、交易量、交易金额、钱包历史每次更新的余额、聚类标签。通过数据清洗和关联,最终保留了8831条数据用于模型训练和测试。

3.3 基于聚类算法的异常用户检测可视化方法

无监督学习在机器学习中占有重要的地位,属于无监督学习的聚类算法作为一种统计数据分析技术被应用于很多领域。聚类是通过静态分类方法将多个不同的对象分成若干个类别,各类别内的子集具有较高的相似性。对于高维数据,存在着丰富的特征属性,但有些属性对数据分布影响不大,不相关的属性的存在不利于数据更好的聚类,因此我们选取若干有效的关键特征,作为一种无监督学习的聚类算法,它不依赖于先验知识,更符合我们的研究要求。

3.4 使用K均值聚类算法的相关工作

K-means是一种基于划分的聚类方法,具有简单、快速的优点。本文采用K-means算法进行数据分析。K-means算法的基本思想是以空间中的k个点为中心对对象进行聚类,将距离它们最近的对象归为一类。通过迭代的方式,逐一更新各个聚类中心的值,直到得到最好的聚类结果[25]。

K-means算法具体步骤描述如下:

步骤1.从n个数据对象中选择k个对象作为初始聚类中心。

步骤2.重复步骤3至步骤4,直到标准测量函数开始收敛。一般采用均方误差作为标准测量函数,公式如下:

E=

其中E为数据集中所有对象的均方误差之和,p为空间中的某点,mi为簇ci的均值。该公式的聚类标准旨在使得簇之间尽可能分离,每个簇内的点尽可能紧凑。

步骤3 根据各个聚类中心对象的均值,计算各个对象到这些中心的距离,按照距离最小的方式划分这些对象。

步骤4.重新计算每个聚类的中心值。

本文的K均值聚类核心代码如下:

#导入库

#模型初始化构建,设置init=k-means++,=full

=(初始化=k-means++,=2,=完整)

#模型训练

。合身()

#获取聚类中心

=。

#模型预测

=.()

[]=

.(/.xlsx,索引=无)

#统计每个类别的数量

r1=pd.(.).()

打印(r1)

#集群中心

打印()

=pd.(/.xlsx)

通过聚类从8831条数据中筛选出168条异常数据,然后利用轮廓系数评价聚类效果,得到的轮廓系数为0.9946,表明聚类效果良好,聚类结果可视化如图1所示。

图1

图1 聚类结果可视化

4.数据可视化系统分析与设计

4.1 可视化系统任务分析

本系统的设计和实现主要应用于数字加密货币交易平台,主要通过前端可视化界面展示算法检测到的异常用户的详细操作数据,判断这些异常用户具体有哪些攻击行为或者风险行为。同时,利用丰富的、可以人机交互的图形展示风险用户的详细操作数据,可以帮助管理者总结出这些用户行为的一般规律,从而更好地识别和判断平台上有攻击行为的异常用户,并在后期进行风险预警。通过与专家学者、业务人员的讨论,提出以下五项具体工作:

(1)数据处理

由于数据集来源多样,研究所需的数据字段分散在数据库中多个异构数据表中,且数据集不完整、有噪声、不一致。因此系统实现的第一步是实现跨数据集的有效操作,将多源分散数据进行合并,并利用z-score标准化等数据预处理技术对数据进行有效的处理,提高数据质量,方便后续操作。

(2)特征选择

数字货币交易平台种类繁多,风险用户类型多样,且均具有不同的操作特征。我们首先需要归纳出不同的风险类型,并针对具体情况选取相关特征。另外,数据集中还包含很多对研究无用或冗余的特征,因此我们需要针对不同类型风险用户的操作特征,结合数据的质量特征提取有效的关键特征进行建模。

(3)异常检测

由于该数据集没有准确标记异常用户和正常用户,因此采用无监督学习算法过滤掉异常用户。本文利用聚类算法将数据聚类成两类,较小的一类为异常用户,另一类归为正常用户,对两类用户分别进行标记。采用轮廓系数指标来评估异常检测的结果。

(4)可视化

很难展示多个

本文链接:http://www.chuangkn.com/?id=682

数字货币交易数据

阅读更多

网友评论