IBM SPSS Statistics 广义空间关联规则之于犯罪形态的分析（1）简介

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-6-23 11:44 | 只看该作者

IBM SPSS Statistics 广义空间关联规则之于犯罪形态的分析（1）简介

空间关联规则之于犯罪形态的分析在 IBM SPSS 的核心产品 Modeler 和 Statistics 中，有一个重要的模型广义空间关联规则（GSAR：Geospatial Association Rules），是一种用于挖掘带有空间信息的频繁模式的模型，主要用来处理包含地理信息的数据，挖掘并分析数据项集之间的关系，并根据所挖掘出的规则进行预测，同时可以图形化展示与规则相关的地理信息。
传统关联规则的介绍关联规则用于挖掘大量数据中项集之间有趣的关联或相互联系。随着大量数据不停地收集和存储，许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量的商务事务数据中发现有趣的关联关系，可以帮助制定许多商务决策，比如：分类设计，交叉购物和贱卖分析等等。传统关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联关系的发现可以帮助零售商制定营销策略。例如，在同一次的超市购物中，如果顾客购买了牛奶，他同时购买面包的可能性是多大？通过挖掘出来的这些规则帮助零售商有选择地经销和安排货架，这种信息可以引导和促进销售。例如，零售商可以将牛奶和面包放近一些，这样可以进一步刺激顾客在一次购物中同时购买这些商品。如表 1。
表 1. 购物篮事务购物篮事务购买商品项集1牛奶，面包，谷类2牛奶，面包，糖，鸡蛋3牛奶，鸡蛋4糖，鸡蛋
定义每种商品为一个布尔变量，表示该商品的有无。每个篮子则可用一个布尔向量表示。可以分析布尔向量，得到反应商品频繁关联或同时购买的购买模式。这些模式可以用关联规则的形式表示。例如，购买牛奶也趋向于同时购买面包可以用以下关联规则表示：
{牛奶} - {面包} （support=50%,confidence=66.7%）
这里，我们称牛奶为规则的前项，面包为规则的后项。支持度，是关联规则中一种重要的度量，用于确定给定数据集的频繁程度，支持度很低的规则可能只是偶然出现。从商务角度来看，低支持度的规则多半也是无意义的，用购物篮数据来解释的话，也就是对顾客很少同时购买的商品集进行促销可能并无益处。因此，支持度通常用来删去那些无意义的规则。置信度，是指后项在包含前项的事务中出现的频繁程度。对于给定的规则，置信度越高，说明后项在包含前项的事务中出现的可能性就越大，越具有研究性价值。支持度（support）和置信度（confidence）是规则的兴趣度度量，他们分别反映发现规则的有用性和确定性。关联规则的支持度 50%意味着同时购买牛奶和面包的可能性是 50%，置信度 66.7%表示购买牛奶的顾客 67.7%也同时购买面包。关联规则是有趣的，如果它满足最小支持度阀值和最小置信度阀值。这些阀值可以由用户或领域专家设定。
当然，除此之外，传统关联规则亦可以应用于其他一些领域，如生物信息学，医疗诊断，网页挖掘和科学数据分析等等。例如，在地球科学数据分析中，关联规则可以解释海洋，陆地和大气过程之间的有趣联系。这样的信息能够帮助地球科学家更好地理解地球系统中不同的自然力之间的相互作用。
广义空间关联规则的介绍自关联规则被提出以后，很多算法已经被成功应用于很多实际应用中。近年来，由于空间地理数据在不同行业的重要性和必要性，空间数据挖掘方法获得了很多的关注。于是在现有的空间数据挖掘方法上，空间关联规则的提议成为了最典型的空间模式挖掘方法。根据早期空间关联规则的定义，一个空间关联规则描述了空间数据库中一个或者一组空间对象与另一组空间对象的关系。空间对象可以分为两组，事件对象（Event）和地理信息对象（Geo-Context）。

事件对象代表规则挖掘中的研究目标
地理信息对象用来描述与事件对象的空间关系的空间分布模式

例如：“大多数发生在 1 号普查区里的犯罪案件都同时发生在靠近 Freya St 街区的地方”，在这条规则中，犯罪案件即表示事件对象，1 号普查区和 Freya St 街区表示指定的地理信息对象。整个地理信息对象会包括空间数据库中所有的普查区，街区和道路，以及其他地图元素。“在……里”和“靠近”则表示犯罪案件和普查区，街区的空间关系。空间关系也可以被当做事件对象的一个空间属性。我们以<r,o>这样的形式来表示，这里 r 代表空间关系，o 则代表地理信息对象。我们使用空间关系来表示上面例子中的规则：
<Within, Tract1> - <Close to, Freya St> (a%, c%)
在这里，<Within, Tract1>是规则的前项，<Close to, Freya St>是规则的后项。在上面这条规则中，a%代表前项支持度，也就是说，a%的犯罪案件满足该规则的前项。c%表示犯罪案件发生在 1 号普查区同时又靠近 Freya St 街区的可能性。a%和 c%都是由用户指定的，只有同时满足 a%和 c%的规则才能被挖掘出来。
前项支持度和置信区间是两个非常重要的关联规则度量值，除此之外，我们还有很多其他类型的度量值，我们不在这里一一介绍。
总而言之，空间关联规则描述了事件对象与地理信息对象的空间关系所构成的空间分布模式。然而，根据我们的了解分析，现有的空间关联规则挖掘方法有一个主要的限制，就是他们不能够有效地分析空间对象的非空间属性。所以，很多有趣的规则不能被发现，而这些被遗漏的规则实际上表达了很多丰富的信息，比如，空间对象和非空间的对象之间的关系，这些关系可能包含非常有价值的信息。这里我们要介绍的广义空间关联规则挖掘算法 (GSAR)，是 IBM 自己开发的算法，他集成了传统空间关联规则和广义关联规则的优点，并在此基础上做了进一步的扩展。从而弥补了上面提到的缺点。GSAR 能够利用所有可用的信息，包括空间信息，非空间信息等等。GSAR 主要有两方面的优势：第一，可以有效地利用和挖掘比现有的空间关联规则更多的信息。第二，GSAR 可以通过扩展传统的关联规则挖掘算法（例如先验原理）即可实现，并且不会有明显的额外运算。

收藏分享评分

回复引用

订阅 TOP

返回列表