关联规则数据挖掘论文
时间:2022-03-26 04:07:39
导语:关联规则数据挖掘论文一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。
1相关技术
关联规则最初是针对购物篮分析问题提出的,目的是发现事务数据库(TransactionDatabase)中不同商品之间的联系。关联规则是形如A=》B的蕴涵式,其中A称为该关联规则的前项,B称为该关联规则的后项。事务,是一个明确定义的商业行为,如顾客在商店购物就是一次典型的事务。由用户设定的支持度和置信度的门槛值,当sup-port(A=>B)、confidence(A=>B)分别大于等于各自的门槛值时,认为A=>B是有趣的,此两值称为最小支持度(minsupport)和最小置信度(minconfidence)。同时满足minsupport和minconfidence的这种关联规则就叫做强的关联规则。设任务相关的数据D是数据库事物的集合,当项集的支持计数≥D中事务总数|D|与minsup-port的乘积时,就叫做频繁项集,当项集的支持计数可能≥D中事务总数|D|与minsupport的乘积时,就叫做侯选项集。所有侯选项集K-项集的集合记作Ck,所有频繁项集K-项集的集合常记作Lk,很明显Lk奂Ck。如果仅依赖最小支持度和最小置信度这两个参数的限制,所挖掘出的强关联规则不一定是用户感兴趣的,因此,用户可以根据实际应用的需求,再结合自身的领域知识,通过选择与实际分析任务有关的数据集,设置不同的参数,限定前项和后项的个数,选择前项和后项包含的属性等操作,对关联规则的挖掘进行约束。
2模糊集理论的引入
在讨论实际问题的时候,需要判定模糊概念涵义,如判断某个数据在模糊集的定义和归属,这时就需要普通集合与模糊集合可依某种法则相互转换。模糊理论中的截集是模糊集合和普通集合之间相互转换的一座桥梁。
3基于事务间数值型关联规则的数据挖掘算法
假设有一就业数据库,先通过数据整理,将原始数据记录值区间[0,10]偏置10个单位。由此就得到了经过偏置后的数据库记录。再依滑动窗口方法,设maxspan=1(该值可以依实际情况的需要来定),就可将偏置后的数据库数据整理转化为扩展事务数据库。再把扩展事务数据库记录通过隶属度函数转化为对应的隶属度。
4结语
事务间具有相互关联的项天生就比事务内的项之间的关联的支持度来得低,这是一个很应值得注意的现象。概括出来就是事务间项具有的低支持度性质,由此衍生出来的就是对提高低支持度项集间关联规则挖掘效率的讨论及其应用。通过基于相似度度量的方法来转换思路不失为一种好的方法,简单地说就是在保证失真能被有效控制的状态下通过科学有效的方法使我们能够最大程度地逼近来接近真值。如何把这一思路运用到事务间关联规则的挖掘上特别是能行之有效地对两个或两个以上的项进行挖掘,这正是本文所想认真讨论的问题。,本文的模糊关联规则算法对数据量较小或面对中小型数据量进行处理(或者直接处理)也是可以的,但面对大数据量或超大数据量却是存在一些问题的。原始数据库转化为扩展数据库光这个计算工作量开销的时间复杂度都是值得深思的;缺少信息压缩存储技术以便尽量降低算法的空间复杂度,如采用Hash技术等。
作者:李春青李海生单位:广西民族师范学院
- 上一篇:配电网数据挖掘论文
- 下一篇:电力需求预测数据挖掘论文