1. 首页 > 其他

什么叫频繁项目集?? 什么是频繁项集

什么叫频繁项目集??什么是频繁项集

什么叫频繁项目集?

项的集合称为项集。包含k个项的项集称为k-项集。集合{computer,ativirus_software}是一个二项集。项集的出现频率(支持计数)是项集的事务数,简称为项集的频率,支持率计数或者计数。如果项集I的相对出现频率大于等于预定义的最小支持度阈值,则I是频繁项集。

数据挖掘频繁项集是什么?

频繁项集(frequent itemset)S是指购物篮中至少出现比例(support)为s的集合,其中s为给定的常数。

只要该项集出现比例达到你给定的常数s,这些项集都是频繁项集。

频繁项集 频繁闭项集 最大频繁项集之间的关系

刚刚看到相关的东西,随便写写,不保证一定正确……

所谓频繁项集,就是事例里频繁出现的项的集合,比如事例为每个人的购物清单,项就是买的东西,项集就是指频繁地同时出现的集合。比如人们总是喜欢同时买酒和花生,那么酒和花生这两个项就是一个频繁二项集。

频繁项集里存在着较多的冗余,因此人们又引入了频繁闭项集和最大频繁集的概念。

频繁闭项集:设I为项的集合,T为事例的集合,则定义如下映射:1)对于X属于I(项集),f(x)是T之中包含X的事例集;2)对于Y属于T(事例集),g(Y)是所有Y都包含的项集。可以看到,对于一般的X,g(f(X))可能会大于X,而频繁闭项集满足就是g(f(X))=X的项集X。

举例来说,比如人们总是一起买酒和花生和饼干三种东西(顺便举个例子),而不会只买其中的两种,那么如果找频繁项集,那么这三种的任意两个的组合以及三者组合都是频繁项集,比如酒和饼干;但是只有酒和花生和饼干三者的组合才是频繁闭项集。也就是说,不会存在其它的项总是和频繁闭项集一起出现,否则g(f(X))就会包含那些其它项了。

最大频繁集:如果X是一个频繁项集,而且X的任意一个超集都是非频繁的,则称X是最大频繁项集

这个应该说是比较明确的,就是这个集合已经不能再扩充了,否则就不是频繁集了

模式的数目是:最大频繁集<频繁闭项集<频繁项集,不过最大频繁集丢失了很多信息,比如可能在卖酒和花生和饼干的人群中,还有一部分是买洗发水的,数目也达到了频繁项阈值,那么酒-花生-饼干-杀虫水就是酒-花生-饼干的一个超集,所以酒-花生-饼干这个集合的独特性就不会在频繁最大集里体现;而频繁闭项集实际上还保留着频繁项集的信息,可以继续拆分为原来的频繁项集。

如何证明频繁项集的非空子集也是频繁项集

证明:设X是一个项目集,事务数据库T 中支持X 的元组数为s。对X的任一非空子集为Y,设T中支持Y的元组数为s1。

根据项目集支持数的定义,很容易知道支持X 的元组一定支持Y,所以s1 ≥s,即support(Y)≥ support(X)。

按假设:项目集X是频繁项目集,即support(X)≥ minsupport,

所以support(Y)≥ support(X)≥ minsupport,因此Y是频繁项目集。