??斗地主捕鱼电竞提现秒到 广告位招租 - 15元/月全站展示
??支付宝搜索579087183领大额红包 ??伍彩集团官网直营彩票
??好待遇→招代理 ??伍彩集团官网直营彩票
??络茄网 广告位招租 - 15元/月全站展示
R语言关联分析之啤酒和尿布

转载   三阿哥   2018-01-12   浏览量:488


上海福彩开奖结果今天:关联分析

概述

彩票开奖查询 www.kbyp.net 啤酒和尿布的故事,我估计大家都听过,这是数据挖掘里面最经典的案例之一。它分析的方法就关联分析。

关联分析,顾名思义,就是研究不同商品之前的关系。这里就发现了啤酒和尿布这两个看起来毫不相关的东西直接存在的微妙关系。

最经典的关联分析算法之一就是Apriori算法,也是数据挖掘十大算法之一。在R中就有一个包可以做关联分析——arules和arulesViz,前者用于关联规则的数字化生成而后者是前者的扩展包,它提供了几种对关联分析结果可视化技术,从分析到可视化一站式完成。

在了解学习关联分析之前,我们需要知道以下几个名词。

项集

英文名itemset,它是一个集合,举个例子,一个商场的所有商品的就是一个集合,也是一个项集。

关联规则

英文名Association Rule。一般记为X->Y,X成为关联规则的先决条件,Y称为关联规则的结果。关联规则有三个核心概念:支持度,置信度,提升度。

支持度

英文名Support。它表示的是项集{X,Y}同时含有X, Y的概率。该指标是建立强关联规则的第一个门槛,衡量所考察关联规则在量上的多少。我们可以通过最小阈值的设定,来剔除那些支持度较小的。

置信度

英文名 Confidence。是第二个门槛,在这里我们也可以设置最小阈值。置信度表示在关联规则的先决条件X发生的条件下,Y发生的概率。如果跟前面的项集的概念联系到一块,置信度的意思就是如果在含有X的项集里面也含有Y的可能性。
confidence(X—>Y)=P(Y|X)=P(X, Y)/P(X)

提升度

英文名lift。提升度可以看做是对置信度的一个补充。置信度是在X发生的情况下,Y发生的概率。而提升度是在X发生的情况下,Y发生的概率与没有这个条件下项集中出现Y的可能性之比。
当lift为1时,表示X和Y相互独立,当lift值越大,关联性越强。

关联分析步骤

  • 选出满足支持度最小的阈值的所有项集。即频繁项集。该阈值一般设为5%—10%。

  • 从频繁项集中找出最小置信度的所有规则。置信度的阈值一般设置的比较高,如70%—90%。当然你要是想获取较多的关联规则,该阈值可以设置的较低。

apriori算法

arules包提供的apriori算法函数原型如下:

apriori(data, parameter = NULL, appearance = NULL, control = NULL)

现在来给大家介绍一下这些参数。

参数作用
data数据
parameter参数可以是一个列表,可以对支持度,置信度,每个项集所含项数的最大值最小值,以及输出结果等重要参数进行设置
appearance可以对先决条件X和关联条件Y中具体包含的那些项目进行限制。默认是没有限制的。
control控制算法的性能,也可以进行排序和报告进程。

现在就来分析一下啤酒和尿布的案例,arules包含有一个Groceries的数据集,该数据集是某杂货店一个月的真实交易数据,我今天就有这份数据来看看啤酒和尿布的故事是不是都是大人们编出来骗我们的。

library(arules)
data("Groceries")

由于数据集中酒的种类比较多,有canned beer,bottled beer,wine等,所以我直接把尿布napkins作为后继。

rules<-apriori(Groceries,parameter = list(supp=0.001,conf=0.22),
                appearance = list(rhs="napkins",default="lhs"))

在不断调整支持度和置信度,最终调到0.001和0.22,结果还是比较理想的,如果再大一点,生成的频繁项集就会比较少,而且更重要的没有包含啤酒的的项集,如果再小一点,生成的项集又太多,但包含啤酒的项集也不是很多。此时支持度为0.001,置信度为0.22,总共有53个频繁项集,但只有一条包含啤酒的频繁项集。当把支持度或置信度再调大一点,就没有包含酒的频繁项。

现在使用arulesViz包对结果进行可视化

library(arulesViz)
plot(rules)



关联规则点的颜色深浅有提升度lift值得高低来决定的。
从图片中可以看到提升度高的,支持度比较低,置信度较高。

plot(x, method = NULL, measure = "support", shading = "lift", 
    interactive = NULL, engine = "default", data = NULL, control = NULL, ...)

如果我们要查看每个点所代表的项集,可以使用参数interactive。这样绘制的图形是交互式的。点击inspect就可以获取选定点的详细信息,点击一个点,再点filter按钮,然后点击右侧颜色条,就可以将小于该关联规则lift的其他关联规则点都过滤掉。
当一块点比较密集时,可以选两个点构成一个矩形区域,再点击zoom in就可把该区域放大,点击zoom out就会缩小。点击end就是退出??梢钥聪旅娴难菔就?。

plot(rules, interactive=TRUE)



这个包对结果的可视化效果还是很棒的,函数也提供了许多参数。下面是我简单绘制的,仅供“观赏”。

plot(rules6, method = "grouped")


其中measure参数可以控制散点的大小和颜色。

plot(rules6, method = "grouped",measure = "lift")


plot(rules6, method = "graph")


还有其他参数,在用的时候可以再好好研究。

分析完之后我有种被骗的感觉,为什么会这样,53个频繁项集,但只有一条包含啤酒的频繁项集。也许关联最强的不用分析我们都知道,关联最强的也许就是常识,往往那些关联不太强且容易被忽视到的才是最值得我们去发现的。

退一步想想,也许因为该数据量太小,只有一个月的,另外,这是数据来自一个grocery,并不是像沃尔玛那种supermarket,而且这个杂货店也不一定是美国的。所以大家可以把这篇文章看做是一个关联算法的练习。

注:

作者:王亨

公众号:跟着菜鸟一起学R语言

原文链接://blog.csdn.net/wzgl__wh/


转载自://blog.51cto.com/11576874/2060368

招聘 不方便扫码就复制添加关注:程序员招聘谷,微信号:jobs1024



《数据挖掘:R语言实战》神经网络完整代码
《数据挖掘:R语言实战》神经网络完整代码。
R语言中的多维数组、矩阵、列表、数据框
R语言中的多维数组、矩阵、列表、数据框。在R中,数组(Arrary)可以看做是带多个下标的相同类型的元素集合,常用的是数值型的数组如矩阵,也可以是别的类型的数组,比如字符型,逻辑型等。
《数据挖掘:R语言实战》P234中,UCI数据库中白酒品质研究数据集4898个样本下载问题
《数据挖掘:R语言实战》P234中,UCI数据库中白酒品质研究数据集4898个样本下载问题
R语言中fivenum函数的用法?
R语言中fivenum函数的用法?主要是求平均:fivenum():返回五个数据:最小值、下四分位数、中位数、上四分位数、最大值。
R语言中cut函数的用法?
R语言中cut()函数的用法?cut():切割将x的范围划分为时间间隔,并根据其所处的时间间隔对x中的值进行编码。参数:breaks:两个或更多个唯一切割点或单个数字(大于或等于2)的数字向量,给出x被切割的间隔的个数。breaks:采用fivenum()。
R语言--批量读取和写入目录
R语言--批量读取和写入目录。在对很多数据处理时,通常要循环读取文件夹中的文件,这个时候需要批量读取和写入文件,在R语言中,批量读取和写入文件夹中文件的方法如下所示。
R语言检测文件名后缀案例
R语言检测文件名后缀案例。
R语言实战总结--第二章数据类型及数据结构
R语言实战总结--第二章数据类型及数据结构。
R语言笔记
最近做的几个项目都是用R语言来完成的。正如老师所说,学起来很快,忘起来也很快。整理一下放在这里,方便以后查阅。安装所需的包:install.packages("xxxx")加载包:library("xxxx")显示/改变工作目录getwd()/setwd("d:/temp")文件操作:1.读取csv文件var=read.csv("demo.csv",header=FALSE)——header表示是