2013年5月17日星期五

二项分布以及在R语言里的函数

伯努力分布: 一次试验只有两个结果,要么成功要么失败。当然成功失败的概率不见得是相等的。比如一到单项选择题,有5个备选答案,成功的概率是0.2,失败的概率是0.8.所以试验的结果记为X,成功或者失败(1或者0.
二项分布: 伯努力试验执行n次数,每次实验是iid。这时要注意,试验结果记为X---表示n次试验成功的次数,X可不再是成功和失败了,而是和试验次数有关系。
所以二项分布就是伯努力试验的多次进行。


二项分布:每次实验有两个结果,成功/失败?当然成功和失败的概率不见得是相等的!X-标识n次试验成功的次数,X的概率密度函数
这个函数在R语言里有个公式可以直接计算就是
dbinom(X,n,p)------表示  X~B(n,p)
其实就是f(X|theta)
如下为一个例子: 例如12道单选题目,没道题目有5个选项。假设某个学生做随机选择,
1)、作对4道题目的概率
P(X=4)=

Dbinom(4,size=12,prob=0.2)
2)、作对题目<=4道的概率


dbinom(0,12,0.2)+ dbinom(1,12,0.2)+dbinom(2,12,0.2)+…….+dbinom(4,12,0.2)
=sum( dbinom(0:4),12,0.2 )
=pbinom(4,size=12,prob=0.2)

3)作对>4道题目的概率


=1-pbinom(4,12,0.2)
=sum( dbinom(5:12,12,0.2) )
=pbinom( 4,12,0.2,low.tail=FALSE )

4)产生n个数,每个变量服从二项分布B(size,prob)------产生n个服从二项分布的随机数
Rbinom(n,size,prob)

2013年5月6日星期一

关于推荐系统应该考虑的问题

关于推荐系统应该考虑的问题:

一、如何避免“多次推荐的问题”?

如果我已经购买了电子产品,广告系统会反复推荐这样的东西。我已经购买了,还会继续购买同样的产品吗?
其实要考虑商品的特点:
比如:柴米油盐,每天都要消耗的就可以的!
此外:
可以增加商品属性:
》如购买周期
》》同类商品排斥程度{解释何为排斥程度?该属性是是类目商品的属性,如笔记本电脑买了之后,笔记本电脑这个类目的商品对于该用户排斥程度为0.8(排斥指的是有了一件该商品之后对于本类商品接受程度),相当于这类计算相关度时权重降低}

就可以解决讨论里说的推荐的东西已经买过的现象吧。 古老的电话推销员都记录有上次成功推销的人所购买的商品什么时候使用到期  

二、要考虑外部环境数据

基于BI做出的推荐肯定是用户的过去的需求分析,预测的结果还要加上外部环境数据,比如:季节、当时竞争环境、特殊事件类似这些,这些东西通过历史数据不能得出结论的
需要提前预测,否则当发现数据异常,做运营调整的成本就大了