以上各种算法的实现,基于大量的传统数学模型,一种算法中可能包含有多种数学模型,也可能是某一算法对应于多种数学模型候补。从类别上可分成类似算法数学模型,分组算法数学模型,自然语言分析数学模型等三类。
关于这些数学模型情报,我们在下一节中有较详细的记述。
协调过滤法的特点
下表列出了协调过滤法的主要特点。
优点 缺点
不依赖于情报的内容
可解决仅靠一般方法而解决不了的情报过滤问题 初期评价的问题(early rater problem)单纯的协调过滤法不能对新登录的情报进行评价预测。另外,对于登录的情报及新注册的用户而言,推荐的精度较差。
易于发现重要情报
互联网情报内容(contents)基础上的过滤法是对所有的情报不加区分,一视同仁地处理的。相比之下,协调过滤法,则可自动判别这些情报是否受到广大用户的认可。 稀薄性问题(sparsity problem)
能使协调过滤系统正常发挥作用的理想条件是存在大量的,得到众多用户评价的情报。但现实往往是只能收集到很少一部分受到评价的情报。
评价情报的反馈
用户对情报的评价可将系统运营者的利益(如判断登载哪一类广告等)和用户的利益(获得有益情报)直接连接起来。 孤独用户的存在问题(gray sheep)
特别是在中小规模的网络内使用协调过滤系统时,有可能存在着与多数用户意见不同的孤独的用户。
结果不够明确
因为采用统计学的方法计算预测评价值,所以无法保证100%的准确性。由此而造成错误的过滤。
由上表可知,想开发成功的制品,就需要扬长避短,在前述的技术构成要素之上施行细致的调整。可以这样说,怎样将各种技术要素有机地结合成一个完整的系统,是本系统商品化成败的关键。
当今世界中协调过滤技术的应用现状
近年来,做为取代传统的想方设法地搜索信息的方法,开始出现了一种从情报源主动向用户提供情报的方法,即推荐服务的方法。更值得注目的是以著名的,规模大的互联网提供商提供的检索引擎和电子商务(EC)服务为中心而逐步展开的个人服务。这些服务针对每个用户的不同特点进行调整,从而形成因人而异的情报提供方式。
个性化服务和一对一服务(One—to—One Service)具有相同的含义。这类服务建立了Web网页提供商和用户之间一一对应的关系,由此出发,进而大幅度提高服务质量。做为推荐服务和个性化服务的核心技术,协调过滤技术在1996年左右就被研究开发出来了。但目前的现实是该技术的研究开发仍是以美国的大学和研究机构为主。
处理中使用的各种数学模型
系统内部使用的算法如下所示,所有算法都属于古典统计学的范畴之内。
i:类似算法数学模型
类似算法:对某个对象而言,从对象集合中找出与其相类似的对象的算法.
以下列出各算法的方程式,并对各个符号一一说明.
χi=(χi1,χi2,......,χip);
χj=(χj1,χj2,......,χjp);
(χmax,χmin是χ的最大值和最小值)
cmn: if (χmn= = 0) then {cmn= 0 ;} else {cmn= 1 ;}
以下的计算结果为d的时候,值越小表示二者越类似;计算结果为r的时候,值越靠近1表示二者越类似。
① 平均尤库里多距离的二乘法
② 平均距离法
③ 最大值距离法
④ 二值距离法
⑤ Dice Coefficient法
rij=2 x|Kij|∻(|Ki|+|Kj|)
⑥ Jaccards’s coefficient法
⑦ 皮尔森相关法
γij= Coυ(χi,χj) σiσj
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] 下一页