脚本宝典收集整理的这篇文章主要介绍了信息检索技术(1)-- 信息检索模型,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
1.布尔检索模型
用标引关键词是否存在于文章中的0和1(不存在为0,存在为1)组成表征一篇文章特征的向量,用查询式的向量与文章的向量是否相等来进行信息检索。
关键词1 | 关键词2 | 关键词3 | 关键词4 | 关键词5 | |
---|---|---|---|---|---|
文章1 | 0 | 1 | 1 | 0 | 1 |
文章2 | 1 | 0 | 1 | 0 | 1 |
文章3 | 1 | 1 | 0 | 0 | 0 |
例1. 假设有三个文档(d1,d2,d3)组成的文献集合,假设查询式为: Query: (Jam OR Treacle) AND Pudding AND NOT Lane AND NOT Traffic, 试根据布尔逻辑的运算规定写出查询式的析取范式,并写出检索过程和结果。 T = {jam, lane, pudding, traffic, treacle} d1: receipt for jam pudding d2: DoT report for traffic lanes d3: radio item on traffic jam in pudding lane
Answer:
jam | lane | pudding | traffic | treacle | |
---|---|---|---|---|---|
q | 0 | 0 | 1 | 0 | 1 |
1 | 0 | 1 | 0 | 0 | |
1 | 0 | 1 | 0 | 1 | |
d1 | 1 | 0 | 1 | 0 | 0 |
d2 | 0 | 1 | 0 | 1 | 0 |
d3 | 1 | 1 | 1 | 1 | 0 |
d1在q的3种可能表达式中,d2,d3不在,故选d1
布尔权重把文本中的每个特征等同对待,无法体现特征项在文本中的作用程度,因而,在实际中0,1值逐渐被更精确的特征值的频率所替代。即向量检索模型。
2.向量检索模型 最经典的向量检索模型是TF-IDF模型,其中TF,IDF计算方法如下: 实际情况可能有所不同,这里为了简化问题做出如下假设 设总共有N篇文献(N>0),包含k1的文献有s1篇(s1>0),文献d1一共有T1个词汇,词汇k1出现p1次 则TF = p1/T1 IDF = log(N/s1) W = TF*IDF
对TF,IDF公式的解释: (1)词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。) (2)逆向文件频率 (inverse document frequency, IDF):IDF表征一个关键词在表征文献特征,区分不同文献方面的作用;一个关键词如果在所有文献中都出现,那这个关键词就不具有表征文献特征,区分不同文献的功能,对应IDF = 0,;一个关键词如果仅在一篇文献中出现,那这个关键词就可以很好的表征与区分这份文献,对应的IDF相对较大。
例2. 在文档d1,d2,d3,d4中,k1,k2,k3,k4出现次数如表所示。文献集合为10000篇,其中包含k1、k2、k3、k4的文档数量分别为100、200、150、50。Query包含两个词K1和K3, Q=K1 K3。
K1 | K2 | K3 | K4 | |
---|---|---|---|---|
d1 | 1 | 4 | 2 | 0 |
d2 | 5 | 2 | 0 | 3 |
d3 | 3 | 0 | 2 | 1 |
d4 | 4 | 3 | 3 | 2 |
请写出每一个文档的向量表示(TF-IDF方法),并在此基础上计算d1与查询式q的相似度Sim(q,d1), 以及d2与d3的相似度Sim(d2,d3),写出公式即可,不需计算答案。
k1: idf1 = log(10000/100) k2: idf2 = log(10000/200) k3: idf3 = log(10000/150) k4: idf4 = log(10000/50)
d1 = (1/7,4/7,2/7,0)(idf1,idf2,idf3,idf4)T d2 = (5/10,2/10,0,3/10)(idf1,idf2,idf3,idf4)T d3 = (3/6,0,2/6,1/6)(idf1,idf2,idf3,idf4)T d4 = (4/12,3/12,3/12,2/12)(idf1,idf2,idf3,idf4)T
q = (1/2,0,1/2,0)*(idf1,idf2,idf3,idf4)T
Sim(q,d1) = <d1,q> Sim(d2,d3) = <d2,d3>
以上是脚本宝典为你收集整理的信息检索技术(1)-- 信息检索模型全部内容,希望文章能够帮你解决信息检索技术(1)-- 信息检索模型所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。