信息检索技术(1)-- 信息检索模型

发布时间:2022-06-26 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了信息检索技术(1)-- 信息检索模型脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

1.布尔检索模型

用标引关键词是否存在于文章中的0和1(不存在为0,存在为1)组成表征一篇文章特征的向量,用查询式的向量与文章的向量是否相等来进行信息检索。

关键词1 关键词2 关键词3 关键词4 关键词5
文章1 0 1 1 0 1
文章2 1 0 1 0 1
文章3 1 1 0 0 0

例1. 假设有三个文档(d1,d2,d3)组成的文献集合,假设查询式为: Query: (Jam OR Treacle) AND Pudding AND NOT Lane AND NOT Traffic, 试根据布尔逻辑的运算规定写出查询式的析取范式,并写出检索过程和结果。 T = {jam, lane, pudding, traffic, treacle} d1: receipt for jam pudding d2: DoT report for traffic lanes d3: radio item on traffic jam in pudding lane

Answer:

jam lane pudding traffic treacle
q 0 0 1 0 1
1 0 1 0 0
1 0 1 0 1
d1 1 0 1 0 0
d2 0 1 0 1 0
d3 1 1 1 1 0

d1在q的3种可能表达式中,d2,d3不在,故选d1

布尔权重把文本中的每个特征等同对待,无法体现特征项在文本中的作用程度,因而,在实际中0,1值逐渐被更精确的特征值的频率所替代。即向量检索模型。

2.向量检索模型 最经典的向量检索模型是TF-IDF模型,其中TF,IDF计算方法如下: 实际情况可能有所不同,这里为了简化问题做出如下假设 设总共有N篇文献(N>0),包含k1的文献有s1篇(s1>0),文献d1一共有T1个词汇,词汇k1出现p1次 则TF = p1/T1 IDF = log(N/s1) W = TF*IDF

对TF,IDF公式的解释: (1)词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。) (2)逆向文件频率 (inverse document frequency, IDF):IDF表征一个关键词在表征文献特征,区分不同文献方面的作用;一个关键词如果在所有文献中都出现,那这个关键词就不具有表征文献特征,区分不同文献的功能,对应IDF = 0,;一个关键词如果仅在一篇文献中出现,那这个关键词就可以很好的表征与区分这份文献,对应的IDF相对较大。

例2. 在文档d1,d2,d3,d4中,k1,k2,k3,k4出现次数如表所示。文献集合为10000篇,其中包含k1、k2、k3、k4的文档数量分别为100、200、150、50。Query包含两个词K1和K3, Q=K1 K3。

K1 K2 K3 K4
d1 1 4 2 0
d2 5 2 0 3
d3 3 0 2 1
d4 4 3 3 2

请写出每一个文档的向量表示(TF-IDF方法),并在此基础上计算d1与查询式q的相似度Sim(q,d1), 以及d2与d3的相似度Sim(d2,d3),写出公式即可,不需计算答案。

k1: idf1 = log(10000/100) k2: idf2 = log(10000/200) k3: idf3 = log(10000/150) k4: idf4 = log(10000/50)

d1 = (1/7,4/7,2/7,0)(idf1,idf2,idf3,idf4)T d2 = (5/10,2/10,0,3/10)(idf1,idf2,idf3,idf4)T d3 = (3/6,0,2/6,1/6)(idf1,idf2,idf3,idf4)T d4 = (4/12,3/12,3/12,2/12)(idf1,idf2,idf3,idf4)T

q = (1/2,0,1/2,0)*(idf1,idf2,idf3,idf4)T

Sim(q,d1) = <d1,q> Sim(d2,d3) = <d2,d3>

脚本宝典总结

以上是脚本宝典为你收集整理的信息检索技术(1)-- 信息检索模型全部内容,希望文章能够帮你解决信息检索技术(1)-- 信息检索模型所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: