搜索 分析 新世界 法规 图书 网址导航 更多
高级用户登录 | 登录 | |

狭隘范围内文献的多样性查询方法
审中-实审

申请号:201710163193.6 申请日:2017-03-19
摘要:本发明公开了狭隘范围内文献的多样性查询方法,以期要得到k条基于关键词的多样性文献,方法的实现步骤如下:步骤一:构建数据关系,设计静态离线排序评价分数;步骤二:输入关键词生成备选的OS;步骤三:根据得到的OS,选取评价分数最高的元组,根据已选择的分数最高节点对其他剩余节点进行文本相似性和关联多样性削弱,再根据文本相似性和关联多样所占的权重返回给用户k条全面的信息。
申请人: 北京工业大学
地址: 100124 北京市朝阳区平乐园********(隐藏)
发明(设计)人: 才智 李彤 兰许 丁治明
主分类号: G06F17/30(2006.01)I
分类号: G06F17/30(2006.01)I
  • 法律状态
2017-08-08  实质审查的生效 IPC(主分类):G06F 17/30申请日:20170319
2017-07-14  公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
  • 其他信息
主权项  1.一种狭隘范围内文献的多样性查询方法,其特征在于:该方法的步骤为:
步骤1:构建数据关系,设计静态离线排序评价分数;
步骤1.1:收集并整理数据集,构建数据关系;由于只有摘要,作者和题目,没有引用关 系,只利用文献的作者和文献ID;
步骤1.2:根据链接分析算法PageRank计算每一个节点的评价分数,每个节点vi都存在 相应的矢量ri,则通过以下公式来计算矢量r的评价分数:
<mrow> <mi>r</mi> <mo>=</mo> <mi>d</mi> <mi>A</mi> <mi>r</mi> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mfrac> <mi>s</mi> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中d是一个阻尼系数;A是一个n*n矩阵,其中Aij=α(e),G(VG,
EG)为模式图,eG就是在模式图中从vi到vj的边,α(e)为权转移率,OutDeg(u,eG)表示u的出
度,S是节点的任意子集,s=[s1,...,sn]T,如果vi在S中,则si=0;
综上,迭代计算出数据集中各个节点的评价分数;
步骤2:输入关键词生成备选的元组;
输入关键词,在步骤一中过滤掉与关键词不符的信息,生成备选的元组;
步骤3:根据得到的元组用算法(详见步骤3.4)生成最终含有k个节点的队列Hk
步骤3.1:在得到的元组中选择静态离线排序评价分数最高的节点;
步骤3.2:关系多样性Div;
为避免过高同一作者的信息的重复出现,应选择输出多样化的信息,所以给出一个如 下关系多样性削弱量的计算方法:
<mrow> <mi>d</mi> <mi>v</mi> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mrow> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> <mi>k</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中,g(vi)是指与vi相似的元组节点;z(g(vi))是指在备选元组内与vi节点相同的元组
节点的总和;dv(vi)的值域是(0,1];定义dv[z]为节点在备选元组中出现z次的关系多样性
削弱量值,k为输出总的信息条数;令k=10,“Bob”出现2次,即z=2,则

公式(2)的主要思想是:在查询文献时不太希望检索到的文献都是同一作者所写的,为 解决这一问题会将已选择的文献的作者进行削弱,即计算在整个元组集合中一共出现的次 数,则该作者出现的频率为出现的次数/k,那么在待选元组中是该作者所写的文献就会被 削弱为1-作者出现的频率;
步骤3.3:文本相似性Sim;
鉴于在一个元组中一个元组节点与其他元组节点在文本内容上的相似性很高,但是这 些节点可能拥有较高的静态值,若将全部都输出出来,就会得到不是很全面的信息,由此, 通过以下公式来计算文本相似性:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&cup;</mo> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中vj是待选元组中的一个元组节点,而vi是已经选择输出的元组节点,i的值是从1到 已输出的元组节点个数,最大为k;
在日常工作中经常要对两个文本是否相似进行判定,如判定文字录入稿与标准稿的相 似性以评判录入的正确性;判定两份文稿是否雷同;在信息检索中,给定一组关键字,检索 含有这组关键字或含有部分关键字的信息;判定文本的相似性有很多方法,如判定文字录 入的正确性可采用“字符频度统计”方法,信息检索中可采用“关键字匹配”方法,但这些方 法往往不考虑所比较的元素的顺序,如“abc”和“cba”可能被认为是完全相似的,这显然是 不合理的;本方法利用Jaccard公式进行相似度计算,取两个元组中词组的交集与并集;
步骤3.4:关联多样性与文本相似性的权重比例;
假设关系多样性削弱量值所占权重为α,则剩余节点削弱后的关系多样性削弱量值为 dv(vi)×α;假设文本相似性所占权重为β,其中α+β=1,则剩余节点削弱后的文本值为Sim (vj)×β;通过以下公式来计算剩余节点对关联多样性与文本相似性进行削弱后的分数:
DF(vi)=r×(dv(vi)×α+Sim(vj)×β) (4)
综上,计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数,再从中选 出分数最高的节点。
公开号  106951517A
公开日  2017-07-14
专利代理机构  北京思海天达知识产权代理有限公司 11203
代理人  沈波
颁证日  
优先权  
国际申请  
国际公布  
进入国家日期