新世界 搜索 分析 问问
|
基于类别概念空间的自动文本分类方法
无权

申请号:200510086462.0 申请日:2005-09-22
摘    要 本发明是一种基于类别概念的自动文本分类方法,方法分为训练和分类两个阶段,包括步骤:1)构造类别词语矩阵数据;2)基于类别词语矩阵建立每个词语的倒排类别频率数据表;3)基于倒排类别频率数据表构建有效词语集;4)基于有效词语集重新构造类别词语矩阵数据;5)基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表;6)基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语向量表示;7)基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据;8)依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。本发明适用于高效的信息分类、信息过滤和信息监控等。
申请人 国家计算机网络与信息安全管理中心
地址 100029北京市朝阳区裕民路甲3号
发明(设计)人 鲁松
主分类号 G06F17/30(2006.01)I
分类号 G06F17/30(2006.01)I
法律状态 前往专利局官方网站查询
本专利更多信息
主权项  
公开号  1936887
公开日  2007-03-28
专利代理机构  中科专利商标代理有限责任公司
代理人  段成云
颁证日  
优先权  
国际申请  
国际公布  
进入国家日期