| 摘要:本发明是一种基于类别概念的自动文本分类方法,方法分为训练和分类两个阶段,包括步骤:1)构造类别词语矩阵数据;2)基于类别词语矩阵建立每个词语的倒排类别频率数据表;3)基于倒排类别频率数据表构建有效词语集;4)基于有效词语集重新构造类别词语矩阵数据;5)基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表;6)基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语向量表示;7)基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据;8)依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。本发明适用于高效的信息分类、信息过滤和信息监控等。 | |
| 申请人: 国家计算机网络与信息安全管理中心 | |
| 地址: 100029北京市朝阳区裕民路甲3号 | |
| 发明(设计)人: 鲁松 | |
| 主分类号: G06F17/30(2006.01)I | |
| 分类号: G06F17/30(2006.01)I | |
| 2009-02-25 | 发明专利申请公布后的驳回 |
| 2007-05-23 | 实质审查的生效 |
| 2007-03-28 | 公开 |
| 主权项 | |
| 公开号 | 1936887 |
| 公开日 | 2007-03-28 |
| 专利代理机构 | 中科专利商标代理有限责任公司 |
| 代理人 | 段成云 |
| 颁证日 | |
| 优先权 | |
| 国际申请 | |
| 国际公布 | |
| 进入国家日期 | |