搜索 分析 新世界 法规 图书 网址导航 更多
高级用户登录 | 登录 | |

一种具有多维信息的海量数据查询方法
有权
阅读授权文献

申请号:201310350126.7 申请日:2013-08-13
摘要:一种具有多维信息的海量数据查询方法,涉及数据挖掘领域。对具有多维信息的海量数据的维信息进行装载;对海量数据进行装载;采用联机数据分析OLAP的方法对海量数据进行查询。本发明一种具有多维信息的海量数据查询方法,通过维编码的方法来组织具有多维信息的海量数据、利用数据分块存储的方法简化了数据块的寻址、通过中间变量(即分析路径)的方式,快速地实现维层级的转化、通过了基于数据块选择的方法进行数据的筛选,仅针对实际参与的数据进行计算和处理。
申请人: 东北大学
地址: 110819 辽宁省沈阳市和平区********(隐藏)
发明(设计)人: 宋杰 郭朝鹏 王智 徐澍 张一川 朱志良
主分类号: G06F17/30(2006.01)I
分类号: G06F17/30(2006.01)I
  • 法律状态
2016-08-10  授权
2013-12-25  实质审查的生效IPC(主分类):G06F 17/30申请日:20130813
2013-12-04  公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
  • 其他信息
主权项  一种具有多维信息的海量数据查询方法,其特征在于:包括以下步骤:步骤1:对具有多维信息的海量数据的维信息进行装载,具体包括如下步骤:步骤1.1:对海量数据的维信息进行鉴别,判断海量数据的每一个维信息是否同时满足如下三个约束:约束1:维由一个且仅一个维层次构成,即维是所有维级别组成的全序关系;约束2:在维的任意维级别中,仅包含一个维属性,该维属性包含若干个维值;约束3:在所有维值所组成对维值树中,兄弟节点包含相同个数的子节点;若满足,则执行步骤1.3,否则,执行步骤1.2;步骤1.2:对维信息进行处理,使得每一个维都形成符合约束的维值树结构,处理过程如下:针对约束1:若有多个维层次,则根据需要对维层次进行舍弃,仅保留一个维层次即可;针对约束2:若某一维级别包括多个维属性,则根据需要对维属性进行舍弃,仅保留一个维属性即可;针对约束3:若兄弟节点包含的子节点个数不同,则添加空值,使兄弟节点的子节点个数相同;步骤1.3:对维信息进行编码;针对维值树中每一级别的维值,从左到右以十进制数依次编码,当所有的维值均有对应的编码后编码工作结束;步骤1.4:对维信息的编码进行存储;对于海量数据的任意一个维信息,存储每一维级别名称以及在该级别中兄弟节点的个数,最终形成海量数据所有维信息的文件,存储于分布式文件系统中;步骤2:对海量数据进行装载;步骤2.1:用户根据需要确立海量数据的维信息的实际意义与其维信息的编码的对应关系,即将海量数据中的任意一条数据用维信息的编码进行表示;步骤2.2:所有的最细粒度的多维海量数据形成数据立方结构,海量数据的任意一条数据作为该数据立方中的一个单元格,该单元格的信息包括:该单元格位于立方体内的坐标,以及单元格所表示的事实数据值;其中,单元格的坐标表示为:<一个维信息的编码,另一个维信息的编码,...,最后一个维信息的编码>;步骤2.3:对数据立方进行切割:根据用户的查询需求,在保证查询时间最短的条件下,对数据立方进行切割,形成数据块,确定数据块的边长;步骤2.4:对步骤2.3划分好的数据块进行编码,方法为:数据块内任意单元格的坐标除以数据块的边长,将所得数据向上取整后得到的值作为数据块的编码;步骤2.5:步骤2.3切割好的数据块存储于分布式文件系统中,将步骤2.4确立的编码作为数据块文件的名称;步骤3:采用联机数据分析OLAP的方法对海量数据进行查询;步骤3.1:用户设置查询条件,包括:查询目标:是指确定针对哪个数据立方进行查询,即目标立方;查询范围:在已确立的查询目标中,针对哪部分数据进行查询;结果的维信息:是指结果数据立方的维信息;聚集方法:对查询范围内的数据进行聚集的操作;步骤3.2:判断步骤3.1设置好的查询条件是否满足如下约束条件:约束1:查询目标已存在,且查询范围应小于或等于查询目标的数据范围;约束2:结果数据立方的维数量应小于或等于查询目标的维数量;约束3:结果数据立方的任意维的最低维级别应高于查询目标对应维的最低维级别;约束4:聚集方法必须是分布式的或代数式的;若同时满足约束1、约束2和约束4,则执行步骤3.3;若同时满足约束1~约束4则执行步骤3.4;若不满足上面的任何一个条件,则查询失败,结束;步骤3.3:对查询目标进行转换,寻找当前查询目标的上一级立方,判断上一级立方是否满足约束3,若不满足,再继续查询该上一级立方的上一级立方,若始终无法满足,则查询失败,结束查询过程;若找到了满足约束3的上一级立方,则将该立方替换为目标立方;步骤3.4:数据的粗筛:根据查询范围确定查询所需的最小数据块的范围;步骤3.5:数据的精筛;扫描步骤3.4所筛选出的数据块文件,根据查询范围对所有位于数据块内的单元格进行筛选,若单元格位于查询范围内,执行步骤3.6;否则,则舍弃该单元格;步骤3.6:改变单元格的维级别,对比结果数据立方的维信息与目标立方的维信息,确定发生改变的维信息,对单元格坐标上表示该维的坐标进行修改;步骤3.7:对具有相同坐标的单元格,根据所设定的聚集方法对单元格内的事实数据值进行聚集操作;步骤3.8:经步骤3.7聚集之后的数据,形成结果数据立方,将该结果数据立方的信息返回给用户,并将该结果立方作为新的数据立方存储,使之可以作为下一轮查询的查询目标。
公开号  103425772A
公开日  2013-12-04
专利代理机构  沈阳东大专利代理有限公司 21109
代理人  梁焱
颁证日  
优先权  
国际申请  
国际公布  
进入国家日期