密文全文检索小文档管理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

密文全文检索系统中大规模密文文档管理研究报告内容1、选题来源及研究的意义2、国内外研究现状及分析3、主要研究内容4、研究方案及进度安排1、选题来源及研究的目的和意义来源863项目计划分布式密文全文检索系统关键技术研究(国家863计划项目)(2007AA01Z403)(2007-2009)Mimir数据特点Mimir数据属性:(1)密态小文档:(2)结构化XMl文档加密后大小3-10k;(3)数目达到百万甚至千万篇(T级数据)(4)密钥更换(5)全文检索服务管理难点:(1)块数据管理(2)单xml文档管理(3)热点数据的处理目标细化结构上:(1)文档管理模块与上层查询模块松耦合,实现由文件名透明访问文件性能上:(2)实现百万篇级密文文档分布式存储、随机访问(3)查找并内容返显的时间控制在一定范围[目标500ms/30篇](4)文档密钥更换以及安全审计(5)优化的压缩算法和解压速度课题意义有助于加强各行各业文献信息资源建设、开发、利用,其产品的推广也将带来巨大的社会和经济效益,对我国科技进步和经济、社会发展具有十分重要的战略意义。(1)密文全文检索系统(协作)(2)涉密小文档的管理(独立)2、国内外研究现状及分析2.1搜索引擎中的文档管理体系结构2.2搜索引擎中的文档存储策略2.3搜索引擎中的文档数据更新维护策略2.4密文全文检索系统中密文文档管理需求2.1搜索引擎中的文档管理体系结构(1)基于数据库思路的:Yahoo!PNUTS(2)基于文件系统思路的:Google:GFS+Bigtable+MapReduce天网搜索类似Google,但又有差别[blocksize/Read](3)基于网络虚拟存储思路的:目前没有用于搜索引擎的,p2p文件共享的居多2.2搜索引擎中的文档存储策略共性:(1)目标都是一致的,为检索请求提供及时的数据。“三本”方式(2)存储策略的选择依赖搜索引擎选择的存储体系结构。(3)搜索引擎中数据的存储量非常大、单个文件大小不一致、数据格式不统一、数据内容千差万别、数据更新速度不一致等等。(4)对数据进行分类压缩存储,并保证一定的解压速度(5)数据在块级别上一般都实现了冗余备份,具有一定的容错性特性:GoogleBigtable行列Yahool!PNUTStable2.3搜索引擎中的文档数据更新维护策略(1)数据更新维护的范围和粒度局部少、全局频繁、块级别、单文档(2)数据更新维护的类型和内容读、写、删除、移动(3)数据更新维护的代价数据库、文件系统2.4密文全文检索系统中密文文档管理需求(1)块级别管理密态小文档合并成块后,系统对大块数据的管理能够提供扩展性、灵活性。系统能够管理千万篇的文档数据,在大数据集下系统性能稳定。(2)单密态文档管理适应涉密企事业单位的涉密公文的类型、大小、加密和密钥更换需求,同时对热点文档做优化处理。3、主要研究内容1.MStore框架设计2.MStore数据存储策略3.MStore数据操作1.MStore框架设MimirMStoreHDFSPathXMLMTIDMtables(a)(b)MStore1MTControlMtableNMtable1Mtable0。。。2CommonCache3HotCacheAPIforMimirAPICallHDFS452.MStore数据存储策略MtablesIDNun0offset0length0Nun3offset2length2Nun1offset1length1。。。Content0/content1。。。。FilesArrayFilesContentBigtableMtable3.MStore数据操作CommonCacheHotCacheHotMtablesCommonMtables33XmlXmlpathNameLog映射处理12HDFSXml数据4-24-34-14-45-15-26MtableforloginfoMTMap4、技术方案与进度安排主要技术关键包括:1、块的大小选择和属性定义。2、加密粒度和快速解压设计。3、热点文档的处理。4、块数据和单密文文档数据的缓存策略

1 / 16
下载文档,编辑使用

©2015-2020 m.111doc.com 三一刀客.

备案号:赣ICP备18015867号-1 客服联系 QQ:2149211541

×
保存成功