数据挖掘重点

mike0312
0 ℃
2020-10-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据库技术的演化20世纪60年代：数据收集，数据库创建，信息管理系统（IMS)和数据库管理系统(DBMS)20世纪70年代:关系数据模型，关系数据库管理系统工具20世纪80年代:关系数据库管理系统（RDBMS）,高级数据模型(面向对象、演绎等等)和面向应用的DBMS(空间的、科学的、工程的）20世纪90年代至今:数据挖掘和数据仓库，多媒体数据库和web数据库数据挖掘（数据库中的知识发现）�在大型数据库中提取有趣的（重要的，隐含的，目前未知的，潜在有用的）信息和模式知识发现过程KDD过程的步骤了解应用领域:相关的预备知识和应用目标创建一个目标数据集：数据选择,数据清理和预加工（可能占用60%精力）数据变换：发现有用的特征，维/变量的变换，常量的表示选择数据挖掘功能:汇总，分类，关联，聚集,选择挖掘算法数据挖掘：搜索兴趣模式模式评估和知识表达:可视化，变形，去掉冗余模式等等使用发现的知识何种数据上进行数据挖掘关系数据库,数据仓库,事务数据库,高级数据库与信息库,面向对象和对象-关系数据库空间数据库,时间序列数据库和暂时数据库,文本数据库和多媒体数据库异源数据库和继承数据库模式兴趣度度量：一个模式是有趣的如果（1）它易于被人理解；(2)在某种程度上，对于新的或测试数据是有效的；（3）是潜在有用的；（4）是新颖的或对用户正在寻求证实的假设是有效的。数据挖掘和数据仓库结合数据挖掘系统，数据库管理系统，数据仓库,非耦合，疏松耦合，半紧密耦合，紧密耦合联机分析数据挖掘数据挖掘和OLAP的结合,交互式挖掘多层知识通过下钻/上卷，转轴，切片/切块等，在不同的层次，挖掘知识和模式的必要性。多种挖掘功能的综合特征化的分类，先聚集再关联数据仓库一个与组织结构的操作数据库分别维护的决定支持数据库。为统一的历史数据分析提供坚实的平台，对信息处理提供支持。“数据仓库是一个面向主体的、集成的、时变的、非易失的数据集合，支持管理过程的决策过程”—W.H.Inmon数据仓库和异源DBMS传统的异种数据库的集成:在异种数据库的顶部建立一个包装程序和集成程序查询驱动方法当一个查询提交客户站点，首先使用元数据字典对查询进行转换，将它转换成相应异种站点上的查询，然后，不同站点返回的结果被集成为全局回答查询驱动方法需要复杂的信息过滤，并且与局部数据源上的处理竞争资源数据仓库：使用更新驱动的方法，为集成的异种数据库系统带来了高性能将来自多个异种源的信息预先集成，并存储与数据仓库中，供直接查询和分析OLTP和OLAP的区别用户和系统的面向性:OLTP面向顾客，而OLAP面向市场数据内容：OLTP系统管理当前数据，而OLAP管理历史的数据。数据库设计：OLTP系统采用实体-联系（ER)模型和面向应用的数据库设计，而OLAP系统通常采用星形和雪花模型视图：OLTP系统主要关注一个企业或部门内部的当前数据，而OLAP系统主要关注汇总的统一的数据。访问模式：OLTP访问主要有短的原子事务组成，而OLAP系统的访问大部分是只读操作，尽管许多可能是复杂的查询为什么需要一个分离的数据仓库提高两个系统的性能数据库管理系统—OLTP的协调:存取方法，索引，同步控制，恢复数据仓库—OLAP的协调:复杂的OLAP查询，多维视图，合并不同的功能和不同的数据:数据维护:决策支持需要历史数据，而操作数据库一般不维护历史数据数据统一:决策支持需要将来自异种源的数据统一（如聚集和汇总）数据质量:不同的数据源通常使用不一致的数据表达，代码和形式，这些都需要协调雪花模式:雪花模式是星型模式的变种，其中某些维表示规范化的，而数据进一步分解到附加的维表中，它的图形类似于雪花的形状事实星座表:多个事实表共享维表，这种模式可以看作星型模式及，因此称为星系模式或事实星座数据仓库的设计关于数据仓库设计的四种视图自顶向下视图:允许选择数据仓库的所需的相关信息数据源视图:揭示被操作数据库系统捕获、存储和管理的信息。数据仓库视图:由事实表和维表构成商务查询视图:从最终用户的角度透视数据仓库的数据DM的过程数据准备阶段:数据的选择（选择相关的数据，净化（消除噪音、冗余数据），推测（推算缺失数据），转化（离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等），数据缩减（减少数据量），经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。挖掘阶段：该阶段是数据挖掘的核心步骤，也是技术难点所在。根据数据挖掘的目标，采用人工智能、集合论、统计学等方法，应用相应的数据挖掘算法，分析数据并通过可视化工具表述所获得的模式或规则。评价阶段：在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的，也有可能不能准确反映数据的真实意义，甚至在某些情况下是与事实相反的，因此需要评估，确定哪些是有效的、有用的模式。评估可以根据用户多年的经验，有些模式也可以直接用数据来检验其准确性。巩固和运用阶段：用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查，解决与以前得到的知识互相冲突、矛盾的地方，使知识得到巩固。运用知识有两种方法：一种是只需看知识本身所描述的关系或结果，就可以对决策提供支持；另一种是要求运用知识对新的数据进行分析，由此可能产生新的问题，而需要对知识作进一步的优化。数据预处理的必要性:数据挖掘要求的数据：干净、准确、简洁、完整。原始数据存在的问题：杂乱性：来自多种数据库和文件系统，缺乏统一标准和定义。冗余性：同一个事务在数据库中可能存在多个相同的物理描述。不完整性：设计缺陷或人为原因造成数据丢失、不确定、不完整。数据预处理的基本功能：数据清洗，数据集成，数据变换，数据约简数据预处理的基本功能－数据清洗功能：去除源数据中的噪声数据和无关数据，重复数据处理，缺值数据处理数据类型转换方法：，有监督方法：有领域专家指导：无监督方法：样本数据训练算法数据预处理的基本功能－数据集成功能：数据的选择：从多数据源中选择数据数据冲突处理：如字段同名异义、异名同义、长度不同。数据不一致处理：如单位、命名、结构、含义不一致。数据类型的选择数据预处理的基本功能－数据变换功能：格式化：将元组集按照格式化条件合并，即对属性值量纲的归一化处理。归纳：处理元组属性值之间的“is-a”语义关系。多维数据组织：采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不同层次、不同粒度、不同维度的聚集。数据预处理的基本功能－数据简化功能：在对数据挖掘任务和原始数据充分理解的基础上，发现依赖于目标的表达数据的有用特征，从而尽可能地精简数据量。方法：属性选择：属性剪枝、并枝、相关分析。数据抽样：随机抽样、等间隔抽样、分层抽样。数据预处理的主要方法基于约略集的属性约简方法：按等价关系对属性集进行划分，求出最小约简集。基于概念树的数据浓缩方法：将元组逐层归纳为概念树，并去除噪声数据。基于信息论的数据泛化方法：数据立方体法、面向属性的归纳方法、最大熵方法。基于统计分析的属性选取方法：主成分分析、回归分析、公共因素模型分析，找出特征属性。遗传算法：高效进行数据聚类预处理。OLAP服务器类型关系OLAP(ROLAP)使用关系和扩充关系DBMS存放并管理数据仓库，而OLAP中间件支持其余部分。包括每个DBMS后短的优化，聚集导航逻辑的实现，和附加的工具和服务更大的可伸缩性多维OLAP(MOLAP)基于数组的多维存储引擎（稀疏矩阵技术）对预计算的汇总数据的快速索引混合OLAP(HOLAP)用户的灵活性，例如，低层次：相关的，高层次：数组特殊的SQL服务器在星型和雪花模式上支持SQL查询数据仓库后端工具和实用程序数据提取:从多个异种的外部数据源收集数据数据清理:检测数据中的错误，可能时更正它们。数据变换:将数据由遗产或宿主格式转换成数据仓库格式21．表的存储空间，除了数据存储空间外，还包含索引存储空间。22．数据挖掘可以针对任何类型的数据库进行，既包括传统的关系数据库，也包括非数据库组织的文本数据源、Web数据源以及复杂的多媒体数据源等1．关系数据库2．数据仓库3．文本数据库4.复杂类型数据库23．元数据按其所描述的内容，可以分为三类。(1)关于基本数据的元数据。(2)关于数据处理的元数据。(3)关于企业组织的元数据。24．根据用户对数据仓库的认识和使用目的，从用户的角度分类可将数据仓库划分为两大类(1)技术元数据(TechnicalMetadata)。(2)业务元数据(BusinessMetadata)。25．元数据定义了数据从被抽取，到清洗、转换，再到导入数据仓库的全部过程。元数据在数据抽取／转换中的作用如下。(1)确定数据的来源。(2)保证数据仓库内容的质量。(3)实现属性间的映射与转换。26．元数据的收集的方法有哪些(1)数据源中元数据的收集。(2)数据模型中元数据的收集。(3)映射关系元数据的收集。(4)数据仓库应用元数据的收集。27．按使用目的的不同，数据仓库的使用者可分为开发人员、维护人员和最终用户三类28．时间维在几乎所有的MDDB或数据仓库中，都是最要的一个维，使用最为普遍。时间维有以下两个特点。(1)周期特征。时间维中包含许多周期(时间单位)，如日、周、月、季、年等。这些周期之间，存在着固定的转换规则。(2)行业特征。不同的行业，其工作日各有特点。一般是每周5个工作日，但也有许例外，如交通运输、零售等行业全年无休息日。29．数据挖掘项目是一项系统工程，它作为从数据库中自动发现知识的过程，仍然需要来自不同领域专家共同参与知识发现的全部过程。其中，发挥着主要作用的专家包括主题领域专家、数据专家、数据分析专家和数据挖掘专家30．数值型数据概念分层的方法主要有分箱、聚类分析、基于熵的离散化。31．数据泛化的方法很多，较为常用和有效的方法有数据立方体、面向属性的归纳等方法。32．从不同的角度考察，关联规则有多种分类。(1)根据项对应属性的数据类型，关联规则可以分为布尔型和数值型。(2)根据规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。(3)根据规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。(4)关联并不一定意味着相关或因果，有时需要识别不同的项是否相关，是否存在因果关系。根据关联规则的各种扩展，可分为相关分析、最大模式和频繁闭项集、添加约束等类型。33．多层、多维的数量型关联规则是前三种规则的复合体，挖掘的难度比较大。最简单的关联规则是单维、单层的布尔关联规则。在数据库挖掘中经常使用下列几种约束。(1)知识类型约束。(2)数据约束。(3)维或层次约束。(4)兴趣度约束。(5)规则约束。35．规则约束可以分为反单调的、单调的、简洁的、可转变的和不可转变的五种类型。36．分类是数据挖掘的基本功能之一，它的目标是从数据集中提取出能够描述数据类基本特征的模型，并利用这些模型把数据集中的每个对象都归入到其中某个已知的数据类中。37．聚类分析的数据源可以分为两种类型，即结构化的数据和非结构化的数据。38数据取样的过程有哪些A．Web数据采样。A．Web数据分析。A．Web数据调整。Web数据转换39．数据预处理就是将来自不同数据源的各类数据，组织成为模式挖掘所必需的数据结构。数据预处理的过程有哪些(1)数据清洗。(2)数据集成。(3)数据转换。(4)数据约简。40．自动摘录方法的突出优点是不受领域的限制。自动摘录方法的不足之处在于(1)文章的书写是否规范对摘录效果的影响很大。(2)主题析出难以全面。(3)易产生冗余句。(4)缺乏连贯。数据仓库和数据库有何不同？它们有那些相似之处？数据仓库与传统数据库的关系数据仓库在传统数据库的基础之上发展起来的，但它并不是对传统数库的彻底抛弃，而是旨在弥补统数据库在数据分析能力方面的不足，以提供良好的大规模数据分析能力为己任，图为决策提供有效的技术支持。和传统数据库相比，数据仓库在体特征、存储内容、向用户等方面，都有着重大的差异。正是由于这些差的存在，实现了数仓库技术在分析能力上的突破。数据抽取:在构建数据仓库