sql,服务器模式,多为和数据挖掘模式,表格模式选哪个

发布时间:2016-12-10 来源: 表格 点击:

篇一:《数据挖掘》课程作业答案

浙江大学远程教育学院《数据挖掘》课程作业答案

第一章引言

一、填空题

(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示

(2)算法的效率、可扩展性和并行处理

(3)统计学、数据库技术和机器学习

(4)一些与数据的一般行为或模型不一致的孤立数据

二、简答题

(1)什么是数据挖掘?

答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?

答:一个典型的数据挖掘系统应该包括以下部分:

数据库、数据仓库或其他信息库

数据库或数据仓库服务器

知识库

数据挖掘引擎

模式评估模块

图形用户界面

(3)Web挖掘一般包括以下步骤:

数据清理: (这个可能要占全过程60%的工作量)

数据集成

将数据存入数据仓库

建立数据立方体

选择用来进行数据挖掘的数据

数据挖掘(选择适当的算法来找到感兴趣的模式)

展现挖掘结果

将模式或者知识应用或者存入知识库

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)

答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

第二章认识数据

一、填空题

(1)5/13

(2)极差、分位数、四分位数、百分位数、四分位数极差和标准差

(3)出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值

二、单选题

(1)C;(2)C;

三、简答题

(1)什么是基于像素的可视化技术?它有什么缺点?

答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。

(2)对称的和不对称的二元属性有什么区别?

答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。

对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。

第三章数据预处理

一、填空题

(1)数据清理、数据集成、数据变换、数据规约

(2)沿概念分层向上概化

(3)有损压缩,无损压缩

(4)线性回归方法,多元回归,对数线性模型

二、简答题

(1)常用的数值属性概念分层的方法有哪些?

答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。

(2)主成份分析步骤为:

a、规范化输入的数据:所有属性落在相同的区间内;

b、计算k个标准正交向量,即主成分;

c、每个输入数据的向量都是这k个主成分向量的线性组合;

d、主成分按照重要程度降序排序。

(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

答:处理空缺值的方法有:

(1)忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。

(2)人工填写空缺值。这种方法工作量大,可行性低

(3)使用一个全局变量填充空缺值:比如使用unknown或-∞

(4)使用属性的平均值填充空缺值

(5)使用与给定元组属同一类的所有样本的平均值

(6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法

(4)常见的数据归约策略包括哪些?

答:数据归约策略包括:

(1)数据立方体聚集

(2)维归约

(3)数据压缩

(4)数值归约

(5)离散化和概念分层产生

第六—七章 挖掘频繁模式、关联和相关

一、填空题

(1)支持度和置信度

(2)连接和剪枝

(3)包含项集的事务数

(4)找出所有频繁项集、由频繁项集产生强关联规则

(5)布尔关联规则、量化关联规则

(6)频繁项集的所有非空子集也必须是频繁的

(7)频繁谓词集

二、简答题

(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。

答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度值设置困难:太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。

(2)如何提高Apriori算法的有效性?有哪些常见方法?

篇二:数据挖掘课后题答案

数据挖掘——概念概念与技术

Jiawei Han Micheline Kamber 著

范明 孟晓峰 译

第 1 章 引言

1.1 什么是数据挖掘?在你的回答中,针对以下问题:

1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测

聚 类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据

挖掘功 能的例子。

解答:

? 特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特

征 可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,

这些特 征包括作为一种高的年级平均成绩(GPA:Grade point aversge)

的信息, 还有所修的课程的最大数量。

? 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一

般 特性进行比较。例如,具有高 GPA 的学生的一般特性可被用来

与具有 低 GPA 的一般特性比较。最终的描述可能是学生的一个一

般可比较的 轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科

学专业的学生, 而具有低 GPA 的学生的 65%不是。

? 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的

特 征 值的 条 件。 例 如, 一 个数 据 挖掘 系 统可 能 发现 的 关联 规 则

为 :

major(X, “ computing science”)?owns(X,

computer” ) [support=12%, “personalconfid

ence=98%]

其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学

生 拥有一台个人电脑的概率是 98%(置信度,或确定度)。

? 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类

型 或概念的模型(或功能),而后者是建立一个模型去预测缺失的

或无效 的、并且通常是数字的数据值。它们的相似性是他们都是预

测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用

是预测缺失的 数字型数据的值。

? 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相

似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可 以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。

? 数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可

能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测, 这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和 基于相似性的数据分析

1.3 1.9 列举并描述说明数据挖掘任务的五种原语。

解答:

用于指定数据挖掘任务的五种原语是:

? 任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据

库、数据库表、或数据仓库,其中包括包含关系数据、选择关系数据的 条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。 ? 挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特

征化、区分、关联、分类、聚类、或演化分析。同样,用户的要求可能 更特殊,并可能提供所发现的模式必须匹配的模版。这些模版或超模式 (也被称为超规则)能被用来指导发现过程。

? 背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的

知识能被用来指导知识发现过程,并且评估发现的模式。关于数据中关 系的概念分层和用户信念是背景知识的形式。

? 模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感

兴趣的模式,并且被用来指导挖掘过程,也可评估发现的模式。这样就 允许用户限制在挖掘过程返回的不感兴趣的模式的数量,因为一种数据 挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、 适用性、和新颖性的特征。

? 发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使

数据挖掘能有效地将知识传给用户,数据挖掘系统应该能将发现的各种 形式的模式展示出来,正如规则、表格、饼或条形图、决策树、立方体

或其它视觉的表示。

1.4 1.13 描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦

合、松散耦合、半紧耦合和紧密耦合。你认为哪种方法最流行,为什么? 解答: 数据挖掘系统和数据库或数据仓库系统的集成的层次的差别

如下。

? 不耦合:数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始

数据集,因为没有数据库系统或数据仓库系统的任何功能被作为处理过 程的一部分执行。因此,这种构架是一种糟糕的设计。

? 松散耦合:数据挖掘系统不与数据库或数据仓库集成,除了使用被挖掘

的初始数据集的源数据和存储挖掘结果。这样,这种构架能得到数据库 和数据仓库提供的灵活、高效、和特征的优点。但是,在大量的数据集 中,由松散耦合得到高可测性和良好的性能是非常困难的,因为许多这 种系统是基于内存的。

? 半紧密耦合:一些数据挖掘原语,如聚合、分类、或统计功能的预计算,

可在数据库或数据仓库系统有效的执行,以便数据挖掘系统在挖掘-查询 过程的应用。另外,一些经常用到的中间挖掘结果能被预计算并存储到 数据库或数据仓库系统中,从而增强了数据挖掘系统的性能。

? 紧密耦合:数据库或数据仓库系统被完全整合成数据挖掘系统的一部

份,并且因此提供了优化的数据查询处理。这样的话,数据挖掘子系统 被视为一个信息系统的功能组件。这是一中高度期望的结构,因为它有 利于数据挖掘功能、高系统性能和集成信息处理环境的有效实现。

从以上提供的体系结构的描述看,紧密耦合是最优的,没有值得顾虑的技术 和执行问题。但紧密耦合系统所需的大量技术基础结构仍然在发展变化,其实现 并非易事。因此,目前最流行的体系结构仍是半紧密耦合,因为它是松散耦合和 紧密耦合的折中。

1.5 1.14 描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。

第 2 章 数据预处理

2.1 2.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。

年龄1~5

5~15

15~20

20~50

50~80

80~110 频率200 450 300 1500 700 44

计算数据的近似中位数值。

解答: 先判定中位数区间:N=200+450+300+1500+700+44=3194;

N/2=1597

∵ 200+450+300=950<1597<2450=950+1500;

∴ 20~50 对应中位数区间。 我们有:L1=20,

N=3197,(∑freq) l=950,freqmed ian=1500,width=30,使用公

式(2.3):

median ? L1 ??freq???? N / 2 ?? ????? 950 ?? 3197 / 2 ? width ? 20 ? ?? 30 ? 32.97 ?l

?? freq median ????? 1500 ??

∴ median=32.97 岁。

2.2 2.4 假定用于分析的数据包含属性 age。数据元组的 age 值(以递增序)

是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,

33,33,35,35,35,35,36,40,45,46,52,70。

(a) 该数据的均值是什么?中位数是什么?

(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。

(c) 数据的中列数是什么?

(d) 你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)

吗?

(e) 给出数据的五数概括。

(f) 画出数据的盒图。

(g) 分位数—分位数图与分位数图的不同之处是什么?

解答:

(a) 该数据的均值是什么?中位数是什么?

1N ? 809 / 27 ? 29.96 ? 30 (公式 2.1 )。中位数应是第 14 均值是:?? ?xi ?N i?1

个,即 x14=25=Q2。

(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。 这个数集的众数有两个:25 和 35,发生在同样最高的频率处,因此是双峰

众数。

(c) 数据的中列数是什么? 数据的中列数是最大术和最小是的均值。即:midrange=(70+13)/2=41.5。

(d) 你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3) 吗?

Q1=20。 数据集的第一个四分位数应发生在 25%处,即在(N+1)/4=7 处。所以:

而第三个四分位数应发生在 75%处,即在 3×(N+1)/4=21 处。所以:Q3=35

(e) 给出数据的五数概括。

一个数据集的分布的 5 数概括由最小值、第一个四分位数、中位数、第三个 四分位数、和最大值构成。它给出了分布形状良好的汇总,并且这些数据是:13、 20、25、35、70。

(f) 画出数据的盒图。

略。

(g) 分位数—分位数图与分位数图的不同之处是什么? 分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变

量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的 值(纵轴)相对于它们的分位数(横轴)被描绘出来。

但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一

篇三:SQL_Server 数据挖掘分析经典全集

本章将回顾Analysis Services工具集,同时介绍有效创建挖掘模型和分析挖掘模型的技巧。在学习本章之前,读者应该已经熟悉了第3章介绍的模型构建的概念,而且对挖掘结构、挖掘模型、挖掘模型列、事例表和嵌套表的概念也有了较深入的理解。

对于初学者来说,本章可以帮助他们入门,对于有一定SQL Server数据挖掘经验的用户来说,本章可以为他们提供一些技术,以帮助他们最有效地发挥该工具集的作用。但是这并不意味着本章可以取代产品的帮助文档中优秀的帮助和教程。更确切地说,本章讲述如何使用Analysis Services提供的通用工具,特别是用于数据挖掘的工具。

本章将通过用户界面来讲述如何使用Analysis Services的功能,并提供详细的操作步骤来示范如何创建一组挖掘模型。本章还将穿插介绍相关的一些概念。如果您偏离这些操作太远,则可以重新开始操作,也可以从本书的Web站点(/go/ data_mining_SQL_2008)上获得完整的项目文件,以便随时使用。

本章将会使用附录A描述的MovieClick数据库来举例说明工具的用法。

本章将学习:

● 使用Business Intelligence Development Studio(BI Dev Studio)

● 理解即时模式和脱机模式

● 创建及修改数据源、数据源视图和数据挖掘对象

● 浏览数据和评估模型

4.1 BI Dev Studio介绍

在使用SQL Server数据挖掘功能的过程中,大部分时间将会花费在商业智能应用程序开发工具集(Business Intelligence Development Studio,BI Dev Studio)上。BI Dev Studio环境已经集成到Microsoft Visual Studio(VS)框架中,为商业智能操作提供了完整的开发环境。在使用Visual Studio时,数据挖掘项目是一组项目中的一部分,这组项目也称为解决方案。数据挖掘项目与应用程序所要求的其他项目可以组合到一个解决方案中。

例如,数据库管理员(Database Administrator,DBA)可能创建一个Integration Services项目,这个项目从联机事务处理(OLTP)系统中提取数据,并且把这些数据转换为适合于数据挖掘的形式。然后,分析员可以创建一个Analysis Services项目,这个项目包含浏览事务数据和分析事务数据的模型。最后,应用程序开发人员可以创建一个Web服务和Web站点,在终端用户应用程序和商业化的服务中嵌入这些模型。

所有这些项目都可以包含在一个解决方案中,这个解决方案包含所有相互合作完成的工作。而且,这些工作的所有方面都可以通过源控制系统中完整的版本历史来获得。

4.1.1 用户界面

BI Dev Studio主要是为应用程序开发人员设计的,有一个实现解决方案的非结构化方法,该方法与传统的数据挖掘工具完全不一样。该方法和BI Dev Studio开发环境的复杂性,使得那些熟悉其他数据挖掘工具集的用户感到害怕。然而,开始使用这个工具时,要处理

数据挖掘原理与应用(第2版)——SQL Server 2008数据库

Visual Studio中内置的无数选项和窗口,一旦经历这一段的磨练之后,要创建和分析一个挖掘模型就是非常简单的事。

熟悉BI Dev Studio的第一步是理解用户界面各个部分中哪些部分是重要的,并且理解各个部分的作用。图4-1列出了BI Dev Studio的典型窗口布局,其中对各个重要的元素做了标注。

图4-1 BI Dev Studio

BI Dev Studio最重要的部分如下所示。

● 解决方案资源管理器:解决方案资源管理器窗口用于管理解决方案和项目。在这

个窗口中可以创建和管理所有的对象。要在项目中增加一个对象,可以右击项目名,然后选择“添加新项”,或者右击一个特定文件夹,然后选择“新建”。进行上述操作之后,将会启动一个对话框或向导,创建特定的对象了。

● 窗口选项卡:通过窗口选项卡可以在设计器窗口之间快速切换。每一个当前打开

的文件或者对象都有一个选项卡。如果打开的对象的数目超过了选项卡区域能够容纳的数目,则可以使用选项卡右边的滑动条来浏览其他的窗口。

100

第4章 使用SQL Server进行数据挖掘

● 设计窗口:设计窗口是编辑和分析对象的地方。创建一个新的对象或者在解决方

案资源管理器中双击一个对象,将会打开该对象的特定设计窗口,以修改该对象,与该对象交互。

● 设计选项卡:许多对象都有不同的方面,可以对它们进行编辑或者与它们交互。

这些方面在设计器窗口中是通过选项卡来给出的。

● 属性窗口:属性窗口是一个上下文相关的窗口,它显示当前选择项的属性。属性

窗口在Visual Studio中很常见,适用于该开发环境中所执行的任何类型的操作。例如,如果在解决方案资源管理器中选择一个对象,则在属性窗口中将会显示所选对象的属性(比如对象ID、文件名等等)。如果在数据挖掘设计器窗口中选择某一列,则在属性窗口中将会显示列的属性(比如名称和数据类型)。如果所选的项没有属性,则属性窗口将是空的。

● BI菜单:BI菜单位于主菜单栏的“调试”菜单和“工具”菜单之间,从中可以找

到特定于Analysis Services对象的上下文相关的菜单。例如,如果打开数据源视图(Data Source View,DSV)编辑器,则“格式”菜单和DSV菜单将会在这个区域中显示。

● 输出窗口:当构建和部署项目时,输出窗口将显示相关的信息。如果项目有错误,

则可以在输出窗口中查看关于该错误的描述。

注意:

要使操作环境更适合自己的数据挖掘任务,可以按照所喜欢的形式重新组织工作空间。单击并且拖动任何窗口的标题栏,可以显示窗口悬浮的图标,以帮助悬浮和停靠窗口。甚至可以将这些窗口彼此叠放,这样,可选择的选项卡将会显示在窗口的下面。

在集成开发环境中选择不同的选项时,可能会显示额外的窗口。可以关掉当前不再使用的窗口——不要担心,如果需要它们,总是可以从视图菜单中打开它们。如果想使那些窗口易于使用,而且在屏幕空间上运行短暂时间,则可以在窗口的标题栏中单击图钉图标,这样,当不使用这个窗口时,该窗口将会自动隐藏。

4.1.2 脱机模式和即时模式

BI De

sql 服务器模式 多为和数据挖掘模式 表格模式选哪个

v Studio有两种工作模式:脱机模式和即时模式。具体使用哪一种工作模式有时基于个人的爱好,有时基于个人的需要。每一种模式都有各自的优点和缺点,重要的是,在使用BI Dev Studio时需要理解这两种模式的区别。

1. 即时模式

对数据挖掘用户来说,工作在即时模式下是很自然的。在即时模式下工作时,就直接并持续地连接到Analysis Services服务器。当打开一个对象(比如挖掘结构)时,是从服务器中打开该对象。当改变了对象并且要保存它时,该对象将直接在服务器上改变。在即时模

101

数据挖掘原理与应用(第2版)——SQL Server 2008数据库

式下,BI Dev Studio项目是一个到服务器上的数据库的链接。在解决方案资源管理器中,可以看到数据库中的当前所有对象。如果关闭这个项目,然后重新打开它,将会自动重新连接到该数据库。如果上次打开该项目时数据库中的对象已经改变了,则再一次打开它时,还能够看到这些改变。

虽然这种模式很直观,也很容易理解,但是在使用时有一些因素还是应该注意的。最重要的是,它是真正的“即时”。如果有一个现成的工作模型,需要修改并保存该模型,那么,这种改变立即进行,并且该模型会变成是未处理的,任何针对该模型的查询都无法执行。除此之外,如果已经打开一个对象,其他用户也可以修改它。如果已经修改了一个对象并且试图保存它,将会看到一个警告,因为保存对象时会覆盖其他用户已经做出的修改。只有关闭对象并且重新打开它时,在服务器上的对象改变才能在项目中反映出来。在数据库中新建或者删除一个对象后,只有在关闭项目并且重新打开它时才能看得到所进行的改变。

即时模式相对于脱机模式来说,一个最大的优点是安全性高。如果在即时模式下工作,则该模式允许在单一数据库限定的范围工作,同时允许拥有数据库管理员权限的用户创建和修改对象。下一节将会讲述为什么使用脱机模式要求用户是服务器管理员。

2. 在即时模式下使用BI Dev Studio

要在即时模式下开始使用BI Dev Studio,则按照下面步骤进行操作:

(1) 启动BI Dev Studio。

(2) 在“文件”菜单中选择“打开”,然后选择Analysis Services数据库,如图4-2所示的对话框将会出现。

(3) 在对话框的相应输入框中输入要连接的服务器名和数据库名。

(4) 单击“确定”按钮。

如果有服务器管理员的权限,则也可以在服务器上创建新的数据库,所需的操作是选择“创建新数据库”单选按钮,然后指定服务器名和数据库名。

102

第4章 使用SQL Server进行数据挖掘

图4-2 即时模式下连接到数据库的对话框

3. 脱机模式

在脱机模式下工作时,项目包含的文件存储在客户机上。在这种环境下修改对象时,所作的修改以XML文档的格式存储在硬盘上。在将一个模型或者对象部署到目标服务器之前,所创建的模型和其他对象不会存储在服务器上,而是存储在客户机上。这样就允许数据挖掘开发人员或者分析员在将模型部署到真正的服务器之前进行一些操作,设计和测试该模型。也可以将这些文件放到源控制系统中,以便跟踪对象元数据的改变,并且在一个开发团队中实现共享。在解决方案资源管理器中右击一个对象,然后选择“查看代码”,就可以查看和编辑这些文件的源代码。

当部署一个项目时,BI Dev Studio会对项目中的对象进行验证,并且会创建一个部署脚本,将脚本发送到服务器。部署的基本单位是整个项目,代表整个Analysis Services数据库。当部署一个项目时,这些工具能够部署增量更改。然而,如果在服务器上有一个与项目设置中的数据库同名的数据库,或者如果要部署来自不同计算机的项目,则该部署将会完全覆盖已有的数据库。幸运的是,在覆盖已有数据库之前会弹出一个警告对话框。因为数据库是在部署时创建的,所以,只有服务器管理员才能将脱机模式下的项目部署到服务器上。

4. 在脱机模式下使用BI Dev Studio

要在BI Dev Studio中开始使用脱机模式,按照下面步骤进行操作:

(1) 启动BI Dev Studio。

(2) 首先从“文件”菜单中选择“新建”菜单,然后选择“项目”,将会显示如图4-3所示的“新建项目”对话框。

103

相关热词搜索:模式 多为 表格 数据挖掘 服务器 sql数据挖掘教程 数据挖掘sql第三方算法 数据挖掘sql培训

版权所有 小龙文挡网 www.xltkwj.com