• 绿色住宅房地产的发展趋势和存在问题研究 不要轻易放弃。学习成长的路上,我们长路漫漫,只因学无止境。


    普通用户选择合适的算法进行数据挖掘是一项困难的工作。本研究提出了一种根据数据集特征判断数据集相似度,从而根据算法在相似数据集上的性能选择数据挖掘算法的方法。 关键词数据挖掘数据集特征算法选择 TP. DtsetChcteExtctingesechtoSuppot DtMininglgoithmsSelection bstctItisdifficultfoindividulstochooseppopitelgoithmsfodtmining.Thisppepesentspdigmthtextctssimilityofdtsetbsedonitschctes,ledingtovilblelgoithmsccodingtochctesonsimildtsets. Keywodsdtmining;dtsetchcte;lgoithmselection 、引言 随着数据挖掘技术的不断发展,数据挖掘软件逐步成熟,数据挖掘成果日益丰富,并运用到管理决策、经济发展趋势分析等多方面。与此同时,由于计算机运算能力的提高、计算机存储量的数量级增加,个人已经初步具备了进行数据挖掘所需的数据源和高运算能力的电脑。因此各行各业的人都希望通过运用数据挖掘软件对自己的数据进行发掘分析,从而获得有效的信息。 但是由于数据挖掘算法多达上千种,它们适用于不同的数据挖掘类型,对不同的数据集挖掘效果也有很大差异。对于非数据挖掘专家的普通用户而言,选择适合自己数据集的算法非常困难。国内外专家的大量实验已经验证,同一个算法在相似数据集上的挖掘效果相似。而对很多算法的效果评估是基于各种国际标准数据集的。如果研究者能够知道自己的数据集与标准数集的相似程度,并选择在相似的标准数据集上表现良好的算法来对自己的数据集进行挖掘,将更容易获得满意的挖掘效果。 因此,数据集的相似度判断便成为了一个关键点。数据集的相似不应该是简单的内容形式相似,比如同样是文本数据,因为同样内容形式的数据集可能在不同类型数据项的分布上有着巨大区别。数据集特征是指能反应该数据集自身数据统计特点的一些指标,是对整个数据集而言,用于确定数据集的整体特点。因此根据数据集特征来比较数据集之间的相似度,将具有较高的准确度。 、数据集特征概述 数据集特征应该是能反应数据集自身的数据特点的一些指标。这个特征有别于用于数据挖掘中的分类特征。数据挖掘过程中的特征提取和选择是对数据集的内容而言,分析对象是数据集中的属性和记录值,提取的特征用以为各条记录进行分类。而数据集特征是对整个数据集而言,分析的对象虽然也关系具体的属性和记录,但是提取的特征是这些属性和记录的整体性描述,用于确定数据集的整体特点。 数据集特征其实是元学习的一个很小的领域[]。数据集特征可以分为几个不同的种类包括标准统计和加强统计[]。标准统计描述的是数据集的性质和数据集中变量的性质。加强统计分为两个方面,一个是对表示数据集值域的数值属性空间特点的描述,另一个是对数据集的名称属性特点的描述。国外已经有很多学者、机构从事数据集特征提取研究,并提出了多种特征提取的方法和特征度量,如时间序列的长度(LEN)[]、前个自相关的评价绝对值(MENCO),NMSE等。 、数据集特征提取及比对 .特征度量选择标准 为了支持数据挖掘算法的选择,应该选取对数据挖掘效果影响较明显的特征度量来进行提取。选择的数据集特征符合数据挖掘功能的特点。因为数据集的不同特点对于不同功能挖掘算法的效果影响程度是不同的。如记录数、属性数会影响分类的速度和精度,离群点分布会影响聚类的效果等。分析了各种度量对数据挖掘效果的影响程度,确定特征的提取应该侧重以下几个方面度量数据集的大小,数据的中心趋势,数据集属性分布,属性的离散程度和不同属性间的关联程度。 同时对特征度量的选择注意以下几个问题 第一、特征是客观可靠且有区别度的。这样才能避免主观分析对特征提取的影响。如果由专家主观提取特征不但费时,而且可靠性并不高; 第二、参考文献中其他研究者对各种数据集特征的介绍,最好是经过他人实验的,有效的特征。因为特征提取涉及很多复杂的统计学算法,了解各种算法的数学理论并在理论基础上推导出某个统计特征在描述数据集的某方面特性准确,基本是不现实的。现在我们所运用的很多算法或特征值,评价它适合某些任务,都是建立在大量实验基础上的,而并不能用数学理论证明它的有效性和本质含义; 第三、选择的数据集特征是可实现的。这个可实现是指计算机能在有效的时间内通过运算获得。作为为用户推荐算法中的一个环境,提取特征应尽量避免大量耗时。 .适用于数据挖掘的特征度量 基于以上几个因素,本研究选择了类共个特征度量进行提取 数据集的大小用样本量(quntity_of_exmples)来度量,一个样本包含一组属性值,样本量是数据集样本个数以.为底的对数。由于样本个数值区间很大,有的数据集样本个数只有几十个,有的却有数千个。为了避免单个指标对整个相似度影响程度过大,我们采用对样本个数取对数,在不改变样本量单调性的情况下,把样本量指标的值控制在一个较小的范围内。 数据集“中心”(cente_tendency)最常用、最有效的数值度量是(算术)均值[]。设x,x,…,xn是N个值或观测的集合,如某个属性的所有值。该集合的均值是x=∑xi/N。与样本量一样,对数据集均值取对数,把中心趋势的值控制在较小范围内。 数据集的分布特性是指各种不同属性或特殊值在数据集中的比重,包括 符号属性比例(pop_symbolic_tts)=符合属性个数/总属性个数 缺失值比例(pop_missing_vlues)=缺失值个数/总数据个数 用平均联合熵(vg_joint_entopy)来度量数据集的离散程度[]。在信息领域,熵是衡量不确定性的一个随机变量,是常用的离散化度量之一[]。值域为{x,…,xn}的离散随即变量X的熵H(X)=E(I(X))。这个E是期望值函数,I(X)是X的自信息,I(X)本身是个随机变量。如果p表示X的概率质量函数,则熵H(X)的定义如下 其中b是对数的底,通常为、e、或。 联合熵度量的是在一个有两个随机变量的系统里的熵的量。H(X,Y)表示随即变量X和Y联合的系统的熵。在计算联合熵时,考虑到每一对变量(X,Y),每一对变量同时发生的概率用p(x,y)表示,联合熵H(X,Y)定义如下 如果H(X,Y) 用平均互信息量(vg_mutul_Infomtion)来度量数据集不同属性间的依赖性[]。在概率论和信息论中,两个任意变量的互信息量是度量两个变量间相互依耐性的量。通常对于两个非连续变量X和Y,对信息变量的定义如下 其中p(x,y)是x和y的联合概率分布,p(x)和p(y)是X和Y各自的边际概率分布函数。 对于连续性变量的情况,用二次积分代替求和,定义如下 这里的p(x,y)是X和Y的联合概率密度,p(x)和p(y)是X和Y的边际概率密度函数。 平均互信息量是互信息量I(xi;yj)在联合概率空间P(XY)中的平均值,它克服了互信息量的随机性,是一个确定的量。互信息量也可以通过计算信息熵来得到 I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X) =H(X)H(Y)H(X,Y) =H(X,Y)H(X|Y)H(Y|H) .数据集特征比对 提取数据集特征是为了判断数据集之间的相似度。一组数据集的特征也可以看作一个向量,所以数据集的相似度判断本质上是向量之间的距离计算,距离最小的两个向量代表的数据集相似度最高。 K最近邻(kNeestNeighbo,KNN)算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。KNN方法主靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的。 我们将k近邻算法的思想运用到数据集特征对比中来,把已有的所有数据集作为样本集,对于新的用户数据集,考虑在实验数据集中与该新数据集距离最近(最相似)的K个数据集,根据这K个数据集所属的类别判定新数据集所属的类别,具体的算法步骤如下 对新数据集提取特征值,根据特征值重新描述训练数据集向量; 在训练数据集中选出与新数据集最相似的K个数据集,计算公式为 其中,K值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整K值; 在新数据集的K个邻居中,依次计算每类的权重,计算公式如下 其中,为新数据集的特征向量,为相似度计算公式,与上一步骤的计算公式相同,而为类别属性函数,即如果属于类,那么函数值为,否则为; 比较类的权重,将数据集分到权重最大的那个类别中。 但是这样有几个不足之处需事先对实验数据集进行分类,这种分类在没有进行相似度判断的情况下,只能采用主观判断来分类,准确度低,不能保证在同一个分类中的数据集上取得良好挖掘效果的算法一样;需的样本空间大,但是基于第一个原因,建立大样本空间实际可行性低;计算量大。基于这几个原因,我们将算法简化,将k的值取为(或其他以下的数),也就是寻找邻居数据集中最相似的个(或以下的其他个数),然后算法结束,根据算法在这个相邻的数据集上的平均性能特征,为用户推荐算法。这样避免了不准确性,也简化了计算过程,提高了速度。 、实验结果 为验证以上数据集特征是否能支持数据挖掘算法的选择,本研究对大量的标准数据集进行了验证实验,实验思路如下对一组标准数据集进行特征提取,并对该组数据集进行同类的各种数据挖掘算法,获得挖掘效果评估;对另一个数据集进行特征提取,比对它和已实验的那组数据集的相似度,选出最高相似度数据集;如果一个算法在最高相似度数据集中挖掘效果理想,且对数据集的挖掘效果也理想,那么说明用以上特征是能正确支持挖掘算法选择的。 接下来我们将以一组数据为例进行说明 [例]以个下载自UCI的标准数据集(cmc,hyesoth_tin,postopetiveptient,hbemn,ceditting,iis,nnel)作为一组,并对它们进行特征提取,它们的特征如表所示 任意选择分类算法下的个算法Byes方法的ByesNet,NiveByes,决策树法的BFTee,用规则分类的Jip和元学习法的END,通过wek实验获得这个分类算法在以上个数据集上的性能表现表所示 为任意挑选的一个数据集te选择进行分类功能的数据挖掘算法的过程如下 提取用户数据集te的特征,结果为 {.,.,.,,.,.} 将该数据集的特征与实验组中数据集的特征进行相似度比对,计算te的特征和本体中各数据集的特征间的相似度 S(te,nnel)=. S(te,cmc)=. S(te,cedit)=. S(te,hbemn)=. S(te,hyesoth)=. S(te,iis)=. S(te,postopetive)=. 相似度是一种距离度量,所以值越小,相似度越高。由该结果可知,hyesoth和cmc是数据集特征本体中与te的最相似的个数据集。 共页上一页下一页

    上一篇:美国黑人文学中女性身份认知与抗争

    下一篇:没有了