聚类范文10篇
时间:2024-02-18 15:43:29
导语:这里是公务员之家根据多年的文秘经验,为你推荐的十篇聚类范文,还可以咨询客服老师获取更多原创文章,欢迎参考。
聚类分析K-means算法研究
摘要:通过对聚类分析及其算法的论述,从多个方面对这些算法性能进行比较,同时以儿童生长发育时期的数据为例通过聚类分析的软件和改进的K-means算法来进一步阐述聚类分析在数据挖掘中的实践应用。
关键词:数据挖掘;聚类分析;数据库;聚类算法
随着计算机硬件和软件技术的飞速发展,尤其是数据库技术的普及,人们面临着日益扩张的数据海洋,原来的数据分析工具已无法有效地为决策者提供决策支持所需要的相关知识,从而形成一种独特的现象“丰富的数据,贫乏的知识”。数据挖掘[1]又称为数据库中知识发现(KnowledgeDiscoveryfromDatabase,KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。目的是在大量的数据中发现人们感兴趣的知识。
常用的数据挖掘技术包括关联分析、异类分析、分类与预测、聚类分析以及演化分析等。由于数据库中收集了大量的数据,聚类分析已经成为数据挖掘领域的重要技术之一。
1问题的提出
随着社会的发展和人们生活水平的提高,优育观念[2,3]逐渐渗透到每个家庭,小儿的生长发育越来越引起家长们的重视。中国每隔几年都要进行全国儿童营养调查,然而用手工计算的方法在大量的数据中分析出其中的特点和规律,显然是不现实的,也是不可行的。为了有效地解决这个问题,数据挖掘技术——聚类分析发挥了巨大的作用。
R软件系统聚类分析剖析
提要多元统计聚类方法已被广泛应用于自然科学和社会科学的各个领域,而在现实处理多元数据聚类分析中,离不开统计软件的支持;R软件由于其免费、开源、强大的统计分析及其完美的作图功能已得到越来越多人的关注与应用;本文结合实例介绍了R软件在多元统计系统分析中的应用。
关键词:R软件;系统聚类分析;多元统计
引言
多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,其中最常用聚类分析方法,由于多元统计聚类分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。
在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS,等等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍R软件在多元统计聚类分析中的应用。
一、系统聚类分析
新聚类判别分析研究思考
摘要:在分析经典聚类判别分析方法实质的基础上,提出了一种新的聚类判别分析框架,改进了一种基于样本指标值频度计算的两总体判别分析算法,提高了在对所有参与建立判别模型的样本进行判别时的计算速度;给出了建立在此改进判别分析算法基础上的一种动态聚类判别分析算法的设计,并实现了所有算法。进行相应的实证研究,结果表明以此聚类判别分析框架对给定样本集合进行分析,可以迅速得到多个合理的聚类结果以及对聚类结果的清晰解释,既可以对已有的聚类结果进行验证,又可以进行数据的探索性分析。
关键词:聚类分析;判别分析;动态聚类
0引言
经典聚类分析算法是基于距离计算的。然而除马氏距离定义外,其他距离定义都存在样本指标的量纲处理问题;除马氏距离和斜交空间距离定义外,其他距离定义都存在样本指标的相关性处理问题;另外,包括马氏距离在内的所有距离定义都存在将用于聚类的指标同等对待的缺点,不能反映不同指标对聚类结果的贡献程度。
一般情况下,在确定样本间距离计算方法的基础上,用不同的聚类分析方法得到聚类的结果是不会完全一致的。这是因为在实际应用中,许多对象在不同类之间本身并无清晰的划分。这导致了在既定用于聚类的指标组合的情况下,用不同的聚类方法对同一组样本进行分析会得到不同的聚类结果。如上所述,即使使用同一种聚类方法,有时由于样本的排列顺序不同,也可能导致不同的分类结果。这就提出了对不同的聚类方法进行评价的问题。关于所用方法好坏的评价,现在还没有一个合适的标准。Edwards和CAVALLIsforza(1965)曾建议把样本分成两类,使得两类间的离差平方和最大[1]。D.FisherWalter也指出,应该寻找使类内差异最小的聚类方法[2]。因此,评价不同聚类方法的一个重要方面,就是看这些方法得到的聚类结果在类内的接近程度和在类间的相隔程度。一个较好的分类方法应该得到类内差异较小、类间差异较大的聚类结果。在实际应用中,一般采用以下两种处理方法:a)根据分类问题本身的专业知识,结合实际需要来选择分类的方法,并确定分类的个数;b)用多种方法对数据进行分析处理,把结果的共性取出来。如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质。将有争议的样本暂放一边,或者用其他方法如判别分析进行处理归类。另外,在聚类分析方法既定的情况下,同一组样本采用不同的指标组合进行聚类分析,通常也会得到不同的分类结果。产生不同结果的原因主要是由于不同的指标组合测度是样本间的不同侧面的相似程度,在进行聚类分析时存在指标组合选择的问题。一般是根据聚类的实际需要进行指标的选择,这是一个比较复杂并且带有主观性的问题。实践中,在开始进行聚类分析时,通常是先选择多种指标组合分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的测度指标。
判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。本文仅研究两组判别分析。在众多的判别分析方法中,最直观的是距离判别法。
低碳经济下资源环境现状的聚类分析
1我国各地区人均废水、废气排放量的聚类分析
1.1我国各地区人均废水排放量的聚类分析
随着我国城市化速度的加快,城乡居民生活水平不断提高,废水污染物排放量明显增多.2011年,我国废水排放总量为659亿吨,其中化学需氧量2500万吨,氨氮260万吨,总氮447万吨,总磷55万吨,石油类21012吨,挥发酚2431吨,铅155242千克,汞2892千克,镉35899千克,六价铬106395千克,总铬293166千克,砷146616千克。文章选取2011年我国30个省市(西藏数据缺失)废水排放量数据,运用SPSS16.0软件进行聚类分析,将我国各地区人均废水排放量分为四类。由表2可知,从人均废水排放量来看,属于Ⅰ类地区的有云南、甘肃,属于Ⅱ类地区的有天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、江西、山东、河南、湖北、湖南、广西、海南、重庆、四川、云南、陕西、青海、新疆,属于Ⅲ类地区的有北京、江苏、浙江、广东、宁夏,属于Ⅳ类地区的有上海、福建.发达省份的人均废水排放量较高,欠发达省份较低,发达地区工业经济繁荣,企业较多,导致工业废水排放量居高不下。其中,宁夏造纸业企业较多,造成工业废水排放量大。我国经济处于工业化快速发展阶段,日趋严重的水污染使水体的使用功能降低,制约了我国经济可持续发展。
1.2我国各地区人均二氧化硫排放量的聚类分析
在废气排放方面,2011年我国二氧化硫排放总量为228万吨,文章选取2011年我国30个省市(西藏数据缺失)二氧化硫排放量数据,运用SPSS16.0软件进行聚类分析,将我国各地区人均二氧化硫排放量分为四类。由表2可知,从人均二氧化硫排放量来看,属于Ⅰ类地区的有北京、海南,属于Ⅱ类地区的有天津、河北、吉林、黑龙江、上海、江苏、浙江、安徽、福建、江西、山东、河南、湖北、湖南、广东、广西、重庆、四川、云南,属于Ⅲ类地区的有山西、辽宁、贵州、陕西、甘肃、青海、新疆,属于Ⅳ类地区的有内蒙古、宁夏。能源丰富的省份人均二氧化硫排放量较高,内蒙古和宁夏是典型的以能源工业为支柱产业的省份,煤的开采量多,通过燃烧煤进行火力发电,排放出大量的二氧化硫。
1.3我国各地区人均氮氧化物排放量的聚类分析
聚类算法项目成本动因合并研究
摘要:在作业成本法实施过程中,由于成本动因数量庞大及其复杂性导致大多数企业放弃使用作业成本法。因此,科学合理的选择及合并成本动因是保证作业成本法有效实施的关键。文章以A风景园林规划研究院规划设计类项目为例,运用主成分分析与聚类分析算法将存在相关性成本动因进行科学有效的合并,最终得到最具代表性的成本动因,显著降低了作业成本计算的复杂性,在保障项目成本核算准确性的同时,减少了收集和处理成本数据的成本耗费。
关键词:主成分分析;成本动因合并;成本核算;层次聚类;作业成本法
一、引言
作业成本法(Activity-BasedCosting,ABC)自20世纪90年代初引入我国以来,应用已日趋普遍,在行业领域方面已由最初的制造业扩展到了零售、金融、保险以及医疗卫生等行业。随着近年来园林规划设计行业竞争的加剧,为了提高成本管理水平,将作业成本法引入到规划设计类项目成本管理中就显得十分必要。相对于其他行业,规划设计行业间接成本占比较大,费用科目较多,不仅核算难度较大,在成本核算过程中需要大量的成本动因来计量间接费用的耗费,大量的成本动因会增加成本核算过程中信息收集、处理的成本,然而,在实务中企业进行成本核算不仅需要考虑结果的准确性,还必须考虑核算成本的提高,这也导致很多企业放弃引入作业成本法。因此,企业在实际运用作业成本法进行成本核算过程中,需要合理选择并有效合并成本动因,在不损失过多成本精确度的同时减少核算成本耗费。机器学习作为实现人工智能技术的一种方法,凭借强大的计算能力分析数据的特征,将在某些特征上相同或相似数据自动形成集合。在成本动因合并的研究中,运用基于机器学习算法中的降维、聚类等无监督学习算法,有助于企业从大量的成本相关数据中客观的选择最具代表性的成本动因,避免人为的经验判断导致的主观偏差,最终提高代表性成本动因选择的可靠性。纵观已有文献,不少学者通过实例运用将同质性成本动因进行合并,能够实现在可接受的误差范围内保证核算结果的准确度[1-2]。然而在规划设计类项目研究方面,大多学者主要研究于作业成本法在规划设计类项目适用性和实例运用[3-4],较少从成本动因合并角度解决作业成本法在设计规划类项目实际应用中的成本效益失衡问题。鉴于此,本文以A风景园林规划研究院规划设计类项目为例,以现有成本动因合并理论为基础,结合设计规划类企业的特点,构建基于主成分分析算法和层次聚类算法设计项目成本动因合并模型,将一组数据的“主要成分”提取出来而忽略剩下的次要内容,达到数据降维的效果,以减少运算资源消耗的目的,降低作业成本法实施成本和复杂度,提高了规划设计类单位运用作业成本法的可操作性,从而推进成本核算工作。
二、A研究院项目成本核算的现状与问题分析
A风景园林规划研究院(以下简称“A研究院”)隶属于自收自支正处级公益二类事业单位。承担城市园林绿化管理信息平台建设工作以及根据资质提供规划编制、风景园林设计、城市市政工程设计、建筑设计等技术服务。规划设计类项目不同于传统的制造行业,其经济利润的创造主要依赖人员的知识和技术,知识技术作为单位最基本的核心生产要素,成本核算方法与传统成本核算存在着显著的差异。通过对A研究院实地调研以及结合历史数据分析发现,目前运用作业成本法进行项目成本核算仍存在一些问题。
透析证候研究中变量聚类结果
近年来,有不少学者利用系统变量聚类方法对西医病种中中医症状的分布情况进行研究。例如,麻氏等[1]通过对739例胆病病案进行分析,得到9个类,并把它们分别诠释为肝胆湿热证、肝胆郁热证、肝胆蕴热证、肝胆气郁证、血瘀证、脾失健运证、阳虚寒湿证、阴虚内热证和热毒亡阳证。笔者剖析系统变量聚类结果的统计学含义,并基于此讨论把它们诠释为证候的合理性。我们的结论是,变量聚类的结果不能诠释为证候。
1变量聚类结果的统计学含义
在麻氏等[2]分析的胆病数据中,症状变量全部是二值的。分析所得的变量类之一如下。
类1:发热寒战、右上腹压痛拒按、黄疸、恶心呕吐、右上腹疼痛、大便秘结、小便色黄、苔黄、苔腻、脉滑、脉弦、口苦。
本节以这个类为例,剖析系统变量聚类结果的含义。要准确把握这个类的含义,需要考虑3个因素,即“变量”与“事件”这两个概念的区别、变量间相似系数的定义以及变量类间相似系数的定义。下面逐一讨论这3个因素。
1.1变量与事件
信息化水平聚类分析论文
1、变量指标的选取
国家统计局在其《中国信息能力报告》中,设计了一套评价我国信息化水平的指标:指标体系共分4级,有25个指标:①信息技术和信息设备应用能力:a.每千人拥有PC数;b.每千人拥有传真机数;c.每百人拥有电话数;d.每千人拥有电视机数;e.每千人拥有收音机数;f.每万人接入因特网用户;g.每百万人互联网上网主机数;h.每平方公里光缆长度;i.每百家企事业单位上网数;j.基础信息产业产值占GDP比重。②信息资源及开发利用能力:a.每户打国际电话时间;b.每百人期刊发行量;c.每日信息量;d.网络用户平均上网时间;e.每万人Web站点数。③人口素质:a.每万人平均科学家和工程师数;b.第三产业从业人数占就业总人口比重;c.大学入学率;d.每十万人在校学生数;e.计算机专家和工程师数。④国家对信息产业发展的支撑:a.信息产业产值占GDP比重;b.研究开发(R&G)支出占GDP比重;c.每主线电信投资;d.人均GNP;e.教育投入。
鉴于遵循数据的客观性和代表性,以及易得性,本文采取以下指标:每千人工业增加值x1;每千人电信业务量x2;每千人移动通信交换机容量x3;移动电话普及率x4;电话普及率x5;广播综合人口覆盖率x6;电视综合人口覆盖率x7;有线电视普及率x8;每十户宽带上网用占有户数x9;R&D经费支出占GDP比重x10;每十人从事科技活动人员总数占有的人数x11;每十人在校大学生人数占有的人数x12;每千人专利授权数占有数x13。其中缺省值用平均值代替或者临近年数内值代替。由于篇幅有限,指标数据省略。
2、因子分析
因子分析法是能够实现数据简化目的的有效方法之一。其基本思想是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,使不同组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。运用因子分析法,借助EXCEL多元统分析,对已得的指标数据进行分析处理,在处理过程中选取方差贡献比率为0.80。
按照方差贡献比率大于80%,应提取前四个因子,它们所解释的方差占总方差的84.58%,这四个因子就可以解释原始数据的大部分信息了。
K-Means聚类算法数据分析
摘要:K-Means算法是无监督学习中经典的算法之一,通过组间的相异性规则把不同事物划分为若干类,使各类之间的数据最为相似,不同类数据相异性尽可能最大化。本文通过K-means聚类算法分析某学校大学生期末大学信息技术基础和C语言程序设计的成绩,通过数据分析表明想要提高学生的整体成绩,需要在C语言程序设计上付出更大的努力。
关键词:K-means;数据分析;机器学习
1概述
机器学习中有两类大问题:一个是聚类,另一个是分类。聚类是统计学的概念,属于非监督机器学习(unsupervisedlearning),应用中数据挖掘,数据分析等领域,根据数据不同特征,将其划分为不同的数据类,属于一种无监督学习方法。它的目的是使得属于同一类别个体之间的密度尽可能的高,而不同类别个体间的密度尽可能的低[1]。分类是用已知的结果类别训练数据,对预测数据进行预测分类,属于有监督学习(supervisedlearning),常见的算法如逻辑回归、支持向量机、深度学习等。聚类也是对数据进行归类,不过聚类算法的训练数据只有输入,事先并不清楚数据的类别,通过特征的相似性对文本进行无监督的学习分类。聚类试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个簇(cluster)[2]。K-means属于经典聚类算法,根据样本间的距离或者相异性进行聚类,把特征相似的样本归为一类,相异的样本归为不同的簇。
2理论基础
K-Means算法是从训练集D={x1,x2,…,xn}中选取K个样本作为初始聚类中心c=c1,c2,…,ck,计算数据集中每个样本xi到k个样本初始中心点的距离,并把每个样本划分到离它最近的中心点的类中;每个簇类别βj,重新计算该簇所有样本的质心βj=1|cj|i∈cjΣxj,重复以上两步,迭代更新直到每类质心的变化小于阈值或者达到最大迭代次数。基本步骤为选择数据中心,计算距离,分簇,重新选择数据的质心,重复,直到数据收敛或达到最大迭代次数。该算法不能保证收敛到全局最优。选择训练过程的伪代码如下:训练数据n个m维的数据,随机生成初始化聚类中心k个m维的点。While(t)t为迭代次数Foriinrange(n+1):#n为样本点个数。Forjinrange(k+1):#k为簇的数目。Foriinrange(k+1):#计算样本i到每个簇质点j的距离。找出属于这个簇中的所有数据点,计算这类的质心。重复以上步骤,直到每类质心变化小于设定的阈值或者达到最大的迭代次数。设置最大特征数,设置分类的组K值,训练特征数据进行数据分析。本文将数据过滤清洗,去除停用词转化为向量模型,使用TF-IDF算法对词频进行权重计算,TF是词频,IDF是逆文档频率,TF-IDF反应了一个词在文本中的重要性它的值是TF×IDF。使用Python中的sklearn模块的TfidfTransformer、CountVectorizer方法计算TF-IDF值,转化为空间向量模型,选用K-means聚类算法对数据进行挖掘与分析。
聚类分析在财务绩效评价的应用
[提要]本文探讨数据挖掘技术中聚类分析在财务绩效评价中的应用进展。介绍背景及意义,应用现状,简述利用聚类分析法进行财务绩效评价的一般流程,并提出对财会和数据挖掘技术结合的一些看法和观点。
关键词:财务绩效分析;指标选取;聚类分析法
引言
(一)背景及意义。企业的财务绩效是指企业的运营、战略的执行等是否能提高企业最终的经营业绩。财务绩效能够详细地反映出企业在对成本的控制能力、合理调配各项资金的水平、管理资产用于盈利的程度。然而,现阶段,仅凭借简单的数据分析对企业财务绩效进行分析是不充分、不全面的,所以需要引入其他的研究方法。而且随着信息时代的来临,铺天盖地的信息碎片为我们的财务工作带来了巨大的数据量,财务工作中收集到的数据中往往存在一些内在逻辑关系,因此学会利用数据挖掘技术对深入研究财务数据越发重要。数据挖掘中的聚类分析被广泛应用在各种财务分析中,如财务风险分析、财务绩效分析、财务数据分析等。本文将探讨聚类分析在财务绩效评价中的应用进展。(二)相关概念1、财务绩效评价。财务绩效评价表示用科学合理的方法对企业某个时期内的生产经营结果进行定性定量的分析,使得企业业绩具有可比性。便于利益相关者们直观地理解财务绩效,并对企业经营成果做出客观、公正的评判。正是因为财务绩效评价的客观性与公正性,财务绩效评价已经成为了分析企业经营状况不可缺少的部分。2、聚类分析。聚类分析的基础是数据之间存在相似性,在此基础上将数据分为几类,是一种常见的数据挖掘手段。数据间的相关性是存在价值的,因此聚类分析可以被用于提取数据间存在的特性来产生价值。在进行聚类之前,需要保证数据之间的相关性,这一步则需要通过因子分析来实现。
一、应用现状及评价
在财务绩效评价和聚类分析的结合方面,国内存在大量研究,下面对一些期刊论文进行综述,评价应用的现状及优缺点等。帅丽媛选取我国煤炭上市公司作为研究对象,剔除ST公司以保证财务数据稳定,用13个财务指标反映企业的盈利、偿债、营运和发展能力。通过筛选,去除了3个指标,并将反向指标做了正向化处理。最终的侧重是盈利能力4个指标,其余能力均是选取2个指标。第一个因子的贡献率最高为35.667%,再结合其旋转成分矩阵,能代表盈利能力的资产报酬率X3、净资产收益率X4、营业净利率X5、每股收益X6均超过0.85,说明通过因子分析,盈利能力最能影响财务绩效评价。下一步对得分进行K-means法聚类分析,得出以下四类情况。第一类:偿债能力较强而盈利能力弱,之前分析出盈利能力最能影响评价结果,所以这一类整体排名均靠后。剩余三类排名也均是受盈利能力的强弱影响,比如金瑞矿业,三个指标排名都不靠前,却能依靠一个盈利指标使综合排名拉高。指标选取侧重点在于盈利能力,所以排名最受盈利能力影响。对于煤炭上市公司指标选取是否应以盈利能力为主,其中原因作者并未叙述。煤炭公司以国企为主,一直是高耗能、高污染产业,而现今时代主题是去产能、去库存的供给侧改革和“绿水青山就是金山银山”发展理论,其核心指标的选取应该多加分析和探究。李庆东等人对医药上市公司的财务绩效进行聚类分析,在指标选取过程中,提出了对盈利质量和盈利数量的思考,最终敲定以32个指标来评价115家企业的财务绩效。通过因子分析把32个指标降维,最终得到利用效果因子、主营业务获利因子、现金流量因子、负债水平因子、所有者资本占固定资产价值因子、成长能力因子、经营条件因子、资产保值增值因子和还债压力因子。不仅能反映企业的盈利、负债、发展和营运能力,还体现了企业的资本结构、现金流量等。通过聚类分析,最终所有企业被分成5类,提炼出每一类的共同点,并对医药行业的总体进行论述,最后对需要提高的点提出相应的对策。由于旋转成分表、得分排名表等均没有列示,只能看出其指标多、公司多。创新之处在于,提出了盈利的质量,不单单以盈利数量进行分析,其结果更加合理。庞凤娇选取32家钢铁行业上市公司作为研究对象,剔除其中的ST公司,剩余10家上市公司。将钢铁行业的节能减排战略目标考虑到指标选取当中,并结合行业的实际发展情况,在传统的财务绩效评价体系中加入了股票投资获利能力。现今,在股市的投资活动已经成为了众多企业收入的重要来源,尤其是钢铁煤炭等高耗能、高污染传统行业。作者通过专业知识结合行业状况,形成了独特的“绿色技术创新绩效评价”体系,把每股收益、每股净资产、每股未分配利润和每股股利纳入指标体系,较为全面地反映公司的股市投资能力。随后,剔除相关性较高的指标,形成近似值矩阵,如表1所示。将偿债能力每个指标的相关性进行列示,用以展示指标的筛选过程,让读者更清晰地理解。最终选择了13个指标,发展能力3个、股票投资能力3个、盈利能力2个、营运能力2个、偿债能力3个,指标分配比较均匀,没有特别偏重的情况。研究使用的聚类方法是层次聚类法,使用平均距离来计算因子间的距离。平均距离可以反映类内每个点之间的距离,比较客观、合理。此外,由于分析中加入了股票获利能力,不仅给行业内部人员参考建议,还能让股票市场的投资者对公司股票的涨跌有了清楚的认知。(表1)吕振君从盈利、偿债、发展和营运能力四个传统方面来考察50家物流企业的财务绩效,指标选取很常规、很均匀,每组3个指标,但没有见到对反向指标的正向化处理。在聚类分析的过程中,作者创造性地对聚类完成后的三个种类建立了得分评判标准,通过数据分析来清晰地展现每一类间的差别。付静使用因子分析法和聚类分析法分析了28家上市公司的竞争力状况,选取18个指标,运用SPSS软件进行因子分析和聚类分析,但在聚类分析过程中,只对综合得分这一个指标进行聚类。其指标所含信息丢失严重,为避免信息损失,应该对所有因子的得分进行分别的权重计算,即用各自的得分乘以其权重,得出新的权重得分,再对结果进行聚类,才能保证信息尽可能反映在结果中。综上,在文献阅读的过程中,可以得出一些简单的体会:指标的选取应该结合行业发展背景来看,不能忽略行业的制约因素和重大影响因素,比如庞凤娇建立的“绿色技术创新绩效评价”体系,为高污染、高排放企业绩效评价提供借鉴意义。此外,指标在体系中的分布应该尽量均匀,不能厚此薄彼,如果偏重点过于集中,那么得出的结论是具有一定导向性的,比如说盈利能力指标占所以指标的50%以上,盈利指标的权重得分一定最高。在指标选取过程中,需要对反向指标进行正向化处理,比较常见的有用1减去原指标、取倒数等处理手段。具体实施过程可以借鉴庞凤娇的相关性矩阵处理,可以直接清晰地反映出如何剔除指标。另外,进行聚类分析时,不能仅用单个指标或综合得分进行聚类,因为在数据折叠、展开过程中丢失的信息太多,而且如果类内只有一个数据,与别的数据计算之间的欧式距离没有意义。此外,如果能像吕振君那样建立一个分类评分标准,那么整个绩效评价过程会更加完善,得出的结果也更有说服力。
双网格校正小波聚类在航空发动机的应用
摘要:航空发动机的核心部件转子系统,它的工作状态关系到整台机械设备的运行状态,对其进行状态监测和故障诊断能够提高生产效率、避免重大事故发生,对现代工业的发展具有重大的意义。通过运用双网格校正小波聚类算法分析航空发动机的故障信号可以更好的将同类数据归类,并将噪声数据从类中分离出来,从而提高聚类精度和更快得到聚类结果,因此该诊断方法可以提高航空发动机转子系统的故障诊断水平。
关键词:小波聚类;双网格校正;航空发动机;故障诊断
航空航天产业的快速发展,越来越得到人们的重视,安全问题也成了重中之重的事情,轻则影响飞机的正常运行,重则机毁人亡,会给社会和人们带来严重的经济损失。航空发动机作为飞机的重要组成部分,直接关系到飞机的安全飞行。而航空发动机的核心零部件转子系统,转子系统的正常运行尤为重要,直接关系到飞机的运行状态,因此对转子系统进行状态监测和故障诊断具有重要意义。WaveCluster算法是由GholamhoseinSheikholeslami、SurojitChatterjee、AidongZhang提出的,经过多次完善,最终形成了现有的Wave-Cluster算法[1]。邓贝贝对小波聚类算法在转子故障诊断中的应用进行了初步探索[2];刘晓波教授提出一种基于双网格校正的小波聚类算法,并应用于转子故障诊断中[3],因此本文利用双网格校正小波聚类算法对航空发动机转子系统的故障信号进行诊断。
1基于双网格校正小波聚类算法
小波聚类最终的量化结果是运用一种尺寸对空间进行均匀量化,一般而言,通过细化网格来准确捕获边界,但细化网格产生的网格点数的波动因阈值的设置可能使类分裂成更多小类,这就造成细化网格、聚类精度与阈值之间存在矛盾,而并行校正算法在这之间找到了一个平衡:降低网格划分和密度阈值对聚类结果的影响,双网格校正算法的框图如图1所示。小波聚类[4]最重要的思想是将数据空间转换为信号空间,而后在信号空间中利用小波变换的原理去求解数据空间中数据聚类的问题,这种转换最大限度地利用了小波变换和网格聚类两者的优势。基于双网格校正小波聚类算法是以两种尺寸对空间并行量化,运用元胞数组结构对有效信息进行存储和运算,降低高维空间复杂度,运用广度优先搜索[5]邻居网格单元连通聚类,提高聚类精度,并行地进行原始网格小波聚类和校正网格小波聚类,最后通过校正算法对原始网格小波聚类结果进行校正[6]。在量化之前就要先确定下特征空间的维数d。在双网格校正小波聚类中,采取的是两种尺度的网格对信号数据空间进行量化,确定K的取值范围[Kmin,Kmax]。根据启发式方法确定K的取值:[Kmin]。根据经验公式K=int(姨N),得到最佳划分值为[Kmax]。其中,N为数据的个数,d为特征空间的维数。
2实验分析