聚类分析论文范文
时间:2023-04-12 04:50:36
导语:如何才能写好一篇聚类分析论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
对于股票投资来说,一定要关注股票上市公司的基本盈利状况以及该公司未来的发展状况。在投资时,这两大因素必须进行思考衡量,因为这两大因素是衡量一个上市公司有没有投资价值最基本的条件。因此,要在投资前计算出该股票每股的收益、该公司净资产收益率以及主营收入增长率。
1.盈利能力指标。总资产利润率=净利润/平均资产总额,这体现出公司整体的获利能力。净资产利润率=净利润/平均净资产,这个关系可以直接体现出股东投资的回报。主营业务收益率=主营业务利润/主营业务收入,主营业务是上市公司利润的来源,主营业务的收益越大,公司在市场中的竞争优势就越明显。每股收益=净利润/期末总股本,每股的收益越高,反应出每股获利的能力越强。
2.成长能力指标。主营业务收益增长率=本期主营业务收入/上期主营业务收入-1,这体现出上市公司重点项目的成长力。净资产利润率=本期净利润/上期净利润-1,上市公司给员工的薪酬都是根据净利润决定的。
二、聚类分析的投资方法应用实例
聚类分析方法隶属多元统计分析方法之中,与多元统计分析法和回归分析法并称为三大应用方法。聚类分析法一定要建立在某个优化意义基础之上,如果将聚类分析方和常规的分析法相比较的话,会发现聚类分析法有很大的优势,第一是使用聚类分析法可以对数据中的多个变量进行样本分析,然后将其分类整理;第二是通过使用聚类分析法所得出的数据非常直观明了,通过观察聚类谱系图投资者就能够清楚地分析出数据显示的结果;第三是如果将聚类统计法所得出来的数据结果与普通方法计算出来的结果进行对比,不难发现聚类分析法的对比结果更加细致、科学、全面,接下来通过两个应用的实例进行说明。
1.原始数据标准化。为了解决原始数据量纲和数量级差异带来的影响,更好的对聚类分析和判别进行分析,可以采用指标标准化的处理方法。
2.逆指标正向化处理。流通股本是逆指标,对其绝对值取倒数可以得出。
三、将聚类分析法应用到金融投资上的意义
将聚类分析法应用于金融投资上,不但可以显示出有效、科学、全面的数据更能帮助弥补金融投资投资时所出现的不足。
第一,聚类分析法建立在基础分析之上,对投资股票从一些基本层面进行量化分析,进而对股票价格影响因素定性进行补充并完善了原有的基础分析。聚类分析法作为长期的理性投资参考依据,是为了发掘股票投资的真实价值,避免由于市场过热导致资产估值不公允。
第二,在建立投资评价模型的时候,可以运用聚类分析法对公司和股票投资价值之间的联系进行分析。公司的成长是一个在哥登模型中,在一个变化的趋势内进行。不变的股息增长率对实际情况并不符合,在采用多阶增长模型的时候,想要得到不同阶段的股息增长率是很困难的。所以,对股票的成长进行分析得时候,可以选取净利润率等客观的数据做参考,这样可以估算出股票的发展潜力。
第三,通过对聚类分析法和现资组合理论的比较可以得出,聚类分析法比现资组合理论更具有直观性和实用性,并且在实际生活中的局限小。该方法主要着眼于实际数据的相似性和其延生的规律性,较投资学中一些以预测和假定前提较多的模型而言更具有现实意义,也更加贴近当前市场情况的现实。另外,聚类分析法的操作性强,在实际应用过程中有一定的优越性,更加适合投资者使用。
第四,聚类分析法作为长期投资的理念,随着我国金融行业的不断发展,逐渐被更多的投资人采用。理性的运用聚类分析法这种投资方法,不但可以使投资者的投资风险降到最低,还可以规范其他投行的投资行为,促使发行股票的企业可以本着经营业绩和长期的成长模式进行投资,在一定程度上可以有效规避道德风险和投机行为,保证金融市场的稳定性和规范性,保护散户和弱势群体的经济利益,进而繁荣整个股票、证劵市场,使我国的经济更繁荣。
四、结论
篇2
关键词:聚类分析算法 应用研究 算法描述
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)10-0143-01
聚类分析(Cluster Analysis)就是将一组物理事物或抽象对象按照某种聚类规则或检验度量函数标准划分不同聚集组别的过程,其中被划分的若干相对独立的组为一个类,是一种无监督的学习方法。聚类分析方法是数据挖掘技术中的数据分析普遍运用方法之一,其功能最终实现被研究数据按照相关聚类分析算法进行聚类,对聚类的事物对象,最终要达到相似度大的对象在同一个聚类群组中,相似度小的对象在不同的聚类群组中,从而归纳出聚类数据对象的特征性。聚类分析中的“类(Cluster)”就是一组相似度较高的数据集合。聚类分析能够将一组事物或数据按照聚类算法规则进行聚类处理,根据聚类算法规则的不同而实现各自侧重的聚类分析结果。
1 聚类分析算法
根据聚类对象数据类型的不同,聚类分析分为R型聚类和Q型聚类,R型聚类是对变量型数据的聚类分析,Q型聚类是对具体观测值数据的聚类分析。对数据对象的聚类分析要借助于聚类分析算法来实现完成,聚类分析算法的基本定义为:
目标数据集合,对于数据集合中的任一数据元素,具有个特征属性,任一数据元素的属性特征向量集表示为。通过特定的数据分析处理准则对目标数据集进行聚类处理后,目标数据集被划分成具有个子集的数据类集合,,聚类结果数据集必须满足:
根据聚类分析所采取分析方法的不同,聚类分析算法分为基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法。
2 K―means聚类分析算法描述
对于给定包含个数据对象的数据集,按照标准偏移量的目标函数进行划分,形成K个聚类。具体操作过程为:
第一步:数据规范化处理。对数据对象进行规范化预处理,消除非法值及极值影响。
第二步:数据准备。计算各科标准差:
第三步:计算各初始聚类中心。
第四步:计算与聚类中心最近邻的数据对象,并合并成新类。
第五步:重新计算聚类中心值。
第六步:验证聚类收敛性。
if 聚类中心值o新变化
结束聚类 else 转入第四步 endif
第七步:进行各个类数据分析。
3 结语
总之,聚类分析算法是数据挖掘中一种常用算法,在数据挖掘过程中有很多算法,每种算法都有自己的优缺点,数据挖掘是一项极其复杂过程,一般情况我们都是多种算法结合起来一起应用,目的提高工作效率,提高数据挖掘的准确性,数据挖掘技术在我国应用领域比较广,并且取得一定成绩,在当今大数据时代,研究数据挖掘具有一定的现实意义,具有深远的研究价值。
参考文献
[1]吴多智.基于语义的手机类产品用户评论维度挖掘研究[J].安徽电子信息职业技术学院学报,2016(03).
[2]孙永辉.聚类分析在学生成绩分析中的应用[J].中国管理信息化,2016(06).
[3]巨晓璇,邹小斌,屈直,刘春敏.层次聚类算法在气象客户细分中的应用[J].河南科技,2015(11).
[4]许进文.数据挖掘中聚类分析算法及应用研究[J].计算机光盘软件与应用,2013(06).
篇3
【关键词】高压;聚类分析;特点;研究
1.引言
高压电缆是电力系统中重要的设备,由于其适合于地下走线方式在城市电网中得到了大量的应用,节约了大量的空间资源,然而由于地下潮湿等因素以及布线过程中人为的损坏都可能造成电缆绝缘层的损坏,在运行电压的长期作用下,可能造成局部放电的发生,如果得不到及时的处理,最终会导致电缆短路,从而引发停电事故,造成经济损失,所以,对电缆进行局部放电检测是必要的,基于此,文章分析了电缆局部放电的特点,然后根据聚类分析对放电进行了分析。
2.电缆局部放电信号传播特性仿真
在对电缆进行局部放电检测之前,需要对影响其局部放电信号传播特性的参数进行分析。为了得到其原理,我们假设其长度很长,同时由于电缆局部放电信号含有丰富的信息[7],其波长与线路长度相比非常短,因此在研究局部放电信号传播规律时,需要利用电缆的分布参数模型来分析[8],图1所示为电缆的分布简化模型。
图1 电力电缆的分布参数模型
图1中,R0、L0、C0、G0分别为电缆单位长度的电阻、电感、对地电容和对地电导,上这些基本参数决定了电缆中的相应特性[9-11]。结合上图,可以得到一个新的二次参数特性阻抗Zc,Zc表示均匀传输线上任一点的电压和电流之间的关系。
(1)
可见,这个公式就决定了相应的参数之间的关系。由于阻抗是一个复数,电压和电流的绝对值之比决定了其相对值;电压和电流的相位差决定了其幅值的大小,这个参数就可以反映出相应的特性参数。Zc重新表述为:
(2)
那么,|Zc|和就是其中所含有的信息。Zc反映了电缆上一点的特性[12]。对于脉冲信号来说,可以用传输常数来描述。在传输常数中,包含两个常数:固有衰耗常数和固有相移常数。固有衰耗常数反映了处于匹配连接的线路上[13],能量损耗方面的传输规律,固有相移常数则反映了信号传播过程中相位的变化。因此线路的传输规律可用式(3)表示,其中l是电缆的长度。
(3)
根据上述的分析,我们得到了如下的结论:
(1)由电缆的一次参数所决定,越大,就说明了信号的衰减会越大。
(2)小于1,那么,局部放电信号将会呈指数规律衰减,并且其衰减程度取决于电缆的长度,线路越长,衰减情况越严重。
式(3)中的反映的则是信号传输的相移,它影响的是局部放电信号的相位,并且随着信号频率的升高,、均随之增大。经过上述分析,可以看出:电缆长度越长,局部放电信号在传播过程中的衰减越严重。局放信号的频率越高,则与之对应的、也越大,即信号的幅度衰减及相位移动也越严重。
3.聚类分析
聚类是根据放电的性质不同,将具有相同性质的特征量进行聚合的算法。由于其具有直观的特点在许多领域得到大量的使用。基于聚类分析的工具已经被加入到许多统计分析软件包或系统中,如S-Plus、SPSS,以及SAS。总体说来,包括如下几个方面的内容:
(1)分化方法。假设一个数据集含有n个对象或数据行,相应的分化就是将数据集划分为k个子集(划分)。其中每个子集均代表一个聚类(k[n])。
(2)层次方法。该方法就是通过分解所给定的数据对象集来创建一个层次。它存在的缺陷就是在进行(组)分解或合并之后无法回溯。将循环再定位与层次方法结合起来使用常常是有效的,如BIRCH和CURE,就是基于这种组合方法设计的。
(3)基于密度的方法。只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。DBSCAN是一个有代表性的基于密度的方法。它根据一个密度阈值来控制簇的增长。
(4)基于网格的方法。基于网格方法将对象空间划分为有限数目的单元以形成网格结构。其主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。STING就是一个典型的基于网格的方法。
(5)基于模型的方法。该方法就是为每个聚类假设一个模型,然后再去发现符合相应模型的数据对象。它根据标准统计方法并考虑到噪声或异常数据,可以自动确定聚类个数;因而它可以产生很鲁棒的聚类方法。数据挖掘在不同领域对聚类算法提出了各自特殊的要求。
定义:数据对象i与j的相异度为。其中,dijk2是第k个值距离的平方,对每个变量根据其重要性赋予一个权重,运用加权的欧几里得距它决定第k个值的重要性。根据局部放电的特点,可以得到相应的聚类效果。聚类分析也可以进行孤立点的分析。经常存在一些数据对象,它们不符合数据的一般模型,这些数据对象被称为孤立点。
结合实地的电缆局部放电特性,根据聚类方法,得到了如下的结果:
表1 最终的判断结果
故障类型 训练样本 测试样本 正确率(%)
1 50 100 81.13
82.31
83.61
84.15
2 50 100
3 50 100
4 50 100
图2 电缆局部放电聚类分析流程图
图3 聚类分析结果
4.结论
电缆是电力系统中重要的电气设施,文章根据电缆局部放电的相关特点,结合聚类分析法对其放电进行了分析,取得了一定的成果,对现场具有一定的指导意义。
参考文献
[1]谈克雄,吕乔青.交联聚乙烯电缆绝缘的在线诊断技术[J].高电压技术,1993,19(3):71-75.
[2]马丽婵,郑晓泉,谢安生.交联聚乙烯电缆中电树枝的研究现状[J].绝缘材料,2007,40(5):49-52.
[3]Yang J J,Brilasekaran S.Characteristic features of electrical treeing in XLPE and PE[C].The 7th International Power Engineering Conference,IPEC,2005:1-34.
[4]Yang J J,Zhang D M.Partial discharge phenomena due to electrical treeing in XLPE[C].1st IEEE Conference on Industrial Electronics and Applications,2006:1-6.
[5]李伟新.交联聚乙烯电缆在线监测系统在厦门的应用[J].福建电力电工,2001,21(2):49-51.
[6]韦斌.110kV高压XLPE电缆附件局部放电在线监测与故障特性的研究[D].北京:华北电力大学硕士学位论文,2004.
[7]刘兵.基于行波电力电缆故障单端在线测距研究[D].武汉:武汉大学硕士学位论文,2002.
[8]杨建国.小波分析及其工程应用[M].北京:机械工业出版社,2005.
[9]张国华,张文娟.小波分析与应用基础[M].西安:西北工业大学出版社,2006.
[10]刘贵忠,邸双亮.小波分析及其应用[M].西安:西安电子科技大学出版社,1992.
[11]黄子俊,陈允平.基于小波变换模极大值的输电线路单端故障定位[J].电力自动化设备,2005,25(2):101-102.
[12]华欣.电气设备绝缘在线监测刍议[J].四川电力技术,2001,2:49-52.
篇4
一、论文的研究内容
论文的研究内容包括两个方面:一是研究新的高效的聚类算法;一是把已有的聚类算法或论文提出的新算法和入侵检测技术相结合,从而提出一个好的入侵检测模型。具体的研究内容包括以下几个点:
第一、针对聚类算法的研究问题:
1、如何提高算法的可扩展性
许多聚类算法在小于200个数据对象的小数据集上是高效率的,但是无法处理一个大规模数据库里的海量对象。现有的聚类算法只有极少数适合处理大数据集,而且只能处理数值型数据对象,无法分析具有类属性的数据对象。
2、如何处理离群点
在实际应用中,估计数据集中的离群点可能是非常困难的,很多算法通常丢弃增长缓慢的簇,这样的簇趋向于代表离群点。然而在某些应用中,用户可能对相对较小的簇比较感兴趣,比如入侵检测中,这些小的簇可能代表异常行为,那么我们需要考虑在对算法影响更小的前提下,如何更好的处理这些离群点。
3、研究适合具有类属性数据的聚类算法的有效性
对聚类分析而言,有效性问题通常可以转换为最佳类别数K的决策。而目前有关聚类算法的有效性分析,大都集中在对数值数据的聚类方式分析上。对于具有类属性的数据聚类,还没有行之有效的分析方法。
第二、针对聚类算法在IDS应用中的研究问题:
1、如何结合聚类技术和入侵检测技术取得更好的效果
很多的聚类算法都已经和IDS应用环境结合起来了,很多研究者对前人提出的算法作出改进后,应用到IDS系统中去,或者提出一个全新的算法来适应IDS的要求。随着聚类技术的不断发展,聚类技术在入侵检测中的应用将是一个很有前景的工作。我们需要把更好的聚类技术成果应用到入侵检测中。
2、利用聚类技术处理入侵检测中的频繁误警
虽然入侵检测是重要的安全措施,然而它常常触发大量的误警,使得安全管理员不堪重负,事实上,大量的误警是重复发生并且频繁发生的,可以利用聚类技术来寻找导致IDS产生大量误警的本质原因。
二、学位论文研究依据
学位论文的选题依据和研究意义,以及国内外研究现状和发展趋势
聚类分析研究已经有很长的历史,其重要性及其与其他研究方向的交叉特性已经得到了研究者的充分肯定。对聚类算法的研究必将推动相关学科向前发展。另外,聚类技术已经活跃在广泛的应用领域。作为与信息安全专业的交叉学科,近年来,聚类算法在入侵检测方面也得到大量的应用。然而,聚类算法虽取得了长足的发展,但仍有一些未解决的问题。同时,聚类算法在某些应用领域还没有充分的发挥作用,聚类技术和入侵检测技术结合得还不够完善。在这种背景下,我们认为,论文的选题是非常有意义的。
本论文研究的内容主要包括两个方面:聚类算法的研究以及聚类算法在入侵检测中的应用。下面从两个方面阐述国内外这两个方面的发展现状和趋势:
前人已经提出很多聚类算法,然而没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,根据数据在聚类中的积聚规则以及应用这些规则的方法,可以将聚类算法分为以下几种:
1.划分聚类算法
划分聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,得到最终的聚类结果,划分聚类算法典型代表是k-means算法[1]和k-modoids算法。这些算法处理过程简单,运行效率好,但是存在对聚类数目的依赖性和退化性。迄今为止,许多聚类任务都选择这两个经典算法,针对k-means及k-modoids的固有弱点,也出现了的不少改进版本。
2.层次聚类算法
又称树聚类算法,它使用数据的联接规则,透过一种层次的架构方式,反复将数据进行分裂和聚合,以形成一个层次序列的聚类问题解。由于层次聚类算法的计算复杂性比较高,所以适合于小型数据集的聚类。20xx年,Gelbard等人有提出一种新的层次聚合算法,称为正二进制方法。该方法把待分类数据以正的二进制形式存储在二维矩阵中,他们认为,将原始数据转换成正二进制会改善聚类结果的正确率和聚类的鲁棒性,对于层次聚类算法尤其如此。Kumar等人[9]面向连续数据提出一种新的基于不可分辨粗聚合的层次聚类算法,既考虑了项的出现次序又考虑了集合内容,该算法能有效挖掘连续数据,并刻画类簇的主要特性。
3.基于密度-网格的聚类算法
与传统的聚类方法不同:基于密度的聚类算法,通过数据密度来发现任意形状的类簇;基于网格的聚类算法,使用一个网格结构,围绕模式组织由矩形块划分的值空间,基于块的分布信息实现模式聚类,基于网格的聚类算法常常与其他方法相结合,特别是与基于密度的聚类方法相结合。基于网格和密度的聚类方法在以空间信息处理为代表的众多领域有着广泛的应用。特别是伴随着近来处理大规模数据集、可伸缩的聚类方法的开发,它在空间数据挖掘研究子域日趋活跃。
开题报告研究方法大全
实证研究法
实证研究法是科学实践研究的一种特殊形式。其依据现有的科学理论和实践的需要,提出设计,利用科学仪器和设备,在自然条件下,通过有目的有步骤地操纵,根据观察、记录、测定与此相伴随的现象的变化来确定条件与现象之间的因果关系的活动。主要目的在于说明各种自变量与某一个因变量的关系。
定量分析法
在科学研究中,通过定量分析法可以使人们对研究对象的认识进一步精确化,以便更加科学地揭示规律,把握本质,理清关系,预测事物的发展趋势。
定性分析法
定性分析法就是对研究对象进行质的方面的分析。具体地说是运用归纳和演绎、分析与综合以及抽象与概括等方法,对获得的各种材料进行思维加工,从而能去粗取精、去伪存真、由此及彼、由表及里,达到认识事物本质、揭示内在规律。
篇5
关键词:县域竞争力 聚类分析 预测
聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。根据分类对象的不同,聚类分析可以分为样本聚类和变量聚类。样本聚类又称为Q型聚类,是根据反映被观测的对象各种特征的多变量进行聚类;变量聚类又称为R型聚类,根据所研究问题选择部分变量对问题某一方面进行分类。在县域经济竞争力的分析当中适当应用聚类分析,有助于各县级单位互相借鉴互相学习。
一、国内外研究综述
竞争力研究最早起源于西方国家,国外比较有影响力的经济竞争力评价体系有 IMD的国际竞争力评价体系、WEF竞争力评价体系和波特的区域竞争力模型,这些已取得的成果都可以为研究者借鉴。在文献梳理过程中发现,专门针对县域经济综合竞争力聚类分析与预测研究的文献较少[1-8],因此本研究综合国内外学者的研究成果,结合山东省经济现状,在构建的指标体系框架和分析预测理论基础上,对山东省2009、2010两年的县域经济综合竞争力进行排名,评价和预测分析。受数据所限,2006―2010年的数据长度中2006―2008年县域经济综合竞争力排名不包括科技竞争力,2009―2010年县域经济综合竞争力排名涵盖经济实力、社会发展、资源环境、科学技术和政府竞争力,因此主要对2009―2010年的县域经济综合竞争力进行分析,同样由于科技竞争力数据长度不足,预测部分将分别预测各类一级指标竞争力。
二、县域竞争力指标体系构建
综合国内外相关研究成果,使用层次分析法(AHP)从经济实力竞争力、社会发展竞争力、资源承载力和政府能动力四个角度出发,构建县域经济综合竞争力三级指标体系,其中经济实力竞争力从GDP、财政收入、对外依存度、产业结构等角度反映县域经济基本发展能力;社会发展竞争力从科教文卫,以及居民收入方面反映县域社会发展建设水平;资源承载力表示县域经济发展密度,包括人口密度和GDP密度两个三级指标;政府能动力指标反映县级政府充分运用县内外资源,主动且有效地调控经济运行的能力。具体指标体系略。
三、2010年县域竞争力聚类分析
应用SPSS15.0软件,对山东省92个县域5个一级指标得分与各自权重乘积作为聚类变量进行Q型聚类分析,进行了聚类分析,表1给出了2009年的总体聚类结果。使用最远距离法,选择欧氏距离作为分类,将山东省92个县市划分成6种类型,聚类分析的ANOVA数据显示,将山东省92个县域分为6大类在统计学上是科学的,是有意义的。第Ⅰ类包括文登市、龙口市、荣成市等11个县市,这类地区是省县域经济的领跑者,综合竞争力较强,一级指标均明显高于全省平均水平,其中经济实力、社会发展和科学技术竞争力在所有县域中具有明显优势,资源环境和政府分别略低于第Ⅲ类和第Ⅴ类县域。第Ⅱ类包括诸城市、胶南市、青州市、平度市等14个县市地区,综合竞争力较好,经济实力、社会发展、科学技术和政府竞争力均高于全国平均水平,但资源环境较弱,低于全省平均水平。第Ⅲ类包括即墨市、桓台县、广饶县等9个县市,这些地区资源环境竞争力高于其他5类地区,社会发展也处于领先水平,但经济实力、科学技术和政府都低于全省平均水平。第Ⅳ类型包括宁阳县,长清县,平阴县等24个县市,这些地区资源环境和科学技术高于全省平均水平,但与领先县域仍存在较大差距,经济实力等均处于较为落后的水平。第Ⅴ类型包括高密市,巨野县,曹县等9个县市,这些县市政府竞争力优于其他5种类型,资源环境竞争力也高于全省平均水平,但科学技术竞争力在所有类型中处于最低水平。第Ⅵ类有垦利县,齐河县,临朐县等26个县市,经济基础较差,指标均低于全国平均水平。
四、竞争力预测分析
由于各地区资源环境竞争力和科学技术竞争力数据时间跨度不足,无法进行预测,因此本部分将对经济实力竞争力、社会发展竞争力和政府竞争力进行分项预测。使用指数平滑方法中的Holt模型进行预测,对于该预测方法的实际预测效果使用2010年数据进行误差检验。这里使用2000―2009年的经济实力竞争力数据预测2010年经济实力竞争力数据,并进行排名,与2010年的实际结果进行对比(表2),以进行验证。由名次对比可知,排名前30名总体保持一致。其中有6个县的预测结果与实际结果完全一致;前30名内有21个指标预测排名与实际排名相差2个名次之内;前30名仅有1个县的排名预测排名与实际排名大于10个名次。对比各个单项指标也可以得到类似的结论。可以说从排名上来看,我们对于2010年的预测排名与实际排名的基本上是相符合的。
五、结论与展望
从本研究结果可以看出,各县域若想提高本地经济综合竞争力,需要在经济、社会发展、资源发展和政府能动方面齐头并进。在推动当地经济发展过程中, 将提高当地居民收入水平、 优化产业结构、 增加政府财政收入和加强对外开放作为提高地区综合竞争力的重要手段; 政府能动力代表地方政府调控当地宏观经济的能力,这要求各地区增加财政支出在占GDP的比重;而与社会公共服务能力指标相对应,政府在增加财政支出占比的同时,政府需要增加教育和卫生支出以强化当地社会发展竞争力。
参考文献:
[1]范寿波. “长三角”县域经济竞争力的研究[J].江南论坛,2005(1):16―18
[2]王贤海. 安徽县域经济竞争力评价[J]. 统计与决策,2006(10):68―73
[3]黄源湘,魏峰. 安徽县域经济综合竞争力研究[J]. 安徽农学通报,2008(1):47―50
[4]薄锡年. 河北省县域经济综合竞争力研究[D]. 河北农业大学博士学位论文,2007:2―4
[5]罗哲,李树基. 甘肃省县域经济竞争力的实证分析与对策研究[J]. 开发研究,2007(6):72―76
[6]周春蕾,骆建艳. 县域综合竞争力评价指标体系研究[J]. 消费导刊,2008(24):69―71
[7]刘定青. 关于建立县域科学发展指标体系的调查与思考[J]. 中国乡村建设,2009(04):81―87
[8]孔凡萍,于俊凤. 县域经济科学发展评价指标选择探析[J]. 科学与管理,2011(1):34―37
[9]丁华,杨晓丽. 山东省县域经济综合竞争力变动成因研究――以2006―2010年山东省部分县域为例[J]. 科技进步与对策,2012(增)
篇6
关键词:模糊聚类,追踪法,行业污染
1 引言
传统的聚类分析是一种硬划分,每个对象都只能归于一类,而现实的分类问题往往伴随着模糊性,即每个对象属于某一类是程度问题。这时候单纯的严密的理论推导和数学计算往往达不到很好的效果,相反,模糊逻辑在这方面具有极大的优势【1】,随着模糊数学的不断发展,聚类的算法也在不断的更新和发展.新产生的聚类算法更加适用于生产生活,并且和计算机技术的结合也更加紧密,追踪法就是这样的一种算法。和传统的聚类方法相比较,追踪法在建立模糊矩阵后,不需要计算等价闭包,也不需要画图或者编程求解模糊矩阵的最大生成树和编网,只需要对模糊矩阵进行算法复杂度为O(n2)的数据分析,就可以得出聚类结果。
2 模糊聚类新算法---追踪法的计算步骤
用追踪法进行模糊聚类分析主要可以分为:数据标准化、标定(建立模糊矩阵)、模糊聚类三个部分。
2.1 数据标准化
这里所说的数据标准化,就是根据模糊数学相关理论,去掉数据中的量纲,并将数据压缩到区间[0,1]上。
设论域为被分类的对象,每个对象可以使用m个指标表示其性状:于是得到原始数据为:
在实际问题中,不同的数据由于其量纲不同,无法进行比较。为了使有不同量纲的量也能进行比较,通常需要对数据作适当的变换。一般采用平移标准差变化法来解决这个问题,计算公式如下:
=
经过变换后,变量的均值为0,标准差为1,且消除了量纲的影响。
2.2 标定(建立模糊矩阵)
设论域依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度,确定的方法主要借用传统聚类的数量积法、夹角余旋法、相关系数法、指数相似系数法、绝对值倒数法、绝对值指数法、闵可夫斯基距离法、马氏距离法和兰氏距离法等方法。具体采用哪些方法进行聚类分析,主要依据实际情况决定。
2.3 使用追踪法进行模糊聚类
在建立了模糊相似矩阵后,就可以用追踪法进行数据分析。主要步骤如下:
1 模糊相似矩阵R出发,求得其截矩阵;
2 于对称性,先得到截矩阵下三角部分(不包括主对角线元素),再记录该部分的非零元素下标,并存在二元数组A[t][2]中;
3 令g=1,且将g存入数组b[n]中;
4 行搜索数组A[t][2],若数组a中有元素A[i][j](1≤i≤n,1≤j≤2)与g相等,且同一行的另一元素(A[i][j±1])在数组b中不存在,则将A[i][j±1]存入数组b[n]中;
5 令g遍取数组b中元素,重复步骤4,直到没有新的元素加入数组b;
6 将数组b中元素按行存入二元数组C[n][n]中;
7 令g取1~n中任一个数组C[n][n]中不存在的元素,重复步骤4~6;直到数组C[n][n]中的元素总数等于待分类对象的个数n为止【2】。
3 追踪法在行业排污情况中的应用
下面,以从国家统计局网站找到2005年工业按行业分废气排放及处理情况的统计数据为例,说明模糊聚类新算法在行业排污聚类中的应用,数据如表1所示:
表1 行业排污数据统计表
篇7
[关键词]电子档案袋;CiteSpace;图谱分析;研究热点;发展趋势
[中图分类号] G434 [文献标识码] A [文章编号] 2095-3437(2016)06-0054-04
国际上以研究档案袋、电子档案袋著称的美国阿拉斯加大学Helen C.Barrett博士对电子档案袋的定义是:“学习者运用电子技术,档案开发者以各种格式(音频、视频、图片和文本等)来收集和组织学习内容和素材的方式,基于标准的电子学档运用数据库和超文本技术清晰地展现标准和目标、作品和反思之间的关系。[1]”很长一段时间以来,电子档案袋一直作为展示学生在某一学科或领域完成的作业或作品的平台,然后由教师、同学给出评价和反馈意见,从而记录整个学习过程中的进步和成就。随着“互联网+”时代的到来,新技术和新理念在教育领域中得到了广泛应用,当前的电子档案袋也被赋予了更丰富的含义,有了更为广阔的应用情景和模式。本文利用CiteSpaceIII软件对中国知网(CNKI)2005-2014年间有关电子档案袋的期刊论文进行知识图谱可视化分析,以期揭示十年间关于电子档案袋的研究热点及发展趋势。
一、基本原理与数据来源
本研究所用的分析工具是美国德雷塞尔大学陈超美博士开发的CiteSpaceIII(版本3.9.R6)。[2]利用这个软件,通过数据建模,按照一定运算程式生成若干文献共被引网络,包括聚类视图,也就是由“力引导布局”的节点连接网络,这样能够直观的体现有关要素的权重、中心度以及彼此的关联度,并通过共词聚类分析与共被引分析进行图谱解读。[3]共词聚类分析属于内容分析法的领域,把共词出现的频率看作要分析的内容,理清分析内容间复杂的关系,并把它们简化,去掉无效关系,最后做出最简化的直接表达。关键词往往是文章的眼睛,当两篇文章存在两个以上同样的关键词时,我们就可以认为这两篇文章在各自的研究领域、研究内容、研究方法等方面存在着相当高的相关度。通过CiteSpaceIII中的共词聚类分析,我们就可以探测某一学科范围内的研究热点或研究趋势等。
本研究是以“电子档案袋”或含“E-portflio”或含“Electronic Portflio”为主题关键词,在中国知网期刊数据库(CNKI)检索2005-2014年间的论文,除去无效数据共计216篇,将这些论文作为本研究的有效样本,以Refworks格式导出,生成.txt格式的文本文件,利用CiteSpace软件主菜单下Data-Inport/Export设置数据来源格式CNKI,将数据全部转换成CiteSpace软件可以识别的文本格式,最后导入软件进行分析,得到最终图谱。
二、阈值设置与图谱获取
设定时间分区为1年,形成10个彼此独立的时间分区,选择每个时间段分析引用频次排名前50位的关键词作为共词分析对象,运行软件获得346个节点关键词和771条链接线。通过Layout优化功能,进行聚类分析,就生成了如图1所示的关键词共词聚类图谱。图1中,每个圆形节点代表一个关键词,节点的巨细分别与关键词、被引频次以及聚类的范围成正比。
在软件聚类视图界面右侧的控制板cintrol panel中,选择“layout”下的“timeline”选项,会得到如图2所示的时间线视图。图2中连线对应聚类跨越的时间区域线越宽,聚类内部的紧密度就越高。
三、聚类分析与研究热点
根据共词聚类图谱分析,当前国内电子档案袋的研究内容主要集中在以下几个方面:一是电子档案袋的评价方式,包括聚类#1、#4、#7、#15等;二是电子档案袋的设计与实现,包括聚类#3、#10、#11、#12等;三是电子档案袋的应用效果,包括聚类#2、#5、#8等。
同时,在软件聚类视图界面,点击“Export”下的“Network summary table”选项,可以导出一张数据表,表中内容包括被引频次、中心度等相关数据统计表。中心度凸显了关键词节点在不同聚类之间或者界面上的地位和枢纽作用。根据整理统计,聚类中被引频次5次(含)以上的关键词共有19个,10次(含)以上的关键词共有10个,被引频次和中心度分别为前15位的关键词见表1。这些关键词大都包含在几个大聚类中,所以它们也都不同程度地体现了有关电子档案袋的研究热点,具体分析如下。
(一)电子档案袋的评价方式
“评价”作为国内电子档案袋应用的最终目的与形式,其在评价教师及学生知识、能力的成长等方面发挥了巨大的作用,这从上述几大聚类及被引词频高的关键词中可以明显地看出。利用电子档案袋以不同的形式真实完整的记录一段时期内教师的全部教学成果或学生的学习成果。根据记录,可以了解教师或学生的成长变化过程。教师和学生可以针对自己或对方在这段时期内的变现做出客观评价或提出意见。教师和学生可以针对这些意见和评价不断完善自己,使得自评和互评成为不断提升自我和改进自我的原动力,从而形成一个良性的循环过程。
3.加强反思学习(#8)
利用电子档案袋详细记录个人学习情况的变化,让学习者随时关注自己或同伴的学习状态,并进行阶段总结,这样有助于加强学习者的反思学习。在义务教育阶段,我国多数的中小学生都只能被动的接受知识与技能。面对升学压力,追求成绩的提高是这一阶段学习的最主要的目的。学习者可以根据教师给出的客观评价,找出自己的不足并反思造成这种结果的原因,从而针对不足进行改进,不断提高。所以,它可以在潜移默化当中培养学习者反思学习的习惯。
四、总结
综合以上对中国知网(CNKI)数据库2005-2014年有关电子档案袋研究的期刊文献的聚类图谱分析,可以清晰得出当前国内的研究热点和趋势主要集中于以下3个方面。
1.电子档案袋评价作为最主要的应用方式仍是研究的核心。评价量规亦随理论依据及学科特征不断完善,评价内容和方法日趋多元化,且适用于教学过程。
2.关于电子档案袋的设计与实现。随着关注力度的提高,国内电子档案袋将在解决技术难题的基础上,整合现代教育技术,明确用户需求,未来也可能借助近来大热的“互联网+大数据”服务于“互联网+教育”,设计更加规范、灵活,搭建操作简单、维护容易,真正适用于教学的电子档案袋平台。
3.对于电子档案袋的应用效果。虽然在发展初期并不理想,有很多都流于形式,没有起到真正的促进作用。但经过近几年的发展,电子档案袋的应用已经取得了显著成效,不仅可以帮助教师及时掌握学生的学习状况,同时也能促进学习者自主学习并且让其养成制订计划、反思学习等学习习惯。
可以说,CiteSpaceIII软件为期刊研究提供了有力的分析手段。我们可以在某一相关领域中遴选若干中文核心期刊,在研究热点方面进行比较研究,以期揭示某一领域内的研究方向,这有助于我们了解区域动态,及时掌握第一手信息,提升学术水平。
[ 参 考 文 献 ]
[1] 陈玖豪.基于IMS-EP规范的通用型电子档案袋系统的设计与开发研究[D].重庆:西南大学,2007.
[2] Chen, C. (2014) The Cite Space Manual[EB / OL]. http://cluster.ischool.drexel.edu/~cchen/citespace/Cite Space Ma?鄄
nual.pdf.
[3] 曲涛.江苏高教2003-2012研究热点及其知识基础可视化分析[J].河北工程大学学报(社会科学版),2014(4):99-103.
[4] 李爽,魏志慧.技术促进下的课程设计与学习评价――访国际远程教育知名学者罗宾・梅森教授[J].开放教育研究,2007(4):4-8.
[5] 曲涛.《清华大学教育研究》2000-2012研究旨趣探析[J].沈阳师范大学学报(社会科学版),2014(5):129-132.
[6] 曲涛.国际MOOC文献可视化分析――基于webofscience2008-2013年索引文献图谱[J].重庆高教研究,2014(5):1-9.
[7] 杨思洛,韩瑞珍.国外知识图谱绘制的方法与工具分析[J].图书情报知识,2012(6):101-109.
篇8
[关键词] 搜索引擎;文本聚类;发展局限;展望
[中图分类号] F27.4 [文献标识码] B
一、前言
2013年7月的CNNIC第32次互联网报告显示,截止2013年6月止,我国网民规模达5.91亿,半年共计新增网民2656万人。互联网普及率为44.1%,较2012年底提升了2.0个百分点。从2009年到2013年,互联网普及率逐年上升,从28.9%上升到44.1%。计算机的普及,使人们越来越依赖于询问互联网。面对浩瀚的信息海洋,如何获得用户真正有用的信息,成为了一个炙手可热的话题。从最早的门户网站方式到现在的谷歌、百度全文本搜索,对待信息的获取方式已经有了很大的改变。然而,随着互联网越来越普及,网络中存储的信息,出现很多冗杂信息,仅仅依靠传统的搜索方式,并不能满足用户的需要。从2000年开始,以Vivisimo为代表,越来越多的学者开始注意到,聚类能更准确的定位搜索结果。
二、聚类
聚类是指将抽象或物理对象组成集合,将集合中类似对象组成多个类的过程。由聚类所生成的簇可以看做是一组数据对象的集合,这些对象与同一个簇中的其他对象彼此相似,而与其他簇中的对象不同。聚类分析又被叫做群分析,是针对分类问题的一种统计分析方法。由一个度量的向量或多维空间中的一个点构成模式,再由多个模式构成聚类分析。聚类分析可以追溯于分类学,不过聚类并不是单纯的分类。聚类与分类最大的的不同之处是,划分为聚类的类是未知的。
聚类作为一种有效的分类方法,可以从庞大的消费者数据库区分属性、目标不同的消费群体,再概括出这些消费群体的消费模式也就是普通意义上的习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,在数据挖掘算法时,聚类算法可以作为对数据进行预处理,再用其他分析算法处理。聚类分析的算法可以分为层次法(Hierarchical Methods)、基于网格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、划分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。
三、搜索引擎聚类国内外发展进程
国外对于搜索引擎聚类方面的研究最早发生在1996年,HearstMA,PedersenJO学者研究开发的Scatter/Gather系统是世界上第一个将聚类引入搜索引擎的系统。2000年开发的Vivisimo元搜索引擎系统,采用自主开发的启发式算法来集合并聚类原文文献。这种算法吸收了传统人工智能思想,对检索结果进行更好描述和聚类。它的文献聚类技术首先将文本内容自动分类,划分为等级式排列的目录之后进行聚类。作为一种完全自动化的聚类技术,不需要人为干扰收集数据,也不需要进行数据维护。SnakeT在前者研究的基础上,开发了能完整将搜索引擎聚类化的系统,并且可以向用户展示带有明确标签的层次型结构。Grouper是利用后缀树聚类(STC,Suffix Tree Clustering)算法专门针对文档摘要进行聚类的搜索引擎系统。SHoc是首个面向文本信息进行聚类功的搜索引擎。Sergio系统应用改进过的k均值算法对两个搜索引擎结果进行聚类处理。在新闻处理方面,Nesrec系统提取Altzvista新闻的新闻摘要,短时间内进行层次聚类,并使之成为拥有良好可读性的类标签。而Newsblaster系统针对每天的新闻进行聚类处理,文本生成等处理之后,产生摘要文档。WhatsonWeb是应用拓谷驱动和图像聚类算法来构建搜索引擎聚类系统,具有良好的可视化效果,同时支持处理无效标签。
国内的研究要相对较晚,最早开始于20005年,但是随着科技发展,取得了很不错的优秀成果。2005年的PinkySearch利用后缀树算法和相同词聚类对多个搜索引擎的结果进行聚类处理,最后获得搜索结果。在2007年成立的国内首家搜索引擎聚类公司比比猫(Bbmao),采用先进的聚类和去重技术,不仅带给用户快捷、智能的体验经历,还引领创新了聚类技术。国内高水准的数据挖掘研究所论坛上,提出了web挖掘算法、分类聚类,应用方案等聚类应用技术。
四、搜索引擎聚类分析
搜索引擎形式从最早的目录式搜索到基于Robot搜索引擎,再到现在的聚类搜索引擎,其对象不仅仅是对资源进行搜索,也开始关注用户体验,如何使用户能更为便捷的找到自己所需内容。搜索引擎聚类发展已有十余年,通过对国内外相对比较成熟的聚类搜索引擎作为研究对象,从划分类型、基本功能、聚类算法角度分析。
1.划分类型分析
根据分类标准不同,搜索引擎聚类划分的种类也不同。根据提供的服务划分成社区型(比如贝壳网)和搜索型(如第易搜)。按照信息的来源即是否拥有独立的数据库,聚类搜索引擎能划分为寄生型(Vivisimo)和原生型(如CNKI搜索)。按照搜索引擎来源的数目,聚类搜索引擎可以划分为单一型来源搜索引擎(如TouchGraph)和多来源搜索引擎,即元搜索引擎(如Bbmao)。
2.基本功能分析
在对国内外具有代表性的搜索引擎聚类分析后,发现其搜索对象不仅仅为网页,更延伸到网页、新闻、目录、摘要、博客,可应用于商业、政府工作、新闻搜集等多种多样。另外,在提供个性化搜索的同时,用户还可根据自己的喜好,在游戏、旅游、博客等大类下选择的信息源,在右侧会自动呈现图片、新闻、购物等搜索结果。
3.聚类算法角度分析
目前的网页聚类算法根据其针对的方向分为3种,即基于链接分析、基于网页内容、基于用户搜索日志的聚类算法。
基于链接分析的聚类和传统的搜索引擎搜索有一定相似之处,对任一网页,必有本网页指向其他网页的链接和其他网页指向本网页的链接。若这些其他网页都包含有同一个网页的链接,则被认为同音关系,具有相似性,进而依次聚类。基于网页内容的聚类即是对网页的内容直接聚类,传统的聚类算法是对网页内容去标点、化复数形式为单数、去掉前后缀。然而这些方法是针对单个文字的聚类,并没有考虑词间含义,也不能真实的反映网页内容。于是出现了STC算法即后缀树算法,通过将网页进行处理,得到词组,再依赖于后缀树,辨别拥有相同词义的词组,将他们作为基本类,合并形成高层次的类,进行高效的聚类。随着搜索引擎的发展,研发者开始考虑到对用户行为分析,构建用户模型,出现了基于用户搜索日志的聚类算法。通过用户对搜索结果网页进行聚类。
上述三种聚类算法各有优缺点,基于用户搜索日志的算法注重用户体验,基于网络内容的算法注重搜索对象,而基于链接分析的聚类注重相似网页之间的链接。在以后聚类搜索引擎发展中,这三种方法将会结合使用。
五、发展局限及展望
国外的搜索引擎聚类最早开始于1996年,而国内的发展相对较晚。然而由于还处于发展的初始阶段,还存在一定的局限性。中国第一家元搜索聚类引擎公司是2007年的比比猫(Bbmao)公司,可以直接搜寻文档,搜索结果汇集各大搜索引擎结果,具有强大网络收藏夹等多元功能。然而由于局限性,只存在了较短的时间。必须综合考虑搜索引擎聚类的问题,才可能使之长远发展。
1.数据库依附性过强
目前的搜索引擎的聚类技术多是将已有的搜索引擎检索出的结果进行聚类分析,得到更准确的结果,呈现给用户。其存在形式多为衍生性搜索引擎,这就意味着需链接已有搜索引擎的数据库,然而搜索引擎本就是依靠搜索结果获得收入。对于第三方间接使用其搜索结果,原搜索引擎必然会采取限制,这也就造成数据的无法获得。国内成立的比比猫公司就是由于依附性太强,最后导致无法继续生存下去。建立自己独立的数据库不失为一个好的解决办法,然而由于独立数据库所需强大的技术支持,还可以与专业搜索引擎公司合作。
2.搜索速度缓慢
由于当前搜索引擎的聚类技术对搜索结果进行聚类,实质上也就是进行二次加工、聚类、排序,最后呈现搜索结果。势必影响其搜索速度。值得探讨的是直接建立转有数据库,是可以解决的方法之一;此外随着技术发展,越来越多的Tag标签应用到网页中,这也对准确了解网页内容、属性产生裨益,从而加速搜索引擎聚类的速度。
3.用户的个性化服务还需提升
搜索引擎的最终结果是为了使用户使用,即服务于用户。目前搜索引聚类还不够成熟,如何使搜索结果更加满足用户的个性化需要还有很大的研究空间。记录用户的搜索历史,在聚类时,返回符合用户个性的聚类。将聚类和用户行为结合起来,完美的实现聚类结果的个性化服务,满足用户需要。
总之,虽然针对搜索引擎的聚类分析还存在一定问题,可是基于聚类能更加精确、准确的提供搜索结果,能更好的反映用户需求,随着科技的发展,问题终将得到解决,搜索引擎聚类也势必是搜索引擎的大势所趋。
[参 考 文 献]
[1]第32次中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心,2013
[2]Liu W, Xue G R, Huang Set al. Interactive Chinese Search Results Clustering for Personalization. Lecture Notes in Computer Science. 2005, 3739:676-681
篇9
[关键词] 知识图谱;共词分析法;焊接学;材料学
[中图分类号] G434 [文献标识码] A 文章编号:1671-0037(2015)08-80-6
Analysis of the Hot Spot and Research Trend of the Material Engineering Discipline based on the Common Word Knowledge Map
Zhang Xuezhao1,2
(1.Library of Henan University of Science and Technology, Luoyang Henan 471023; 2. Libraryof Zhoukou science and technology Career Academy, Zhoukou Henan 466000)
Abstract:In this paper, the latest scientific metrology technology―knowledge map is applied to the material engineeringdiscipline in our country. Through taking the two disciplines (Materials Science and Welding) as the research objects, a total common word knowledge mapsof thetwo disciplines were constructed, tohighlight the research hotspot, research trends and development of thetwo disciplines.
Keywords:knowledge map; commonword analysis; welding; Materials Science
1 研究内容
将材料学和焊接学两门学科作为研究对象,以CSCD国内权威数据库的作为数据源,采用计量学中的共词分析方法,对1989~2013年材料学、焊接学等学科文献的关键词进行统计,并利用聚类分析、因子分析、多维尺度分析以及社会网络分析等方法和相关软件,构建这两门学科的关键词词频分布表、类团关系图等,通过对所构建的两个学科的共词知识图谱进行详细比较对比,分析两门学科的当前研究热点、研究趋势及前景。
2 研究方法及过程
2.1 数据来源
本文采用的数据来源于《中文社会科学引文索引》检索系统。本文选取CSSCI1989~2013年收录的期刊----钢铁研究学报和复合材料学报、电焊机和焊接技术做样本,套录该期刊文献的所有题录信息。具体方法:打开CSSCI检索界面,收录年限选定为1989~2013,在[来源文献]检索界面的[期刊名称]中分别输入“钢铁研究学报、复合材料学报和电焊机、焊接技术”期刊刊名,[匹配]限定为“精确”,同时[每屏显示]设定为50条,套录这些期刊在这一时期内文献的题录信息,然后将得到的数据分别整理后,分别得出在这一时期内材料学和焊接学题录数据库。然后通过利用C#自编的计算机程序,按照频次由高到低排列,得到一个材料学和焊接学的关键词排名,频次总数分别是16 057个和21 622个。
2.2 数据处理说明
从两个学科关键词排序中分别截取一定频次的关键词,其中材料学关键词截取词频大于22次、焊接学关键词截取词频大于50次,由此,得出了两个学科的99个和102个高频关键词。再将这些类似性质的关键词进行归整,从而分别确定了两个学科的80个和63个高频关键词表,将这两个关键词表(见表1-1、表1-2)作为共词分析我国材料工程学科的基础。
2.3 构造关键词共词矩阵
2.3.1 构造原始共词矩阵
由于以上两个学科选定的关键词是材料工程学科论文中出现频率最高的词,它们代表了当前我国材料工程学科的研究热点。为了能进一步更好地反映这些关键词之间的关系,本论文对这些高频关键词作如下处理:在已建立的题录数据库中,利用自编的计算机程序分别对两个学科确定的80个和63个高频关键词两两进行共词检索,经过统计分析,得到了一个80×80的共词矩阵(部分数据见表1-3)和一个63×63的共词矩阵(部分数据见表1-4)。
以上两个表格中的共词矩阵是一个相关、对称矩阵,对角线上的数据为该词出现的频次,主对角线单元格的数据为两个关键词共同出现的频次。
2.3.2 构造相关矩阵
本文在对两个学科的原始矩阵进行包容处理时采取Salton指数法,处理数据部分结果见表1-5和表1-6,Salton指数法的计算公式为[3]:S=Nij/(Ni×Nj)1/2(3-1)。其中,Ni,Nj分别表示关键词i和j的频次,Nij表示关键词i和j共现的频次。
以上两个表格相关矩阵中的数字为相似数据,数字的大小表明了相应两个关键词之间的距离远近,数值越大则表明关键词之间的距离越近,相似度越好;反之,数值越小则表明关键词之间的距离越远,相似度越差。
2.3.3 构造相异矩阵
由于相关矩阵中的‘0’值过多,统计时容易造成误差过大,为了方便进一步处理,两个学科相异矩阵的部分数据详见表1-7和表1-8。
以上两个表格相异矩阵中的数据,正好与相关矩阵相反,数值越大则表明关键词之间的距越远,相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越好。
2.4 聚类方法与聚类图
具体方法:在SPSS17.0软件界面中输入要分析的相异矩阵,然后选择[分析]――[分类]――[系统聚类]进行聚类分析。聚类方法选择组间距离法;度量标准--区间选择共词聚类分析中最常用的欧氏距离(Euclideandistance)。
3.5 构建类团关系图
类团关系图主要用连线的粗细来明确类团间的关系强弱,类团间的关系强弱以连线的粗细来表示,两个类团之间的连接线就越粗,说明他们之间的关系的关系越强,反之则亦然[4]。具体方法是首先计算出各个类团的内部联系强度与其外部联系强度,然后利用先进的社会网络分析软件pajek绘制出两个学科的类团关系图。通过对两学科类团的形成、演化、新增及消失的过程研究,动态地揭示我国材料工程学科的研究的现状、热点及发展。
3 研究结果与分析
3.1总体状况描述
材料学科(以钢铁研究学报和复合材料学报为代表)从1983年到2013年共有9 302篇论文,每种期刊年均155.03篇,平均每篇论文的关键词数为1.73个。经过规整、缩减后,这一阶段频次不小于22次的高频词共80个,其中,复合材料、力学性能、显微组织、有限元分析、层合板、数值模拟等出现200次以上,说明网络环境下以复合材料为核心的材料性能分析是这一阶段的研究热点,具体分析内容主要体现在材料的力学性能分析、有限元分析、数值模拟分析等方面。
焊接学科(以电焊机和焊接技术为代表)从1984年到2013年共有11 778篇论文,每种期刊年均196.3篇,平均每篇论文的关键词为1.84个。这一学科(焊接学科)论文总数与材料学科相比基本持平,但是篇均关键词数却略有上升。经过规整、缩减后,这一阶段频次不小于50次的高频词共63个,与材料学科相比,焊接工艺以2 368次居于首位,焊机、焊缝、焊接电源、焊接控制、焊接质量、焊接电流、电焊、埋弧焊、焊条等是出现200次上的高频词,可见,在该学科目前的主要研究热点是焊接设备、焊接工艺、焊接工业参数等方面。这些方面的研究直接决定或影响到焊接质量和焊接效果,这也与生产实际紧密结合,充分体现了这一学科的实践性。
3.2 研究主题的异同
从材料学科形成的聚类图可以看出,我国材料学科的主要热点研究领域、研究主题、研究热点可以总结为以下几个方面:
3.1.1 材料工艺、参数研究
这方面的研究是我国材料学科研究领域研究成果最丰硕的部分之一。该类团群主要包括“材料热处理类团”“材料工艺性能研究类团”两个类团。在该阶段,从关键词聚类分析结果来看,随着有计算机技术、数据/值模拟仿真技术及材料热处理技术的发展。材料学科研究动态主要表现在以下两个方面:第一,材料分析、材料加工更加精准化。第二,材料热处理参数、方法始终是材料学科发展的重点。
3.1.2 工程材料研究
工程材料研究始终是材料学科研究的主要方向。工程材料类团群主要包括金属材料类团、非金属材料类团、复合材料类团。金属材料类团一直是材料学科发展的主流,各种有色金属它们是现代各种机器零部件的生力军,它们为材料学科的发展奠定了基础。复合材料类团的研究是材料学科发展的延续和补充。在现当代化生产中,随着对材料性能需求的日益提高,单纯的金属材料性能已经不能满足各类机器零部件的使用要求,为此复合材料的研究被材料学家们纳入了研究领域,并且自从复合材料进入研究领域开始,到现在,乃至未来,复合材料的研究都将经久不衰,这一点从关键词词频分布都可以看出:复合材料出现的频次排列第一、层合板、金属基复合材料、高温合金、陶瓷基复合材料、复合材料结构等关键词的都属于这一类团,并且频次分布也很靠前。
3.1.3 材料性能缺陷研究
材料性能缺陷研究也是我国材料学科乃至全世界材料学科研究的主题。这一研究类团群主要包括材料加工方法类团和材料缺陷类团。材料缺陷类团包含的关键词主要有:疲劳、裂纹、磨损、断裂、夹杂物等,这些关键词频次的分布在本研究统计中占有相当的比重,由此可以看出怎样预防材料的各种缺陷,提高材料的加工及使用性能,至关重要。紧接着引出了材料学家们所关注的材料的加工类团(转炉、电弧炉、热轧、冷轧、轧制等)。虽然这一类团群的关注度不如工程材料研究,也不如材料工艺参数的研究。但是无论从各种工程材料来说,还是从各种材料的工艺参数研究来说其目的都是怎样去避免材料的各种缺陷,从而提高和改善材料的加工性能、使用性能,达到人们生产加工的目的。
从焊接学科的聚类图可以看出,我国焊接学科的主要热点研究领域、研究主题、研究热点可以总结为以下几个研究方向:
3.1.3.1 焊接工艺参数研究。同材料学科一样,焊接学科的焊接接工艺参数研究是本学科的研究主题和重点。在这一类团群中焊接工艺这一关键词在频次表中出现的次数达到了2 368次,可见在焊接学科中,工艺参数研究所站的比重和地位。焊接工艺规范、焊接工艺参数、焊接手法等方面是这一类团研究的主题,而这一研究主题随着焊接设备和焊接方法的不同焊接工艺亦有不同。
3.1.3.2 焊接类型方法研究。这一类团是一个大面类团,焊接类型和方法直接决定或影响焊接工艺、决定了焊接设备、焊接工具的选择。这一类团的关键词主要有:手工电弧焊、堆焊、焊接方法、激光焊接、搅拌摩擦焊、点焊、埋弧焊、钎焊、氩弧焊、气体保护焊等。随着焊接技术的发展及焊接质量要求的提高,该类团正朝着自动焊接、机器人焊接等自动化方向发展。
3.1.3.3 焊接工程、工具、材料研究。焊接工程、工具、材料这一类团群涉及焊接材料、焊接环境、焊接设备工具,从而间接地决定焊接方法的选择、焊接工艺流程。这一研究类团,从各种焊接对象材料(管道、铝合金、不锈钢、奥氏体不锈钢等)说起,涉及了焊接结构、焊接工程、工程建设及焊接应用。分析了焊条、药芯焊丝的使用环境、使用方法等。这一主题类团的研究,是该学科研究的基础,研究主题关键词虽然词频分布没有排在前列,但关键词词频分布的范围广。未来该主题的研究将朝着细化焊接工具方向,具体可能以焊接工具研究所形式出现。
3.1.3.4 焊接质量控制研究。这一类团的研究主题是焊接学科研究的目的所在。不管焊接工艺如何合理、焊接方法如何选择、焊机及焊接工具的选择的多么具有针对性,其最终目的是获得优质的焊接质量。在这一研究主题中,分析了各种焊接缺陷(裂纹、缺陷、变形等)各作者、学者提出了如何规避焊接缺陷的各种方法、技巧。目前这一研究主题随着焊接材料的多样化,生产要求的提高而日益严峻,机器人技术、自动焊技术的发展对焊接质量的提高起着决定性的作用,但其普及应用任重而道远。
4 类团关系分析
确定了材料学科、焊接学科类团后,就可以研究各学科类团间的相互关系,找出哪些类团是核心类团,它与其他类团之间联系密切;哪些类团是非核心类团,它与其他类团之间联系疏松;哪些类团与其他任何类团都没有任何关系,属于相对独立类团。为此,笔者根据各类团之间的内、外相互关系,利用pajek软件绘制出了既能反映自身类团的内部联系强度又能反映这个类团与其他类团的外部联系强度的类团关系图(如图1-1、图1-2所示)。在图中,类团的内部联系强弱用节点的大小来表示,节点越大,表明该类团的内部联系强度越小,反之,则相反;节点连线的颜色深浅和连线的粗细程度和表示两节点间的外部联系强度,两节点间连线颜色越深、连线越粗,则表示两类团之间的外部联系强度越大,反之,则相反。
图1-2 焊接学类团关系图
5 结语
本部分研究采用共词分析方法,利用聚类分析、先进的社会网络分析方法和软件Pajek,分别绘制出材料学科和焊接学科两学科的聚类图、类团关系图,对两个学科:材料学科和焊接学科研究主题进行了较为详细的对比分析。通过分析对比得出两个学科的发展变化特点:
5.1 材料学科和焊接学科都属于工学学科,其发展研究主题存在共性
从两个学科的研究主题来看,我国材料学科研究领域、研究热点体现在复合材料、材料工艺参数研究、材料性能缺陷研究上,而焊接学科体现在焊接工程、工具材料、焊接工艺参数研究、焊接质量(缺陷)控制上。两个学科之间研究主题框架基本一致,其目的都是为了满足生产实践,都是为了规避缺陷(材料缺陷、焊接缺陷),提升加工质量。
5.2 热点研究领域显现新特征
两大学科的热点研究领域各有新特征:材料学科的陶瓷基复合材料、铝基复合材料、有限元分析、数值模拟等;焊接学科的自动焊技术、机器人技术等。
5.3 两个学科研究范围和内容具有一定的连续性、阶段性、变化性
两个学科不论是材料学科还是焊接学科都是从工程材料研究到工艺参数研究,最后再到性能缺陷研究,整个研究过程呈现出连续性、稳定性、阶段性、变化性的特点。每个阶段在各自基础上由细化整体上呈现发展性。
参考文献:
[1] 秦长江.基于共词知识图谱的人文学科研究热点可视化的实证研究[J].图书馆理论与实践,2010(12).
篇10
关键词:信息融合技术;预警系统;企业运行
中图分类号:TP277文献标识码:A文章编号:1007-9599 (2011) 24-0000-02
Application Research of Information Fusion Technology in Enterprise
Movement Early Warning System
Zhao Xin
(Wuhan University,School of Information Management,Wuhan430072,China)
Abstract:In order to make the enterprise develop better and faster,It’s important that making a prediction on the enterprise’s development condition by using information fusion technology,which can make early warning about the recessive existing problems in time.In the paper,clustering fusion algorithm and its improved algorithm were analyzed,and were applied in the early warning system of enterprise’s operation,we got enterprise’s development model.At last,the model was proved by an enterprise’s operation datum,the two fusion algorithms were applied and compared.
Keywords:Information fusion technology;Early warning system;Enterprise developing
一、引言
企业发展的过程中,生产产品的数量、产品的销量以及人员的数量等信息的波动对企业的发展影响是非常大的,如果波动幅度过大,会对企业带来巨大的损失。为保证企业能够持续、良好运行发展,本文提出了企业运行预警系统。为企业未来的发展走向做出预报或警示。
近年来,信息融合技术已经成为国内外的研究热点[1]。聚类分析是数据挖掘的一个重要研究领域,它是一种无监督的学习方法,通过一定规则将数据按照定义的相似性划分为若干个类,这些类由许多性质相似的数据点构成的,同一个类中的数据彼此相似,与其它类中的数据相异。聚类融合算法是聚类分析中一个新兴且重要的研究方向,于2002年由A.Strehl和J.Ghosh正式提出,但在2001年A.LFred就已经进行了类似的研究。聚类稳定性、准确性和有效性是聚类分析领域中被广泛研究的问题[2]。
本文详细介绍了一种基于划分的聚类融合方法,以某企业2001-2009年中的数据作为信息源,利用聚类融合算法对该企业近期数据进行分析、融合得出企业未来时段的生产、销售及运行情况,计算出该企业的运行发展模式。并且给出了一种改进的聚类融合算法,以解决该聚类算法仅在划分某些特定数据集时效果较好的不足和难以确定聚类数的问题。最后分别将利用两种算法得到该企业2010年的运行发展预示,并和2010年该企业真正的发展模式进行比较。验证该预警系统的可行性。并将两种算法得出结果进行比较,论证利用改进的聚类融合算法得到的模型更为准确、可行。
二、聚类融合算法模型
(一)基于划分的聚类融合算法。算法的基本思想是:给定要构建的划分的数目k,首先创建一个初始划分,然后采用一种迭代的重定位技术,通过对象在划分见移动来改进划分[3]。常用的著名算法是k-means和-medoids。也可称为k均值聚类算法[4]。
(二)企业预警系统模型分析。根据某市某企业提供的数据信息,获取2001-2009年间共108个月份中企业的主要信息,抽取出18个指标:人员增加数量,员工开支,产品1产量,产品2产量,产品3产量,产品4产量,产品5产量,产品1销量,产品2销量,产品3销量,产品4销量,产品5销量,产品1成本,产品2成本,产品3成本,产品4成本,产品5成本以及其他因素。将这些信息归纳为产品种类、产品数量、各类产品的销量、各类产品的成本、人员变动、工资开支和其他外因共7个方面的数据统计信息,通过应用三角函数提取周期法提取该企业的循环的主波,按照下述方法计算该企业运行发展波动的综合值序列。
求第i个指标的波动循环因子 ;求第i个指标的标准化因子: ;求标准化波动因子: ;宏观经济波动综合值序列: (设 是第i个指标剔除季节因子后的序列)。
表示各类影响企业运行发展状态的经济特征为:
A类:各种特征指标绝大多数处于最低位置或次低位置时,企业发展处于低谷状态,应该提前预警。
B类:如果产品产量增加而产品销量降低时,即第三类向第二类转换时,销售市场存在问题或者市场中的产品有过剩现象,要提前发出预警。
C类:企业具有稳定发展的特征,即各指标所占的位次保持在第二位或第三位,并且各指标没有太大的波动,这种模式属与运行发展的良好模式。
D类:产品成本投入升高而产品数量下降,其他各指标相应波动不大的情况,可能是由于其他外因,例如市场原材料价格上升或社会外力因素进行调控等。这类模式属于黄灯区,要保持警觉。
E类:各个指标都处于高峰,表示企业发展运行处于期,产品销量高,但是投入也相对很大,相对来说各个指标都处于特殊的活跃期,但是这种情况一般很短暂,随之而来的是企业运行的大幅度波动,应尽量避免这种情况发生,所以也要提前预警。
(三)对企业运行模式聚类。设 , , 分别表示第j个指标在第i时期去掉季节因子的速度值序列,波动因子,标准化因子。 表示第j个指标的标准化因子[5]。
则(其中n为样本个数)
(其中k为特征指标个数)
设
如果将初始分类定为k类,则对第i个样本点的计算公式为:
如果该结果为m,则将第i个样本点归为第m类( )。
(四)修改初始分类。由于类与类之间可能有模糊区,所以,如果要对该模糊区中的样本确定其最佳的属性归属类别,就需要修改初始分类[3]。
设 分别表示n个样本点的坐标行向量,初始分类为k类: ,对应的中心坐标分别为 。每类的样本数分别为 ,用l(i)表示 所属的标号,定义 与 的距离为 ,即可得到:
定义分类函数 。通过该方法是分类函数达到最小的一种分类结果。即把历史数据中各时期的综合值所达到的区间分为若干个区间段,则同处于一个区间段的样本在这时可能是扩张期,也可能是收缩期,因此同处于一类的样本处于那个时期要结合未来的运行发展模式得到。
以前面所述中筛选出的7个特征指标每个月份的值作为一个样本点(共108个),用前面讲的聚类方法聚成5类,每个样本的计算结果如表1所示。
表1 样本计算结果统计
1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
1 4.3 4.4 4.5 4.28 4.3 4.36 4 4.4 4.46 4.66 4.6 4.5
2 4.33 4.3 4.61 4.6 4.7 4.65 4.69 4.7 4.66 4.71 4.7 4.6
3 4 3.8 4.1 4 4.3 4.15 4.2 4.3 4.2 4.2 4.3 4.26
4 4.42 4.5 4.6 5.3 5.28 5.15 5.13 5.1 5.2 5.4* 5.6 5.3
5 4.6 5 5.6 6.8 6.75 6.7* 6.83 6.6 5 5.6 5.56 5
6 4.4 4.9 4.2 3.8 4 4.2 4.1 4 4.3 4.5 4.6 4.5
7 4.7 5.2 5* 4.6 5.1 5 4.78 4.8 4.73 4.7 4.91 5
8 4.9 5.8 5.76 5.7 5.66 5.5 5.46 5.6 5.8 5.9 5.5 6*
9 5.06 6.1* 6 5.6 5.3 5 4.8 4.2 4.6 4.5 4.6 4
(五)确定模式边界识别函数。利用多维空间坐标系统,将7个特征指标建立坐标系,企业运行模式在该多维空间坐标系中构成了5个区域,每个区域都有自己的界限,样本点落在哪个区域就表示企业运行处于何种模式。由判别函数非得到该企业的5类模式为: 。
如果要判断第j期的企业运行模式,只需要把第j期的特征指标的值代入判别函数,即可得到其所属的模式。如果要判别未来时段的运行模式,根据特征指标的曲线建立与其相适应的预测模型,将预测值代入识别函数判断其所属的运行发展模式。
(六)系统检验。根据该企业提供的2001年-2009年中每个月的数据作为样本的实际值代入模式识别函数确定的运行模式和该企业实际运行模式比较发现,共有5个样本点有偏差(表1中带*号)。其中2个与实际运行数据偏差较大,另外3个实际数据基本接近。
三、基于改进的动态聚类融合算法
(一)改进方法。传统基于划分的动态聚类融合算法中的聚类个数k的选取以及相应的k个聚类初始中心点的选取都是随机的[5]。如果该聚类个数k选取不当,很容易导致聚类运算所得到的结果差异偏大(如表1中加星号的表示偏差数据)。
为了克服这些缺点,先考察不同的聚类个数k下的聚类成员之间的差异度,以及这些聚类成员在不同的权值下对融合结果的影响。即多次使用上述的基于划分动态融合算法,得到所需的聚类成员,然后对这些成员按照常规方法进行融合,并初选此时的聚类个数为目标聚类个数,用k*表示[6]。各个聚类成员的聚类个数k相应的记为 。
分析各聚类成员的聚类个数和K*的差值,以此为基础设计加权函数对聚类成员进行加权,重新计算矩阵并通过共识函数进行新的融合运算。该系统中采用的加权函数如下:
当新的聚类同其他聚类成员完全相符合时其值为0,聚类成员k值同目标个数偏差越大,差异度也就越大。对所有的聚类成员加权后,相应的所有聚类成员总的矩阵为:
其中j为改进算法循环次数, 为各次循环所得新的聚类成员的加权值。H为基本聚类算法运行次数, 为各次聚类成员, 为各聚类成员的矩阵。
(二)系统检验。和第一种方法一样,将企业提供的2000年-2008年中每个月的数据作为样本的实际值代入模式识别函数确定的运行模式和该企业实际运行模式比较发现,只有2个样本点有偏差。但这两个样本点和实际运行数据相当接近。
四、结论
本文详细介绍了一种基于划分的动态聚类融合算法和相应的改进算法,并分别将两种方法应用于企业运行预警系统中,克服了传统的企业发展模式中按照波动周期的四个不同阶段(扩张期、收缩期、波峰、波谷),引起的不该报警时报警,该报警时又不报警的现象。同时根据应用两种算法得到的预警模型的得到的数据分别和真实数据相比较,通过实验的方式得出改进的算法更实用与企业发展预警系统中。
参考文献:
[1]郭.基于信息融合的交通信息采集研究[D].北京:中国科学技术大学博士论文,2007:3-10
[2]赵法信,王国业.数据挖掘中聚类分析算法研究[J].通化师范学院学报,2005,26,2:11-13
[3]万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,1,2:177-179
[4]谢颖.信息融合中几种算法的研究[D].重庆:重庆大学硕士论文,2008:25-60