数学建模聚类分析范文

时间:2024-01-04 17:44:58

导语:如何才能写好一篇数学建模聚类分析,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

数学建模聚类分析

篇1

关键词:工程教育;CDIO教育理念;教学设计模式;实践类课程

现今世界,利用大数据技术打造指引行业发展的风向标,已成为各行业向智能经济发展迈出的重要步伐。然而,当前大数据专业人才极其短缺。我校肩负着服务武陵山片区区域发展与扶贫攻坚国家战略的使命,承担着为西部地区培养优秀工程技术人才的重任。近年 来,我校紧跟以人工智能、大数据技术为代表的新科技发展步伐,积极推进新工科建设,成为首批30所入围数据中国“百校工程”项目建设院校之一[1],新获批的“数据科学与大数据技术”专业(以下简称大数据专业)于2018年开始招生。如何根据时代需求办好大数据新专业,以培养具有大数据思维、掌握大数据分析应用技术的高层次人才是我校面临的一个新挑战。大数据专业实践类课程教学是体现该专业办学质量和人才培养水平的重要标志。如何利用先进教学理念提高该类课程的教学质量和人才培养水平,是我校大数据专业建设 过程中必须重视的问题。本研究立足于我校大数据专业建设的实际需求,探究基于CDIO理念的大数据专业实践类课程教学设计模式。本研究的实施,将为我校创新型工程教育改革探索道路,不仅有利于提升我校大数据专业实践类课程的教学质量,也将对其他工科课程教 学改革起到一定的指导和借鉴作用。

1 CDIO工程教育模式的发展及内涵

上世纪80年代起,工程人才短缺和高等院校工程教育低质量之间的矛盾日益突出,产业对工程教育改革的呼声不断高涨。1986年,美国的工程教育学会、国家研究委员会和国家工程院等机构开始探索工程教育改革之路。2000年,麻省理工学院和瑞典皇家工学院等四 所大学组成的跨国研究机构,正式启动CDIO教育改革计划,在广泛调研和大量实践研究的基础上,制定了CDIO教学大纲[2]。2004年,CDIO工程教育模式创立,并开始向世界各国推广。2005年,瑞典国家高教署建立了CDIO的12条新标准,并将之用于对本国100个工程学位 计划进行评估[3]。迄今为止,包括麻省理工学院在内的丹麦、南非、法国、新加坡、中国等国家的几十所世界著名大学加入了CDIO国际组织。这些学校的多个工科院系在教学中借鉴和采纳了CDIO工程教育理念,取得了良好的效果。目前,CDIO已成为国内外高校工程教育改革和培养体系制定等领域研究和实践的热点。实践表明,CDIO教育模式不但能提高学生团队协作能力、综合解决问题能力,而且在学生创新能力培养方面效果显著。据文献[4-5],CDIO工程教育模式自2005年开始引入我国。2006年,汕头大学成为中国高校中的首个CDIO成员。2008年12月,教育部高教司理工处联合汕头大学主办了CDIO工程教育模式试点工作会议,成立“教育部CDIO工程教育改革试点工作组”,确定了18所高校及相关专业(机械类、电气类、化工类、土木类)为国内首批CDIO试点。工作组每年举办两次全国性的会议, 对CDIO试点工作进行交流、研讨和总结,并通过CDIO培训班为全国高校实施CDIO教育培养骨干人才。2016年1月,“全国CDIO工程教育联盟”成立。至今已有100余所高校加入联盟。这些高校的部分工科专业采用CDIO工程教育模式教学,培养出来的学生深受社会与企业欢 迎。当前,在联盟全体成员的共同努力下,我国高校积累了一系列改革经验与成果,在基于CDIO理念建立专业培养标准,构建一体化课程体系,实施基于项目/问题、探究式等主动教与学方法等方面都取得了显著进步,有效推进了CDIO的本土化与再创新。近年来,国内CDIO的研究趋势从CDIO教育模式、教学体系等宏观的主题向具体的课程教学改革、课程建设等更深更细的方向发展,诸多教师在教学实践中尝试了采用CDIO理念进行课程教学改革的研究与探索[6-10]。CDIO工程教育模式是国际创新型工程教育改革的最新成果,体现了系统 性、科学性和先进性的统一,代表了当代工程教育的发展趋势。该模式以产品研发到产品运行的生命周期为载体,让学生以主动的、实践的、课程之间有机联系的方式进行工程学习。CDIO的4个字母代表Conceive(构思)、Design(设计)、Imple⁃ment(实现)和Operate(运作)四个单词。CDIO主要包括三个核心文件[11]:1个愿景、1个大纲和12条标准。CDIO愿景提供了一种强调工程基础的、建立在真实世界的产品和系统的“构思-设计-实现-运行”的CDIO过程背景环境基础上的工程教育。CDIO大纲从技术知识和推理能力、个 人职业技能和职业道德、人际交往技能、企业和社会的构思-设计-实施-运行(CDIO)系统四个方面,以逐级细化的方式,将工程师需具备的工程基础知识、个人能力、人际团队能力和整个CDIO全过程能力表达出来,要求用综合的培养方式使学生在工程基础知识、个人能力、人际团队能力和工程系统能力四个层面达到预定目标。CDIO的12条标准[12]涉及到专业哲学(标准1)、课程计划开发(标准2-4)、设计实现经验和实践场所(标准5-6)、教与学的方法(标准7-8)、教师发展(标准9-10)、学生考核与专业评估(标准11-12),回答了工程教育“如何培养人”的问题,使得工程教育改革变得具体化、可操作和可测量,能够对整个教育模式的实施和检验起到系统全面的指引作用,对学生的学和教师的教都具有重要指导意义。

2 CDIO理念下大数据专业实践类课程教学设计的思路与策略

2.1 设计思路

大数据专业实践类课程教学是培养学生运用理论知识、科学方法和技术技能去解决大数据工程实际问题并进行科技创新的实践能力的重要环节。目前,我校大数据专业实践类课程教学组织方式通常以项目为单位设计,重视对学生解决实际问题(主要是项目涉及到的 具体问题)的能力,但不关注学生在整个项目周期中知识、能力、态度等的变化情况,无法全面覆盖技术性与非技术性能力的培养目标。CDIO理念要求培养出来的学生必须在工程基础知识、个人能力、人际团队能力和工程系统能力四个层面都达到预定目标。CDIO教育模 式强调一体化与参与性,促使学生在项目研发到项目运行的整个项目周期中进行锻炼与思考,课程教学不仅要关注学生学到的学科知识,更要关注学生能力、素质的提升情况。显然,CDIO理念下大数据专业实践类课程教学设计应强调“知识与能力”并重,紧扣CDIO大纲 和CDIO标准,进行教学大纲和教学组织方式的设计,并设置以“学习评估为中心”的多样化考核方式。

2.2 设计策略

教学大纲方面,本研究尝试结合大数据类专业培养目标,依据CDIO大纲,对大数据专业实践类课程教学大纲进行设计:依据CDIO大纲的主题和条目组织课程大纲结构,并明确描述与期望能力要求相对应的课程学习目标。教学组织方式方面,本研究尝试在大数据专业 实践类课程教学中以“做中学”为依托,将整个课程教学安排以项目为载体,针对每个项目为学生提供“构思-设计-实施-运行”的流程,并将实践所需知识、能力、素质等培养目标围绕项目这个核心融入教学实践中,让学生的整个学习过程变成对一个个项目的完整实践过程。教学考核方面,本研究尝试匹配CDIO大纲的能力目标,具体根据课程概念及原理性知识的理解、技能掌握、设计—实现经验获取、分析及解决问题能力、交流表达能力和综合实践能力等类别的学习效果的评估需要,在大数据专业实践类课程教学考核方式设置时, 对不同类别的学习效果设计不同的考核方式。

3 CDIO理念下的大数据专业实践类课程教学设计模式

3.1 教学大纲框架设计

基于CDIO理念的教学大纲需要对融合了知识、能力、态度的学习效果进行准确描述,并清晰指明该课程整体及每一节课对学生所需学习的内容和所需掌握的能力要求。依据CDIO大纲中关于个人能力、职业素养等方面的培养要求,本研究将大数据专业实践类课程教学 大纲框架设计为如表1形式。

3.2 教学组织方式设计

如何在实践教学组织中体现CDIO教育理念是实施CDIO教学的基础[13]。本研究基于CDIO理念将大数据专业实践类课程教学组织方式设计为如图1所示的“理论讲授-任务布置-项目构思-项目设计-项目实施-项目运行”六个环节构成的有机体。让学生在参与项目的构思 、设计、实施、运行这四个环节的活动中逐渐形成较完整的系统思维。

3.3 考核方式设置

CDIO理念下的教学是师生共同学习的过程,要求以“学”为中心进行评估,教学与考核相互联系,考核用来促进和诊断教学和学习。为了评估课程教学所培养学生的能力能否达到CDIO大纲要求的预定目标,需要从不同方面检验学生的学习效果。为此,本研究根据不 同类别的学习效果评估的需要,以过程性考查为重点,设置不同的考核方式如表2所示。上述各类考核方式可综合应用于专业实践类课程教学的整个过程。为确保评估的可靠性和有效性,可在不同阶段选择一种或多种考核方式对不同类别的学习效果进行评估。

篇2

关键词:电力负荷预测;负荷因素;聚类;时间序列法;预测精度

中图分类号:tm71 文献标识码:a

1 传统的时间序列法

传统的时间序列法发展较早、应用广、相对成熟,其主要原理是利用了电力负荷的惯性特征及时间上的延续性,通过对历史数据时间序列的处理,确定其基本的特征和变化规律,以对未来的负荷进行预报,该预测方法的模型主要包括自回归模型、动平均模型、自回归动平均模型和非平稳序列模型。传统的时间序列预测方法围绕电力负荷这一随机变量建立数学模型,未能考虑其他方面的综合影响,存在预测误差较大的缺陷,随着电力系统对负荷预测要求的越来越高,该方法的不足也越来越明显。

2 聚类分析

聚类分析是一种能有效地发现具有价值的离群序列的数据挖掘技术,聚类分析一般由两个过程组成:相似性度量及选择聚类算法,故聚类可看成是时间序列法负荷预测读取数据的预处理过程,对负荷序列进行聚类,一方面可发现感兴趣的聚类结构,进行相关分析,另一方面,可为深入研究提供更有针对性的数据集,该方法已在多个领域被广泛应用。

3 基于聚类和时间序列的电力负荷预测

在电力领域内,节假日、高温等样本量很小的特殊情况不适合混合在所有的负荷模式中分析,否则易被当作噪声或坏数据而影响预测精度。而若将这些相似的离群序列作为样本,进行聚类分析,发掘它们的共性,得到相对应的负荷模式,即可对特殊情况下的电力负荷趋势进行预测,提高预测精度。

基于聚类分析的时间序列预测方法存在两个数据分析形式:分类和预测。分类是指把电力负荷划分到不同的类中,不同的类提供精简的数据集,以该数据集研究样本的特征,减少预测使用的数据量,从而提高了计算效率。预测则是指从不同数据集中提取重要数据类模型并进行未来的数据趋势的预测。分类为预测提供数据基础及分类规则;而预测则是对时间序列历史的和当前的数据建立函数模型,去推测未来的发展趋势。基于聚类和时间序列的电力负荷预测可以分为两种。

(1)简单电力负荷预测

根据过去的负荷统计数据,找到其随时间变化的规律,建立时序模型,以推断未来负荷数值的方法。首先把时间序列通过分段、相似性度量、矢量形态聚类后用一系列符号表示,即时间序列转化为静态的模式组合,然后使用普通的数据挖掘工具进行知识发现,该预测形式类似于传统的时间序列的电力负荷预测模型。

(2)多因素电力负荷预测

时间序列的变化不仅和历史数据有关,还受众多其它因素的影响。多因素预测方法根据对历史数据的分类,寻找影响因素与时间序列之间的因果关系,建立相关分析模型,然后通过对历史数据及最新数据的统计分析,确定其合理性后,进行趋势预测。

以下对电力负荷预测算法流程进行说明,如上图1所示。预测算法首先进行电力负荷的聚类分析,该阶段是本算法的重点和难点,它决定了整个系统中最重要的知识获取和知识支持主体;然后采用自回归动平均模型的时间序列法,利用aic准则确定其模型的阶数,该部分需结合聚类分析的数据集及分类规则进行建模;最后通过相应的误差判断准则进行结果的预测。如果聚类分析及建立的模型不合理,则需要重新对数据进行聚类分析,再进行结果的预测。该算法可以针对电力负荷数据常受气温、节假日等因素影响这一特点进行聚类分析,再应用时间序列对未来电力负荷进行预测,具有较高的准确性。

4 算例分析

本文采用某市2010年7月5日至7月25日的电力实际负荷数据,该数据为每十五分钟采样一点,一天共96个采样点。选取7月5日至25日连续21天的实际负荷数据,利用聚类后的电力负荷预测时间序列法,采用matlab软件工具,对接下来24个小时(即7月26日)的负荷进行预测。下表列举了传统时间序列法预测值、聚类时间序列法预测值及其误差值(表中仅为部分点数的数据)。

传统时间序列法预测结果、聚类时间序列法预测结果与真实负荷数据对比曲线如下图2所示。

图2红线代表了聚类时间序列法的预测值,棕色线代表传统时间序列法的预测值,蓝线代表了负

的实际值。从传统时间序列法预测结果与聚类时间序列法预测结果两者与真实负荷数据的曲线图可以看出,聚类时间序列法的预测曲线与真实负荷曲线具有较高重合率。经过计算,传统时间序列负荷预测的误差绝对值的平均值为6.069%,聚类时间序列负荷预测的误差绝对值的平均值为2.48%,聚类时间序列法预测的负荷误差明显比传统时间序列法预测的负荷的误差较小,即聚类时间序列法预测精度较高。

结语

本文指出了传统时间序列预测方法的缺陷,阐述了时间序列法及聚类分析的预测原理,提出了基于聚类时间序列的电力负荷预测方法,即先通过聚类后,再进行时间序列法的预测。针对某市的电力负荷情况,在matlab中进行仿真,求得聚类时间序列法的预测结果,并与真实数据进行对比。结果表明,基于聚类时间序列的电力负荷预测方法,能考虑其他因素对电力的影响,有效提高电力负荷预测的精度。

参考文献

[1]刘晨晖.电力系统负荷预报理论与方法[m].哈尔滨:哈尔滨工业大学出版社,1987,23-56.

[2]李艳红,雷金辉.电力负荷时间序列预测的应用与研究[j].科学技术与工程,2011,11(04):860-864.

[3]王秋梅.时间序列法负荷预测的原理和应用[j].华东电力,1993(04):37-39.

[4]邹森.时间序列自适应短期负荷预测[j].山东工业大学学报,1988,18(02):43-49.

[5]王骏,王士同,邓赵红.聚类分析研究中的若干问题[j].控制与决策,2012,27(03):322-327.

[6]鞠平,马大强.电力系统负荷建模[m].北京:中国电力出版社,2008:53-69.

篇3

【关键词】酿酒葡萄分级;主成分分析;聚类分析

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。为了对酿酒葡萄进行分级,通过查阅资料,首先采用主成分分析的方法,确定酿酒葡萄特征性的主要成分和葡萄酒的理化指标的主要成分,然后再以酿酒葡萄和葡萄酒所得主成分作为变量进行聚类分析,从而得到酿酒葡萄的等级分类结果。

1 主成分分析方法

主成分分析方法是数学上对数据降维的一种方法。设有q个样品(多元观测值),每个样品观测p项指标(量)x1,x2,…,xp

得到原始数据资料阵:

用数据矩阵X的p个列向量(即p个指标向量) X1,X2,…Xp做线性组合,得到综合指标向量:

F1=a11 X1+a21X2+…+ap1Xp

{ F2=a12 X1+a22X2+…+ap2Xp

F1=a1p X1+a2pX2+…+appXp

简写即为:Fi=aip X1+a2iX2+…+apiXp ,

(i=1,2,…,p)

由于需要,对组合系数ai'=(a1i,a2i,…,api)

作如下要求:

a1i2+a2i2+…api2=1,i=1,2,…,p

即:ai为单位向量:ai'ai=1,且有下列原则决定:

(1)Fi与Fj(i≠j,i,j=1,…,p)互不相关,即 Cov(Fi,Fj)=0,

并有Var(Fi)=ai'∑ai,

其中∑为X的协方差阵。

(2)F1是X1,X2,…Xp的一切线性组合(系数满足上述要求)中的方差最大的,即

Var(F1)=maxc'c=1Var(∑pi=1cixi)

其中c=(c1,c2,…,cp)。F2是与F1不相关的X1,X2,…Xp一切线性组合中方差最大的,Fp是与F1,F2,…,Fp=1都不相关的X1,X2,…,Xp的一切线性组合中方差最大的。

满足上述要求的综合指标向量F1,F2,…,Fp即为主成分,这p个主成分从原始指标提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数

ai'=(a1i,a2i,…,api)

就是相应特征值λi所对应的单位特征向量ti,方差的贡献率为αi=λi/∑nk=1λi 。

其中ai越大,说明相应的主成分反映综合信息的能力越强。

2聚类分析方法

对变量进行聚类分析,首先要确定变量的相似性度量,常用的变量相似性度量方法有相关系数法和夹角余弦法两种。此处采用相关系数法,记变量Xj的取值(X1j,X2j,…,Xnj)∈Rn(j=1,2,…,m),则可以用两变量Xj与Xk的样本相关系数作为他们的相似性度量,即

rjk=[∑ni=1(xij-xj)(xik-xk)]/[∑ni=1(xij-xj)2∑ni=1(xik-xk)2]1/2

3 结果分析

对于酿酒红葡萄,由主成分分析所得的结果通过分析软件SPSS13.0的Hierachical Cluster分析,得出聚类分析结果:

分析上图不难得到,红葡萄酒的等级可以分为四个,且等级越往上,其值越大,故可将酿酒红葡萄的等级分为四个等级,对应为A、B、C、D,由MATLAB软件计算可得到其分类分值和相应的等级:

对于酿酒白葡萄,同理可以得出分析结果:

同样可得到其分类分值和相应的等级:

酿酒葡萄有若干指标成分,采用主成分分析方法可以明确对葡萄酒质量有重要贡献的成分指标,而聚类分析结果也是确定葡萄酒特征性成分的重要基础。在评价葡萄酒质量优劣时,本来葡萄酒的质量是由理化指标、卫生指标即感官指标共同确定的。但在对此问题的分析过程中,没考虑卫生指标,则对葡萄酒的质量评价时,人们不能从健康方面去评价葡萄酒的质量。因为那样将有可能让那些卫生不达标的酒厂在不考虑卫生指标的条件下得到好的评价,从而危害到人们的身体健康,因此本文对酿酒葡萄的分级带有一定的特殊性。

本文通过主成分分析和聚类分析的方法得到酿酒红葡萄和酿酒白葡萄一般可以分为A,B,C,D四个不同等级的结论,当然也存在一些问题或不足,这是今后要继续研究的问题。

参考文献:

[1]韩中庚.数学建模方法及其应用(第二版)[M].北京:高等教育出版社,2009年

[2]李运,李记名,姜忠军.统计分析在葡萄酒质量评价中应用[J].酿酒科技,2009年

篇4

[关键词] 物流 配送网络 聚类分析

一、引言

配送是物流系统中一个直接与消费者相连的重要环节,优化配送网络,进行合理的物流配送是实现运输规模经济、节省运输费用的重要手段。物流配送网络实际上由多个不同的网络组成,每个网络都服务于特定的目标,但每个网路又不是孤立进行运作的。确切地说,在不同的运输网络之间存在极大的重叠和冗余。因此通过配送网络的优化,消除这些冗余是降低配送成本的有效手段。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。采用聚类分析的方法,可极大地提高优化的性能,增加所处理业务的规模。

二、聚类基本理论

“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。所谓类,通俗地说,就是指相似元素的集合。聚类分析起源于分类学,随着人类科学技术的发展,对分类的要求越来越高,仅凭经验和专业知识难以确切地进行分类,于是数学工具逐渐地被引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。

假设一个要进行聚类分析的数据集包括n个对象,这些对象可以是人、房屋、货物等。基于内存的聚类算法通常都采用差异矩阵[1]的数据结构。

差异矩阵是一个对象-对象结构。它存放所有n个对象彼此之间所形成的差异。它一般采用n×n矩阵表示,如式(1)所示。

其中,d(i, j)表示对象i和对象j之间的差异(或不相似性程度)。通常d(i, j)为一个非负数,当对象i和对象j非常相似或彼此“接近”时,该值接近0,该数值越大,就表示对象i和对象j越不相似。由于有d(i,j) = d(j,i)且d(i, i) = 0,因此就有式(1)所示的矩阵。

所采用的测量单位可能会对聚类分析产生影响。例如:将测量单位(对于高度属性)从英尺变为米,或(对于重量属性)从英磅变为千克,都会导致不同的聚类结果。通常采用一个较小的单位表示一个属性会使得属性的取值范围变大,因此对聚类结构就有较大的影响。为帮助避免对属性测量单位的依赖,就需对数据进行标准化。所谓标准化测量就是给所有属性相同的权值。这一做法在没有任何背景知识的情况下是非常有用的。而在一些应用中,用户会有意识地赋予某些属性更大权值以突出其重要性。例如:在对货物进行聚类分析时,可能就会给时间属性赋予更大的权值。

为了实现标准化测量,一种方法就是将初始侧量值转换为单位变量。给定一个属性(变量)f,可以利用以下计算公式对其进行标准化:

(1)计算绝对偏差均值S

其中,x1f,x2f,…… xnf是变量f的n个测量值,mf为变量f的均值,也就是

(2)计算标准化测量(Z -分值)

其中,绝对偏差均值sf要比标准差σf更为鲁棒(对含有噪声数据而言)。在计算绝对偏差均值时,对均值的偏差|xnf-mf|没有进行平方运算,因此异常数据作用被降低。

一种有效的聚类分析计算方法是基于密度的算法(Density-based Methods),它与其它方法的一个根本区别是:它基于密度而非基于各种各样的距离。这样就能克服基于距离的算法只能发现“类圆形”聚类的缺点。这个方法的指导思想就是:只要一个区域中点的密度大过某个阈值,就把它加到与之相近的聚类中去。代表算法有:OBSCAN算法、OPTICS算法、OENCLUE算法等。

三、配送网络的优化

配送网络的底层结构由下述五个主要元素构成:

1.Facility(设施)

配送网络中的站点(一般是物理的)。在网络中,站点代表了货物集中或分发的地点。例如,在邮政配送网中,它们可以是加工及分发站,调度中心,航空邮件中心和散件中心。

2.Delivery(一次投递的货物)

Facility之间配送的项目。在网络中,Delivery代表了在特定时间窗(即,从货物准备好到要求送达目的站之间的时间段)之内、从起点到终点、有一定体积和重量、要运送的货物。不同类型的Delivery可能代表了,从起点到终点、有不同的服务标准的货物(例如,从北京到上海的特快专递)。

Delivery按是否可分开配送可以分成可分Delivery和不可分Delivery。可分的Delivery是可以被分成不同部分进行配送的。相反,不可分Delivery不能分成不同部分进行配送。

3.Batch(班次)

配送网络中时间固定,经过的站点固定的运送货物的路线。一个Batch的定义包括Batch的各个方面:运输工具的容量或载重能力,Batch的类型(航空,公路,铁路等),Batch的工作日(一周里面哪天或哪些天有出发的安排),到达和离开每个中间站点的时间(用时分秒表示,不牵扯日期),签订一个班次的费用和提前解除班次合约的费用。

4.Leg(班次的一段)

Leg连接相邻的两个Facility,Batch由一系列Leg组成。Leg的定义包括:从属的Batch,Leg起点,Leg终点,离开Leg起点和到达Leg终点的时刻(用时分秒表示,不牵扯日期),Leg开始离Batch开始的天数,容量或载重能力,可变运输成本(单位体积或重量的运输成本)等属性。当然,在一个Batch中,前一个Leg的终点要和后一个Leg的起点相同。

5.TriP(行程)

真正意义上用于移动货物的途径(路线)。Trip的构成形式是多样的,我们既可以把一个Batch看成是一个Trip来配送Delivery,也可以取一个Batch的若干Leg作为配送Delivery的Trip,还能使用多个Batch的Leg作为Trip,只要它能在规定时间内把Delivery从起点运送到终点。Trip是为了方便建模而构建的一个虚拟的概念,配送网络优化系统运行的时候,先使用搜索技术把每个Delivery的所有可行配选Trip找出来,再进行建模。

费用由Leg可变费用(可变运输费用),Trip迟到惩罚费用,Batch固定费用和Batch提前解约费用构成。优化的目标就是满足“指派约束”和“容量和载重能力约束”的情况下,使总费用最小。

由于物流配送网络的Facility既能作为起点,也能作为终点,因此每个Facility可能既集中货物也分发货物。相应地,一个Batch可能同时需要搜集和分发货物。假设将要优化的物流配送网络已经签订了一些班次。即优化的目标是判断哪些班次继续留用,那些班次应该提前解除合同。

在模型优化之前,必须把原始数据转化成标准的数据格式输入模型。这个步骤包含分析数据和清理数据;依照特定的内容、结构和格式的要求准备好输入数据文件。在预处理时,对数据进行彻底的检查。数据的错误、矛盾之处都得到更正。预处理过程中,最重要的一步就是进行聚类预处理。

在货物数量庞大的配送网络中,如果把每单货物都看成一个Delivery(即把每单货物都当成一个Delivery变量加入模型中),模型的求解过程将耗费相当长的时间。所以在模型进行求解之前,我们可以使用一些成熟的聚类分析方法,把权重属性值比较接近的货物聚合成一个Delivery,从而减少模型的计算复杂度。模型的解在接近最优解的情况下,能极大地缩短计算时间。所谓权重属性,就是用来权衡货物是否能合成一个Delivery所参考的重要的属性。

在实际中,一种较好的方法是采用基于密度的DBSCAN(Density-based Spatial Clustering of Application with Noise)聚类算法对货物进行聚类。该算法通过不断生长出足够高的密度区域来进行聚类,它能从含有噪声的空间数据库中发现任意形状的聚类。

由于要把时间和类型都类似的货物进行聚类,所以选用货物的类型、货物就绪时间和要求送达时间等属性为聚类的权重属性。属性和算法都确定好了之后,可编写Java程序实现DBSCAN聚类算法。输入不同的货物数,输出聚合好的Delivery。通过每个Delivery可以查询到每个原始的货物。见表1:

使用Java程序编制配送网络的优化系统,系统主要由以下几个部分构成:搜索行程、构建CPLEX模型、使用CPLEX进行优化。将表1的数据输入该优化系统,得到测试结果见表2:

在近似于实际问题规模(120个站点,300个班次,502段,10000个配送货单)的时候,可以看出,优化系统还是可在一分钟左右完成计算。

四、结论

通过比较测试结果可以发现,使用优化系统的总花费要比传统方法少20%,极大地降低了配送的成本。证明通过聚类分析对配送货物进行预处理可有效提高配送网络的优化性能。

参考文献:

[1]Ian.H.Wjtten,EibeFrank,Data Mining:Pratical Machine Learning Tools and Techniques.Seeond Edition[M]. Elsevier Ine.2005

篇5

1.统计分析方法

统计分析方法是利用统计学原理对数据库中的数据进行分析,从而找出它们之间的关系和规律的方法。统计分析一直是分析空间数据的常用方法,侧重空间物体和现象的非空间特性分析。统计分析方法包括线性与非线性分析、相关分析、回归分析、差异分析、判别分析、Bayes网络等。统计分析方法的缺点是难以处理字符型数据,需要具有领域知识和统计知识,一般由具有统计经验的领域专家来完成。

2.基于集合论的数据挖掘方法

集合论(简称集论)是一门研究集合(由一些抽象数学对象构成的整体)的数学理论。集论(加上逻辑和谓词演算)是数学的公理化基础之一,通过集合、元素及成员关系来形式化地表示其他数学对象。基于集合论的数据挖掘方法包括覆盖正例排斥反例方法、概念层次网络方法和基于粗糙集理论方法,其中应用最广泛的是粗糙集(RS)理论方法。这三种方法中都使用了集合理论中的一些概念和原理,并涉及到大量的集合运算。

粗糙集理论(Rough Set Theory)是波兰学者Z.Pawlak在1982年提出的,它被广泛研究并应用于不精确、不确定、不完全的信息分类分析和知识获取。粗糙集(RS)作为集合论的扩展,是一种用于研究不完全和不完整信息描述的数据挖掘技术,它能够在缺少数据先验知识的情况下,以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理。

覆盖正例排斥反例方法是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式),比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法和AE5方法。

概念层次网络(HNC)理论是关于自然语言理解处理的一个理论体系,它建立了网络式概念符号基元体系,即概念表述的数学表示式,这个表示式能够与自然语言的词语建立起语义映射关系,同时它是高度数字化的,每一个符号基元(字母或数字)都具有确定的意义,可充当概念联想的激活因子。语义网络是树状的分层结构,每一层的若干节点分别用数字来表示,网络中的任何一个节点都可以通过从最高层开始到该节点结束的一串数字唯一确定。HNC通过概念符号基元体系把自然语言映射到概念空间,数字化的概念表达式可以树形展开,这样才能充分利用概念符号化带来的优点对概念进行各种运算和操作。

3.决策树方法

决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。首先,以信息论中的信息增益原理为基础,寻找数据库中最大信息量的字段,建立决策树的根节点;然后根据字段的不同属性值建立树的分枝,再在每个分枝子集中递归建立树的下层分枝和节点,非叶子节点表示属性,最下层的叶子节点表示数据集的子类类别,这样便生成一棵决策树;最后对决策树进行剪枝处理,通过树形结构产生一组规则,依照规则将数据集分类。它着眼于从一组无序、没有规则的数据中推理出决策树表示形式的分类规则。决策树方法的优点是决策制定的过程可见,不需要长时间构造过程,描述简单、易于理解、分类速度快;缺点是很难基于多个变量组合发现规则。决策树方法擅长处理非数值型数据,而且特别适合大规模的数据处理。常用的决策树算法有 CLS算法、ID3 算法、C4.5 算法等。

4.聚类分析方法

聚类分析方法是根据数据特征,按一定的距离或相似性系统,将数据分成一系列相互区分的类,划分的标准是类内差别最小、类间差别最大。即将实体对象或抽象对象的集合分组,这个由类似的对象组成的多个类的过程称为聚类。通过聚类以后,数据集就转化为类集,同类数据具有相似的变量值,不同类数据的变量值不具有相似性。在知识模式类型无法得知的情况下,可以运用聚类分析法进行分类、识别。按照模式间的相似程度进行自动分类的聚类分析法,能够将相似度大的模式归为一类。按聚类过程分,聚类分析法有凝聚算法、分裂算法、增量聚类和划分聚类。按相似性系统,聚类算法可以分成基于距离的方法、基于层次的方法、基于密度的方法以及基于网格的方法。例如,层次方法就是按照一定的层次分解给定的数据对象集合,可以分为分裂层次方法和凝聚层次方法。聚类分析法适用于分析样本之间的内部关系,合理的评价样本结构。此外,孤立点的检测也可以应用聚类分析。聚类是为了将某个对象从大量的数据中分离出来,而不是简单地将数据集合在一起。目前,聚类分析法已广泛应用于图像处理、模式识别、经济分析等多个研究领域。

5.人工神经网络方法

神经网络法是一种模拟生物神经系统的结构和功能,通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络(Nerual Net)指由大量的神经元(PE)互连而成的网络,神经网路模型通常由输入层、中间层(亦称隐层)和输出层组成。在每个神经元求得输入值后,再汇总计算总输入值;由过滤机制比较总输入值,确定网络的输出值。可以通过连接一组神经元来模拟复杂行为,当修改连接层的“接度”或权值时,神经网络就进行了学习或“训练”。

神经网络的学习方法主要表现在上述权值的修改过程上。这种方法模拟了人脑神经元结构,通过大量神经元构成的网络来实现自适应的非线性动态系统,具有对非线性数据快速建模的能力,通过对训练集的反复学习来调节自身的网络结构和连接权值,并对未知的数据进行分类和预测。其优点是具有自学习、自组织、自适应、抗干扰、分布存储、联想记忆、非线性学习、大规模并行处理等功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维度变量,具有“黑箱”性,人们难以理解网络的学习和决策过程,输出结果也难以解释。目前,神经网络法主要用于数据挖掘的分类、聚类知识以及特征的挖掘过程。

篇6

内容摘要:本文根据现实情况指出国内中小企业营销面对的四个基本问题,并据此提出一个基于会员制的数据挖掘系统解决方案。此方案由Logistic模型、RFM聚类分析、事件触发模型和关联规则这四种数据挖掘技术构成。在介绍其中各技术的基本原理和建模方法的同时,给出一个应用事例。通过运用会员制策略收集顾客相关资料并利用数据挖掘技术加以分析,制定具有目标指向性的营销活动,以提高企业的营销水平。

关键词:会员制 数据挖掘 RFM聚类分析 关联规则

现阶段,国内广大中小型企业正面临着自身发展的瓶颈。在围绕增加销售收入所设计的营销策略中,企业倾向于把重点放在开发新客户方面,而忽略了对旧客户的维护。这种情况导致企业难以培养有忠诚度的顾客,大量流失潜在的优质客户,从而陷入对客户不断开发、不断流失的恶性循环。部分企业借鉴外国同行经验,采取会员制策略,但其数据库只收集最基本的会员资料,营销手段单一,如分发广告信息、消费打折等活动,而忽略了对会员本身的分析,如人口和心理特征、消费行为等,造成了浪费企业执行成本、不恰当的信息令顾客与企业关系恶化等后果。同样利用会员制收集信息的便利性,在北美和欧洲,基于数据挖掘技术的数据库营销已经发展日趋成熟,大小企业都先后加入到这一行列中(罗茂初等,2007)。

本文提出一套基于会员制的数据挖掘系统解决方案,通过运用相应的数据挖掘技术解决营销活动中的四个基本问题,加深企业对顾客的认识,从而有针对性地制定营销策略。

会员制信息的数据挖掘方案

(一)营销活动的四个基本问题

在为会员制定营销手段的过程中,必须回答以下四个基本问题:

一是什么是影响会员对营销手段做出回应的显著因子?如何寻找出最可能对营销手段做出回应的会员?二是企业所拥有的会员可以分为哪几类?每个种类的会员的特征有什么不同?三是哪些事件(或日子)能联系会员与企业的产品,成为营销活动开始的契机?四是会员的消费习惯和购物次序如何?

只有完整回答以上问题,企业才算得上了解自己的会员,营销手段才能做到有的放矢,切实地提高企业的营销能力。

(二)系统实现框架

为了解决上述问题,系统由四种数据挖掘技术构成。其中Logistic回归模型用于寻找影响回应率的显著因子。RFM聚类分析通过提取会员新鲜度、消费频率和消费金额三个指标值进行聚类分析,划分会员种类。而事件触发模型是企业寻找特殊营销事件开展的重要工具。关联规则挖掘通过分析会员的购物篮寻找出各商品之间潜在的关系。企业可以据此决定商品的摆设、捆绑销售策略和优惠销售策略等营销手段等。系统框架结构如图1所示。

(三)建模方法

1.Logistic回归模型。由于Logistic回归分析所建立的预测模型是根据过去的营销数据记录计算获得,因此有一定的滞后性。具体做法是:从上一次营销活动记录中选取出所有可能影响会员做出回应的变量为自变量,用会员是否回应的结果作为因变量,用0表示没有回应,1表示有回应。这样通过Logistic回归计算所得的结果是一个会员对于营销活动做出回应的概率。筛选出通过显著性检验的变量,所获得的预测模型则可用于实践。

2.RFM聚类分析。RFM具体定义:R―新鲜度,指会员最近一次交易是在多久以前。时间距离越近,企业和会员的关系就越“新鲜”。通常按天数划分最近一次交易时间。F―消费频率,指会员在一定时间间隔内和企业交易次数。时间间隔一般取半年或一年。M―消费金额,指会员每次平均消费金额。

RFM的指标各项数据通过营销记录表定期(如每半年)自动生成。然后应用于聚类分析。此处选择K-Mean clustering,即直接聚类,该聚类分析算法如下(辛爱莉、衣龙海、张林,2008):

设要把数据库中所有会员分为K组。

第一步为任意选择K位成员,以他们指标下的各项数据作为每一组的中心;第二步为计算其他成员指标下的各项数据与每个组的中心的合成距离。合成距离的计算取几何距离公式:,一个会员离Ki组的中心越近,他就属于该组。第三步为将所有成员根据距离分配到各个组后,重新计算各组的中心。方法为取每个组所有成员的特征平均值。重复第二步。重复第三步。

循环以上步骤,一直到计算出的中心与上一次计算的中心完全相等,则循环结束。所获得的结果就是最后分类,每组的中心代表这个组的特点。

3.事件触发模型。该模型主要作用是增进会员对企业的感情和提醒会员于特殊时间购买本企业相关产品。

事件分成两类:常规事件和突发事件。常规事件包括会员生日和有营销机会的节日。突发事件是指事前无法预料的,能为企业进行营销所用的特殊事件。

部分参考节日:元旦,农历新年,情人节,三八妇女节,清明节,劳动节,儿童节,端午节,父亲节,母亲节,七夕,中秋节,国庆,重阳,冬至,圣诞节等。

部分参考事件:开学,企业新品推荐,运动会或重大比赛,商业演出,募捐活动等。

实施方法:为根据RFM聚类分析所划分的会员群设计各自对应的宣传文案和营销策略,在事件发生的倒数第三日通过电子邮件发送,倒数第二日通过手机短信发送,以确保有效到达率。适当环境可考虑使用直邮。统计回应记录及会员的反馈意见。事后分析,作为本次营销活动的总结和下次策划的参考。

此外,特定行业应针对其顾客的消费和行为的规律事先制订相应的触发模型。

4.关联规则。在关联规则的挖掘算法中,以Agrawal等人提出的Apriori算法最具有影响力和最为常用。Apriori算法利用了频繁项集的基本原理:若项集X是频繁项集,则X的任意子集也必定是频繁项集;反之,若X有一子集不是频繁项集,则X也必然不是频繁项集。

设产品集C={Cj,j=1,2,……,n},每次交易事件Ti=i1C1+i2C2+……+inCn,其中ij取值为0或1。此处的加号是和的意思,并非直接相加。

交易集为U={Ti|i=1,2,……,m},所以可抽象出矩阵:

设support(Cj)=/m,若support(Cj)≥min_support_1,将Cj加入到集合Z中。重复上述步骤,直到Z包含所有符合条件的Cj。假设共有k个符合条件,重新编号为D1,D2……Dk。其对应的ij亦同时跟随变化。两两交叉组合,共计k(k-1)/2个。

设support(DpDq)=ipiq/m,若support(DpDq)min_support_2,令Mpq=DpDq,输出到关联候选集A和集合Z中。

重复上述步骤,直到Z包含所有符合条件的Mpq,并删除集合中所有的Cj。把Z内的项两两交叉组合,并循环以上方法,直到集合Z为空集。

此时开始用置信度排除出重要的关联规则:由A,B两个项生成的关联规则有两个:AB和BA ;由A,B和C三个项生成的关联规则有三个:A,BC;B,CA和C,AB。如此类推,N个项可以生成N个关联规则。当检验只有两个项DpDq的关联规则时,设confidence(DpDq)=iqip/iq,confidence(DqDp)=iqip/ip,若confidence()≥min_confidence,则把该关联规则输出,否则删除。

为简化计,可把min_support和min_confidence先设定为一固定值。特殊情况下再作调整。同理检验由更多项生成的关联规则。其中confidence(AB)=P(AB)/P(B),此时A为由一个以上的单项组成的复合项目,B依然为单项。

若需要进行多层关联规则分析,只需扩充C集,其他仍然按以上步骤分析。多层关联规则(孙景、李峰,2008)有助于发掘出特定商品与品类之间的潜在关系。

应用示例

设某运动用品店收集到26位会员的消费记录。其中性别是1代表男性,0代表女性的虚拟变量,回应项中1代表有回应,0代表没有回应。现抽取性别、新鲜度、消费频率和消费金额作Logistic回归,结果如表1所示。

由表1可知,消费频率是影响会员是否做出回应的重要因子,消费频率越高,回应的可能性越大。因此,应该按此思路设计营销手段,争取顾客多次回头,如积分升级计划,每周(月)的优惠活动等,务求通过增加顾客的消费频率提高销售收入。

提取新鲜度、消费频率和消费金额三个变量项作直接聚类分析,在置信度为90%的条件下,获得表2。

以消费频率和消费金额为主要划分标准,把26位会员分成普通组和重点组。普通组成员的特征是消费频率较低,消费金额较小,因此营销的主要目的是增加此组人群对企业的好感以及依赖,培养忠诚度,使其转为重点组成员;重点组成员的特征是消费频率较高,消费金额是普通组的2倍以上。因此,提供最优质的服务与适当的让利优惠是维系此组成员必不可少的手段。

会员生日、学生假期、重大比赛或者明星活动是有利于运动店启动事件营销的契机。

产品集={球服,篮球,球袜,纪念品,其他装备},又收集到如下的会员交易集

U=T

根据前部分的计算公式,假设min_Support_1=30%,则A={(球服,篮球),(球服,球袜),(球服,纪念品),(篮球,其他装备)},同时生成Z={(球服,篮球,球袜),(球服,篮球,其他装备),(球服,篮球,纪念品),(球服,球袜,纪念品)}。继续计算,假设min_Support_2=20%,则(球服,球袜,纪念品)加入到A集中。此时A={(球服,篮球),(球服,球袜),(球服,纪念品),(篮球,其他装备),(球服,球袜,纪念品)}。

通过置信度筛选出强关联规则。假设min_Confidence_1=60%,保留(球服球袜),(球服纪念品),(篮球其他装备),(其他装备篮球)为强关联规则。综上所述,我们发现了六个可供使用的强关联规则:A={(球服球袜),(球服纪念品),(篮球其他装备),(其他装备篮球),(球服,球袜纪念品),(球服,纪念品球袜)}。

针对这些关联规则,可以设计如下营销手段:球服摆放于显眼处,球袜摆放在其相近位置,并且可用优惠价购买球服与相对应的球袜;开发对应球服的纪念品,如运动手表、背包、水壶及相应队伍的明星人物模型等;篮球与其他装备打包搭配销售。

讨论与结语

针对各个企业的特殊性,在本解决方案基础上应相应增加原始数据库的资料,以确保企业可以掌握足够多的信息进行数据挖掘。同时要及时做事后测评和总结,不断累积应用数据挖掘技术的经验。此外,必须结合过往经营活动的经验,以筛选不合理的挖掘结果。最后,在企业有一定条件时,应该增加本系统的挖掘功能,通过建立更多不同种类的数学模型来更深入了解顾客群的情况。

本文从现实的可行性出发,提出了一套基于会员制的数据挖掘系统解决方案,希望能有助于中小企业合理地运用会员制进行数据挖掘。本方案以四种数据挖掘技术为核心,通过对四个基本问题的解答获取有效的数据挖掘信息,设计有针对性的营销手段,从而切实地提升企业的营销水平。

参考文献:

1.罗茂初等.数据库营销[M].经济管理出版社,2007

2.辛爱莉,衣龙海,张林.聚类算法在电子商务客户细分中的应用[J].商场现代化,2008(530)

3.AGRAWAL R,IMIELINSKI T,SWAMI A.Mining Association Rules between Sets of Items in Large Databases[M].Washington DC:Proc.ACMSIGMOD Int.Conf.,1993

篇7

【关键词】主成分分析法;系统聚类分析法;逐步回归法

【Abstract】In order to evaluate the accuracy of the wine tasters’, we first calculate the quadratic sum of difference between the mean score and the score given by that wine taster, then classify the grape wine. Using principal components analysis and systematical clustering method, we classify the grape. At last, we apply the stepwise regression method to build a model, indicating that the quality of the grape wine can be evaluated by the physical and chemical indexes of the grape and the wine.

【Key words】Principal components analysis;Systematical clustering method;Stepwise regression method

0 引言

葡萄酒的质量一般利用对评酒员对其各项指标的打分求和进行评价,而酿酒葡萄的好坏与葡萄酒的质量有很大的关系[1]。本文利用所给数据,采用多元统计分析的方法,完成了对酿酒葡萄的分级,并建立了酿酒葡萄与葡萄酒的理化指标的联系模型和葡萄和葡萄酒的理化指标对葡萄酒质量的影响模型。

1 数据来源与模型假设

本文数据来源于2012年全国大学生数学建模竞赛A题[2],根据所给数据,做出以下假设:(1)假设葡萄酒的生产加工流程相同且固定,即葡萄酒的质量只与葡萄有关;(2)假设评酒员均有一定资历,打分情况可以反映葡萄酒质量的真实水平;(3)假设评酒员打分相互独立,且各组评酒员的打分服从正态分布。

2 符号系统

N1――红葡萄酒的样品总数;N2――白葡萄酒的样品总数;N――各组评酒员的人数;x1ij――第m组评酒员号i对红葡萄酒样品j的评分;ti――葡萄样本n个一级理化指标中的第i个指标。

3 酿酒葡萄分级模型

3.1 数据处理

为了对葡萄进行分级,首先对各理化指标进行归一化处理,再确定其所对应的葡萄酒的质量,而质量是由评酒员对其分类指标打分求和而确定的,故评酒员的打分直接关系到对葡萄酒的分级,由于存在个人喜好导致的偏差,通过计算各评酒员在所有葡萄酒样品打分与均值差的平方和来确定该评酒员的准确度,结果见表1。本文选取平方和最小的前十位评酒员的评分作为分级的依据,分别为:第一组的评酒员1、5、10,以及第二组的评酒员1、2、3、4、5、7、9。

表1 评酒员的准确度测评表

3.2 酿酒葡萄理化指标的主成分分析模型

酿酒葡萄的理化指标在不同程度上反映了研究对象的某些信息,但不同理化指标之间会有一些相关性,而且由于变量过多,在某种程度上使问题的研究变得复杂,因此,本文用主成分分析法对所研究问题进行简化处理[4]。

对于27个红葡萄样本的30个一级理化指标组成的向量依次设为t1,t2,…,tn,取它们的线性组合指标为F1,F2,…,Fs(s≤m),即

F1=z11t1+z12t2+…+z1ntn,F2=z21t1+z22t2+…+z2ntn, ……Fs=zs1t1+zs2t2+…+zsntn.(1)

式(1)中的Fi,Fj(i≠j,j=1,2,…,s)相互无关,且Fs是与F1,F2,…,Fs-1都不相关的t1,t2,…,tn的所有线性组合中方差最大者。Fs称为t1,t2,…,tn的第s主成分。设t1,t2,…,tn各向量的数据为tij(i,j=1,2,…,n),计算出相关系数矩阵:R=(rij)n×n,求其特征值λi(i=1,2,…,n),并由大到小排序,并分别求出对应的单位特征向量ei=(ei1,ei2,…,ein)(i=1,2,…,n),继而求出主成分Fi的贡献率hi和累计贡献率Hi,取累计贡献率为85%~95%的s(s≤n)所对应的前s个主成分。计算主成分载荷zij=ρ(Fi,tj)=■(i=1,2,…,s;j=1,2,…,n),继而的相互各主成分的得分矩阵Z=(zij)n×n,部分结果见表2。白葡萄样品的理化指标的处理方法同上。通过累计贡献率表知,红葡萄样品和白葡萄样品的前三个主成分累计贡献率已经超过95%,因此均取s=3;将得分矩阵中的各数据值带入式(1),即可得到红葡萄样品和白葡萄样品的主成分。

表2 红葡萄样品协方差矩阵特征值,特征贡献率和累计贡献率表(部分)

3.3 酿酒葡萄理化指标的聚类分析模型

篇8

关键词:Excel 审计 数据挖掘 方法

一、引言

随着信息技术的广泛应用,审计数据变得越来越庞大和复杂,审计线索被日益复杂的信息系统和海量的业务数据所掩盖,审计人员面对各种以不同形式存储的数据资料进行分析,仅仅依靠传统的数据检索查询和统计分析方法是难以实现审计目标的。随着计算机技术在审计中的应用,计算机辅助审计技术得到了快速的发展。计算机辅助审计技术( Computer- aided Auditing Technique)是现代审计人员完成审计任务所不可缺少的工具。审计人员可以利用计算机编制审计计划、审计工作底稿,进行审计分析,查询有关法规条例,分析审计资料,并对计算机会计系统进行测试等。从计算机辅助审计的实践来看,虽然已由概念发展为一系列的可操作性实践,但由于审计工作对于审计人员素质的依赖性较强,计算机辅助功能的发挥尚且有限,特别是在以实质性分析为核心的审计证据查找工作中,尚缺乏有效的辅助工具。而在计算机应用研究中,面对“数据丰富,知识贫乏”的挑战, 数据挖掘、数据仓库等面向分析决策的计算机技术应运而生。这些技术无疑为现代审计提供了新的思路和方法,也为审计信息化的发展提供了新的途径。

二、审计中数据挖掘技术应用现状及Excel数据挖掘工具的功能

数据挖掘(Date Mining)是通过仔细分析大量数据来提示有意义的新的关系,一般采取排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式。数据挖掘是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括。

( 一 )审计中数据挖掘技术应用现状随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的大量数据,由于分析工具的有限,形成了一种独特的现象“丰富的数据,贫乏的知识”。为有效解决这一问题,自20世纪90年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求。数据挖掘技术从产生起就是面向应用的。目前,数据挖掘已在银行、电信、保险、交通、零售(如超级市场)等领域中成为决策支持的有效工具。数据挖掘的典型应用包括数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等。这些应用都是摆脱了原有行业的理论框架,从数据或者交易记录的自身规律出发,按照各自的目标,完成知识发现过程,从而为决策者提供有价值的信息。利用数据挖掘技术对被审计单位的海量数据进行发掘式审计,是现代审计技术方法一大突破,这一思路在审计研究和实践中已并不陌生。根据数据挖掘原理,基于数据控制的审计流程可分为以下阶段:数据预处理、发现规律、规律库的数据更新、审计系统的训练与测试,以及对形成的可疑数据进行审计判断。鉴于数据挖掘在其他领域的成功应用,学者们认为在理论上,数据挖掘有助于降低审计风险,提高审计质量。同时,在审计实践中的已出现了一些数据挖掘应用的典型案例,如基于关联规则的海关审单商品分类审计、基于孤立点挖掘的职工工资分析审计、利用聚类技术审计交易记录等,这些实践取得了不错的效果。由此可见,数据挖掘作为一种成熟的数据分析手段能够有效地从海量数据中提取有价值的信息,并已在审计工作中得到了初步应用。但由于数据挖掘技术包括大量的统计技术和数学建模技术,审计人员很难在短时间内掌握,多样性及复杂性使得这一应用还没有达到“落地”效果,寻找一种易于理解的数据挖掘工具显得十分必要的。

( 二 )Excel数据挖掘工具的功能当前数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。特定领域的数据挖掘工具针对特定领域的问题提供解决方案。这类工具针对性比较强,只能用于一种应用,而且往往采用特殊的算法,可以处理特殊的数据,发现的知识可靠度也比较高。如IBM公司的Advanced Scout系统就是针对NBA的数据,帮助教练进行优化战术组合的工具。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,如IBM公司Almaden研究中心开发的QUEST系统、SGI公司开发的MineSet、加拿大SimonFrase大学开发的DBMiner系统等。目前很多大型数据库和联机分析系统本身也集成了数据挖掘技术,使人们利用数据挖掘更为方便和快捷。然而对于一般的审计工作人员而言,这些工具都较为陌生,很难直接应用于工作之中。从当前计算机辅助审计的发展来看,Excel是最为审计人员熟悉和接受的软件,具有简单易于操作的特点。特别是Microsoft公司为Excel 2007以后版本提供了一个免费的数据挖掘外接程序SQLServer2005_DMAddin.msi,安装完SQL Server 2005后再安装该外接程序,在Excel中出现“数据挖掘”选项卡,这一模块包括九大模型:决策树、贝叶斯概率分类、关联分析、聚类分析、时序聚类、线性回归、Logistic回归、类神经网络和时间序列分析,基本涵盖了主要的数据挖掘技术方法。Excel2007数据挖掘功能分成七大区块的工具:数据准备、数据建模、准确性和验证、模型用法、管理、连接和帮助。数据准备是指在开始数据挖掘之前,对数据进行清除整理;数据建模是指开始进行数据挖掘步骤,可以建立挖掘模型、预测分析等。其中数据模型化的方法有分类、估计、关联、预测等。准确性和验证是指通过图型来查看挖掘模型;模型用法是指对已构建好的挖掘模型条件式查询其结果;管理是对已构建好的挖掘模型管理其挖掘结构;连接是设定与追踪Analysis Services的连接;帮助是指可取得数据挖掘加载项的使用说明。

三、基于Excel的审计数据挖掘的技术方法

查错纠弊是审计的基本作用之一,这使得寻找异常数据成为重要审计线索的发现途径,运用数据挖掘技术可以获得蕴涵在审计数据内部的模式、规律,审计人员能够有效发现经济业务的异常。结合Excel所提供的数据挖掘工具中的九个模型进行审计分析,其审计数据挖掘框架如(图1)所示。审计中所发现的异常情况反映在数据上,通常是离群点和孤立点。离群点是偏离一般规律和趋势的也数据,其分析通常是建立在估计预测分析基础之上的。孤立点是数据源中显著不同于其他数据的对象,其分析是建立在分类分析基础上。就Excel数据挖掘工具所提供的九种模型而言,可以有效实现估计预测分析和分类分析,进而用于离群点和孤立点的挖掘。

( 一 )离群点分析 离群点挖掘是过发现和分析明显偏离其他数据、不满足一般模式或规律数据的离群数据,找到有价值审计信息的一种技术方法。离群点是针对估计预测分析所得出的数据规律和趋势而言的。在Excel数据挖掘工具,估计预测分析工具包括线性回归、Logistic回归、类神经网络、时间序列分析和关联分析。线性回归主要用于了解自变量与因变量关系的方向及强度,以便用自变量建立模型对因变量做出预测;Logistic回归是对类别数据进行的回归分析,可以用于讨论定性变量和数值变量对同一类别变量的影响和关系;类神经网络是模仿人脑思考结构的数据分析模型,它可以根据输入变量与目标变量进行自主学习,并根据学习提到的知识不断调整参数来建立数学模型,它多用于数据具有高度非纯属且变量中具有相当程度的交互效应的情形,使用类神经网络无须了解系统的数学模型的具体形式,而直接用神经网络取代系统模型,得到输入与输出之间的对应关系;时间序列分析用于探索与时间相关数据的变化规律,进行趋势预测;关联分析是分析发现不同变量或个体间的关系程度。通过这些估计预测分析模型,审计人员可以发现不符合规律的离群点数据,进行着重对这些数据进行审查。如在销售收入审计中,可以通过时间序列分析探讨销售业务的基本规律,进行采用回归分析方法探讨过高收入或过低收入点的原因与合理性,从而将偏离正常业务范围的异常数据进行割离, 并对其进行仔细审核, 这样就大大节省了审计资源。在成本审计时,审计人员面对大量料、工、费相关数据常常无从入手,此时可利用关联规则技术发现其各成本项目与生产数量之间的关联性, 再根据存货仓库盘点数据及相关出、入库记录, 确定其产量, 根据关联规则确定的关联性,可以确定该被审计成本合理与否。

( 二 )孤立点分析 分类技术亦是一种重要的审计方法,在审计过程中对各类数据按一定规则和特质分为不同类别,进而根据不同类别采用适合的审计策略。分类可将事件分为正常和异常两种事件,通过分类所发现的异常事件即是孤立点。孤立点是数据源中与众不同的数据,审计人员通常认为这些数据并非随机偏差, 而是产生于完全不同的机制。审计中的可疑数据往往表现为孤立点,这使得基于分类技术的孤立点分析亦成为一项发现审计线索的有效手段。Excel所提供的模型中决策树、贝叶斯概率分类、时序聚类、聚类分析即是有效的分类分析技术,可用于孤立点的控制。决策树是用树型结构展现数据在受各类变量影响的情况下得到的预测模型,根据对目标变量的状态不同而建立分类规则;贝叶斯概率分类是在先知道总体中不同类别比例构成的基础上,通过训练样本,学习并产生这些训练样本的分类规则,再用这些规则对其他个体进行分类预测;时序聚类可根据用户浏览顺序对其进行分组,分析用户行为;聚类分析是对样本进行分类,寻找多变量个体之间的差异。在审计过程中,可以通过这些分类方法发现孤立点,找到数据的极端值。例如在救灾资金审计中,审计人员很难在短时间内对多个市县进行全面调查,只能选取重点地区进行详细分析。此时可能通过受灾地区的“受灾人口”、“紧急转移安置人口”、“受灾面积”等数据属性进行聚类分析,找出受灾因子与救灾因子不匹配的孤立点,进而进行详细审计。由于被审计对象复杂多样,根据审计目标,实质性分析程序是其重要的审计手段,离群点和孤立点是其重要的审计线索,鉴于Excel数据挖掘工具所能提供的各种估计预测技术和分类分析技术,Excel数据挖掘工具能够为审计人员提供一种有效的辅助工具,解决审计工作中数据分析的难题,提高审计效率和质量。

四、基于Excel审计数据挖掘的操作路径

采用Excel作为挖掘工具在审计中应用数据挖掘技术是最为切实可行的。(图2)是基于Excel的审计数据挖掘工作流程图。

( 一 )采集被审计单位电子数据 根据审计的目标和内容要求,获取被审计单位审计期间的数据库资料。接采集电子数据要从接受被审计单位的数据日志开始,按统一格式收集足够的信息系统提供的账务数据和对应的业务数据,数据挖掘技术运用的第一步就是要获取大量的数据,这是审计数据挖掘工作的起点。

( 二 )原始数据的预处理 原始数据的预处理同时也是Excel数据挖掘程序中的数据准备阶段。从被审计单位采集的原始数据,其数据结构可能不完全符合数据挖掘的要求,不利于审计人员从中发现问题。因此, 审计人员要从被审计数据信息集中选择适用于数据挖掘的数据,将原始数据转换成审计人员可识别的格式,并剔除数据结构中的干扰项目,使财务数据和业务数据更能直接地反映对应的经济业务,以便控制数据挖掘的准确性。Excel数据挖掘程序对原始数据的预处理,包括浏览数据、清除数据和为数据分区三大模块。浏览数据允许审计人员创建基于Excel表或Excel区域数据的基本统计信息,还可以生成相应的直方图进行分析。清除数据分为离群值和重新标记两部分,离群值允许审计人员从Excel区域的一列中删除罕见的值、或者高于或低于指定阈值的值;重新标记允许审计人员更改Excel区域一整列中的离散标签,这样做可以合并标签或消除无意义的数据标签。数据分区允许审计人员在现有数据结构内创建分区,现有数据可以是Excel表内的数据,也可以是Analysis Services查询。

( 三 )数据建模针对准备好的审计数据,按审计任务的所属类别,确定将要进行的挖掘操作类型或模型。Excel提供了分类、估计、聚类分析、关联和预测等工具,审计人员可以直接根据操作向导操作,选择有效的数据挖掘算法,产生一些数学分析模型并加以实现。除了提供的这些工具外,审计人员还可以根据审计业务的特别需求,在高级功能中选择创建挖掘模型向导,该向导允许审计人员选择用于挖掘模型的算法,制定算法使用的参数,以及指定输入数据中要使用的列。审计人员还可以利用向导将新建的数据挖掘模型添加到现有的挖掘结构中,这样新创建的模型与挖掘结构中的其他模型相同。

( 四 )准确性验证进行模型评价,解释并评估挖掘结果,测试模型的准确性。模型的建立是一个迭代循环过程,根据模型对数据的分析结果,对模型进行准确性验证,如果模型的效果不令人满意,可利用反馈机制重新运用挖掘工具进行建模、分析,直到模型可以把每一次的分析结果清晰、准确、明了地表述给有关审计人员为止。Excel数据挖掘程序提供了准确性图表、分类矩阵和利润图三个检验方法。准确性图表允许审计人员根据测试的数据评估现有模型的性能,如果模型是分类模型,该向导将生成一个提升图,显示与假设的理想模型相比的模型性能,如果模型是估计模型,将生成一个散点图,显示测试数据的模型估计值和实际值。分类矩阵将模型应用于测试数据的结果和测试数据的实际值进行比较,然后生成同时显示正确分类和错误分类的矩阵。利润图显示与挖掘模型的使用相关联的估计利润增长情况,以确定在商业应用场景中公司应该与那些客户联系。

( 五 )发现规律审计人员运用合适的数据挖掘算法对审计数据进行处理,发现数据中隐藏的规律,并寻找异常数据(离群点、孤立点),审计人员可根据不同被审计单位的行业背景、业务特点和数据模式,运用关联规则发现、序列模式挖掘等不同数据挖掘技术方法,获得被审计单位的数据规律,以检测是否存在异常。

( 六 )审计职业判断统计的信息包括业务规模、异常数据和业务流程违规等情况,这既是审计工作的核心,也是数据挖掘技术在审计中运用的主要成果的体现。 审计人员可以根据统计结果进行审计职业判断,对发现的问题进行综合分析并进行改进。

随着信息化的不断推进,企业ERP系统的普及,以及被审计单位的数据仓库日趋成熟完善,审计人员面对被审计单位的庞大财务数据和海量业务数据,必须探索和创新审计技术和方法,应用有效的数据分析工具。Excel是审计人员最为熟悉的数据分析软件,最新版本所提供的数据挖掘功能,能够有效地进行估计预测分析和分类分析,从而有助于离群点和孤立点的发现,是审计人员能够掌握和便于操作使用的审计数据挖掘软件包。运用基于Excel的审计分析技术和方法,对被审计单位的海量数据进行分析,获得审计线索,发现审计疑点,提高审计效率和效果,有效控制审计风险提供了一种有效的工具,也为审计信息化的深入发展和普及应用奠定了基础。

参考文献:

[1]李立成:《智能审计决策支持系统浅探》,《财会通讯》2009年第10期。

[2]:《电子数据质量在审计中的作用分析》,《财会通讯(综合)》2007年第5期。

[3]陈丹萍:《数据挖掘技术在现代审计中的运用研究》,《南京审计学院学报》2009年第4期。

[4]陈大峰等:《基于离群数据挖掘的计算机审计》,《南京审计学院学报》2009年第2期。

篇9

模糊数学是运用数学方法研究和处理模糊性现象的一门新兴学科,有着很强实际应用价值。模糊数学是由美国控制论专家L.A.扎德(L.A.Zadeh)教授所创立,它广泛应用于计算机科学、信息科学、自动控制、管理决策等众多自然科学与社会科学的众多领域,是数学专业学生必备的数学修养,更是等众多非数学专业学生的特色选修课程,许多高校将其作为本科生、研究生的公共选修课甚至是必修课。《模糊数学》的教学,不仅是让学生掌握模糊数学的基本知识和基本理论方法,更重要的是培养学生运用这些知识和理论方法解决实际问题的能力。

如何有针对性地将CDIO工程教育模式引入到《模糊数学》的教学理论与实践中,提高教育教学效果,提升学生的创造性解决问题的能力,成为我们教育工作者亟待解决的问题。

二、将CDIO 工程教育模式引入到《模糊数学》教学中的实施方案

笔者根据《模糊数学》课程的特点,将CDIO工程教育模式引入到《模糊数学》教学中,对《模糊数学》的教学方法进行了以下方面的探讨。

第一,打好基本的《模糊数学》课程理论基础,为引入CDIO 工程教育模式做好铺垫。作为理工类的二本院校,学生的理论知识掌握能力没有重点本科的理工类学生强,在教学中有针对性的介绍关键的理论知识,适当弱化理论教学过程。根据学生的实际情况,将模糊数学中的理论知识与经典数学中的相对应的理论知识对比介绍,使学生既分清了两者的区别,也明确了《模糊数学》的理论知识,为在《模糊数学》的教学中引入CDIO 工程教育模式做好充分的知识储备。

第二,在教学中重视理论联系实际,让学生在课堂上能接触到大量的实际问题,即通过典型实际案例,让学生学会CDIO理念中的构思和设计过程。模糊数学是因实际的需要而产生的一门应用性学科,它来源于实际又服务于实际。例如,在讲授“模糊模式识别”时,可设计“学生成绩优劣的识别”、“茶叶等级评定问题”、“超市商品条码的模糊识别问题”、“手纹的识别”、“疾病的识别”等问题的案例,组织学生应用“最大隶属原则”和“择近原则”来解决这类实际问题;在讲授“模糊聚类分析方法”时,可结合“2000年全国大学生数学建模竞赛A题―DNA序列分类”、“高校硕士研究生的招生排序”等案例引导学生从提出问题到分析问题,如何应用模糊聚类分析方法来解决问题;在讲授“模糊综合评判”时,可结合“大学生综合素质的多级模糊综合评判”、“高校学风的多级模糊综合评判”、“教师教学水平的模糊综合评判”等案例进行讲解模糊综合评判的方法和步骤。通过典型案例教学,使学生经历较系统的数据处理全过程,在此过程中让学生学会CDIO理念中的构思和设计的技巧。

第三,学生自愿组成学习小组合作完成特定的模块任务,以实现CDIO理念中的实现和运作过程。将全班分为多个讨论小组,3 到5 人一组,可以学生自己组合,也可以由老师指定,但最好每组有一位成绩较好的学生。将课程内容涉及到的多个实际应用的问题,由所有学生自行选择一到两个,或者可以由学生自行选择相关问题,比如解决“高校教学评估的多级模糊综合评判”等问题。每个小组先围绕所选问题找到解决方案,以小论文的形式呈现出来,然后以小组为单位再就某一个问题展开讨论,以最优的解决方案呈现出来。以小组为单位向全班同学做10-15分钟的展示答辩,形式类似毕业答辩,但可以全班集体参与讨论某个未解决的问题。组内所有成员一起参与答辩(以每个人完成的不同任务分别展示,如:收集整理资料、模型建立过程、计算机实现过程等),也可以派一名代表做展示?蟾妗⒋鸨纭?

通过以上过程,让学生践行CDIO教育理念,实现了学生是学习主体这一教学目标,且在此过程中充分调动了学生学习的主观能动性,取得了较好的学习效果。

篇10

关键词:金银花;山银花;挥发油;傅立叶变换红外光谱法;特征图谱;模式识别;鉴别

DOI:10.3969/j.issn.1005-5304.2013.11.024

中图分类号:R284.1 文献标识码:A 文章编号:1005-5304(2013)11-0063-03

2010年版《中华人民共和国药典(一部)》(以下简称《中国药典》)收载成方制剂“金银花露”,规定以金银花药材挥发油为主要药效成分,但收载的药材金银花、山银花品种没有挥发油质量控制项目[1]。因此,有必要研究合适的质量控制方法来鉴别金银花、山银花的挥发油成分。红外光谱鉴别法是一种专属性强的鉴别方法,多用于化学药的鉴别。中药提取物是混合物,红外光谱信息复杂,但采用化学计量学方法分析对其进行化学模式识别,可用于中药的鉴别[2-5]。本试验研究金银花、山银花挥发油的提取、红外制样、傅立叶变换红外光谱前处理和分析,用于建立金银花挥发油的鉴别方法,为鉴别金银花、山银花挥发油及用傅立叶变换红外光谱法进行中药鉴别提供参考。

1 仪器与试药

IRAffinity-1傅立叶红外光谱仪、溴化钾窗片来自日本

基金项目:广东省中医药局课题(20122071)

通讯作者:吴美珠,E-mail:

岛津公司。无水硫酸钠、氯化钠、乙酸乙酯、乙醚、正己烷为分析纯,溴化钾为光谱纯。蒸馏水为实验室制备。自编的数据处理程序在NetBeans IDE 6.9.1(美国甲骨文公司)软件下用Java语言开发。相似度计算和聚类分析使用SPSS20.0软件(美国IBM公司)。

金银花样品包括:1号样品购自河南新乡,2号样品购自山东菏泽,3、4号样品购自山东平邑;山银花样品包括:5号样品购自湖南郴州(灰毡毛忍冬),6号样品购自广西桂林(黄褐毛忍冬),7号样品购自广东广州(华南忍冬),8号样品购自广东肇庆(红腺忍冬)。上述样品经唐铁鑫鉴定,标本存于肇庆医学高等专科学校。

2 方法与结果

2.1 样品制备方法

参考《中国药典》中“金银花露”项下样品处理方法[1],称取20 g 样品粗粉,置250 mL圆底烧瓶中,加水100 mL、氯化钠20 g,并加入数粒玻璃珠。将烧瓶放入电热套中,连接挥发油测定器,自连接回流冷凝管处加水至溢流入烧瓶,再加入正己烷2 mL,连接回流冷凝管。开启电热套加热,从形成回流起计时,保持微沸2 h。停止加热,撤去回流管,分取有机层溶液至具塞离心管中,加入1 g无水硫酸钠,强烈振摇,放置备用。用前于5000 r/min离心5 min,取上清液测定。

2.2 傅立叶变换红外光谱测定方法

将经正己烷、无水乙醇洗涤干净并干燥好的空白溴化钾窗片放入红外光谱仪,扫描空白光谱图。将得到的含挥发油的有机溶液滴在溴化钾窗片上,每滴下1滴后待溶剂挥发后再滴,重复多次至形成一层油膜。将载有样品挥发油的溴化钾窗片放入红外光谱仪,扫描样品光谱图。扫描范围为4000~400 cm﹣1,扫描次数为20次。间隔3 min后重复测定1次。

2.3 傅立叶变换红外光谱数据分析方法

将光谱图数据(横坐标为波数cm-1,纵坐标为透光率T%)从IRSolution软件导出成文本数据。用自编软件进行数据处理,去除基线趋势并对曲线进行平滑。基线趋势去除算法为:用最小二乘法对样品的光谱数据进行二次曲线方程拟合[6],将样品的光谱数据与相应波数代入拟合的曲线方程计算出来的数值比较,计算平均偏差,将各点的偏差与平均偏差比较,剔除偏差大于3倍平均偏差的点,将余下的数据点再拟合和剔除数据一次,将余下数据拟合成最终的基线趋势二次曲线方程,然后将原来的光谱数据减去相应波数代入拟合的曲线方程再次计算,从而得到新的光谱数据。曲线平滑算法采用窗口长度为11个数据点的中值滤波算法[7]。

各样品的红外光谱经过基线趋势去除和曲线平滑处理后,选取1800~850 cm-1范围的数据作为一维有序变量数组输入SPSS20.0软件,以Pearson相关性(相关系数法)作为区间,进行系统聚类分析,输出相似度矩阵和树状图结果,通过聚类分析结果鉴别金银花挥发油。

2.4 影响因素考察

2.4.1 萃取溶剂的比较 分别将乙醚、乙酸乙酯和正己烷用于萃取,测得的相应傅立叶变换红外光谱见图1。其中正己烷重复性最好,因此选用正己烷用于挥发油的萃取。

2.4.2 红外光谱的基线趋势去除和曲线平滑处理 基线趋势去除处理的效果见图2。图1C中2次测定得到的原始光谱图基线趋势有较大差别,处理后的图谱见图2。可以看到,经过处理后,2个图谱基本重叠在一起,表明所采用的算法是有效的。用中值滤波算法对红外光谱进行曲线平滑的效果见图3。参考文献[7]比较了不同的曲线平滑算法,选用了中值滤波算法。尝试了不同长度的数字滤波窗口,以11个点的效果最佳,可以在滤除噪音的同时较好地保留峰信息。

2.4.3 特征波数范围选择 将8个样本的光谱图叠加,如图4所示,3000 cm-1以上区域受到较大的干扰而且没有特征性,3000 cm-1由于-OH伸缩振动峰的重叠,特征性差。1800~2800 cm-1主要呈现为较平坦的基线,特征性不强。通过选取1800~400 cm-1范围内的光谱进行分析,发现如果将850 cm-1以下的数据包括进来,结果不理想。最终确定特征波数范围为1800~850 cm-1,8个样本的特征范围内的光谱图见图5。

3 讨论

色谱或光谱特征图谱是控制中药质量的有效方法,能反映中药的整体化学特征,成为鉴别中药真伪的国际公认方法[8]。2010年版《中国药典》首次收载了多个药材、饮片、提取物及制剂的特征图谱。红外光谱反映分子中所有主要功能基的吸收信号,任何药物分子的红外光谱都具有唯一性,所以,化学原料药普遍采用红外光谱来鉴别真伪。因为红外光谱都具有加和性,中药粉末或提取物是混合物,使用红外光谱法鉴别中药材存在专属性差、分辨率低的问题。但利用计算机技术和数学方法进行处理,并通过化学计量学方法进行化学模式识别,红外光谱法也可用于中药鉴别,而且与色谱特征图谱以相对保留时间为纵坐标相比,红外光谱特征图谱的纵坐标为光频率,重现性更好,更容易建立图谱数据库进行分析比较。因此,选择采用红外光谱技术结合特征图谱的模式识别进行金银花挥发油的鉴别。

金银花挥发油含量很低,通常的挥发油提取法收集挥发油进行涂膜制样需要大量金银花药材。为了减少取样量,本研究在挥发油测定器侧管加入有机溶剂进行连续萃取制备挥发油的溶液[1],用于红外光谱测定。结果表明该制备方法是有效的。

本研究中获得的样品原始红外光谱基线变化大,噪音干扰大,因此需要进行基线趋势去除和曲线平滑处理,结果表明,基线趋势去除和曲线平滑处理能有效去除基线变化和噪音造成的干扰。由于挥发油的红外图谱是多种化学成分的混合图谱,各种信号叠加,而使用共有峰的峰面积或峰高作为矢量计算相似度无法体现峰型变化的差异,也就很难代表样品的差异。因此,本研究采用将特征波数范围内全谱数据作为向量用于聚类分析的方法。化学模式识别方法很多,系统聚类分析是一种非监督模式识别方法,不需要通过样品培训建模,普遍用于化学计量学研究中,因此本试验采用该法。在实际应用中,可以用正品和伪品金银花样品测定结果建立数据库,将待鉴别样品测定数据与数据库的数据进行聚类分析,根据是否先与正品样品数据聚类来确定真伪。

本研究的金银花和山银花挥发油傅立叶变换红外光谱鉴别方法包括样品提取、红外制样和傅立叶变换红外光谱测定、光谱前处理、特征范围内光谱聚类分析等步骤。通过8个样品的实际测定,能区别金银花和山银花挥发油,可用于鉴别金银花挥发油,对其他药材傅立叶变换红外光谱分析研究也具有参考价值。

参考文献:

[1] 国家药典委员会.中华人民共和国药典:一部[S].北京:中国医药科技出版社,2010:28-29,208-209,830-831,附录63.

[2] 陈亚,江滨,曾元儿.红外光谱在中药鉴别中的应用[J].广州中医药大学学报,2004,21(3):237-240.

[3] 张石楠,张桂芝,张立.中药饮片挥发油的红外指纹图谱研究[J].现代中药研究与实践,2009,23(1):25-27.

[4] Cheng C, Liu J, Wang H, et al. Infrared spectroscopic studies of Chinese medicines[J]. Applied Spectroscopy Reviews,2010,45:165-178.

[5] 袁玉峰,陶站华,刘军,等.红外光谱结合主成分分析鉴别不同产地黄柏[J].光谱学与光谱分析,2011,31(5):1258-1261.

[6] Kiusalaas J. Numerical methods in engineering with python[M]. Cambridge,UK:Cambridge University Press,2005:103-141.

[7] Vaseghi SV. Advanced digital signal processing and noise reduction [M]. 3rd Edition. West Sussex,UK:John Wiley & Sons Ltd, 2006:319-336.