雷雨话剧范文

时间:2023-03-23 12:45:00

导语:如何才能写好一篇雷雨话剧,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

雷雨话剧

篇1

[关键词]孙道临;改编,《雷雨》;电影

话剧《雷雨》创作于1933年,发表于1934年的《文学季刊》第一卷第3期。50年以后的1983年,孙道临对它进行了改编、导演,由上海电影制片厂拍摄成同名电影,孙道临在电影中扮演了周朴园的角色。这虽说是一次大胆的尝试,成功的地方有目共睹,但美中不足的是,孙道临在改编、导演《雷雨》时,有两个方面偏离了的本来意思:删去《雷雨》的序幕和尾声,使电影的整体结构性与内在感染力大大削弱;对人物阶级性的重心偏移,使电影的主要人物失却原有的厚重感和真实性。

1942年,曾将巴金的小说《家》改编成为同名话剧,因为他改编的幅度很大,所以当他把稿件交给巴金时感到心中不安,但巴金看过以后却“欣然肯定”了他的改编,这一点使他“终身不能忘怀”。1983年,孙道临将话剧《雷雨》改编成同名电影之后,却没有发表任何关于这次改编的意见,有意思的是,他却在1985年,和他的女儿万方一起将其话剧剧本《日出》改编成电影,也由上海电影制片厂隆重推出。这至少说明,是很注意改编作品的,他对孙道临改编《雷雨》是持保留态度的。

电影是一种现代化的综合艺术,按照常规它在时间的把握上、道具的筹备上、光、电、声的综合搭配上,都应当比话剧更具操作上的灵活性和方便性。但孙道临却很轻率地将《雷雨》的序幕和尾声删去了。其实,对《雷雨》的序幕和尾声是相当重视的,但是历来的导演们,从来不注重的感觉,致使《雷雨》的序幕和尾声几乎没有被搬上过舞台,这使非常失望:“《雷雨》被斫去了‘序曲’和‘尾声’,无头无尾,直挺挺一段躯干摆在人们面前。……果若一味凭信自己的主见,不肯多体贴作者执笔时的苦心,便率尔删除,这确实是残忍的。”、万方1985年将《日出》改编为电影剧本时,首先就“增加了序幕”,也增加了尾声――“光明的尾巴”。

孙道临之所以这样做,可能有多方面的原因,但重要的一点是他没有很好地理解的《雷雨・序》,写作《雷雨》的序幕和尾声的真正用意是“仿佛有希腊悲剧Chorus一部分的功能,导引观众的情绪入于更宽阔的深思的海。”“Chorus”的意思就是“合唱队”“合唱”,所以,在此我们可以明显看到希腊悲剧中合唱队的影响和启示。是想用音乐的功能来表达文学的意思。

开幕时,外面远处有钟声。教堂内合唱颂主歌同大风琴声,最好是Bach:High Mass in B Minor Benedictus qui venaitDomino Nomini――屋内寂静无人。

……老妇人渐渐倒在地上,舞台全暗,听见远处合唱弥撒和大风琴声……大弥撒声。

在第四幕结束时,作者又呼应前面:

舞台渐暗,奏序幕之音乐(High Mass-Bach)若在远处奏起,至完全黑暗时最响,与序幕末尾音乐声同。幕落,即开,接尾声。

在尾声中:

开幕时舞台黑暗。只听见远处教堂合唱弥撒声同大风琴声,序幕姊弟的声音。

在此所最想运用的是巴赫的《b小调弥撒曲》,这部弥撒曲包括四部五个乐章,一共27个乐段,其音域广泛、结构复杂、技巧繁复、意蕴丰富,可以说是整个宗教音乐中最有代表意义的华章,具有浓重的宗教气氛,而且它包含了全宇宙中所有的事件经历、全人类所有的情感,当然也是想概括或者代表周朴园一生及其一家人的遭遇。《b小调弥撒曲》出现在“序幕”和“尾声”中对全剧具有一种预告、总结、照应和涵盖作用。它的旋律自然、朴素、优美,在教堂演唱时,具有庄严肃穆的色彩;人们听后可消除尘世俗念,体会上帝的神圣与慈爱。因此,在“序幕”和“尾声”中,以演奏巴赫的《b小调弥撒曲》为主,另外还有不可忽视的且与之相协调的弥撒合唱声,由音乐起,以音乐终,使全剧具有浓郁的肃穆的氛围,观众被深深地吸引到剧情中去了。孙道临改编、导演的《雷雨》开幕时比较简单、直接,画面上首先出现的是江南水乡,一艘轮船穿过江桥,劈波斩浪向前挺进,这可能是告诉观众周朴园从无锡来到北方某城市;音乐也是比较单调的管弦乐的交替或并行演奏,其旋律和节奏相对简洁,如此效果,观看电影后能不表示遗憾吗?经过10年“”以后,的性格几乎变得圆滑起来,有时简直就是一个“好好先生”。如果他对电影《雷雨》没有很大的反感情绪,他一般情况下肯定是要说话的,但他却什么也未表示。这些不太重视音乐的导演们从一开始就割裂了对《雷雨》的整体思维,割裂了文学和音乐之间那种微妙而神奇的联系,使其感染力大大削弱。

其次,还想让序幕和尾声给观众以“所谓的‘欣赏的距离’。这样,看戏的人们可以处在适中的地位来看戏,而不至于使情感或者理解受了惊吓。”孙道临导演的电影《雷雨》一开始就直奔主题,没有给观众一个预设的心理;到结束时,舞台上风声、雨声、叫声、哭声、枪声此伏彼起,一疯、一傻、一逃、三死悲惨欲绝,丢下一个痛苦的周朴园。观众对故事『青节的变化感到目不暇接,给人的感觉是紧张激烈,扣人心弦,让观众一刻也得不到休息与放松,使观众看了以后心里很累。这样,从根本上违背了的本意。众所周知,“电影改编贵在创造,但终究不过是一种‘二度刨作’。与一般创作相比,其自由度就少得多,要受到许多限制。”。改编者“要懂得原著的长处在哪里,不足在哪里,不要把原著的缺点扩张了,也不要把原著的精华损伤了……方是忠于原著的最好态度。”上海芭蕾舞团将《雷雨》改编为大型芭蕾舞剧,不但对改编以后的几个重要人物的性格的表现给予了首肯,同时,“对舞剧《雷雨》的音乐、舞美设计也很赞赏”。两年之后却没有给孙道临改编、导演的同名电影《雷雨》以一个字的说法,个中原因不言自明。

1956年《剧本》记者采访了,并撰文《同志漫谈(家)的改编》,在文中说:“改编者必须尽力理解原著精神,融会贯通……只有把原著加以消化,成为自己的血肉,改编的剧本才会有生命。……写剧本不应该老是被政治概念拖着走。作者所以被政治概念拖着走,这说明他还是落在政治的后面,作者的生活、思想没有赶上政治的要求,因此在写作的时候常常处于被动的状态。”孙道临所改编、导演的电影《雷雨》在政治性方面有着明显的缺陷。

在《雷雨》电影中,鲁侍萍似乎变成了一个顶天立地、敢于斗争的无产阶级女性形象:她与周朴园狭路相逢在周公馆,但她却显得非常主动、镇静,两次主动要借机 溜走,离开周公馆,而周朴园却是主动、及时叫她留下。孙道临所要表现的是鲁侍萍要走,周朴园要留;但在话剧剧本中所要表现的正好相反:鲁侍萍要留,周朴园要赶:

周朴园:(看她不走)你不知道这间房子底下人不准随便进来么?

鲁侍萍:(看着他)不知道,老爷。

周朴园:你是新来的下人?

鲁侍萍:不是的,我找我的女儿来的。

周朴园:你的女儿?

鲁侍萍:四凤是我的女儿。

周朴园:那你走错屋子了。

鲁侍萍:哦。――老爷没事了?

周朴园:(指窗)窗户谁叫打开的?

鲁侍萍:哦。(很自然地走到窗前,慢慢地走向中门)

当周朴园提醒她走错了屋子的时候,她还是留恋不已,没话找话地问“老爷没事了?”以延宕时间,然后利用关窗户的时机,再一次创造机会,果然周朴园又开始打昕30年来他一直打听的那件事,没想侍萍回答得比他问的还清楚:自己的隐私别人居然知道得更详细。这使周朴园感到很难堪,第二次发出了逐客令:

周朴园好,你先下去。让我想一想。

鲁侍萍

老爷,没有事了?(望着朴园,眼泪要涌出)老爷,您那件雨衣,我怎么说?

这时,鲁侍萍却不愿走,又问了一句“老爷。没事了?”,然后主动说出只有他俩知道的绣有“梅”字的绸衬衣,同时发出了深情的呼唤:“朴园,你找侍萍么?侍萍在这儿。”

孙道临虽然说曾一度扮演过话剧《雷雨》中的周萍和周冲,但是由于1983年是个特殊的年代――改革开放刚刚开始,所以他的心中还一直有“阶级斗争”这根弦,而且是紧绷绷的。在电影中,孙道临俨然是让鲁侍萍审判周朴园,甚至将受苦受难30年的鲁侍萍歇斯底里地撕碎周朴园给她的支票的细节也改成了鲁侍萍很轻蔑、很自信地把支票放在煤油灯上烧掉,把第三幕中鲁大海要拿手枪去找周家复仇而侍萍誓死阻止的情节也全部省略。

当然,与此同时,孙道临把周朴园的形象也进行了一番修改,真正地把周朴园塑造成了一个所谓“专横、冷酷、自私、虚伪”的资本家形象。关于周朴园形象的复杂性大家都不陌生,蓝棣之曾经问过一个不到10岁的小女孩儿,问她看过话剧《雷雨》以后认为剧中最好的是哪个人,这个小女孩儿居然说是“周朴园”,这证明原本并没想把周朴园写得很坏,因为的父亲万德尊就是周朴园形象的原型之一,在主观上也是不会那样做的。但是,孙道临在电影中却把周朴园话语和动作大块大块地删除。

①周朴园在感觉到鲁侍萍的关窗户动作非常熟悉的时候,问:“你贵姓?”“你在无锡是什么时候?”

②周朴园问鲁侍萍:“你在无锡是什么时候?”

③周朴园说:“无锡是个好地方。”

④周朴园一直在亲自打听或派人打听鲁侍萍的下落。

篇2

【关键词】虚拟场景;路经规划;八叉树;A*算法

中图分类号:TP39文献标识码A文章编号1006-0278(2013)06-172-01

一、引言

随着虚拟现实技术的日益成熟,只有景色、建筑物等一般视景信息的虚拟场景已不能满足人们的视觉需求,迫切需求一个有生命的对象引入到虚拟场景中,增加浏览者的沉浸感。虚拟场景中虚拟人的路径规划是虚拟现实研究中的一项关键技术。目前,研究者们已经把研究的重心放在如何为虚拟人规划出一条行走的最优路径,使虚拟人的路径导航更具有真实感和可信度。

由于虚拟环境中的模型多由三角面网格组成,通过使用基于空间多层次划分的八叉树方法,充分发挥了其空间划分的优势,加快了场景的渲染速度,减少了确定对象的处理时间以及存储空间①。

文章采用八叉树和A*算法相结合的方法,对路径进行规划,并对A*算法做了改进,以适应八叉树的存储结构。

二、密集型区域八叉树划分算法

八叉树是由四叉树推广到三维空间而形成的一种三维栅格数据结构,它作为一种场景组织方法,广泛应用于虚拟现实系统,可显著减少对场景中多边形进行排序的时间。

由于传统八叉树对空间的划分是均匀的,导致了最终生成一个结构不平衡的八叉树,从而增加整个八叉树的存储空间以及各结点的遍历时间。文章采用了对传统八叉树算法进行改进,采用基于密集型区域八叉树划分方法。密集型区域八叉树的网格划分算法是对每一子空间重新建立最小包围盒,这样避免了在建立顶点树时,由于该部分顶点在空间上分布不均匀而导致树的深度的增加,进而减少了存储空间,加快了网格模型数据的读取速度。另外,由于建立了顶点的最小包围盒,在误差较小时,只有空间距离比较近的顶点才会聚合在一起;而相距较远的顶点只有在深层次简化时才会聚合,这些特点在一定程度上保证了简化时网格模型的逼真度。

密集型区域八叉树划分方法的算法描述如下:

步骤1使用OBB包围盒方法建立模型的最小包围盒。

步骤2以包围盒的X轴、Y轴、Z轴方向的中分面作为分割基准,将包围盒平均划分为八个子包围盒。

步骤3如果每个子空间内存在物体的属性不相同或未达到规定的限差,则重新从步骤1开始进行划分。否则,划分结束,并对划分后的每一个结点记录下结点编号、划分标志、结点在顶点树中的深度以及它所含的景物面片表的入口指针。

三、A*算法

A*算法是建立在典型的Dijkstra算法上的,是由Hart,Nilsson,Raphael等人首先提出的。该算法的创新之处在于选择下一个被检查的节点时引入了已知的全局信息,对当前节点距终点的距离做出估计,作为评价该节点处于最优路线上的可能性的量度,这样就可以首先搜索可能性较大的节点,从而提高了搜索过程的效率。

下面是对A*算法的介绍,我们首先来介绍一下启发式搜索中的估计函数。因为在启发式搜索中,对位置的估价是十分重要的。估价函数的表示如下:

其中是节点的估价函数,是已知的,指在状态空间中从初始节点到节点的实际代价;是从结点到目标节点最佳路径的估计代价,它体现了搜索的启发信息,启发信息决定着算法的启发能力。启发信息越多,估价函数就越好,即约束条件越多,则排除的节点就越多,说明这个算法越好。这种做法存在一个平衡的问题,也会使算法的准确性下降。具体的说,代表了搜索的广度优先趋势,当时,可以省略,这样就提高了搜索效率。

A*算法是一个可采纳的最好优先算法。A*算法的估价函数可表示为:

这里,是估价函数,是起点到终点的最短路径值,是到目标的最短路经启发值。由于这个其实是无法预先知道的,所以我们用前面的估价函数做近似。代替,但需要满足(在大多数情况下都满足时,可以不用考虑)。代替,并满足。可以证明应用这样的估价函数是可以找到最短路径的。

四、基于密集型区域八叉树的A*算法改进

由于使用八叉树存储结构存储的环境地图扩展步长不一致,采用传统的A*算法效率较低,因此对A*算法做了改进,以适应八叉树结构的搜索。改进的办法是从叶节点开始搜索并为Open表设置两个优先队列,命名为队列1和队列2(队列1中存放的节点总是高于队列2),在两个队列中分别存放相邻层次的全部节点,层次越高的优先级越高。通过这种分层次的搜索,也大大缩小了搜索的空间并缩短了搜索时间,这样一来大大提高了搜索效率。

五、结束语

针对于复杂的3D环境,文章根据八叉树适合虚拟场景划分的特点,采用了一种适合密集型区域的八叉树划分方法,进行场景划分。为适合八叉树的存储结构,对A*算法做了改进,引入优先级队列并采用了分层结构,采用了从叶节点到根节点的搜索方法,规划出了虚拟人行走的最优路径。

篇3

关键词:聚类算法;并行;K-means;PAM

中图分类号:TP391文献标识码:A文章编号:1009-3044(2009)24-7010-03

Research on Parallelizing Based on Clustering Algorithm

PENG Hou-wen, YANG Shuang, HE Feng-cheng

(Dalian University of TechnologyNational Exemplary Software School, Dalian 116620, China)

Abstract: Cluster analysis is an important component of data mining, aiming at improving the executive efficiency of clustering. In this paper, a method of parallel operating is applied to k-means algorithm and PAM algorithm, in order to improve these two algorithms. Experiments show that: parallel k-means algorithm has better performance than serial k-means algorithm; and k-means algorithm has better parallelism and extendibility than PAM algorithm. Finally, this paper puts forward the idea of introducing the method of parallel operating into spectral clustering algorithm technology.

Key words: clustering algorithm; parallelizing; k-means PAM

所谓数据挖掘,简言之是指在大量的数据中发现、提取潜在的有用信息和知识的过程。聚类分析是数据挖掘法技术中重要组成部分,聚类分析是指根据数据中对象及其之间的关系,将数据对象分组。其目标是,使组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类效果就越好[1]。

由于数据挖掘是从海量数据中提取有用信息,处理效率问题成了对海量数据处理的瓶颈之一,传统的单机串行算法效率较低;由于部分聚类算法中蕴涵并行性,所以为了解决处理效率问题,将并行化的程序设计思想(并行处理)引入聚类算法,同时降低算法的复杂度,使用机群系统进行并行计算,从而有效的缩短聚类的时间。

1 K-means算法

1.1 传统K-means聚类算法

K-means算法以k为输入参数,把包含n个对象的集合分为k个簇,使得结果簇内的相似度高,而簇间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看做簇的质心或重心[2]。

传统K-means算法的处理流程如下:

输入: k:簇的数目

D:包含n个对象的数据集

输出:k个簇的集合

方法:

1) 从D中任意选择k个对象作为初始簇重心

2) Do

3) 根据簇中对象的均值,将每个对象(再)指派到最相似的簇

4) 更新簇均值,即计算每个簇中对象的均值

5) while 数据集中所有对象的平方误差和E不再发生变化

通常,采用平方误差准则,其定义如下:

其中,E是数据集中所有对象的平方误差和,p是空间中的点,即给定对象,mi是簇Ci的均值(p和mi都是多维的)。换言之,对于每个簇中的每个对象,求对象到簇中心距离的平方再求和。这个准则试图使得生成的k个结果簇尽可能的紧凑和独立。

1.2 并行化K-means改进算法

随着并行处理技术的快速发展,越来越多的研究人员尝试将并行处理方法应用于提高聚类算法的效率,通过研究发现K-means算法具有很大的并行性。首先,可将待挖掘的数据集N划分为t个数据子集,t为并行处理环境中处理机的数目;然后将划分后t个数据子集分别发送到t台处理机进行数据聚类处理;最后主机将收到的节点机的聚类结果计算平方误差准则函数E的值,并将前后两次结果做差,如果差的绝对值小于阈值10-6,则处理结束,否则继续循环处理。并行K-means算法的流程如图1所示。

1.3 实验结果与分析

我们搭建工作站机群系统,通过以太网卡等连接5台PC机(Intel P4.17GHz、256MB RAM,安装LINUX redhat OS),采用Master/Slave模式的数据并行策略,建立基于消息传递的工作站机群系统,用MPI进行算法编程验证实验。

本实验的主要目的是验证并行化后的K-means算法的执行时间和效率,所以为了简单起见,本实验中的数据是通过计算机随机产生的整型数据。同时,我们将并行与串行算法的实验结果相比较,当进行算法比较时,把程序运行10次并取平均值进行作图比较(如图2)。

从图2中我们可以看出并行K-means在数据集较大时表现出比串行K-means更好的执行效率,而当数据集较小时,主要由于并行计算中PC间通信时耗较大,所以单机串行算法表现出相对更高的执行效率。实验可以证明K-means算法在并行机群上具有了良好的并行性和可扩展性。

2 PAM算法

2.1 PAM聚类算法

PAM是k中心点(k-medoid)算法之一,它试图确定n个对象的k个划分。在随机选择k个初始代表对象之后,该算法反复试图选择簇的更好的代表对象。分析所有可能的对象对,每对中的一个对象看作是代表对象,另一个看做非代表对象。对于每个这样的组合,计算结果聚类的质量。对象oj被那个可以使误差值减少最多的对象所取代。再一次迭代中产生的每个簇中最好的对象集合成为下次迭代的代表对象。最终集合中的代表对象便是簇的代表中心。PAM算法的处理流程如下[2]:

输入:k: 结果簇的个数

D: 包含n个对象的数据集合

输出:k个簇的集合

方法:

1) 从D中任意选取k个对象作为初始的对象或种子

2) repeat

3) 将每个剩余对象指派到最近的代表对象所代表的簇

4) 随机地选取一个非代表对象Orandom

5) 计算用Orandom交换代表对象Oj的总代价S

6) if S

7) until不在发生变化

2.2 并行化PAM改进算法

为了使问题简单化,首先我们选择任意的当前k个对象作为节点{Ol,…,Ok}。对于PAM算法,当每一步结束时,一种情况是找到一个代价最小的相邻节点,另一种情况是算法结束(当前节点代价最小)[3]。如果我们需要从当前节点移动到一个新的节点,我们必须交换一个已选对象和一个未选对象。为了保证已选对象在前k位,我们交换他们的下标。这样{Ol,…,Ok}会一直作为当前节点,而且不会受到当前节点移动的影响。

PAM的主要任务是检查当前节点的所有相邻节点,而且必须在划分的同时检查[3]。假设在p个进程(记为p1,p2,…,pp)上运行PAM算法。算法描述为:

1)将所有相邻节点写在列表中并按下标(升序)排序;

2)前[k(n-k)/p]个相邻节点指派给p1,接着的[k(n-k)/p]个相邻节点指派给 p2,…,最后的[k(n-k)/p]个相邻节点指派给process p;

3)p个进程并行,并且报告各自相邻节点n1,…,np;

4)如果没有相邻节点被报告,算法结束(当前节点的代价最小);

5)从n1,…,np中选择代价最小的节点,将此节点改为当前节点,重复第一步。

下面举一个例子简单说明该算法,给定一个对象集{1,2,3,4,5,6,7},假设k=4,“1234”相邻节点为(用上述方法得到):1235,1236,1237(i=4);1245,1246,1247(i=3);1345,1346,1347(i=2);2345,2346,2347(i=1)。

每个进程被指派任务后,各自查找代价最小的节点,最后所有的进程(除了p1)将得到的节点报告给p1,由p1作比较工作。

2.3 实验结果与分析

利用2.3中搭建的工作站机群系统,此时用3台PC机,进行PAM算法的执行效率验证,并对比串行和并行PAM的执行时间(如图3),由于PAM算法不适用于大量数据集的处理,所以实验n取1000以内的数值。

从图3中我们可以看出并行PAM的执行时间比串行PAM的执行时间长,并没有提高算法的执行效率,由此我们可知K-means算法有比PAM更好的并行性和可扩展性。

3 具有并行性的其他聚类算法

聚类算法中除了上述K-means、PAM算法具有潜在的并行性和可扩展性外,还有一些算法可以进行并行化处理例如:并行硬聚类算法中的K-mediods,面向大规模数据库系统的BIRCH算法,处理非数值属性聚类的CACTUS算法,子空间聚类算法ENCLUS等[4],以及模糊聚类算法中的FCM等算法,理论上也具有在并行机群上的加速性。

4 进一步研究方向与展望

近年来诞生了聚类算法中的一个崭新分支和研究热点―谱聚类算法,谱聚类算法建立在谱图理论之上,其实质是将聚类问题转化为图的最优划分问题,相对于传统的聚类算法有许多优势,并在实践中取得了很好的效果。由于谱聚类算法一般可以归纳总结为三个步骤[5]:

步骤一:构造数据集表示矩阵Z;

步骤二:计算Z的前k个特征值和特征向量,构造特征值的向量空间;

步骤三:利用K-means或其它传统聚类算法对特征向量进行聚类。

由于谱聚类算法研究中可以运用K-means算法等具有并行性的聚类算法进行特征向量的聚类,所以本文对K-means算法并行化的研究也可以运用于谱聚类的并行化,提高谱聚类算法的执行效率,是很有前景的研究问题。

参考文献:

[1] Tan P N, Steinbach M, Kumar V. Introduction to Data Mining[M].Beijing:POSTS& TELECOM PRESS,2006.

[2] Jia W H, Micheline Kamber. Data Mining Concepts and Techniques[M]. Beijing: China Machine Press,2006.

篇4

关键词关键词:流形学习;子空间聚类;低秩表示法(LRR);稀疏子空间聚类(SSC);变化率

DOIDOI:10.11907/rjdk.162181

中图分类号:TP312文献标识码:A文章编号文章编号:16727800(2017)001002903

引言

随着科学技术的发展,各类数据量迅猛增长。然而,并不是所有数据都是精炼且真实有效的,海量数据中存在着冗余与错误。如何对这些数据进行快速、有效的处理,从而找到数据之间的内在联系成为解决很多问题的关键。因此对高维数据进行相关性分析、聚类分析、结构分析,挖掘数据背后的价值与意义尤为重要。

对高维数据进行分析处理,当前应用比较广泛的维数约减技术有流形学习[1]和子空间聚类[2]。流形学习的前提是假设在一个高维欧式空间均匀地对数据进行采样,然后将高维数据映射到低维,使得数据的低维表示能体现高维数据的本质信息[3];子空间聚类是假设一组数据属于多个线性子空间的并集,将这组数据进行分类,使得不同的类对应不同的子空间。

高维数据的结构一般为低维的,可以用位于相同子空间的低维数据对高维数据进行稀疏表示,因此设计一种能分析低维多流形非相似结构数据的算法更具有一般性和适用性。本文针对低维多流形非相似结构数据,提出一种基于变化率聚类的算法,从而更有效进行聚类分析。

1基于变化率的子空间聚类算法

1.1算法描述

为更好地对低维多流行非相似结构的数据进行聚类分析,本文提出一种基于变化率的子空间聚类算法。该算法的基本思想是:首先观察数据,若数据来源于多个维数不等的数据结构,则先根据按属性重要性筛选出的维对不同结构的数据进行分类;然后在同构数据点之间按其变化率进行划分,若变化率超过一定的阈值β,则分到不同的类中,若小于等于β则分到同一类;最终得到各个不同结构的分类。任意两点之间的变化率为:RC(X,Y) = Yi + 1 -Xi + 1 Yi -Xi (1)算法描述如下:

输入:数据集D,簇数k。

输出:k个簇。

Step1:按一定的准则选择重要属性。

Step2:根据重要属性将不同结构的数据划分开,形成m个中间簇。

Step3:对中间簇中的数据按变化率RC进行分类,如果两点之间的变化率大于β,则划分为不同的类;否则划为一类。

Step4:重复Step3直到中间簇都被划分完。

Step5:输出k个簇。

1.2对比算法选取

在子空间聚类算法中,应用比较多的是基于谱聚类的方法,首先根据样本点之间的关系构造图谱,然后利用NCut[4]等谱聚类方法得到分割结果。基于谱聚类的子空间分割方法中比较有代表性的是低秩表示法(LRR)[5]和稀疏子空间聚类(SSC)[6]算法。

低秩表示法(LRR)算法是为了从包含错误的数据中恢复子空间结构而提出的。在给定的一组数据样本中,每一个都可以被表示为在一个字典中的一个基数线性组合,LRR旨在找到所有共同数据的低秩表示。通过选择一个特定的字典,LRR可以很好解决子空间聚类问题。对于被任意错误污染的数据,LRR还可以近似的恢复行空间,LRR是一个有效的且具有鲁棒性的子空间聚类算法。

稀疏子空间聚类(SSC)可以用来聚类位于低维子空间的并集的数据点。关键思想是,从其它点获得无穷多的可以表示的数据点,并用一个稀疏表示来对应从相同的子空间选择的点。这促进了谱聚类算法框架下用来推断数据的聚类子空间的稀疏优化程序。该算法处理接近于子空间交集的数据点是有效的,另一个关键优势在于它可以通过合并数据的模型到稀疏优化程序来直接处理数据干扰,如噪音、稀疏的无关记录和缺失记录。在运动分割和聚类方面,该算法都具有较高的实用性。

2实验结果与分析

为了验证基于变化率的子空间聚类算法的有效性与实用性,本文选取三幅变化率较为明显的低维多流行结构图进行聚类分析实验。

2.1实验一结果与分析

从图2可以看出,对分布在独立子空间中的两条直线上的数据进行聚类,若每条直线上的数据为一类,则本文提出方法的聚类结果明显要比LRR和SSC好。LRR和SSC算法聚类效果欠佳的原因在于对数据分解处理后用K-means算法[8]进行聚类,K-means算法以距离度量为基础,适合于发现球状簇,对于线性数据的聚类效果并不理想。本文算法和LRR算法的主要误差都在于图像交叉相似的部分,但LRR算法的聚类误差部分明显大于本文算法的聚类误差部分,而SSC算法基本无法聚类该图数据。

3结语

本文提出一种基于变化率聚类的算法,首先观察数据,按属性重要性筛选出的维对不同结构数据进行分类,然后在同构数据点之间按其变化率进行分类,若变化率超过一定的阈值β,则分到不同的类中;若小于或等于β,则分到同一类,最终得到各个不同结构的分类。此算法能够有效对低维多流形非相似结构的数据进行聚类分析,聚类效果明显优于LRR、SSC等传统算法,且时间复杂度较低,可以进一步应用到图像分类、运动识别等领域。

参考文献:

[1]JB TENENBAUM,VD SILVA,JC LANGFORD.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):23192323.

图4实验三结果

[2]E ELHAMIFAR,R VIDAL.Sparse subspace clustering[C].IEEE Conference on Computer Vision and Pattern Recognition,2009:27902797.

[3]郑媛媛.基于非负矩阵分解的数据表示算法研究及其应用[D].南京:南京理工大学,2013.

[4]J SHI,J MALIK.Normalized cuts and image segmentation[J].IEEE Transactions Pattern Analysis Machine Intelligence,2000,22(8):888905.

[5]G LIU,Z LIN,S YAN,et al.Robust recovery of subspace structures by lowrank representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):171184.

[6]E ELHAMIFAR,R VIDAL.Sparse subspace clustering:algorithm,theory,and applications[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):27652781.

篇5

关键词:数据结构;可视化;设计

在我国的科学技术得到迅速发展的过程中,科学计算的工作量也开始变得愈来愈大,可视化的方法能够有效的帮助工作人员进行获取更多的信息,从而更为直观的来对计算的结果进行分析。由于受到计算机性能以及软件平台限制,在最初的可视化软件系统方面都是在高性能图形工作站进行发展的,对数据结构可视化类库的设计能够有效的将效率得到提高。

一、数据结构可视化类库设计的重要性及目的

(一)数据结构可视化类库设计的重要性

在使用以及学习数据结构和程序设计过程中,实现数据结构的可视化能够有效的提高对数据结构的直观分析,从而加深理解。在对程序进行调试的过程中,通过数据结构可视化类库能够有效的将编程的效率得以提高。从目前的发展情况来看,已经有了诸多的应用广泛的可视化集成开发环境,其中最为常见的就是Visual C++等,这些可视化的集成开发环境简化了程序界面的设计,对编写界面的程序降低了难度,从而有效的提高了软件的开发效率。

(二)数据结构可视化类库设计的目的

在数据结构可视化类库设计的目的上就是使得JVDSCL能够比较容易的在不同用途中进行应用,这就是要加强其灵活性,JVDSCL能够直接的应用到软件应用程序的开发方面,在开发人员方面也能够通过JVDSCL来进行对新的数据结构进行构造,另外就是加强其可靠性的目的,在这一方面是JVDSCL的最为主要的目的,还有就是面向对象的目的,数据结构是JVDSCL的主要对象,同时算法也是对象,它们保存运行的结果以及提供访问结果的接口。

二、数据结构可视化类库的设计和实现探究

(一)数据结构可视化类库的设计探究。在对数据结构可视化类库进行设计的过程中,要对问题进行综合性的考虑,其中在JVDSCL方面它主要是在Java集合库基础上来进行对原有的数据结构类中进行的扩展,与此同时也在这一过程中添加了相应的较为复杂化的数据结构,最为常见的就是树图。在JVDSCL过程中对可视化数据结构进行构造来实现数据结构的可视化,而这一可视化的数据结构也是在Java集合库当中的原有数据结构类的操作基础上进行的,另外就是增添了一些可视属性以及对可视化的接口进行了提供。在每种数据结构都会有着多种显示的模式,这就需要开发人员进行有机的选择,而在JVDSCL当中,对于每种数据结构会有这多种布局的方法来对其加以布局。

在对数据结构可视化类库进行设计的内容上主要就是基本的可视化接口的设计以及显示模式和布局方法。其中在可视化接口的设计方面,最为主要的接口就是V Collection接口,它不仅是能够提供Collection接口的基本方法,同时也提供可视化接口,在这一内容上主要有 void draw,操作上就是重画指定的数据结构,通过display Mode参数值来决定选用的显示模式,在这一接口中的参数c是表示数据结构所显示的颜色。在显示模式的设计当中,JVDSCL的每种数据结构都会有不相同的显示模式,如下图所表示的两种模式。

另外,在布局的设计上,关于数据结构可视化的关键问题就是图形的布局问题,这对于相关的研究人员对数据结构和算法的效果理解有着非常密切的关系。而在JVDSCL当中的最为主要的就是线性布局的方法以及图布局的方法,针对于每种不同的布局在算法的实现上也是不同的。其中在线性的布局方面,主要是能够适用于队列和线性表的数据结构,在对线性的布局方法上其基本的算法框架就是获取数据的元素个数以及依靠着所显示大小和数据元素个数进行对布局的大小值进行计算。如下图所示。

在图布局的设计方面在算法上是属于二维弹性模型的算法,最为基本的思想就是在二维平面上进行计算。这一方法比较的适合图等数据结构,在JVDSCL当中能够提供的多种算法实现图的可视化,其中有基于遗传模拟退火算法图的三维可视化以及以上所说的二维弹性模拟算法等。可视化技术的主要目的就是来辅助人们增强认知上的能力,而在计算机的可视化技术方面能够将其作为是信息的处理工具,以此来考虑多样化的样本以及变量和联系。

(二)数据结构可视化类库的实现分析。在数据结构的可视化类库的实现方面由于本论文的篇幅有限简要进行讲述,数据结构动态演示系统演示了各种不同算法的数据结构变化的过程,这还需要相关的设计人员在大量的画图操作上得以实现,比如对链表的结点的绘制,对于JVDSCL的应用就不需要自己来编码就能够实现画图的操作,在动态演示系统方面有了很大程度上的层次性提高,在这一过程中设计人员不需对数据结构的布局进行考虑,在JVDSCL自身已经有了布局的功能,只需要根据自身的的需要来进行重写即可实现。另外,在对数据结构中的draw()进行调用也能够有效的实现数据结构的可视化。

三、结语

总而言之,对于数据结构的可视化类库的设计以及实现能够有效的将软件的重用性和扩展性得到提高,在JVDSCL的基础上进行对其加以设计,对软件的开发设计的效率有了明显的提高,在未来我国的软件技术设计水平不断提升的过程中,也定能够在这一领域取得更加优异的设计成果。

参考文献:

[1]杨晓波,陈邦泽.数据结构课程实践教学体系研究[J].实验技术与管理,2013,(08).

[2]冯月华.《数据结构》课程改革下的一堂教学实例――最小生成树[J].陇东学院学报,2014,(03).

篇6

一、器具的用途

例1现有器具如图1所示。

(1)吸取和滴加少量液体时用_____;洗涤试管应使用_____。(填器具名称)

(2)若利用图1中的器具进行实验:溶解氯化钠时还需要添加的器具是_________;加热高锰酸钾制取氧气,还需要的铁制器具是_________。

分析:试管、试管夹、玻璃棒、酒精灯、滴管、铁架台、烧杯、量筒、集气瓶是化学实验中的常用器具,同学们应熟练掌握这些器具的用途及使用时的注意事项。量取一定体积的液体用量筒,而吸取或滴加少量液体则用胶头滴管。烧杯可用作较大量试剂反应或配制溶液的容器。试管刷用来刷洗玻璃器具,如试管。酒精灯是常用的加热器具。铁架台用于固定和支持各种器具,常用在加热、过滤等实验中。玻璃棒用于搅拌、过滤或转移液体。

[答案:(1)胶头滴管;试管刷(2)玻璃棒;铁架台(带铁夹)]

二、药品的取用

例2学习化学,要经常做实验。下列实验操作中正确的是( )。

A.将鼻子凑近容器口闻药品的气味

B.将试管中用剩的药品倒回试剂瓶中

C.用手抓取固体药品

D.用药匙取用固体粉末药品

分析:取用药品时要遵循“三不”原则,即不能用手接触药品;不要把鼻孔凑到容器口去闻药品(特别是气体)的气味;不得尝药品的味道。取用固体药品一般用药匙,块状药品可用镊子夹取。实验剩余的药品要放入指定容器内,不能倒回原瓶,也不能随意丢弃,更不能带出实验室。

(答案:D)

例3刚接触化学实验,张琳同学对基本操作还不很熟悉。图2分别表示她完成的实验操作,正确的一项是( )。

分析:取用细口瓶中的药液时,瓶塞要倒放在桌上,标签朝手心,瓶口紧挨着试管口。量筒用来度量液体药品的体积,量液时,量筒必须平放,视线与量筒中液体的凹液面的最低处保持水平。吸取和滴加少量液体试剂用滴管,且滴管应悬空放在试管上方,不要接触试管壁,也不要伸入试管中。托盘天平用于称量固体药品的质量,使用时,称量物放在左盘,砝码放在右盘,即“左物右码”。

(答案:B)

三、给物质加热

例4具备基本的实验技能是进行科学探究活动的基础和保证。图3中实验操作不正确的是( )。

分析:使用酒精灯时,要注意三个“禁止”:禁止向燃着的酒精灯里添加酒精;禁止用一只酒精灯引燃另一只酒精灯;禁止用嘴吹灭酒精灯。给液体加热可以用试管、烧杯、烧瓶、蒸发皿等,但用烧杯或烧瓶给液体加热时,应将烧杯或烧瓶放置在石棉网上。给试管中的液体加热时,液体体积不能超过试管容积的1/3要倾斜一定角度,试管口不可朝着自己或有人的方向。除掌握以上几点外,加热时还要注意玻璃器具外壁不能有水,玻璃容器的底部不能跟灯芯接触,先预热再集中加热等问题。

(答案:B)

四、器具的连接

例5王鹏同学是某校科技兴趣小组的积极分子,喜欢动手做各种化学实验。但在他的下列操作中有一项是不正确的,该项是( )。

A.把试管放在实验台上再使劲塞进橡皮塞

B.先用水把玻璃管口润湿,再稍稍用力将其插入胶皮管

C.按由下向上、从左往右的顺序连接各种器具

D.实验结束后拆下装置,将要洗涤的器具洗涤干净

分析:连接器具应遵循由下向上、从左往右的顺序.往试管口塞橡皮塞时,左手拿试管,右手拿橡皮塞慢慢转动,塞进试管口,切不可把试管放在实验台上再使劲塞进橡皮塞,因为这样做容易压破试管。将玻璃管插入橡皮塞的孔或胶皮管中时,都要先把玻璃管口用水润湿,且要用手抓住插入端的玻璃管,以免玻璃管折断。

(答案:A)

五、器具的洗涤

例6请指出李雯同学在一次实验考核中出现的错误操作( )。

A.用试管刷刷洗试管内壁不易洗掉的物质

B.将洗净的试管倒放在试管架上

C.滴瓶上的滴管用过后立即用清水冲洗干净

D.玻璃器具洗净后,内壁附着的水既不聚成水滴,也不成股流下

分析:每次实验完成后,将玻璃器具洗涤干净是良好的实验习惯,但,一要注意用正确的方法洗涤;二要注意该洗则洗,该洗时才能洗。如,烧得很热的玻璃容器就不能立即用冷水冲洗;用过的滴管要立即用清水冲洗干净,以备再用;严禁用未经清洗的滴管再吸取别的试剂。但滴瓶上的滴管与滴瓶配套使用,属于“专管专用”,使用后就没有必要再用水冲洗。

(答案:C)

六、操作的顺序

例7初中化学实验中,有许多涉及操作上“先”与“后”的问题,如果把“先”与“后”顺序颠倒,就会影响实验效果或导致事故的发生。试写出下列几种情况的“先”与“后”。

(1)用托盘天平称量固体药品,___________________。

(2)实验室制取气体,________________________________。

分析:按照规定的步骤和方法进行操作是实验取得成功的重要保证。如,给物质加热时,要先预热再集中加热;过滤时,要先静置后过滤;加热高锰酸钾制取氧气的实验结束时,应先从水槽中移出导管,然后再熄灭酒精灯。托盘天平用于称量固体药品的质量,在称量前先把游码放在标尺的零刻度处,检查天平是否平衡。如果天平未达到平衡,则应调节横梁右端的平衡螺母,使天平平衡。天平平衡后,在左盘中放称量物,右盘中放砝码,然后移动游码使天平平衡,记录数值。凡是制取气体的实验,都必须先检查装置的气密性,只有在确认装置不漏气的前提下,才能装入药品进行实验。

[答案:(1)先调平,再称量 (2)先检查气密性,再装药品]

[练习]

1.过滤是化学实验中的一项重要基本操作,其中不需要使用的器具是( )。

A.量筒 B.漏斗

C.烧杯 D.玻璃棒

2.下列操作中,正确的是( )。

A.用镊子夹取块状的药品

B.用托盘天平称量药品时,先加小砝码,再加大砝码

C.将盛有液体药品的试管固定在酒精灯外焰处加热

D.没有说明药品用量时,液体取1~2 mL,固体取1~2g

3.下列实验基本操作或事故处理,正确的是( )。

A.为安全起见,将用剩的药品丢弃到水池中

B.酒精灯打翻着火,用湿抹布扑盖

C.喝少量的某无色液体,看是酸味还是无味

篇7

关键词:数据挖掘;簇;聚类算法

中图分类号:TP301.6文献标识码:A文章编号:1672-7800(2012)010-0033-03

基金项目:湖南省大学生研究性学习和创新性实验计划项目(JSU-CX-2011-28)

作者简介:张露(1991-),女,吉首大学软件服务外包学院学生,研究方向为计算机科学;张彬连(1978-),女,吉首大学软件服务外包学院讲师,研究方向为计算机科学。

0引言

随着信息和科学技术的高速发展,各行业积累的数据量迅速增长,而更重要的是如何从大量的、不完全的数据中提取出有用的信息。而在数据挖掘中充当重要角色的就是聚类,它在识别数据的内在结构方面具有独到的作用。而数据挖掘工具以及工具提供的可选择的算法是实现数据挖掘目的的垫脚石。数据的类型、聚类的目的应用决定了选择哪一类聚类算法,其中聚类是把物理或者抽象对象分组成为由类似对象构成的多个簇的过程,即把数据对象分成多个类或簇,在同一个簇中的对象具有较高的相似度,而不同簇中的对象差异较大。它对未知数据的分析和划分能起到非常有效的作用。此外,通过聚类,能够识别密集和稀疏的区域,发现全局的分布模式,以及数据属性之间的相互关系等。为了找到效率高、通用性强的聚类方法,人们从不同角度提出了许多种聚类算法,大致可分为层次方法、划分方法、基于密度的方法、基于网格的方法和基于模型的方法这五大类。

1典型聚类算法分类及其优缺点分析

1.1基于划分的聚类算法

首先,给定一个样本为n的数据集,然后根据给定要创建划分的数目k,将数据划分为k个组(kn),每个组相应地表示一个簇,同时满足以下的条件:①每个组至少包含一个样本;②每个样本属于且仅属于一个簇。算法要事先给出要创建的划分的数目k,创建一个初始划分,然后采用循环定位技术,通过根据簇类之间的差异把对象从一个划分移动到另一个划分的方法来改善划分质量。评价划分的好坏的标准一般是在同一个类中的对象尽可能“接近”,而不同类中的对象尽可能“远离”。为达到全局最优的目的,基于划分的聚类会要求穷举所有可能的划分。其中包括以下典型的划分方法:k-平均、k-中心点、CLARA、CLARANS等。

1.1.1基于簇的重心技术:k-平均算法

(2)k-平均算法的优缺点:①优点:当满足结果簇是紧凑的,并且簇与簇之间明显分离式的前提条件,k-平均算法能发挥较好的效果,而且在处理大数据集时,是有相对可伸缩的和有效率的;②缺点:该算法有其限制条件,只有在簇的平均值被定义的基础上才能使用,这就使得可能不适应某些应用的数据,要求用户必须事先给出k的取值。在大部分实际应用中,最终的聚类数量并不能得到一个确切的数目,且该算法遇到非凸面形状的簇,或者遇到在大小上存在很大差别的簇时,聚类效果不明显。而且,它对于带有“噪声”的空间数据和离群数据是敏感的。该算法经常止于局部最优。

1.1.2基于有代表性的对象的技术:k-中心点方法

1.1.3基于选择的k-中心点CLARANS方法

(1)CLARANS方法的处理流程:首先,不考虑整个数据集合,用实际数据的抽样来作为数据的样本;然后,用PAM方法从样本中选择中心点;返回最好的聚类结果作为输出。

(2)CLARANS方法的优缺点:①优点:该算法的效率较高,能够发现最“自然的”结果簇数目,且能够检测离群点,且相应地拓展了数据处理量的伸缩范围;②缺点:该方法的聚类质量对采取的抽样方法依赖性强,且最中心点的要求较高。而且对于大数据量、时间复杂度和空间复杂度都很大。

1.2基于层次的聚类算法

根据树的形成过程,层次分解的方向的不同可以分为以下两种类型:

(1)自底向上(凝聚)聚类方法。该方法一开始将每个对象作为单独的一个组,然后继续与相近的对象或组合并,直到所有单独的组都被合并,成为一个整体,或者达到一个终止条件。

(2)自顶向下(分裂)聚类方法。与凝聚法相反,该策略先将所有对象置于一个簇中,在迭代的每一步中,在一个簇的基础上分裂为更小的簇,直到最终每个单独的簇中包含一个对象,或者达到一个终止条件。下面介绍其代表算法。

1.2.1BIRCH算法

(1)BIRCH算法包括阶段:阶段一是BIRCH扫描数据库,建立初始化的CF树,尝试把数据内在的聚类结构保留下来;阶段二是BIRCH算法采用某个聚类算法对CF树的叶节点进行聚类。

(2)BIRCH算法的优缺点:①优点:引入的聚类特征树概括了聚类的有用信息,且占用空间较元数据集合小,只需要一次性访问数据库,速度快,伸缩性好,对增量或动态聚类也非常有效,不需要大量递归运算。②缺点:由于CF树每个节点的大小受限制,并不总是对应于用户所认为的一个自然聚类,而且算法的工作效率依赖于簇的球形要求。

1.2.2CURE算法

(1)CURE算法工作原理:选择了属于聚合方法和分解的中间做法。选择数据空间中具有代表性的点。且在选择簇中分散的对象中产生一个簇的代表点,然后根据一个特定的分数或者收缩因子向簇心“收缩”或移动它们。

(2)CURE算法优缺点:①优点:能识别非球状以及大小不一的聚类,能更好地处理孤立点。对于大型的数据库,它也具有良好的伸缩性,且不影响聚类的质量;②缺点:聚类结果容易受到参数设置的影响,且CURE算法对分类属性不进行处理工作。

1.3基于密度的聚类算法

基于密度的聚类算法并不是基于各种各样的距离而是基于密度的。这样就能克服基于距离的算法只能发现“圆形”类的缺点,它可以发现任意形状类的聚类结果。该方法的思想就是,只要一个区域中的点的密度大于某个阈值,就把它加到与之相近的聚类中。以下介绍其代表算法DBSCAN算法和OPTICS算法。

1.3.1DBSCAN算法

(1)DBSCAN算法思想:首先通过检查数据库中每个点的ε-邻域内的邻居点数衡量改点所在空间的密度。来寻找聚类。如果一个点p的ε-邻域名超过某个指定阈值MinPts个点,则建一个新簇以p作为核心对象,然后再反复地寻找从这些核心对象直接密度可达的对象,当没有新的点可以被添加时,该过程即结束。

(2)DBSCAN算法优缺点:①优点:能够把具有足够高密度的区域划分为簇,对带有“噪声”的空间数据比较敏感,可以发现任意形状的聚类;②缺点:参数的设置难以确定,对参数值是非常敏感的,容易导致误差很大的聚类结果,且全局密度参数不能刻画其内在的聚类结构。

1.3.2OPTICS算法

(1)OPTICS算法思想:采用影响函数,即用一个数字函数来形式化地模拟每个数据点的影响;所有数据点的影响函数的总和可以由数据空间的整体密度模型化得到;可以通过确定密度吸引点来得到聚类,且此时全局密度函数在密度吸引点达到局部最大。

(2)OPTICS算法优缺点:①优点:该算法的数据基础非常坚实,并且概括了其他的聚类算法;其良好的聚类特性在处理有大量“噪声”的数据集合时充分体现出来了;提供了简单而有效的数学技术给高维数据集合的任意形状的聚类;速度较快;②缺点:聚类结果会容易受到密度参数和噪声阈值等参数的影响。

1.4基于网格的聚类算法

基于网格的聚类方法采用的数据结构是一个多分辨率的网格。它将数据空间分为有限数目的单元,形成网结构,所有的处理对象是单个的数据单元,这种处理方法与目标数据库中记录的个数并不存在很大的关系。以下介绍其中的STING算法。

(1)STING算法工作原理:STING是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:高层的每个单元由多个低一层的单元组成,且事先计算和存储关于每个网格单元属性的统计信息,在查询处理时就能使用这些统计参数,达到不一样的效果。

(2)STING算法优缺点:①优点:基于网格的计算与查询是相对独立的;在处理数据和增量更新方面能够更加方便;效率较高;②缺点:最底层的粒度影响算法的质量,且该算法在构建一个父单元时,忽略了子单元与相邻单元间的关系,导致结果簇的形状的边界不稳定。

1.5基于模型的聚类算法

基于模型的聚类算法尝试优化给定的数据和某些数学模型之间的适应性,是基于“数据是根据潜在的概率分布生成的”这一假设而提出的。该方法主要包括统计学方法和神经网络方法这两大类。以下介绍其中的COBWEB算法。

(1)COBWEB算法工作原理:COBWEB算法采用分类属性-值对来描述其输入对象,以一个分类树的形式来构造层次聚类,并且在启发式估算度量方法以及分类效用的指导下开展树的构建工作。

(2)COBWEB算法优缺点:①优点:对划分过程中类的数目能自动修正,不需要用户提供这样的输入参数,可以找到分类对象的最好结点;②缺点:该算法基于的“每个属性上的概率分布式彼此独立的”假设不总是成立的;更新和存储聚类代价相当高,可能导致时间和空间复杂性发生剧烈的变化。

2结语

分层聚类的突出亮点是它能够生成比较规整的类集合,聚类结果不依赖元素的初始排列或输入次序,与聚类过程的先后次序并没有直接的关系,聚类结果相对稳定,不易导致类的重构。但它也存在着部门缺点,如计算开销较大,对异常数据比较脆弱。划分聚类的优点是运算量小,能运用于处理庞大的样本数据,也为实时处理提供了一定的可能性。但要求用户必须预先给出聚类的参数,还要靠度量函数来判定所给出解的优劣程度。网格聚类处理速度快,处理时间与数据对象的数目无关,聚类时间独立于数据规模和数据次序,伸缩性极好。缺点是只能发现边界是水平或垂直的聚类,不能检测到斜边界,也不适用于高维情况,并存在量化尺度的问题。密度聚类多用于时空信息处理、消除奇异值,并且可以在带有“噪声”的空间数据库中发现形状任意、个数不定的聚类,适合大型、高维数据集等方面具有较好的特性。对于所提到的上述聚类算法,可以从可伸缩性、处理不同类型属性的能力、发现任意形状的簇、处理噪声数据的能力、对输入顺序的敏感性、处理高维数据的能力、需要决定的输入参数最少以及对输入记录顺序不敏感这些方面来进行比较分析,以更好地了解这些聚类算法。

参考文献:

[1]HUANGZX,MICHAELK.Anoteonk-modesclustering[J].JournalogClassification,2003(2).

[2]PELLEGD,MOOREA.X-meansextendingk-meanswithefficientestimationofthenumberoftheclusters[C].Proceedingsofthe17thIC-ML,2000.

[3]ERTOZL,STEINBACHM,KUMARV.Findingclustersofdifferentsizes,shapesanddensitiesinnoisy,highdinensionaldata[R].MinneapolisUniversityofMinnesota,2002.

[4]MARQUESJP,WRITTEN,WUYF,etal.PatternRecognitionConcepts,MethodsandApplications(2nded)[M].Beijing:TsinghuaUniversityPress,2002.

[5]DHILONI.Co-clusteringDocumentsandwordsusingbipartitespec-tralgraphpartitioning[C].SanDiegaProceedingsofthe7thACMSIGKDD,2001.

[6]SAMBASIVAMS,THEODOSOPOULOSN.AdvanceddataclusteringminingWebdocuments[J].IssuesinInformingScienceandInformationTechnology,2006(3).

[7]NANNIM,PEDRESCHID.Time-Focusedclusteringoftrajectoriesofmovingobjects[J].JournalofIntelligentInformationSystems,2006(3).

[8]BIRANTD,KUTA.ST-DBSCAN:ANalgorithmforclusteringspatial-temporaldata[J].Data&KnowledgeEngineering,2007(1).

[9]CRISTOFORD,SINOVICIDA.Aninformation-theoreticalapproachtoclusteringcategoricaldatabasesusinggeneticalgorithms[C].ArlingtonThe2ndSIAMICDM,WorkshoponClusteringHighDinen-sionalData,2001.

篇8

>> 河北省农业自然灾害财政救助的问题与对策分析 城乡统筹的河北省重大自然灾害防御与补偿机制设想 基于聚类分析法的辽宁省主体功能区划分 基于因子―聚类分析的河北省经济发展水平差异研究 气温升高与地膜覆盖对河北省棉花熟区划分的影响 基于聚类分析的矿业经济区划分研究 基于聚类分析对河北省各市三次产业就业人员差异化的研究 自然灾害的能量 农业自然灾害对通货膨胀的影响基于动态面板的实证分析 基于聚类分析方法的人口区划研究 江西省樟树市主要气象灾害风险区划分析 园艺树种的自然灾害及其预防分析 自然灾害救援物流系统的流动要素分析 匈奴政权兴衰中的自然灾害因素分析 分析大型自然灾害的救灾物资管理 自然灾害的社会学分析综述 基于主成分聚类分析的云南省干旱自然分区 不做自然灾害的“帮凶” 煤矿生产的自然灾害 果园自然灾害的防御 常见问题解答 当前所在位置:,2010-12-08.

[5] 延平军.灾害地理学[M].西安:陕西师范大学出版社,1989.

[6] 西北师范大学地理系.中国自然地理图集[M].中国地图出版社,2007.

[7] 徐建华.计量地理学[M].北京:高等教育出版社,2008.

[8] 张 超,杨秉赓.计量地理学基础[M].北京:高等教育出版社.2008.

[9] 高 ,蒙小亮,劳小青.基于聚类分析的海南岛雷电灾害易损度风险区划[J].自然灾害学报,2013,22(1):175-182.

[10] 王 芳,陈 浩,王 瑛,等.面向地震灾害的河北省救灾物资储备库选址研究[J].自然灾害学报,2013,22(2):29-35.

[11] 王汝正, 王正新.模糊聚类分析在区域自然灾害区划的应用――以四川省为例[J].灾害学,1993,8(1):6-12.

篇9

1 问题的提出

旅游是人们外出旅行与游览的综合,是游客在地域空间的流动。无论是往返于常住地和目的地之间,还是在目的地内各景区之间的旅游活动,都必须借助良好的交通设施和工具,因此,便捷的交通成为沟通旅游者和目的地的桥梁和纽带。改革开放30余年来(特别是近20年),我国交通运输网络发生了巨大的变化。2008年年底,全国交通运输线路总里程达到639.45万千米,是1985年的4.62倍,其中,民航通航里程248.16万千米,是1985年的8.88倍。民用机场数翻了一番,民航旅客构成多元化,私人出行增长迅猛,旅客吞吐量比1985年增加了18504万人次,年均增长高达14.50%,北京、上海和广州3大枢纽机场均进入全球机场前50强行列。铁路通车里程7.97万千米,是1985年的1.44倍,高速铁路从无到有,既有线路改造成效显著,电气化里程是1985年的6倍多,新增91座现代化铁路客站,旅客运输能力大为提升,铁路客运总量是1985年的1.3倍,高速铁路日发送旅客达到92.5万人。公路通车里程373.02万千米,是1985年的4倍,仅次于美国,居全球第2。其中,高速公路通车里程达6.5万千米,居全球第2,与欧盟27国相当。公路客运量是1985年的5.63倍,年均增长7.47%。交通运输的快速发展,极大地促进了我国入境旅游和国内旅游的快速发展。1985~2008年,入境客流量增加了1.14亿人次,年均增长8.63%;国内客流量增加了14.98亿人,年均增长8.53%。

有关旅游与交通运输的关系,国外相关研究开展较早。伦德格伦(lundgren)、皮尔斯等(pearce,etal)对交通在旅游中的作用进行了探讨。伦德格伦、斯图尔特等(stewart,et al)对旅游者空间行为和迁移规律进行了分析。德斯蒙德(desmond)、托马斯(thomas)、丹尼尔(daniel)、蒂亚戈(tiago)分析了包机旅游及航空运输的作用。国内该方面的研究起步较晚,汪正元分析了交通对旅游的影响和制约作用。保继刚认为,现代旅游业的发展与交通运输紧密相连,交通运输的便利程度是衡量旅游业发展的重要标志。刘南分析了杭甬高速公路开通对杭州、宁波和绍兴旅游发展的影响。张涛认为,旅游交通是发展旅游业的命脉,是旅游生产力的重要组成部分。金凤君等认为,铁路客运提速对城市间旅游业的分工与合作十分有利。缪婧晶、王劲松分析了旅游交通成本对旅游业的影响及对策。何调霞等、马丽君等研究了中国旅游业与航空运输业的关系。张文尝等对北京、成都和大连城市居民出行交通方式和结构进行了分析。王兆峰分析了旅游交通对张家界旅游的影响。陈晓、李悦铮探究了城市交通系统和旅游系统之间的协调模式。周蓓研究了四川省航空旅游网络空间特征及其结构。朱兹、张明等分析了铁路建设对旅游业的影响。

国内外学者关于旅游与交通运输的关系研究,主要集中在某种交通方式对旅游需求的影响及对旅游目的地发展的影响。国外学者较关注航空和公路(私家车)交通对旅游的影响,研究具有较为明显的深度和广度。国内学者注重理论的探讨,对于重大的铁路和公路工程建设的旅游效应较为关注。但在研究方法方面,定性分析多于定量分析;研究层次上着眼个别区域或个别线路的个案分析,而忽视整体的宏观研究,且研究的交通方式也较单一。由于不同的交通方式具有不同特点,在游客运输中担负着不同的角色,以及国内旅游与入境旅游对交通方式的不同选择,因此,上述研究既不能提供航空、铁路、公路等运输的发展对入境旅游和国内旅游产生何种影响及具有什么边际弹性,也不能从地区差异上提供各省区交通运输对旅游业发展的适宜性特征。本文尝试运用宏观的时空结合方法:首先,利用1985~2008年时间序列数据,分析旅游客流量与交通客运量的协整关系;然后,依据2006~2007年30个省区截面数据,分析旅游客流量与交通客运量的统计规律,并划分其依赖一偏好类型,从时空变化上定量分析交通运输业对旅游业的拉动作用,对于认识交通运输与旅游发展的关系有很重要的现实意义。

2 概念模型、数据说明与研究方法

2.1概念模型与基本假设

张文尝等认为,交通运输是中国国民经济发展的基础产业。对于旅游业的发展来说,交通运输更是必不可少的先决条件。从旅游客源地来说,旅游交通连接着旅游目的地和景区,帮助游客实现外出旅游;从旅游目的地来说,旅游交通联系客源地、组合旅游产品,使旅游接待和景点旅游得以实现。根据抽样调查和问卷调查资料,依据空间尺度将旅游交通划分为两个层次,如图1所示。第一层是大中尺度的长途交通,主要是航空和铁路,一般运送空间尺度大于100千米,主要承担从客源地到目的地的大中尺度空间移动,包括入境旅游和跨省区旅游。航空旅游具有快捷、直达、舒适等特点,但价格比较昂贵;铁路旅游具有运量大、价格低廉等特点,但速度较慢。这两种交通运输方式对于旅游业的发展来说,主要解决游客“进得来”和“出得去”的问题。第二层是中小尺度的短途交通,主要为公路旅客运输,一般运送空间尺度小于100千米,是游客在目的地(中心城市)到风景区之间交通,省内旅游和市内交通以公路为主。因公路运输快捷灵活,主要解决游客在目的地“散得开”的问题。

基于上述认识,本出如下两点假设:(1)入境旅游及客流量在30个省区的分布主要受航空运输和铁路运输的影响。因为,入境旅游客流量在各省区的分布主要是大中尺度的旅游流,入境游客可支配收入高、旅游时间宝贵、活动范围大,航空和铁路是长距离旅行的主要交通方式;至于人境旅游者在各城市内的交通运输,多由旅行社专配旅游车辆来完成,一般不计入公共交通系统。(2)国内旅游客流量在30个省区的分布,主要受公路交通和铁路运输的影响。因为国内旅游一部分是本省游客在本省区内的旅游(大约占20%~40%)①;另外,跨省区的国内旅游,因国内居民收入较低,航空运输票价较为昂贵,2000年之前乘坐飞机手续复杂,铁路成为国内大中尺度旅游的主要交通工具。

2.2数据说明

本研究所选用的基础数据包括两个序列:(1)1985~2008年中国旅游客流量和交通运输客运量数据,共包括3个子序列:①入境客流量,反映入境旅游业发展状况,记为tf;②国内旅游客流量,反映国内旅游发展状况,记为td;③航空、铁路、公路客运量,反映陆路交通运输系统的运输能力,分别记为al、rw、hw。这些数据均来自1986—2009年《中国旅游年鉴》、《中国统计年鉴》、《中国交通年鉴》等官方统计资料。(2)30个省区的截面数据。为了分析各省区入境旅游、国内旅游与航空运输、公路运输的关系,本文还选取2006年全国30个省区的截面数据(西藏除外),分别以上述时间序列分析中的关键因素,采用截面数据分析入境客流量与航空客运量、国内旅游客流量与公路客运量的关系。

旅游业是环境敏感的脆弱产业,极易受到各种危机事件的影响。1989年的政治风波、1998年的亚洲金融危机、2003年的sars危机、2008年的汶川地震等,均对中国入境旅游和国内旅游产生较大影响,为了在较平稳的序列中分析旅游客流量与交通客运量的关系,本文依据本底趋势线理论,对1989年、1998年、2003年和2008年的入境旅游和国内旅游数据进行了内插订正。

2.3研究方法

本研究采用时间序列和截面数据结合的方法,分析交通运输对旅游业的影响。首先,利用时间序列的单位根检验方法,对交通运输巨变与旅游业发展的长期稳定关系进行检验,在存在长期均衡关系的基础上,建立误差修正模型进行短期均衡关系调整的检验;然后,利用格兰杰因果关系检验法,对交通运输与旅游业因果关系进行检验,从时间序列数据分析中认识交通运输与旅游业发展的因果关系;最后,利用2006年30个省区的截面数据,分析入境旅游客流量与航空客运量、国内旅游客流量与公路客运量的统计相关性,依据相对偏差划分依赖一偏好类型,寻找旅游客流量与主要交通运输方式之间的空间差异。

3 时间序列分析与格兰杰因果关系检验

3.1时间序列的稳定性检验

要分析变量之间的协整关系并建立var模型,首先需对变量进行是否具有单位根平稳性检验。只有变量在同阶平稳的条件下,才能对其进行协整分析。常用adf方法来验证,该方法可以通过对如下3个模型进行检验:模型1-不含有常数项和时间趋势项,模型2-含有常数项而没有趋势项,模型3一含有常数项和趋势项。如果其中任何一个adf值大于麦金农临界值,则可以认为该序列没有单位根,是平稳的时间序列。因此,本文对取自然对数后的变量以及它们的差分序列作平稳性检验。结果见,表1。

从表1可以看出,在1%显著性水平下,所有变量水平值都是非平稳的。经过一阶差分后,在5%显著性水平下,国内客流量(ltd)、入境客流量(ltf)、公路客运量(lhw)、铁路客运量(lrw)和航空客运量(lal)为平稳性变量,即为一阶单整序列。

3.2协整检验

协整理论是20世纪80年代由恩格尔(engle)和格兰杰(granger)提出的。其基本思想是,尽管两个(或两个以上)变量中每个都是非平稳的,但其线性组合有可能相互抵消趋势项的影响,成为一个平稳的变量。协整检验的常用方法是e—g两步法,对于多个变量之间的协整关系,可以使用基于向量自回归模型的约翰森(johansen)检验法。为分析变量ltd、ltf与lrw、lhw、lal之间的长期稳定关系,本文采用约翰森模型对其进行协整检验。选择方程中含有截距项,根据aic和sc准则,将滞后阶数确定为2,检验结果如表2和表3所示。

从表2可以看出,在5%显著性水平上,人境客流量与公路、铁路、航空客运量之间存在长期稳定的均衡关系。采用ols方法,其协整方程如下:

ltf=-0.350486lrw +(1. 51442)

1.121560lhw 0.348604lal+(-2.43182) (1.92863)-22.04167 (1)

从方程的系数可以看出,各时间序列变量都显著地进入了协整方程,反映了变量之间存在长期稳定的趋势。从长期来看,铁路客运对入境客流量的弹性为-0.350486,公路客运对入境客流量的弹性为1,121560,民航客运对入境客流量的弹性为0.348604。王海江和苗长虹认为,我国客运交通联系具有明显的距离衰减规律,公路、铁路和航空客运最佳营运距离为150千米、700千米和1300千米。入境游客由国外进入中国及在中国大区之间移动的空间距离较大,依赖长途交通,主要以航空客运为主;而在各省区内部,大部分省区内航班班次少,加之高速公路网发达、快捷等优势,游客在省区内部移动主要由公路运输承担,一个人境游客在省内的移动,可产生10~20个公路客运人次,导致公路客运弹性系数很高。对入境客流量而言,铁路客运产生的负效应是由于航空客运、公路客运部分替代效应和铁路客运距离衰减双重作用所致。

从表3可以看出,在5%显著性水平上,国内客流量与公路、铁路、航空客运量之间存在长期稳定的均衡关系。采用ols方法,其协整方程如下:

ltd=1.049012lrw+0.881197lhw-00.172383lal-24.06571

转贴于

(-2.0803) (-1.96406) (-2.13556) (2)

从方程的系数可以看出,各时间序列变量都显著地进入了协整方程,反映了变量之间存在长期稳定的趋势。从长期来看,铁路客运对国内客流量的弹性为1.049012,公路客运对国内客流量的弹性为0.881197,民航客运对国内客流量的弹性为0.17383。中国地域辽阔,国内游客在超过150千米的省区之间主要由铁路客运承担,或铁路客运和公路客运交替承担。各省区十分重视公路网络的建设,尤其是高速公路的快速发展。公路较铁路网络密集和完善,笔者依据国内游客抽样调查数据估算,约有20%~40%的游客在本省区内发生。因此,在省区内旅游移动主要由公路客运完成。航空客运对国内客流量增长贡献相对较小,是因为在省区之间或省区内空间位移,航空客运较铁路客运和公路客运费用高,加之我国经济发展水平不高,居民可自由支配收入水平较低,航空客运不是国内大多数游客出行首选交通方式,以及早期航空客运比重较小等因素所致。

3.3误差修正模型

上述协整分析分别给出了ltf、ltd与lrw、lhw、lal之间的长期稳定均衡关系,而这种长期稳定关系是在短期动态过程的不断调整下得以维持的。根据granger定理,一组具有协整关系的变量具有误差修正模型的表达形式。因此,在协整检验的基础上,笔者进一步建立包括误差修正项在内的误差修正模型,以此来研究模型的短期动态和长期调整特征。将长期关系模型中的各变量以一阶差分形式重新加以构造,并将长期关系模型所产生的残差序列作为解释变量引入。作为解释变量引入的长期关系模型的残差,代表着在取得长期均衡过程中各时点上出现“偏误”的程度。分别建立ltf与lrw、lhw、lal以及ltd与lrw、lhw、lal如下形式的修正模型:

3.3.1 入境客流量(ltf)短期波动向长期均衡调整的误差修正模型

dltf=-0.716022ecm-0.280582dltf(-1)+0.548099dltf(-2)-0.017133dlrw(-1)+0.015559dlrw(-2)-1,171688dlhw(-1)+0.893335dlhw(-2)+1,022703dlal(-1)+0.029439dlal(-2)+0.0329289

r2=0.618536 (3)

误差修正方程(3)中各参数的系数,可分别看作是各滞后量对dltf的弹性系数,可对其进行弹性分析。其中,dltf(-1)和dltf(-2)为入境客流量的1期和2期滞后,系数分别为-0.28058和0.548099,说明前1年或前2年客流量每增长1%,将促使下年客流量下降0.28058%或第2年增长0.548099%;dlrw(-1)和dlrw(-2)为铁路客运量的1期和2期滞后,系数分别为-0.017133和0.0155589,说明前1年或前2年铁路客运量每增长1%,将促使下年客流量下降0.017133%或第2年增长0.0155589%;dlhw(-1)和dlhw(-2)为公路客运量1期和2期滞后,系数分别为-1.171689和0.893335,说明前1年或前2年公路客运量每增长1%,将促使下年客流量下降1.171689%或第2年增长0.893335%;dlal(-1)和dlal(一2)为航空客运量1期和2期滞后,系数分别为1.022703和0.029438,说明前1年或前2年航空客运量每增长1%,将促使下年客流量增长1.022703%或第2年增长0.029438%。从弹性分析可看出,入境客流量增长对自身发展的推动作用不显著,而交通客运量增长对下年入境客流量增长起到重要的作用,尤其航空客运量增长贡献最大。ecm项系数反映了对偏离长期均衡的调整力度。当修正系数为l时,入境客流量和铁路、公路、航空客运量均衡的误差,将在下年就可以调整到均衡状态。方程(1)中ecm系数为-0.716022,说明入境客流量与铁路、公路、民航客运量之间的均衡关系,对当期非均衡误差的修正能力较强,符合反向修正机制原理。

3.3.2国内客流量(ltd)短期波动向长期均衡调整的误差修正模型

dltd=-0.243782ecm+0.576056dltd(-1)+0.269367dltd(-2)-0.348364dlrw(-1)+0.083713dlrw(-2)+0.510915dlhw(-1)+0.654979dlhw(-2)+0.260907dlal(-1)+0.093286dlal(-2)+0.113737

r2=0.517116 (4)

方程(4)中,dltd(-1)和dltd(-2)为国内旅游1期和2期滞后,系数分别为0.5760和0.2694,说明上年或前2年国内客流量每增长1%,将使今年或明年国内客流量增长0.5760%和0.2694%;dlrw(-1)和dlrw(-2)为铁路客运量1期和2期滞后,系数分别为-0.3484和0.0837,说明上年或前2年铁路客运量每增长1%,将使今年国内客流量下降0.3483%和第2年增长0.0837%;dlhw(-1)和dlhw(-2)为公路客运1期和2期滞后,系数分别为0.5109和0.6550,说明上年或前2年公路客运每增长1%,将使今年和第2年国内客流量增长0.510915%和0.654979%;dlal(-1)和dlal(-2)为航空客运l期和2期滞后,系数分别为0.2609和0.0933,说明上年或前2年航空客运量增长1%,将使今年和第2年国内客流量增长0.2609%和0.093286%。弹性分析结果显示,国内客流量1期和2期滞后都对自身发展有推动作用,这是国内发展的惯性或称为系统的记忆性。而公路、铁路、航空的l期滞后对国内客流量有明显的推动效应,2期滞后的推动作用相对较小,相比较而言,公路客运对国内客流量增长贡献最大。而偏差调整项ecm系数为-0.243782,说明国内客流量与公路、铁路、民航客运量的均衡关系对当期非均衡误差调整能力不强,当国内旅游短期波动偏离长期均衡时,会以(-0.244)的调整能力将其拉回均衡状态。

3.4格兰杰因果检验

通过协整检验,表明变量ltf,ltd分别与lrw、lhw和lal之间存在协整关系。但是,这种长期的均衡关系究竟是旅游客流量引起交通客运量变动的结果,还是交通客运量引起旅游客流量的结果?旅游客流量和交通客运量在波动中孰为因孰为果还是互为因果?这需要对旅游客流量和交通客运量进行格兰杰因果关系检验。张晓峒认为,滞后期数的选取是任意的,以xt和yt为例,如果xt-1对yt存在显著性影响,则不必再做滞后期更长的检验,否则应该再做滞后期更长的检验。因此,本文按照这一原则选择格兰杰检验的滞后期为2,结果如表4。

表4表明,在10%显著水平下,入境客流量方面,公路客运量与入境客流量之间存在单向格兰杰因果关系,格兰杰因概率为0.06571,因此,拒绝原假设,表明公路客运能够促进入境客流量的增长;入境客流量与航空客运量存在单向格兰杰因果关系,格兰杰因概率为0.08605,因此,拒绝原假设,即入境客流量增长对航空客运量具有拉动效应。我国地域辽阔,省区之间的距离相当于欧洲国与国之间的距离,入境旅游者从境外入境中国大陆及在大陆较远各省区间进行旅游,基本上都属于大尺度上的空间位移,对长距离的交通工具飞机和火车依赖较大,因此,入境旅游对航空客运拉动作用明显。铁路客运量与入境客流量之间存在单向格兰杰因果关系,格兰杰因概率为0.01962,因此,拒绝原假设,表明我国铁路提速和高铁的建设对入境旅游者的增长和其在境内中尺度上空间位移产生了积极作用。国内客流量方面,公路客运量与国内客流量为单向格兰杰因果关系,格兰杰因概率为0.10026,因此,拒绝原假设,即公路客运对国内客流量增长具有促进效应。短距离的省区间及省区内,因汽车具有灵活、方便和快捷等优势,加之通向旅游景区高等级公路的修建,旅游者出行主要以汽车为主。航空客运量与国内客流量存在单向格兰杰因果关系,格兰杰因概率为0.05458,因此,拒绝原假设,即航空客运发展对国内客流量增长能起到一定的推动效应,航空运输的特点能较好地满足经济实力强和对时间要求高的部分旅游者的需求。

检验结果还显示,在10%显著水平下,入境客流量不是公路客运量和铁路客运量的格兰杰因概率分别为0.52387和0.20404,接受原假设,即入境旅游对公路客运和铁路客运推动作用不大。国内客流量与铁路客流量之间不存在格兰杰因果关系,格兰杰因概率为0.47319和o,28107,接受原假设,即国内客流量与铁路客运量无显著互相推动效应。国内客流量与航空客运量和公路客运量的格兰杰因概率分别为0.20358和0.39884,接受原假设,即国内客流量对航空客运和公路推动效应不明显。这些检验结果都与事实有出入,但这并不代表旅游客流量对交通运输客运量没有促进作用。格兰杰因果关系检验只是基于时间序列数据的分析,是在特定显著性水平的定量判断,并不能完全排除理论上的质性分析。质性分析可以发现,交通运输是旅游必不可少的先决条件,是连接客源地与目的地的必不可少的工具,因此,无论是入境客流量,还是国内客流量都是交通运输客流量的重要组成部分,对交通客运量增长的作用是显而易见的,旅游客流量在交通客运量中的比重逐年上升就表明了这一点。随着《关于加快旅游业发展的意见》纲领性文件的出台,这一比重还将进一步上升。这也说明格兰杰因果关系分析存在某些方面的局限。格兰杰因果性检验是时间上的“先后次序”(或前因后果)关系,而不是一般意义上的因果关系。它要求变量必须是平稳的(无趋势项)。若原始变量的时间序列不平稳,就要对变量作对数变换或多级差分处理,这种处理有可能会扭曲原始变量间的因果关系,所以才得出“不是因果关系”的结论。

4 交通客运量与旅游客流量关系的统计分析及地域类型划分

时空互照,旅游客流量与交通客运量非线性时间序列的规律,在某种情况下也可以通过空间差异反映出来。我国东部北京、上海、广东是3个最大的入境口岸,国际航空客运和国内航空客运都十分发达,成为人境旅游的三大高地;而浙江、江苏、河南、四川、广东、山东等省区,人口众多、公路运输发达,国内旅游居于全国领先地位。下面着重以入境旅游与航空客运、国内旅游与公路客运为对象,采用30个省区截面数据,分析交通客运量与旅游客流量的关系并划分其地域类型。

4.1入境客流量与航空客流量关系的统计分析

入境旅游是大尺度、高消费、高选择的高层次旅游。因受旅行时间等因素的限制,国外旅游者往往选择经济发达、基础设施较好的热点城市和级别较高的景点旅游。我国幅员辽阔,地域差异大,各省区在交通区位和旅游资源丰度上存在较大差异,使得各省区接待的入境游客有较大差别。依据国家旅游局抽样调查资料,外国旅游者入境中国及在各省区之间的流动,50%依靠民航运输,20%依靠铁路客运,而公路主要承担城市内部和旅游景点之间的短途运输①。本节以航空客运为关键变量,分析各省区入境客流量与航空客运量的关系。以2006年30个省区截面数据为依据,以入境客流量为因变量,航空客运量为自变量,制作x—y关系散点图,结果表明,入境客流量与民航客运量呈明显的线性相关。其中,广东、上海、北京航空客运量位居前三名,入境客流量排全国前3名,并且远远超过其他省区;中西部的陕西、云南、四川、重庆航空客运量较高,入境客流量也领先其他省区。本文采用ols法进行回归分析,其回归方程如下:

tf=0.1079al+61.765 (5)

可决系数r2=0.758,拟合效果较好,符合预测要求。由方程(5)可知,航空客运量的边际弹性系数为0.1079,即航空客运量每增加1万人次,入境客流量将增加0.1079万人次。

仔细观察图中散点分布,可以发现各省区在入境旅游与航空客运上存在较大差异。为了分析这种散点分布对回归方程的偏差,本文借用孙根年早期提出的依赖一偏好指数模型,分省区比较入境客流量与航空客运量的地区差异。依赖一偏好指数计算公式为:

转贴于

εi=[sti/tti]

其中:sti为入境客流量统计值,tti为回归方程的预测值。依据对依赖一偏好指数的计算和偏离程度,得到全国30个省区入境客流量对航空客运量的偏离指数类型。结果见表5。

表5表明,在所统计的30个省区中,强依赖或偏好省区有4个,占13.33%;较强依赖或偏好省区有8个,占26.67%;中等依赖或中等偏好省区有9个,占30%;较弱依赖或偏好省区有7个,占23.3%;弱依赖或偏好省区有2个,占6.6%。内蒙古、上海、山东、广西依赖指数高于1.45,内蒙古和广西地处边陲,上海是出入境口岸,江苏和浙江经济发达,对航空需求大;天津、江苏、河北、辽宁、黑龙江、安徽、福建、云南依赖指数处于1~1,45,多处于边陲或内陆,对航空依赖明显;北京、浙江、河南、湖北、湖南、广东、重庆、四川、陕西依赖指数处于0.7~1,北京和广东是出入境口岸,陕西、四川和重庆则地处内陆,对航空有依赖;山西受北京影响,吉林受辽宁影响,江西受上海、江浙等影响,航空依赖指数较小;青海和宁夏地处边缘地区,旅游资源丰度不高,入境旅游客流量较小,对航空需求低。

4.2国内客流量与公路客运量关系的统计分析

经过近20年的发展,我国国内旅游已进入大众化阶段,旅游人数屡创新高。尽管受到金融危机的影响,2009年国内旅游仍达到19.3亿人次,出游率达到1.5次/人,较2008年增长16.3%。但由于经济发展水平所限,国内旅游仍具有低消费、中近距离等特点,30%以上游客为本省区内旅游。因公路运输灵活、方便,铁路运输票价低廉,此两种方式是国内旅游主要的交通运输方式。本节以公路客运量为关键变量,分析各省区国内旅游与公路客流量的关系。以2006年30个省区截面数据为依据,以国内旅游客流量为因变量,公路客运量为自变量,制作x—y散点图,结果发现,回归方程可决系数很低,方程拟合效果不理想。分析发现北京、上海和天津国内客流量大,但公路客运量小,与其是中国最大的直辖市有关,影响了方程的回归,随后剔除三者,做新的散点图,结果表明,国内客流量与公路客运量呈明显的二次函数关系。其中,东部沿海的浙江、山东和江苏国内客流量很大,中部安徽国内客流量排在第l位,西部地区四川国内客流量位居首位。本文采用ols法进行回归分析,其拟合的二次曲线回归方程如f:

td=-0.0055hw2+0.193hw-0.121 (6)

可决系数r。=o,7673,拟合效果较好,符合预测要求。根据依赖一偏好指数公式,得到各省区国内旅游客流量对公路客运量的依赖一偏好指数类型。结果见表6。

表6表明,在所统计的27个省区中,强依赖或偏好省区有2个,占所统计省区的7,41%;较强依赖或偏好省区12个,占44,44%;中等依赖或中等偏好省区9个,占33,33%;弱依赖或偏好省区4个,占14,81%。青海和宁夏多山,地形复杂,航空与铁路网络少,国内旅游主要依赖公路运输;浙江、山东和四川等省境内公路网络密度大,尤其浙江和山东不仅高等级公路比例高,而且四通发达,出行十分方便。辽宁、河南和陕西不仅公路网络发达,更重要的都是我国铁路交通枢纽,高速列车和动车组较多,航空线众多,在一定程度上降低了对公路运输的需求。中度依赖一偏好型的省区9个,占33.33%,这些省区中,广东和湖北省铁路与航空网络发达,基本已形成了民航、铁路和公路运输三位一体的交通网络。因此,国内旅游对公路运输依赖适中。而甘肃、湖南、广西、重庆等省区大部分铁路网络不发达,高等级铁路少,经济发展水平较低,而且境内多山,因此,国内出游主要以公路为主。弱依赖一偏好型的省区4个,占14.81%,依赖一偏好指数在0.6以下,这些省区都地处我国边疆地区,地形复杂、多山,且距离远,与外界联系以铁路和航空运输为主,对公路运输需求很小。

5 结论

尽管旅游业的发展,促进了交通运输的发展,但是交通运输功能巨大,并非完全是为旅游业服务的,因为货物运输、国内外非旅游者的运输,也是交通运输的重要任务。在旅游业发展之前,交通运输已经存在,并在客货运输中担负着重要的功能。20年来,随着交通运输的快速发展,尤其是航空客运逐渐普及,铁路提速、高速铁路的修建,公路和高速公路的发展,对我国旅游业的发展起到了巨大的推动作用。本文利用1985~2008年的时间序列数据和2006年全国30个省区的截面数据,分析了旅游客流量与交通客运量的关系。结果发现:

(1)基于时间序列的协整分析发现,长期内,旅游客流量与交通客运量之间存在着长期稳定的均衡关系。弹性系数表明,交通运输业对旅游业的发展具有显著的推动作用。格兰杰因果关系检验表明,航空客运量和公路客运量与入境客流量之间存在单向格兰杰因果关系,航空客运与公路客运对入境旅游的推动作用很大。入境客流量与航空客运量之间存在单向格兰杰因果关系,即入境旅游能推动航空客运的增长。航空客运量和公路客运量与国内客流量之间存在单向格兰杰因果关系,即公路客运和航空客运的增长促进了国内旅游的发展。

(2)误差修正模型分析发现,对于入境旅游,短期动态内,航空客运量、铁路客运量和公路客运量的1期和2期滞后效应中,航空客运量对入境客流量增长具有积极的推动作用,铁路客运量和公路客运量1期效应不显著。当短期波动偏离长期均衡时,系统将以-0.716022的调整力度将非均衡状态拉回到均衡状态。对于国内旅游,短期动态内,航空客运量、铁路客运量和公路客运量的1期和2期滞后效应中,公路客运量和航空客运量对国内客流量增长具有较大推动效应,铁路客运量1期滞后效应微弱。当短期波动偏离长期均衡时,系统将以-0.243782的调整力度将非均衡状态拉回到均衡状态。

(3)基于对全国30个省区截面数据的分析,发现入境客运量与航空客运量呈明显的线性相关,航空客运量的边际弹性为0.1079,即民航客运量每增加1万人次,入境客流量将增加0.1079万人;国内旅游与公路客运量呈明显的二次函数关系。这种基于主导因素的分析,忽略了铁路客运的空间再分配作用。

(4)依据各省区入境客流量对航空客运量的依赖一偏好差异,本文将全国30个省区划分为5种类型。其中,内蒙古、上海、江苏、浙江、山东、广西依赖指数高于1.45,天津、河北、辽宁、黑龙江、安徽、福建、云南依赖指数处于1~1.45,北京、河南、湖北、湖南、广东、重庆、四川、陕西依赖指数为0.7~1,而青海和宁夏对航空需求低。

篇10

关键词:颜正华;痞满;关联规则;聚类算法

DOI:10.3969/j.issn.1005-5304.2013.03.013

中图分类号:R2-05;R256.32 文献标识码:A 文章编号:1005-5304(2013)03-0031-03

颜正华教授是国医大师,首都国医名师,治验甚众,尤擅长胃脘痛、痞满、便秘、腹痛等消化系统病证的诊疗。本研究首先收集、整理颜正华教授治疗痞满处方,进而基于“中医传承辅助系统(V1.1)”软件,采用关联规则apriori算法、复杂系统熵聚类等无监督数据挖掘方法,分析处方中药物的使用频次及药物之间的关联规则、处方规律,探讨颜正华教授治疗痞满的用药经验,希冀为阐明颜正华教授痞满用药思想提供参考。

1 资料与方法

1.1 处方来源与筛选

本研究以2005-2010年颜正华教授在北京中医药大学国医堂出诊处方为来源进行筛选,以邓铁涛、董建华主编《实用中医内科学》[1]中痞满主要症状为评判标准,共筛选痞满处方143首。

1.2 分析软件

“中医传承辅助系统(V1.1)”软件,中国中医科学院中药研究所提供。软件集关联规则、聚类算法、频次统计等算法、功能于一体,可用于名老中医处方的储存、分析、挖掘[2]。

1.3 处方录入与核对

将上述筛选后的处方录入“中医传承辅助系统(V1.1)”。录入完成后,由2人负责数据的审核,以确保数据的准确性。通过“中医传承辅助系统(V1.1)”软件中“数据分析”模块中的“处方分析”功能,进行用药规律挖掘。

1.4 数据分析

1.4.1 提取数据源 在“中医疾病”项中输入“痞满”,提取出治疗痞满的全部处方。

1.4.2 频次统计分析 将痞满处方中每味药的出现频次从大到小排序,并将“频次统计”结果导出。

1.4.3 组方规律分析 “支持度个数”(表示在所有药物中同时出现的次数)分别设为30,“置信度”设为0.9,按药物组合出现频次从大到小的顺序进行排序;“规则分析”分析所得的规则。

1.4.4 新方分析 首先进行聚类分析(核心算法包括改进的互信息法、复杂系统熵聚类),在聚类分析前,先选择合适的相关度和惩罚度,然后点击“提取组合”按钮,发现新组方(基本算法是无监督的熵层次的聚类),并可以实现网络可视化展示。

2 结果

2.1 用药频次

对颜正华教授143首痞满处方中的药物频次进行统计,使用频次>30的有20味药(见表1)。使用频次前3位分别是陈皮、香附、赤芍。

2.2 基于关联规则分析的组方规律分析

按照药物组合出现频次由高到低排序,前3位分别是“陈皮、香附”,“佛手、陈皮”,“赤芍、陈皮”。见表2。分析所得药对的用药规则见表3。支持度为30、置信度为0.9条件下的药物关联规则网络展示见图1。

2.3 基于熵聚类的处方组方规律分析

2.3.1 基于改进的互信息法的药物间关联度分析 依据处方数量,结合经验判断和不同参数提取数据的预读,设置相关度为8,惩罚度为4,进行聚类分析,得到处方中两两药物间的关联度。关联系数0.03以上的药对见表4。

2.3.2 基于复杂系统熵聚类的药物核心组合分析 以药物间关联度分析结果为基础,按照相关度与惩罚度约束,基于复杂系统熵聚类,演化出3~4味药核心组合,结果见表5。在以上核心组合提取的基础上,运用无监督熵层次聚类算法得到治疗痞满新处方,见表6。

3 讨论

本研究应用“中医传承辅助系统(V1.1)”软件,运用关联规则和聚类算法分析颜正华教授治疗痞满的用药经验。经关联算法分析,颜教授治疗痞满常用的药物包括:陈皮、香附、赤芍、砂仁、佛手、白芍、枳壳、茯苓、紫苏梗、煅瓦楞子、夜交藤、丹参、青皮、炒酸枣仁、旋覆花、炒枳壳、当归、炒神曲、乌药、柴胡等。出现频次较高的药对有:陈皮、香附,佛手、陈皮,赤芍、陈皮等。基于改进的互信息法的关联度较大的药物组合有:麦冬-生谷芽,煅瓦楞子-焦三仙,赤芍-炙甘草,煅瓦楞子-怀牛膝,赤芍-香附,麦冬-焦三仙等。基于复杂系统熵聚类的治疗痞满的核心组合主要有:茯苓-柏子仁-葛根,白芍-炒白芍-赤芍,白芍-乌药-赤芍,白芍-赤芍-清半夏,青皮-旋覆花-乌药等。基于熵层次聚类的治疗痞满新处方有:白芍,炒白芍,赤芍,清半夏;党参,大枣,炒白术,旋覆花,煅瓦楞子,紫苏梗;枳壳,炒薏苡仁,柴胡,炒谷芽;枳壳,柴胡,郁金,炒枳壳等。

以上研究结果较好地验证了颜正华教授诊疗胃脘痛的治疗经验。颜教授认为,痞满病位在胃脘,与肝脾关系密切。病机有虚实之异,且多虚实并见。基本病机为脾胃功能失调,升降失司,胃气壅塞。辨证以辨寒热虚实为要点,并应与胃痛的辨证要点互参。治疗原则是调理脾胃、理气消痞。

陈皮是出现频率最高的药物,其味辛、苦,性温,归脾、肺经,功能理气健脾、燥湿化痰,善治中焦寒湿脾胃气滞,脘腹痞满,还可用于食积气滞、脘腹胀痛等。香附是出现频率第二的药物,其味辛、微苦、微甘,性平,归肝、脾、三焦经,功能疏肝解郁、理气调中。善散肝气之郁结,可治肝气郁结之胸膈痞满。赤芍与白芍均为处方常用药,且常配伍同用。赤芍味苦,性微寒,归肝经,功能清热凉血;散瘀止痛;白芍味苦、酸,微寒,归肝、脾经,功能养血敛阴、柔肝止痛。二者配伍同用,共奏活血散瘀止痛之功。砂仁为芳香化湿药,气味辛,性温,归脾、胃、肾经,化湿醒脾、行气温中之效均佳,故凡湿阻或气滞所致之脘腹胀满等脾胃不和诸症常用。佛手味辛、苦,性温,归肝、脾、胃、肺经,功能疏肝解郁、理气和中、燥湿化痰,可用于脾胃气滞兼痰湿之痞满。枳壳味苦、辛、酸,性温,归脾、胃、大肠经,功似枳实但作用缓和,长于行气开胸、宽中除胀,有祛邪而不伤正之特点。颜老用药平和轻灵,故方中多用枳壳,而少用枳实。茯苓味甘、淡,性平,归心、脾、肾经,功能利水渗湿、健脾宁心。取其消补兼具之特点,痞满有脾虚之象者常用之。紫苏梗味辛、甘,性微温,归肺、脾、胃经,功能宽胸利膈,用于胸腹气滞之痞满。煅瓦楞子为颜老治疗肝胃不和、痞满反酸之常用药。其味咸,性平,归肺、胃、肝经,功能消痰软坚、化瘀散结、制酸止痛,煅后制酸止痛效佳,常用于肝胃不和之痞满[3-4]。

本研究基于中医传承辅助系统平台开展颜正华教授用药规律数据挖掘研究,获得了既往传统医案整理和统计学研究未获得的新知识、新信息,为颜正华教授痞满治验的深入挖掘和传承提供了参考。

参考文献:

[1] 邓铁涛,董建华.实用中医内科学[M].上海:上海科学技术出版社,1984.

[2] 卢笑晖,单琦玮.基于中医传承辅助系统分析的卢尚岭教授治疗头风病用药经验[J].中国实验方剂学杂志,2012,18(9):5-8.

[3] 吴嘉瑞,张冰.国医大师颜正华临床经验实录[M].北京:中国医药科技出版社,2011.149.