自然语言处理范文
时间:2023-03-26 03:46:53
导语:如何才能写好一篇自然语言处理,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词:人工智能;自然语言处理;计算模型;分析模型;概念统计模型;混合模型;不适定问题
中图分类号:TP391
文献标识码:A
编者按:Internet时代对中文信息处理提出了更多、更新的需求,同时,致力于中文信息处理研究的队伍也在不断地壮大。在这支队伍中,既有在这个领域里长期辛勤耕耘的老兵,也有初出茅庐的新人。为了使研究者们得以在更高的起点上开展研究,我们特向该领域(或相关领域)的资深专家和学者约稿,这些稿件或是多年研究成果的厚实积累以及发轫于斯的深刻思考,或是具有前瞻性的前沿课题探索,或是相关研究工作系统而深入的综述。我们设立了一个约稿专栏,陆续刊登此类稿件,以飨读者。本期刊登其中的2篇,分别是张钹院士的“自然语言处理的计算模型”、黄昌宁教授等的“中文分词十年回顾”。相信这些论文对读者全面、深刻地了解乃至理解相关学术问题,一定会大有裨益。
1 引言
本文讨论的“自然语言处理”都是指利用电子计算机对自然语言的各级语言单位进行的自动处理,包括对字、词、句、篇章等进行转换、分析与理解等等[1]。与电子计算机的发展历史相比,自然语言处理算是一门很“老”的学科了。电子计算机刚刚问世,计算机科学家就对语言的机器处理备感兴趣,不久语言学、心理学、认知科学、人工智能等不同领域的学者也纷纷参入他们的研究队伍,一门新的研究领域――自然语言处理从此诞生。翻开它的历史,人们会发现,自然语言处理的发展道路并不平坦,研究工作跌宕起伏,时而乐观,时而悲观。人们对自然语言自动处理的困难通常估计不足,对它发展的前景往往过于乐观。可是,实践却一再表明事实并非如此,研究工作总是困难重重,进展缓慢,于是引来了悲观情绪。奇怪的是,这种乐观与悲观情绪的交替、循环在半个多世纪自然语言处理的发展历史上却不断地重演着。
早在二次世界大战期间,现代电子计算机还处于襁褓之中,利用计算机来处理自然语言的想法就已经出现了。当时人们从破译军事密码的工作中得到启示,以为不同的语言(中文,英文,还有其他语种)只不过是对“同一语义”的不同编码而已。于是想当然地认为,采用译码技术“破译”(理解)这些“码”(语言)应该不成问题。结果却大大出乎人们的意料,自然语言自动处理居然比破译密电码困难得多!
1956年人工智能诞生之时,该领域的创始人就把计算机国际象棋(Computer Chess)和机器翻译(Machine Translation)作为两个标志性的任务提出来,认为只要计算机的象棋程序打败国际象棋世界冠军,机器翻译程序达到人类翻译的水平,就可以宣告人工智能的胜利。他们对此充满信心,以为凭借计算机的计算能力,将会在很短的时间里达到预定的目标。如认知心理学家H.Simon认为十年内这两项目标都可以实现。大家知道,实际上,直到1997年,即40年(不是10年)以后,IBM的国际象棋程序――深蓝(Deep Blue)打败国际象棋世界冠军卡斯帕罗夫,才宣告第一项任务的胜利完成。而机器翻译呢?至今依然是一项十分困难的任务!这些过分乐观的估计至今一直成为人们质疑人工智能的一个口实和笑柄。人们一再低估自然语言处理的困难。
然而,跌宕起伏的历史也正是自然语言处理研究工作的魅力所在,它吸引着千千万万的研究者去研究自然语言的复杂性,探索其中的原因,寻求机器自动处理的方法。至今大多数研究者主要从语言本身的复杂性来探讨这些问题,找到了其中的许多原因[2~7],其中包括:存在于各级语言单位(字、词、句、篇章等)的局部歧义性(Local Ambiguity),上下文的影响(Contextual Dependency),语法与语义的相互依赖关系,语言环境,知识背景等等。毫无疑问,语言处理的复杂性来源于语言本身的复杂性,因此上述研究成果对于进一步理解自然语言的特点,以及改进机器处理的性能,都起过很好的作用。不过,在自然语言自动处理过程中,计算机处理的直接对象并不是实际的自然语言,而是它的计算模型,因此要真正理解自然语言自动处理的问题,并找出解决的办法,还需要从语言处理建模的角度来探讨这些问题,可惜目前这方面的探讨还不多,本文将着重讨论它。
2 不适定问题
现实的自然语言系统N(Natural Language)十分复杂,不可能作为计算机的直接处理对象。为了使它成为可处理的对象,首先需要根据处理的要求,把它抽象为一个问题P(Problem),比如P是自然语言N中的分词问题。然后根据给定的输入、输出集(I,O),以及问题P,建立一个数学模型M(Mod―e1),以及与其相关的有效算法A(Algorithm)。M与A组成了问题P的计算模型F(ComputationalModel)。显然,同一个模型M,可以采用不同的算法,因此计算模型F取决于采用的数学模型M,M是模型的本质,而算法只是实现的手段。有了计算模型F,在给定的输入集(I)下,就可以计算出输出O,因此O也可称为F的解。或者说,通过计算模型F,我们对自然语言中的P问题进行处理(如图1所示)。因此研究自然语言自动处理的关键是研究计算模型F。
给定计算模型F(I,O),其中I是输入集,即一组数据,O是输出集,通常由语义空间的元素组成。以汉语分词为例,输入一个句子“南京市长江大桥”,对于计算机来讲,这个句子只不过是由“O”和“1”组成的机器码,即一组数据。我们要求的输出是:按照语义切分出句子中的词。因此模型F的作用就是按语义对数据I进行分类,分类的结果就是输出O。可以说,F是数据空间I到语义空间O的映射(Mapping),即映射F:IO。一切自然语言的自动处理问题P,都可以抽象为这样一个映射问题。于是我们把所有的自然语言处理(分词、词性标注、词法分析、语言理解等等)归结为一个普适的科学问题一映射问题F,从而便于进行理论研究。
不幸的是,由自然语言处理抽象出来的计算模型一映射F:I0,由于自然语言的复杂性,往往是一个不适定(Ill-posed)的逆问题,这就使得自然语言处理问题的求解十分困难。本来,对于一个问题解的存在性,唯一性,以及稳定性中任何一条不满足,就算是难解的不适定问题,而自然语言处理的计算模型往往这三个条件都不满足,因此是一个强不适定问题(Strongly IlI-posed Problems)。仍以汉语 “南京市长江大桥”的分词为例,首先它的解不唯一,至少有两种可能的分词结果:“南京市|长江|大桥”,“南京|市长|江大桥”。解的存在性和不稳定性也十分明显。如果改动上面句中的某个字,比如,将“京”字改为“景”字,根据“分词”的定义:“依语义(词义)对数据进行切分”,因为无论是“南景”还是“南景市”这两个词都不存在,因此无法从词义上对该句子进行切分,问题也就变成无解的了。目前已有许多关于不适定问题求解理论与方法的研究成果[8,9],自然语言处理完全可以借鉴这些理论来探索新的解决方案。不适定问题的求解方法[8],简单地讲,就是加入适当的约束(Constraint)条件,使问题的一部分变成适定的(Well-Posed)。约束条件可以加到输入集、输出集、模型本身等。比如,著名的求解不适定问题的正则化方法(Regularization),就是对输出集(解集)进行约束,把它限制在具有稳定解的范围之内,从而使问题在这个范围内变成适定的。本文将从这个角度研究自然语言处理的相关计算模型,探索一条新的研究途径。
3 分析模型
语言学家N.Chomsky认为人类生成合乎文法的语句的能力是生来具有的,为此他提出一种称为生成句法(Generative Grammar)的理论[10],这个理论对人类语句的生成做了如下的解释,即人们通过一组有限的规则作用于一个有限的词汇上,从而本能地生成无限的可接受的、合乎文法的句子(Ac-ceptable Grammatical Sentences)。这个理论的提出马上得到语言学界的广泛兴趣,并对自然语言自动处理产生深刻的影响。这个理论表明在自然语言的各级语言单位中都存在一定的内在规律性,因此依据这种规律性,就可以为语言处理建立一种计算模型,比如基于规则(Rule-Based)的模型。由此可见,一切理性分析的语言计算模型(Analytical Mod―el)都是建立在这种理论假设之上。
如果对输入集加以适当的限制,比如假定有限的输入集,理性分析模型一般可以满足适定性的条件,因此这种模型对于解决较小规模的自然语言处理问题具有一定的效果。可是,由于语言的输入集(I)是无限的,这种通过有限规则集,特别是少量规则集的建模方法,显然很难满足自然语言处理的全部需要。因此语言的理性分析模型面对大规模的真实文本时,都难以通过“可扩展性”(Scalability)的考验。因为当问题的规模扩大之后,理性分析模型在大型的输入集上,难以使问题的全部解达到适定性的要求。这也就是理性分析模型的局限性所在。
4 概率统计模型
Chomsky关于语言获取(Language Acquisi-tion)的理论也受到一部分学者的质疑,他们认为人类自然语言与人造的形式语言不同,并不遵循严格的规律,因此语言理性主义的分析方法难以克服语言复杂性带来的困难。与Chomsky理论相反,行为心理学家B.F.Skinner[11]提出另一种语言理论。这个理论认为人类语言能力的获得来自于学习,语言是通过不断地实践而“约定俗成”的结果。这就是自然语言形成的经验主义解释。概率统计模型(Statistical Model)[12]属于经验主义的语言计算模型。概率统计建模采用从数据中学习(LearningFrom Data)的方法,至今取得很大的成功,目前已成为自然语言处理中占统治地位的建模方法。概率模型的成功应该归功于网络时代信息的数字化和网络化,正因为这些变化,为我们带来了取之不尽、用之不竭的数据。“数据驱动”(Data Driven)法应运而生,正是这种新的研究方法促成了当今以概率建模为代表的经验主义方法的繁荣与发展。比如,目前流行的基于语料库(Corpus-Based)的语言处理方法就是一种典型的数据驱动方法。
但概率统计建模也不是无懈可击的,面对大规模的真实文本,它面临着许多挑战。首先,语言的计算模型F:IO是不连续映射,根据统计学习理论[13],不难知道,通过学习与训练获取不连续映射的困难很大,通常存在学习不收敛、学习误差大、推广能力弱等诸多问题。因此基于概率模型的大规模文本处理的结果通常准确度受到一定的限制。其次,从建模的角度看,由于自然语言的层次结构,在各个层次的语言单位之间存在着大量的依存关系,特别是远距离的依存关系(Long-Distance Dependency),如上下文关系等。如果建模时,把这些可能的关系都考虑进去,模型将会变得极其复杂而无法处理。但是语言计算模型的解通常是不稳定的,任何一个未加考虑的微弱因素(例如,长距依存关系,以及其他小概率事件等)都可能引起解的巨大变化,从而带来严重的错误,因此许多场合下,不能忽略微弱参数的影响,这就使概率建模方法陷入两难的境地。最后,虽然网络上的文本数据(生语料)几乎是无限的,但带有正确层次结构标注的数据依然匮乏,统计模型仍然面临严重的“数据稀疏”问题。因此单纯的概率模型也不能完全解决自然语言处理的自动化问题。
5 混合模型
以上讨论使我们认识到,无论理性的分析模型,还是经验的概率模型都不能解决语言自动处理的全部,特别是大规模的真实文本。其原因还需要从自然语言本身的特点去寻找,人类不仅利用自然语言表意,同时也用它来言情,一段语言中往往既有理性的思考,又有感情的流露,意中有情,情中有意,情景交融。因此自然语言处理既需要理性分析,也需要感性经验,二者互相补充。就是说,需要走理性主义与经验主义结合的道路,即混合模型(Hybrid Mo-del)的道路。目前已有许多研究工作试探混合模型的方法,已经取得一些成果[14~17]。但困难依然存在,比如,感性经验的表达与运用就是其中关键之一,也就是说,如何考虑语感、语境和知识背景等问题。
在机器翻译研究的初期(上个世纪60年代),美国人经常举以下的例子来说明机器翻译任务的艰巨性。
英文的原句是:
(1)The spirit is willing but the flesh is weak.
(心有余而力不足)
经机器翻译成俄文之后(在文法分析、双语词典等支持下),再把它翻译回英文,得到的结果如下:
(2)The Voltka is strong but the meat is rot-(伏特加酒是浓的,但肉却腐烂了)
这也许只是一则笑话,可是它充分说明自然语言处理的困难所在。显然,机器将句子(1)的意思翻译错了。但不幸的是,我们从中竟然找不出错在何 处。因为(1)与(2)两个句字的语法完全一样,可见机器并没有犯任何语法错误。从语义层面看,“spirit”(精神,烈性酒)译成“Voltka”(伏特加酒)并无错误,同样,“flesh”(肉体,肉)译成“meat”(肉)等等也并没有犯语义上的错误。如果错在何处不容易找到,能否找出错误来自何处?的确,词的多义性是错误的始作俑者。可是问题并没有因此解决,进一步的问题是,如何消解这些歧义,找到正确的答案?对此我们似乎无计可施。因为任何的理性分析都难以纠正上述错误,唯一有效的解决办法,似乎只能直接“告诉”机器,它就是“心有余而力不足”,换句话说,这是约定俗成,没有什么理由可讲。说明这里需要的是感性体验,而非理性分析。其实,当我们把一个文件输进计算机,文件里描绘的如果是一幅乡间的景色,讲述的是一段男女的情感故事,机器如何“看懂”它,如何对它进行处理?显然,要解决这类问题,机器除具备理性的分析能力之外,更重要还要有丰富的感性经验与知识。
机器是否可以具有感性经验,又如何得到这种体验?这是人工智能研究的重要课题,至今已经取得一些成果。以计算机国际象棋程序为例,其实,从理性分析的角度看,计算机分析棋局的能力早已超过人类,但是长期以来计算机象棋程序一直无法打败人类象棋大师。其中主要的原因是,人类具有“棋感”和下棋的经验,而计算机没有。IBM的象棋程序所以能够最后战胜人类高手,是因为同时在以上两个方面下了功夫,采取了相关的措施。一方面,通过各种渠道,提高机器的计算速度,使它在下棋过程中,可以往前预测10―15步,而象棋大师一般只能预测3―5步,机器的分析能力远超过人类棋手。另一方面,为了弥补机器在“棋感”与下棋经验方面的不足,在IBM机器中存储了大量的下棋经验与知识,包括60多万种的棋谱(以往的下棋经验),棋局的评价标准(启发式的决策经验)等。
换句话讲,需要依靠理性分析与感性经验的密切结合,但此项研究工作才刚刚开始,至今依然远未解决。
6 结论
一台电子计算机不管性能多么的高,本质上,都只是会计算“0”和“1”的机器。从计算的角度看,自然语言处理是一个强不适定问题,因此简单的建模方法,无论是确定性的,还是不确定性的都无法解决其全部。根据不适定问题的求解原理,只有通过提供大量的“约束”(包括知识,经验等),才能使之成为适定性的、可解的问题。因此出路是,通过计算机科学、语言学、心理学、认知科学和人工智能等多学科的通力合作,将人类认知的威力与计算机的计算能力结合起来,才可能提供丰富的“约束”,从而解决自然语言处理的难题。
收稿日期:2007-03-01定稿日期:2007-03-01
作者简介:张钹(1935―),男,中国科学院院士,主要研究方向为人工智能。
参考文献:
[1]王晓龙,关毅,等.计算机自然语言处理[M].北京:清 华大学出版社,2005.
[2]Gibson,E.,Linguistic complexity:Locality 0f syntac― tic dependencies[J].Cognition,1998,68:1-76.
[3]Daniel Grodner,Edward Gibson and Duane Watson.The influence of contextual contrast on syntactic pro-cesslng:evidence for strong-interaction in sentencecomprehension[J].Cognition 2005,95:275―296.
[4]Silvia Gennari and David Poeppel.Processing corre―lates of lexical semantc ccomplexity[J].Cognition 2003,89:B27-B41.
[5]Tessa Warren and Edward Gibson.The influence of referential processing 0n sentence complexity[J].Cognition 2002,85:79-112.
[6]Gerry Ahmann,Mark Steedman.Interaction with context during human sentence processing[J].Cogni―tion 1988,30:191-238.
[7]Douglas Roland,Jeffrey L.Elman and Victor s.Fer-relra.Why is that?Structural prediction and ambiguity resolution in a very large corpus of English sentences[J].Cognition 2006,98:245-272.
[8]Tikhonv,A.N.,Arsenin,V.Y..Solution of III―posed problems[M].New York:Winston/Wiley 1977.
[9]Bakushinsky,A.,Goncharsky,A.Ill-posed prob―lems:Theory and Applications[M].Dordrecht/Bos-ton/London:Kluwer Academic Publishers,1994.
[10]Chomsky,N..Syntactic structures[M].The Hague:Mouton,1957.
[11]Skinner,B.F.,Verbal Learning[M].New York:Appleton-Century-Crofts,1957.
[12]Christopher D.Manning,Hinrich Schfitze.Founda―tions of Statistical Natural Language Processing[M].Cambridge,Massachusetts:The MIT Press 1999.
[13]Vladamir N.Vapnik,Statistical Learning Theory[M].New York:John Wiley&Sons,Inc.,1998.
[14]Aue,Anthony,Arul Menezes,Robert Moore,et aL Statistical Machine Translation Using Labeled Se―mantlc Dependency Graphs[A].In:Proceedings of the 10th International Conference on Theoretical and Methodological Issues in Machine Translation[c].Baltimore。2004.
[15]Pinkham,J,and M.Corston-Oliver,Adding Domain Specificity to an MT System[A].In:Proceedings 0f the Workshop on Data-driven Machine Translation at 39th Annual Meeting of the Association for Computa―tional Linguistics[C].Toulouse,France,2001,103-110.
篇2
《统计自然语言处理》是宗成庆研究员在为中国科学院研究生院讲授“自然语言理解”课程时使用的讲义的基础上编写完成的,历时三年多。该书全面系统地介绍了自然语言处理的基本概念、理论方法和最新进展,尤其是近年来国际流行的基于统计机器学习的自然语言处理方法,对近年来国内外一些经典的论文,包括国际计算语言学年会(ACL)的最佳论文,给予了详细介绍。作者在该书中充分利用已取得的实验结果阐释统计方法的基本理念,并给出了自己的理解和评述,提倡多种方法兼收并蓄。对很多专著中已有详细阐述的经典算法,该书没有多述,只是简单地提及或给出参考文献,避免了与其他专著在内容上过多地重复。
全书内容包括15章:第1章为绪论,介绍自然语言处理的基本概念、研究内容、面临的困难和研究现状;第2章简要介绍自然语言处理中常用的基础知识,包括概率论、信息论、支持向量机等基本内容;第3章介绍形式语言与自动机理论及其在自然语言处理中的应用;第4章介绍语料库技术、词汇知识库概念和语言知识库建设中的本体论;第5章介绍语言模型的基本概念、性能评价方法、数据平滑方法和模型自适应方法;第6章介绍隐马尔可夫模型的基本概念、构成和相关算法;第7章介绍汉语自动分词中的基本问题、基本方法、命名实体识别与词性标注方法等;第8章介绍句法分析的基本概念、算法及评测方法等;第9章介绍词义消歧的基本概念、策略和评测方法;第10章全面详细地介绍机器翻译的基本概念、统计机器翻译模型和系统实现方法;第11章概述语音翻译的基本概念、技术现状和相关的国际学术组织;第12章至15章分别简要介绍文本自动分类、信息检索与问答系统、自动文摘和信息抽取、口语分析与人机对话系统等相关技术的基本方法和研究现状。
在该书编写过程中,从事自然语言处理研究的31位国内外专家和10多位在读博士生或硕士生校对了全书的内容。全书引用参考文献816篇。
篇3
关键词:采空区“三带”;氧浓度指标法;二维曲线;精确拟合;等值线
中图分类号:TD752.2文献标志码:A
[WT]文章编号:1672-1098(2012)04-0075-04
作者简介:张发亮(1985-),男,安徽马鞍山人,在读硕士,研究生方向:安全评价理论及技术。
随着煤矿开采的机械化程度的提高,综采放顶煤这种高产高效的工艺得到了广泛的应用[1]。但是,在煤矿产量提高的同时,采空区的遗煤、漏风等危险因素给工作面的安全开采带来了自燃发火的隐患。因此,对于采空区“三带”的准确预测和划分将对预防煤矿采空区的自燃发火和保障工作面的安全开采有着非常重要的意义。
“三带”的划分指标主要可分为3类,即以采空区内的氧气浓度、漏风风速和温度分布来划分[2-3]。目前,对于采空区“三带”的划分以氧浓度为标准的应用方式最为普遍[4],根据煤炭科学总院重庆分院的试验研究[5-6],不同氧化性的煤在供氧浓度大于等于5%~6%时,还可能在其着火温度前激烈氧化升温,有发火危险性,因此将氧化带划分的氧指标定为18%~6%。在此前提下,试验针对山西正株煤矿1511工作面进行研究,运用Matlab软件对束管检测的试验数据进行剔除甄别[7-8],找出最佳的二维拟合曲线并进行三维立体成像,最终确定精确的“三带”范围。
1采空区自燃“三带”的现场试验
1.1工作面概况
1511工作面回采走向长度为990m,倾斜长150m;主采15煤的煤层倾角8°~10°,煤层灰分8.58%,挥发分26.05%,属于Ⅱ类易自燃煤层,煤厚最小5.12m,最大6.37m,平均5.74m。工作面采用长壁式综合机械化低位放顶煤全部垮落采煤法。工作面采高确定为2.3m,根据煤层实际厚度,考虑留设一定厚度底煤以利于拉架,确定顶煤厚度为2.9m,故平均采放比为1∶1.26。
1.2测点布置
沿工作面倾向布置5个测点,且测点由下顺槽进风巷向上顺槽回风巷依次为:1#测点,距进风巷外帮5m;2#测点,距1#测点35m;3#测点,距2#测点35m;4#测点,距3#测点35m;5#测点,距回风巷外帮5m(见表1)。在回风巷安置抽气泵,通过束管抽取气样,收集气体后将其进行色谱分析,用MATLAB处理所得的原始数据,从而研究并分析综放面采空区氧化“三带”的分布规律。
2基于Matlab的二维数据处理
2.1最小二乘法数据预处理
在所给出的5个检测点的数据中,随着工作面的前移,每个测点各得出19组氧浓度数据,共有95组样本点,在这些数据中可能存在有瑕疵的点,由于这些样本点会影响着实际拟合函数的结果,因此采用最小二乘法的算法方式将他们剔除[9],实验运用多元线性回归函数regress(Y,X,alpha)和残差及其置信区间画图函数rcoplot(r,rint)进行数据处理分析,其中Y,X为所要处理的样本数据,alpha是显著性水平(取默认数值0.05),r,rint为残差及其置信区间,这2个值将由regress直接返回提供,这样,就能建立回归分析模型,主程序伪代码如下:alpha=0.05;X=[95个样本点对应的距工作面距离的数值];Y=[95个样本点氧浓度数值];X=[ones(size(Y)),自定义矩阵Q];[b,bint,r,rint,stats]=regress(Y,X,0.05);最终画出残差图(见图1)。
从图1中可以得出第33、56、75、81、94号这5个样本点的残差偏离了置信区间,且这5个结点对应的样本点为2#(125.8,10.2),3#(150.5,6.0),4#(150.5,5.9),5#(35.9,16.9),5#(150.5,6.1),为了更精确的分析数据,应该将这5个样本点去除以后再进行曲线回归拟合。
2.2拟合曲线的选取
在剔除偏离置信区间的样本点后,选用polytool多项式拟合工具拟合,拟合时分别选取3、4、5次多项式进行拟合,从而得到他们的拟合自由度R?分别为0.938,0.962,0.969,显然4次拟合的自由度要优于3次,由于高次多项式容易产生Runge现象[10],亦即当次数变高时,插值多项式会逐渐偏离正常趋势线,使得拟合不精确,正常情况下一般多项式次数不高于6次,将三种拟合进行对照可看到5次拟合并不理想,因此本次试验选取4次拟合。为了不用计算直接动态观测采空区氧浓度的变化趋势,利用软件自带的polytool(xx,yy,4)函数得出4次拟合图像,其中xx,yy分别是以上程序中Q与Y剔除5组数据后的剩余的90组数据,由此得出拟合的4次动态多项式(见图3),其中曲线两侧的区间为曲线的置信半径,由此也会发现筛选后的样本点均落在置信区间内(直接选用原始点会出现有样本点偏离置信区间的情况,会降低拟合曲线精度),从而提高了曲线拟合的精度,拖动图像中所指向的十字光标,可以便捷的读出曲线上任意一点工作面推进距离与氧浓度变化的横、纵坐标值,也可以利用p=polyfit(xx,yy,4)函数,得出拟合曲线函数 ,可得出“三带”宽度:散热带158.95m。
3基于Matlab的三维数据处理
利用Matlab三维图像处理时,其主要数据的误差主要通过Matlab所提供的插值方法来减少误差,软件自带的插值方法总共有5种:‘v4’,即Matlab4.0自带的插值算法;‘linear’,双线性插值算法;‘nearest’,最临近插值算法;‘spline’,三次样条插值法以及‘cubic’,双三次插值算法。针对“三带”分布的实际情况,分析数据时采用双三次插值算法,一方面,它对于无规律的随机数据插值效果好,此外,利用它是建立在三次插值多项式基础上的特点,使得插值的结果比较平滑。在确定算法后,使用meshgrid和griddata函数建立算法模型,对原始数据进行平面差分,随后再使用surf和contour函数绘出“三带”分布立体图形与等值线图,算法主程序伪代码如下:
[aa,bb]=meshgrid(x,y);cc=griddata(xx,yy,zz,aa,bb‘cubic’);surf(aa,bb,cc),figure;contour(aa,bb,cc,n);其中xx,yy,zz为原始采空区走向、倾向、氧浓度三维构造数值矩阵,x,y为自定义插值后的一维矩阵,aa,bb,cc则为经过插值后的二维数值矩阵,n为自定义等值线条数,从而可以直观的得到三维图像(见图4)以及氧浓度分布的等值线图(见图5)。结合图4和图5不难看出,随着工作面的推进,氧气浓度值总体呈现下降趋势,在距离工作面30.4m时,其氧气浓度进入18%氧化带范围内,在距离工作面158m时,其氧气浓度低于6%逐渐进入窒息带范围,此时的“三带”范围:散热带158m。
4结论
1)通过二维和三维模型的数据处理最终得出“三带”范围分别为:散热带158.95m;散热带158m。不难看出这两种方式的误差范围较小,属于正常范围,从而也相互印证了这两种方式的可靠性。
2)在用传统的Excel软件处理时候,只是做普通的拟合,无法剔除不可靠点,而试验采用Matlab残差图的方式剔除了影响拟合效果的瑕点,使得所得函数更加可靠,提高了曲线拟合的精确性。
3)使用polytool函数动态的读取拟合函数上的任意一点的函数值,为以后研究其余曲线各点值的动态变化提供了便利。
4)在原始数据的基础上,运用三维模型,清晰的表现出采空区气体浓度与工作面推进距离以及工作面倾向三者之间的联系,并且利用等值线函数直观的表示出氧浓度在采空区的分布情况,直接利用观测法就能大致确定“三带”范围。
参考文献:
[1]杜计平.采矿学[M].徐州:中国矿业大学出版社,2009:165-169.
[2]张国枢,戴广龙.煤炭自燃理论与防治实践[M].北京:国防工业出版社,2002:68-70.
[3]陈丽霞,张人伟,谭艳春,等.综放工作面采空区三带实测分析与模拟[J].煤矿安全,2011,42(1):130-132.
[4]宋万新,杨胜强,徐全.基于氧体积分数高瓦斯采空区自燃“三带”划分[J].采矿与安全工程学报,2012,29(2):271-276.
[5]卢平,张士环.高瓦斯煤层综放开采瓦斯与煤自燃综合治理研究[J].中国安全科学学报,2004,14(4):69-74.
[6]何启林,袁树杰,王新建,等.徐庄煤矿综放采空区“三带”宽度的确定[J].煤矿安全,2001,2(2):6-7.
[7]余明高,常绪华,贾海林,等.基于Matlab自燃“三带”的分析[J].煤炭学报,2010,35(4):600-604.
[8]彭信山,景国勋.基于Matlab采空区自燃发火数值模拟[J].煤炭技术,2011,30(4):103-104.
篇4
关键词:n元语法模型;自然语言处理
一:词向量
“词向量”这个词最早由1986年hinton的文章“learning distributed representations of concepts”中提出,将单个词用“词向量”的方式表示是将deep learning的算法引入NLP 领域的一个核心技术,deep learning中的词向量是一种低维实数向量,词向量使得一些词的距离更近比如相关词或者相似词,这种距离通过欧式距离,夹角余弦来定义。“词向量”不仅可以避免维数灾难问题,而且由于相似词或者相关词的距离很小,应用词向量构造的模型本身具有平滑性。
词向量是通过训练语言模型得到。从大量的无标签的语料库中进行无监督学习的想法有了语言模型。语言模型是针对某种语言建立的概率模型。语言模型的一般描述就是给定一个词序列,词序列 ,求该词序列是自然语言的概率 ,其中, 表示词序列的第t个词,在n元语法模型中用 表示 。下面具体介绍n元语法模型。
二:n元语法模型
2.1模型的形式化表示。
假设有 个词, , 个词构成的词序列记为 ,词序列的概率为
(2.1)
上下文H中词A的极大似然概率计算公式为
(2.2)
其中 是在训练数据中词序列 出现的次数,上下文 可以由几个词组成,对于通常的三元模型, ,当 时,它没有考虑历史,该模型称为一元模型。
由于n元语法模型比较简单,目前最常使用的语言模型基于n元语法模型,但是该模型由于数据缺乏需要采用一些平滑算法。影响n元语法模型的最重要的因素是顺序和平滑技术的选择,常用的平滑技术有加法平滑算法,Knerser-Ney平滑方法,Katz平滑方法,Jelinek-Mercer平滑方法等。对于基于词的语言模型,修正的Knerser-Ney平滑方法(KN)在平滑技术中有较好的结果。
基于n元语法的统计数据模型的最大优势在于速度,简单和普遍性(只要存在一些训练数据,该模型可以应用到任何领域)。直到今天n元语法模型依然是最先进的技术,不是因为没有更好的技术,而是因为更好的技术计算过于复杂,仅仅进行了边际分布的改善,对于给定应用的成功不是至关重要的。
2.2模型的优缺点
n元语法模型的最大缺点在于随着上下文长度的增加,n元语法的数量成指数形式的增加。阻止这些模型有效的捕获较长的上下文类型。如果有大量的训练数据可用,从训练数据得到的模式不能通过n元语法进行有效地表示。因此产生了将神经网络应用到语言模型(LM)的思想,通过相似事件之间的共享参数来克服参数的指数增加,不再需要精确的历史 的匹配。下面具体介绍几种不同的神经网络语言模型。
n元语法的n体现了该词间的独立性,n越小独立性越强。则可根据不同语料的独立性特点选择不同的模型了。通常n=3。直观上讲,第i位置的词与前面多少个词的相关性并不一定,另外,“词”是一个笼统的概念(可以代表字、词短语等),它的选取也不确定,而一个模型直接赋予n一个确定的值,这本身是一种近似。所以说,模型不可能精确表达,根据这种局限性,一个好的模型的重要性就可想而知了。
2.3模型的改进
由于在自然语言处理中,如通过音素匹配法处理后,部分存在着缺失的可能。而且已识别的词对未识别词会有一定程度的影响,为了解决这种问题,所以华南理工大学陈伟雄[3]在论文"基于n元语法模型的领域语音指令识别"中对n元语法模型做一些改进。
Bengio[1]等人建议通过学习词的分布式表示来避免维数灾难,分布式表示允许每一个句子形成关于语义相近句子的指数数量的模型。该模型可以同时学习每一个词的分布式表示和词序列的分布式表示的概率函数。在合理的时间训练包含数以万计参数的如此大的模型本身是一种挑战,使用神经语言模型的方法进行实验,结果显示在两个文本预料(Brown corpus和AP new corpus)上该神经语言模型的方法极大地提高了n元语法模型的最先进的性能,并且该方法允许利用较长的上下文。
三:n元语法模型在自然语言处理中的应用
自然语言处理就是如何让计算机正确处理人类语言并作出正确的响应,近年来作为人工智能的一个重要组成部分得到了快速发展,使得人机之间直接采用语言作为交互方式成为了可能。
自2006年Hinton等人提出深度学习的概念之后,将深度学习的思想用于语言模型中形成的神经网络语言模型不仅仅是三层的神经网络,而是多层的神经网络语言模型。深度学习也就是深层神经网络算法,每次训练一层,逐层训练,上一层的输出作为下一层的输入。将深度学习的思想应用于语言模型中形成的神经网络语言模型可以应用于自然语言处理的很多领域,比如,词性标注,句法分析,框架排歧,语义角色标注等任务。
n元语法模型在语音指令识别中也有广泛应用.可以用一种音素匹配法[3]结合改进了的n元语法模型的方法对语音指令进行理解。指令按照结构划分类别通过提取其中关键要素来获取指令语义。音素匹配法可以提取指令中部分或全部要素对于指令中未识别的要素则根据已正确采用改进的n元语法模型进行推测。实验表明该方法取得了较好的效果,并在原有的基础上有一定的提高。
参考文献:
[1]陈伟雄.基于n元语法模型的领域语音指令识别.2009.5
[2]Bengio,Yoshua,Rejean Ducharme,and Pascal Vincent..A neural probabilistic language model.In T.K.Leen,T.G.Dietterich,and V.Tresp,eds.,Adv ances in NIPS 13,MIT Press.2001:932-938.
篇5
关键词:语言学 语义学 计算机语言学
一、 形式语义学
语言学研究的是语言的体系,反映在两个方面:第一个是语言学在语言,形态,句法等层面上的描写分工;第二个是描写各层面上的内部系统的状态和关系。随着语言学学科的发展,语言学的研究方向越来越宽,语义学越来越受到重视。交流的语言由声音,文字,语法构成,语言的语义是语言学研究的目的。语义学研究采用研究人工语言的方法研究自然语言,形式语义学是介于语言学和逻样学之间的交叉学科,它的起源可以追溯到德国逻辑学家Frege。他的主张是使用逻辑的方法来研究语言意义。随后,经Wittgenstein, Rnssel, Carnap等人将逻辑和哲学结合起来研究,使很多意义现象得到了较为精确的刻画。上世纪70年逻辑学家兼哲学家蒙太古奠定了形式语义学的基本轮廓。从此形式语义学在语言学界得到了广泛的讨论,形式语义学研究也在诸多方而取得了进展。形式语义学的理论根据是理论语言学为语言研究,研究工具是以数理逻辑的方法,目标是对自然语言的语义进行形式化描述,从而到达机器对自然语言的自动理解。最近的30年,形式语义学在国际上发展迅猛,新的理论不断涌现,并且与理论语言学、计算语言学交叉互动。
在形式语义学走向成熟和发展的过程中做出过重要贡献的学者包括道蒂、帕蒂、库珀等等。已经形成许多具有广泛影响力的形式语法理论主要包括:词汇功能语法、动态句法学、情境语义学、范畴语法、树邻接语法等等。至今,上述理论中的每种理论都仍有大量学者进行研究。这些充分说明形式语言学已经日趋成熟,逐步形成了所谓语言和逻辑交叉研究的风格,既推动了语言学的发展,也引起了对自然语言信息处理领域的高度重视。
但是形式语言学所讨论的问题主要是以英语为对象语言的研究,缺少对其他自然语言所开展的相关研究。在国内语言学界,有很多文献是研究汉语句式,但尚不多见应用形式语言学方法对汉语各种句式进行刻画和计算的专著。将汉语句式中所表达的语义内容转化为经得起计算机语言自动分析检验的形式化的逻辑表达式,这个研究不但是语言学领域期待的,而且是中文信息处理领域迫切需要的。
二、形势语义学与计算机语言学
计算语言学家冯志伟教授曾指出:“计算机对自然语言的研究和处理,一般应该经过如下三个方面的过程:第一,把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式严密而规整地表示出来;第二,把这种严密而规整的数学形式表示为算法,使之在计算上形式化;第三,根据算法编写计算机程序,使之在计算机上加以实现”。形式语义学做的就是这一工作,我们可以说形式语义是理论语言学与计算语言学之间的桥梁。如果没有形式语义学做中介,理论语言学很难直接与计算语言学中的自然语言语义处理做对接,因此形式语义学在今天这个信息技术时代地位越来越重要。
自然语言作为人类知识的主要载体,人类用来表达、保存、传播、传承知识,进行知识的创新。在今天这个高速发展的时代,对自然语言信息的分析处理,已成为社会持续发展的必然要求。语言信息处理已经超越计算语言学的范畴,成为计算科学、语言学、逻辑学和人工智能等多种学科共同关注的领域。
直接借助自然语言,在人与计算机之间实现信息交流是自然语言信息处理的目标。这项任务分应用部分和理论研究。应用部分指的是建立各种处理自然语言的计算机应用软件系统和建设语言信息处理的基础资源。这主要是计算语言学的任务。理论研究的目的是发现语言的内在规律来探索语言理解和生成的计算方法。这一任务应该由有形式语义学背景的语言学家担当。但是现状是令人担忧的,语言学研究与自然语言处理存在脱节现象。2008年12月清华大学孙茂松教授在首都师范大学召开的语言学学科建设讨论会上就指出:我国的语言学家和计算语言学家在上个世纪八九十年代曾有过一段甜蜜的合作阶段,但现在双方在一起合作的现象少了。在过去30年里,计算语言学重点放在语形处理上,理论语言学为句法结构分析提供成熟的理论支持,从而语言学和计算语言学有很多合作。随着语形处理技术日趋成熟,其技术潜力也基本被挖掘殆尽,技术并未得到实质提升。这种现象很大程度上可以归因于自然语言形式语义分析技术的滞后。
近几十年来,随着自然语言处理这一研究方向的兴起,语言学、逻辑学、计算机科学紧密地结合在了一起。计算机信息技术要求人们在逻辑的框架内去描述自然语言的特征。逻辑的应用范围扩大到语言学和计算机人工智能科学等领域,语言学的研究也逐渐融入了大量逻辑学方法,尤其在形式语言学领域,逻辑方法更是受到广泛关注。
汉语部分句式的语义问题是我们首要关心的。自然语言有别于人工语言的最显著形式是歧义现象。自然语言处理中的核心问题之一对始终是歧义问题的研究。已有很多从不同角度对汉语歧义的研究,但从逻辑语义学的视角对汉语歧义句式进行分析的研究不多见。我们可以遵循典型的逻辑语义的分析对于汉语部分歧义句式进行描述。在这过程中,不可少的两条原则是语义类重设原则和逻辑谓词原则。语义类重设原则既考虑到了汉语某些句式的特殊性,又考虑到计算机语言学实现过程中的实际需要;逻辑谓词原则是出于保证语义描写过程一致性的考虑。更多地尊重汉语语言的事实,并且也充分考虑到逻辑语义分析的计算机语言实现的可操作性。
三、结语
面向计算语言学的汉语语法研究已经受到一定程度的关注,已经取得了一定的进展。面向计算语言学的汉语语义研究已日渐成为这一领域的主攻方向。从目前的研究来看,基于形式语义的汉语语义研究有很大的研究空间和研究价值。在语义研究的这一方向上,依照语言学分析思路对相关的汉语现象进行形式化的逻辑语义描写,并在此基础上选取合适的算法加以计算机语言的实现,无疑对于中文信息处理的相关问题的解决大有裨益。
参考文献:
[1]Portner,P.&Partee,B.H.Formal Semantics:The Essential Readings,Oxford: Blackwell, 2002.
[2]冯志伟.自然语言的计算机处理[M].上海外语教育出版社,1996
[3]吕叔湘.汉语语法分析问题[M].北京:商务印书馆,1979.
[4]吕叔湘.歧义类例[J].中国语文,1984(05)
篇6
关键词:人机大战;人工智能;发展前景
中图分类号:TP391 文献标识码:A
0.引言
2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。
这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:
(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。
(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。
简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。
1.人工智能的发展历程
AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。
孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。
形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。
暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。
知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。
集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。
人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。
2.人工智能l展现状与前景
人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。
自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。
自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。
当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。
机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。
机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。
无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。
机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。
人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。
在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。
3.人工智能的发展前景
总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。
人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。
人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。
参考文献
[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.
篇7
关键词:英汉平行语料库;语义分析;翻译教学;B/S结构
目前基于语料库进行语言研究和翻译研究都取得了一定的成果。特别是语料库方面,国外当代语料库有共建英语语料库(COBUILD)、朗文语料库(LANGMAN)、英语国家语料库(BNC)以及国际英语语料库(ICE)为代表的超级语料库(mega-corpora),它们的容量更大,收词量大都上亿,覆盖面更宽,应用更广。东北大学自然语言处理实验室的NiuTrans是目前国内唯一一套开源的统计翻译系统,该系统提供了英汉平行语料库,但是只进行语法标注,没有进行语义标注。对于科学研究和教学应用,可以对该语料库进行深加工,标注浅层和深层语义信息,这样可以应用在教学中。
以上所有研究都是基于经过语法和浅层语义标注的基础上的平行语料库进行的。由于缺少对语料库进行深层语义分析,给研究和应用带来了局限性。
一、现有语义分析工具
对选取的语料进行语法、语义标注,由于目前对语料库的语法标注技术已经成熟,可以运用相应的软件来进行,可以利用斯坦福大学的NLP小组的Parser来进行英语和汉语句子的语法标注,然后对语料进行英语语义和汉语语义分析。
运用英语语义分析网上资源WordNet、FrameNet和VerbNet进行英语深层语义标注,即语义框架识别和标注。由于目前汉语还没有相应的WordNet、FrameNet和VerbNet网上语义分析资源,通过查找汉语对应词语得到相应的已经标注好的英语句子,通过英语句子的语义框架来标注汉语句子的语义框架,最后由人工来校对、编辑。
在汉语语料库语言学研究中,基于词的研究取得了令人满意的成果,如哈尔滨工业大学的开放自然语言平台(Language Technology Platform,LTP)。LTP制定了基于XML的语言处理结果表示方法,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块,其中包括分词(CRFWordSeg)、词性标注(POSTagging)、命名实体识别(NER)、依存句法分析(GParser)、词义消歧(WSD)和语义角色标注(SRL)六项中文处理核心技术以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口、可视化工具,并且能够以网络服务(Web Service)的形式进行使用。
二、 语料库语义分析在教学中的应用
传统翻译教学以教师为中心,无法很好调动学生的积极性。借助语料库进行翻译教学,学生通过探索式、发现式和“做中学”的活动,发现、总结和归纳语言运用的特征和规律,有利于培养学生解决问题的能力和学习能力。
把语料库技术引入翻译教学中,对于培养学生的自主学习能力、提高学生学习兴趣有很大的帮助。对教育信息化是一个有益的尝试。
三、 系统实现技术
本系统拟采用基于Internet网络的B/S结构来实现。用户通过各种浏览器使用该系统,不需要在本机上安装任何插件,这样方便用户使用。服务器端使用Apache或者Nginx作为网络服务器,使用Python语言、MySQL数据库实现系统功能。语料库可使用现有的语料库,也可以用网络爬虫从网络获取我们需要的数据,组成语料库。用WordNet、VerbNet和FrameNet进行语义分析,最后用MySQL进行数据管理,包括建立数据库、查询、备份和更新。Python语言具有丰富的自然语言处理工具,并且具有Web编程能力。所有工具都能够从网络上免费获得,不涉及版权问题。
由于目前对汉语语料库进行深层语义分析还处于探索阶段,本课题通过平行语料库汉语词语所对应的英语句子的语法信息、浅层语义信息和深层语义信息,来进行汉语深层语义标注,是一个创新。
参考文献:
[1]王克非.双语平行语料库在翻译教学上的用途[J]. 外语电化教学,2004(06).
篇8
[关键词]数字图书馆 知识组织系统 领域本体
[分类号]G250.76
1 引言
数字图书馆(DL)是信息环境网络化、数字化、知识化的产物,是国家信息基础设施的核心。数字图书馆把知识作为工作对象,并且关注知识的应用环境和应用群体,因此,知识组织系统的构建在数字图书馆建设中始终发挥着核心的作用。
从广义理解,数字图书馆知识组织应包括数字资源的知识组织系统的构建、语义自丰富、语义互联、互操作、术语服务等。
近年来,在我国图书情报界,本体研究成为了数字图书馆知识组织系统构建的一个热点研究领域。目前为解决数字图书馆知识组织系统语义丰富度问题,本体构建与复用、本体整合、语义分析与抽取、语义标注以及语义互联应用成为学界研究的热点和建设的重点(见图1)。
2 研究现状与热点
2.1本体建模与复用研究
本体建模方法的研究对于本体的应用有至关重要的作用。数字图书馆知识组织系统的构建有赖于本体的开发与完善,本体的开发和完善是一个反复叠加的过程,不会一蹴而就。目前国内外学者试图从本体建模方法和开源本体的复用两个方面进行突破。
目前本体建模的研究已经进入实际应用阶段。许多研究领域都建立了自己标准的本体,但由于领域本体建设还没有成熟的方法论作为指导,目前提出的本体建模方法都是面向特定领域或针对具体的项目,而且都不是经权威标准化机构认证的方法,这就导致各种本体建模方法的出现。如骨架法、企业建模法、循环获取法和IDEF-5方法等。
本体复用已成为重要的课题,越来越多的应用利用本体表示语义信息,因而如何支持本体复用变得愈加重要。本体复用主要有三种:①简单地把整个源本体导入目标本体Wppl,且仅用其中部分规则,而直接忽略其余规则;②仅“复制+粘贴”源本体规则的某子集到目标本体Wppl为导人规则的子集;③把源本体分解成不同的模块,根据相关标准,仅导入需要的模块。相比而言,第3种方法是最有发展前景的方法,目前的困难在于本体的模块化还不很成熟,只提供了本体类的理论和算法。
W3C标准定义的OWL本体语言由一系列规则组成,包括类规则、属性规则和实例规则。在如下导入相似性标注的帮助下,OWL本体可以导入其他的OWL本体:
Annotation(ireports)
Annotation(imports)
导入标注含有把两个源本体导入目标本体的规则。把本体概念加以扩充,可以实现从源本体的类、属性和实例的语义导入。本体复用需要评价已有本体与目标本体之间的关联性。共享和复用是本体的本质要求,也是领域本体建设中很重要的问题。
2.2本体整合
本体整合是本体的语义和解释范畴的问题。本体整合最初由SWAP(Semantic Web and Peer to peer)项目和SEKT(Semantically Enabled Knowledge Technolo―gies)提出,利用本体整合处理本体异质(ontology heterogeneity)。Paolo Bouquet等人给出了本体异质的详细分析,指出在分布式和开放式系统中本体异质是不可避免的,并根据本体异质产生的原因将其划分为4个层次:表示层、术语层、概念层和语义层。Paolo Bouquet等人还认为:表示层的异质可以通过翻译成统一的本体表示语言来解决;术语层的异质通过词汇映射来解决;概念层异质的解决需要通过对整个本体进行考虑,查找不一致,进行映射或合并;语义层的异质可能存在着表示层、术语层、概念层异质,还可能存在语义关系上异质,目前还没有很好的解决方法。
本体映射是本体整合的一个关键环节,它通过一定的方法在已存在的不同本体间建立映射,以便在已存在的和新的领域之间进行交流时有通用的接口和共同的理解。在现实应用中,领域本体规模都很庞大,利用手工方式,进行本体概念比对完成本体映射时繁琐且易错,因此是不可行的。目前国内外研究者对自动化本体映射的方法和技术进行了深入研究,其主要特性如表1所示:
从图1可知:①映射方法上:大多数的本体映射方法是采用一对一集成,而一对多或者多对多的方法比较少,基本没有多对多的本体集成工具出现;②自动化程度上:本体映射无法实现自动化的本体映射,多是半自动化的;③计算方法上:比较单一(除了OntoMap之外);④映射性能上:受到本体构建技术影响比较大。本体映射目前只能够解决术语层和概念层的异质,还无法涉及到语义层的异质,如何解决语义层的异质是当前研究需要重点考虑的问题。
2.3语义分析与抽取
数字图书馆知识组织系统的构建不仅是多种语义工具的互操作和集成,而且还应实现这些语义工具的机器可处理和机器可理解。
国内外学者对自然语言理解展开了深入研究。国外的语言学家、计算机学家、心理学家和逻辑学家在语法、句法、词法、语义分析等方面提出了一系列理论及方法。这些理论和方法大致可归为三大类:基于语法的分析法、基于语法与语义相结合的分析法和基于语义的分析法。国内在理论研究方面尚不深入,但在汉语电子词典、机器翻译、汉语机读语料库、汉语人机对话、汉语情报检索等应用研究领域也有重大突破。
自然语言理解有赖于自然语言处理,自然语言处理的基础是分词技术。因为:一方面,词是自然语言的基本单元;另一方面,计算机以机器词典的形式存储大部分自然语言知识,机器词典中收录了词条的词法、句法和语义知识,并在词类知识基础上编制句法规则。因此,自然语言处理系统必须对“词”进行识别和处理,才能理解和使用知识。
另外,由于汉语与其他语种不同,更需要自动分词,国内的许多机构和学者对此展开了研究。梁南元定义了两种基本的切分歧义类型,而黄昌宁、刘宾、殷建平、文庭孝、尹锋、丁丰、刘开瑛等学者都进行了分词方法的研究和自动分词系统的研究,可以归纳为基于词典的分词方法、基于统计的分词方法、基于理解的分词方法和基于人工智能的分词方法。这些分词方法各有其特点,分别代表着不同的发展方向。其中,基于人工智能的分词方法是目前理论上最为理想的分词方法,但是该类分词方法的研究还处于初级阶段,并且由于汉语自然语言复杂灵活,知识表示困难,所以对于这类分词技术还需要进行更深入和全面的研究。自动分词系统研究成果主要有清华大学SEG分词系统、复旦分词系统、北京大学计算机研究分词系
统和中国科学院ICTCLAS系统。另外,国内学者开始重视语义和知识表示,并有意识地区别于英语自然语言理解的研究模式,寻找适合汉语自身的方法。黄曾阳的概念层次网络(HNC,Hierar―chical Network of Concepts)理论和董振东的知网(How―Net)、东北大学和北京大学对WordNet的汉化等,都在努力探讨适用于自然语言处理的新方法。
2.4语义标注
语义标注(semantic annotation)又称本体标注,即利用本体中定义概念、术语以及语义关系显式地揭示和描述数据资源的语义。语义标注面临两大类任务:一是如何将当前不计其数的普通万维网页面转换为富含语义信息的语义页面,这方面的研究主要集中在语义标引工具和语义标引平台开发;二是如何语义页面,其核心就是分类标引,它要求信息者在网络信息时要尽量使用本体中定义的关系词汇,同时还要显式地表达出概念所归属的语义类别,这一任务也不可能依靠手工的方式完成。因此两大任务都转向本体标注流程和本体自动标注工具。研究者对本体标注工具和语义标引平台进行了深入研究,其中,语义标引平台为IE的实施、本体和知识的管理、APIs入口、存储(RDF仓库)及编辑本体和知识基础的用户接口提供了支持。现有的语义标引平台按照标引方法的使用类型,大体上分为三类:①基于模式的标引;②基于机器学习方面的标引;③基于两种方法融合的标引。目前语义标引平台技术并不成熟,还不能完全满足语义互联的需要,究其原因主要是:①目前大部分标引平台是手动和半自动化的;②学习能力不是很强,不能通过自身的不断学习以适应不同状态下的标引和检索的需要;③可扩展性不够强,不能完全无障碍地与用户进行交流,以完善自身的知识库;④平台需要统一各个用户之间的标引方式和提供的本体,以提高标引精度。
2.5语义互联应用
2.5.1知识可视化知识可视化(knowledge visualiza―tion)是在科学计算可视化、数据可视化、信息可视化基础上发展起来的新兴研究领域,于2004年由Eppler和Burkard率先提出。它是指应用视觉表征手段促进群体知识的传播与创新,包括所有可以用来建构和传达复杂知识的图解手段。现阶段,知识可视化的研究主要为两个方向:
研究知识可视化的表现形式,包括知识可视化的基础理论、知识的可视化表现图的类型、适用范围和效果。如武汉大学信息管理专业学者对此做了一系列研究,出版了《信息可视化与知识检索》,从信息检索结果提供、多媒体信息可视化方面进行了综述性的研究。
可视化的实现,包括知识可视化的形式化模型和算法以及该理论模型和算法的实现系统软件。比如对于思维导图(mind map)现阶段国外已经有Mind Map Manager、Free Mind Map等应用软件。这个方向国内研究的主力军是北京师范大学知识工程研究中心,该中心开发了中文概念图软件易思一认知助手(EasyThinking―Cognitive Assistant)软件,2007年1月7日已3.0版,将概念图、思维导图和一般图合而为一。
从国外知识可视化实践进展来看,澳大利亚的纽卡斯尔大学和皇家墨尔本大学的Bilal Succar进行了信息可视化模型构建的研究,在研究中设计了可视化知识模型和研究中所涉及领域的本体。欧洲学者对本体的可视化进行研究,认为信息可视化为本体校准结果的评价提供了合适的方法。不同层次的细节和概论帮助用户导航并理解校准,用户对半结构化资源的评价涉及到学习活动。马来西亚普渡大学的学者设计了自动语义抽取系统(AME),可视化界面是该系统中的一部分,在设计可视化界面时他们发现用户可以通过对概念网络结果的可视化来将AME系统的利用扩展到最大化。用户可以搜索一个概念,并察看这个概念与其他概念之间的关系。这些关系可以通过“显示文本”功能被追溯到原始文件中的来源句子。
2.5.2语义检索20世纪80年代国际信息检索大会SIGIR会议论文中就出现了对语义检索的讨论,但语义检索研究始终受到语义信息处理发展水平的制约。上世纪末以来,随着自然语言处理、人工智能的发展,尤其是语义网技术的兴起与发展,语义检索研究得以迅速发展。尽管到目前为止对语义检索在概念上仍没有统一的界定,但不同的研究却有着共同之处,就是基于对信息资源的语义处理实现效率更高的检索。目前语义检索有两种,即基于概念的语义检索和基于本体的语义检索。前者是根据概念词典和关系数据库构建概念空间实现语义检索,具有一定的语义处理能力和自然语言接口,但其概念库中不包含概念间关系的描述,因此无法处理有关概念的问题;而后者是基于本体构建概念空间,将本体融合到传统信息检索技术中,不仅可以继承概念信息检索的优点,还可以克服概念信息检索不能对概念关系进行处理的局限。
2.5.3语义互操作数字图书馆知识组织系统互操作主要解决两个问题:多语言和异构。跨语言的互操作问题在美国和欧洲很受重视,美国数字图书馆先导研究计划(Digital Library Initiative)中有许多是着眼于解决语义问题的,例如伊利诺斯(Illinois)大学主持的项目中关于概念空间与分类地图的研究,伯克利(Berkeley)大学主持的项目中关于文字歧义消除的研究,卡内基・梅隆(Carnegie Mellon)大学主持的项目中对于语音识别的研究以及加州大学圣塔巴巴拉分校关于图像的分割与聚类的研究,主要集中于人工智能、统计规律识别技术等,都属于语义研究或语义互操作范畴。欧洲相关的研究项目有MACS、Merimee、Renardus等,甚至尝试自动建立中、英文词表之间的映射。我国也有一些关于双语数字图书馆知识组织系统互操作的研究,如《汉语主题词表》与《美国国会图书馆标题表》(LCSH)、本体之间的转换研究、《中国图书馆图书分类法》与杜威十进制分类法(DDC)类目设置的比较、与DDC对照系统的研制等。
异构数字图书馆系统间的互操作的目标是实现不同系统间知识交换、共享与重用。这方面需要解决的问题是:①不同本体之间的互操作。本体虽然为DL的语义互操作提供了解决方案,但其本身也存在着异构性,因此不同本体之间的互操作也是DL互操作的一个重要方面。②跨语言、跨文化的互操作。未来的DL将是联邦数字图书馆。建立全球范围的DL联邦,需要解决跨语言、跨文化的互操作问题,其中包括比较复杂的语言翻译问题。③DL的发现与安全性。实现全球范围内DL的互操作,需要解决DL的命名和动态发现。随着DL逐步走向实用化,必须考虑DL互操作的安全问题。
要实现这一目标,必须在描述、检索、对象交换与检索协议等方面取得突破性的进展。需要解决的问题包括元数据的定义和通过文本或多媒体数字对象抽取元数据,数字对象的特征描述计算,具有不同语义的异构资源库的整合,信息的聚类和自动分类,自动排序、分级算法以及信息质量、类型或其他属性的自动评测等。
3 结语
随着本体在数字图书馆知识组织系统中的深入应用,如何解决本体建模与复用、本体整合、本体进化和语义互操作问题已经迫在眉睫。
篇9
并列结构分为有标记的并列结构和无标记的并列结构。吴云芳[8]指出,对于有标记的并列结构,处理的关键是确定并列结构的边界;对于无标记的并列结构,处理的关键是辨别同类词连用形式的歧义格式。下面介绍并列结构识别的三种方法:自底向上的图表算法、中心词驱动的并列结构识别、基于条件随机场的并列结构识别。
1自底向上的图表算法
自底向上的图表算法是Hara[5]等提出的,解决嵌套的和非嵌套的并列结构的识别。自底向上的图表算法即可以处理非嵌套的也可以处理嵌套的并列结构。该方法包含下面两个步骤:定义并列结构的语法结构;并列结构树分值的选取。(1)并列结构的语法结构并列结构的语法结构是为了确保两个或多个并列成分的一致性。对于任何两个并列结构,它们或者是没有重叠的两个独立的并列结构(非嵌套)或者是一个并列结构是另一个并列结构的一个并列成分的内部部分(嵌套)。并列结构分为完全并列结构(COORD)和部分并列结构(COORD’),主要是为了处理包含三个或三个以上并列成分的并列结构。例如,(a,b,c)在句子中有下面三种形式的并列结构树,如图1所示。其中,图1(a)中的内部树(bandc)是部分并列结构,它与前面的并列成分a一起构成一个完整的并列结构,部分并列结构用COORD’表示。图1(b)是嵌套的并列结构,bandc是完整的并列结构,a与(bandc)有构成一个并列结构,且(bandc)是该并列结构的一个并列成分。图1(c)中不包含并列结构。(2)并列结构树分值的选取自底向上的图表算法能够有效的获取由一个句子产生的分值最高的并列结构树。并列结构树的分值取所有节点的加和,并且每个节点的分值的计算都是独立的。这里只将COORD和COORD’两种类型的节点设为非空值。并列结构节点的得分是通过捕捉连词下方的序列对的对称性获得的。
2中心词驱动的并列结构识别
中心词驱动的并列结构识别算法是由吴云芳[8]提出的,该算法分为下述3个步骤:(1)利用边界特征词划定并列结构的大致范围。(2)对于名词性的右中心结构(如图2所示),并列标记之前第一个词语被认定为前并列成分中心词,根据一系列相似性原则,在并列标记后搜索与前中心词相似度最大的词语作为后并列成分中心词,后并列成分由此确定;对于动词性的左中心结构(如图3所示),算法类似只是方向相反。(3)根据并列成分结构平衡与相似的原则,在并列结构前端搜索与后并列成分平衡性和相似性最大的词串作为前并列成分。步骤1中提到的边界特征词是指大多位于并列结构外部而不位于并列结构的内部的词语,如果位于并列结构内部,该词一般情况下只与其自身形成的并列结构。吴云芳将并列结构的边界特征词分为3类。前边界特征词、前边界特征词类、后边界特征词。其中,前边界特征词主要有:来自、受到、得到、有利于、包括、具有、涉及、是、作为、如、诸如、例如、来等;前边界特征词类主要是连词(C)和介词(P);后边界特征词主要有:等、等等、都、分别、均、共同、也、之间、来、联合等。
3基于条件随机场的并列结构的识别
用于自然语言处理的统计机器学习模型有很多种,如:最大熵、隐马尔科夫、条件随机场等。条件随机场作为一个无向图模型在序列标注问题上比隐马尔科夫模型、最大熵模型等有向图模型识别的效果好[18]。王东波[11,19]运用条件随机场识别有标记的联合结构。条件随机场模型是Lafferty[20]在最大熵和隐马尔科夫模型的基础上提出的一种用于标注和切分的序列化标注模型。基于条件随机场(Crf)的并列结构识别的系统流程图,如图4所示。
4结束语
篇10
关键词:决策支持系统 人工智能 专家系统
一、智能决策技术概述
1.决策支持系统的形成
随着计算机技术和应用的发展,如科学计算、数据处理、管理信息系统的发展以及运筹学和管理科学的应用,为决策支持系统的形成打下了基础。决策支持系统(Decision Support System—DDS)是80年代迅速发展起的新型计算机学科。70年代初由美国M.S.Scott Morton在《管理决策系统》一文中首先提出决策支持系统的概念。
DSS实质上是在管理信息系统和运筹学的基础上发展起来的。管理信息系统重点在对大量数据的处理。运筹学在运用模型辅助决策体现在单模型辅助决策上。随着新技术的发展,所需要不得不解决的问题会愈来愈复杂,所涉及的模型会愈来愈多,模型类型也由数学模型扩充数据处理模型。模型数量也愈来愈多。这样,对多模型辅助决策问题,在决策支持系统出现之前是靠人来实现模型间的联合和协调。决策支持系统的出现就是要解决由计算机自动组织和协调多模型运行,对大量数据库中数据的存取和处理,达到更高层次的辅助决策能力。决策支持系统的新特点就是增加了模型库和模型库管理系统,它把众多的模型(数学模型和数据处理模型以及更广泛的模型)有效地组织和存储起来,并且建立了模型库和数据库的有机结合。这种有机结合适应人机交互功能,自然促使新型系统的出现,即DDS的出现。它不同于MIS数据处理,也不同于模型的数值计算,而是它们的有机集成。它既有数据处理功能又具有数值计算功能。
决策支持系统概念及结构。决策支持系统是综合利用大量数据,有机组合众多模型(数学模型与数据处理模型等),通过人机交互,辅助各级决策者实现科学决策的系统。
DSS使人机交互系统、模型库系统、数据库系统三者有机结合起来。它大大扩充了数据库功能和模型库功能,即DSS的发展使管理信息系统上升到决策支持系统的新台阶上。DSS使那些原来不能用计算机解决的问题逐步变成能用计算机解决。
2.人工智能概念和研究范围
(1)人工智能定义。由计算机来表示和执行人类的智能活动(如判断、识别、理解、学习、规划和问题求解等)就是人工智能。人工智能的研究在逐步扩大机器智能,使计算机逐步向人的智能靠近。
(2)人工智能的研究范围。人工智能研究的基本范围有:问题求解、逻辑推理和定理证明、自然语言处理、自动程序设计、学习、专家系统、机器人学、机器视觉、智能检索系统、组合高度问题、系统与表达语言等;其主要研究领域有:自然语言处理、机器人学、知识工程。
自然语言处理:语音的识别与合成,自然语言的理解和生成,机器翻译等。
机器人学:从操纵型、自动型转向智能型。在重、难、险、害等工作领域中推广使用机器人。
知识工程:研究和开发专家系统。目前人工智能的研究中,最接近实用的成果是专家系统。专家系统在符号推理、医疗诊断、矿床勘探、化学分析、工程设计、军事决策、案情分析等方面都取得明显的效果。
3.决策支持新技术
(1)数据仓库的兴起和概念。数据仓库(Data Warehouse—DW)的概念是Prism Solutions公司副总裁W.H.Inmon在1992年出版的书《建立数据仓库》(Building the Data Warehouse)中提出的。数据仓库的提出是以关系数据库,并行处理和分布式技术的飞速发展为基础,它是解决信息技术在发展中一方面拥有大量数据,另一方面有用信息却很贫乏(Data rich—Information poor)这种不正常现象的综合解决方案。
W.H.Inmon在《建立数据仓库》一书中,对数据仓库定义为:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建成立决策支持系统的基础。
(2)数据仓库的特点。数据仓库是面向主题的:主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。
数据仓库是集成的:数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。总之将原始数据结构作一个从面向应用到面向主题的大转变。
数据仓库是稳定的:数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。
数据仓库是随时间变化的:数据仓库内的数据时限在5-10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。
数据仓库中数据很大:通常的数据仓库的数据量为10GB级,大型的是一个TB级数据量。数据中索引和综合数据占2/3,原始数据占1/3。
数据仓库软、硬件要求:需要一个巨大的硬件平台和一个并行的数据库系统。
(3)数据开采的概念及方法。1995年在加拿大召开了第一届知识发现(Knowledge Discovery in Database—KDD)和数据开采(Data Mining—DM)国际学术会议以后,“数据开采”开始流行,它是“知识发现”概念的深化,知识发现与数据开采是人工智能、机器学习与数据库技术相结合的产物。KDD一词是在1989年8月于美国底特律市召开的第一届KDD国际学术会议上正式形成的。
知识发现被认为是从数据中发现有用知识的整个过程。数据开采被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。
数据开采的主要方法和技术有:信息论方法、集合论方法、仿生物技术、公式发现、统计分析方法及其它方法。
二、智能决策技术原理