数据分析的方法范文
时间:2023-05-30 16:10:44
导语:如何才能写好一篇数据分析的方法,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词:数据分析应用率;分析应用点;四个层次;数据中心;仪表盘
中图分类号:N37 文献标识码:B 文章编号:1009-9166(2009)02(c)-0063-02
现代企业的决策往往是在整合大量信息资料的基础上制定出来的,对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比,数据利用的应用建设难度更大,它是随着管理水平而发展,同时又取决于业务人员的主观意识,这就决定了以数据利用为核心的应用建设不可能一蹴而就,而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作,经历过曲折,同时也有收获。经过多年的努力,工厂的数据分析应用工作开始进入良性发展阶段,笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。
一、工厂数据分析应用工作开展现状
工厂数据分析应用工作推进至今已有四五年的时间,从最初全面调研工厂数据量和数据分析应用状况,将数据分析应用率指标作为方针目标定量指标来考核,到后来将数据分析应用工作的推进重心从量向质转移,采用以项目为载体进行管理,着重体现数据分析应用的实效性,再到目前以分析应用的需求为导向,以分析应用点为载体,分层次进行策划。经过上述三个阶段,工厂数据分析应用工作推进机制得到了逐步的完善,形成了广度深度协同发展的信息资源利用管理框架。截止到目前,工厂数据分析应用率达到96%,四个层次的分析应用点共计100多个,数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展,有效推动了工厂管理数字化和精细化。2007年,工厂开始探索细化四个应用层次的推进脉络,进一步丰富工厂信息资源利用框架,形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。
1、第一层次现场监控层。第一层次现场监控层,应用主体是一线工人和三班管理干部,应用对象是生产过程实时数据,应用目标是通过加强生产过程控制,辅助一线及时发现生产过程中的异常情况,提高生产稳定性。例如制丝车间掺配工段的生产报警,通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作,对异常情况通过语音报警方式提醒挡车工进行异常处理;例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控,提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主,制丝车间每个工序、卷包车间每种机型的应用点都有所不同,为此我们建立了制丝车间以工序为脉络,卷包车间以机种为脉络的应用点列表,围绕脉络对第一层次应用点进行梳理,形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分,纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分,通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善,一线职工的知识、经验不断充实其中,第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准,同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层,应用主体是一般管理干部,应用对象是产质损、设备、动能等指标,应用目标是通过加强对各类考核指标的监控和分析,提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析,通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析,寻找其中规律及薄弱环节,并寻根溯源,采取措施,降低劣质成本。例如卷包车间的产量分析,通过对产量数据、工作日安排、计划产量进行统计和汇总,结合车间定额计划、作业计划和实际产量进行分析,寻找实际生产情况与计划间的差异,并分析原因。第二层次应用以管理人员个性化的分析为主,呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的,至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表,围绕脉络对第二层次应用点进行梳理,形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板,明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入,模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层,应用主体是项目实施者,应用对象是各类项目的实施过程,例如QC项目、六西格玛项目、质量改进项目,或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作,提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例,我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来,在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法,提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”,其五个阶段[2]D(定义)、M(测量)、A(分析)、I(改善)、C(控制),每个阶段都要求结合如FMEA(失效模式后果分析),SPC(统计流程控制),MSA(测量系统分析),ANOVE(方差分析),DOE(实验设计)等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层,应用主体是中层管理者,应用对象是专业性或综合性的分析主题,应用目标是通过专业科室设计的专题性分析模型或综合性分析模型,为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后,产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层,以此来正确地判断工厂的生产经营状况,是摆在我们眼前的一个突出问题。大家都有开车的经验,司机在驾驶车辆的时候,他所掌握的车况基本上是来自汽车的仪表盘,在车辆行使的过程中,仪表盘指针的变化,告知汽车的车速、油料、水温等的状况,驾驶员只要有效地控制这些指标在安全范围之内,车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂,建立工厂关键指标及运行管理仪表盘,将工厂的关键信息直观地列在上面,及时提醒各级管理人员工厂生产运营是否正常。
⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示,以工厂关键绩效指标为中心,支持统计分析和挖掘,可为中层管理者提供工厂关键绩效指标一门式的查询服务,使各业务部门寻找、阐释问题产生的原因,以有效监控各类关键绩效指标,及时采取改进措施,提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态,及时掌握故障情况,采取措施加以闭环,将因系统故障造成对用户的影响减至最小,确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统,中层管理人员上班一打开电脑进入系统,就能了解到当天及上一天各类系统的运转情况,发生了什么异常,哪些故障已经得到解决,哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上,由各专业科室思考专业条线上的分析主题,采用先进科学的理念和方法对数据进行分析和挖掘。近两年来,工厂充分发挥专业科室的优势和力量,相继设计和开发了工艺质量条线的六西格玛测评系统,设备条线的设备效能分析系统,还有质量成本核算与分析系统。通过这些分析主题的支持,工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息,及时采取相应措施,从而提升管理效率。
二、数据分析应用工作存在的不足及思考
工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进,每个层次的推进脉络已经逐步清晰和明朗,但事物发展到一定的阶段总会达到一个瓶颈口,目前工厂数据分析应用工作存在的问题及措施思考如下:
1、从推进手段上要突破信息条线,充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线,其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划,但是无论从工厂层面还是从车间层面来讲,单纯依靠信息条线从侧面加以引导和推进,使得数据分析应用工作始终在业务条线的边缘徘徊,与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作,调动起业务人员的积极性和主动性,突破现有的瓶颈,应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导,引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考;二是建立平台加强各车间同性质岗位之间的沟通与交流,均衡各个车间的数据分析应用水平和能力;三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来,专注于事务处理,将数据应用方面的功能完全交给数据中心来解决。目前,数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型,并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看,还比较局限于个别管理人员,追寻原因如下:一是业务系统开发根据用户需求定制开发报表,业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板,甚至可能需要将其导出再作二次处理,那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多,新进管理人员不熟悉数据中心应用,导致数据中心应用面受到限制。随着今后MES的建设,业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此,要尽快培养工厂业务人员数据中心的应用能力,包括数据获取以及报表定制方面的技能。笔者认为应对方法如下:一是对于岗位人员变更做好新老人员之间一传一的交接和培训;二是适时针对新进管理人员开展集中培训;三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表,围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的,以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用,工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作,工厂每年都会组织部门进行应用点的申报,并按项目管理的思想和方法实施,事先确立各个应用点的应用层次、数据获取方式、实现平台,并对其实施计划进行事先的思考和分解,确定每一个阶段的活动目标、时间节点以及负责人员,每个季度对实施情况予以总结,并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年,部门可供挖掘的应用点越来越少,如何调动部门的积极性,保持并提高应用点的实效性,我们有必要对新增分析应用点的质量和实施情况进行考评,考评标准为:一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性;二是新增分析应用点是否能切实提高管理的精细化和科学化水平;三是新增分析应用点是否能采用项目管理的思想和方法实施,按时间节点完成各项预定计划。
三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进,工厂业务人员用数据说话的意识已经越来越强,但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平,还有很长的路要走,这既需要我们的业务人员从自身出发提高应用数据的水平和能力,同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段,真正实现数据分析应用成为工厂管理的重要支撑手段。
作者单位:上海卷烟厂
参考文献:
篇2
[关键词]财政收入;GDP;面板数据
中图分类号:F01 文献标识码:A 文章编号:1006-0278(2013)02-024-01
在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。
下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。
一、GDP与财政收入关系的经济学模型
财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。
二、实证分析
(一)单位根检验
Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。
(二)协整检验
如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。
在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。
三、建立模型
混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。
变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。
在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。
四、结论
通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。
参考文献:
[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.
[2]张晓峒.Eviews使用指南(第二版)[M].南开大学出版社,2004.
篇3
相关热搜:统计学 统计学原理
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法
篇4
【关键词】教师 大数据 数学模型 matlab 最小二乘法
【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2015)06-0155-02
大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[2]。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对那些含有意义的数据进行专业化处理。本文将以东北地区数学专业教师大数据为基础,通过“加工”实现数据的“增值”,使其为决策与预测服务。
一、东北地区数学专业教师大数据来源及准备
通过查阅资料与调查,收集到东北三省各高校数学教师相关大数据,包括教师教龄(?S年)、收入(?S元)、税收(?S元)和职业病情况等方面的实际数据。由于得到的数据信息量大,轻重各异,所以首先需要进行数据预处理,即清除异常数据、错误纠正、格式标准化等,再通过数据挖掘技术,利用一系列相关算法和数据处理技术从大量的数据中提取人们所需要的重要信息,也就是上面所提到的实现信息的“增值”,同时大大提高数据处理效率,下面具体介绍本项目所采用的模型和计算方法。
二、东北地区数学专业教师大数据分析与结果
收集并处理好教师教龄、收入、税收和职业病情况等方面的数据后,本文主要针对三个方面进行了详细的分析:
1.教师收入随年份的变化
(1)数据范围:1994年-2014年东三省各高校数学教师收入(单位:元);
(2)计算条件:matlab软件,最小二乘回归分析,高性能计算工作站;
(3)求解过程:年份作为自变量x,收入为因变量y,从总体上看,二者统计关系大致符合一元线性的正态误差模型[3],即对给定xi的有最小二乘一元线性回归公式yi=b0+b1xi+εi,其中:
b■=■, ■=■■x■b0=■-b■■, ■ =■■y■
其中εi是由变量可能的内在随机性、未知影响因素等随机扰动造成的误差。总之,它可看成是众多细小影响因素的综合代表。最后,由Matlab提供polyfit函数实现回归函数拟合[4];
(4)结果分析:计算结果表明,随着年份的增加,教师收入也在不断增加。估计的因变量的系数b1约为191,也就是说,每过一年,教师收入大致可增加近191元。
2.教师职业病情况与教龄的关系
(1)数据范围:1994年―2014年东三省各高校数学教师教龄(单位:年)、职业病情况;
(2)结果分析:首先利用matlab软件,以横轴为某年东三省数学教师教龄,纵轴反映相应教龄的平均职业病情况(为方便,规定越接近纵轴正方向,职业病越严重)利用matlab软件绘制图形[5],发现教师教龄越长,职业病也愈加严重。每一年的教师职业病情况均可绘制一张图表,通过将这11张图表的最高值(即每一年职业病的最高值)做比较,发现其趋势是先逐年下降,最后趋于稳定。
3.对教师专业发展阶段的研究
(1)数据范围:2014年东三省各高校数学教师收入、教龄、税收和职业病大数据;
(2)计算条件:IBM处理器、大数据挖掘分类算法;
(3)求解过程:用神经网络研究方法(即模拟生物上神经元工作的方法)。图中每个椭圆形节点接受输入数据,将数据处理后输出,输入层节点接受教师信息的输入,然后将数据传递给隐藏层,隐藏层将数据传给输出层,输出层输出教师专业发展处于哪一专业成熟阶段;
(4)结果分析:若将教师专业成熟过程分为三个阶段:形成期、发展期和成熟期。那么利用IBM处理器和以上算法,在所调查的教师中,约70%处于发展时期,是其基本适应教育教学工作的时期;约20%处于形成期,是形成良好心理素质和正确教育思想的关键时期;约10%处于成熟期,是掌握教学主动权,成为学校教学骨干的时期;
(5)研究意义:研究东三省高校数学教师专业发展成熟阶段,可以基本掌握教师资源结构,从而能够遵循不同发展阶段的不同特征、观念、心理、发展需求,制定相应教研活动、政策和制度,促进教师全面持续发展[6]。
三、结果讨论
1.数据呈现以上结果的原因
(1)随着国家科教兴国战略的深入实施,教师的工资和待遇将被逐步纳入国家工作人员统一管理,教师的收入将得到很大的提高。另一方面,数学能力的培养是学习各专业、走入各行业的基础,国家将加大数学知识的教育力度,进而数学专业教师所付出的辛苦也更加不可小觑,综合以上几个重要原因,教师收入随年份增加而增加也是符合经济理论的。
(2)教龄越长,职业病也越严重的依存关系,我们容易理解。但随着时间的推移,职业病的严重性呈现下降趋势正是反映了我国科技的革新:环境的改变、教学设备和教学技术的更新使得教师的课堂教学更加高效和轻松便捷,如多媒体、电子白板使得课堂不再“尘土飞扬”。
(3)在对教师专业发展阶段的研究中,处于专业发展时期的教师所占比例最高,达到近70%。实际上,他们多数处于青壮年的人生阶段,是社会的中坚力量,又曾在高等教育多样化与综合化的背景下受到过良好的教育,并具有较丰富的教学经验和紧跟新时代的创新思想,自然在专业发展的角度也占有较大比例。
2.合理的相关预测
大数据最有价值的特点就是其“预见性”。上述数值结果表明,在经济平稳发展和社会稳定的前提下,东三省数学专业教师的收入在未来的几十年依旧处于增长趋势,教师职业病总体减轻,专业发展越来越成熟,使得教师队伍整体素质越来越高,而未来教师的考核奖励制度也会变得更加严格和全面。
3.建议
(1)无论是对教师行业还是其他行业感兴趣,都要关注其变化,分析其形势及趋势,以便对此行业的认知更加科学合理。
(2)本文采用的大数据处理所用模型和方法,可以进一步推广到其它相关领域,使之成为研究大数据的更通用的工具。
本文利用matlab软件、最小二乘法模型及IBM处理器分析了东北地区数学专业教师大数据,得出的结果对于掌握该地区数学教师基本情况并预测其发展趋势有着重要的作用,还为热心同类问题的研究者提供高效的方法和技术。当我们不能有效处理所获取的大数据,它们就是一些平凡的数字和符号。如果我们能够很好地驾驭大数据,它们必定会为我们带来诸多的方便。
最小二乘法模型在处理大数据时有一定的优势[7],统计分析,神经网络算法和遗传算法都是处理大数据的有效方法,如果能将这些方法有机的结合起来,将更能获得许多满意的数值分析结果。当大数据超过计算条件的时空允许时,不仅耗时费力,甚至使得计算成为不可能,通常需要采用并行算法等高效计算手段。在高性能计算方面,我们并没有用到并行算法,如果能利用并行算法,所处理的数值结果容量会更大更有参考价值。
参考文献:
[1]蔡锁章主编.数学建模:原理与方法.北京:海洋出版社,2000.
[2]维克托迈尔舍恩伯格.大数据时代.浙江:浙江人民出版社,2012.
[3]吴翊,吴孟达,成礼智编著.数学建模的理论与实践.长沙:国防科技大学出版社,1999.
[4]张德丰编著.Matlab数值分析与仿真案例.北京:清华大学出版社,2011.10(21世纪高等学校规划教材计算机应用)IBSN 978―7―302―26254―1.
[5]杨德平等编著.Matlab基础教程.北京:机械工业出版社,2013.221世纪高等院校计算机辅助设计规划教材 ISBN 978―7―111―41023―2.
篇5
【关键词】靶场遥测 数据处理 处理方法
数据处理的周期直接受到遥测数据参数提取和处理素的影响,这也是在靶场遥测数据领域一项重要的研究内容。本文将就此论题进行探讨,以求得到高效的处理方法。
1 遥测复杂数据帧的描述
遥测数据是二进制数据流,主要通过帧结构形式将多路数据进行记录,固定字节长度的文件信息是文件头。子帧中有专门的一路用于副帧和数字量,子帧参数字节和副帧有着相同的数据类型,但是有着不同的数字量参数字节,有着繁多的参数种类。如果数字量结构中相对导弹每个特征飞行时段都需要有一个分帧记录数据,一般分帧有四个,每个分帧可以分为A、B区,在A区不同分帧有着相同的记录参数,在B区记录参数各不相同,这种数字量则为遥测复杂数据帧。
2 大数据量处理
2.1 基于网络数据库的数据处理模式
遥测数据综合处理系统有多个设备组成,包括专用数据导入计算机、数据存储阵列、高性能客户机、交换机、高性能服务器。其中服务器需要配备两台,一台用于中心处理服务器,一台用于做数据存储服务器。中心服务器同时为多个用户提供计算服务,可以充分利用服务器硬件资源提高数据的处理速度。
遥测数据综合处理系统通过将C/S与B/S结合的方式方实现。C/S主要用于处理日常试验任务的数据、数据档案的归档和记录、数据的查询等工作;B/S架构主要用于管理任务、查询统计历史数据、上传下载打包的数据。
按照变化频率,可以将遥测参数分为速变参数和缓变参数。缓变参数有着复杂的记录格式,包括子帧、副帧、数字量等帧结构中都有所分布,如果导弹的型号不同,那么其参数信息表单也存在差异,所以更改频繁、使用单一是其主要的特点。所以,可以采用客户端软件对数据的质量进行检查和分录,由中心处理服务器实现分录数据的对接、平滑滤波和剔除野值。缓变参数处理操作步骤一般如下:
(1)用户通过客户端提供的数据下载功能将项目试验任务遥测数据下载到本地。
(2)对项目任务参数信息进行审核,如果该参数信息表单已经存在那么需要重新配置参数信息表单。
(3)在缓变参数处理软件中输入遥测数据及参数信息表单路径,然后上传到中心处理服务器,完成数据的对接,剔除野值,生成参数数据文件。
(4)上传生成的参数数据文件和参数信息表单,由数据存储中心进行保存。
(5)生成处理结果
用户通过客户端软件对测量数据质量检验报告进行预览,合格后可以打印。
在测量数据的子帧结构中,速变参数记录数据有着相对固定的格式,型号不同的导弹任务参数信息表单基本没有太大的差别,所以可以采用客户端软件实现数据的验证和截取。速变参数记录数据的处理步骤如下:
(1)上传参数信息表单,将数据分路指令发送给速变参数处理软件服务器。
(2)下载遥测数据文件,根据要求执行遥测数据文件质量检查等操作,并且保存到存储中心,将执行完毕的指令发送给客户端软件。
(3)用户通过客户端软件查看测量数据质量检查情况,如果不符合质量评定要求,发送数据对接信令,将不同测量数据的分路数据进行对接,生成参数数据文件并上传存储中心。
(4)用户通过客户端软件从存储中心下载相应的参数数据文件,进行选段采样、谱分析,生成谱图。
(5)用户通过客户端软件将最终参数数据文件保存到存储中心,发送报告生成指令,报告生成服务软件自动生成数据处理结果报告和测量数据质量检查报告,用户审阅通过后即可打印。
2.2 数据选取
随着遥测测量数据量的不断增加,数据的冗余性也逐渐加大。因此,将数据压缩技术应用于遥测数据处理中,在保持参数波形不失真的情况下降低数据处理量,从而达到提高数据处理效率的目的。目前,数据压缩方法很多,常用的主要有相对插值法、二次采样法、抛物线法和一阶扇形内插法,但从压缩比和参数波形保持两方面综合来看,一阶扇形内插法更具优势,具体内容在此不详细叙述,可参考《靶场遥测数据选取方法的比较分析》。
3 结束语
通过改变数据处理模式以及降低数据冗余性,掌握遥测数据记录特点和变化规律,将遥测大数据量处理问题予以解决,这对于靶场遥测数据处理上有着重要的意义。未来应当构建遥测综合处理系统,尽量满足大数据量处理的要求。希望本文提出的观点具有一定的参考价值。
参考文献
篇6
本文主要讲述了工程研究中缺损数据的主要的简单填补方法,涉及了人工填补、特殊值填补、回归填补、信息扩散填补以及多重填补,并浅析了各种填补方法的优缺点。但在实际问题中,仍需要考虑各方面的因素,结合实际情况,对填补的数据进行最优化处理。
关键词:
缺损数据 ; 信息扩散; 多重填补
前言
随着工程技术的发展越来越迅速,人们所掌握的各种工程手段也更加的成熟,但工程研究主要是以大量的数据处理为基础的,这就使得工程数据的分析与处理显得尤为重要。然而,在现实的数据采集与发掘的过程中,由于数据采集技术和偶然的原因,使得某些重要的数据丢失或无法测得,致使这些工程研究与应用的难度增加,且研究所得结论也会或多或少地受到影响。在现实情况下,缺损数据所造成的影响主要有以下几点:1.含有缺损数据,导致获得的信息量减少,使统计精度降低;2.数据处理中的许多假设都是建立在无缺损数据的前提下,致使处理的结果不正确;3.缺损数据本身就是重要的数据源,使得后续计算与处理无法继续。由此可知,对这些缺损数据或不完备数据的处理将成为工程研究上一大重要问题。
工程上缺损数据产生的原因以及主要的处理方法
缺损数据产生的原因是多样的,主要分为由于器械精度不够而导致测得错误的数据或者无法测得的数据和由于人为的原因导致数据记录错误或数据丢失。而在工程研究上,由人的失误等主观因素导致的缺损数据是可以避免的,这些缺损数据大多数是由于器械等客观因素导致的。例如在地震研究中,许多数据都不可能准确地测得;再例如在古建筑研究方面,如何根据现测得的古建筑材料性能参数估计该古建筑在不做人工处理的条件下仍能保存的时间……缺损数据可谓无处不在,缺损数据的处理或许将成为工程师的一大难题。
目前,工程上处理这些缺损数据的方法主要是删除、填补和忽略。现阶段最常用的处理方法就是删除了,甚至一些统计软件也常用这一依据,在所删除的元组相对于整个数据系统相对比较小的情况下,该处理方法非常有用,且简单易行。然而很多时候,缺损的数据本来就是很重要的数据,必须要获得该缺损值,这种方法就不可行了;同时,在所挖掘的数据本来就少的情况下,这种以牺牲现有数据来得到完整的数据系统也是不明智的,该方法的局限性就在于此。对于填补缺损数据,无疑是一种比较实用的处理方法。在填补恰当的情况下,对数据的后续研究与处理将起到非常重要的作用。本文主要就是讨论缺损数据的最优填补方法。再者,就是忽略这些缺损的数据,也即不处理这些数据。相比于删除和填补误差较大的情况,直接在含有缺损数据的数据集上进行数据分析与处理也不失为一种较好的处理方法。
缺损数据的填补方法分析比较
填补缺损数据,也即将缺损的数据用合适的值代替。如何使代替值与真实值接近则成为填补的关键,若填补合适,则将对数据的进一步处理起至关重要的作用;相反,填补出现较大的失误则将对后续的分析带来困惑,甚至得到错误的结果。一般情况,缺损的数据不外乎两种,一种就是缺损的数据是具有离散性质的,例如决策表中的属性;另一种则是具有连续性的,例如高耸建筑某时刻的沉降值。
人们通常观测到的数据不可能是连续的,往往是测定需要的数值或者通过观测某些特定点的值来近似估计所需要的值。对于具有连续属性的数据,需要将其离散化,变为具有离散特性的数据,需要某些特定值时,则可以用离散缺损数据填补的方法将其进行填补,这大大减少了数据观测的复杂程度。而连续属性离散化,就是在连续属性的特定范围内划定若干个离散点,将连续属性分为若干个离散区间,若区间划分较小的情况下,则可以用该区间某一属性值代替该区间的属性值。目前国内外连续属性离散化的方法主要有等宽区间法、等频区间法、K一means算法、ChiMerge算法、StatDise算法等。对于不同的连续属性,应采用相应的方法将其离散化,继而用离散型缺损数据的填补方法将其填补。由此,数据填补最终都可归为填补离散型缺损数据。而对于离散型缺损数据(以下简称为缺损数据),主要的填补方法有以下几种:
人工填补
人工填补,顾名思义,就是由人直接将缺损的数据填补完整。由于最了解数据的还是数据获得者,因此这个方法得到的数据与真实值也较为接近。同时人工填补也是现阶段为数不多的不以现有数据为依据的填补方法。但当需填补的数据规模较大时,这个方法明显不合适,工作量大,费时费力。
可能值填补
所谓可能值填补,就是利用现有数据填补缺损值,它是以最大概率的可能取值来补充所缺的值。以下介绍的可能值填补主要有平均值填补、众数填补、中位数填补、期望最大填补、相似对象值填补等。
2.1 平均值填补
平均值填补,就是取该属性其他对象取值的平均数作为该属性的取值。平均值填补分为总平均值填补和条件平均值填补。总平均值填补是取将该属性集的所有属性的平均值作为填补值,若同一属性存在多个缺失值,则这些填补值将完全相同,不符合变量之间的波动规律。相反,条件平均值填补是将这个属性计划分为若干个范围,取缺损值所属范围的属性集的平均值作为填补数,这显然对变量的波动程度的估计有所提高。平均值填补也存在一定的缺陷,首先均值填补已经降低了整个属性集的方差;其次,若填补的变量所在的属性集不符合正态分布或与正态分布相差较大,则平均值填补就不合理了;最后,当缺损值的属性集是非数值型的时候,平均值填补则不能进行。
众数填补
众数填补,就是取该属性其他对象取值的众数作为该属性填补值。对于具有较高重复性的属性集,众数填补比平均值填补显得更加符合属性集的变化规律。而对于非数值型的缺损值,有时也可考虑采用众数填补。
中位数填补
相比于平均值填补和众数填补,中位数填补就是取属性集的中位数作为填补值。对于变量分布是偏态的属性集,中位数填补比平均值填补要更加准确。中位数填补同样可以应用于非数值型的属性集。
期望值最大填补(EM算法)
EM算法就是这样,假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。这种方法强调先对缺失数据进行估计,最大化是在忽略缺失数据的前提下进行最大似然估计的。当具备缺失数据的估计值和给定的观测值时,就可以进行期望计算,求出缺失数据的条件期望,用期望值代替缺失值,进行循环计算,直到最大似然估计收敛为止。这种方法的最大优点源自于在大样本条件下,它能非常简单地执行并且能通过稳定、上升的步骤可靠地找到全局最优值。
相似对象值填补(热卡填补)
相似对象值填补,也即热卡填补,它要求在现有的数据里找到与缺失对象最相似的对象,用该对象相应的属性值代替缺失值。该方法简单易行,且能保持填补数值与变量非常接近。但该法主观因素较多,没有同一的标准衡量相似度,而且耗时费力。
同样,众数填补、中位数填补、热卡填补也可以拓展成条件众数填补、条件中位数填补、条件热卡填补。
回归填补
回归填补,即是通过建立变量Y与自变量Xi(i=1,2,…)的回归模型来预测Y的缺失数据,也即建立缺损数据所在的变量关于自变量的函数关系式,进而用该点的函数值代替缺失值,在现阶段主要可以通过多项式拟合来填补缺损的数据。在数据量较小的情况下,该方法明显有扭曲数据分布的缺点,并且对于相同的Xi,如果对回归模型不加以处理,就会得到相同的填补值,这就和总体均值填补一样,扭曲了变量的变异性质。若在回归填补中增加一个随机成分,将其和作为填补值,这样就克服了扭曲变量变异性质的缺陷。这种方法的关键在于如何确定最优的回归函数关系模型,不同的情况要具体而议,而且要考虑许多客观因素。
信息扩散填补
信息扩散原理是由黄崇福教授提出的,虽然现在还不是完全很成熟,但在数据填补、风险评估等领域有着很重要的意义。它的原理是将A点的信息或数据通过一定的衰减传递到其他点,再将这些点得到的信息依次传递下去,最后B点肯定能得到一定的信息量。反之,B点得到的信息或数据也可传递给A点。通过该方法,我们可将已有的观测值通过一定的扩散形式传递给需要填补的观测点,进而用这些点最终得到的传递值代替其观测值。目前该方法存在的不足之处就是如何确定扩散函数以及扩散的窗宽,这都需要根据实际问题进行大量的验算,最终确定扩散函数及窗宽。
多重填补
以上介绍的填补方法,填补的数据都是唯一的。而多重填补的原理是首先为缺失值产生一系列用来填补的候选值,把这些候选值填补到缺失值后得到一系列的完整数据集合,对这些完整数据集采用相同的处理方法,再综合分析考虑,选取最合适的缺失数据候选值。该方法在确定候选值时可以应用上述的各种填补方法,而且考虑了许多不确定因素,在数据分析处理中占有很高的地位,但它不适合数据的挖掘,而且计算也很复杂。但如果我们已经通过前面所述方法得到了若干候选填补值,就可以用该方法确定最佳的填补值。
总结
缺损数据的填补方法固然有很多种,但针对不同的情况,如何合理的选取填补方法才是填补的关键。只有弄清缺失数据的原因、特性、数据类型、数据集分布等许多因素,才可以为选取合适的填补方法提供依据。而且通过以上的分析,每种方法都有其优缺点,如果在数据填补过程中能综合考虑,或者将不同的方法加以融合,可能会使得填补效果更加理想。除此之外,填补结束后还有考虑填补的合理性,即先填补后分析其合理性,如此循环反复,方可取得合理、理想的填补效果。
参考文献:
[1] 邓银燕.缺失数据的填补方法研究及实证分析[D].西安:西北大学,2010
[2] 宫悦.基于粗糙集的不完备信息系统数据挖掘方法研究[D].大连:大连海事大学,2008
[3] 张昕.不完备信息系统下空缺数据处理方法的分析比较[J].湖南师范大学学报,2008,21(4):444-447
篇7
句法分析任务是对文本进行分析,将输入句子从序列形式变为树状结构,从而刻画句子内部词语之间的组合或修饰关系。这是自然语言处理领域的核心研究课题,已经广泛应用到其它自然语言处理任务中,如机器翻译、自动问答、信息抽取等。和其他句法分析形式如短语结构句法分析相比,依存句法分析具有形式简单、易于标注、便于学习、分析效率更高等优点[1,2]。另外,依存句法描述词和词之间的关系,因此更适合于表达非连续的、远距离的结构,这对于一些语序相对自由的西方语言非常重要。依存语法历史悠久,最早可能追溯到公元前几世纪Panini提出的梵文语法。依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系(Dependency Relations)。一个依存关系连接两个词,分别是核心词(Head)和修饰词(Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系(Dependency Relation Types)。目前,依存语法标注体系已经为自然语言处理领域的许多专家和学者所采用,并应用于不同语言中,且对其不断地发展和完善。研究者们提出并实现了多种不同的依存分析方法,达到了较好的准确率。近年来,依存句法分析多已广泛用于统计机器翻译[3]、自动问答[4]和信息抽取[5]等任务,并取得了良好的效果。
依存句法分析任务的输入是一个已完成分词的自然语言句子。形式化地,输入句子可以表示为:x=W0W2…Wi…Wn,其中,wi表示输入句子的第i个词;W0表示一个伪词,指向整个句子的核心词,也就是根节点(ROOT)。图1表示输入句子“刚满19岁的欧文现在效力利物浦队。”的依存树。
[JZ][HT5”H]图1 依存树示例[ST5”HZ][WT5”HZ][JZ]Fig.1[ST5”BZ] Example of a dependency parse
最一般地,一个依存句法树由多个依存弧构成,表示为:d={(h,m,l):0≤h≤n,0
依存句法分析的目标是给定输入句子x,寻找分值(或概率)最大的依存树d*,具体公式为:
因此,依存句法分析存在四个基本问题:
(1)如何定义Score(x,d),即采用哪种方式将依存树的分值分解为一些子结构的分值。这是模型定义问题;
(2)采用哪些特征来表示每一部分子结构,即特征表示问题;
(3)如何获取特征的权重,即模型训练算法问题;
(4)给定模型参数,即已知特征的权重,如何搜索到分值最大的依存树。这是解码问题。
2依存句法分析的方法
数据驱动的依存句法分析方法主要有两种主流的方法:基于图(Graph-based)的分析方法和基于转移(Transition-based)的分析方法。这两种方法从不同的角度解决这个问题。CoNLL上的评测结果表明这两种方法各有所长,并且存在一定的互补性[2,6]。下面对各类方法展开细致分析。
2.1基于图的依存句法分析方法
基于图的依存分析模型将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。模型通过基于动态规划的解码算法从所有可能的依存树中搜索出分值最高的依存树。相关的研究工作主要包括:
(1)模型定义。根据依存树分值中包含的子树的复杂度,基于图的依存分析模型可以简单区分为一阶、二阶和三阶模型。一阶模型中,依存树的分值由所有依存弧的分值累加得到,即依存弧之间相互独立,互不影响[7]。二阶模型中,依存树的分值中融入了相邻兄弟弧(Sibling)和祖孙弧(Parent-child-grandchild)的分值[8,9]。三阶模型中,进一步增加了祖孙兄弟弧(Grandparent-parent-sibling)等三条依存弧构成的子树信息[10]。
(2)特征表示。在上述模型定义的基础上,研究人员也提出了相应的一阶、二阶、三阶子树特征[7-10]。每种子树特征考虑句子中的词语和词性信息、依存弧的方向和距离信息等。随着高阶子树特征的使用,依存句法分析模型的准确率也有较大幅度的提高。
(3)训练算法。基于图的依存分析方法通常采用在线训练算法(Online Training),如平均感知器算法(Averaged Perceptron)[11]、被动进取算法(Passive-Aggressive)[12]和Margin Infused Relaxed算法(MIRA) [13]。在线学习算法以迭代的方式训练特征的权重。一次迭代中遍历整个训练数据集合,每次根据一个训练实例的分析结果对当前的权重向量进行调整。
(4)解码算法。一阶模型对应的解码算法为Eisner算法[14]。Eisner算法的本质是动态规划,不断合并相邻子串的分析结果,直到得到整个句子的结果,其时间复杂度为O(n3)。进而,McDonald和Pereira (2006)对Eisner算法进行扩展,增加了表示相邻兄弟节点的数据类型,时间复杂度仍为O(n3)。Carreras (2007)同样对Eisner算法进行扩展,得到面向二阶模型的基于动态规划的解码算法,时间复杂度为O(n4)。Koo和Collins (2010)提出了面向三阶模型的解码算法,时间复杂度为O(n4)。一些研究者提出采用基于柱搜索的解码算法,允许模型方便地融入更高阶的解码算法,同时保证较低的时间复杂度[15,16]。
2.2基于转移的依存句法分析方法
基于转移的依存分析模型将依存树的搜索过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。模型通过贪心搜索或者柱搜索的方式找到近似最优的依存树。其优点在于可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。相关的研究工作主要包括:
(1)模型定义。基于转移的依存句法分析方法提出早期,研究者们使用局部分类器(如最大熵分类器)决定下一个动作,选择概率最大的动作[17,18]。这样,一个依存树的概率由其对应的动作序列中每一个动作的概率累乘得到。近年来,研究者们采用线性全局模型来决定下一个动作,一个依存树的分值为对应动作序列中每一个动作的分值的累加[19-21]。
(2)特征表示。基于转移的依存句法分析方法的优势在于可以充分使用已构成的子树信息。Zhang和Nivre (2011)在前人工作的基础上,提出了丰富的特征集合,如三阶子树特征,词的配价信息等[21]。
(3)训练算法。早期,研究者们在训练语料上训练出一个局部分类器,在解码过程中重复使用,决定下一个动作。通常采用的分类器有基于记忆的分类器、支持向量机等。近年研究发现采用全局线性模型可以提高句法分析的准确率,通常采用平均感知器在线训练算法。
(4)解码算法。其任务是找到一个概率或分值最大的动作序列。早期采用贪心解码算法,即每一步都根据当前状态,选择并执行概率最大的动作,进入到下一个状态。如此反复直至达到接收状态,形成一棵合法的依存树[17,18]。进而,研究者们提出使用柱搜索的解码方式扩大搜索空间,即同时保留多个分值最高的状态,直到搜索结束时选择最优的动作路径[22,19]。Huang和Sagae (2010)提出在柱搜索中加入动态规划,通过合并等价状态进一步扩大搜索空间[20]。随着搜索空间的增大,依存句法分析的准确率有显著提高。
2.3模型融合的方法
基于图的方法和基于转移的方法从不同的角度解决问题,各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。McDonald和Nivre (2011)通过详细比较发现,这两种方法存在不同的错误分布。因此,研究者们使用不同的方法融合两种模型的优势,常见的方法有:stacked learning [2,23];对多个模型的结果加权后重新解码[24,25];从训练语料中多次抽样训练多个模型(Bagging)[26,27]。
2.4词性标注和依存句法分析联合模型
依存句法分析模型中,词性是非常重要且有效的特征。如果只使用词语特征,会导致严重的数据稀疏问题。自然语言处理中,词性标注和依存句法分析这两个问题通常被当成两个独立的任务,以级联的方式实现。即对于一个输入句子,假定其分词结果已知,先对句子进行词性标注,然后在词性标注结果的基础上进行依存句法分析。这种级联的方法会导致错误蔓延。也就是说,词性标注的错误会严重影响依存分析的准确率。由于汉语缺乏词形变化信息(如英语中的词后缀变化如-ing,-ed,-es,-ly等),因此汉语的词性标注比其他语言如英语更具挑战性。近年来,研究者们通过建立词性标注和依存句法分析联合模型,在同一个模型中解决这两个紧密相关的任务,允许词性信息和句法结构互相影响和帮助,取得了不错的效果。一方面,联合模型中,句法信息可以用来指导词性标注,从而帮助解决一部分需要句法结构才能够消解的词性歧义。另一方面,更准确的词性标注,也可以反过来帮助依存分析。Li等通过扩展基于图的依存句法分析模型,首次提出汉语词性标注和依存句法分析联合模型[28],并且提出了适用于联合模型的训练算法[29],显著提高了词性标注和依存句法分析的准确率。进而,一些研究者们提出基于转移的词性标注和依存句法分析联合模型[30,31]。Ma等(2012)尝试了基于Easy-first的汉语词性标注和依存句法分析联合模型[32]。
2.5基于多树库融合的方法
对于统计的数据驱动的分析模型而言,标注数据的规模很大程度上影响着分析结果的准确率。依存句法分析是一种结构化分类问题,比二元分类和序列标注问题更具挑战性,因此依存句法分析更容易受到数据稀疏问题的影响,树库规模对依存句法分析的准确率影响很大。然而,标注树库是一件艰巨的任务,通常需要耗费很大的人力和物力。目前的研究结果表明在一个树库上训练出的句法分析的模型似乎很难进一步提高句法分析的准确率。然而,汉语存在多个树库。这些树库由不同的组织或机构标注,遵循不同的标注规范,面向不同的应用。尽管各个树库遵循不同的标注规范,但却都是根据人们对汉语语法的理解而标注,因此包含很多共性的标注结构。同时,不一致的标注结果应该也是有规律可循的。所以,一些研究者们尝试同时利用多个树库,帮助句法分析的准确率。李正华等(2008)曾尝试统计和规则相结合的方法,将短语结构的源树库CTB转化为符合CDT标注规范的依存结构,然后将转化后的树库和CDT合并,提高训练数据的规模,以提高依存句法分析准确率[33]。Niu等(2009)提出一种基于统计的树库转化方法,将依存结构的CDT树库转化为满足CTB标注规范的短语结构树库,进而使用语料加权的方式增大训练树库的规模,提高了短语结构句法分析的性能[34]。Li等(2012)提出一种基于准同步文法的多树库融合方法,不是直接将转化后的树库作为额外的训练数据,而是使用准同步文法特征增强依存句法分析模型,从而柔和地学习标注规范中规律性的不一致,提高依存句法分析的准确率[35]。
3依存句法分析面临的挑战
自从2006年开始,CoNLL国际评测一直关注依存句法分析,不但提供了多语言、高质量的树库,并通过对各种方法的比较分析,让研究者们对依存分析问题的理解更加清晰,极大地促进了依存句法分析的发展。依存分析已经成为自然语言处理的一个热点问题,方法也越来越成熟,并且在许多领域得到了应用。然而,目前依存句法分析还存在很多挑战,这些挑战也可能是未来依存分析发展的趋势。具体分析如下:
(1)提高依存分析准确率。目前主流的两种依存分析方法都存在一定的缺陷。基于图的方法很难融入全局特征。而基于转移的方法虽然原理上可以利用丰富的特征,但是实际使用的特征还是属于局部特征,另外也还存在错误级联的问题(柱搜索只能缓解这个问题)。融合不同依存分析模型的方法可以提高分析性能,但是提高幅度比较有限。研究可知,只有从新的角度理解这个问题本身,提出新的建模方法,或者应用新的机器学习方法,才有望大幅度提高依存分析性能。一些学者提出的利用未标注数据帮助依存分析模型是一个很好的思路,值得深入研究。
(2)提高依存分析效率。基于图的依存分析方法融入高阶特征可以提高性能,但是效率很低,无法适应实际应用的需求。在不明显降低分析性能的前提下,如何提高依存分析效率也是一个很有实际价值的问题。
(3)领域移植问题。研究发现,当训练数据领域与测试数据领域不相同时,即使差距不大,也会导致句法分析性能下降很大。以英语为例,从华尔街日报树库移植到Brown语料时,句法分析性能下降近8%。目前依存树库所覆盖的领域、规模都很有限,而标注树库的代价很大。因此解决领域移植问题,对于依存分析的实际应用至关重要。
(4)语言相关的依存分析。目前最主流的两种依存分析方法都是语言无关的,纯粹依靠机器学习方法从数据中学习,加入人类知识只能限于特征选择。然而,每种语言都有其特点。因此语言相关的依存分析研究,如针对每种语言的特点设计更有效的模型和算法,利用一些语言特有的资源等,也是很有必要的。近年来,国内学者已经在汉语依存句法分析上做出了很多成绩,然而如何利用汉语的特点,提高汉语句法分析的准确率和效率,仍然是一个开放的问题。
篇8
UK
Larry Kerschberg George Mason University
USA
Peter J.H.King University of London UK
Alexandra Poulovassilis University of
London UK (Eds.)
The Functional Approach To
Data Management
Modeling, Analyzing And Integrating
Heterogeneous Data
2004,483pp.
Hardcover EUR:69.95
ISBN 9783540003755
数据管理的功能方法
建模、分析和综合异质数据
彼得M.D格林莱瑞.克斯伯格,
彼得J.H 金, 亚历山大.波洛瓦斯里斯 著
功能数据模型和功能编程语言首次引入到计算领域已有20多年的历史了。随着数据库技术在生物信息、国家安全、犯罪调查和高级工程领域的卓越应用,数据库技术的重要性日渐凸现,本书所提出的更成熟的方法就越显得重要。
本书分为五部分。第一部分介绍了如何将数据管理与功能语言融合在一起的方法。功能语言是最新发展起来的运用于计算和规范用途的工具,在本书中主要是数据模型和计算的功能方法,能够带来语义网络的新时代和网络世界的资源分流。这比相关模型更具灵活性,而且很适合半结构数据。
第二部分是介绍异质数据库和生物信息学的一体化数据。在这部分中介绍了有关异质数据库和生物信息学的一体化数据新近的研究成果。至关重要的观点就是功能性的提取数据创造了独特的观察数据的方法,不论这些数据是如何被存储的,这对于程序员来讲或许有些陌生,主要是因为他们习惯了操作数据内部的特定排列或者凭借记忆中记录的结构。不过当来自不同信息源的资料一体化之后,隐藏存储细节并且在一个更高的概念层次上作业就变得重要了。
第三部分是理解力表。从计算的角度讲,功能方法允许我们调定功能然后重新书写并利用有参考性的图片转化功能表达。在这一部分中,将运用到设计、常规分析和功能数据语言最优化,包括了重要的精炼理解,并以数学结构为基础,这些原理的应用贯穿了全书。
第四部分介绍关于管理半结构化的数据、信息和知识的功能方法。本部分各章均采用XML语言来描述半结构化数据,或者使用以XML语言为基础的开放标准的描述语言。XML语言能够将数据描述语言和数据本身放在一起,使描述数据的元数据成为数据自描述的一种形式。本章还强调了不同来源的信息源数据整合和互操作。当来自不同信息源的异质数据放到一起时,需要通过数据整合来构建一个分布式资源的概念模型。这部分内容向人们展示了功能方法在建模、执行、管理和整合这些系统中的效用。
第五部分为指南。它能够使读者将全书的各部分统观贯穿起来,并加深对其他部分的理解和应用。
本书适合于有志钻研本项目的读者研读、学习。对于正在这一领域工作的人来说本书不啻为有价值的参考资料。
刘丽,副教授
(中国农业大学管理工程学院)
篇9
【关键词】高中数学;举例方法;抽象
引 言
数学课程是我们每一位从学习生涯走过来的人必须学习的一门基础课程,数学作为一门基础课程,又是一门工具课程,它的学习效果不仅关系着数学这门课程的学习成绩,而且与其他课程的学习也息息相关,学好数学对于学生的整个学习生涯以及日后的工作和生活都至关重要.
一、高中数学的特点
小学数学、初中数学、高中数学、高等数学是我们大多数人都要学习的四个阶段的数学课程.对于这四个阶段课程的学习,每个阶段都有其各自的特点,就整体而言,从小学数学到初中数学再到高中数学,它们的难度在一步步递增,知识从直观变得越来越抽象.下面着重介绍高中数学的特点.
1.高中数学具有明显的抽象性
相对于小学数学和初中数学来讲,高中数学具有明显的抽象性.我们在学习小学数学或者初中数学的时候,老师所讲的知识都是可以用图示直观地展现出来的.例如,我们在小学数学中学习数字的时候,我们可以直观地看见每个阿拉伯数字的写法,不需要我们进行想象,我们只需要努力将它们的样子和次序记住,再掌握一定的数字技巧即可.在初中数学阶段中,数学被分为代数和几何两门课程学习,在学习几何课程的时候,我们会感觉非常的直观.例如在学习平行线的时候,我们可以直观地看见两条直线的相互位置关系,而不需要我们任何的想象,可以说抽象性几乎为零.但是高中数学却不是这样的,相对于小初中数学来讲,抽象性是高中数学最明显的一个特征,在高中数学知识的学习过程中,很多知识我们是不能通过眼睛的观察直接得出的,而是必须在脑海里进行一定的构思和想象,利用自己的空间想象能力来学习高中数学.例如,在高中数学中,我们学习立体几何部分的时候,以正方体为例,立体几何的六个面不可能同时在二维的黑板上被展现出来,这时我们必须运用空间想象能力,将正方体的六个面在脑海中想象出来,作为辅助帮助学生进行高中数学知识的理解.
2.高中数学的难度较大
高中数学的学习最终要接受高考的检阅,高考作为我国的一个重要的选拔性考试,考试试题在难度上比较大,所以相应的高中数学知识在日常的学习过程中理解起来难度也比较大.在我们的日常生活或者学习的过程中,我们经常会遇到一种人,他们在小学和初中的学习过程中,数学成绩一直全班名列前茅,但是到了高中数学成绩却一落千丈,甚至坠入无底深渊,从此跟不上数学的教学进度,从一定程度上讲这种现象就是由高中数学的难度大而导致的.在小学和初中的数学过程中,知识相对来说难度较低,也不需要学生过多地进行想象理解,但是到了高中以后,任何一道题目的解答,都需要进行想象,难度也比较大,在高中数学的学习过程中,仅仅依靠努力学习是不够的,还必须掌握一定的数学学习方法和解题技巧,才能将高中数学课程学好.
3.高中数学知识与知识之间的联系更加紧密
其实对于数学这门课程来讲,无论是小学数学还是高中数学又或者是初中数学,知识与知识之间都具有一定的联系,但是这种知识点之间的联系在高中数学中体现得更加明显.在小学数学或者初中数学中,这种知识与知识之间的联系仅仅体现在日常的新课程学习过程中,而在考试试卷中出现得非常少,它们只是将上节课学习的旧知识作为这节课学习的新知识的基础而已;在高中数学中,知识与知识之间的联系不仅仅是体现在日常的数学知识学习过程中,而且在高中数学考试中体现得也非常多,在高中数学考试的解题过程中,我们必须由已知的知识信息通过转化推理推算出未知的信息,而且很多的高中数学题目仅仅依靠一次推理是做不出来的,而必须经过两次或者三次,在推理的过程中,只要一个知识点存在漏洞,整道题目将会没有答案.
4.高中数学相对于小初中数学来讲具有严密性
数学这门课程本身就是一门比较严密的课程,逻辑思维和正确的推理是在数学课程的学习过程中经常需要用到的工具.但是高中数学相对于小初中数学来讲更加严密,在小学数学或者初中数学的学习过程中,由于我们的数学知识或者解题技巧相对比较欠缺,如果按照正常的数学思维去教学,学生很难理解,甚至还会使学生混淆不清,鉴于此,为了更好地对学生进行教学,在小学数学和初中数学的教学过程中,很多推理是不严密的,而这种不严密性会随着我们数学学习阶段的不断转变一一被化解.高中数学的学习相对来讲就要严密得多,因为有了小学数学和初中数学的知识作为学习的基础,再加上随着学生的年龄增长而增长起来的理解能力,使得高中生能够对严密的数学推理进行深入细致的理解.
二、高中数学举例教学方法的策略
1.重视对高中数学抽象知识的举例讲解
高中知识相对于小学数学和初中数学而言更加抽象,这一点大家都不否认.但是并不是所有的高中数学知识点都是抽象性比较强,也有的知识点是直观地可以让学生看见或者理解的,所以,在高中数学的教学过程中必须有侧重点地进行教学.对于那些抽象性比较强的知识点要进行重点讲解,而对那些非常直观的知识点老师只需在课堂上一带而过即可.而对于抽象性问题的教学,利用举例的方法是最合适的,举例的方法可以将本来抽象的方法具体化,通过举例的方法让学生对抽象的知识产生一目了然的感觉.例如在讲解立体几何知识点的时候,以长方体为例,在二维的黑板上我们不能把长方体的六个面全部直观地展现出来,我们可以在现实生活中找一个长方体实物作为课堂道具来辅助老师进行长方体的教学,也可以就地取材,例如利用长方体的黑板擦作为道具等等.利用举例的教学方法可以将抽象的问题具体化,让学生更好地掌握高中数学中的抽象知识和内容.
2.加强高中数学知识点与知识点之间联系的举例教学
高中数学中知识点与知识点之间的联系比较紧密,而有的知识点与知识点之间的联系具有非常微妙的关系,利用单纯的数学逻辑进行推理很难让大部分学生深刻理解,针对这种情况,我们可以将理论联系实际,利用生活中的例子来比喻这两个知识点之间的相互关系,高中生以生活中的事物为载体来正确理解这两个知识点之间的关系,进而在以后的知识学习或者考题解答的过程中灵活地在两个知识点之间进行转换.
3.高中数学举例教学要具有一定的严密性
数学本身就是一门严密性非常强的学科,高中数学相对于小学与初中数学来讲严密性更强,在高中数学的日常教学过程中,无论是对知识点的教学还是为了让学生最大限度地掌握知识而采取的教学方法都有具有一定的严密性.在高中数学教学过程中经常用到的举例教学方法也是如此,在应用举例的办法帮助高中生理解知识点的时候,所举的例子必须做到恰到好处,首先不能是不健康的例子或者是不适合高中生了解的例子,而且所举的例子还必须与所要表达的知识点的意思高度相似,避免学生在以老师所举的例子为载体进行知识点的学习时,理解出现偏差,不能帮助学生正确地理解知识,反而把学生的思维向相反的方向带.
4.高中数学举例教学要坚持简洁性原则
在高中数学的教学过程中,举例子是经常用到的教学方法,但是我们知道高中数学的知识点大都比较繁琐复杂,特别是在两个知识点之间进行相互联系的时候.虽然高中数学的知识点相对来说比较复杂,知识点与知识点之间的联系也比较繁琐,但是,我们在利用举例子的方法进行知识点的讲解时,必须坚持简洁性原则,尽量利用最简单易懂的例子将问题解释清楚,而且所举的例子要尽量地贴合实际,便于高中生进行深入理解,这也是我们所说的深入浅出.
三、结 语
高中数学的抽象性比较强,而且相对而言难度较高,知识点与知识点之间的关系错综复杂,而且具有很好的严密性等等,这些特点就导致学生在学习数学课程的过程中难以对知识点进行彻底的理解和掌握.实践证明,采用举例教学的方法可以很好地解决高中数学所面临的一系列难题,通过举例教学让抽象的问题具体化、复杂的问题简单化,有效地提高了高中数学的学习效率,为以后学习更加抽象、复杂的问题奠定坚实的基础.
【参考文献】
篇10
关键词 科技信用 关联分析 数据库
中图分类号:F272.5 文献标识码:A DOI:10.16400/ki.kjdkx.2017.01.085
0 引言
科技研发活动为社会提供高科技含量的产品和服务、推动企业的转型升级,但科技活动高收益背后是其面临的高风险,导致高技术企业社会认可的障碍。对企业进行科技信用评价,有助于提高企业的社会认可度、弱化科技活动的风险,提升自主创新的效率和效能。
企业的信用评价是指根据一定评价指标体系和评价方法,对被评估对象履责能力和可信程度进行评价,并以一定方式标示其信用等级的行为。企业科技信用评价一般由政府部门或独立评级机构开展,对参与政府科技项目、科技成果产业化等事项的企业执行相关法律法规及政策、遵守公认行为准则、履行相关合约的能力和意愿进行综合评价。
1 科技信用评价研究相关工作
国内外学者对企业科技信用评价的机制、路径、评价监管体系、模型算法和数据获取开展了大量的研究。
国际上评级机构标准普尔、惠誉、穆迪在欧债危机的演化中发挥了重要的作用。但国内中小企业信用评级面临金融体系不完善、缺乏统一管理、缺少权威性、缺乏科学的评级体系、市场需求少、权威性不高等问题。万超等分析了中小企业信用评级的现状,就评级机构素质、评级监管体系、评级业务提升等方面提出建议。
企业信息数字化和电子商务带来了海量数据积累和数据挖掘技术的突飞猛进,大数据分析技术突破技术壁垒和信息获取隔阂,提高了科技活动主体间的信息透明度,成为科技信用评价的主战场。在评价方法上,李杰群以AHP分析法为基础,提出基于回归分析的聚类算法用于信用评价,舒歆研究了评价指标和评价体系的构建,霍海涛基于专家咨询法和文献学习法,选取合适指标构建了科技型企业的信用评价体系。高丽君采用拔靴生存模型等多种算法,验证了科技型中小企业的信用状况。
互联网征信主要是通过采集个人或企业在互联网交易或使用互联网各类服务过程中留下的信息数据,并结合线下渠道采集的信息数据,利用大数据、云计算等技术进行信用评估的活动。张健华提出将互联网征信作为传统征信的有益补充,推动传统信用评分模式的转变。吴晶妹研究了政府、行业和地方等不同层面的金融、行政管理和商业征信体系的融合与应用。
为提高中国科技型企业的计划项目的管理,提高科技研发领域的信用意识和科研成果质量,运用信用评级方法,对企业的科技活动和科技行为主体进行失信甄别,为促进我国科技研发能力的增强提供体制上的保障。
2 科技信用评级体系和模型
科技信用评级所评价的目标是信用主体按合同约定如期履行义务的能力和意愿。科技信用评级是独立的第三方利用其自身的技术优势和专业经验,就信用主体信用风险大小所发表的一种专家意见。企业的信用要素一般包括主体的品格、能力和资本、担保和环境状况等。
从基础数据分类建模,利用数据综合加工获取一个企业科技信用评价的综合得分,综合考量数据存储代价、数据获取能力、信息安全保护,以及数据质量等多方面的因素,我们从科技企业基础数据库中筛选出反映企业科技信用方方面面的58个基础变量,并通过归一化方法形成了5个维度的评分指标,每一个维度的评价结果都会影响企业科技信用的总体得分,每个维度的饱满程度也都是该维度各个因素的质量情况。
企业科技信用评价采用标准化建模方法,如图1所示体系和模型。首先梳理可以获取的企业运营基础数据,筛选模型指标作为建模基础。然后,定义科技信用好和坏的具体标准,提取样本后,通过相关性分析,最终确定各个指标的评分权重,确定各指标的评分规则,从而计算出得分范围内的科技信用评分。
根据目前常用的评级策略,我们选择将所有指标统一标准化,赋予相同的权重,并采用德尔菲法打分法,对各指标赋分并根据所有指标的得分考核评级。以企业团队的能力评价为例,在能力的40分总分中,分别考虑科研能力(30分)和管理能力(10分),细化收集基础数据,如科研能力方面,项目负责人在该领域职称、经验、获奖、知识产权等,根据具体情况将总分30分细化指标并分别评分。
3 基于数据关联的企业科技信用评级实证分析
为了分析企业科技信用评级的效果,我们利用关联分析的方法设立了评价模型,并从待研究的企业基础库中抽取可信样本进行了实证分析。下面我们介绍基于关联分析的效果评价模型建模过程。
企业科技信用评价的指标体系涉及各种类型的基础数据,利用德尔菲法完成各种指标评分,形成各个指标综合的判断矩阵,进一步数据处理,可以进行层次单排序并判断矩阵的一致性,进而确定各个指标评价因素应当占据的权重,并形成各指标最终评价权重,形成最终评价权重序列。
企业科技信用评价所选取的评价指标分有各种类型,包括类别(如职称)、数值(如资金额度)、名称(如设备)等,即使数值也要细分为效益型(越大越好)和成本型(越小越好),为了消除不同指标和量纲的影响,针对不同类型的指标采用无量纲化处理,将其规范为[0,1]区间。标准化公式为:
根据处理后的评价指标体系,构建递阶层次模型,包括目标层、准则层、指标层,甚至子指标层等。构造各单层的模糊判断矩阵。如果有部分模糊判断矩阵不满足一致性检验,那么根据模糊一致矩阵的性质,对判断矩阵进行一致性z验和调整。再进行层次单排序。求出每一层对应上一层次的相对重要性权重。层次总排序计算指标层各因素相对于目标层相对重要性权重。权重值为各指标相对所属准则层的权重与所属准则层相对于目标层的权重之积。
从工作中积累的企业科技基础数据库中抽取相关数据,人工对熟悉的100家企业进行科技信用的实证分析。经分析,如果某企业通过基于多影响因素的科技信用评价模型计算出的信用评级和日常工作中积累的信用评分差异超过两个级别,则基本能够检查出该企业人工评级存在一定程度的疏漏和偏差,或者基础数据存在关键数据的缺失现象。当然本文提出的信用评价模型不能绝对准确地反映企业的科技信用情况,但较人工评价而言,现有的科技信用评价模型给出了一定的高效率、低成本的替代方法。总之,科技信用评价的影响因素有很多,算法研究上也需要进一步的研究。
4 结论
科技型企业基础数据库为构建科技信用评价提供了现实可行性,基于大数据的科技信用评价依托累积的企业基本信息、科技人员信息、财务信息、知识产权等海量数据有效拓展了数据来源,克服了信息不共享、平台不对接、内容不完善等问题。我们利用关联分析方法对企业科技信用评价进行了实证分析,避免主观判断影响的同时,又兼顾了不同评价指标的重要程度,为企业科技信用评价提供了新的思路。
参考文献
[1] 张建波.中小企业信用担保市场低效率的原因及对策[J].华东经济管理,2009.23(12):78-80.
[2] 万超,孙侃文,庄健绚.从欧债危机看我国中小企业信用评级未来发展[J].当代经济管理,2012.34(12):53-57.
[3] 李杰群.基于AHP法的科技型中小企业信用评级研究[J].征信,2014.32(1):55-59.