数据分析方向范文
时间:2023-05-30 16:11:30
导语:如何才能写好一篇数据分析方向,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词:大数据 统计专业 核心
中图分类号:G632 文献标识码:A 文章编号:1674-2117(2014)10-0008-02
1 大数据的统计涵义
通常来说,凡是数据量超过一定大小,导致常规软件无法在一个可接受的时间范围内完成对其进行抓取、管理和处理工作的数据即可称为大数据。业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征:数据体量巨大、数据类型繁多、价值密度低、处理速度快。
大数据潮流让我们获得了海量的数据,数据已经成为相关行业创造价值的重要资源。因此,许多IT企业和互联网企业都已将业务范围延伸至大数据产业,探索大数据驱动的业务模式。2012年,美国政府投资2亿美元启动的“大数据研究和发展计划”,更是将大数据的研究上升到国家战略层面。然而,大数据的真正意义不在于数据量的巨大,而在于对数据信息进行专业化的处理,核心是对数据进行分析。面对大数据,越来越多的领域都开始运用数学特别是统计学的工具,挖掘大数据中真正蕴藏的价值。正如西内启在《看穿一切数字的统计学》书中所指出的,“从数据中得出有意义的结果,关键在于控制和减少误差,得出因果关系,单纯收集数据并加以全部量化分析在很多情况下会得出谬误结果,”而科学的统计学方法是得出因果关系的最佳方法。
从统计学角度看,一方面,大数据具有类型繁多、结构复杂、体量巨大等特点,海量数据以分布式方式进行存储,特别是图片、音频、视频等非结构化数据的广泛存在,传统的统计方法和统计分析工具已无法满足大数据分析的需要,亟需统计方法的革新。另一方面,数据分析结果需要用生动、直观、容易被接受的方式展示给读者,可视化分析能够直观地呈现大数据的特点,阐释数据与数据之间的联系。因此,统计学要挺立大数据潮头,创新统计分析工具、可视化分析方法,以大数据的挖掘和应用为核心,将传统文本、图像的统计、分析向数据分析转变,以适应大数据时代的发展及其对统计学带来的挑战。
2 大数据时代统计学教育面临的挑战与应对
据互联网数据中心(Internet Data Center)预测,中国大数据技术与服务市场将会从2011年的7760万美元快速增长到2016年的6.16亿美元,而据业界专家估算,中国大数据市场的人才需求量至少为100万人,其中统计人才、技术更是捉襟见肘。传统数据收集和分析技术的知识结构已不能满足大数据时代对“数据科学家”的要求,多家企业在面对大数据发展时遭遇人才瓶颈。大数据相关人才供给不足将会成为影响大数据市场发展的一个重要因素。
当前,全世界范围内已有数百个高校开设了大数据分析专业。卡内基梅隆大学和新泽西州立大学在培养目标和课程设置上项目设置偏重于计算机方向。课程设置偏重统计学与运筹学(包括决策科学)的典型学校有田纳西大学和约克大学。2013年,北京航空航天大学与慧科教育合作开办了国内首个“大数据技术与应用”软件工程硕士项目研究生班,这是目前国内唯一一个培养大数据行业专业型人才的项目,但其培养目标、知识体系是面向计算机领域,而立足统计学基础的大数据分析人才培养项目,在国内可谓是凤毛麟角。
知者随事而制。高等院校统计学专业要通过有效利用和整合人才培养资源,承担大学人才培养的责任,驾驭大数据的浪潮,占领大数据发展人才培养的制高点,体现高等院校向社会、企业提供智力支撑,输送企业亟需的复合型、实用性大数据分析人才的载体作用,确保产业科学、持续、高速的发展。一是教育资源的整合,走在前列的首都经济贸易大学、北京大学、中国人民大学、中国科学院大学、中央财经大学五所应用统计专业硕士培养单位在北京成立了“中国大数据教育协同创新体”,在高校之间实现学科融合、优势互补、强强联合,通过共享优质资源平台、共同建立课程体系、共同建设案例资源库、联合搭建实践实训平台等多种形式,创新人才培养体制机制。二是高等院校教育资源与业界资源的整合,通过与国有超大型企业、互联网翘楚的协同培养,立足应用统计专业硕士教育,建立人才培养基地,进行协同创新,探索构建应用统计(大数据分析)专业硕士人才协同培养模式。以缓解当前大数据人才供需矛盾为目的,建立“校校协同、校企协同、院系协同”的大数据分析方向人才协同培养模式,最终实现协同培养“数据科学家”的目标。[5]
3 面向大数据分析方向的应用统计专业硕士培养模式的构建
本研究认为,可以将大数据分析及相关的案例教学模式融入应用统计专业硕士学位研究生的培养过程,进而打破统计学传统的以阐述统计理论、公式推导、数学计算为主的教学模式。以情境浸润为基础,为学生呈现统计学在大数据领域应用为核心的教学模式,可以培养学生对大数据的挖掘、整合、分析价值的能力,以期更好、更快地适应企业对数据分析师、数据科学家的需求。
3.1 科学构建课程体系,突出大数据分析特点
大数据具有强烈的行业特点,在充分借鉴国外大学成功经验的基础上,大数据分析专业硕士的课程设置,强化数据分析能力和数据挖掘能力,注重上述技术在金融等领域的应用。必修课在讲授统计基础理论(描述、多元、时序、空间、可视化等)课程的基础上,为增强学生的大规模分布式计算技能,引入主流的大数据计算平台,如Hadoop分布式平台、MapReduce并行编程算法。与此同时,为提高学生动手能力,构建数据模型思维,开设《大数据分析案例》等多门课程。选修课方面,考虑到学生二次开发的需要,设置大数据开发基础课程,如C++、Java等。为突出应用统计专业硕士侧重应用的特点,开设面向数据的编程语言,如R、SAS、Python等课程。这些课程模块的设置并非体现某一学科知识的纵深发展,而是将相关学科的知识融合,有利于突出大数据分析的特点。
3.2 创新教学培养模式,注重培用结合
以“编组”方式开展教学活动。授课教师和学生均采用团队编组模式,多名教师协同工作,共同完成一门课程的授课任务。打破原有学科思维、教材的束缚。采用导师指导与集体培养相结合的方式。教师不可照搬旧有的教学大纲、课程内容,要学习和熟悉大数据相关知识体系与技术新进展,充分结合大数据分析需求和实际案例,使课程内容紧贴实际需求,注重培养学生对模型的理解,对数据的想象力,真正实现学以致用、培用结合。
采取“订制化”培养模式,突出培养与应用相结合的特点,力争做到人、岗的高度匹配。“订制化”培养模式打破了目前应用统计专业硕士统一培养、与市场需求脱节的模式壁垒,教学实践以市场需求为导向,依照企业的岗位标准、用人要求,强调以岗位需求制定培养方案,更好地满足用人单位对大数据分析人才的需求。
3.3 开展校企协同培养,构建问题导向、项目牵引的实践教学模式
根据国务院学位委员会的规定,应用统计学专业硕士学位研究生教育的目的是培养具有良好的统计学背景,系统掌握数据采集、处理、分析和开发的知识与技能,具备熟练应用计算机处理和分析数据的能力,能够并适应行业或职业实际工作需要的应用型高层次人才。因此,要摒弃普遍存在的重理论轻实践、重知识轻技能的教学方式。
协同创新培养在实践教学中建立了以问题为导向,以项目为牵引的运作机制,强调实践教学内容的呈现方式要面向企业需求,让学生参与到企业的项目运行过程中,引导学生建立业务建模能力,培养学生的数据资源整合能力,激发学生参与项目的积极性和自觉性。学生不拘泥于学校的实验实训基地和各类实验室,在第二学年中安排一定时间走出校门,进入到企业的实际环境中,参与企业的项目组织、实施过程,在实践过程中提升自我认知能力,在实践过程应用知识和理论研究实际问题的能力,培养和锻炼数据资源整合能力、沟通协调能力、IT支撑能力、业务建模能力,真正实现面向能力培养的目的。指导教师方面,在案例教学和实习阶段引进业务素质高、项目经验丰富、对大数据发展有敏锐洞察力的企业高级数据分析人员,指导学生在实习实践中提出问题、建立模型、解决问题的能力。
4 结语
应用统计(大数据分析)专业硕士人才协同培养模式,是一项可持续发展的应用统计专业硕士人才培养的新模式,是专业硕士教学实践的创新举措,也是在全国率先建立起来的立足统计学,在大数据分析人才层面建立的校校协同、校企系统办学体。体现了面向能力培养、面向社会需求培养、面向人才价值培养的“三个面向”的培养目标,着重培养学生分析数据、处理数据、展示数据的能力,对于培养“高层次、实用性、复合型、国际化”大数据分析人才意义重大,同时也是顺应大数据技术革命的浪潮,必将对大数据等新兴技术产业的发展注入活力。
(首都经济贸易大学,北京 100070)
参考文献:
[1]刘军.Hodoop大数据处理[M].人民邮电出版社,2013.
[2]大数据的四个典型特征[N].中国电子报、电子信息产业网,2012(12).
[3]CCF大数据专家委员会.2014年大数据发展趋势预测[J].中国计算机学会通讯,2014(1):32-36.
篇2
1.1 索引对象的概念
数据库对象是一种逻辑结构的集合,索引是供用户快速查找到记录的数据库结构,在逻辑上和物理上都独立于表的数据。索引可以在表内创建一个或多个列的组合,当建立索引以后表中数据会按照索引创建语句所定义的排序方式返回给用户。索引有多种类型,除了标准索引外,还包括唯一索引、位图索引、组合索引、基于函数的索引、反向键索引等。
建立索引能够提高 SQL 语句执行的性能,减少磁盘I/O。无索引查询,通常是全表搜索后才会得到结果,全表搜索会让数据库服务程序遍历表中的所有记录然后返回结果;而建立索引后查询,可以让数据库服务程序快速地定位到表中的确定行。当表被删除时所有与表相关的索引也将被删除。
索引可以被创建、重建和删除,索引建立语句:CREATE INDEX item_index ON itemfile (itemcode) TABLESPACE index_tbs;索引重建语句:ALTER INDEX item_index REBUILD;索引删除语句:DROP INDEX item_index。
创建索引是为了提升数据库查询性能,在使用索引时需要注意以下情况:
1) 对于小表来说,使用索引对于性能不会有任何提高;
2) 当索引列中有极多的不同的数据和空值时索引会使性能有极大的提高;
3) 经常执行更新、修改操作的字段需要谨慎创建索引,因为更新索引的开销会降低创建索引所期望获得的性能;
4) 不要将索引与表存储在同一个驱动器上,分开存储会去掉访问的冲突从而使结果返回得更快。
1.2 索引对象优化方法
在业务系统中针对索引对象的优化,主要包括三种方式:一是重建过高的索引层次;二是清除无效的索引;三是对索引碎片的清理。
2.2 风险防范措施
针对数据库对象的优化,总体应该遵循如下的风险防范原则:
1) 确保数据库备份完整可用;
2) 所有操作和检查环节都使用事前完成并预演通过的脚本,避免临时修改脚本;
3) 每部分完成,通过检查确认无误,再进行其它部分,避免互相干扰;
4) 专家现场支持,及时处理突发问题。
在遵循上述原则的基础之上,对索引对象的优化需要注意以下风险:
1) 监测时间不够,在一个监测周期内未操作过表,监测过后又用到了这个表,需要索引,但此时此索引已被列为被优化的对象;
2) 监控过后,需要取消在用索引的监控;
3) 监控时如果rebuild index ,会取消监控,同时索引标记为已使用,这种情况下会影响监控效果;
4) 监控时如果在做统计分析时涉及到此索引,索引也会标记为已使用,同样影响监控效果。
为避免上述风险发生,通常采用的措施是在监控期间停止database、schema、table、index等级别的索引收集,避免影响监控效果。
2.3 优化效果分析
数据库级别的性能数据主要是以下关键指标:响应时间、CPU时间、等待时间、物理读,这些指标可以看出目前平均每事务的反应速度、每事务需要消耗的CPU与IO量。为了得到优化的效果,还需要保证进行数据对比的时间内,数据库的负载基本相同。数据库的负载指标一般以执行的事务数、Redo size等指标来表示。表1是某业务系统的这些指标在索引对象优化前后的对比数据。
通过索引对象的优化,可以从对比表中明显看出性能得到了大幅提升,影响较大的数据库操作瓶颈主要集中在大表的查询操作、关联表的更新操作、大业务数据的统计分析操作等,在优化后其操作响应时间已经能够满足用户的业务需求。这些数据对比符合数据库索引优化方案的预期成效,也说明索引对象对数据库性能的重要影响。
3 总结
企业的业务系统经过长期的运作,积累了大量的业务数据,同时随着业务增长、流程优化、人员变动等因素,会造成系统性能瓶颈。此时,需要运维和管理人员根据实际需求,按照系统优化原则,制定详细、多番论证的优化方案,对系统实施优化,这样才能满足用户不断变化、业务不断增长的需求。该文通过详述数据库索引对象的优化方法、应用案例,阐述了索引对象对系统性能影响的范围和程度,并就优化方案给出了应遵循的原则和风险防范措施。在性能优化中,针对数据库性能瓶颈,索引对象优化只是其中最常见的一种方案,具体优化还需要根据对系统长时间监测情况的分析,做出正确选择。
参考文献:
[1] 罗海滨,范玉顺,吴澄.工作流技术综述[J].北京;软件学报,2000,11 (7).
[2] 盖国强.深入浅出Oracle数据库——DBA入门、进阶与诊断案例[M].北京:人民邮电出版社,2006.
篇3
关键词:数据包络分析;技术效率有效;竞争力
医疗技术效率是考核医院医疗服务水平和质量的重要依据之一,但往往是一项较为复杂的系统工作,需要多种科学有效的分析方法共同完成[1]。由运筹学家Charnes等人提出的数据包络分析方法(DEA)可以有效应用于多投入、多产出的"相对效率评价"模型中[2],本文旨在通过DEA模型对某综合医院专业相近的科室进行相对效率实证,从而为合理配置医院资源提供有效信息。
1资料与方法
1.1一般资料 以某三甲综合医院8个相对稳定的外科专业为评价对象,经该8个科室负责人和医院相关职能共同讨论选取科室医生数和床位数作为投入指标,以2014年上述8个科室门诊人次、出院人次、手术人次和病床周转次数作为产出指标。数据来源于医院人力资源部和信息科,真实可靠。
1.2评价方法 DEA方法主要有CCR和BCC等模型。CCR主要用于判断各科室在技术和规模两方面是否同时有效;BCC模型主要是判断各科室在现有规模下的单纯技术有效。由于医院的特殊性,在人员聘用、床位规模等方面有局限性,即使科室规模不有效,也不能通过扩张规模或缩小规模来进行优化,所以采用技术效率的模型(BCC模型)来评价医院临床科室的相对效率更符合实际情况[3]。
在既定投入的情况下,医院更倾向于如何扩大产出,因此在选定BCC模型下,本文主要采用面向产出的BCC模型对医院临床科室工作效率进行实证。
2结果
2.1效率评价 在被评价的科室中,有三个科室达到总体有效,占全部被评价科室37.5%,相比于顾晓东等人的评价结果高8个百分点[3]。这三个科室在人力资源、规模配置等方面都达到合理水平,门诊住院管理都较合理,产出均衡。另外的五个科室没有同时达到技术效率和规模效率有效,还存在产能不足问题,或是有规模偏大或偏小等问题,见表1。
在技术效率未达到有效的科室中,外4科处于规模收益递减,资源配置过剩,而另外四个科室均是产能增加,在门诊人次或住院、手术人次或病床周转率等方面仍有可提升空间。对于这些科室,可通过改善运营管理,改进病床管理手段提高周转率,通过合理绩效分配,有效质量考核等手段来提升科室产能,从而达到技术效率有效。
2.2投影分析 对于未达到有效的科室可以借助投影分析,使其达到相应的有效标准[4]。要达到技术有效,对于资源过剩的外4科可以减少2名医生或使相应的产出值增加相应比例,在医院无法对投入规模进行影响的情况下,应通过管理手段提高门诊、住院、手术人次的产出,另外也应加强科室人才力量的培养,提高医生队伍的业务能力和技术水平。
对于另外4个无效科室,产出尚有不足,外5科和外6科无论是门诊还是住院产出值均较低,特别是外6科,门诊人次离最优尚有较大差距,可以通过聘用退休老专家等方式来加强门诊力量,另外门诊部的监管也有待加强,同样的问题在外7科也有体现,虽然住院相差不大,但门诊人次达到技术有效还有很大差距。外8科则是较均衡,进一步加强管理,很快就能达到门诊住院产出最优,见表2。
3结论
数据包络分析方法是一种先进的评价资源利用效率的方法,适合性质相近的综合医院临床科室之间的横向比较。当然,有效性是相对的,管理者可以根据DEA分析结果来调整投入规模,也可以此为依据,在管理层面上加强对临床科室的监管和合理配置。本次实证采用性质相近的临床科室进行横向间的比较,既能清晰地看出目标科室的运行情况,又能较为准确的指出相对产出不足,对于优秀的科室应当更注重技术效率,从而做到"少投入,多产出",避免系统过于庞大,人员冗余,使得资源浪费,不能得倒最优化管理。对于技术效率尚未达到有效的科室应更新管理理念,科学的利用有限的医疗资源,为患者和家属提供高效、优质的服务,从而不断提升自己的核心竞争力。
参考文献:
[1]张航,赵临,张馨予,等.三级综合医院技术效率与影响因素实证分析与评价[J].中华医院管理杂志.2015,31(3):195-197.
[2]陆瑶,许锋.基于DEA模型构建医院临床科室绩效评价体系的研究[J].中国医学装备,2013,10(9):18-20.
篇4
【关键词】分析 BP神经网络 气象格点数据 无损压缩 方法
在气象资料的存储和交换过程中存在的最重要的形式就是格点数据,随着我国天气预报技术的快速进度,数据的数量急剧增加,且气象资料所具备的分辨率很高,这就导致气象资料在传输过程中承担着巨大的压力。现阶段,我国的网络技术也在快速的发展之中,带宽也随之变宽,但是仍然满足不了气象数据量的要求。
一、气象资料压缩技术的概述
现阶段,我国的图像、音频以及视频等多媒体技术领域的数据压缩技术获得了长足的进步,对与气象数据资料压缩有关的压缩没有太多的研究。一般情况下,在气象界中多是使用格点资料编码的方式对气象资料进行压缩,但是也所都过于简单,没有根据气象资料的实际特征进行,因此压缩效果没有达到预期的效果。
从气象资料压缩的方法来看的话,气象资料压缩所使用的技术可以分为三种,无损、近无损以及有损。无损的压缩技术可以将气象数据信息中的信息全部保留出来,但是压缩效率还有待提高;无损压缩具备很高的压缩效率,但是气象数据资料中较为重要的信息很可能被丢失;近无损的压缩方法则是对上面两种方法的一种有机结合,不仅大大提高了气象数据资料压缩的效率,而且还能有效控制信息的丢失量。
二、熵和信息的冗余度
信息中存在的被评判的信息量就被称之为熵,在一个事件的集合中,例如xi(i=1,2……,N)中,它的概率是pi,并且所有概率的之和是1。
在概率空间中,事件中的概率不相等,从而造成了平均的不肯定度或者是平均的信息量就被称为熵H:
(1)
在气象事件中,概率的分布函数在分布的过程中越均匀的话,熵就会越大,信息量也就会越大;而概率分布越集中的话,熵就会越小,信息量也就会越小。熵在应用的过程中,代表的是平均的信息能量。
三、神经网络中的二次预测模型
1.二维线性的预测。通过多年的实践证明,在对气象数据资料进行压缩时,最主要的是要减少数据中存在的熵,也就是尽最大努力的将相邻格点之间存在的相关性消除。在余弦进行变换的过程中,与正交变换的相差不大,能够最大限度的消除冗余,但是它的变换系数是浮点数,有截断误差的存在,无法实现实际意义上的无损压缩。因此为了实现气象资料的无损压缩的目的,就必须寻求一种方法不仅能够去除冗余的相关性,又能实现无损压缩的方法,预测可以实现二者的要求。预测的原理是:在一个数列中,通过前面的m个点,来对第n个点的数值进行估算,如果估算的结果较为准确的话,那么预测结果的误差所对应的绝对值与方差也会越小,误差就被严格控制在0左右,相邻格网之间的相关性也被消除的所剩无几,这时,只需要工作人员对预测的误差开始编码的工作即可,有效降低了编码工作需要的平均码长。
2.人工神经网络.对人类大脑的结构与思维进行模拟作为人工网络发展的基础。目前在我国气象中使用较为广泛且起到明显效果的就是向后传播的神经网络,而在气象格网资料最常见的就是3层向后传播的神经网络,数据模型可以使用下列的公式进行表示:
(2)
(3)
在公式中,X―输入层;
Y―隐含层;
Z―输出层矢量;
―输入层和隐含层之间存在的连接权与阈值;
―隐含层和输出层之间存在的连接值与阈值。
而网络输出层可以使用下列的函数进行表示:
(4)
(5)
不断的对节点间存在的连接权与阈值进行调节,从而可以得出气象资料在进行输入输出工作时所存在的规律。将能量函数引入到BPNN中:
(6)
在公式中, Z0―理想中的期望输出矢量。
BP神经网络具备较强的学习能力,能够对非线性进行来良好的拟合,因此可以在之前的气象资料压缩技术的基础上,使用BP神经网络,能够提高预测的准确度,将冗余信息进行剔除,从而实现无损压缩。
综上所述,在我国气象的格点资料在压缩过程中,不仅具备较好的线性关系,而且还具备着非线性的信息,要最大程度的消除相邻格网之间存在的相关性,以保证气象格点资料实现无损压缩的目的。二维线性预测的方法就具备良好的压缩效率,且进行编码的速度也较快,但是压缩效果不好。因此BP神经网络的使用,实现了在气象网格资料的无损压缩,为传输技术中提供了一种有效的尝试。
参考文献:
[1]罗坚,赵苏璇,姜勇强.气象格点资料的准无损压缩方法[J].数据采集与处理.2011(03).
[2]顾洪,李昀英.NC格式气象数据无损压缩研究[J].计算机工程与应用.2012(09).
[3]罗坚,姜勇强,戴彩悌.提升小波变换在气象格点数据无损压缩中的应用[J].地球科学进展.2012(04).
篇5
(首都经济贸易大学,北京100070)
[摘要]本文以北京市商品房价格为研究对象,从供需两个角度分析影响房价的主要因素,运用计量经济学理论和建模思路,提出相关建议。
[
关键词 ]北京市;商品房价格;计量经济模型;回归分析
[DOI]10.13939/j.cnki.zgsc.2015.22.225
1计量分析
1.1影响因素
一是需求方面影响因素。北京市商品房价格需求因素主要包括:常住人口(X1)。一个城市的人口数量直接影响着这个城市的商品房消费总量。人均可支配收入(X2)。居民收入水平的高低直接影响了消费者对商品房的购买能力。商品房销售总面积(X3)。据北京市统计局对外公布统计信息显示,1998—2013年的商品房销售总面积是先上升后下降,而商品房销售均价却在波动攀升。
二是供给方面影响因素。商品房价格供给因素主要包括:建造成本(X4)。本文这一指标是指竣工房屋造价。土地价格(X5)。笔者认为地价与房价相互影响。竣工面积(X6)。房地产竣工面积在竞争激烈的房地产市场中不仅严重影响着房地产的价格,还对住房市场的买卖双方带来影响。房地产开发投资额(X7)。
1.2计量分析
(1)模型设定。把以上的七个指标变量作为自变量,把商品房销售价格作为被解释变量,以取自《北京市统计年鉴》的1998—2013年各个指标数据为样本来构建模型。根据样本数据的散点图可以判断被解释变量和变量之间存在线性关系,于是把模型的形式设定为:
(其中μ——随机误差项)
其中:Y——商品房销售价格(元/m2);X1——常住人口(万人);X2——人均可支配收入(元);X3——销售总面积(万m2);X4——建造成本(元/m2);X5——土地价格(元/m2);X6——竣工面积(万m2);X7——房地产开发投资额(亿元)。
运用Eviews7.2软件,利用 OLS 回归得到如下结果:
(2)经济意义检验:从回归模型中可以看出,需求因素中,北京市常住人口、人均可支配收入、商品房建造成本的增加都将伴随北京市商品房平均价格的减少,这与现实不符合。北京市商品房销售总面积、土地价格的增加都将伴随北京市商品房平均价格的上升,而竣工面积与房地产开发投资额的增加都将伴随北京市商品房平均价格的减少,这都与现实相符合。
(3)统计检验:
①拟合优度检验:R2=0.998083,拟合程度较好,说明北京市商品房需求因素的 99.80%可由以上因素来解释。
②F检验:从回归模型的F检验值来看,F统计量的值为446.3776。伴随概率为0.000000 小于0.05,拒绝原假设β1=β2=β3=0,回归方程显著,即以上七个因素对商品房价格均有显著影响。
③t检验:X1、X2、X3、X4、X5、X6、X7的t统计量的伴随概率分别为0.1572、0.9315、0.00216、0.1705、0.0004、0.0211、0.1630。可知,解释变量X1 、X2、X4、X7没有通过t检验,即对商品房价格的影响不显著。
(4)多重共线性检验:从t检验及其伴随概率来看,变量X1 、X2、X4、X7均不显著;并且方程拟合优度R2为0.998083,方程整体的F检验很显著。利用相关系数表判断出X1、X2、X4和X7之间确实存在严重多重共线性,所以采用Eviews自动逐步回归的方法修正模型。
修正后的模型如下所示:
修正后的X1 、X2、X5的t统计量的伴随概率分别为0.0000、 0.0198和0.0000。可知,解释变量X1 、X2、X5通过t检验,这说明多重共线性已被消除。
(5)异方差检验:对修正后的模型Y=-3.260336X1-0.189422X2+3.361794X5进行怀特检验,取显著水平α=0.05,nR2=6.668134,查表得临界值χ20.05(8)=15.51,nR2=6.668134<χ20.05=26.3,所以接受原假设,就可以认为不存在异方差。
(6)自相关检验:若给定显著水平0.05,查DW统计表可知,k=3,n=16,dL=0.98,dU=1.54,模型 中DW=2.417021,dU<DW<4-dU,表明模型中不存在自相关。
2结论与建议
2.1主要结论
(1)需求方面结论。从修正后的模型:InY=-18976.32+19.26663InX1-1.582425InX3可得出结论:北京市商品房价格居高不下与其不断增加的常住人口(X1)有着密不可分的联系。随着人口的增加,供不应求,商品房的价格增加也是情理之中的事。由于北京市已经是特大城市,人口已经众多,所以每增加一个单位的常住人口,会带来19.26663个单位的商品房价格的增加。北京市商品房销售总面积(X2)对其商品房价格也有影响,随着销售总面积的增加,其单位商品房价格将减少。
(2)供给方面结论。从修正后的模型:InY=1.968923InX5-0.479899InX7可以得出以下结论:开发商都是无利不起早的,随着土地价格(X5)的增加会带来房价的上升,这些成本的增加自然会被转嫁至消费者身上,所以推高北京市商品房价格是理所应当的。土地成本的上升会直接推高了房价,但不是地价决定了房价,因为商品房价格是还受其他因素影响。房地产开发投资额(X7)。房地产投资开发额占全社会固定资产投资的比重与商品房价格之间有一定的联系。但房地产开发投资额对商品房平均价格的影响又是不定的。本文研究的北京市商品房的房地产开发投资额的总增加并未带来商品房价格的增加,而是减少了0.479899个单位,这说明北京市房地产开发投资额的增加极有可能被用来改善供给住房的质量、档次及环境。
2.2主要建议
(1)合理疏解北京市人口。光靠严格的户籍制度和行政制度不行,还是应该合理疏解公共服务,以此吸引更多的人向津冀两地疏散,如此方能实现地区的资源合理配置。
(2)稳定土地的供应量。土地供应量直接影响相关建造成本,所以政府可以从控制土地供应量着手,使市场上房屋的相关建造成本在长期内处于一个合理的水平,这样就可以将房价的增长控制在一个合理的水平。
参考文献:
陈秋宇,罗茹月.商品房价格影响因素分析——基于M2供应量的实证研究[J].经营管理者,2011(1).
篇6
大数据的蓬勃发展为统计学专业人才培养模式的创新提供了有效途径,引领了统计学专业人才培养模式的改革方向,融入了统计学专业人才培养模式的各个环节。本文系统明确了统计学专业人才培养模式的改革方向,探讨如何利用大数据完善人才培养模式的各个环节。
关键词:
大数据;人才培养模式;教学模式
2015年9月5日,我国政府公开《国务院关于印发促进大数据发展行动纲要的通知》,大数据逐步走上我国经济社会发展的大舞台,在社会各个领域中发挥着巨大的促进作用。高等教育作为我国培养高素质人才的主要阵地,避免不了受到大数据的冲击和影响。有效利用大数据是化解冲击并促进高等教育改革的明智之举。高等教育改革的关键是改革人才培养模式,将大数据融入人才培养模式改革的各个环节会达到事半功倍的效果。
一、大数据引领统计学专业人才培养模式的改革方向
1.大数据引领培养目标的改革方向。随着大数据的迅猛发展,大数据分析公司不断涌现,传统的调查公司、数据分析公司纷纷转型,社会急需大量的大数据分析人才。统计学专业按以往培养目标培养的数据分析人才已经不能满足社会需要,因此必须对人才培养目标进行改革,培养目标应从培养专门的统计人才转换为培养精通统计学知识、计算机技术(大数据分析技术),了解相关行业背景的复合型统计人才,保障统计学专业能够为社会经济发展输送高质量的大数据分析人才。2.大数据引领课程设置的改革方向。课程设置是实现培养目标的关键环节,为实现培养大数据分析人才的目标,课程设置应该与培养目标相配套。课程设置的核心课程中应该引入大数据技术相关的计算机软件、语言及算法课程,选修课程中应该增设一些辅助大数据分析的数据挖掘类相关课程及不同行业的相关专业背景课程。3.大数据引领实践教学的改革方向。实践教学环节设计的基本原则是能够有效检验理论教学环节的学习效果,同时锻炼学生的分析问题,解决问题的能力。因此,相应于培养目标和课程设置的改革,实践教学环节的改革应注重学生大数据分析能力的检验和锻炼,积极为学生创造丰富的大数据分析实践机会。例如,在调查分析课程中引导学生改变传统的调查方法,尽量通过数据挖掘揭示某一类现象背后的发展规律,积极开展与大数据分析公司或者相关行业的企业的合作,为学生进行大数据分析实践提供数据及技术支持。4.大数据引领教学方法和手段的改革方向。MOOC、翻转课堂和大量的在线资源的出现为统计学专业教学方法和手段的改革提供了丰富的资源基础,有效构建充分利用各种资源的混合教学模式将成为统计学专业人才培养模式改革的一个重要组成部分。5.大数据引领评价方法的改革方向。传统的评价方法主要注重期末时的总结性评价,忽略过程评价,因此应广泛和合理利用教学各个环节留下的痕迹,即形式各样的数据,创新教育教学评价方法,以此达到对学生、教师及教学效果的科学评价。
二、大数据融入统计学专业人才培养模式的构建
1.大数据融入人才培养目标的制定。人才培养目标的制定一方面要适应经济社会发展的需要,另一方面要从生源质量,办学条件出发,不能盲目追求高目标,因此适当对本校统计学专业历届生源质量和办学软硬件条件等相关数据进行挖掘和分析,有利于制定切实可行的人才培养目标。当然这需要人才培养目标制定者有一定的数据挖掘和分析的能力,需要学校各个相关部门的配合,实际操作起来存在一定困难。2.大数据融入教学方法和手段的选择。教学方法和手段的选择一方面依靠丰富的资源,打破传统的大客厅式的封闭教学模式,另一方面要注重以学生为本和因材施教,这就需要对每个学生的基本素质有客观的把握,仅靠教师的力量很难做到这一点,因此应适当引入相关技术和设备帮助收集课堂教学,课后作业等教学各个环节的实时数据,利用大数据技术全方位综合考量每一位学生的基本素质,为教学方法和手段的选择提供客观的依据,真正意义上做到因材施教。对于一些利用计算机或其他电子设备完成的环节,收集数据的同时,应适当建立针对不同学生的教学策略,以此实现个性化教育。3.大数据融入实践教学环节的设置。统计学专业的实践环节设置应充分考虑利用学习分析和数据挖掘技术分析学生的学习心理,学习行为及学习能力,充分了解学生的前期学习情况,分析教师课堂教学水平和教学能力,充分挖掘教师的特长,以此为基础打造实践教学环节师生的完美匹配,不再拘泥于一个班级或一个专业的学生同时进行相同的实践项目,可以有效提高实践教学的水平和学生的实践能力。4.大数据融入教学评价体系的完善。传统的教学评价体系不能够客观评价人才培养的各个环节的效果,通常是对结果的评价。因此,学校需要利用大数据技术全面分析和挖掘每一个环节的相关数据,包括学生的学习过程,教师的教学过程等,有效利用数据说话,避免对学习效果及教学效果的片面评价,完善统计学专业的教学评价体系。大数据为统计学专业人才培养模式的构建带来了机遇的同时也提出了挑战,我们不能盲目跟风,应认真结合统计学专业学科特点及各方面的条件,合理利用大数据,构建切实可行的人才培养模式。
参考文献:
[1]陈树良.统计学专业创新型人才培养模式的研究[J].辽宁工业大学学报(社会科学版),2012
篇7
[关键词] 大数据分析;信息管理;实践教学体系
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 21. 117
[中图分类号] G642.0 [文献标识码] A [文章编号] 1673 - 0194(2016)21- 0219- 04
0 引 言
2015年8月,国务院印发了《促进大数据发展行动纲要》,同年,贵州省启动了我国首个大数据综合试验区的建设工作,标志着大数据发展已经上升到国家战略。同时,越来越多的企业,尤其是互联网、电子商务、金融、物流等数据驱动型企业,迫切地需要利用大数据分析的结果,辅助公司决策,以提高自身的竞争力。客户分群、客户行为分析、客户关系管理、市场营销、广告投放等企业核心业务越来越依赖于对大数据的有效分析。如何从海量业务数据中挖掘有价值的信息和知识,从而指导商业运营与决策、提高企业运营效率和盈利能力,成为每个企业都将面临的重要挑战。由于信管专业与社会需求紧密结合,信息管理专业的人才培养具有明显的应用型导向,强调学生的实践和应用能力。为了适应市场对人才需求的变化,培养大学生与大数据分析相关的实践能力,已经成为信管专业人才培养转型的重要方向。本文先通过职友集网针对信息管理专业大学生就业行业的统计分析,表明与数据分析相关的职位需求正在上升,梳理了Facebook、Twitter、Baidu、Alibaba、Tencent等五家国内外知名公司对大数据人才的能力要求,厘清了我校信息管理专业与相关能力要求对应的实验课程,以此构建了面向大数据分析的信息管理实践教学体系。通过近几届毕业生的就业、考研情况来看,基于这套信息管理实践教学体系培养的毕业生具有较强的大数据分析的动手能力和岗位适应能力。
1 社会环境和社会需求的变化
自1998 年,教育部高等教育司将分别来自工学、管理学等不同门类的管理信息系统、科技信息专业、经济信息管理专业、林业信息管理专业、信息学专业等5个专业进行资源整合,组成信息管理与信息系统专业以来,至今已有18 年。社会环境已经从PC 互联网到移动互联网再到大数据时代,市场对于人才的需求已经发生了深刻的变化。美国市场研究公司IDC2013年的研究报告称,全球大数据技术和服务市场将在未来几年保持31.7%的年复合增长率,2016年的总规模有望达到238亿美元。而根据麦肯锡报告,仅仅在美国市场,2018年大数据人才和高级分析专家的人才缺口将高达19万。此外美国企业还需要150万位能够提出正确问题、运用大数据分析结果的大数据相关管理人才。同时,市场催生出ETL开发者、Hadoop开发者、大数据可视化工具开发者、数据科学家、OLAP开发者、数据仓库一体机专家、预测分析开发者等与大数据分析相关的新型职业。
职友集网站针对信息管理专业大学生就业行业的统计分析如图1所示。其中从事计算机软件行业的占23%;从事互联网/电子商务行业的占17%;从事计算机服务(系统、数据服务、维修) 行业的占11%,这三个行业占到了毕业生总数的51%。而其他与IT非直接相关的行业或多或少地与大数据分析有关,比如:金融、快速消费品等。
2 大数据专业岗位对人才能力的要求
笔者通过网络收集了Facebook、Twitter、Baidu、Alibaba、Tencent等国内外几家主要公司招聘大数据人才时对大数据人才能力的要求,如表1所示。
从表1可以看出,大数据人才应该具备以下基本能力:
(1)具备基本的编程能力,熟练运用C/C++/Java等开发语言一种及以上,精通Shell/Perl/Python等脚本语言一种及以上;
(2)具备基本的数据库设计、开发能力,精通MySql/SQL Server等DBMS一种及以上;
(3)具备数学、统计学等方面的基本素养,同时还应该熟练使用SPSS等主流统计分析软件、面向统计分析的开源编程R语言;
(4)了解Hadoop/Hive大数据平台,具备处理大数据所必需的Hadoop、Hive、Storm、Spark等大规模并行处理技术。
3 面向大数据分析的实践教学体系的构建
3.1 面向大数据分析人才培养的教学实践
根据市场对信管专业人才的需求,以及本专业的实际情况,我们适时地调整了专业培养方向,并根据大数据分析的能力要求,重新梳理了专业课及其实验内容,如表2所示,使实验内容与大数据分析人才的能力要求相一致。
3.2 教学效果
面向大数据分析的信息管理实践教学体系为提升本专业人才培养质量提供了强有力的支撑。学生的就业能力和适应能力显著提高。2010-2015届本校信息管理专业就业行业、签约率,如图2所示。从签约率来看,2010-2015年,毕业生签约率平均达 96.48%,2011届毕业生签约率达 98.09%,2012届毕业生签约率达96.22%,而2015届毕业生签约率更是达到100%,表明毕业生在社会上具有较高的认可度。从就业单位来看,有多名学生被深圳华为、美的、格兰仕、广州珠江钢琴集团、广州宝洁有限公司、中国电信广州分公司、中国工商银行广州分行、国泰君安证券股份有限公司、广东电网公司等多家国内外知名企业录用,表明毕业生的就业质量进一步增强。从考研学校来看,有多名同学被大连理工大学、重庆大学、中南大学、武汉理工大学、中南财经政法大学等多所985、211高校录取为研究生,表明毕业生的培养质量进一步增强。从就业行业来看,近6届就业的毕业生中,从事系统/移动开发、系统维护、ERP实施与二次开发的同学占47.1%;从事数据分析、信息咨询的同学占10.1%。2013年,三峡大学委托麦可思公司对学校所有专业的调查中,信管专业的毕业生对专业的认可度达到97%。
4 结 语
通过本校近几年面向大数据分析的信息管理教学实践可以看出:具备了大数据分析能力的同学受到了市场的普遍欢迎,具有较强的岗位适应能力,并且他们对专业具有非常高专业的认可度。
主要参考文献
[1]马费成,宋恩梅. 信息管理“专业课程链”的建设与实践[J]. 图书情报知识,2014(2):4-10.
[2]IDC:2016年大数据市场规模将达238亿美元[EB/OL]. http:///content/2013/07/204163.shtml.
篇8
Keywords:big data of archive; data scientist; post requirements; post duties; quality demands
大数据时代,数据成为重要的战略资源。在电子办公深度与广度不断拓展的进程中,人类对数据“精、准、深”的要求日益突出。在基于数据决策、依赖数据管理等“以数据说话”的理念日益深入人心的大环境下,作为大数据的关键组成部分――档案大数据的地位和作用也逐渐凸显出来,它是大数据重要维度即历史维度数据的核心,在各个领域都有很好的应用前景。但是,应该看到,受保密、档案管理机制等因素的制约,档案大数据的应有价值还没有得到充分发挥,档案大数据与其他数据的整合还有一段很长的路要走。为提升档案资源建设与利用效益,对档案大数据进行分析,优化档案事业发展方案,更好地为领导决策和各领域工作的开展提供数据支撑,成为档案工作的重要组成部分,这就需要档案资源和档案事业数据的鼎力支撑。虽然从国家主管部门到各级档案馆(室),都在开展档案数据的统计和分析工作,但是,由于缺乏固定而专业的分析人员,从数据统计和分析的全面性、系统性、多维性、深入性和规范性等方面看,仍有待进一步增强。在此种形势下,档案大数据作用的发挥和档案事业发展的科学性很大程度上取决于档案部门自身结构的优化和管理资源使用效益的提升。
1 档案领域数据分析师岗位设置的意义
大数据时代,数据分析在各领域有着十分重要的意义,各行业对数据分析师的需求与日俱增。与其他数据相比,档案大数据很大一部分源于政府、军队等组织机构的活动,具有权威性和凭证性等不可替代的价值特点,虽然有着服务社会、服务百姓的义务,但又必须确保国家利益不受侵害。因此,在行业内部设立数据分析师岗位不仅是社会需求、也是档案行业组织机构结构优化的内在需要。
1.1 优化档案资源体系建设的需要。从局部看,各级档案部门都不同程度地存在着档案收集不齐全、著录不规范等问题。从整体看,各档案部门之间存在着档案资源交叉重复、数据异构等问题。系统地设置统计项目,全面地对档案资源建设现状进行分析,就可以准确地发现档案资源体系建设中的弱项和“瓶颈”。通信网络和数字设备发展实践告诉人们:当今,电子文件的增长几乎达到了几何级。例如,阿富汉战争期间,美军为打击一小股恐怖分子,其情报侦测、监视系统24小时产生的数据量就达53TB。在如此大的数据量面前,如何分类电子文件、确定保管期限?网站、微博、通讯交友软件等产生的数据,哪些是需要作为电子文件保存的、又该如何保存?现有馆(室)藏档案资源,哪些方面需要丰富、哪些方面需要“瘦身”?如何从国家层面调控档案资源体系建设?这些均有待于档案领域数据分析师从“保存历史、服务社会”视角、以可靠的数据和科学的分析给出建设性的解答。
1.2 分析和把握档案利用规律的需要。档案资源的利用是有规律可循的,掌握了这个规律对于提升档案资源利用率是十分有益的。有的档案资源,其利用具有扩展效应,即一次成功利用可能会激发人数更多、范围更广、程度更深的利用,例如名人档案、著名战役档案、历史典故档案等;有的档案资源,其利用具有递减效应,即一次成功利用之后可能很长时间内不会再有第二次利用,例如事关普通百姓的个人档案。如果机械地根据其前段时间的关注热点推荐档案信息服务产品,则不仅达不到理想效果甚至还会引起用户反感。依托数据分析师的科学分析,有助于档案部门聚焦服务热点,提前做好档案信息服务预案,根据用户需求方向准确提供档案资源及其编研产品服务。
1.3 推动档案管理科学发展的需要。近年来,档案事业出现了一派欣欣向荣的景象,尤其是档案信息化建设、民生档案的收集与管理等得到了长足发展。但是,无论是硬件建设、还是软件建设,离精细式、集约化科学发展尚有一定距离,这就需要发挥档案大数据的决策助手作用。对于不同学识背景、不同工作经历、不同职业精神的数据分析人员来说,同样的统计数据得出的结论也是不尽相同的。设置固定的数据分析师岗位,则有益于提升数据统计和分析工作的科学性。通过数据分析师对档案事业分门别类的统计和分析,可以有效地冲破经验主义思维的“篱笆”,发现和把握新形势下档案管理工作的发展规律,更加统筹、协调和集约化地利用管理资源,构建档案事业发展的良好生态。
1.4 更好地服务社会发展的需要。如果说“读史可以明智”只能模糊地形容档案的作用,档案大数据在金融、医药、卫生、交通、安全和军事等领域的成功应用,已经很好地量化和解释了档案大数据的价值。它是转换思维方式、科学决策的直接支撑,是引领社会更快、更好发展的“催化剂”。设置档案大数据分析师,无疑会有助于提升档案信息服务于社会的广度与深度。同时,也有助于档案部门把握契机创新服务社会的模式与内容。
2 档案领域数据分析师的岗位职责
档案领域数据分析师,可以依据各级主管部门、档案馆(室)的编制和事业发展状况合理配置,其职责主要是从档案资源建设、档案利用、档案事业综合发展以及档案文件内容等方面进行数据统计和分析,并制定优化方案和提出发展规划建议。
2.1 档案资源数据统计和分析。档案资源数量统计和分析,主要是对馆(室)藏或者主管范围内的档案资源数量情况进行统计和分析,包括对各全宗文件数量的分类统计和分析、同类全宗文件数量的对比分析、现行全宗文件产生量与归档量的对比分析、永久档案与定期档案数量的对比分析、不同类型载体档案数量的对比分析、不同地域不同系统档案移交数量对比分析、不同时期档案数量对比分析、不同密级档案数量对比分析等。
档案资源质量统计和分析。主要是对馆(室)藏或者主管范围内的档案质量情况进行统计和分析,包括档案资源载体和信息完好度分析、档案资源结构分析、档案著录情况分析、档案信息化建设情况分析、档案目录数据库质量分析、档案全文数据质量分析、档案缩微情况分析、档案修复情况分析等。
档案资源优化方案的制定。基于馆(室)功能,在科学分析的基础上,提出一定范围内档案资源体系建设优化方案。主要是从档案资源结构和数量视角,有重点地对现有档案资源进行丰富、再鉴定工作。对明显存在缺失的馆(室)藏方向,分析档案资源可能的分布点,为收(征)集工作提供指导。具体分析档案著录、目录数据库构建情形,提供档案著录尤其是电子文件著录以及档案目录数据库优化方案。必要时,对全文数据质量进行优化。根据档案完好度统计,制定档案修复计划。
2.2 档案利用数据统计和分析。档案利用人群统计和分析。主要是对用户基本情况进行统计和分析,包括用户职业、单位、年龄、学历、档案专业知识、兴趣点、档案意识等,从共性和个性等方面进行分析和研究。
档案利用目的、利用效益统计和分析。主要是对档案利用目标和用户所获得的收益进行分析。从编史修志、工作查考、解决个人问题等方面对档案利用目的作进一步细分,分别进行统计和分析,并关注其利用效益。同时,分析一定时期内得到用户关注和利用的档案资源,尤其是得到用户重点关注或利用的档案资源。
档案检索效率统计和分析。主要是对档案目录和全文的检索效率进行分析,与图书情报资源等相关领域的检索效率进行对比,考虑其是否满足用户需要,有无改进策略。密切跟踪信息和知识领域的发展前沿,将先进的技术和工具应用到档案检索效率的提升上来,主要是对档案信息组织和检索模式提出创新方案。
档案利用发展趋势预测。由于社会和国家发展的需要,人们会在一定时期内有重点地开展某个或某些方面的工作。数据分析师应密切关注某个系统、国家乃至整个人类社会的发展形势,科学地统计和分析用户的潜在需求,准确地预测出档案利用的重点方向,从而有针对性地做好档案利用准备工作。例如,编史修志工作往往在国家层面、某一系统或行业层面进行统一行动,有的又会与编制体制调整、大型纪念活动、大项任务开展等时机紧密结合;个人利用档案,往往会与国家出台某项政策、某一年龄段人群的成长经历、某些文化活动的开展等密切关联。根据档案利用历史数据的分析、当前社会热点、用户关注方向等,引导档案信息资源的开发,借助大数据工具,利用档案信息资源整合平台,充分地进行知识挖掘,高效地构建专题数据库,向用户推送档案信息资源。
2.3 档案事业数据综合统计和分析。档案人才队伍建设情况统计和分析。当今时代,不仅要求档案工作者具有较高的信息素养,而且需要档案工作者转变理念,从知识管理视角出发,为用户提供问题解决方案。档案领域数据分析师应该对档案工作者个体素质和整个队伍建设情况进行统计和分析,要重点关注专业学历、知识储备、年龄结构、管理能力、信息素养和职业精神等方面。
档案事业组织领导形势统计和分析。组织领导是档案事业发展的关键。档案领域数据分析师,应可以系统地设置档案事业各类统计表格,并根据形势发展创新地设置统计项目和衡量指标。不仅要分析档案主管部门对档案工作的组织领导情况,还要分析各级组织机构对档案事业的组织领导形势,包括工作规划、经费投入和对档案事业的关注度等。
档案专业硬件、软件建设情况统计和分析。在国家大力倡导档案信息共享平台建设的情形下,对行业内硬件、软件建设情况进行统计和分析,要重点对档案馆(室)库房建设、档案安全体系建设、业务设备建设、档案软件系统建设等方面进行统计和分析,避免低水平重复建设、提升管理资源利用效益。
制定档案事业科学发展方案。档案领域数据分析师要适应大环境的需要,从档案工作者个体出发,提出人才培养和培训方案。从档案人才队伍整体建设出发,合理提出编制调整、人才配备和人才发展等建议。在硬件建设方面,从档案事业整体发展视角提供指导意见,合理配置各类设备设施。在应用系统开发方面,针对技术发展形势及时提供建议,为颁布软件系统需求标准、协调资源做出贡献。
2.4 档案文件内容大数据的分析和知识挖掘。无论是科技档案、专门档案,还是文书档案,其利用都是围绕着组织机构(或个人)的业务行为开展的。因此,从业务层面对档案内容大数据进行分析,是档案大数据分析的重要内容。根据各专业发展的需要,利用高效、可视化的图形分析工具,对档案文件内容大数据进行分析,挖掘出其中蕴含的知识点,以指导各领域业务工作的科学开展。
3 档案领域数据分析师的基本素质要求
数据分析师肩负着对档案事业各类数据进行统计和分析的职责,并且要根据分析结果制定出推动各行业科学发展的、切实可行的方案,这就要求其具有高度的事业心和责任感,具备档案、计算机、数学和管理等领域专业知识和技能。
3.1 思维开阔,开拓精神强。无论是统计项目的设置、还是优化方案的制定,都要求档案领域数据分析师关注相关领域前沿发展形势,具有开阔的思维和较强的创新意识,能够敏锐地捕捉到档案事业发展中的主要矛盾,打破旧的思维和工作运行模式,为建立起切合实际的、具有前瞻性的档案工作机制贡献力量。
3.2 档案专业功底扎实。档案领域的数据分析,其出发点和落脚点均在档案收集、管理和利用。因而,数据分析师应具备系统的档案专业理论知识。不仅要熟知档案领域基本理论,而且要掌握领域前沿发展和理论创新情况,密切跟踪行业发展实践,能够科学地设计好统计与衡量指标、优化和促进档案事业的综合发展。
3.3 掌握计算机应用专业知识。数据分析师经常要与计算机网络、多种软件工具打交道,必须具备较高的信息素养和扎实的计算机应用专业知识。档案领域数据分析师,应了解机器学习、人工智能和自然语言知识,能够结合领域实际,提出具体的统计、分析软件系统需求;能够熟练操作基本分析软件,掌握大数据分析工具的使用(如R软件、SPSS、MATLAB),准确地采集、处理数据,必要时进行数据迁移;能够在看似无关的数据中挖掘出蕴含的关联、发现档案资源建设和档案事业发展内在规律。
3.4 熟悉管理学基本理论。无论是档案资源管理、还是档案事业的综合管理,都离不开管理学基本理论的运用。因此,档案领域数据分析师应熟悉现代管理学基本理论,具有严谨的逻辑思维能力和较好的文字表述能力,能够运用管理学前沿理论来指导档案资源建设和档案事业科学发展方案的制定。
篇9
关键词:类;DataLine;Translator;DataDrawer
航空设备数据分析一直是一个难题,因为数据按ICD协议上传,需要转化为可读数据才能分析设备的运行状态。但是设备的上传速率一般在毫秒级,所以设备运行一个小时可以输出上百兆的数据,人工分析这些数据费时费力且错误率高,容易错过关键数据。
针对这种情况,作者设计了一种专门分析设备上传数据的软件(简称数据分析软件)。使用数据分析软件处理百万行的数据只需要不到一分钟的时间,而且该软件可以将数据制成曲线,可以更容易地捕捉到关键数据。
1 数据分析软件
数据分析软件包含两个模块:数据转换模块和数据绘制模块。
1.1 数据转换模块
1.1.1 时间类
航空设备上传的数据一般以时间为基准,因此数据转换时需要保留原始数据的时间信息,这样才能将数据绘制成以时间为X轴的曲线。时间类的定义如图1:
基类Time继承了IComparable接口,所以Time类重载了 “!=”,” ”,”==”四个操作符,这样Time类的对象之间可以比较大小,所以转换后的数据可以按时间前后排序。
1.1.2 数据类
在数据分析软件中,数据是以行为单位的,每一行数据有多个域,不同行数据的域名相同,域内的数据不同。数据行类定义如图2。
DataLine的对象代表一行转换后的数据,ToString接口可以将DataLine里存储的数据以文本的形式输出。DataLine是一个抽象类,需要用他的子类实例化对象。由图可见,MLSData集成了DataLine类,在成员变量中加入了一个MLSTime的对象_time用以表示该行数据的上传时间,并且可以用CompareTo接口比较两个MLSData对象的时间先后。其实MLSData的CompareTo接口只是调用了成员变量_time的CompareTo,如图3。
1.1.3 翻译器类
翻译器实现的功能是将一行原始数据转换为可读数据,翻译器定义如图4。
Translator是一个抽象类,其中定义了一个抽象函数Translate,这个函数有一个类型为String的形式参数data,并返回一个DataLine类(或其子类)的对象。其中data表示一行文本格式的原始数据,返回值DataLine表示转换后的数据。当需要分析按新版本ICD协议上传的数据时,只需创建一个新的Translator子类,并按ICD协议重写Translate函数即可。
1.2 数据绘制模块
数据绘制模块类关系图如图5:
父类DataDrawer是一个抽象函数,他实现了绘制曲线的一些基本功能。子类MLSDrawer集成了DataDrawer的基本功能,并添加了数据段放大功能。MD_WarningLine添加了告警线的显示功能,分析人员可以清晰地看到数据告警的位置,并针对该段数据进行分析。MultiLineDawer添加了多曲线绘制弄能,可以将多组数据的曲线绘制在同一坐标系内,让分析人员可以进行多组数据间的交叉比对。
2 实际应用
如图6,设备上传数据经数据转换模块处理后输出可读数据。
数据绘制模块读取分析结果数据后,可以将结果中的一组或多组数据绘制成曲线。
在曲线绘制区域内拖动鼠标可已放大局部数据,如图9。
3 结语
篇10
北京永洪商智科技发展公司高级副总裁王桐表示,通过数据都能做出怎样的事情,产生怎样的价值,同时应该怎样更好地去运用数据……成为关键的几个问题。除此之外,通过数据化的运营,将改变以往决定战略和决策的思维模式。以前经常是通过业务经验来做相应的决策,不管是宏观的、战略的,还是和具体的某些执行相关。
数据本身通过这种客观,如实的证据帮我们提供了一个量化决策支持的基础。通过这样的基础支持,帮助更好地完成决策的事情。所以,对于企业战略的定义,还是未来的走向,具备数据的支撑是非常重要的。在存量的时代,数据资产化、决策数据化才是整体的趋势。
运营数据难题多
过去几年大数据领域的热门话题多是集中在基础架构方面,近年来伴随着相关底层技术的逐渐成熟与丰富,在数据的底层的基础建设的问题上不再困难。“如今大家都不约而同地思考更进一步的问题,这些保存下来的数据,其价值产出如何,怎么在业务场景中体现价值,如何对外输出和变现……这些都成了用户乃至企业的管理者们共同思考的问题。”王桐对《中国信息化周报》记者说。在这个过程中,同样产生了很多有创意的业务形态与想法,现在数据的价值在于如何通过数据达到更精准的运营、更有效的管理以及更加全面的集团企业监控,才是数据价值所主要遵循的三个方向。
在每一个方向中,实际有很多具体的细分场景。例如更精准的运营,可能会与用户画像、用户活跃度等密切相关,其中更有效的管理可能偏向内部执行层面,更全面的监控是指偏财务审计与管理层面。在这些不同的业务层面,其实数据都能够切入每一个具体的业务场景中,通过数据化的指标帮助完成监控。不管是运营还是管理,还是业务,成效如何主要通过数据化的KPI来监控。很多时候,业务本身就是通过数据进行包装组合的利用,最后构成了服务的一部分,甚至是产品的一部分。
但在今天,所有的运营商,包括所有的行业企业都会在运营方面遇到各种各样的难题。例如,我们经常会发现运营商的报告,在内容和数据分析等菜单项,实际上存在大量的重复。看数据的过程其实是感知业务、发现问题,并且思考逻辑、找到答案、采取行动的过程。如果所看的分析内容,实际有很多冗余,这就会对分析与思考的过程带来很糟糕的用户体验,耽误效率的同时还造成成本的浪费。
在探讨运营难题时,王桐说:“现在绝大部分的数据分析系统,或者是VI系统,底层还是上一代的传统架构,是基于立方体的技术底层,它的特点是相对比较零散和固定,往往是一个需求对应一个数据模型,模型中的分析和计算方式只满足了一次的需求的实现。和客户交流的过程中,会发现有的客户的数据仓库中有几百个模型,甚至多达上万个,后果是数据仓库复杂到不可维护,性能的损耗相当严重,不但带来了不可维护性,而且也给用户非常差的体验。”
通过观察多家企业的数据分析系统,我们总结出其中的统计数据依然占比很高,明晰偏少。实际上,对于数据分析的操作过程相对比较复杂,而且数据的目录结构也很难梳理,最终表现出来的问题看起来很零散,问题表现的背后实际上还是过去做数据分析的思路与逻辑的诟病。
探究其问题的本质,IT资源往往是有限的,如果负担过重,资源会变成瓶颈。数据分析虽然只是一个词,但实际上却涉及了一个完整的链条,从数据的整合、清洗、加工、建模、分析、展现,输出,还有挖掘和深度分析,整个链条涉及到了很多方面,管理难度非常大。目前很多场景对大数据的应用还不够灵活高效,往往以固定报表为主,数据的展示只是起点,而不是终点,所以对数据的分析和利用绝对不是做一个静态报告就结束了,后续还有很多工作要做。
如今大多数情况下大数据的价值产出与预期可能并不匹配。如何让数据真正促进业务,真正产生价值的变现,并且让产生价值的过程高效,是值得探讨的问题。
敏捷BI+探索式分析
大显神通
业界权威的IT机构Gartner撰写了商业报告,证明敏捷型BI以及探索式的分析已成为大势所趋。许多企业中,无论是信息部门,还是业务部门,两者都在呼吁能不能成为数据分析过程中的协作角色,使IT部门可以充分完成底层的数据模型建设后,将剩下90%的常用需求让业务部门“上手”,这样可以让业务部门自己进行服务分析。
“无论是国外还是国内,实际上越来越多传统的、完全以IT为中心的BI平台正在逐渐被新型平台所补充,甚至被取代。最新的BI的报告中,这种敏捷型,探索式的BI也是不够的。众所周知,数据分析是一个完整的链条,必须要移动到一站式的大数据平台,这将会是未来各个企业的标配。”王桐补充道。
探索式分析可以让业务部门也能轻松做数据分析,实际上只做BI类偏描述型的分析也是不够的。如果需要做用户画像,收入预测,或者是电子商城商品的关联交易分析,以及其它机器学习等相关分析的话,还是需要深度分析的,所以深度分析与企业级的管控等四部分有机融合在一起就构成了一站式的大数据分析平台。敏捷型数据分析,会进一步释放数据价值。数据分析做到更敏捷,需要提供更好的洞察力,如今很多行业的客户已经开始采用一站式大数据平台来完善、提升大数据运营能力。
王桐在交谈中提出:“现在是存量的竞争时代,以用户画像举例。用户画像归根结底是要对用户有更深刻的了解,因为大多时候电子商城也有第三方的产品和自由服务,逻辑过程比较类似。做用户画像,更深地了解用户和C端的消费者,对研发设计人员,或者电子商城的选品,以及产品和服务的设计人员来讲,会有很关键的指向作用。以前是基于自己的经验去设计新产品和服务,设计好后,再推销出去,这是过去闭门造车的做法;好的做法是先调查用户的需求与喜好,再结合需求与喜好来设计套餐和选品。”