高校财务样本数据库研究

时间:2022-07-20 03:36:33

导语:高校财务样本数据库研究一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

高校财务样本数据库研究

摘要:研究了大数据算法在高校财务数据分析中的应用,提出了基于水库抽样算法建立样本数据库的方法,结果表明:基于水库抽样算法建立样本数据库,能够大幅缩短建立时间、系统开销小、且建立完成后其内部数据具有良好的均匀特性,可有效解决传统高校财务管理中基础数据样本生成时间长、开销大、分布不均匀的缺点,提高了财务基础数据分析质量,推动了高校财务管理工作的发展.

关键词:大数据;高校财务;数据分析

大数据对高校财务管理的影响比较广泛而深远,它将有利于高校的资源配置,强化高校全面预算管理,加强成本核算意识,同时提高资金使用效益,防范财务风险,使高校侧重预算编制和结果分析的财务管理向业务全过程的财务管理转变,实现高校财务管理新变革[1-8].大数据为高校财务管理带来变革的关键特性之一是其预测性作用,传统财务利用财务报表和人为经验为高校财务管理者提供决策依据,随着海量数据的产生,此种方式已不能在合理的时间范围内产生合理性的判断依据,远不能达到目前高校财务管理精细化要求,更偏离信息化时代所强调的信息支持决策的发展方向[9-13].从目前高校财务管理实际来看,基础数据的分析是关键,而数据更新及时、均匀特性好的样本数据库是进行分析的前提条件.但由于受到高校财务数据多等因素限制,传统财务的线性扫描处理方法无法对基础数据进行快速均匀的抽取处理,导致了高校财务数据分析工作上的困难,不利于高校财务管理工作的开展.应用大数据对数据进行全面分析,遵循的是每件事情都有迹可循,找到事物变化的规律,能够更好地对高校资源筹划、资本运营、资产管理以及当前办学和长期的规划进行预测,把握高校发展方向,使教育产出能更好地适应市场需求,合理配置资源,提高经济与社会效益,实现高校跨越式可持续发展.大数据技术的出现,为高校财务数据分析工作提供了新的技术手段,文中将大数据算法与高校财务数据分析进行结合与应用,在保证速度的前提下,建立具有良好均匀特性的样本数据库.

1样本数据库

11数据库构架

数据挖掘与分析是大数据在教育领域中的应用之一,其主要作用是进行预测分析、行为分析、学业分析等的应用和研究.其中财务数据分析能够为学生心理健康、奖优助评、贫困生关怀、个性化就业等领域提供数据参考.为了实现数据的有效收集,应建立财务基础数据样本数据库,为下一步数据分析提供有力支持,其总体架构为:传统财务通常利用线性扫描与随机选取的方法进行样本数据抽取,抽取过程中需要将所有数据加载进内存或缓存,同时在索引递增的同时利用随机函数生成索引用于确定抽取元素.数据加载和随机索引生成带来了大量的系统开销,同时如果随机算法的选择并不优秀,还会导致样本的重复概率增加.为解决上述问题,文中利用水库抽样算法作为样本数据抽取的基础算法,该算法打破了传统财务线性的时间处理局限,在未损失精度的前提下,提供传统财务所不能提供的海量数据样本生成能力.样本数据库除了数据抽取功能之外,还要求具有数据的统计分类和序列化功能.对样本数据进行统计分类可以实现按类别和权重的样本抽取,从而丰富大数据分析的手段.同时通过对样本数据进行统计分类,还能解决基础数据的序列化问题.序列化通过为分类数据添加指定索引,可以大大提升数据的检索速度和准确性.所以,做好样本数据的统计分类,并按照财务管理信息类别对基础数据进行合理的序列化对数据处理是十分必要的.对样本数据进行分类和序列化之后,可对每一类数据进行必要的统计,总结样本数据特点,把握样本数据处理原则,提高样本数据的处理质量.

12数据库数据样本处理流程

数据样本处理流程为:

2数据库抽样算法及其改进

21数据库线性抽样算法

在尽可能快的时间内,对基础数据库中的学生进行尽力均匀抽取,形成样本用于数据分析.尽力均匀抽取意味着尽力保证每个学生被抽为样本的概率是相同的.输入:基础数据库中的学生数据.输出:这组数据的k个均匀取样.

22水库抽样算法定义

针对应用情景,可以利用水库抽样算法进行样本抽取,该算法的特征为:1)抽取时限要求较高,且数据只扫描一次.2)利用计算机资源有限,只为用户想要获取的k个取样分配内存空间用于计算.3)扫描前n个数据时,已保存的k个取样是均匀抽取的,随着n的增长,k个取样的随机性一直不变.算法定义为:1)申请一个长度为k的数组A保存抽样.2)保存首先接收到的k个元素.3)当接收到第i个新元素t时,以k/i的概率随机替换A中元素.

23改进算法均匀性证明

该算法的取样是均匀的,在任何时候接收到大于k的n个数时,选出的k个数一定是已扫描数据中的均匀抽取:当接收到第i+1个数时,第i个数能保存在数组中的概率为1-1i+()1,因为在接收到第i+1个数的时候要以ki+()1的概率随机替换.而第i个数被选中的概率是1k,他们相乘为1i+1,1i+1就是第i个数被换出数组的概率.所以1-1i+()1就是在接收i+1个元素时,第i个数在数组中的概率.同理在接收第i+2个数时,第i个数仍然保存在数组中的概率为1-1i+()2,以此类推,接收第n个数时,第i个元素仍保存在数组中的概率为1-1()n,如果上述事件都发生,那么在接收第n个数时,第i个数才能保存在数组中,因此它保留在抽样数组中的概率是这些时间发生概率的积,就是k()i×1-1i+()1×1-1i+()2×…×1-1()n=kn.

24算法实现

算法实现的伪代码为:初始化:A[k]←;处理j:foreachi≠EOFdoifi<kthenA[i]←value(i)elsej=random(1,i)ifj≤kA[j]←value(i)i←i+1

3实证结果分析

财务流程中,对于业务数据的时效性有较高要求,处理算法的优劣直接影响执行算法主机的系统开销,从而影响整个财务流程的运转速度.为对比传统线性扫描算法和水库抽样算法的系统开销,对两种算法进行了程序实现,设定样本规模为3000并进行了样本抽取,2种抽取算法带来的系统开销对比如图(3)所示,可见传统线性扫描随数据量级的上升系统开销不断增大,而水库抽样则稳定在样本规模时的临界值.传统的利用随机数确定抽样元素,随机函数利用时间等作为种子产生随机数,虽保证了随机性,但不能保证样本抽取的均匀特性,而水库抽样弥补了传统方法的这个缺陷,图(4)展示了部分抽样结果.

4结语

大数据环境中,高校财务数据的数量级不断提升,因此基础数据的分析成为难点.而样本数据库作为基础数据分析的必要支撑,其建立生成尤为重要.通过本文的分析可知,大数据技术的出现,给了均匀、快速的样本生成以新的手段支持,为在允许的时间与精度范围内的分析提供了依据.本文提供了基础数据样本数据库的建立思路,在样本数据库的基础上利用水库抽样算法进行抽样,作者对上述思路进行了程序实现并提供了试验结果.该应用手段解决了高校财务管理中基础数据样本来源困难,提高了财务基础数据分析质量,丰富了高校财务分析工作手段.

作者:阳灵芬 于志强 单位:昆明医科大学 云南民族大学

参考文献:

[1]韩丹丹.大数据时代下高校财务管理如何做好基础数据的分析[J].财务管理,2015(18):82.

[2]黎羊.基于高校财务管理问题的调查与对策研究[D].长春:吉林大学,2014:10-20.

[3]薛砚丹.基于决策树算法的高校财务管理与决策分析研究[D].银川:宁夏大学,2015:4-11.

[4]王宏志.大数据算法[M].北京:机械工业出版社,2015:29-57.

[5]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6):1126-1138.

[6]孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862.

[7]杨静,张楠男,李建,等.决策树算法的研究与应用[J].计算机技术与发展,2010(20):115.

[8]陈东.浅谈高校财务决策支持系统及其构建[J].财会通讯:综合(上),2011(6):126-127.

[9]ELNIKETYE,ELSAYEDT,RAMADANHE.iHadoop:asynchronousiterationsforMapReduce[C]//CloudComputingTechnologyandScience(CloudCom),2011IEEEThirdInternationalConferenceon.IEEE,2011:81-90.

[10]孟涛.数据挖掘在高校财务中的应用[J].软件导刊,2008(7):14-15.

[11]郭迟,刘经南,方媛,等.位置大数据的价值提取与协同挖掘方法[J].软件学报,2014,25(4):713-730.

[12]王珊,王会举,覃雄派.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

[13]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.