智能大数据分析范文
时间:2023-10-30 17:32:22
导语:如何才能写好一篇智能大数据分析,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
大数据,是被过度炒作了还是真的价值无穷?它到底能带给企业什么?企业又该如何分析、挖掘出这些价值?
从商务智能到消费智能
沃尔玛超市啤酒和尿布的故事是传统CRM数据挖掘的经典案例,如今在大数据的背景下,却有了升级版本――某零售超市通过对监控视频影像记录的分析来制定商品的上架摆放策略,例如分析顾客站在某商品前时间的长短就可从一方面得出这种商品的受欢迎程度,从而决定其摆放位置――让畅销的东西放在最显眼的地方,如此一来,超市的收入就更高了。
美国富国银行(Wells Fargo)的电子银行案例值得业界学习,尤其是他们非常注重电子银行的互动性。富国银行发现顾客有一些共同点,就是都非常关心财务管理。于是电子银行除了为每位顾客提供账户管理功能,还会生成在线报告,比如顾客自己的支出报表、为顾客量身定制的省钱计划,提供给顾客有关理财规划、财务管理以及投资等方面的信息和服务,形成有一定意义的在线社区。富国银行利用数据仓库分析处理大量、各式各样的数据,来为各式各样的顾客提供服务,也通过创建客户需要的社区,加强客户的共同兴趣,持续地增加电子银行网站的价值。
美国南加州爱迪生公司(SCE)最近完成了其智能电表的项目,为近500万个住宅和小型企业安装了智能电表Edison SmartConnect,通过这些智能电表可以收集用户的用电情况,包括用电时间和用电量。这些数据都保存在SCE公司的数据仓库,用户可以通过对这些数据进行查询和分析,从而优化自己的用电情况,以达到节能和省钱的目的。
……
“数据处理及获取技术的进步,特别是大数据处理技术的进步,再加上移动设备应用的普及,正在改变着企业的营销模式,从外推模式向内拉模式转变,即从传统的企业往外推送营销信息到达顾客的模式慢慢转变为顾客积极主动地交互、参与引导企业营销的模式。”
Teradata CTO宝立明在日前举行的2012 Teradata 数据仓库暨企业分析峰会上向企业用户传达了一个新的理念,即现在的企业已经开始从商业智能走向消费智能。
他指出,移动互联网的快速发展,不仅仅改变了个人的消费习惯,也改变了企业的盈利和商业模式。它不仅改变了消费模式,对于企业而言也增加了用户的黏性和忠诚度。以Facebook为例,宝立明认为,应用移动设备人们会花两倍的时间访问Facebook,企业非常需要这样的忠诚度和黏性。
宝立明在演讲中用本节开头所描述的众多实例证明移动互联网对于企业的重要性。他认为所有事物都是时间和空间的结合体。如一家邮政公司的包裹从苏州到旧金山,要经过180个数据采集点,还有各种环境的采集信息,这些信息是时间+空间的结合体,也是大数据的典型代表。这些数据的分析处理将对企业来说价值巨大。
峰会上,eBay分析平台总监梁浒在接受记者采访时,也对消费智能的趋势表示了赞同。他说:“为什么现在电子商务网站比传统店铺有优势?比如,你有一个实体店,你不会知道某一个用户是什么时候到店里来逛的,他试了哪些衣服,看了什么,为什么没买就走了……因为你没有这些数据。但是eBay解决了这个问题――通过数据分析,我可以知道你是什么时候来的,来了之后,喜欢怎么看商品,喜欢用什么关键词搜索,搜到了什么东西,以及你到底是谁等。因此,商家就可以有针对性地进行促销及商品组合优化。”
“移动互联网的发展,改变着很多的事情。以往的电子商务开始变成移动商务,人们越来越希望打破地理空间的限制,通过移动终端访问信息。”宝立明强调,以往我们总是传达B2C的理念,而以后的商业发展将更多转向C2B的模式,即消费者的反馈意见和需求越来越影响着信息的交付模式。
被改变的不只是电子商务企业,越来越多的传统企业利用社交网络的信息,通过大数据分析来做业务创新,服务客户。银河证券CIO颜阳向记者介绍,欧美证券市场基于Twitter信息做舆情分析就是这方面的一个典型应用。“去年有报道称,美国大学学者从Twitter上面抓取相关的舆情信息,建立了相关的模型和道琼斯工业指数做类比,结果发现能够提前一天左右的时间预测指数的涨跌。国内一些证券机构也开始做这项研究,这非常复杂。我们正在从一些简单的模型开始摸索。”颜阳说,大数据分析为证券公司做投资顾问产品的全生命周期管理(从需求分析、需求整合、产品设计、产品生产、产品组合、产品销售到服务及跟踪)和客户的全生命周期管理(从客户识别、开发、维系、成熟、衰退到退出及服务跟踪)的交叉匹配提供了可能,帮助证券公司实现业务创新,更细致敏捷地服务客户,获得发展。
当然大数据的价值远远不止客户关系维护、企业营销,它将会在企业运营管理的方方面面都发挥重要作用。但要发挥这些价值,业界现在面临的问题就是如何更高效地存储、分析这些数据。
数据也有温度
大数据之所以成为业界的热点,是因为一方面现在做数据分析的价值越来越受到认可,另一方面,在新方法和技术的支持下,存储和分析的成本相对越来越低。
如何用更低的成本存储大量的数据?宝立明给出的答案是根据数据的“温度”,分级存储。
他介绍,每时每刻,企业都有大量的数据产生和存储。但这些存储的数据却只有很少一部分被用到。此时,就需要按数据的重要程度和使用频率进行分级处理,以节约存储资源,优化数据管理。
“所谓多温度的数据管理,就是把那些不经常访问的数据(冷数据)存储在性能较低的存储设备上,将那些访问频率非常高的数据(热数据)放在高性能的存储设备上。要做到这一点,需要非常智能化的软件。多温度的数据管理技术是Teradata所具有的独特的竞争力之。”宝立明自豪地说。
Map Reduce 新分析方法
数据作为一种宝贵的资产越来越受到重视,但从海量数据中获取有价值的信息却非常困难,因为成本不菲。但现在情况有了新变化,所以大数据眼下成为业界热点,即在新技术的支持下,成本越来越低。
对于企业做数据分析的价值和方法的前后变化,Informatica公司大中国区首席产品顾问但彬曾在第五届中国数据中心大会的“大数据分析与治理”分论坛上,用一个非常生动形象的比喻做了说明:“如果将做数据分析比喻成开采金矿,原来我们所做的是用挖掘机挖金土豆,现在是用筛子来筛金沙。因为现在大量分布在社交网络的数据,对企业而言就像是大量的金沙,分布广泛而分散。如果能用低成本的方法筛出金沙,是非常有价值且值得做的事情。”
从交易到交互,从互联网行业到传统行业,大数据的渗透力和影响力不容小觑。在Teradata大中华区首席架构师张新宇看来,除了数据存储、数据管理,更重要的是数据分析,利用新的分析方法,比如通过使用Map Reduce(编程语言可以是Java/Python/Perl/C/C++)新分析框架,提供针对多种数据的并行处理能力等,实现大数据的洞察力是更关键的。
张新宇在“大数据分析与治理”分论坛上介绍,针对大数据而生的新一代分析工具――Map Reduce近年来备受关注,它一次遍历数据,连接列表顺序分析,而不需要像传统的SQL那样为了排序需要对表做自关联。Map Reduce在数字营销优化、社交网络及关系分析、欺诈检测及预防、设备数据分析等场景中都有非常好的应用。
除了原有的关系型数据分析,结合非关系型数据(NoSQL)的探索性分析的需求在企业内部越来越旺盛。
Map Reduce的第一个开源实现Hadoop 今年尤其受追捧:IBM、微软、Oracle等公司纷纷向Hadoop靠拢,宣布支持Hadoop的连接,越来越多与云计算相关的Hadoop的应用频频被提及。
除了外部连接Hadoop,Teradata还提供了更好的思路,就是在关系数据库内部嵌入Map Reduce。张新宇介绍,在传统的关系数据库中间嵌入Map Reduce可以很容易地打通非结构化数据和结构化数据之间的壁垒。它的做法实际上是先把非结构化数据加载到关系数据库中间,然后解析Map Reduce的图像图形和地理位置等的算法,把中间的关系解析并提取出来,然后再以行和列的方式放到传统关系表中,这样要做分析时可以很容易在一个平台内部就可以处理结构化和非结构化数据。
这就是Teradata收购大数据分析厂商Aster Data的原因所在。因为后者在2008年就成为第一个吸收Map Reduce的供应商,将Map Reduce嵌入关系数据库形成SQL-Map Reduce。宝立明就非常推崇SQL-Map Reduce以及R语言等大数据的分析统计工具。
数据科学家的兴起
除了新工具,大数据还催生了一种新的IT职业,也是被誉为未来5年内最有价值、最火的职业――数据科学家。
宝立明介绍,数据科学家有很强的技术功底,除了传统的会写SQL,还会与非关系型数据打交道,熟悉很多数据分析的软件,有很强的数据功底,对业务也很敏感。另外,数据科学家也会有很强的好奇心或求知欲,他要很明确地知道,当发现业务问题的时候如何通过业务模式的调整去解决。他既可能是一个数据分析的专家,也可能是一个SaaS的专家,也可能是个超级用户,或者是一个Java的程序员,自己写程序处理。
传统的ETL 开发人员、应用模型人员、OLAP架构师或者Data 管控及主数据管理人员主要在关系型数据上工作。与他们不同,数据科学家通常与非关系型数据打交道,会很早接触并采用企业内部的新数据源,要针对数据模型及数据结构没有预先设定的情况,习惯使用各种比较灵活的语言,会有各种新的数据产品的可执行的想法。
“因为现在国外引进的大数据分析工具集成了非常精深的业务模型,功能非常强,但对人才要求非常高。在大数据分析方面,又懂IT又懂业务的人才现在国内非常稀缺。”颜阳告诉记者。
eBay的极限分析
全球最大的电子商务平台eBay拥有全世界最大数据仓储系统。近年来,它的数据成长的脚步相当惊人:eBay现在每天有50PB的新增数据,使用者平均每天对5万种商品进行数百万次的网上查询。除此之外,eBay还有7,000多个商业用户和分析人员,为了分析,每8秒钟会产生1TB的数据量。这些加起来,eBay每天要处理的数据量高达100PB,保存的处理完的数据是每天50T!多么惊人的数字!
梁浒告诉记者,对eBay 来说并不只是数据量的增加,更大的挑战是要同时处理结构化与非结构化的数据。
梁浒告诉记者,eBay的非结构化数据主要是来自行为分析的数据以及对网站点击率的分析。这些资料日益复杂、多变。以追踪点击率为例,近年来大部分的网页都是动态网页,过去只要透过网址就能知道使用者正在看什么网页,但是现在一个网页上的内容变多了,而且每一秒都在变化,这对于分析使用者行为来说,难度也就更高。分析点击率信息这一类半结构性和非结构性数据是eBay在数据管理方面的工作重点之一。
梁浒介绍,在虚拟化以及结构和非结构化数据结合分析方面,eBay和Teradata公司合作建立了大规模平台――Singularity,将结构化数据和非结构化数据结合在一起。目前,这个平台上已经部署很多系统,数据处理量高于40PB。
eBay大约有500多个不同的数据来源,包括普通交易数据、反馈信息数据、账户改动数据和点击流量数据等,它们所产生的数据会被放入不同的系统进行分析,帮eBay了解人们在网上会购买什么样的产品、通过怎样的方式寻找产品、怎样更容易地进行搜索和寻找。就是通过这样的行为数据分析,eBay在不断地优化其搜索和算法,不断改善网站功能和特性。“eBay知道顾客每天习惯在什么时间上网,喜欢怎么浏览商品,是先去看打折的、清仓的货,还是先看新品。eBay知道用户搜索喜欢用什么关键词、搜索到的商品。用户打开的每一个点击,eBay都有记录,eBay知道用户的身份、消费习惯、朋友圈、家人,甚至是他老婆喜欢买什么类型包。”梁浒调侃地说。
篇2
关键词:智能用电大数据;分析;台区线损;管理
前言
随着信息技术的快速发展,大数据、云计算等高新技术在各行各业的应用使各行各业的业务运营管理效率得到再次提升。电力是现代化生产生活不可缺少的重要能源,必须不断提高电力供应系统的运行质量,对其进行有效管理,以保证电力的持续、稳定供应。智能用电大数据在台区线损管理中的应用通过对海量用户用电信息的分析,深入挖掘信息价值,准确找到线损因素,从而提升供电运行效率和管理效率,为企业降低经营成本,使电力企业获得更好发展。
1 基于智能用电大数据的台区线损异常分析
供电台区是指由一台配电变压器和一条配电线路、或由多台配电变压器和多条配电线路组成的集合。在电力供应系统中,低压配电网处于整个电网的末端,与用电用户直接相连,由于用户种类多、用电需求复杂,供电区域也较为复杂,特别是城区配网的问题更加突出。所以供电企业采取台区的方式对电力用户进行划分和管理,台区经济运行指标主要包括供电量、售电量和线损率等。其中,台区线损是低压线损管理的重要组成部分,对配网规划、营销用电、计量管理等方面都有密切关系,但由于低压配网的复杂情况,线损管理情况一直不容乐观,存在着较高的管理线损[1]。
在大数据技术的支持下,许多地区的用户用电信息采集系统已经完成了低压电力用户的覆盖。系统的主要功能包括考核单元信息,统计台区与用户的对应关系、统计每日供售电情况、计算和统计每日台区损失率和指标完成情况等。目前使用的低压线损计算方法主要包括平均电流负荷曲线特征系数法、降压法、等效功率法等。用电信息采集系统的应用解决了考核表与计量表不能同期抄表的问题,但台区用户采集覆盖情况、台区户变关系等也会对线损计算产生影响。传统分析手段难以保证线损计算的嗜沸裕而且工作效率低。在智能用电大数据的支持下,可以利用数据分析和数据挖掘技术对低压线损异常的产生原因进行深入分析,为线损计算提供可靠的参数,从而为台区线损管理工作的开展提供依据,提高其管理水平和工作效率[2]。
2 基于智能用电大数据的台区线损异常诊断模型
2.1 可计算分析诊断模型
随着用电用户信息采集的覆盖面不断扩大,采集到信息数据量也不断提升,传统的数据分析手段无法解决当下电力系统的分析诊断问题。而且需要处理信息数据呈现出多样属性,需要对线损计算数据进行预处理,从而进行更加有效的分析和诊断。为提高线损计算的准确性,首先要制定参与线损计算的条件规则,将信息数据划分为可计算数据和不可计算数据两类。需要使用到基于规则的分类器,采取“if…then…”的规则对记录数据进行分类处理。因此,应根据线损计算特征生成规则模型,使其能够通过一组分类规则进行表示。台区线损的具体计算属性包括公用配变、运行台区、考核电能表、用户电能表、综合倍率、采集安装率等。同时满足这些计算属性的台区属于可计算台区,否则属于不可计算台区。其中采集安装率的计算公式为:采集安装率=已采表/应采表×100%[3]。
2.2 合理性分析诊断模型
通过可计算分析模型确定台区线损是否满足可计算条件后,还要通过决策树进行归纳分析,从而保证分析计算结果的合理性。建立合理性分析诊断模型,对台区线损计算的合理性进一步分析,利用决策树对记录属性和分类问题进行检验,一个问题得到答案后下一个问题随之产生,决策树就是由这种问题回答过程组成,其主要结构包括根节点、内部节点和叶节点。决策树模型的构建主要以台区线损的合理性分析属性集作为依据,主要节点的创建则采用递归算法。初始决策树只包含一个类标号为“合理性=是”的节点,表示台区线损率合理。然后对决策树进行细化,一个根节点包含两类记录,根据条件将其划分为更小的子集,并对每个子节点进行递归。具体的决策树模型如图1所示。通过决策树的构建,可以实现对线损异常原因的分类分析。如果再次基础上增加用户数量等子节点,还能帮助管理人员深入分析台区线损的其他影响因素[4]。
2.3 户变关系分析模型
台区线损分析的正确性受台区户变关系准确性的直接影响,对停电事件采取终端主动上报和智能表的自动记录、主站自动采集相结合的方式,利用简单属性之间的相似度与相异度构建台区户变关系模型。一般用单个属性邻近度的组合来定义对象之间的邻近度。对象的相异性信息包含在属性中,以此判断两个对象件的相异性。如果用户表与总表的停电时刻差值在1分钟以内,则相似度定义为1,否则定义为0。相异度的定义方法则相反,如果属性值匹配,定义为0,否则定义为1。通过对营销档案区用户的电表与总电表的差值,判断用户是否属于本台区[5]。
3 结束语
总而言之,基于智能用电大数据的台区线损管理,其工作效率和管理水平都将得到有效提升,从而为供电系统的正常运行提供保证,降低企业经营成本,为企业争取更好的经济效益。本文主要对基于智能用电大数据的台区线损分析和诊断方法进行分析,包括可计算分析诊断模型、合理性分析诊断模型和户变关系分析模型等,希望能为智能大数据分析在台区线损管理中中的应用提供参考。
参考文献
[1]李新家,孔月萍,邹云峰,等.配电台区在线线损分级管理和智能异常分析设计[J].电力需求侧管理,2016(02):46-48+53.
[2]郭威.基于用电信息采集系统的线损异常数据挖掘研究及应用
[D].华北电力大学,2016.
[3]周伟.用电信息采集系统应用于线损管理的分析与实施[D].山东大学,2015.
篇3
(大连海事大学信息科学技术学院,辽宁大连116026)
摘要:随着大数据时代的到来,商业智能分析对企业的发展起到了至关重要的作用。文章指出目前智能专业设置的课程与商业智能分析之间存在的差距,详细说明商业智能分析岗位的职业需求情况,介绍智能商业分析实践课程设置的具体内容。
关键词 :商业智能;数据分析;大数据
基金项目:国家自然科学基金面上项目“大数据环境下稀疏主题模型理论及其应用研究”( 61370070)。
第一作者简介:王春立,女,教授,研究方向为模式识别与数据挖掘,clwang@dlmu.edu.cn。
0 引 言
麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”随着云时代的来临,大数据( Big data)也吸引了越来越多的关注。大数据可以概括为4个V:数据量大(Volume)、速度快(Velocity)、类型多(Variety)、真实性(Veracity)。随着大数据时代的来临,大数据分析也应运而生。
大数据分析是指对规模巨大的数据进行分析,从数据中获取大量智能、深入、有价值的信息。大数据分析需要数据分析师。数据分析师指的是不同行业中,专门从事行业数据搜集、整理、分析工作,并依据数据作出行业研究、评估和预测的专业人员。数据分析师的教育培养已有相关研究和建设成果,如:针对专业课程实验教学与企业实际需求脱节的情况,改进专业课程实验设计;以项目式教学为基础,讨论设计思维在商务智能课程实验课程应用过程中的可行性;上海交通大学和北京大学等都开设了相关精品课程。
与传统的数据分析师相比,互联网时代的数据分析师面临的问题不是数据匮乏,而是数据过剩。因此,互联网时代的数据分析师必须学会借助技术手段进行高效的数据处理。更为重要的是,互联网时代的数据分析师要不断在数据研究的方法论方面进行创新和突破,这对该领域人才提出了新的要求,仅有商业背景和一些概率统计知识是不够的。学校须将深度学习思想引入商务智能教学,从而提高学生的计算思维能力。与经管类专业相比,智能专业的学生系统学习了模式识别、机器学习和数据挖掘等相关课程,具备较好的数据分析理论基础。
但目前智能专业中,现有课程设置与商业分析之间还有断层,学生有了理论基础和专业技术却不知如何运用,亟须设置实践课程指导学生运用相关知识解决商业分析中的问题,商业智能分析实践课程即是为此开设的。
1 智能商业分析实践课程的职场需求分析
1.1 数据分析师职位需求
大数据是一个朝阳产业,被《HR管理世界》评为七大赚钱行业之一。百度招聘数据显示,2014年3月当月的职位中,北京数据分析师职位需求占24 099个。ManpowerGroup公布的香港2015年第一季就业展望调查报告中指出,整合大数据内有用资讯并将其融入业务发展已是趋势,不同行业的雇主都在物色相关人才,大数据的应用令数据分析职位需求上升。百度已有百度商桥,阿里巴巴有淘宝数据魔方,而亚马逊、京东、当当、卓越网也都会大量招聘数据分析师。
从企业经验来看,建立大数据的数据存储本身就需要专业技术能力,数据分析需要数学能力,确定建模或者分析方向则需要业务能力。大数据时代需要的核心人才,是兼具数据分析能力和项目(业务能力)经验的复合型人才。
目前,大数据方面的工作人员主要有三大就业方向:大数据系统研发类人才、大数据应用开发类人才和大数据分析类人才。从企业方面来说,大数据人才大致可以分为产品和市场分析、安全和风险分析以及商业智能三大领域。其中,商业智能的相关岗位包括:
1)数据抽取(Extract-Transform-Load,ETL)。
随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛。ETL人员需要接触不同的数据来源和平台,从不同的资源获取数据,转换、清洗并导人数据仓库。
2)大数据处理。
目前处理大数据的较流行工具是Hadoop,其核心是HDFS和MapReduce。HDFS提供海量数据的存储,MapReduce则提供对大数据的计算。随着数据集规模不断增大,由于传统BI的数据处理成本过高,企业对Hadoop及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig等的需求将持续增长。如今具备Hadoop框架经验的技术人员是最抢手的大数据人才。
3)信息架构。
大数据重新激发了针对主数据管理的热潮。充分开发利用企业数据并用其支持决策,这需要非常专业的技能。信息架构师必须了解定义和存档关键元素的方法,具备主数据管理、业务知识和数据建模等技能。
4)数据科学家。
数据科学家将企业的数据和技术转化为企业的商业价值。随着数据学的发展,越来越多的实际工作将会直接针对数据进行,这将使人类认识数据,从而认识自然和行为。据预测,未来将需要400万的数据科学家。
5)数据预测分析。
营销部门经常使用预测分析方法来预测用户行为或锁定目标用户,在企业历史数据的基础上,通过假设来测试阈值并预测未来的表现。
1.2 数据分析师职位要求
为进一步明确企业对数据分析师所具备技能的具体要求,笔者收集了51招聘网、智联招聘等几大求职网站上近100份数据分析相关的招聘要求,并对这些招聘要求进行归纳汇总后,整理出数据分析职位的主要职责为:客户分析、用户建模、市场分析、业务运营需求分析、网络营销和网络广告数据分析方法和模型、预测模型、数据库建设维护、数据清洗。对应聘者的要求包括:计算机、数学、商业、信息管理等相关学科本科以上;熟悉SAS、spss、Excel等软件;掌握数理统计、数据分析、数据挖掘,熟知常用算法;良好的数据敏感度,能从海量数据提炼核心结果;良好的逻辑思维与表达能力,善于用简单语言表述复杂结论。
综合起来,数据分析师需要具备的技能主要包括如下4个方面:
(1)数据分析。从事数据分析工作需要掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践中。基本的分析方法包括:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
(2)工具使用。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,必须依靠强大的数据分析工具完成数据分析工作。须掌握数据分析相关的常用工具有SAS、SPSS、Excel等软件。
(3)商业业务。从事数据分析工作的前提是须懂得商业业务,即熟悉行业知识、公司业务及流程。若脱离行业知识和公司业务背景,分析的结果就没有使用价值。
(4)可视化设计。可视化设计是指运用图表等可视化方法有效表达和展示数据分析观点和结论,使分析结果一目了然。图表的设计包括图形的选择、表的内容排列、颜色的搭配等。
2 智能商业分析实践课程设置
针对数据分析师的职位要求,结合智能科学技术专业现有课程设置,智能商务分析实践课程可包括如下内容:
(1)商务智能分析基础。主要介绍相关基本概念、术语及商业背景,介绍各种主要的分析结果展示手段,包括表格、折线图、柱状图和面积图等。
(2) SAS基础。SAS作为一种主要的数据分析工具软件已被各个行业广泛使用。本课程介绍SAS的程序结构、主要语法、数据集的操作以及重要的分析方法,争取使学生通过SAS的基础认证。
(3)商业数据差异性分析及SAS实现。结合实际案例,重点介绍采样策略、功效分析、差异性分析方法,并给出SAS的程序实现。
(4)商业数据预测性分析及SAS实现。结合实际案例,主要介绍线性回归、逻辑回归以及时间序列预测分析,并给出SAS的程序实现。
(5)客户关系管理方法。重点介绍客户关系管理部分,结合潜在客户分析的实际案例,介绍整个建模分析过程。
(6) Hadoop框架。针对大数据的处理分析,介绍Hadoop框架,使学生初步掌握大数据的处理和计算方法。
3 结语
随着大数据时代的到来,企业对数据分析人员的需求增多,技能要求也进一步提高。高校作为知识和技能人才的高等培养基地,应结合社会和职场的需求,合理进行课程设置,通过智能商业分析实践课程的建设,培养具备商业知识和数据分析能力的复合型人才。
参考文献:
[1]赵卫东,吴冉,杨柳,面向企业需求的商务智能课程实验设计[J].计算机教育,2013(18): 106-109.
[2]赵卫东,吴冉,设计思维在商务智能实验教学中的应用[J]计算机教育,2014(24): 107-110.
篇4
随着互联网科技日益成熟,各种类型的数据增长将会超越历史上任何一个时期。用户想要从这庞大的数据库中提取对自己有用的信息,就离不开大数据分析技术和工具。中国有句老话:“工欲善其事,必须利其器!”可见,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,充分挖掘大数据价值,并及时调整战略方向。
在本文中,作者整理了中国境内在大数据分析领域最具话语权的企业,它们有的是计算机或者互联网领域的巨头,有的则是刚刚创办不久的初创企业。但它们有一个共同点,那就是它们都看到了大数据分析技术带来的大机会,于是毫不犹豫地挺进了数据分析领域。(如表单所示)
通过表单,可以了解到相应厂商备受青睐的大数据分析产品。众所周知,在大数据分析领域,当家花旦非Hadoop莫属,Hadoop已被公认为是新一代的大数据处理平台,IBM、Intel、Microsoft、 Oracle以及EMC都纷纷投入了Hadoop的怀抱。对于大数据来说,最重要的还是对于数据的分析,从里面寻找有价值的数据帮助企业作出更好的商业决策。Hadoop和MapReduce等开源工具则使企业能够以一种全新的方式来管理和跟踪大数据。对于中小企业而言,鉴于IT预算的考虑,大多都是从开源的大数据分析工具着手,此时Hadoop就是首选。
当前,大数据分析主要集中在商业智能、预测分析、数据挖掘和统计分析等方面。据Bain and Company报告显示,那些使用大数据分析的公司的领导者们要远远比不使用大数据的公司领导者有优势,他们能够比普通领导者快出五倍的速度进行决策,并且这些决策往往都是正确的。
随着IT和互联网巨头们不断攻破大数据分析领域的各种难题,投放到市场的产品种类越来越繁多,那么企业要如何选择更适合自己的分析产品呢?以下是笔者总结的选型方案:首先要求企业像剥洋葱一样层层剥开,依靠他们有良好关系的供应商,要求查看他们大数据分析平台的演示;其次推荐企业也要学习研究业界其它厂商的案例使用情况;还有企业也应依靠内部的 IT 部门及更有技术悟性的员工,来帮助做一些甄选;但最重要的是企业应该清楚什么是真正的需求,供应商的产品如何能满足这些需求,毕竟理解业务需求比拥有出色的技术更重要。
随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。因此,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。当下,我国大数据技术仍处于起步阶段,进一步地开发以完善大数据分析技术仍旧是大数据领域的热点。
中国大数据分析厂商TOP50排行榜
分项得分(10)
排名 厂商 综合评分(10) 创新能力 服务能力 解决方案 市场影响力
(35%) (20%) (30%) (15%)
1 IBM 9.1 10 8.5 8.5 9
2 Oracle 8.7 9 8 8.5 9
3 Google 8.6 9 8 8.5 8.5
4 Amazon 8.5 9 8 8.5 8
5 HP 8.4 8.5 8.5 8.5 8
6 SAP 8.2 9 8 7.5 8
7 Intel 8.1 9 8 7.5 7.5
8 Teradata 8.0 8.5 8 7.5 8
9 Microsoft 7.9 8 7.5 8 8
10 阿里 7.7 8.5 7 7 8
11 EMC 7.6 8.5 7.5 7.5 6
12 百度 7.5 8.5 5.5 7.5 7.5
13 Cloudera 7.4 7.5 8 7.5 6
14 雅虎 7.2 8.5 7 6 7
15 Splunk 7.1 8.5 7.5 6 5.5
16 腾讯 7.0 7 6 7 8
17 Dell 6.6 7 6.5 7 5
18 Opera Solutions 6.3 7 5.5 6.5 5
19 Mu Sigma 6.2 7 5 6 6
20 Fusion-io 6.1 7 5.5 5.5 6
21 1010data 6.0 6.5 6 5 6.5
22 SAS 5.9 7 4.5 5.5 6
23 Twitter 5.8 5 6 6 7
24 LinkedIn 5.7 6 4.5 6.5 5
25 华为 5.6 5 5.5 6 6
26 淘宝 5.5 6.5 4 6.5 3
27 用友 5.4 6 4.5 5.5 5
28 曙光 5.3 6 4.5 5.5 4
29 东软 5.2 6 5.5 4.5 4
30 MapR 5.1 5.5 6 4.5 4
31 金蝶 5.0 5.5 5 4 5.5
32 Alpine 4.9 5.5 5 4.5 4
33 高德 4.8 5.5 6 3 5
34 Fujitsu 4.7 5 5.5 4 4.5
35 华院数云 4.6 5 5 4 4.5
36 博康智能 4.5 5 4 4.5 4
37 九次方金融数据 4.4 4.5 5 4 4
38 永洪科技 4.3 4 5.5 4 4
39 集奥聚合 4.2 4 4 4 5
40 国双科技 4.1 4 3.5 4.5 4
41 百分点 4.0 3.5 5 4 3.5
42 荣科 3.9 3 5 4 3.5
43 博雅立方 3.8 3.5 4 4 4
44 亿赞普 3.7 3 3.5 4.5 4
45 InsideSales 3.7 3 4 4 4
46 众志和达 3.6 4 4 3 3.5
47 颖源科技 3.5 3 4 4 3
48 星环科技 3.4 3 3.5 4 3
49 拓尔思 3.3 3.5 3 3.5 3
50 国云数据 3.2 3 3 3.5 3.5
代表产品
InfoSphere BigInsights
Oracle Big Data Appliance
BigQuery
Kinesis
Vertica
HANA
Hadoop发行版
AsterData
SQL Server
采云间
GreenPlum
百度统计
Cloudera Apache Hadoop
Genome
Splunk Analytics for Hadoop
腾讯云分析
Big Data Retention
Opera Solutions
Mu Sigma大数据分析
Fusion ioMemory平台
1010data大数据分析平台
SAS Visual Analytics
Storm
LinkedIn数据分析模型
FusionInsight
知数宝
UAP平台
曙光XData大数据一体机
东软经营分析系统
Drill
金蝶KBI
Alpine Miner
高德地图
Fujitsu M10
Hadoop+Postgresql架构
博康智云大数据一体机
九次方大数据分析平台
Yonghong Data Mart
DataQuate
Web Dissector
百分点数据管家
医疗大数据分析平台
cubesearch平台
亿赞普大数据分析平台
InsideSales大数据平台
SureSave BDP1000
股市情绪分析软件
Transwarp Data Hub
篇5
言归正传,你弄明白大数据分析要分析什么数据了吗?(弄明白的高手可以直接飘过;没弄明白的,看下面的内容能不能涨姿势)
我们先来简单聊几句有关大数据分析工具的背景。无需置疑,现在大数据平台和大数据分析工具日益普及,作用是可以帮助企业收集和分析数据,好处是可以寻找有价值的商业信息和洞察,以改进产品与服务。大数据分析工具用于分析数据,可以开发预测模型(predictive model)和规范模型(prescriptive model)。在现代化的业务流程应用中,嵌入这些模型能够提高企业的生产力和价值。同时,使用大数据分析工具可以轻松进行扩展,获取通常在大数据平台才有的可用资源。
其实,大数据分析工具经常提供的技术,一般而言,都不算什么新鲜事物。只是到最近这几年,数据挖掘算法的强大功能才被主流商业用户采用,它可以结合海量数据、多种数据类型和不同的数据结构,对数据集进行预测性分析(predictive analyses)和规范性分析(prescriptive analyses)。
但在用户看来,大数据分析仍然是一种新兴的企业级功能,要像靠它达到预期收益,一定存在风险,还要投入很大的时间成本。所以,在决定投身之前,一定要弄清楚怎样判断什么样的大数据分析适合你的企业?
有一个概念可以很清楚地区分大数据分析和其他形式的分析:要分析的数据有多大的数据量、数据规模如何和数据是否呈多样性。在过去,通常是从非常大的数据库中提取样本数据集,建立分析模型,然后通过测试再调整的过程加以改进。而现在,随着计算平台能够提供可扩展的存储和计算能力,可分析的数据量几乎不再受任何限制。这意味着,实时预测性分析和访问大量正确的数据可以帮助企业改善业绩。这样的机会取决于企业能否整合和分析不同类型大数据。以下四大类数据就是大数据要分析的数据类型:
交易数据(Transaction data)
大数据平台能够获取时间跨度更大、更海量的结构化交易数据,这样就可以对更广泛的交易数据类型进行分析,不仅仅包括POS或电子商务购物数据,还包括行为交易数据,例如Web服务器记录的互联网点击流数据日志。
人为数据(Human-generated data)
非结构数据广泛存在于电子邮件、文档、图片、音频、视频,以及通过博客、维基,尤其是社交媒体产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉。
移动数据(Mobile data)
能够上网的智能手机和平板越来越普遍。这些移动设备上的App都能够追踪和沟通无数事件,从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)。
篇6
【关键词】移动通信;大数据;特点;发展展望
大数据在生活和工作中无处不在,分析大数据要从其特点入手。云计算这是一时期的核心技术之一,通过云计算,人们了解经济发展的整体趋势,帮助企业决策,促进企业发展。
1大数据技术的技术特点
大数据具有自身的特点。①开源软件发展迅速,基于分布式处理的开源项目实现了数据分析的可视化,相关软件大量开发,对大数据时代的非结构化数据进行分析。目前常用的开源软件如Hadoop、MongoDB、HBase和CouchDB。②企业发展不断的智能化,人工智能技术快速融入。对海量的数据采用传统方式处理显然是不可行的,智能化处理技术应用而生。该技术可以帮助分析者发展数据内部规律,人工智能对未来经济、政治发展趋势做出正确的预测。并且知识数据挖掘、模拟发觉和自然语言分析等功能。③对非结构化数据的处理成为主流,基于此而出现的分布式处理构建被广泛应用。异构数据通过文档、图案等方式上传,并且采用非结构化处理方式,拓展了存储空间,实现了并行处理。云计算复杂,需要对各种形式、各个环节的数据进行分析。基于此的非结构化采集技术、分布式编程环境技术和NoSQL数据库技术快速发展。
2大数据技术发展展望
大数据衍生了不同类型的企业,目前这类企业基本可以分成三个类别。即技术型、数据型和创新型。三种类别的数据结合形成了一种数据分析生态系统,对海量数据进行分析。技术性是基础,多是以计算机软件公司为主,IT企业负责数据的基本分析工作,应用于软件开发和利用。数据型是大数据时代衍生的一种特殊的分析形势,他们主要负责的收集和分析,为企业发展提供策略,他与创新型分析具有相似之处,都是对大数据分析的突破,对企业发展具有积极意义。目前,创新型数据分析和数据性数据分析企业共同作用于多个领域,如网络购物、连锁超市、金融和政府发展中。由此而产生的大数据分析工具大量出现,大数据产生于事物的各个环节中,因此对大数据的分析要具有统筹能力和创新能力,既要抓住有效数据,又要做到全面性,通过信息的收集、处理来提供创新热点。
2.1数据分析将成为大数据技术核心
大数据时代,数据的价值被隐藏的更深,要了解经济形态发展,事物的内在关系都需要对海量的数据进行分析。因此这一时期,数据分析将成为主要任务,甚至可以发展成为一个产业。大数据的价值体现在各个方面,大数据的分析方法不断的丰富。数据采集、存储和处理成为核心步骤。数据分析可以采用智能化的方法,并获得智能化的结果,应用于各个领域。
2.2实时性的数据增多
大数据时代,信息具有实时性。需要关注者及时处理,才能带来经济效益和社会效益。如金融服务就是大数据时代衍生的一种新的职业,这里的金融服务是指以原油服务为代表的新的金融服务。大数据时代,信息的传统处理方法具有明显的滞后性,批量化处理方式广受欢迎。信息处理不再以天、小时为单位,而具有明显的实时性。数据大量的出现并快速的变化,因此处理过程要判断其有效性,并且对于一些处理实施处理后无需进行存储。总之,未来几年内,实时性数据将增多,基于此的实时数据处理技术,如流处理、内存计算等技术将大量出现并广泛被采用。
2.3云计算平台将进一步完善
云计算将成为大数据时期的一种重要数据分析和计算方法,它以云计算平台为基础,对数据进行宏观的整理和细节的分析计算。云计算是一项综合性技术,可以提供弹性的计算方法、分布式的计算方法,并且云计算资源庞大,能够对异构数据进行全面的分析。同时,云计算可以很好的处理即时数据。云计算在计算机领域的发展已经日渐成熟,相信随着科技的发展,云计算将应用于更多的平台,并且其技术将进一步革新。
2.4开源软件成为推动大数据技术发展新动力
开源软件是大数据时期的特殊产物,所谓开源软件就是集开发、手机、计算和服务为一体的数据分析软件。目前,Hadoop开源软件的应用广泛,成为大数据处理的通用架构。科技的发展和企业需求结合,使得开源Hadoop逐渐商业化,这一软件带来的效益有目共睹,但是该技术尚处于发展之中,依然具有广阔的发展空间,需要设计人员基于大数据的特征,不断的研究和探讨。
3总结
移动通信业的发展迅速,并且为民众带来了极大的方便。随着我国计算机技术的发展,大数据时代已经到来。大数据时代改变了以往的数据分析模式,这一时期的数据也具有海量化、多样化特征。基于大数据的云计算等先进的分析方式出现并快速被应用。对于移动通信行业而言,要认清形势,并且明确移动通信业发展方向,充分利用大数据的优势。
参考文献
[1]于艳华.大数据分析的技术特点[J].中兴通讯技术,2013(1).
篇7
关键词: 智能数据平台 产学研 整合思路
一、社会治理智能数据平台的构建思路
随着信息化时代的到来,人们对大数据的研究开始日渐加深。研究者开始越来越多地强调对大数据的深层次挖掘,其中这种挖掘使得研究者能有越来越多探讨和发现原来所不存在的事物之间的相关关系。可以说,大数据的出现,是“长尾理论”和“黑天鹅”理论的双重验证――原本被统计学剔除在外的小概率事件纳入其中。但是,值得深思的是,目前对大数据的研究仍然过多地集中在理论层面,缺乏实践性的探讨,更缺乏深层次的具有统筹规划方案能力的全方位的探测。因此,在高校研究和社会治理层面,这种非计算机科学的社会应用,如果能够行之有效地将大数据概念引入实践化,就成了摆在社会科学研究者眼前的重中之重。特别是构建一套完整智能数据平台,帮助社会科学研究者在数据收集、数据分析和同用户反馈交流中起到平台作用,进而实现生产、教学和科研三位一体的布局战略。
智能数据平台所实现的这三个功能既是独立的又是相辅相成的。说这三者是独立的,原因在于这三个功能个各司其职地完成了相对较为独立的任务。其中,智能数据平台的生产功能为用户满足商业、政府、NGO等社会组织数据收集、数据分析及满足市民在各种生活情境中对信息的精确获取功能。智能数据平台的教学功能为以学生为主体,深入细致地挖掘智能数据平台中生活情境中可能存在的需求。而科研功能则在通过完成软件的生产和教学功能的同时,进一步拓展了软件的价值。其中,科研的方向可以有二:第一,科研人员可以根据特定情境下智能数据平台收集到的数据进行深入加工和挖掘,在获得深层次变量关系的同时,完成满足社会需求的科研论文和项目。此外,围绕智能数据平台的功能拓展,也是一项重要的科研功能。三者虽然拥有各自的功能,但是在另外一个层面三者之间也存在不可分离的关联。其中生产功能以需求为导向为智能平台的建设提出了方向,这种方向性的指引保证教学过程中能以社会情景、社会组织和社会人的需求为方向进行知识传授。这种以生产为导向的知识传授正是现代应用型技术人才培养的需要。最后,在教学中,由于学生教师以智能数据平台为工具的社会需求解决方案设计,能够进一步保证教师的科研有明确的方向性和应用性。这种应用型将会进一步影响智能数据分析平台的生产和教师的教学。可以说智能平台的构建是能够真正地从满足社会需求方面出发培养应用应用技能性人才,提高教师科研能力较好的解决方案。
二、围绕智能数据平台建设的产学研示例探讨
围绕智能数据平台出发制订产学研三位一体的发展方案不仅能够有效地拓展应用型技术人才培养的思路,而且能够提高实际教学质量,使得教师从原本简单的知识讲解转换到和学生一起寻找具体社会问题的解决方案。例如,在传统的社会工作类专业中,一般都会部署发展社会学、西方社会学、社会组织管理、社会调查研究方法和数据分析技术这5门课程。按照传统意义的划分来看,这5门课程分别对应了社会理论和研究方法的课程。从传统课程的讲解体系上来看,这5门课程都是自成一体的,依照教学大纲对应着不同的细致知识点。但是从构建智能数据平台建设为核心的产学研研究中,这5门课程便可以有效整合成为一个整体。特别是在以社会情景需求为专题突破口的前提下,这5门课程更是成为统一专题服务的工具,它们以不同的视角指向了同一目标。例如,以“如何了解市民的心理健康程度,保障社会安全”的社会需求为例,教师可以在西方社会学和发展社会学这两门课程中向学生引出该主题,同时要求运用这两门课程的知识,明确能够解决需求的社会理论。学生在理论的确定过程中,通过与教师和其他同学的讨论明确了理论的本质和解决问题的思路,此后将依据理论界定出关键概念和研究主题与研究假设。在社会组织管理课程中,学生将依据研究主题和假设,明确社会需求可能解决的突破点――选择和那些具体的社会组织进行合作与探讨,从数据收集和分析的角度科学化地提出一整套解决方案。在未来的社会调查研究方法和数据分析技术中,研究者将可以通过已确定研究主题、假设和社会组织的具体情况进行概念操作化和问卷设计,并将问卷、测量或其他形式的数据收集方式置入智能数据平台中。在数据分析技术课程中,学生将按照已经设定好的研究方案运用智能数据分析平台对分析数据并输出报告。最终,这些报告和数据结果将有针对性地提交给对应的社会管理组织,在实践中评估其对社会需求的解决程度。
参考文献:
[1]陈阳,张梅.大数据基础上抽样调查在社会治理中的应用探讨[J].理论界,2015,11:151-155.
[2]陈阳,魏玉东.大数据影响下的政府社会经济调查动向探寻[J].辽宁经济,2015,01:76-77.
篇8
关键词:大数据分析方法;企业档案管理;档案数据资源;企业创新决策
Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.
Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making
2015年9月5日,我国政府了《促进大数据发展行动纲要》,旨在促进大数据和云计算、物联网、移动互联网等新一代信息技术的融合,探索大数据和传统产业发展新模式,推动传统产业转型升级和新兴产业发展。正如大数据专家舍恩伯格所说:大数据正在改变人们的生活和人们理解世界的方式,更多的变化正蓄势待发,大数据管理分析思维和方法也开始影响到我们企业档案管理的发展趋势。
1 大数据分析方法在企业档案管理中应用的背景
1.1 大数据研究逐渐纵深化。自从2008年science杂志推出Big Data专刊以来,国内外对大数据的研究如火如荼。经过一段时间的探索,“目前大数据领域的研究大致可以分为4个方向:大数据科学、大数据技术、大数据应用和大数据工程。而人们对于大数据技术和应用两个方面的关注比较多”[1]。正如2012年奥巴马政府投入2亿美元启动 “大数据研究和发展计划”的目标所显示的那样,目前大数据的研究逐渐向纵深化方向发展,着重从大型复杂的数据中提取知识和观点,帮助企业实现从“数据分析能力”向“数据决策能力与优势”的转化。
1.2 企业创新决策越来越依赖于数据分析。对于企业技术创新者而言,目前更多的企业高层越来越依靠基于数据分析的企业技术创新决策。靠传统的经验方法去决策往往是滞后的,因此,大数据分析方法作为先进的定量分析方法,目前出现的一些先进数据分析方法与技术势必会对企业的运行管理、生产业务流程、管理决策产生飞跃式的影响。大数据分析方法也成为企业档案数据分析、技术创新决策的有效工具。
1.3 企业档案为企业创新决策提供数据基础。对于一个企业而言,使用的数据资源必须具有真实性可靠性。“企业档案是在企业的各项活动中直接形成并保存备查的各种文献载体形式的历史记录”[2],企业档案是企业在生产、经营、管理等活动中形成的全部有用数据的总和。除了发挥着凭证参考维护历史真实面貌的作用之外,企业档案更“是企业知识资产和信息资源的重要组成部分”[3],具有知识创新性、不可替代性,为企业技术创新决策提供数据基础。“特别是在当前大数据背景下,企业档案数据资源的开发与建设对企业经营决策的制定与适应市场竞争环境起到关键性作用。”[4]
在上述背景下,将大数据分析方法应用在企业档案管理中具有重要性意义:不仅拓展企业的管理决策理论,同时帮助企业运用所拥有的档案数据资源洞察市场环境,发现新的竞争对手,进行自我总结,做出科学决策,使企业紧紧抓住大数据时代带来的市场机遇。
2 大数据分析方法在企业档案管理中应用的方式
大数据分析方法在企业档案管理中的实现方式即是将大数据分析方法运用在企业档案信息分析挖掘上。它贯穿企业数据处理的整个过程,遵循数据生命周期,广泛收集数据进行存储,并对数据进行格式化预处理,采用数据分析模型,依托强大的运行分析算法支撑数据平台,发掘潜在价值和规律并进行呈现的过程。常见的大数据分析方法“其相关内容包括可视化分析、数据挖掘、预测分析、语义分析及数据质量管理”[5]。
2.1 数据质量管理提升企业档案数据资源品质。大数据时代企业档案数据资源呈现出4V特点,这使得企业档案数据很容易出现不一致、不精确、不完整、过时等数据质量问题。基于数据生命周期对企业档案数据资源进行数据质量管理分为数据预处理、数据存储、数据使用三个阶段。在数据预处理阶段,通过ETL工具即数据经过萃取(Extract)、转换(Transform)、加载(Load)至目的端这几个预处理过程达到数据清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微软的Dynamics Integration及IBM的Data Integrator都是比较常见的ETL工具。在数据存储与使用阶段,针对目前企业档案大数据呈现出4V的特点,传统关系型数据库在数据存储与数据管理方面已经难以胜任,非关系型数据库以其高吞吐量、可拓展性、高并发读写、实时性等特性能够满足数据存储与管理的要求。目前应用最广的是并行处理系统MapReduce和非关系型数据库比如谷歌的Big Table和Hadoop的HBase。将ETL工具移植入云计算平台系统,将会大大有助于完成数据清洗、重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等数据质量处理过程,从而保证企业档案数据资源的数据质量。
2.2 可视化分析提升企业档案数据资源可理解性。
“大数据可视分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。”[6]那么企业档案数据资源的可视化分析可以理解为借助可视化工具把企业档案数据资源转化成直观、可视、交互形式(如表格、动画、声音、文本、视频、图形等)的过程,便于企业经营者的理解利用。
以2015年2月15日最新版的“百度迁徙”(全称“百度地图春节人口迁徙大数据”)为例,该项目让我们近距离了解到大数据可视化。它利用百度后台每天数十亿次的LBS定位获得的数据进行计算分析,全程展现中国人口迁徙轨迹,为政府部门科学决策提供科学依据。受该项目启发,企业可将拥有不同类型的档案信息进行可视化,比如进行企业档案的网络数据可视化、时空数据可视化、时间序列数据可视化、多维数据可视化、文本数据可视化等[7]。以文本数据可视化为例,目前典型的文本可视化技术标签云,可以将档案文本中蕴含的主题聚类、逻辑结构、词频与重要度、动态演化规律直观展示出来,为企业决策提供依据。另外,常见的信息图表类可视化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;时间线类可视化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;数据地图类可视化工具主要有Leaflet、Google fushion tables、Quanum GIS等。这些新技术都为企业档案数据资源可视化提供了科学工具。
2.3 语义引擎实现企业档案数据资源的智能提取。大数据时代全球数据存储量呈激增趋势,传统的基于人工分类目录或关键词匹配的搜索引擎(谷歌、百度等)仅仅能够进行简单的关键词匹配,用户无法得到非常准确的信息,检索准确率并不高,而且检索结果相关度较低,检索结果缺乏引导性。为提供给用户高质量的检索结果,改善用户搜索体验,提高效率,实现智能提取,语义搜索引擎应运而生。“语义引擎是随着语义网的发展,采用语义网的语义推理技术实现语义搜索的语义搜索引擎。”[8]它具备从语义理解的角度分析检索者的检索请求,能够理解检索者的真正意图,实现信息智能提取。对语义分析可以采取自然语言处理方法进行概念匹配,提供与检索者需求相同、相近或者相包含的词语。目前存在基于本体的语义处理技术,它以本体库作为语义搜索引擎理解和运用语义的基础。对于企业而言,将语义引擎分析方法与协同过滤关联规则相结合,可以挖掘用户的需求,提供个性化的服务。比如亚马逊公司通过对用户检索的语义进行分析推理,结合协同过滤关联规则,为用户提供相近需求的产品,提升自己的经济效益。对于一份人事档案而言,语义引擎也能分析出该份人事档案中的某人的职务、级别,从中提取出姓名一职务一级别一时间等关键信息,提高检索准确率和效率,实现智能提取。
2.4 数据挖掘发现企业档案数据资源的隐性价值。“数据挖掘又称数据库中的知识发现”[9]。简而言之,数据挖掘就是企业从数据集中发现知识模式,根据功能一般分为预测性模式和描述性模式,细分主要有分类与回归模型、聚类分析模型、关联规则模型、时间序列模型、偏差检测模型等。主要挖掘方法有神经网络方法、机器学习方法数据库方法和统计方法等。
数据挖掘是大数据分析方法的核心。对于企业而言,数据挖掘的档案数据资源应该由两部分组成:一是企业正常运行管理过程中所形成的档案数据资源,通过运用分类、聚类、关联规则等方法对企业内部的数据进行挖掘,发现潜在模式,为企业技术创新人员决策提供支持。比如在2004年全球最大的零售商沃尔玛在分析历史记录的顾客消费数据时,发现每次季节性飓风来临之前,手电筒和蛋挞的数量全部增加。根据这一关联发现,沃尔玛公司会在飓风用品的旁边放上蛋挞,提升了企业的经济效益;二是企业在运行过程中遗存在互联网上的数据,通过网络舆情及时跟踪可以获取市场最新动态,为企业调整服务模式、市场策略、降低风险提供依据。比如Farecast公司运用数据挖掘,从网络抓取数据来预测机票价格以及未来发展趋势,帮助客户把握最佳购买时机,获得较大成功。
2.5 趋势预测分析实现企业档案数据资源的价值创造。“预测分析是利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测。”[10]预测分析的方法分为定性与定量分析两种方法:定性分析如德尔菲法以及近年来人工智能产生的Boos-ting・贝叶斯网络法等;定量分析法一般从形成的历史数据中发掘数据模型达到预测效果,如时间序列分析模型、分类与回归分析模型等。
企业档案数据资源预测分析是在企业档案数据资源数据挖掘的基础之上,发现适合模型,将企业档案数据输入该模型使得企业技术创新人员达到预测性的判断效果,实现价值的创造。一个典型的例子即是市场预测问题,企业技术创新者可以根据档案数据预测某件产品在未来六个月内的销售趋势走向,进而进行生产、物流、营销等活动安排。具体来讲企业可以通过数据时间序列分析模型预测产品销售旺季和淡季顾客的需求量,从而制定针对独特的营销策略,减少生产和销售的波动性,获得利润和竞争优势。预测分析在大数据时代彰显出企业档案数据资源独特的魅力。
3 大数据分析方法运用于企业档案管理中应当注意的问题
3.1 成本问题。大数据分析需要依靠分析工具和运算时间,特别是在复杂的企业档案数据资源中采用相关大数据分析工具的科技成本还是很高的,要以最少运算成本获得更有价值的数据内容。合理选择大数据分析工具不光可以节省运算成本而且能够更快速获取盈利增长点,同时在大数据分析和企业档案数据资源的存储成本方面也要适当的控制在合理的范围内。既要保证大数据分析质量,又要降低企业档案存储成本是大数据分析方法运用到企业档案管理中的重要原则。
3.2 时效问题。“大数据的动态性强,要求分析处理应快速响应,在动态变化的环境中快速完成分析过程,有些甚至必须实时分析,否则这些结果可能就是过时、无效的”。[11]由此可见,影响大数据分析的重要因素就是时效性问题。“大数据数据分析的核心内容之一是数据建模”,[12]数据分析模型要不断的更新适应数据的动态变化。如果模型落后于数据的变化,那数据分析只能是失效的。同时由于经济环境、政治生态、社会文化等因素不断变革,企业档案数据的收集也会产生新的问题。只有不断加强对这些数据的实时监测和有效分析,才能更好的识别出数据变化中的细微之处,建立与之相适应的数据分析新模型。
3.3 情感问题。“大数据的另一个局限性在于它很难表现和描述用户的感情。”大数据分析方法在处理企业档案数据方面可以说如鱼得水,大数据分析是一种科学的机器运算方法,无法去实现人文价值提取,比如如何从企业档案数据资源中提取企业文化,这更需要人的情感直觉去实现,而严谨的科学数据是无法实现的。因此,我们在热衷于大数据分析方法的量化结果时,同时也不要忽略在传统企业档案管理中的那份人文精神。
篇9
【关键词】电力用户侧;大数据;分析;并行负荷预测
经济的迅速发展和城市化脚步的加快为电力行业的发展赢得了良好的发展机会和广阔的发展市场,随着人们生活水平和生活质量的提高对电力的需求量有了更多的要求,对电网建设的智能化有了更高的要求;近年来越来越多的先进技术和系统渗透到电网建设中,数据的复杂性有了很大程度的提高,传统的分析和预测方法已经不能满足电力发展的需求了,需要跟随时代的步伐不断的改进和完善,在自我探索的同时借鉴国外的先进技术和丰富经验,然后结合我国电力用户的实际情况进一步的改善,更好的对电力用户侧大数据尽心分析和预测。
1 电力用户侧大数据管理存在的问题
1.1 大数据的整合问题
大数据的整合困难最主要就是传感器在智能电网中的使用所带来的数据模式和口径的差异。传感器的使用主要是将电表智能化,在物联网技术不断发展大背景下,电表中所产生的数据具有很大的差异,尤其是面对庞大的数据差异系也越来愈大,将这些数据进行整合,从而进行规范性的表达也就成为了亟待解决的问题。
1.2 大数据的可用性问题
大数据的可用性受到质疑最主要的原因就是数据的真实性受到破坏。一方面随着电力行业的不断发展和进步,数据采集的方式逐渐趋向多样化,采集的通道也逐渐丰富,但是各个通信信道的质量存在一定的差异,那么接受的数据也会存在质量不一的情况,如果质量低劣的数据用到分析和预测中,那么电力信息的真实性将会受到很大的影响;另一方面是对数据的管理控制不严密,在数据分析的过程中很多低劣的数据展主导地位,那么相应的信息决策也就缺乏合理性和科学性,对整个电力行业的发展造成了严重影响。
1.3 大数据储存问题
大数据的储存问题主要是大数据与储存格式之间的矛盾。随着智能电网中传感器以及通信网络技术的应用,电力用户侧大数据的复杂性有了很大程度的增加,尤其是换电站、充电桩设备的增加产生了庞大的数据量,对这些数据储存的格式也提出了更高的要求,但是目前很多电力系统中仍然采用的是传统储存格式和数据库,数据库和储存格式的落后已经不能满足大数据储存的要求了,从而引发了大数据的储存问题。
1.4 大数据分析技术问题
大数据分析技术处于落后的状态,电力用户侧逐渐趋向大数据的情况,但是在这些数据的分析上仍然是以往的普通数据分析,无法满足大数据的实际需求,如果采用传统的分析技术,电力信息的全面性和真实性都会受到一定的影响。
2 电力用户侧大数据分析
2.1 大数据分析平台
大数据分析平台的基本构架主要包括应用层、私有云计算层以及数据管理层三个部分。应用层主要包含了决策系统、报表系统、营销系统以及负荷预测等多方面的内容;私有云计算主要是进行并行化计算和内存并行化计算,包含包含了数据仓库、存储数据库等内容;管理层主要是与与计算技术进行有效的结合,利用先进的系统建立数据管理平台,例如Hadoop平台的搭建可以采用HDFS、HBase 与 Hive三者的结合建立数据存储系统,从而更好的进行并行化计算分析,保证电力用户侧大数据分析的有效性。
2.2 数据管理层
数据管理层最主要的任务就是对数据进行采集和整合,主要包括智能电表、SCADA系统以及各种传感器中进行数据的采集,上述提到这些数据具有一定的复杂性,整合具有一定的难度,需要利用更为先进的技术进行处理。例如数据分析平台采用了sqoop工具对这些复杂的数据进行抽离整合工作,作为的抽离整合就是将各个独立所产生的数据利用sqoop这一开源工具导入到Hive与 HBase 中,也就是数据传递,然后对列存储数据库进行有效的操作。具体情况见图1:
图1
2.3 私有云计算层和应用层
私有云计算主要是对大数据进行储存和计算分析,应用层主要是利用云计算的储存和分析能力为企业各部门的提供良好的决策和指导。上述提到大数据的储存问题主要是储存数据库和储存格式处于落后的情况,私有云计算可以利用Hadoop工具将大数据储存到分布式文件系统 HDFS 中,并且利用先进的工具和系统对储存的数据进行严格的管理,在很大程度上保证信息存储的完整性,例如某市一电力公司利用云计算搭建了电力数据中心,并且通过映射的方式形成数据空间点集,最大可能的保证了大数据的储存。
3 随机森林算法在并行负荷预测中的应用
3.1 随机森林算法原理
随机森林算法主要是利用随机子空间理论进行计算分析的。在随机森林中,不同的分类回归树在样本训练集上所表现出现的特征也具有一定的差异,如果总样本用S表示,那么不同分类的样本将用TS来表示;其次随机森林的最终的结果为不同分类回归树投票选择的结果或者平均计算的结果。具体情况见图2:
在对回归树的情况进行选择是要对最小二乘偏差进行计算,用 来表示,从而用来度量回归树,对节点的拟合误差进行计算,节点用 来表示,具体公式为:
=
代表的是节点 中实例的个数; 代表的是节点实例的目标值的平均值。
3.2 随机森里算法并行化依据
随机森林算法并行化的主要依据为Bagging 思想和随机子空间思想两部分的内容。所谓的Bagging 思想就是训练样本的抽取,例如总样本用S表示,抽取的样本用K表示,经过计算发现有25%的数据没有抽到,这种方式有效的体现了相互独立的构件过程,为并行化奠定了良好的基础;随机子空间思想就是在每个节点都进行属性测试,采用抽签法随机从样本中抽取多个属性进行测试,在很大程度上避免了所有数据一次读入所引起的过度拟合问题。
3.3 随机森里算法的负荷预测过程
负荷预测过程主要四生成数据字典、生成决策树、形成随机森林三个部分。首先生成数据字典就是对样本数据进行详细的描述,并且将条件属性值的类型和决策属性的位置进行明确的记录,然后在确立运算方法的条件下进行数据的读取;生成决策树就是对原数据按照上述的Bagging 算法进行数据的抽取,从而获取不同属性的信息;生成决策树就是通过节点的建立,对实例的相关数据进行计算分析,这一情况需要MapReduce过程来完成,而且一个个 Map只能生成一个决策树。
4 结束语
综上所述,在社会大发展的背景下,电网建设逐渐趋向智能化已经成为了顺应社会潮流的必然趋势,电力用户侧大数据的构成也就逐步构成,着无疑是增加了数据分析和预测的难度;近年来各种计算机网络技术在数据搜集、分析和预测中渗透,对电力行业的发展起着至关重要的作用,那么随机森林算法作为现代科技下的产物在电力用户侧大数据中的应用也就显得格外重要了。笔者提出,电力用户侧大数据的分析和预测具有一定的复杂性,包括了数据的管理、预测分类的算法等各方面的内容都要经过严格的实验,从而选择最为合适的方式,为数据分析预测的全面性和准确性提供良好的保障。希望通过本文的简单分析,能够帮助相关工作人员更好的开展工作。
参考文献:
篇10
关键词:大数据;图书馆移动信息服务;移动图书馆
DOIDOI:10.11907/rjdk.162668
中图分类号:TP319
文献标识码:A文章编号:1672-7800(2016)012-0092-03
0 引言
随着移动互联网技术的迅速发展,图书馆面临巨大的机遇和挑战,通过移动互联网向用户提供高效、便捷的信息服务是当前图书馆信息服务发展的新方向。图书馆移动信息服务主要指依托于目前比较成熟的国际互联网络、广范围的无线移动网络以及多媒体技术,使用户不受时间、地点和空间限制,通过使用各种移动网络设备(如手机、平板电脑、E-Book等)方便地进行图书信息检索与获取的一种新兴的图书馆信息服务模式[1]。然而,信息技术的发展也促进了图书馆数字资源的快速增长,形成了包括音视频资源、电子期刊、电子图书等在内的海量数字资源。传统图书馆的移动信息服务已经不能够满足众多用户个性化、多样化的信息服务需求。面对这种现实,如何在大量数据资源的基础上提供有效的个性化移动信息服务,是图书馆建设和发展面临的重要问题。
1 图书馆移动信息服务现状
从我国图书馆移动信息服务的发展历程看,我国图书馆移动信息服务起步较早,但发展速度缓慢,服务内容单一。从2003年开始,我国已有部分图书馆开始尝试推出移动信息服务,截至目前,全国已有数百家图书馆开通了移动信息服务[2]。在各图书馆中运用比较广泛的移动信息服务模式有:APP客户端服务、二维码服务、WAP网页服务、SMS短信服务,服务终端从普通手机到智能手机、平板电脑、电子阅读器等,移动信息服务内容为各类数据资源的检索服务以及用户信息查询等相关服务。
随着我国图书馆建设规模的不断扩大,信息化水平不断提升,但各级各类的图书馆移动信息服务仍没有形成完整体系,大部分图书馆的应用技术或提供的服务内容比较单一,缺乏与图书馆传统业务的系统性联系。并且在信息服务过程中,大量数据未被有效地分析、挖掘,服务之间没有进行数据共享等[3],相关问题制约了图书馆移动信息服务的发展。因此,针对这些问题,需要研究相关发展对策,以最大化地满足用户的信息需求,提高服务质量,让用户能够随时随地、快捷高效地获取优质的信息资源。
2 图书信息服务中的大数据
在大数据时代背景下,图书馆产生了大量电子资源、文献资源等图书资源数据,以及用户借阅信息、浏览历史等用户信息数据,还有在图书馆日常的信息服务中逐渐增长的各种形式化数据(结构化、半结构化、非结构化数据)。对这些数据进行收集、存储、处理并有效利用是图书馆移动信息服务的基础[4]。数据仓库、联机分析处理(On-Line Analytical Processing,OLAP)和数据挖掘是大数据分析中3种相互独立的技术,但是它们在数据处理上却联系紧密,共同为智能化的信息服务提供决策支持。数据仓库是大数据分析的基础,联机分析处理和数据挖掘是建立在数据仓库之上的两种数据处理方法。图书馆信息服务中的大数据架构如图1所示。
2.1 图书馆数据仓库
在现代图书馆的信息服务过程中,信息技术和信息服务是高度集成、快速发展的。针对图书馆管理人员特殊的业务需求和图书馆用户特定的信息需求,对图书馆资源进行有效利用,是图书馆信息发展过程中亟待解决的问题[5]。目前在图书馆信息服务系统中,各数据库之间往往相互独立,并且是异构的。而数据仓库是通过对分散的数据进行清理、变换、集成、汇总,利用数据仓库的集成特性解决数据在存储过程中的异构问题,使数据能够更加标准化和规范化[6];数据仓库是整体的信息组织,图书馆信息服务过程中各个业务系统之间的数据各自分离,没有形成统一的联系,而数据仓库中的数据是按照一定的主题域进行组织;在事务处理方面,数据仓库面向主题的特性能高效地完成单一事务的处理要求。构建图书馆数据仓库的最终目的是建立一个全面、完善的数据信息基础,然后利用该数据信息完成数据分析和数据挖掘,从而完成高层次的决策支持。将数据仓库引入图书馆信息服务建设中,由于数据仓库本身具有的面向主题、集成、相对稳定等特点,在数据分析过程中能够提供更加安全的数据资源服务。数据仓库是数据存储、处理和分析的一个综合解决方案,是联机分析处理和数据挖掘的基础。
2.2 联机分析处理
在数据仓库中,存在着大量有价值的数据,但是这些数据对于决策者而言没有任何实际意义。数据必须经过有效的分析处理和深层次的模式挖掘才能提供决策支持。联机分析处理是数据分析过程中应用最广泛的数据分析处理技术,它能针对特定问题进行联机数据访问和统计,通过对信息的多角度快速访问,使决策人员可以更深入地进行观察分析。其主要功能是根据选择的分析角度,事先计算好一些结构内容,以便查询时能够尽快计算分析出结果,并能够快速、有效地从一个维度转变到另一个维度,从而在短时间内有效地分析和解决问题。数据仓库由各种不同的应用系统导入数据,但是由于数据的多样性与复杂性,并不能直接进行分析处理。联机分析处理能有效地将这些数据进行聚焦、合计,然后以其它组织形式进行分析处理。将联机分析处理技术应用到图书馆的移动信息服务中,可以通过对用户信息的有效分析、对比,为用户提供个性化的移动信息服务。
2.3 数据挖掘
在图书馆的大数据分析与处理过程中,从数据分析深度看,联机分析处理处于相对较浅的层次,而数据挖掘则处于相对较深的层次[7]。数据挖掘是大数据分析中知识发现的一个重要步骤,它是从大量、不完全、有噪声、模糊、随机的数据存储中抽取模式,找出数据变化规律和数据之间的相互关系,提取隐含在其中的有用信息和知识的过程[8]。数据挖掘过程通过对图书馆用户的查询记录进行模式总结与内在规律的搜索,帮助决策者分析当前和历史用户数据,并从大量的用户数据中发现可能隐藏的关系及模式,进而预测图书馆用户未来可能发生的使用行为,为决策者提供强有力的决策支持。数据挖掘的数据处理过程包括预处理、变换、数据挖掘、模式评价及知识表示。事实上,数据挖掘是一个周而复始的过程,即从一个主题中产生的想法往往需要进一步分析从而产生新主题,而新主题又可以产生更新的主题。
3 基于大数据的图书馆移动信息服务
基于大数据的图书馆移动服务是指图书馆在大数据的时代背景下,把信息服务过程中产生的大量数据资源与移动信息服务紧密结合起来,通过对数据资源进行有效的整合、处理、存储、分析,从而构建一种创新、智慧的图书馆移动信息服务模式[9]。与传统图书馆的信息服务模式相比,基于大数据的图书馆移动信息服务是一种培养用户个性、引导用户需求的创新型服务模式。
3.1 智慧化的移动服务平台建设
建设智慧化的移动信息服务平台是图书馆移动信息服务中的一种重要手段,也是图书馆信息服务中的一种创新。通过将大数据分析与现代移动通信技术相结合而建立的图书馆智能移动信息服务平台,可以使用户便捷地访问并使用图书馆资源。智慧化的移动门户建设应具备以下基本原则:①智慧化的图书馆移动信息服务平台应能兼容不同的用户终端访问,包括WAP网页模式、移动客户端、微信二维码模式等;②创新的移动信息服务内容应丰富多彩,界面简洁、美观、清晰且简单易用;③智慧化的移动信息平台可实现用户与平台之间的交互,以及智能化的在线参考咨询;④通过大数据可视化技术为用户展示独特的个人综合数据分析。
3.2 创新的移动服务内容
基于大数据的图书馆移动信息服务不仅可为用户提供传统的信息服务内容,如图书借阅、图书续借、馆际互借等图书借读业务,以及个人信息修改、借阅历史查询、证件挂失等用户业务,而且基于大数据的图书馆移动信息服务通过积极整合移动服务过程中产生的各种不同类型数据资源,对数据进行分析处理,还可为用户提供二维码服务、地图导航、语音信息搜索等创新的移动信息服务,包括:①将二维码功能应用到图书馆的工作和服务中。利用移动客户端生成每位用户独特的二维码信息,以及图书馆配置的二维码扫描服务端可智能实现入馆识别、图书借阅、自习室座位预定等身份认证服务。同样,图书馆的电子资源、物理资源也可生成二维码信息,用户可以通过手机二维码扫描获取图书的位置信息、借阅信息等;②图书馆移动导航服务。用户不仅可以通过手机客户端获取自己在图书馆中的位置信息,还可以通过导航服务获取图书的位置导航;③智能语音信息搜索。通过智能手机的音视频功能搜索查询图书资源,简化了用户手动输入检索信息的过程。智能的语音识别使用户能够更迅速、便捷地查找所需的资源信息。
3.3 创新的移动检索方式
信息检索服务是图书馆信息服务中一个非常重要的组成部分,主要指基于联机公共目录查询系统(Online Public Access Catalague,OPAC)对馆藏资源进行检索的信息服务。基于大数据的图书馆移动信息检索服务在传统检索服务上进行了创新,主要包括检索内容、检索方式以及检索结果的创新。
(1)检索内容。
面对图书馆中数据资源类型丰富、数量大、数据格式不统一,链接更具深度与广度的现状,以及用户的多样性、差异化需求[10],传统图书馆在信息服务过程中往往会提供多个数据库系统以满足用户的检索需求,搜索一个关键字可能需要检索多个数据库,并且检索出的结果有多种格式,必须分别下载不同的阅读器才能使用,这在一定程度上造成用户信息检索的不便。基于大数据的图书馆信息检索服务,通过对图书馆众多数据资源的整合和链接,将检索的数据资源聚合在一个检索框架内,在资源上形成逻辑的整体,实现在大数据下的检索、浏览、下载、更新和反馈等“一站式”的全功能检索操作。对于用户而言,整个图书馆的数字资源是一个整体,这个整体由图书馆中不同数据库、不同类型、不同来源、不同部门的信息数据组成,通过这种方式将大数据分析技术应用到图书馆移动信息服务中,进一步提高了图书馆的服务质量[11]。
(2)检索方式。
在检索内容的基础上拓展完备的检索方式与检索工具支持,支持各种资源类型的统一检索,并实现高级检索。采用统一的检索方式与检索语言,实现跨库、跨平台与跨地区检索,实现资源的有效整合和共享。尤其是图片、音视频等多媒体资源的统一检索是移动图书馆信息检索服务的主要优势之一。同时,支持语音检索、二维码扫描及多字段高级检索,以及自然语言的语义检索、根据用户定制关键词的个性化检索等多样化的检索方式。
(3)检索结果。
智能化的信息检索结果展示,不再是面对所有用户以一种统一方式展示结果,而是根据用户最近的检索内容、访问数据等操作行为,通过系统的分析处理后,对检索结果进行智能化排序,与用户匹配度较高的结果优先显示,以更准确地满足用户的信息检索需求。
3.4 用户喜好推荐
基于大数据的图书馆移动信息服务,打破了图书馆传统的移动信息服务模式。利用大数据处理技术,通过对用户的个人基本信息和网络检索方式、行为习惯、检索历史等信息进行收集、记录、汇总、分析,全方位了解用户重点知识区的相关数据,根据对用户检索动因、行为的模式分析,找出用户的潜在需求,以推送个性化信息。基于大数据的信息处理技术可以对动态、复杂的信息资源进行快速选取和分类,甄别出有利用价值的数据。通过分析这些数据间的关系,为用户提供高准确度的个性化移动信息服务,增强用户对智能推荐服务的满意度和忠诚度。