大数据分析范文

时间:2023-04-06 11:43:51

导语:如何才能写好一篇大数据分析,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

大数据分析

篇1

数据分析:从挖金土豆到筛金沙

大数据之所以成为业界的热点,是因为现在做数据分析的价值越来越大,在Hadoop等技术的支持下,成本相对越来越低。对于企业做数据分析的价值和方法的前后变化,Informatica公司大中国区首席产品顾问但彬在论坛上,用一个非常生动形象的比喻做了说明:“如果将做数据分析比喻成开采金矿,原来我们所做的是用挖掘机挖金土豆,而现在则是用筛子来筛金沙。因为现在大量分布在社交网络的数据,对企业而言就是就像是大量的金沙,分布广泛而分散。如果能用低成本的方法筛出金沙,是非常有价值且值得做的事情。”

但彬介绍,Informatica作为一家数据集成公司,更关注的是如何把来自各个地方的大数据,通过像抽水机的泵一样的装置整合到需要的程度和地方。Informatica2011年完成了近8亿元的收入,这也是对大数据市场火热程度的一个印证。

Informatica主要从四个方向考虑大数据处理的一些问题:第一,大数据的集成,即从数据种类的多样性方面,整合所有来源的所有数据类型,不管是来自交易系统的结构化数据,社交网络的半结构化、非结构化数据,还是来自RFID读卡器的感应数据;第二,保障数据的权威、可信性,保障数据安全,实现可重复利用、一致的数据质量;第三是实现数据的自助式服务,消除手工操作带来的错误,提高生产率,允许分析员通过基于浏览器的工具直观地定义和校验从源到目标的处理流程,以此自动生成映射逻辑,交由开发人员部署运行;第四是自适应服务,通过多协议数据配置、集成数据质量等手段实现交付适应不同项目需求的数据。

从交易到交互,从互联网行业到传统行业,大数据的渗透力和影响力不容小觑。在Teradata大中华区首席架构师张新宇看来,除了数据管理,更重要的是数据分析,利用新的分析方法,比如通过使用Map Reduce(编程语言可以是Java/Python/Perl/C/C++)新分析框架,提供针对多种数据的并行处理能力等,实现大数据的洞察力是更关键的。

北京赛迪时代信息产业股份有限公司存储工程服务事业部总经理李降龙也介绍,大数据带来的挑战在于怎样实时处理这些数据,通过虚拟化搭建一个计算和存储资源池,以弹性架构有效地合理分配和使用它们,并建立合理应用系统,使大数据得到最好的管理和使用,才能发挥大数据的价值。论坛上民族证券CIO颜阳也分享了证券公司对于大数据的理解以及他们所做舆情分析的大数据应用。

职场新贵:数据科学家

针对大数据而生的新一代分析工具――Map Reduce近年来备受关注,它一次遍历数据,连接列表顺序分析,而不需要像传统的SQL那样为了排序需要对表做自关联。Map Reduce在数字营销优化、社交网络及关系分析、欺诈检测及预防、设备数据分析等场景中都有非常好的应用。

除了原有的关系型数据分析,结合非关系型数据(NoSQL)的探索性分析的需求在企业内部越来越旺盛,如此一来,一种新的IT职业――数据科学家会越来越火。

篇2

通过一系列收购,EMC已经建立了一条比较完善的大数据产品线。在此基础上,EMC抛出了大数据之旅的三段论。

第一关:构建云基础架构

大数据分析和处理的基础是完善的云基础架构,主要包括大数据存储和大数据分析两个平台。

EMC大数据存储平台的两大支柱产品是Isilon集群NAS以及Atmos海量智能存储。Isilon集群NAS是EMC两年前收购的产品,具有很强的横向扩展能力,使用起来非常方便。目前,Isilon集群NAS被用于许多云存储的项目。Atmos海量智能存储可以很好地支持分布式大数据计算。许多电信运营商基于Atmos构建了公有云系统,其部署非常简单,而且性价比很高。

EMC的大数据解决方案分成纯软件和软硬件一体两种。Isilon集群NAS与Greenplum软件组成了一体化解决方案。蔡汉辉介绍说:“Isilon集群NAS目前主要作为大数据存储平台,可与Greenplum、Hadoop结合,但同时也会兼顾传统存储应用。为了更好地支持大数据和云服务,Isilon集群NAS在今年底还会开放API,让更多第三方的厂商能基于Isilon集群NAS平台进行开发。”

EMC大数据分析平台的核心是两年前收购得来的Greenplum的产品,主要包括Greenplum Database(支持结构化数据库)和Greenplum HD(支持Hadoop)。蔡汉辉介绍说:“Greenplum大数据分析平台可以实时处理任何来源的数据,包括结构化、半结构化和非结构化的数据。Greenplum不仅可以处理PB级的数据,而且处理速度可以达到10TB/h。”

第二关:实现社交化服务

构建高性能、可靠、灵活的大数据分析平台是第一步,接下来,用户要构建数据处理的协作平台,建立自助服务的环境。EMC把这个阶段称为社交化阶段。

2012年3月,EMC了首个用于大数据的社交工具集Greenplum Chorus,使得数据科学家可以通过类似Facebook的社交方式进行协作。Greenplum Chorus是EMC中国研发团队主导开发的产品。Greenplum Chorus基于开放的架构,是一个用于数据挖掘和协作分析的流程平台。Greenplum Chorus包括数据探索、个人项目工作空间(又称个人沙盒)、数据分析和几个主要环节。

Greenplum Chorus开发主管庄富任介绍了Greenplum Chorus的工作流程:Greenplum Chorus提供了强大的搜索引擎,可以快速寻找到数据,并将这些数据进行关联,从而实现数据采集的可视化;采集来的数据被放到个人沙盒中进行处理,这个处理过程不会影响整个数据库的运行;在协作分析阶段,数据分析人员可以共享工作空间、代码,协同工作兼具灵活性和安全性;最后,相关的处理结果被出来。上述处理过程将循环往复。

Greenplum Chorus未来将走向开源。EMC已经了一个名为OpenChorus的计划,其目标是促进技术创新,同时促进那些运行在Greenplum Chorus平台上的协作的、社交化的数据应用的普及。2012年下半年,EMC还将公布Greenplum Chorus源代码,让更多人加入到Greenplum Chorus阵营中来。

第三关:敏捷开发服务

大数据处理的第三个阶段就是构建一个敏捷的开发环境,用于实时决策,并且更好地支持大数据应用程序。

从形式上看,传统的大数据方案包括打包方案和定制化开发两种。打包方案具有高效率、低成本的优势,但是需要精确的数据模型。定制化开发可以实现应用的创新,但是实施起来难度大,周期长,而且价格昂贵。EMC希望为用户提供一种敏捷开发的方式,在充分发挥上述两种方案优势的同时弥补其不足。为此,2012年3月,EMC收购了Pivotal Labs公司。Pivotal Labs是一家私营的敏捷软件开发服务和工具提供商。

篇3

大数据分析技术给信息安全领域带来了全新的解决方案,但是如同其它领域一样,大数据的功效并非简单地采集数据,而是需要资源的投入,系统的建设,科学的分析。Gartner在2013年的报告中指出,大数据技术作为未来信息架构发展的十大趋势之首,具有数据量大、种类繁多、速度快、价值密度低等特点。将大数据技术应用与信息安全领域可实现容量大、成本低、效率高的安全分析能力。

1.1信息安全分析引入大数据的必要性

大数据具有“4V”的特点:Volume、Variety、Velocity和Value,可实现大容量、低成本、高效率的信息安全分析能力,能够满足安全数据的处理和分析要求,将大数据应用于信息安全领域能够有效的识别各种攻击行为或安全事件,具有重大的研究意义和实用价值。随着企业规模的增大和安全设备的增加,信息安全分析的数据量呈指数级增长。数据源丰富、数据种类多、数据分析维度广;同时,数据生成的速度更快,对信息安全分析应答能力要求也相应增长。传统信息安全分析主要基于流量和日志两大类数据,并与资产、业务行为、外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web安全分析等;基于日志的安全分析应用主要包括安全审计、主机入侵检测等。将大数据分析技术引入到信息安全分析中,就是将分散的安全数据整合起来,通过高效的采集、存储、检索和分析,利用多阶段、多层面的关联分析以及异常行为分类预测模型,有效的发现APT攻击、数据泄露、DDoS攻击、骚扰诈骗、垃圾信息等,提升安全防御的主动性。而且,大数据分析涉及的数据更加全面,主要包括应用场景自身产生的数据、通过某种活动或内容“创建”出来的数据、相关背景数据及上下文关联数据等。如何高效合理的处理和分析这些数据是安全大数据技术应当研究的问题。

1.2安全大数据分析方法

安全大数据分析的核心思想是基于网络异常行为分析,通过对海量数据处理及学习建模,从海量数据中找出异常行为和相关特征;针对不同安全场景设计针对性的关联分析方法,发挥大数据存储和分析的优势,从丰富的数据源中进行深度挖掘,进而挖掘出安全问题。安全大数据分析主要包括安全数据采集、存储、检索和安全数据的智能分析。(1)安全数据采集、存储和检索:基于大数据采集、存储、检索等技术,可以从根本上提升安全数据分析的效率。采集多种类型的数据,如业务数据、流量数据、安全设备日志数据及舆情数据等。针对不同的数据采用特定的采集方式,提升采集效率。针对日志信息可采用Chukwa、Flume、Scribe等工具;针对流量数据可采用流量景象方法,并使用Storm和Spark技术对数据进行存储和分析;针对格式固定的业务数据,可使用HBase、GBase等列式存储机制,通过MapReduce和Hive等分析方法,可以实时的对数据进行检索,大大提升数据处理效率。(2)安全数据的智能分析:并行存储和NoSQL数据库提升了数据分析和查询的效率,从海量数据中精确地挖掘安全问题还需要智能化的分析工具,主要包括ETL(如预处理)、统计建模工具(如回归分析、时间序列预测、多元统计分析理论)、机器学习工具(如贝叶斯网络、逻辑回归、决策树、随机森利)、社交网络工具(如关联分析、隐马尔可夫模型、条件随机场)等。常用的大数据分析思路有先验分析方法、分类预测分析方法、概率图模型、关联分析方法等。可使用Mahout和MLlib等分析工具对数据进行挖掘分析。综上,一个完备的安全大数据分析平台应自下而上分为数据采集层、大数据存储层、数据挖掘分析层、可视化展示层。主要通过数据流、日志、业务数据、情报信息等多源异构数据进行分布式融合分析,针对不同场景搭建分析模型,最终实现信息安全的可管可控,展现整体安全态势。

2安全大数据分析的典型应用

2.1基于用户行为的不良信息治理

中国移动开展了基于大数据的不良信息治理工作,主要针对垃圾短信和骚扰诈骗电话开展基于异常行为的大数据分析。通过开源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大数据分析平台,采集用户的行为数据,构建用户行为分析模型;分别提出了异常行为分类预测模型、统计预测分析模型、社交网络分析模型等,将用户的行为数据输入到模型中,可以精准地挖掘出违规电话号码,并且发现违规号码与正常号码之间存在大量相异的行为特征。通过用户的行为,构建多维度的用户画像数据库,支撑全方位的大数据不良信息治理服务,支撑大数据不良内容的智能识别等。实践表明,大数据分析技术能够挖掘出更多潜在的违规号码,是对现有系统的有效补充。除此之外,中国移动还将大数据技术应用在安全态势感知、手机恶意软件检测和钓鱼网站的分析中,提升了现有系统的分析能力。

2.2基于网络流量的大数据分析

在互联网出口进行旁路流量监控,使用Hadoop存储及Storm、Spark流分析技术,通过大数据分析技术梳理业务数据,深度分析所面临的安全风险。主要分析思路是采集Netflow原始数据、路由器配置数据、僵木蠕检测事件、恶意URL事件等信息,采用多维度分析、行为模式分析、指纹分析、孤立点分析及协议还原等方法,进行Web漏洞挖掘、CC攻击检测、可疑扫描、异常Bot行为、APT攻击、DDoS攻击挖掘等分析。

2.3基于安全日志的大数据分析

基于安全日志的大数据分析思路主要是融合多种安全日志,进行数据融合关联分析,构建异常行为模型,来挖掘违规安全事件。主要的安全日志包含Web日志、IDS设备日志、Web攻击日志、IDC日志、主机服务器日志、数据库日志、网管日志、DNS日志及防火墙日志等,通过规则关联分析、攻击行为挖掘、情景关联分析、历史溯源等方法,来分析Web攻击行为、Sql注入、敏感信息泄露、数据分组下载传输、跨站漏洞、尝试口令破解攻击等应用场景。基于安全日志的大数据分析已经在国际上有广泛的应用。如IBMQRadar应用整合分散在网络各处的数千个设备端点和应用中的日志源事件数据,并将原始安全数据进行标准化,以区别威胁和错误判断;IBMQRadar还可以与IBMThreatIntelligence一起使用,提供潜在恶意IP地址列表,包括恶意主机、垃圾邮件和其它威胁等;IBMQradar还可以将系统漏洞与事件和网络数据相关联,划分安全性事件的优先级等。ZettaSet海量事件数据仓库来分析网络中的安全漏洞和恶意攻击;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全数据仓库)。Orchestrator是端到端的Hadoop管理产品,支持多个Hadoop分布;SDW是构建在Hadoop的基础上,并且基于Hive分布式存储。SDW于2011年BlackHat网络安全会议面世,SDW可从网络防火墙、安全设备、网站流量、业务流程以及其它事务中挖掘安全信息,确定并阻止安全性威胁。处理的数据质量和分析的事件数量比传统SIEM多;对于一个月的数据负载,传统SIEM搜索需要20~60min,Hive运行查询只需1min左右。

2.4基于DNS的安全大数据分析

基于DNS的安全大数据分析通过对DNS系统的实时流量、日志进行大数据分析,对DNS流量的静态及动态特征进行建模,提取DNS报文特征:DNS分组长、DNS响应时间、发送频率、域名归属地离散度、解析IP离散度、递归路径、域名生存周期等;基于DNS报文特征,构建异常行为模型,来检测针对DNS系统的各类流量攻击(如DNS劫持、DNS拒绝服务攻击、DNS分组异常、DNS放大攻击等)及恶意域名、钓鱼网站域名等。

2.5APT攻击大数据分析

高级可持续性威胁(APT)攻击通过周密的策划与实施,针对特定对象进行长期的、有计划的攻击,具有高度隐蔽性、潜伏期长、攻击路径和渠道不确定等特征。现已成为信息安全保障领域的巨大威胁。“震网”潜伏3年,造成伊朗纳坦兹核电站上千台铀浓缩离心机故障。收集业务系统流量、Web访问日志、数据日志、资产库及Web渗透知识库等,提取系统指纹、攻击种类、攻击时间、黑客关注度、攻击手段类型、行为历史等事件特征,再基于大数据机器学习方法,发现Web渗透行为、追溯攻击源、分析系统脆弱性,加强事中环节的威胁感知能力,同时支撑调查取证。

3总结

篇4

关键词:大数据时代;大数据;统计学;数据分析

引言:

目前阶段,在计算机处理技术不断发展的背景下,在对规模较大并且较为复杂的数据进行处理过程中,人们已经逐渐掌握了方法与技能,并且能够在大规模的数据中找出具有一定价值的信息,所以,大数据时代已经来临。在数据时代中,在人文社科与人类自然科学技术等方面都会有较大的发展,同时也会一定程度上改变人们的生活与工作方式。除此之外,大数据时代也同样为统计学提供了良好的发展机会,但也存在一定的挑战。

一、大数据时代的概念

大数据时代的提出者是麦肯锡,他认为数据已经逐渐进入到各个行业与各业务职能的领域中,并且逐渐成为了主要的生产因素[1]。因此,人们在对大规模数据进行挖掘与应用的过程,也就意味着新的生产率增长的来临。虽然“大数据”在众多行业被广泛应用,但是,特别是在信息与互联网的领域中应用突出。

二、怎样理解大数据

(一)大数据概念界定与构成

大数据,即由于日常产生的数据量快速增长,使得数据库无法利用相应的管理工具对其进行管理与收集,最终导致在进行搜索、分析、存取、共享数据时具有较大的困难。

大数据的构成包括四部分,并将其总结为4V,即Volume,Variety,Value,Velocity[2]。第一部分是价值密度低,将视频作为具体实例来说,实现连续并且不间断的监控,其中有价值的数据信息只有一两秒。第二部分是数据体量极大,已经从TB实现了PB的跃升。第三部分是数据类型众多,主要包括视频、图片、网络日志以及地理信息等。第四部分是处理的速度超快,可以用一秒定律来解释。

(二)海量数据带来哪些挑战

第一,数据存储。由于大数据的数据规模是PB级别,所以,存储的系统也需要进行等级的拓展,并且可以通过磁盘柜或者是增加模块实现容量的增加。然而,目前阶段,数据的增长速度惊人,所以系统资源的消耗也不断增加,导致系统的运行效率有所下降[3]。因为对海量数据始终停留在分布式的存储阶段,所以,对于爆炸式的数据增长,原有的存储方案已经无法满足现有的数据变化需求。

第二,处理技术。由于海量数据的分布性与数据量与以往存在较大的差异,所以,原有的数据管理技术已经处于落后状态。

第三,数据安全。在互联网规模逐渐扩大的情况下,数据的应用已经出现指数级别的增长,所以,对于数据安全的保护与监控来说具有一定的难度。

(三)大数据相关应用与实践

第一,体育赛事应用。以2014年的世界杯为例,在充分发挥记者与编辑敏锐度的基础上,腾讯也利用对大数据的分析以及云计算等方式来为为其提供移动与社交的数据。与此同时,腾讯与IBM进行合作,并通过文化、赛事与球迷三方面来对世界杯球迷的关注重点进行信息的挖掘,进而实现新栏目的创作,并且在短时间内赢得了广大球迷的认可与关注。

第二,产品推荐应用。产品推荐的应用比较广泛,可以对客户信息、交易历史、购买过程等数据进行全面的分析,并进行有价值信息的挖掘。同时,针对同一产品的不同客户访问信息也可以进行挖掘。最终,通过对客户行为的分析,来确定消费者的共,这样就可以更好的为客户推荐产品。

除此之外,在产品推荐中,可以在对客户社交行为进行信息挖掘与分析的基础上来进行社区的营销。对客户微信微博以及社区活动中的偏好数据进行分析,并为其提供符合客户兴趣爱好的产品。

图一

三、如何分析大数据

(一)如何挖掘数据中价值

以匹配广告为具体事例进行分析,主要有两种数据。第一种是广告库,其中包括广告库以及广告的客户信息[4]。但是这种数据信息比较适合在传统数据库中应用。第二种是用户在观看广告后的行为。可以把以上两种数据进行有效的结合,并通过相应的算法来体现价值。在实践应用过程中,可以充分体会到第二种信息的重要作用。可以为用户提供其所需的信息,并通过群体智能以及群体行为对之前用户使用的效果进行分析,最终通过具体的反馈机制,将最优质的信息提供给用户,还可以进行搜索或者是查询信息。

(二)如何做处理与分析

第一,更新抽样调查的工作理念。由于大数据时代的数据样本是以往资料综合,所以,可以对相关事务的数据信息进行分析,进一步对总体进行了解,还可以更好的了解局部。同时需要解决以下问题:抽样框架不稳定,调查目的设定不合理、样本量受限[5]。第二,积极改变对于数据精确度的标准。在大数据时代的背景下,数据的来源比较广泛,并且对数据进行处理的技术也有所提高,所以,可以允许数据存在不准确的情况。大数据时代需要吸收多种数据,但并需要一味的要求数据精准。第三,合理转变数据关系的分析重点。由于大数据时代的数据规模比较大,而且结构也十分复杂,变量的关系也比较繁杂。所以,在对数据进行分析的过程中,不应该对因果关系进行仔细的分析,而重要的是对事物相关的关系进行分析。需要转换思路,对事物关系的形式与目的进行详细的分析。

四、 大数据对统计学科和统计研究工作的影响

(一) 拓展统计学研究领域

因为大数据时代的到来,所以会对各个领域产生一定的影响,同样给统计学带来影响。在统计学中,其主要的研究对象就是其所要认识的客体,是客观存在事物自身的数量特征与关系。其中,统计学研究对象最主要的特点就是数量性。然而,在传统的统计学当中,数据主要是试验与调查的数值。在大数据时代中,统计研究的对象不仅包括以结构数据度量的数量,此外,还可以包括一些无法用数量关系进行衡量的半结构与非结构数据,其中可以包括动画、图片、声音、文本等等[6]。所以,可以说,在大数据时代背景下,统计学的研究对象领域有所扩大。

(二) 对统计计算规范产生影响

在传统的统计学当中,一般是使用方差、平均数以及相对数等数据计算规范来真实反映事物量特征的,同时还可以反映事物量的关系与界限,能够通过数据计算规范来计算出具体的数值。但是,半结构与非结构的数据是无法通过传统数据计算规范进行计算的[7]。所以,在大数据时代的背景下,传统的数据计算规范也同样遇到了难题。

(三) 对统计研究工作的过程产生影响

1. 数据整理和分析

第一,数据审核。原有的数据审核主要的目的就是对数据准确性和完整性进行严格的检查。但是,在大数据的时代中,对数据的审核就必须要确保数据处理的速度以及预测的准确程度,同时还需要对数处理的规模进行准确的确定,也就是数据量级别的确定。除此之外,因为大数据自身具有不稳定性,并且十分混乱。但是,即使是这样,大数据也能够挖掘出信息内部存在的隐蔽关系以及有价值的知识。所以,大数据所反映的研究对象存在准确与不准确两种,但是,任何一种的数据都具有一定的价值,通常情况下是不需要进行替换或者是删除的[8]。

第二,数据存储。在以往的数据存储中,审核、汇总以及编制的图表等资料是重点资料,并且需要进行保存起来的。然而,大数据保存最主要的目的就是对存储的成本进行有效的控制,同时需要根据相应的法规计划来确定数据存储的规模。

2. 数据积累、开发与应用

第一,数据积累。传统统计工作主要是根据所制定的研究目的来对数据进行汇总与分类,并进行保存,这样可以更好的为后期数据的分析与查询提供有利的条件。但是,在大数据的积累中,具有价值的信息需要对大数据进行处理后才可以发现。不容置疑,大数据具有一定的复杂性,所以,在积累的过程中,不可以进行简单的处理。因为大数据的规模大,结构也比较复杂,无法实现简单的分类,而且,在对大数据进行简单整理时非常容易使其混乱,对其真实性产生影响,可能会丢失具有价值的信息。

第二,数据开发。大数据时代下的数据流动性极强,所以,其自身的价值有再生性。因此,大数据时代的数据不会贬值,反而会增值。为了能够对所研究的对象进行更深入的了解,就需要对其整合。

第三,数据应用。对数据的传统应用主要是为了对现象进行解释与预测。但是,在大数据时代,数据应用的核心就是在相关关系前提下的预测。

结语

综上所述,现阶段我国社会正处于大数据时代,并且对于社会未来的发展具有重要的意义。文章对大数据时代的概念与定义以及构成进行了阐述与分析,同时,对大数据的实际应用与实践进行了探讨。针对大数据价值的挖掘与分析处理进行了研究,最后列举了大数据对统计学科以及统计研究工作的影响,进而对今后大数据的数据分析工作提供了有价值的理论依据,并积极的推动了大数据时代的发展,进一步促进了社会的进步。(作者单位:中国人民大学)

参考文献:

[1]朱建平,章贵军,刘晓葳等.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-19.

[2]张学敏.大数据时代的数据分析[J].电子世界,2014(16):5-5,6.

[3]李祥歌,王奇奇,郭轶博等.基于大数据时代的数据挖掘及分析[J].电子制作,2015(3):81-81.

[4]刘江娜.大数据时代:为什么数据分析能让你的企业脱颖而出[J].环球市场信息导报,2014(36):92-93.

[5]郭华庚,向礼花.大数据时代网络信息归档的元数据分析[J].贵州师范学院学报,2015,31(3):24-28.

[6]高书国.大数据时代的数据困惑――教育研究的数据困境[J].教育科学研究,2015(1):24-30.

篇5

一、大数据分析的概念及内涵

伴随着互联网、物联网、电子商务、社交网等网络信息化技术的逐步推广与应用,社会各行各业中在多年以来的信息化进程中,均积累了大量的数据信息,而这些数据信息在近年来仍呈现出涌喷的增长态势。而与此同时,数据的形态也发生了巨大的改变,以往的格式化数据正逐步过渡到格式化与非格式化数据(如图像数据、视频数据等)共存的时代。各类数据源的每天生成并传输到云计算平台,以供前端数据挖掘、数据分析、模型建设及数据可视化展现应用,从而为社会各行各业提供综合。可以说,社会的发展真正进入了让数据说话的时代,即大数据时代。

大数据分析,即是各类数据进行有效分析的技术与措施。由于在大数据时代,数据信息往往呈现出数据量大(Volume)、速度快(Velocity)、类型复杂(Variety)、价值密度低(Value)这4V特点,如何在规模巨大、成分复杂的数据源中挖掘出对企业有用的信息,并在最短内做出有效分析,将是大数据时代企业所要进行的一项核心工作。

二、构建会计大数据分析型企业的意义

数据的真正价值在于发现隐藏在数据背后的信息。因此,在大数据时代,对企业会计数据的有效分析与利用,将成为所有企业共同竞争的核心。通过构建会计大数据分析型企业,不仅能使企业会计成本得到量化,而且能有效促进企业经营管理水平的进一步提升。

1.改变企业传统的运营与管理模式

会计大数据分析型企业的构建,以商业智能技术作为企业的决策中心与神经系统,通过对企业各类数据的充分挖掘与分析,从而实现企业管理流程的优化与改良,使原本经验式或粗放式的管理的逐步转变为数据驱动和精细化的管理模式。

例如,企业的贷款经营管理,通过收集到足够的贷款数据,并以此建立模型进行综合分析,可以有效评估贷款的风险,实现授信和定价的指导,以及放贷的批量化自动审批。这种企业数据化分析与管理模式的构建,不仅能最大程度的降低企业的经营成本,而且能提高放贷的效率性,使企业能很好的维持盈利水平。

2.推动企业市场竞争的深度与广度

会计大数据分析型企业的构建,有利于企业内部管理与外部营销的创新。对企业内部管理而言,通过对自身会计数据的有效分析,可以优化各个运营环节,并辅助决策,从而激发出企业业务流程中的潜在价值,进而降低运营成本,提高管理水平与运营效率;对企业外部营销而言,企业可以通过对海量、精准客户数据的有效分析,或者借助于第三方数据分析平台,以进一步了解客户的消费行为与消费方式,从而预测销售,实现精准营销模式与互动营销模式,进而提高企业外部营销的科学性与有效性。近年来,在各个行业中都出现了以数据挖掘和数据分析,作为自身市场竞争优势的企业,例如谷歌、海尔、宝洁等企业,它们都将自身的成功归结于对企业内外部大量数据分析的有效应用。

三、会计大数据分析型企业的构建思路

会计大数据分析性企业的数据平台建设,主要是依托于商业智能技术,通过收集大量的会计数据原始资料,并借助商业智能化工具实现对海量会计数据的分析报告、数据查询、在线分析处理、报表生成以及数据可视化等服务。整个会计数据分析共享平台的逻辑架构图,见下图所示:

1.平台总体架构

如上图所示,整个平台的逻辑架构分为了数据源层、数据管理层和数据应用层。其中,数据源层是企业各类会计数据的收集源头,各类会计数据通过“ETL过程”进行抽取、转换、过滤和加载到数据共享分析平台的数据仓库中,以保障数据收集的质量;数据管理层,则是企业会计数据进行存储、交互处理和分析的核心层,它借助于数据分析共享平台的数据仓库为数据应用层提供高质量和有效的数据需求;数据应用层,则是会计数据在企业各项经营管理层面中发挥真正价值的地方,企业的多项业务通过“模型应用”、“数据挖掘”、“报表应用”、“管理驾驶舱”、“即席分析与查询”等功能实现企业各种业务的数据应用。

2.ETL过程

ETL(Extraction Transformation Load)过程,是实现对数据源层中各类会计数据处理的一个动态过程。企业可通过选择适宜的 ETL工具,以提高数据处理的效率。目前,最为主流的ETL数据处理工具有:Ascential公司的DataStage工具、Informatica公司的Powercenter、NCR公司的ETL Automation、SAS等等。通过ETL过程,可以将满足企业各类业务需求的数据装载到目标数据仓库系统。

3.目标数据仓库系统

数据仓库(Data Warehouse),是指适应企业会计数据决策分析的需求,而进行建设的数据库应用技术,它与传统的数据库技术有较大的差别。数据库技术只是数据库仓库系统的基础,数据仓库是一个直接面向主体的、集成的、非易失的、随时间变化的和用于企业战略决策的数据集合。

当前,目标数据仓库技术已成为了会计大数据分析性企业由数据到知识,再由知识转换为利润的核心技术。近年来,随着目标数据仓库应用的日益成熟,我国许多行业中都纷纷建立了自身的数据仓库,在银行、保险、电信等行业中都得到了很好的应用。数据仓库技术正逐渐成为21世纪企业信息化发展的核心技术。

4.数据应用层的功能实现

(1)模型应用。数据模型可以通过一系列科学标准的建模过程,以有效的对企业会计数据特征进行抽象,从而获取关键信息与指标。模型应用的重点是预测未来,它主要基于企业历史会计数据,开发各种预测模型,对企业客户和业务的未来发展作出预测,从而对设计和策略方案进一步优化,进而实现企业未来效益的最优化。

(2)数据挖掘。数据挖掘是从大量数据中自动搜索隐藏于其中的具有价值信息的过程。数据挖掘功能的实现,主要是借助于数据库技术、通信技术、人工智能技术、模式识别技术等多种新兴技术对海量数据进行提取与分析。目前,最为流行的三大数据挖掘工具是SAS公司的SAS/EM,IBM公司的Intelligent Miner和SPSS公司的Clementine。

(3)报表应用。报表应用技术是利用会计数据信息,对企业历史经营状况进行回顾与总结。报表应用技术还可细分为常规报表与即席查询这两个部分,常用的报表工具有:IBM公司的Cogonos、SAS公司的PORTAL等。

(4)管理驾驶舱。管理驾驶舱技术,是帮助企业管理层能的了解到数据背后的信息,实现将报表、分析层指标等数据信息的动态形象、交互界面以友好的方式呈现为管理层,从而帮助管理层能快速掌握企业各项经营的指标状况,为企业未来经营的合理决策与风险评估提供信息依据。

(5)即席分析与查询。即席分析与查询功能,是一个面向数据库的应用,它主要用于企业会计业务信息查询和报表生成,也能够为企业会计数据分析提供一个高性能和高效率的查询系统。

篇6

亿联国科的BigBase数据库在3月30日举行的2012第五届中国数据中心大会上被评为2012年度中国优秀大数据分析平台。BigBase是为了满足云计算时代海量数据在线分析应用的迫切需求,由亿联国科打造的中国首款拥有自主知识产权的基于NoSQL技术的商用大数据在线分析系统。BigBase是一个适用于超大规模结构化数据存储和在线分析的专业化系统。该产品针对中国传统行业的实际需求进行了大量技术创新,可以有效降低各种大数据处理应用的技术门槛,节省人力和财力,为各类企业和政府部门提供海量数据在线分析的能力。

目前,BigBase系统已成功应用于电子商务、通信、互联网、物联网等相关企业。作为一款适用于大规模结构化数据存储和在线分析的新型数据库,BigBase主要适用于三个方面的应用:一是大规模的数据库应用,当数据库中一个单表的记录大于1亿条时,必须使用类似BigBase的新型数据平台;二是高流量的应用,大量的流式数据要高速地写入到系统中; 三是应用于在线分析,要求实时获得查询结果,同时还要满足多个用户的并发查询需求。

BigBase的出现成功地解决了传统数据库遇到海量日志类数据分析时无能为力的问题。BigBase在设计上不同于传统的关系型数据库,而是属于典型的NoSQL数据库。与所有NoSQL数据库一样,BigBase主要用于对数据的高并发读写和海量数据的存储。BigBase在架构和数据模型方面进行了简化,同时增强了系统的扩展能力和并发能力。

与绝大多数NoSQL数据库不同,BigBase还拥有自己独特的优势,主要包括以下四方面:第一,具有高吞吐率,数据写入速度达到每台服务器每秒100万条记录以上,比传统关系型数据库的速度快100倍以上,数据查询时间为毫秒级;第二,可以实现服务端的计算,提供NoSQL数据所不具备的区间查询以及服务端统计计算能力;第三,具有更高的数据压缩率;第四,实现了软硬件一体化,通过专用的服务器硬件和数据压缩技术,可以更大程度地提高系统的处理性能。

BigBase已经成为海量数据在线分析的利器。目前,大数据的商业价值逐渐受到用户的肯定。传统商业智能系统中用于分析的数据,大多是企业自身信息系统所产生的标准化和结构化的运营数据,这些数据只占企业所能获取数据的不足15%。另外85%的非结构性和半结构性数据广泛存在于社交网络、物联网、移动计算、传感器和电子商务等媒介之中。企业如果能将这些新的数据与业务进行融合,那么依此做出的决策会更加准确。

篇7

关键词:城市交通;空气质量监测;移动物联;公共交通;大数据

空气质量监测作为促进经济社会绿色发展中的重要一环,以往的技术研究和应用大多存在固定监测站成本高、覆盖范围不全、难以实时反馈等问题[1]。目前,在大力推行清洁生产,发展循环经济的背景下,我国的城市空气质量虽有好转,但由于机动车的快速增加,尾气排放加剧,大气环境污染治理依旧严峻[2-3],亟需完善空气质量监测方法和机制,推进空气污染治理智能化进程。当前,国家在大多数城市布设或完善了颗粒物、气体监测设备,形成了国省控点结合的地面污染源检测网。然而,传统监测模式存在覆盖范围不大、数字化水平不高、监测与监管结合不紧密、监测数据质量有待提高等问题,且固定监测点成本投入较大、只能静态收集污染数据、不能实时掌握和反馈、日常维护复杂,难以满足大气污染治理的绿色发展需求[4]。由于交通工具的移动特性,若在交通工具上安装多种传感器,便能在城市中获取覆盖范围广,频率高的动态感知数据用以相关研究,弥补固定传感器静态感知的不足[1]。有研究指出可以通过可移动的传感器来感知城市空气质量[5-6],利用车辆的移动性来对城市的整体空气质量进行细粒度感知,弥补固定地面空气监测站的不足。然而,目前仍未见有系统的研究及规模应用。因此,面对我国空气污染的严峻形势,亟需采取新方法实现空气污染治理智能化,并进行应用实践。基于此,本文开展了基于移动物联的空气质量监测大数据融合分析应用研究。利用公交系统覆盖范围广,运行轨迹、时间和发班间隔稳定的特点,在公交车辆上搭载移动空气质量监测设备实时采集PM2.5、PM10等空气污染物监测数据,并与车辆定位等数据进行融合,对各污染物进行动态监测,全面掌握路段区域空气质量污染的时空差异性,快速识别出污染因子,掌握其扩散与传播机理,并在广州市进行实践应用,助力空气治理智能化、数字化转型。

1研究框架概述

研究技术框架主要包括四个部分:①数据采集。通过安装在公交车上的车载移动式空气微型监测传感器,实时采集大气环境中的PM2.5、PM10等信息,车载GPS定位器可实时采集车辆的GPS位置信息,摄像头可以采集车辆运行时的环境视频数据。②数据传输。本研究采用标准的环保部通讯规范协议,将实时采集到的PM2.5、PM10、车载GPS数据,视频数据传输至网格化在线监测系统软件平台。③数据分析。基于多源大数据融合分析,提供实时、准确、可视的管理决策依据,支撑政府环保部门对空气质量的监测和分析挖掘,可指导提出有效的整改措施,实现治理工作的全面协同和问题的高效办理,使空气污染治理更加精细化、智能化,促进降本增效。④信息。应用可在公交车载屏幕上展示监测信息,为乘客提供实时空气质量信息服务,也可以通过手机APP移动端向市民空气质量相关信息。研究的整体框架图如图1。本文充分利用现有公共交通资源搭载移动式空气微型监测站,既能有效降低建设和维护成本,又弥补了固定监测点覆盖面不广的短板。通过固定与移动监测的动静结合,使两种监测方式采集的数据相互补充,相互校准,真正实现空气污染的全面监测。同时,在数据分析过程中,有效地融合多源数据,有助于实现空气监测区域化、精准化、智能化,减少人力巡查和治理投入。

2监测原理及设备安装布点选线

2.1监测原理

本文采用激光光散射法原对空气质量进行监测。监测传感器主要由激光源、测量腔、透镜组、光检测器、滤波放大电路、微处理器元器件等组成,工作时,由激光源发出的激光通过透镜组形成一个薄层面光源。当其照射在由气流吹入测量腔内的气溶胶时,会产生散射光。散射光经过透镜组再照射到光检测器上面时,会产生电信号,经过放大电路生成模拟信号,得到散射光强度的变化曲线。微处理器可基于米氏理论算法,得到颗粒物的等效粒径和颗粒数量,从而输出结果。作为传感器的载体,公交车辆具有以下特性:①行驶时间一般为6:00-22:00,可满足对空气质量监测的时间段要求;②运行轨迹固定,能够满足对特定路线和区域进行持续监测的需求;③公交车辆发班间隔时间一般不超过15分钟,可满足对空气监测的频次要求;④公交线路覆盖范围广,可以监测城市大部分区域内的空气质量水平。在公交车辆运行时,通过安装在公交车上的传感器,可实现对空气中PM2.5,PM10等污染物数据的采集,同时,车载GPS和摄像头等设备可实时采集公交车辆运行的位置和环境视频等数据,为空气质量监测大数据融合分析提供基础。

2.2监测设备安装与布点选线

2.2.1监测设备安装选择合适线路的公交车辆安装数据采集设备。采用车顶安装方式,利用设备底部的强力磁铁,无需对车体进行改装,直接放置即可与车顶牢固连接在一起。车载微站主机安装在公交车前端应急逃生口后侧,将主机磁体部分向下吸附在安装车辆车顶即可,主机电源线顺延车顶至公交车前门防水刷处,线缆加套波纹管并使用玻璃胶固定,可防止因为长时间暴晒造成线缆老化。使用玻璃胶对波纹管进行固定,可防止在车辆形成过程中造成不必要的刮蹭。2.2.2监测布点选线试点应用城市此前所使用的空气质量监测手段主要为地面固定监测站,存在成本投入高、难以实时跟踪污染情况等短板[15]。为了满足更高的环境治理要求,有必要采用更加科学、高效且经济的监测方式。基于重点监测区域和最大化覆盖范围原则,选择合适的公交线路。根据公交线路分布情况,共选择21条线路,225台公交车辆,监测范围覆盖10个国控站点,确定研究应用试点范围,数据采集时间段为每天6:00-22:00及政府环保部门指定的其他时间段。

3研究应用场景

通过数据采集、挖掘分析,可实现空气质量动态监测和智能决策治理。具体研究应用场景如下:

3.1多源大数据融合的实时监控

融合车载GPS数据以及实时采集到的PM2.5、PM10等污染物的含量数据,可形成带有每个路段,每种污染物实时污染程度的电子地图,形成实时路段热力图及三维热力图;融合车辆运行所采集到的视频数据和实时空气质量数据,可以迅速定位污染源,初步确定污染原因,如道路施工扬尘,工厂工业气体排放等。

3.2污染因子识别

实现各污染物多时空维度的实时动态监测和分析,能够全面掌握路段区域空气质量污染的时空差异性。通过多维时空交叉统计分析,快速识别出污染因子。(图2)

3.3数据存储与动态分析预测

对至少1年的实时数据及至少3年的平均数据(包括车辆卫星定位、视频监控、空气质量等)进行存储,根据路段及时间对数据进行统计分析,供用户可视化查询。此外,可对监测数据的变化趋势进行动态分析、预测,并叠加历史数据进行综合对比分析,提供可视化界面供用户查询。

3.4大数据驱动的智能化闭环治理设定

PM2.5、PM10等污染物的浓度预警限值,实时动态告警。同时,基于公交车辆运行的规律性,可对指定监测区域或时段进行重点监测。通过挖掘监测大数据价值,掌握污染源的时空分布规律,快速锁定污染源位置及传输方向。通过多维度智能分析,支撑提出有针对性的治理手段,跟踪反馈治理效果,形成闭环。

3.5基于移动物联的多源信息服务

将空气质量监测采集数据与车载数据进行融合,实现信息交互,可在公交车载屏幕上展示监测信息,为乘客提供实时信息服务,也可通过手机APP移动端向市民空气质量相关信息,提高公众环保参与意识,促进经济社会绿色健康发展。

4结束语

篇8

当一家企业的推销员拿着产品挨家挨户推销时,另一家同类产品企业足不出户,就已通过互联网采集到大量的数据,并对海量的碎片化数据进行深挖和分析,从而为客户提供更好的服务。

后者采用的方式正属于“大数据分析”的范畴。作为国内领先的数据分析公司,国双科技在此领域已深耕数年。其年轻的创始人、CEO祁国晟接受《财经界》记者采访时表示,相对于传统的线下营销,大数据分析能更精准、快速地从海量数据中挖掘出有效的价值,并可以直观明了的方式度量结果。

不过,他同时坦言,作为一个新兴领域,受安全、人才等因素的影响,大数据分析还有待市场的进一步认可。

“大数据推动快速发展”

国双科技是从2005年开始做数据生意的。“当时还不叫‘大数据’,也没有‘云计算’的说法,业内的普遍观点是通过互联网提供软件服务,叫做SaaS(软件即服务)。”祁国晟说。

谈到大数据,祁国晟认为这是一个相对的概念,“大数据不是单纯说数据量有多大,它至少包含了三方面的要求:数据量大、对于数据的分析深度要求高、时效要求快。当这三个问题摆在一起,而传统的IT不能解决的话,这就是一个大数据问题。”这个概念是近两年才热起来的,一经提出,迅速被IT和互联网行业广泛认同;对大数据进行有效分析和应用能够为组织带来价值,很快成为共识。

国双科技数年前就开始向客户提供“数据分析”相关的服务,涉及电子政务咨询、运营商数据分析、网络电视台解决方案、搜索引擎营销、广告效果量化、用户体验优化、移动应用解决方案等,“我们已经服务了数百家企业和政府机构,核心技术现如今已覆盖到网站、移动APP、互联网电视等多领域的数据分析,并通过结合整合营销方案AdSuite、SEO(搜索引擎优化)、SEM(搜索引擎营销)、UEO(用户体验优化)提供给客户。”祁国晟介绍说。

经过几年的技术和数据积累,加上“大数据”概念在国内的走热,祁国晟专注的数据生意开始释放能量。据悉,2011年,国双科技实现销售收入增长10倍以上,2012年同样保持着这样的增长态势。就在最近,国双科技入选“2013 德勤高科技、高成长中国50强”榜单。

在祁国晟看来,国双科技得到快速发展是必然的,因为不仅公司有技术创新,市场也有“刚性”需求。互联网的超高速发展,带动数据量急速膨胀,即使硬件一步一步升级,数据处理的速度也赶不上数据产生的速度;即使用户可以从一些现有数据库厂商那里买来解决方案,也解决不了用户对数据挖掘的深度和量级的需求。

而从国际上来看,大数据分析也在成为大企业的“制胜法宝”。比如,沃尔玛“顾问式营销”就是以大数据为支撑。在其全球的任何一个卖场,顾客购买任何一件产品,其购物信息都会即时传送到沃尔玛的企业级数据仓库,并实时地进行分析,并及时挖掘到也许连顾客自己都不清楚的潜在购物需求。日本服装品牌优衣库也通过对销售的每一件服装的相关数据进行分析,并根据其结果来进行新品设计和生产,确保其深得世界各地用户的喜爱。

同时,数据分析不受行业的限制。“我们的用户已涵盖汽车、食品、快消、旅游、金融等各个行业。”祁国晟说。

市场有待进一步拓展

然而,从目前国内外大数据营销市场情况看,热衷于此的似乎都是上规模、具有核心竞争力的大企业,中小企业较少问津。

国双科技的情况也是如此。这个成立仅8年的本土企业,服务的客户也“锁定”在规模相对较大的企业群,如中国人保财险、日产汽车、可口可乐、欧莱雅、央视国际、江苏卫视等。2012年3月,国双科技获得政府青睐,成为国家信息中心战略合作伙伴,双方共同成立了网络政府研究中心,为全国的政府网站提供技术与服务。

祁国晟表示:“大企业机构更成熟、架构更完善,对精细化运营的要求更高,需要很详细的数据分析和数据挖掘以降低成本。”

“而中小企业大多还处于跑马圈地的阶段,对他们来说,优先考虑的是如何发展,”祁国晟认为,“虽然有些中小企业在发展阶段对数据分析也有需求,但往往因为相关产品和服务费用较高而止步。”

“数据类人才短缺也是导致数据分析类产品和服务成本高的原因之一,”祁国晟说:“全球大数据行业都有这个问题,我国更加严重。”

因为缺少相关的技术人员,小企业即使有第三方数据公司提供的软件系统也无法很好使用,必然还需要相应的服务;而服务成本又因为人才短缺相对较高,所以,矛盾必然出现。

对于国双科技来说,人才同样是个头疼的问题。“我们需要高度复合型的人才,这样的人才在市场上比较少,需要很长时间的培训。因为缺人,我们有时候不得不放弃一些本来很优质的客户,” 祁国晟说:“我们宁可少做几个客户,也不能因为人手不足而降低服务质量。”

企业在委托第三方技术公司帮助其应用大数据方面,另一个担忧来自于对数据安全的顾虑。事实上,目前,数据安全威胁已经可以通过技术手段加以防范。“企业数据安全有关的技术已经很成熟,通过加装防火墙、密码保护、存储安全技术云计算等等多种IT手段,已经可以确保核心数据不被外泄或篡改。”

篇9

【关键词】大数据分析 公共交通 医药 移动通信

所谓大数据,一方面是指在一定时间内无法被常规信息技术和传统数据库管理软硬件工具感知、获取和处理的巨量数据集合;另一方面,是指形成、管理、挖掘大数据, 快速搜集、处理、分析大数据的技术和能力。

大数据的主要特点是海量、非结构化和半结构化、实时处理。大数据技术,或大数据分析技术,就是对这些数量巨大的海量数据进行搜索、整理、分析、加工,以便获得有价值的产品和服务,以及提炼出具有深刻见解和潜在价值信息的技术和手段。

1 大数据分析在公共交通中的应用

交通拥堵日益严重,交通事故频繁发生,这些都是各大城市亟待解决的问题,科学分析交通管理体系成为改善城市交通的关键所在。因此,高效、准确地获取交通数据是构建合理城市交通管理体系的前提,而这一难题可以通过大数据管理得到解决。

大数据分析技术改变了传统公共交通的路径:大数据可以跨越行政区域的限制;大数据可以高效地整合交通信息;大数据可以较好地配置公共交通资源;大数据可以促进公共交通均衡性发展。在大数据中,随着数据库摄入更多数据,所消耗的计算工作量反而递减,配置成本也随之减小,但所做的计算则更加精准。大数据在公共交通中的应用表现在:一旦某个路段发生问题,能立刻从大数据中调出有用信息,确保交通的连贯性和持续性;另一方面,大数据具有较高预测能力,可降低误报和漏报的概率, 可随时针对公共交通的动态性给予实时监控。因此,在驾驶者无法预知交通拥堵的可能性时,大数据可帮助用户预先了解。

2 大数据分析在医药领域中的应用

在医学领域,我们正处在一医学信息爆炸的时代。基因序列、各种医学图像、电子病历记录和多中心临床药物试验等,使生物医学领域跨入网络化的大数据时代。如何从医疗大数据中提取出有用的信息是目前亟待解决的问题,构建医疗大数据系统需要将各家医院通过互联网连接,实现各家医院之间的数据共享。将医疗数据存于专门的数据库中,在信息协作平台上将各种医疗信息分类整合,建立成一个相互共享的网络,从而实现医疗数据信息的共享。

大数据技术的核心就是预测,使用大数据分析技术可以提高诊断疾病的准确率,对有效地治疗疾病具有重要价值。其中最好地体现在传染病预测上,因为传染病的发生、发展、分布与地理地貌、生态景观、人文环境有密切关系,特别在全球气候变化和经济全球化背景下,自然环境及人类社会活动对传染病的影响越来越重要。因此,时间和空间信息对传染病的预测、预警具有重要意义。利用大数据可对传染病疫情的时间、空间信息进行多维搜索,检索、处理和分析这些疫情信息可实现对传染病的流行趋势及影响范围进行预测、预警,对提高传染病防控的针对性、预见性和主动性,抑制流行病的蔓延,以及制定卫生决策都具有十分重要的意义。

3 大数据分析在移动通信网络优化中的应用

当前的大数据技术面临着数据过大和安全隐患越多这两个问题。在移动通信网络发展的过程中,网上用户在不断增加,通信网络的范围在不断扩大, 而移动通信网络所产生的数据量也在不断上升。大数据技术和移动通信网络的安全问题密切相关,一旦技术出现漏洞,移动通信网络的数据就会出现安全隐患。大数据技术中存储功能的是云储存技术,它将大量的网络数据放在统一的平台之上,加大了数据丢失的风险,影响移动通信网络的安全。

优化移动通信网络,需要运用大数据技术的储存功能。移动通信网络的用户在不断变化,每天都要更新大量的数据,而且这些数据都需要进行妥善管理和保存。在这一过程中,可以应用大数据技术的存储功能, 将存储虚拟化作为解决存储问题的有效策略。

优化移动通信网络,需要获取相关的数据信息。移动通信网络的用户非常多,而且其所跨越的时间、空间维度都很大,这些用户在移动通信网络留下的海量的数据信息,使数据获取工作难以继续。在进行数据的获取和收集工作时,移动通信网络可以应用大数据技术,减少人力和物力的投入,同时增加数据的准确度。

4 结语

本文是大数据技术在实际生活领域的应用,分别阐述了大数据分析技术在公共交通、医药领域、移动通信网络优化中的具体运用。借助大数据技术的即时性、准确性和预测性,将其应用到人们的日常生活领域,提高了人们的生活质量。

参考文献

[1]陈美.大数据在公共交通中的应用[J]. 图书与情报,2012(06):22-28.

[2]张春丽,成.大数据分析技术及其在医药领域中的应用[J].标记免疫分析与临床,2016(03):327-333.

[3]汪敏,廖名扬.大数据分析在移动通信网络优化中的应用研究[J].通讯世界,2017(02):123.

[4]祝兴平.大数据分析技术及其在数字出版中的应用[J].出版发行研究,2014(04):13-16.

[5]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J]. 软件学报,2014(09):1889-1908.

作者简介

段雯琼(1996-),女,河南省漯河市人。大学本科学历。研究方向为通信、互联网。

篇10

现在的大数据的后面是个大冰川,海平面上的普通人一般能看见,海平面以下是专业人士能看见的。Linkedin内部大约有起码20种不同的数据库,就是完全不同的技术的数据库,还不包括同样一种数据库有不同的应用。但实际上我们真正的内部企业用户,包括Linkedin本身,需要的不是一个大冰川,需要的最后是冰激淋,就想把结果出来就行,他不需要大冰川。

怎么能做到这个冰淇淋呢?咱们讲讲数据分析的变革。基本大数据分析的三个原则,这个基本的原则是我大约加入Linkedin9个月以后我们决定下来的。我们如果要做一件最重要的事的话,那个事需要有三个属性:

第一个简单,他出来的结果必须要非常非常简单,没有任何花哨的东西,任何人都能够看明白看懂。

第二个迅速,就是刚才说的速度的问题,越慢结束度越低,越快接受度越高。当然在Linkedin使用的是蓝图法则,3秒钟的法则。

第三就是要规模化,规模化各这的角度来说,我们当时思考的方法是这样的,希望Linkedin内部所有的员工每一个人都能够用数据来分析帮他们做决策,很快的做决策。

怎么做到这一点?

第一步,我们需要建立一个真正的金字塔。分析师不应该从数据开始,他必须要从客户、产品、市场、销售开始,也就是说明白公司怎么能做到这件事。他必须要明白如何在这种层面标记未来的事物,标记比数据本身重要得多。分析师本身要分析自己以后要分析什么,这样才能把正确标记加到数据库里面去。他还必须要明白,数据库之间的公用,流程,每种数据是怎么分工的。

下面就干活了。在Linkedin有一个不成文的共识,你做的东西不仅仅是有趣是不够的,必须要注重执行性。我分析到这个结果以后到底能做什么,这是很重要的。说完了做以后咱们就走到决策,决策本身一定要实现增加商业的价值,或为团队增加价值。

第二步是规模化。需要用科技来把金字塔变成一个非常小的底,而大的中心,最小的一个尖的一个过程。举个例子,Linkedin我待的九个月之内和另外一个同事合作,完成了500个不同的需求项目和模型,但是当年我们其实直接支持两百个人,500&pide;200,每年我才回答2.5个问题,这绝对是非数据驱动。后来我们决定是把整个做一个系统,来模拟以前我们两做的大部分工作,这个系统响应3秒钟,简单的规模化了,大概花了三个月,五个人,在内部支持销售的,在今天为止每天这个系统可以服务1000个销售员工,大约用这个系统十次,用一次大约时间是3秒到一分钟,这个系统一天就能做到以前我们两个人做不到的事情,这就是一个规模化的结果。当年出来结果是我们销售增长了175个百分点。