浅谈大数据挖掘与数据处理方法

时间:2022-11-06 05:14:12

导语:浅谈大数据挖掘与数据处理方法一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

浅谈大数据挖掘与数据处理方法

摘要:本文阐述了大数据挖掘的来历、方式和技术体制还有对数据的处理方法。从数据本身和使用工具方面比较了大数据与数据挖掘的异同,并且提出了关于在大数据时代数据挖掘的发展路线。现在科技的发展使大数据获得了广泛的关注、重视、和进行开发从而加以实践。现时代数据中非结构化流式数据作为一种主要的数据形态,而他的信息庞大和复杂使得传统数据处理体制无法满足对数据处理的要求,为了满足新时代的对大数据的处理需要将大数据处理系统从流程设计向数据设计方向转化,从而提高对数据处理的效率。

关键词:大数据;挖掘;数据处理;方法

现时代大数据的涌来,使得人们迫切的想加大对数据的研究与了解。数据挖掘因此成为了我们在对数据了解的路上的一个障碍,通过对大数据挖掘的阐述,将有助于我们加深了解数据的情况。在数据的处理方法上这里也将做出一个完整的阐述。

1.基本概念

数据挖掘,意思很明显,就是表层意思,其就是从海量的数据中提取出有效的信息,也就是相当于在数量大、信息不完全、信息不清晰的数据中,提炼出对人类有用的的信息和知识的过程。数据挖掘主要操作是在大量数据中利用分析工具发现数据与模型间关系,在这个过程中它可以帮助使用者寻找数据与数据之间的联系,使模糊的因素变得明显,所以数据挖掘被认为是在这个信息时代解决信息贫乏的一种有效途径。数据挖掘不仅融入了数据仓库、模式识别、建模技术、还包括了机器学等多领域的理论基础和技术。其中数据库、数理统计、人工智能是数据挖掘的三大技术支持。大数据是通过高速采集、发现和解析海量信息,是一种全新的从大容量数据中获取价值的技术结构。有一个权威的机构给过大数据以一定的定义,分别是四个"V"字开头的字母:Volume(体量大),Velocity(速度快),Variety(种类杂),Value(价值大)。Volume是指数据的大小决定所考虑的数据的价值和潜在的信息;Velocity意思是对数据获取的速度;Variety则意味着要在数量大、信息复杂的数据间发现其内在关联;Value最重要,它是大数据的最终意义:挖掘数据中存在的价值。

2.相互联系

当前的大数据才刚开始发展,一切都是以数据挖掘为基础,相当于其是对数据挖掘的概念再深化,所以可以说数据挖掘是大数据的开山鼻祖。大数据和数据挖掘都是朝着对数据进行挖掘解析,提取有实用价值的信息为目的。虽然从表面上看,两者区别在于大上,但深入就会发现:数据挖掘的对象并不只是用于少量数据,在对海量数据的处理上也同样适用,只是由于挖掘方法和技术的革新,给与了一种新的说法称作大数据;另一方面:大数据的重点并不是在“大”,而是用全新的思想和一线技术去对海量数据进行分析,提取其中有用的信息,进行对未来的预估,或者根据其中的模式,创造新的产品和服务。所以大数据和数据挖掘在一定时间内还会共存,其大致的区别就是如何体现出数据的价值。大数据是数据挖掘产业化的表现。信息是数据的价值,利益是技术的价值,数据挖掘是在专业技术领域中的一种专业名词,在到了高端的商业领域就需要加以修饰升级。当前大数据正成为增强国家竞争力的重要因素之一,被视为创新和生产力提升的下一个前沿,在世界范围内受到各国越来越大的重视,多国政府在对大数据的发展上给与了大力的扶持,甚至到了国家战略的层面。

3.非结构化数据处理流程

非结构化处理流程主要包括信息采集、网页分类和网页预处理三个阶段。

3.1信息采集

信息采集是将杂乱无章的信息从海量的网页中提取出来保存到具有一定顺序的数据库中的过程。其主要面对是专业技术人群,因此其采集的信息在一定的范围内,并且出于对性能和成本上的考虑不能对整个网络进行全方面阅览,所以在信息采集的方面上要做到对信息的价值进行判断是否值得访问,研究以何种策略进行对web的访问,尽可能的提升对信息采集的效率。通过预先设定的种子链接集,利用HTrP协议访问并下载页面,再用各种技术对页面与主题之间的联系进行分析并且提取出待访问的链接,使用种类不同的爬行策略循环的访问网页是信息采集的基本方法。介于内容的主题信息采集和基于超链接的主题信息采集是信息采集基于主题的不同的两种分类,基于内容的信息采集需要建立一个针对主题的词表;另一类则是基于网页之间的引用关系。

3.2网页预处理

网页预处理主要是一个对一些数据进行筛选的过程,保证信息的准确性。网页预处理部分这里主要是对网页去重的介绍,基于URL的对比去重,适用哈希算法;用信息指纹的文本相似度算法去进行内容的对比去重,这两种方法是对网页去重的归类。网页去重需要先对文档对象的特征抽取,对文档内容进行分解,以若干组成文档的特征集合表示,这一步骤主要是为了使特征比较计算相似度变得方便。之后需要针对特征的压缩编码,进行专业处理,做到减少存储空间,加快比较速度的作用。最后需要对文档的相似度进行计算个,这一步需要根据文档特征重合比例来确定是否重复文档。一般是对网页进行提取特征,大多是一组词,适用特定的算法,转化成一组代码,也被称为指纹。若两个页面相同指纹的数量大,则这两个页面内容有很大部分是相同的。

3.3网页分类

网页分类是通过对数据挖掘算法得出来的分类模型,对数据进行分类提炼,得出有价值的信息。人类所面临的普遍问题是分类问题,并且分类问题对人们来说也是极其重要的。对物品进行分类,可以促进人们对世界的认知,让这个世界从杂乱无章变得有条有理。文本分类主要应用在信息检索、机器翻译、信息审核、消息分类等任务。特征词的选择问题及其权重分配是文本分类的一个关键问题。

结语

当前在大数据时代中,数据利用云存储已经成为一种趋势。数据挖掘是整个数据应用过程中最重要的一环。大数据的分析处理是通过把海量数据按照一定的分类方式分成不同的几个版块,同时利用数据技术进行挖掘,也可以将数据挖掘技术加以整合,从而研制出更加高效准确的方法对大数据进行直接挖掘,将其中的规律和商机进行提取,利用在人们的生活中,为人们更好地服务,因此大数据挖掘在现在社会中具有极其重要的地位。如今社会的各个行业对数据挖掘和自然语言处理运用的需求极大,在这方面上蕴含的理论价值和商业价值极大,所以正确的使用方法对数据处理是极其重要的。

参考文献:

[1]高强,张凤荔,王瑞锦,周帆.轨迹大数据:数据处理关键技术研究综述[J].软件学报,2017,28(04):959-992.

[2]于跃.基于大数据挖掘的药品不良反应知识整合与利用研究[D].吉林大学,2016.

[3]张东霞,苗新,刘丽平,张焰,刘科研.智能电网大数据技术发展研究[J].中国电机工程学报,2015,35(01):2-12.

[4]李德仁,张良培,夏桂松.遥感大数据自动分析与数据挖掘[J].测绘学报,2014,43(12):1211-1216.

作者:黄庆 单位:广西质量技术工程学校