云计算技术下数据挖掘探讨

时间:2022-12-07 10:24:27

导语:云计算技术下数据挖掘探讨一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

云计算技术下数据挖掘探讨

摘要:对于云计算而言,就是互联网时代应用而产生的一种新的网络技术。它有着很高的效率、高容量和动态处理的优点,并且在社会的商业与科学研究等领域上显示出了非常高的使用价值。云计算时代随着快速的发展,而云计算海量数据挖掘也已成为了一种实用、高效、可行的技术,解决了传统数据挖掘无法适应日益增长的数据量的问题。为了探索云计算技术数据挖掘平台的构建,基于云计算技术,构建了一个基于数量优化的数据挖掘平台,并且对构建平台的架构和关键技术进行了分析。结果表明在实际的应用之中,利用云计算技术构建的数据挖掘平台,不仅有助于可以突破传统数据挖掘的性能瓶颈,而且还可以利用云计算技术对大数据集进行处理,并且对于数据挖掘平台的效率也可以提高,在应用之中能够起到积极的作用,在实践中可以推动该数据挖掘平台构建的应用。

关键词:平台构建;数据挖掘平台;云计算;信息化

随着计算机技术与计算机网络的快速发展,尤其是网络计算和云计算的逐步发展,已经有越来越多的数据分布被储存在了网络之中,而对于在大规模的数据集之中如何提取有效地信息也就变得越来越重要[8]。对于数据挖掘技术来说,它可以促进人们对数据的应用从低层次的简单查询提高到高层次的查询,能够在挖掘知识的同时并提供决策支持。另外,随着各行业的业务自动化的实现,对于商务领域的业务信息目标已经不再只是通过使用简单的数据分析来进行收集,而更多的则是借助于对商务的运作,通过对大量的数据进行深入探索分析,从而可以使企业能够获得经营决策之中的有利用价值的信息,并且使竞争力得以提升,最终可以实现效益的最大化。对于最近几年最热门的云计算技术而言,其实它并不完全属于一种全新的技术,而是因为近些年来的它的快速发展和广阔的应用,已经成为一项热门的技术,同时它还推动了传统思维的信息提供方式与ICI系统交付模式向商业化形式的转变。将目前现有的数据挖掘技术与云计算的高虚拟化和高可用性的特征实行有效地结合,可以让之前的大规模数据的增加所造成的多样化数据挖掘的需求适应性问题得到很好的满足,从而使大量的数据挖掘的效率和准确性得到提高。此次,通过研究分析传统数据挖掘技术的发展与云计算技术的发展现状的对比,以及结合新兴的互联网技术,从而使现有的模型架构的使用难点得到解决。同时还在云计算的基础之上,我们提出了对于大数据挖掘平台模型体系架构的研究思绪,企业或者运营商通过该模型的框架,能够按照自己的需求来对内部数据挖掘模式进行建设,以此可以实现更有效的商业利用价值。

1云计算技术分析

对于云计算而言,它是通过在网络计算、分布式处理、并行处理等新的计算模型,主要是属于一种基于互联网的计算。而且云计算也还属于一项计算服务,而不仅仅只是一种产品,它的组成主要分别为计算资源和软件以及各种信息等[16]。另外,云计算技术所具有的特点主要有以下几点:第一,使用云计算能够随时提供自助服务;第二,云计算网络系统可以通过各种各样的网络设备随时随地的进行访问;第三,在云计算之中可以建立保证多人共享的资源池;第四,在云计算之中,云计算技术也可以快速地进行部署,将应用的灵活性充分发挥出等。同时,相关的研究表明,云计算技术主要是给网络之中的交易双方而进行虚拟增值资源的供给服务[11]。并且在数据挖掘平台的实际建设之中,通过使用云计算技术,可以在应用中起到积极的作用。

2基于云计算大数据挖掘的关键技术

2.1数据采集和储存。对于大数据的采集技术来说,可以通过使用不同的方法来获得各类非结构化和半结构化与结构化的大数据,比如有RFID射频数据、传感器数据、社交网络交互数据以及移动互联网数据等方法。并且随着科学技术的不断发展,数据信息的增长速度也越来越快,特别是非结构化数据。因此,要想使大数据的存储能够完成,则必须要具备良好的性能、高吞吐率、容量大的基础设备2.2数据预处理。所谓的数据预处理指的就是在对挖掘任务进行之前需要对不规则的大数据与非标准的大数据进行的初步预先处理。而真是有效地数据则必须要有正确可靠的结果。而且在对数据进行预处理的过程当中还主要包含对数据的抽取、转换、清洗、集成、数据规约、异常检测等等,因此,这些大量的数据必须要在对数据进行挖掘之前就需要对其进行数据预处理,从而使得处理过后的数据质量更高,同时数据挖掘也会更加有效可靠。2.3数据挖掘算法并行化。对于数据挖掘算法并行化的实现,主要借助于云计算数据挖掘的最关键的技术,能够最大化的提高大数据挖掘的适用性,而且该技术还主要包含有并行关联、聚类、分类和回归算法[3]。只有通过利用数据挖掘的常用算法并行化的方法才可以是实现相应的优化,同时才能够在云计算的平台上来使用MapReduce计算模型,并且才可以使大数据挖掘任务在平台上的直接运行得到满足。因此,就有必要对数据挖掘算法的并行化的实现进行深入的研究,只有这样才会使得大数据挖掘能够得到有效的实现。2.4数据展现和应用技术。数据的展现和应用技术能够有效地进行挖掘大规模数据当中的潜在信息和知识,并且将复杂的数据分析结果可以进行直观、清晰地展示出来,从而可以使历史数据的重读与分析过程的可视化得以实现,并且能够让社会经济集约化水平得到提高。目前,对于我国而言,大数据主要应用的领域是在政府决策、公共服务、商业智能等。

3平台构建需求

3.1保证满足数据挖掘的需求。目前,对于我国来说,数据的挖掘工作已经越来越受到人们的重视,然而对传统的数据挖掘管理模式的应用,目前还不能够完全地适应科技信息化的快速发展的需要[18]。因此,在实际的应用之中,让先进的云计算技术运用到数据挖掘平台的建设之中已经属于势在必行。另外,随着我国信息技术的不断发展,对于网络中所存在的大量的用户数据信息,将会通过运用数据挖掘技术,可以帮助大量用户可以在数据中挖掘出有用的信息。3.2确保满足用户使用该平台的需求。云计算技术与数据挖掘的结合和基于云计算技术的数据平台的设计,可以保证用户的运用目标的多样性的需求得到充分满足,从而可以保证构建的数据平台能够满足用户的需要。在对云计算技术所支持的数据挖掘平台的建设之中,能够对云计算的相关技术优化应用,为了可以在数据挖掘平台之中构建相应的云计算池,还必须要进行建立网络池和云计算资源池,才能够确保在运行数据挖掘平台之中可以有效地利用数据资源;同样,对数据挖掘的需求可以按照行业不同选择合理的云计算技术,从而优化云计算数据挖掘平台的建设。3.3确保提升平台实时性与交互性。在数据挖掘平台的优化建设中,基于云计算技术,必须要保证系统的平台能够得到实时监控,从而方便及时地对数据挖掘平台的运行情况进行管理和掌握。相同的利用云计算技术,必须要对数据挖掘平台的构建进行优化,不仅可以提高程序自动化的水平,同时还可以使平台中的挖掘数据信息实现交互共享。

4在云计算技术下构建出数据挖掘平台

为了能够获取到更加准确的结果,数据挖掘通常会使用相对较大的数据集,在高性能的计算时代,大规模的数据就必须要提高运算的速度,同时,也会增加了超级计算机的成本,最终将会无法承担高成本。云计算技术可以通过采取并行计算技术和分布式计算技术而建设高吞吐量的计算系统,从而可以解决上述的问题[17]。此外,云计算还具备分布式计算和分布式存储两方面的优点,这与单机处理相比更加具有很大的优势。因此,有必要建立一个基于云计算的数据挖掘平台,进而可以利用平台为大数据提供存储与挖掘的能力,同时平台从下向上可以分为基础层、服务层、业务层等三个层次。具体的平台架构如图1所示。4.1平台功能分析。在此次数据挖掘平台的设计之中,通过使用云计算技术,能够有效地实现数据挖掘服务,从而可以挖掘到准确可靠的信息。图2所示为功能结构图。图2功能图它还可以使用先进的云计算技术,将安全可靠性高与低碳环保的智能化数据装置进行结合,并在高速网络通信平台的基础上,对数据挖掘平台进行优化,以保证平台不仅使自动数据采样、数据挖掘和隐私保护及查询等功能能够完成,而且还可以按照平台的实际需求进行设计,从而可以使实时化的只能监控、调节和交互等功能得到保障。同时,云计算技术还可以用来优化平台的数据挖掘模型的建模方法,构建一个集成的信息编程平台,从而提供一致、可靠和完整的数据挖掘结果,而且可以保证所设计的凭条能使用户需求得到满足。4.2构建云计算技术下的XML文件挖掘系统。在数据挖掘的平台之中,首先对XML文件进行处理,可以使数据挖掘多个关系表中分散的数据通过利用云计算技术对数据进行重新整合,从而使这些数据能形成完整的XML文件。因此,在数据挖掘平台的建设之中,我们应对XML挖掘部分进行优化和构建,对XML的处理系统构架需要简化,同时利用面向对象的方法,在云计算方法的基础上进行构建编程对象模型,方便互操作性和可扩展性得以实现。类似地,在数据挖掘中,通过利用平台中关系数据库中的XML挖掘的方法,按照XML中任意两个节点的编码来进行判断两个节点之间的关系,从而可以从中挖掘出有用的XML文件信息。4.3数据挖掘步骤。在云计算技术的数据挖掘平台的基础之上,对于大量数据的存储平台内来进行数据挖掘,而且还必须和许多不一样的智能处理算法相结合来对数据进行挖掘运算,而且对于那些挖掘出来的重要数据,通过进行相关的评价和迭代分析,最终就可以得到的数据挖掘出的数据最优。在实践中,基于云计算技术的数据挖掘的步骤如图3所示。第一,主要是先要对此次挖掘数据的主题确定;第二,可以利用如Clementine、Qracle数据库等商业挖掘工具来对相关数据进行处理;第三,对数据进行采样和选择,然后依照数据的趋势和分布统计等方法,来对数据挖掘的模型进行构建;第四,对数据挖掘模型进行评价,从而能提取出有利的数据信息。

5结语

随着互联网和信息技术的飞速发展和信息的总量的高速增长,世界将会面临着大数据的挑战。然而云计算的大量数据信息和强大的计算和数据处理功能,可以为数据挖掘给予强有力的支持。鉴于云计算的数据挖掘系统,它所具备的很多优点是数据挖掘系统以前所没有的,因此,它可以为企业用户与个人用户的数据挖掘任务提供一个很好的解决方法[13]。此外,通过构建基于云计算技术下的数据挖掘平台,使云计算技术之中的若干资源可以面向业务的数据挖掘应用,起到了积极的作用,同时,平台的用户也可以获取到大量的数据挖掘功能和大量数据的存储功能,从而使数据管理、计算和分析的软件与硬件的成本降低。

作者:王鹏 单位:陕西财经职业技术学院