群智感知网络中高效数据收集策略

时间:2022-11-11 09:38:31

导语:群智感知网络中高效数据收集策略一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

群智感知网络中高效数据收集策略

摘要:针对群智感知网络数据收集中的效率问题,需要整合数据收集能量、延迟优化节点、参数设置、网络路由和通信协议等多方面优势,建立符合实际的群智感知网络的智能高效数据收集策略。本文设计了一种能够减少数据冗余、提高数据覆盖率的群体感知策略,从如何选择数据收集者,降低平台开销,提高网络覆盖率来保证应用的服务质量,为群智感知网络高效数据收集提供参考依据。关键词:群智感知;数据收集;高效;策略

1引言

随着5G通信、物联网、云计算及数据库技术的飞速发展,人们对物理环境更大规模、更复杂、更全面的感知需求越来越强烈。近年来,随着无线传感器网络、众包计算、社会计算、机会网络研究的不断深入,人们提出了新型群智感知(CrowdSensing,CS)模式。群智感知模式主要应用在智能交通管理、天气监测系统、噪声污染监测系统、医疗诊断、空间探索等领域。它可以高效对海量复杂的大数据进行特征学习,发现隐藏的知识和规律,挖掘大数据中潜在价值,极大促进社会各领域的发展[1-2]。目前对高质量的群集数据收集策略仅局限于某个特定区域的整体数据收集,特别是智能移动感知设备的多维目标的数据收集策略还处于初级研究阶段,多维数据收集的冗余量、网络延迟以及能量消耗也是目前群体感知网络亟需解决的问题,因此研究高服务质量的群集数据收集策略,对于基于数据的基础应用具有重大意义。针对群智感知网络数据收集的效率存在的问题,本文基于群智感知网络框架来研究建立一种智能高效的数据收集策略,从数据收集能量、延迟优化、路由选择、通信协议等多方面进行设计,选择能够降低平台开销、提高网络覆盖率的数据收集者来保证应用的服务质量,为群体感知网络高效数据收集和传感网络数据应用提供参考。

2群智感知网中的应用

2.1高效数据收集方法

群智感知是指一种能利用个体或社区共同感知信息来形成知识片段的新的感知模式。近年来,国内外在体系结构、数据收集、隐私保护、激励机制、信誉模型、社会自私性等方面进行了一些探索性研究,加利福尼亚大学、雷丁大学、东京大学、新南威尔士等大学关注度非常高。群智感知网络中数据收集是指利用人们所使用的无处不在的智能传感器设备如智能手机、iPad、车载传感器和可穿戴设备等来采集数据,将物理环境中相关的数据信息采集后向应用后台/云端上报,由后台/云端进行计算形成需要收集的数据。这些数据信息可为智能城市基于复杂数据传感的应用(如环境监测、智能交通、公共安全、医疗保健中的远程病人护理系统等领域)里面的重要需求提供解决的新策略。在数据采集和收集过程中,尽量采用最少的投资来获取最多的信息,或采用尽量少的信息采集点达到最大的全局信息覆盖,或根据采集到的离散信息来构造完整的全局信息描述。它们具有低成本、动态性强和扩展性好等特点。(1)基于群体竞争感知模式的数据收集方法。基于群体竞争感知模式的数据收集方法,有两种感知模式。一种是以平台为中心的感知模式。系统首先将奖励金额设定好,然后数据收集者通过竞争来参与任务的执行。另一种是以数据收集者为中心的感知模式。这种模式通过拍卖的方式来选合适的数据收集者。在实际的数据收集过程中,数据收集者的协作成本是很难提前获取到的。因为不同的数据收集者的数据成本具有个体差异性,甚至使用的数据收集设备也不尽相同。因此获取到数据收集者的真实成本是很困难的。基于群体竞争感知模式的数据收集方法存在的不足主要是激励机制同样会给系统带来一定的开销。另外,它不能有效地解决离散数据收集问题。(2)基于群体线上、线下模式的数据收集方法。群智感知模式还可以分为线上模式和线下模式。线上模式中的数据收集者集合是动态变化的。而线下模式中的数据收集者集合在开始确定后则固定不变。在动态的感知模型中,为了满足应用在不同时期对感知任务的不同要求,需要不断地增加或者减少数据收集者的数量。该模型的主要目的是为了选择出具有较高稳定性的数据收集者集合。基于群体线上、线下模式的数据收集方法存在的不足主要为:线上模式虽然能够提高数据收集者群体的协作灵活性,但线上动态的模型也相应地会带来大量的计算成本;而线下模式则无法保证数据的实时性。(3)基于局部网络的数据收集方法。局部网络的数据收集方法主要考虑网络延迟和传感器节点能耗问题[3-4]。网络延迟是指从传感节点感知到数据经由多跳传输到sink(汇聚结点)并被sink接收所经历的时间,一般称为端到端延迟(或延迟)。在群体感知网络中,网络延迟主要包括如下几类:①睡眠延迟。睡眠延迟是指从数据包被发送节点发送出去到它被目标接收节点接收所经历的时间间隔。②数据处理延迟。数据处理延迟是指节点计算与处理数据所需的时间。数据处理延迟通常要小于睡眠延迟。③数据传输延迟。传输延迟是指数据传输所需要的时间,包括排队延迟和可能的数据重传延迟。基于局部网络的数据收集方法的不足主要体现在:经典的路由算法如最短路径算法只考虑节点与sink的距离,而没有考虑节点睡眠所造成的延迟。(4)基于全局网络的数据收集方法。数据收集者数量不足以及数据收集者在全局网络区域分布不均匀是群体感知系统中面临的难题。目前很少有研究人员将数据恢复技术应用到全局网络数据收集中。数据恢复技术是减少全局网络数据收集系统中数据冗余问题以及数据缺失问题的一种有效解决方法。

2.2高效数据收集技术

群体感知网络主要研究如何使数据收集成本降低,服务质量得以提高;通过减少数据冗余来提高数据覆盖率的群体感知策略。通过数据恢复技术和有效的激励机制以及节点能量消耗和延迟计算模型设计,来建立细粒度满足消费者需求的智能数据收集技术。(1)群体感知数据收集的框架建模。在群体感知网络研究中,数据收集者在采集与报告时需要付出一定的成本,同时面临着隐私泄露的风险。因而平台采用一定的激励机制,通常是对数据报告者给予一定的货币、信任度、虚拟货币或者其它措施来激励数据收集者参与数据的采集。它依据给予奖励对象的粒度不同而有所不同。以单个数据包为奖励的单位的报告数据,平台每获得一个数据包就给予一定的奖励。这种激励机制的优点是粒度比较细,能够有效地针对应用的需求来招募数据收集者。但是,这种方式也存在着不足:由于参与数据感知的移动设备数量众多,协商的成本超过了报告数据的成本。(2)数据收集策略所采用的激励策略与方法。数据需求者通常以是否能收集到合适的数据为判断依据。不论是数据采集、传输、获取都会要求数据收集者付出一定的精力、时间、能量等方面的成本。如果数据收集者没有得到足够的激励,其参与数据收集的积极很低,造成数据需求者并不能满意地完成该任务。数据需求方,主要目标是在支付代价最小或者支付代价可控的情况下既要激励更多的参与者,提高参与者参与水平,又要保证参与者的感知数据是高质可靠的。合适的激励办法对于群智感知数据具有重要意义。(3)保证服务质量,降低数据收集开销。在群智感知激励机制中,仅通过招募大量参与者并不能保证感知任务被高质量地完成。在提高参与率的同时,还要保证一定的任务完成质量。保证构建应用的服务质量的关键在于保证数据收集的覆盖率。但是在保证数据覆盖率的同时,往往意味着成本的增加。为了保证数据的覆盖率,往往会有冗余数据的产生。如何突破传统数据收集模式的限制,是群智感知应用迫切需要解决的问题。(4)群智感知数据采集技术。在群智感知中数据采集技术中,有的源自多种异质传感器,有的源自复杂社会网络。根据数据结构的不同,可以分为结构化的数据表格和非结构化的数据;根据数据形式的不同,可以分为文本数据、视频数据、音频数据等。这些数据在为时空分析带来丰富数据源的同时,也增加了时空可视化分析数据的复杂性。由于数据规模越来越大,数据可视化所需的资源包括数据存储、可视化计算资源的需求也越来越大。群智感知数据对社会性、随机性、突发性、实时响应要求高,事前无法预知其规模与地域,因而需要采用计算资源虚拟化技术来支持数据处理的研究与应用。(5)平台构建。基于应用场景的感知任务管理可视化云服务系统平台可在现有分布式基础设施的基础上,通过虚拟化以及云服务资源管理与调度技术形成支持任务管理的IaaS(InfrastructureasaService)服务;通过云-端快速感知技术,调用云存储服务实现对物理世界和网络世界感知数据的快速获取;通过对海量数据的组织与管理,把各类数据按照时空特点中心组织,以PaaS(PlatformasaService)的形式进入云服务池;通过模型服务于封装技术,支持多类型时空可视化感知模型的封装,以PaaS的形式进入云服务池;以公共SaaS(SoftwareasaService)的形式提供服务;通过任务系统快速构建技术,面向特定目标构建任务软件系统,以专有IaaS的形式提供服务。为不同任务类型的个性化需求提供扩展的服务接口,形成多种数据访问标准。对于空间数据,采用OGC(OpenGeospatialConsortium)标准,它制定了数据和服务的一系列标准,建立任务管理空间数据集成标准。在此标准下,提供UDDI/WMS/WCS/WFS/WPS等多种空间地理数据服务。对于具有隐性空间属性的文本,通过geo-coling云服务方式进行数据整合。(6)群智感知数据收集的组成。首先是数据收集者。它一般指装备传感设备的人或者设施,如车辆、智能手机、工业现场装备的监控传感设备。然后是数据需求者。数据需求者是需要数据的一方,也称为任务发布者。数据需求发布应用需要采集数据的具体需求,并向数据报告者支付一定的酬劳来激励他们去收集相关的数据。数据需求者的酬劳并不是直接支付给数据收集者,而是通过平台来获取满足自己需求的数据。最后是应用平台。应用平台在群体感知网络中起主导作用和调度作用。平台需要依据市场的需求来制定满足市场需求的大数据应用。应用对数据的需求可以定义为一组依赖于位置的感知任务。数据传感任务将时间划分为一系列的时隙。在每个时隙中,被选中的数据报告者执行指定的数据感知任务并且将感知到的数据报告给平台。大量基于数据的应用都可以通过群体感知来满足应用的数据需求。为了降低数据收集成本,保证数据收集质量,应用平台需要制定能够优化的选取数据收集者的数据收集策略,即选择那些使系统付出的成本最小并且能够保证构造应用质量的数据收集者。(7)海量异构数据特征提取。运用特征提取技术排除冗余或无关因素是高效数据收集的基础。针对传统特征提取技术难以处理海量异构数据的问题,使用基于并行计算智能方法的特征提取技术。将所提出的异构数据首先在标准数据测试集上进行实验。其实验结果与有文献可考的方法进行比较,以验证新技术有效、可靠。

2.3高效数据收集策略

(1)任务发布者功能。群智感知系统通过群体感知系统平台发布相应的感知任务后获取数据,并对数据进行筛选、提炼和加工等操作。通过收集到的数据来构建符合市场需求或者是特定要求的应用。任务发布者需要承担在数据收集过程中可能产生的相应开销。感知平台分配感知任务,选择合适的数据收集者参与且通过平台来对这些数据收集者进行相应的激励支付。数据收集者是智能设备的持有者。这些智能设备主要是装载了传感器的车辆、手机、平板、可穿戴设备等。(2)数据收集者的策略选择。在群智网络应用中,不同智能设备对于所收集到的数据的报价并不一定能够真实地反应出设备的实际工作量和对应用的贡献。在对数据收集者进行选择的时候,必须要对数据收集者进行全面的考察。对于数据收集者,其收集到的所有数据的个数可以表示为:N=∑∑dimji=1Tj=1(1)在采集数据的时候,数据收集者只能提交一个位置上的数据,可以表示为:∑dimji=1≤1,(2)因此,对于单个数据收集者来说,在数据收集的时间段内,其最多能够收集到数据个数是数据收集者持有的智能设备在每个单位采样时间所提交的数据。而对于单个数据收集者言,需要定义一个能够衡量其效率高低的标准。可以定义其数据收集效率为:F=NT=∑∑dimji=1Tj=1T∈[0,1](3)式(3)中,N是数据收集者收集到的数据的个数;Σ是数据收集者提交一个位置上的数据集和;T是在数据收集时间段内最多能够收集到数据个数;F是数据收集效率;j是数据收集者的活动时间,j∈[1,T];i、m是数据采集轨迹位置收集到的数据,i∈[1,m];dij=0ordij=1:表示数据收集者在时间T能到达位置。数据收集效率体现了数据收集者的活跃程度。如果数据收集者在每个单位采样时间都提交数据,则该数据收集者的效率为1,该数据收集者为比较活跃的数据收集者。但是不同的数据收集者在收集数据时所产生的开销是不同的,如果仅根据数据收集效率来选择,则有可能产生较高的成本。而且,如果选择的标准只有数据收集效率,对于效率相同的两个数据收集者,无法选择出开销更低的一方。系统需要一个选择标准,能够在数据收集效率与数据收集开销方面综合对数据收集者进行评定,来提供综合较优的选择。(3)应用数据恢复技术。采用传统的数据收集模式,无法突破理想情况下数据收集的局限性。突破传统数据收集模式的关键在于能够通过某种方式在保证数据覆盖率的前提下,降低数据的收集量。而将数据恢复技术应用在数据收集的过程中可以较好地弥补传统数据收集模式的问题。矩阵填充技术是一种较为成熟的数据恢复技术。将其应用在数据收集中可以有效地减少需要采集的数据量。(4)构建能量消耗模型。节能降耗是数据收集技术的重要研究内容。通过挖掘群智感知环境中的数据时空相关性,可以减少数据传输量,有利于节省能耗,延长网络生命周期。在群智网络中,由于汇聚效应,sink节点附近的数据量急剧增加,从而形成网络瓶颈。使用移动sink,可以避免多跳传输导致的汇聚效应。采用移动sink覆盖所有节点,可能会存在移动sink路径过长等问题。可以考虑动态路由结合的压缩感知机制[4],通过将压缩感知技术和随机路由技术结合,可以提高网络拓扑结构动态变化的自适应能力。相对于传统树形或者簇型结构,它还可以延长网络生命周期。压缩感知技术要求所有测量结果最终到达服务器端,用于数据恢复。然而传统随机游走无方向性,可以是路由到网络中的任何一个节点。目前有两种思路可以解决存在的不足之处。思路一是在随机游走路径之后,增加一个静态路由树,用于传输压缩感知测量结果到sink节点。这样会增加额外的多跳传输开销。思路二是构建一个有向的随机游走,即每一跳,都选择离sink更近的点。但是各节点需要知道所有节点的全局性的位置信息。在大规模无线传感器网络中这类全局性信息获取成本过高,且存在有向随机游走汇聚效应导致的空间分布不均匀等问题,会降低压缩感知恢复性能。可以应用精细的微积分数学分析方法来解决这个问题。建立依据节点通信半径,将网络划分为多个圆环,然后依据节点与sink的距离对不同圆环内节点计算相应的数据量,再依据数据量可以得到节点的能量消耗。对于网络中的任意区域,可以通过选定一定距离、一定角度的扇形区域积分得到其能量消耗与总体延迟。对于静态传感器网络的能量消耗、承担的数据量、参数间的关系采用了数学上的精细微积分方法进行分析,可得到更加准确与细微化的结果,从而得到更加准确的节点能量消耗模型[5]。(5)众包(CrowdSourcing)。众包是一种公开面向互联网大众的通过群体智慧分布式求解问题的新型模式,通过整合互联网上未知的大众,使用传统的人本计算来完成计算机难以完成的任务[6]。众包质量直接体现在众包问题的答案的质量。在数据库与信息检索领域,基于众包借助人类智慧来实现面向机器难问题的复杂查询处理已经成为了一个新的研究热点。Skyline查询是一种基本的偏好查询类型,可以用来解决多目标优化问题以及支持用户在复杂情况下进行决策的重要手段,在数据探索、信息检索、数据挖掘与可视化等方面具有不可替代的作用。众包环境下执行查询处理需要考虑质量和开销金额的问题,面向质量控制的众包答案聚合模型,从工人筛选、答案聚合两个方面着手,在满足聚合答案置信度的条件下最小化参与众包问题工人人数,从而在保证质量的同时减少单个众包问题的开销金额。基于可移性理论的控制关系和偏好关系判断,既能实现属性级别,又能实现对象级别来减少众包问题,从而降低总开销金额[7]。(6)数据融合技术。在移动群智感知网络中的数据多源自不同机构,个体各异,来源多样,格式不同。因此需要将分布在不同地点的多模态数据在统一的可视化平台进行高效集成融合。由于不同专业的数据格式、语义和展示方式有所不同,在可视化界面的层次上进行数据集成需要解决统一的数据访问接口、抽象数据类的定义、跨区域的服务联动与集成以及多来源可视化服务的优化与集成融合。

3总结

高效的数据收集策略是大数据网络、群智感知网络和参与式网络的有效工作的基础。目前对高质量的群集数据收集策略仅局限于某个特定区域整体数据收集。智能移动感知设备的多维目标的数据收集策略还处于初级研究阶段。另外,多维数据收集的冗余量、网络延迟以及能量消耗也是目前群智感知网络亟需解决的问题,因此本文研究高服务质量的群集数据收集策略,对于基于数据的基础应用具有重大意义。

作者:胡同花 单位:永州职业技术学院图书馆网络中心