网络故障处理方案范文

时间:2024-01-15 18:09:48

导语:如何才能写好一篇网络故障处理方案,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

网络故障处理方案

篇1

关键词:电力通信;故障;解决方案

中图分类号:F407.61文献标识码:A 文章编号:

0 引言

电力通信网络是为了保证电力系统的正常安全稳定运行从而诞生的。它同电力系统的安全稳定控制系统、调度自动化系统被人们合称为电力系统安全稳定运行的三大支柱。目前,它更是电网调度自动化、网络运营市场化和管理现代化的基础;是确保电网安全、稳定、经济运行的重要手段;是电力系统的重要基础设施。由于电力通信网对通信的可靠性、保护控制信息传送的快速性和准确性具有及严格的要求,并且电力部门拥有发展通信的特殊资源优势,因此,世界上大多数国家的电力公司都以自建为主的方式建立了电力系统专用通信网。电力通信网络是现代化电网安全、稳定、控制系统和调度自动化系统的基础条件,网络出现故障应及时查找原因,并迅速、妥善做出处理故障的措施。通信网络故障问题的原因复杂、多样,如早期建设光纤网架结构不合理,运行稳定性和安全性较差,SDH逻辑系统结构复杂、管理难度大等问题,处理起来相对较难。电力通信网络的结构日益复杂,通信方式多样,随着得到不断的建设发展和优化,对电力通信网络业务质量的可靠性要求越来越高。简单的的故障监控预警或处理已经很难适应电力通信网络的大量日常运行和维护的要求。

1 目前我国电力通信网络的现状和存在的问题

由于我国科技的快速发展,电力通信网络技术也在迅速进步,越来越多的电力系统业务都需要通过电力通信网络来进行传输,电力系统对电力通信网络的依赖性在很大程度上有所增强,所以电力通信网络的故障问题对电力系统的不利影响越来越严重,所以,电力系统业务部门对电力通信网络的质量要求也越来越高,不但要求电力通信网络能够提供足够的通信能力,还要求电力通信网络具有很高的安全性、可靠性及稳定性。至今为止,我国各个地区的电力通信业务部门已经通过对网络进行升级、扩展,很好地解决了电力通信网络系统对于通信能力的需求。但是通信网络的设计水平较低,设计深度、强度还不够,在如何提高通信网络的质量方面的相关研究较少;没有建立起较为健全的可靠性电力通信网络管理体系;缺乏系统的通信网络质量的检测手段及方法;较少提出对通信网运行安全、高效的评估检测及改进创新的有效方法。

2 通信网络运行问题

2.1 网络通信性能低

虽然我国现在的电力通信网络技术发展的很快,可是现有的电力通信网络结构的可靠性较低、资源共享能力较差。如果电力网络通信中心系统及其站点出现了故障问题,那么,整个电力通信系统都有可能会趋于瘫痪,很多通信设备经过长期的运行,会进入设备的护理期、维修期,甚至是老化期,如此需要护理、维修甚至是更换的不良情况将直接阻碍着电力通信网络的整体稳定发展。

2.2 管理结构模式复杂

按照电力通信网络运行管理层面上一般分为1级、2级以及3级通信网络,电力通信线路的结构和规划都较为复杂,随着各个地区的变电站不断增加,各变电站内新增的SDH设备节点也不断串入原有的SDH环网中, SDH网络拓扑结构缺乏优化,越来越复杂。不少电力通信业务需要跨环甚至是跨多环进行传输,导致无法满足传输时的要求。

2.3 传输质量差

目前,很多变电站通信线路大都采用5类网线或超5类网线作为485通信线,普通网络线作为通信线存在以下问题:普通网线没有屏蔽层,不能防止共模干扰;网线只有0.2mm2,线径太细,会导致传输距离降低和可挂接的设备减少;网络线为单股的铜线,相比多芯线而言容易断裂;485收发器在规定的共模电压-7~+12V之间时,才能正常工作,如果超出此范围会影响通讯,严重的会损坏通讯接口。站内通信线为了走线的美观而与电源线并行,而又无屏蔽接地线,致使通信传输受到一定的影响。

3 通信网络出现故障的解决方案

3.1建立电力系统通信网可靠性管理体系

按照不同区域或地区的具体通信网规划与要求,提出是何当地发展建设及运用的通信网络设计可靠性标准、规范,确保通信网络的可靠性措施实施,并组织、监督、评估通信网建设的可靠性实施效果;制定规范、严格的电力通信网络维护管理体制和规程;制定恰当的电力通信网络维护、管理的任务、要求和措施;提出通信网络系统及具体通信设备的可靠性设计水平与技术指标要求;在通信网可靠性指标下进行通信网规划设计,在有限的系统建设投入的前提下,对建设的通信网进行试验和鉴定。分析、评价网络运行的可靠性水平,对各种电力通信网络的故障规律进行分析、研究,提出相应的可靠性实施措施;制定对重大异常故障的应急通信制度和措施,并监督各种制度和措施的严格执行。

3.2 加强光缆线路设计、施工和维护工作

光纤使用中引起的传输损耗主要有接续损耗和非接续损耗2类。因此在工程设计、施工和维护工作中应做到以下几点:第一,应选用特性一致的优质光纤,一条线路上尽量采用同一批次的裸纤,以求光纤的特性尽量匹配,使模场直径对光纤熔接损耗的影响降到最低程度,尽量减少接头数量。第二,光缆接续人员应严格按照光纤熔接工艺流程进行接续,严格控制接头损耗,熔接过程中时刻使用仪表进行监测,不符合要求的应重新熔接。第三,机房、设备内尾纤

和光纤跳线绑扎、盘绕不规范,出现交叉缠绕等现象造成损耗。应避免光纤受到较大的弯折。使用支架托起缆盘布放光缆,不要让光缆受到扭力。在拐弯处等有可能损伤光缆的地方一定要小心并采取必要的保护措施。第四,在光缆敷设施工中,宜采用“前走后跟,光缆上肩”的放缆方法,严禁光缆打小圈及弯折、扭曲。机房内尽量整洁,尾纤应该有圈绕带保护,或单独给尾纤使用一个线,不使尾纤之间或与其他连线之间交叉缠绕,光缆终端时注意避免跳线在走线中出现直角,特别是不应用塑料带将跳线扎成为直角,否则光纤因长期受应力影响引起损耗增大。

3.3 优化485通讯问题

(1)通信线必须采用国际上通行的屏蔽双绞线,采用屏蔽双绞线有助于减少和消除2根485通信线之间产生的分布电容以及来自于通讯线周围产生的共模干扰。(2)485通讯线的屏蔽层应用作地线,将电脑等网络中的设备连接在一起,并由一点可靠地接入大地。(3)通信线尽量远离高压电线,不要与电源线并行,更不能捆扎在一起。在同一个网络系统中,尽量使用同一种电缆,减少线路中的接点。保证一条单一的、连续的信号通道作为总线,从而提高通讯网络的安全性和稳定性。

4 结论

只有长期不断的分析和总结日常运行情况,才能发现现有网络中存在问题或潜在的隐患,及时进行合理优化并消除这些问题及隐患,才能保障电力通信系统的安全,从而进一步保障电网的安全运行。

参考文献:

[1]赵子岩,陈希,刘建明.建立电力系统通信网可靠性管理体系相关问题的探讨[J]/电力系统通信,2006,27(10):58-61.

[2]唐云善,张刚.电力通信故障防御软件的研究与应用[J].电力系统通信,2010,31(4):32-35.

[3]肖潇,唐艳冰.电力通信系统维护中几例故障分析与处理[J].中国高新技术企业,2010(15):126-127.

篇2

【关键词】TXP;分散控制系统;网络;工厂总线;终端总线

1.TELEPERM XP控制系统简介

TELEPERM XP分散控制系统(以下简称TXP),是德国西门子电站自动化有限公司专门为电厂开发设计的控制系统。该分散控制系统主要由五大部分组成,分别是:实现过程自动控制的自动控制系统(AS620);实现操作和监视的中央过程控制和信息处理系统(OM650);实现系统组态和设计的工程师系统(ES680);用于系统状态诊断和故障分析的诊断系统(DS670);以及连接所有设备的SINEC总线系统。

图1 TXP分散控制系统结构图

2.TELEPERM XP总线系统介绍

TXP总线系统包括工厂总线和终端总线,均为通过光缆建立的局域以太网,采用标准的TCP/IP协议。传输速率为100M/秒。工厂总线担负AP控制器之间及AP控制器与PU服务器之间的通讯任务,它为工业以太网,遵循ISO/OSI的七层结构建立起来的国际标准通讯协议。终端总线负责操作员站OT、工程师站ES与PU服务器、SU服务器之间的通讯。

工厂总线和终端总线的网络装置采用西门子公司生产的OSM光纤转换模件,每个模件配置有2个100Mb等级的光纤接口及6个10Mb的Sub-D接口,其中2个光纤接口用于OSM间的互联,使多个OSM组成高速以太网络,其中必须有一个OSM设置RM冗余管理模式。

图2 网络结构图

图3 工厂总线与终端总线结构图

RM冗余管理模式是指正常状态时RM模式下的OSM装置两光纤接口处于断开状态,网络成为虚拟环(网络不能是真正的环路)。当网络中其它地方因故障出现断点时,RM模式的OSM装置两光纤接口自动闭合(闭合时间小于0.3s,无扰闭合),此时网络上仍只是一路断点,使网络上的设备通讯始终保持链路上的正常连接。当故障断点恢复时,RM模式的OSM装置光纤接口重新断开进入监视状态,通过此方式构成冗余的网络结构。当网络中出现两处或以上的故障断点时,总线上的通讯才会受影响。

TXP分散控制系统的总线网络具有高传输容量、高可靠性、单故障冗余等特点。以下将分别介绍工厂总线和终端总线的故障方式、故障现象及故障处理。

3.工厂总线网络冗余失去处理

3.1 故障现象

(1)操作员站ASD报警画面出现工厂总线网络故障报警;DCS运行状态正常,不影响运行人员对机组的监视和操作。

(2)工厂总线虚拟冗余开关设置的OSM网络装置RM灯亮,总线网络冗余失去;单个或多个OSM网络装置FAULT故障灯亮;

3.2 故障原因

(1)OSM网络装置故障;

(2)OSM网络装置总线光纤接口故障;

(3)总线单路光纤损坏,此路通讯中断。

3.3 故障后果

(1)DCS工厂总线网络冗余失去,系统可靠性降低;

(2)单路网络保持正常工作,不影响网络上所有设备的正常运行。

3.4 故障处理

(1)检查工厂总线各OSM网络装置工作指示灯状态,确定故障OSM或光纤;

(2)在作检查处理前,做好隔离措施,避免影响另一路网络的正常工作;

(3)检查FAULT灯亮的OSM,FAULT灯亮表示OSM中有网络端口通讯中断或OSM故障;查看两个总线光纤端口状态指示灯,指示灯灭表示端口无数据通过,通讯中断,优先考虑更换此端口连接的光纤;

(4)更换光纤后,FAULT灯仍然亮着,则考虑OSM装置故障;对此OSM上所有连接设备进行分析,评估更换OSM时影响机组正常运行的程度,如果风险太高,建议维持单路网络运行,待机组停机时再作更换工作;

(5)如评估可在线更换,则更换前务必做好保护措施和隔离措施,避免影响另一路网络的正常工作;注意更换前先断开故障OSM的供电开关再进行更换,新的OSM跳线设置应与旧的一致;

(6)新OSM更换后,接入其所有端口的通讯接线,重新送电恢复OSM正常工作,确认FAULT故障灯和RM指示灯均已熄灭,工厂总线恢复冗余状态。

4.工厂总线网络瘫痪处理

4.1 故障现象

(1)机组跳闸;操作员站画面变红,失去监视。

(2)工厂总线OSM网络装置电源指示灯灭或FAULT灯亮;工厂总线OSM网络装置流量指示灯全黄。

4.2 故障原因

(1)外部设备接入,引起工厂总线网络风暴;

(2)OSM网络装置供电失去;

(3)OSM网络装置故障。

4.3 故障后果

(1)工厂总线网络瘫痪,各AP控制器间通讯中断,保护误动机组跳闸;

(2)操作员站画面变红,运行人员对机组参数和设备失去监视和控制。

4.4 故障处理

(1)工厂总线OSM网络装置供电失去时,检查网络装置OSM的供电回路,查找故障点,恢复供电;当DCS全部电源失去时,参考《DCS全部电源失去应急处置方案》进行处理;

(2)当工厂总线网络装置故障时,检查事件历史记录,查找网络故障原因;检查OSM网络装置指示灯,FAULT灯亮表示故障,RM灯亮时表示网络中断,冗余失去;当OSM故障时,更换OSM网络装置;当网络中断故障时,查找故障点,更换连接光纤;

(3)当网络风暴引起网络瘫痪时,检查工厂总线是否有外部设备接入,断开外部设备;检查控制柜CP1430通讯模件指示灯,RUN灯亮表示正常,STOP灯亮表示故障;检查工厂总线各网络接线是否有虚接、松动现象,确定其连接牢固、接触良好;断开工厂总线所有OSM网络装置供电电源,然后逐台送电重启。

5.终端总线网络冗余失去处理

5.1 故障现象

(1)操作员站ASD报警画面出现终端总线网络故障报警;DCS运行状态正常,不影响运行人员对机组的监视和操作。

(2)终端总线虚拟冗余开关设置的OSM网络装置RM灯亮,总线网络冗余失去;单个或多个OSM网络装置FAULT故障灯亮;

5.2 故障原因

(1)OSM网络装置故障;

(2)OSM网络装置总线光纤接口故障;

(3)总线单路光纤损坏,此路通讯中断。

5.3 故障后果

(1)DCS终端总线网络冗余失去,系统可靠性降低;

(2)单路网络保持正常工作,不影响网络上所有设备的正常运行。

5.4 故障处理

(1)检查终端总线各OSM网络装置工作指示灯状态,确定故障OSM或光纤;

(2)在作检查处理前,做好隔离措施,避免影响另一路网络的正常工作;

(3)检查FAULT灯亮的OSM,FAULT灯亮表示OSM中有网络端口通讯中断或OSM故障;查看两个总线光纤端口状态指示灯,指示灯灭表示端口无数据通过,通讯中断,优先考虑更换此端口连接的光纤;

(4)更换光纤后,FAULT灯仍然亮着,则考虑OSM装置故障,更换前务必做好保护措施和隔离措施,避免影响另一路网络的正常工作;注意更换前先停止与该OSM连接的计算机,断开故障OSM的供电开关再进行更换,新的OSM跳线设置应与旧的一致;

(5)如冗余服务器两台计算机都与故障OSM连接,则先将其中一台计算机的通讯线接至别的正常工作的OSM空余端口上,更换OSM的过程中,必须保持至少单路服务器正常工作,不少于两台操作员站供运行人员使用;

(6)新OSM更换后,接入其所有端口的通讯接线,重新送电恢复OSM正常工作,确认FAULT故障灯和RM指示灯均已熄灭,终端总线恢复冗余状态。

6.终端总线网络瘫痪处理

6.1 故障现象

(1)操作员站全部画面显示变红,画面上测点无法正常显示数值,失去监视;画面上设备无法点击操作,相关设备无法控制,设备就地运行状态不变;

(2)OSM网络装置电源指示灯灭或FAULT灯亮;OSM网络装置流量指示灯全黄。

6.2 故障原因

(1)外部设备接入,引起终端总线网络风暴;

(2)总线上计算机故障,引起终端总线网络风暴;

(3)OSM网络装置供电失去;

(4)OSM网络装置故障。

6.3 故障后果

操作员站全部画面变红,运行人员对机组参数和设备失去监视和控制。

6.4 故障处理

(1)终端总线OSM网络装置供电失去时,检查网络装置OSM的供电回路,查找故障点,恢复供电;当DCS全部电源失去时,参考《DCS全部电源失去应急处置方案》进行处理;

(2)当终端总线网络装置故障时,检查事件历史记录,查找网络故障原因;检查OSM网络装置指示灯,FAULT灯亮表示故障,RM灯亮时表示网络中断,冗余失去;当OSM故障时,更换OSM网络装置;当网络中断故障时,查找故障点,更换连接光纤;

(3)当网络风暴引起网络瘫痪时,检查终端总线是否有外部设备接入,断开外部设备;检查SU服务器MOD磁光驱是否处于工作状态,断开磁光驱与SU服务器连接;

(4)短时间内无法确认网络风暴的源头时,采用停止和重启所有OM计算机的方法。重启的顺序为:

1)PU1a、PU2a、PU3a,PU服务器为SU服务器与操作员站的数据服务器,优先重启单侧;

2)PU1b、PU2b、PU3b,重启另一侧PU服务器;

3)SU1a、SU1b,SU服务器也是操作员站的服务器;

4)操作员站OT1、OT2、OT3、OT4、OT5、OT6,操作员站为客户端计算机,需在服务器启动完后才启动;

(5)重启过程中如发现有计算机无法正确启动,在保证至少单侧服务器运行、操作员站画面恢复后再对故障计算机进行检查处理;

(6)系统恢复后,查看各OM计算机的诊断文件,查看网络瘫痪的原因,制定措施,避免同类故障再次发生。

篇3

关键词:GSM-R光纤直放站;故障处理方法

1.概述

GSM-R(Globle System of Mobile for Railway)是基于公共无线通信系统GSM平台实现移动话音和数据传输的铁路专用数字式无线通信系统, 典型的GSM-R系统采用基站对铁路沿线进行覆盖,较好地解决了区间通信问题。但是我国铁路线总里程长,通车地形复杂,山区、丘陵地带存在弱信号场区,隧道、涵洞为信号盲区。为保证GSM-R信号的全程覆盖,根据铁路沿线光纤资源丰富的有利条件,采用了大量的光纤直放站,主要应用于隧道内GSM-R的信号覆盖,同时兼顾外部空间场强GSM-R信号收发。光纤直放站是扩大网络覆盖,提高网络质量和设备利用率的有效手段,保障了列车高速运行的安全。

2.光纤直放站的工作原理

光纤直放站主要由以下几个部分组成:光近端机、光传输部分、光远端机、天馈线或漏缆。光近端机和光远端机都包括射频单元(RF单元)和光单元。无线信号从基站耦合出来后,进入光近端机,通过电光转换,电信号转变为光信号,从光近端机输入至光纤,经过光纤传输到光远端机,光远端机把光信号转换为电信号,进入RF单元进行放大,信号经过放大后送入发射天线,覆盖目标区域。上行链路的工作原理一样,移动台信号通过远端天线输入到远端机,把移动台信号放大到-30~0 dBm后送到光远端机,转换为光信号通过光纤传送到近端机。近端机把信号耦合到基站。

每一台直放站远端机都同时连接两个近端机,从两个近端机(基站)获取信号。远端机根据距离两端近端机的距离,各自选用不同的主用信号,且主用信号比从信号高6dB,即在相邻两个RU之间的漏缆上,同时有两路信号在工作,实现隧道内信号交织覆盖。当单点基站故障时,整个系统仍然能够正常工作。如下图所示:

3. 典型故障及解决方法

3.1直放站近端机脱管故障

在联调联试及开通运行之初,某直放站近端机出现脱管故障:网管上显示某一近端机(MU02)为黑色,与MU02连接的主、从光纤均为黑色,无法连接到该近端机。

原因分析

① 在网管上出现网管不到某个近端机的情况(脱管),而其他近端机网管状态正常,则可以排除网管服务器及终端设备出现故障的情况。

② Comlab直放站网管采用双网卡服务器,拥有A、B两个网段,经网线分别连接至传输设备的2个以太网口,而近端机内的交换机经网线和基站的622M传输设备的以太网口连接。所以传输侧故障和MU内放置的小交换机、网线障碍都可能造成网管通道障碍。

处理方法

① 故障现场需要配备一台笔记本电脑并将笔记本网卡IP地址设置为近端机地址,从基站传输设备上直接用网线ping网管的IP地址,如果可以ping通,则判断网管传输通道正常。

② 检查MU内放置的小交换机和网线,用网线测试仪测试网线正常;经排除法得出:只有MU内置的小交换机可能有故障,更换小交换机后故障恢复,网管能对该近端机正常监控。

小结

本例是由于近端机内放置的小交换机故障导致直放站近端机脱管。在日常维护中当直放站近端机/远端机脱管时,可以按照下面的流程进行故障排查:

① 现场检查设备电源头是否掉落或接触不良,查测电源线是否有电压(指标为:220V左右);

② 在网管服务器上ping故障近端机或远端机的IP地址(若是远端机则A、B两网段均需要ping)是否连通;

③ 现场检查远端机内部网线是否接触不良,检查近端机连接基站传输设备的网线以及机柜内网线是否接触不良;

④ 检查MU内放置的小交换机工作是否正常。

3.2直放站光路故障

某高铁线路直放站采用主、备、从3块光模块的方案,远端机(RU)从两个近端机(MU)获取信号,RU到主用MU连接有主、备用两根光纤,主、备用光纤径路不同,相互起到保护作用。RU与从MU之间采用单纤收发信号。当直放站发生光路故障时,通常网管上会上报两种告警:主链路网络故障、从链路网络故障,发生主/从链路网络故障告警时,从网管可以看到RU与MU连接的主/从光纤显示为红色。其示意图如下:

原因分析

当直放站网管上报主链路网络故障告警时,则表示主备光链路中有1路断开或者主、备光链路2路均断开;从链路网络故障告警,则表示从链路断开。直放站发生光路告警的可能原因有:

① 设备光纤或尾纤故障。

② 近端机或远端机收光故障。

③ 设备光模块发光故障。

处理方法

① 网管必须确定故障光路,即主、备光路故障或从光路故障。

② 到达发生光路的近端机(MU),观察MU光模块指示灯:TX绿色表示发光正常,红色则有告警;RX绿色表示收光正常,红色则有告警。

③ 用光功率计测试近端机及远端机收、发光功率(MU发光为1550nm、收光1310 nm;RU收光1550nm、发光1310 nm)。若不在门限值内,则检查尾纤和光缆。

④ 若光路没有问题,可以采用替换法来确定为近端机或远端机光模块故障,更换故障模块即可。

小结

处理直放站光路故障可分别从近端机、远端机的光路、尾纤开始排查,进而可用替换法来确定是近端机或远端机的光模块故障。即可按如下流程进行一一排查:

① 检查设备光纤连接;

② 查测设备光路是否通畅,近端机、远端机收光光衰是否符合直放站工作要求(指标为:>1dBm);

③ 检查设备光模块发光是否符合要求。

3.3 MU接收BTS的信号电平指标异常

某日检测车测试,发现01/R1、R2的主用信号及02/R1、R2的从信号都高于直放站近端机输入电平门限值。信号偏高容易造成切换点位置偏移,从而引起通话中掉话。

原因分析

当测试发现直放站近端机输入电平过高,可能原因就是BTS的输出电平过高。如示意图所:01/R1、R2的主用信号及02/R1、R2的从信号都是01/MU提供的,当4台RU接收到的信号均偏高时,可以判断出故障点为其共同的信号源,即01/MU提供的信号偏高。

           

处理方法

故障现场测试基站设备输出到直放站近端机的电平为35dBm。而直放站近端机输入电平要求为30 dBm,故高出5 dBm。有两种解决措施:

① 降低基站设备输出电平,但是会降低本基站信号对其他方向的覆盖。

② 在馈线上增加衰减器,但是会增加故障隐患点。

为了保证本基站信号对其他方向的覆盖,采取在基站至直放站近端机的馈线上增加5 dBm衰减器的措施后,4台RU的接收电平符合要求,故障排除。

小结

排查此类故障应掌握的知识点: 直放站近端机输入电平要求为30 dBm,基站到近端机的馈线连接包括功分器、衰减器等,所以一般情况下基站的输出信号约为42 dBm,经过功分器、衰减器及接头等衰减后,到达直放站近端机的电平值应略高于30 dBm。这样就不会因信号偏高而导致掉话了。

4.总结

     本文例举了几个GSM-R光纤直放站日常维护中比较典型的故障。在GSM-R光纤直放站日常维护中,经常会遇到各种故障现象并伴随着不同的告警指示,甚至同一种告警现象却是由不同的原因导致。只有透过故障的表象找到其本质,才能实现故障的准确定位并迅速排除。这就需要我们了解故障定位的基本原则,明确故障处理的思路,掌握常见的故障处理方法,才能从容应对各种异常现象,提高日常维护的能力,更好地为铁路运输安全生产服务。

参考文献:

[1] 钟章队等. 铁路综合数字移动通信系统[M]. 北京:中国铁道出版社,2003.

篇4

关键词 综合网络技术;计算机体系结构;网络故障管理方法

中图分类号:TP393 文献标识码:A 文章编号:1671—7597(2013)041-160-01

随着计算机网络技术的不断发展,本身特点也发生了很大的变化,最明显的特征体现在以下方面:接入网、汇聚网、骨干网与数据中心的相互连接;移动网与固定网相互连接等。综合网络的发展给网络管理的操作性以及动态性带来了更大的挑战,也使得综合网络管理变得更加广泛。

想要对网络进行有效的监管,需要运用委托的方式对运行中的通信技术进行收集和分析。然而,这种模式有着一定的缺陷性:在使用对象上缺乏普遍性,因为这种网络管理的对象只能局限于协议栈底层,不能对高层系统进行有效的管理,尤其是一些跨Internet的大型应用系统就不能使用这种系统软件来进行操作;另外就是这种管理系统缺乏一定的智能性,不具备较强的自动功能,并且还缺乏一定的实时性。

本文对综合网络管理体系结构进行了论述,并研究了系统管理技术、策略服务方案等一系列故障性问题。

1 管理体系结构

综合网络管理结构技术由四层模式组成:第一层是被管对象层,网管在对信息资源进行搜集整理的时候,可以通过其自身的网管进行整合并对故障发出警告。其中它支持的协议有TCP、SNMP、CLI、OSI、CMIP等;第二层网络管理层包括很多网元服务器,网络信息通过每一个网元服务器对资源进行转发和控制;第三层网络管理服务器的最大功能就是可以控制下层的网元结构,另外还可以提供信息服务;第四层系统服务器由多个应用系统管理(System Management SMA)和资源库组成。SMA能够查询资源列表和资源信息。

通过上述结构层次可以发挥网络管理多种特点,实现其可伸缩性以及相互操作性的特点。

2 综合网络核心技术分析

2.1 综合网络中的应用系统管理技术

大型网络应用系统具有信息资源丰富、用户多等特点,在使用这些网络系统的时候一定要有安全系统做保证,其中服务SMA可以快速查询资源信息列表。其中的网络网元服务器能够对相关资源信息进行搜集,然后通知网络管理服务器,最后将这些网络信息传至应用服务,将其过滤和注册,最终完成资源信息的搜集和应用。

2.2 基于资源依赖性分析的故障管理技术

随着应用系统资源复杂程度的提高,故障处理的难度也相应加大。在网络管理结构中,网络管理的中心节点经常要处理大量的事件信息,这样会出现网络阻塞问题,浪费大量的网络资源,还无法适应对故障处理速度要求较高的系统。充分发挥网元服务器的作用,可以实现局部网络故障智能处理的目的。智能处理故障具体工作流程如下:首先在网络对象工作出现故障时,网元服务器要尽快获取离故障最近处的事件信息,并及时地清除多余事件信息,然后再根据资源依赖性关系图和方法,对故障信息的关联性进行相应的分析和过滤,过滤后的信息交给网络管理服务器进行处理;或者采取有效措施对某些故障进行修复。通过以上信息搜集程序可以及时有效的查处资源信息发生故障的原因所在,并进行准确修复,不但可以节约了网络管理信息的流量,还能有效提高处理网络故障的效率。

2.3 策略服务方案

在策略服务的支持下,应用管理系统可以有效提高智能处理能力,并能系统性地解决问题,系统的扩展性也会增强。策略的产生、删除、修改、管理以及分发都属于策略服务的范畴。根据策略管理的作用可以将策略服务分为:

1)策略控制入口PEC(Policy Entry Console),可以提供一些关于策略及相关信息的存贮、浏览、删除、输入等工具供管理管理人员使用。网络管理员可以浏览并修改PEC读取的策略与策略信息,如果修改或删除了一条策略,CPC就会从PEC得知策略变化,并根据这些资源信息来对相关策略和结果做出判定,网络管理员能够利用这些结果对网络进行更好的控制,并对CPC做出指示,从而显示出及时更新的信息。

2)策略应用程序接口PAPI(Policy API),使用户在制定存贮、编辑、删除以及管理策略方面,通过自己编写的程序就能够直接完成。PAPI具有的接口功能,这些作用主要体现在:对网络客户的身份进行正确验证,同时将策略系统进行仔细配置,并将信息传接口的各个功能构造进行及时修改、储存等,PAPI实现了网络自动化管理的目的。

3)中心控制器CPC(Central Policy Controller)的主要作用是对策略辩护进行处理和分析,可以通过网络信息对策略进行准确检测,以确定出现了多少条变化的策略,在条件允许的情况下,中央控制器可以做出相应的操作。当发现某条策略变化时,中央控制器就能及时地将出现的相关情况告诉PDP(Policy Decision Point),并使其对变化策略的有效性进行检测。从物理角度来说,如果中心控制器处在一种分布式的环境之中,或许它是分散的,但是如果从逻辑方面的作用上来讲,中央控制器就是一个完善的整体。

4)策略决策点PDP(Policy Decision Point),能在对网络策略进行检测的时候,还能将其资源进行重新配置,并对网络对象进行沟通,处理PEP(Policy Enforcement Point)提出的不同策略的服务请求。也可以对现有网络资源对象中的策略与后来修改或增加的策略之间的矛盾进行检测,并告知PEP检测结果,由PEP对策略的实施情况及有效性进行检测。

参考文献

篇5

关键词:故障 工具 命令 分析 排除

中图分类号:TP3 文献标识码:A 文章编号:1674-2117(2014)16-00-01

随着国家网络信息化建设的深入,针对网络的维护变得越来越复杂多样,网络故障也随之日益增多。如何诊断网络系统所发生的故障、如何预防故障问题的发生、如何建立有效的管理网络、如何检测网络运行状况等问题,已经成为网络管理员面临的重要任务。当然,为了更好地分析与排除网络中的常见故障,对网络的安全进行基本的检测与维护、对网络环境下的常见操作系统进行检测与维护、掌握常用工具以及常用命令、掌握网络故障诊断的方法是网络管理员首先必须要做到的。

1 常见的网络故障排除技术

(1)参照法。参照法是一种比较快速解决网络故障的方法,它不需要懂太多的网络故障排除经验。但前提是只有当正常工作设备与故障设备具有相同的情况下才可以使用参照法。

(2)试验法。试验法就是不明确故障原因,通过不同的方法解决问题,从而最终得出解决故障的方法。但它并不能准确地对故障现象作出判断。

(3)替换法。替换法也是常见的故障检测方法。采用该方法,网络管理员首先要知道故障的大概原因,并且恰好手边有正常的设备可以让其选择。

2 网络故障排查的常用命令

(1)Ping命令。Ping命令是一个测试程序,正常情况下通过Ping命令可以缩小问题的范围,容易排除网卡、网络访问层、电缆和路由器等故障。常用的参数:Ping n 连续Ping N个包;Ping t 持续地Ping直到人为地中断;Ping l 指定每个Ping 报文的所携带的数据部分字节数0-65500。

(2)Netstat命令。Netstat是控制台命令,是一个监控TCP/IP网络的非常有用的工具。它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。Netstat用于显示与IP、TCP、UDP和ICMP协议相关的统计数据,一般用于检验本机各端口的网络连接情况。

(3)Ipconfig命令。Ipconfig命令可用于显示当前的TCP/IP配置的设置值。这些信息一般用来检验手动配置的TCP/IP设置是否正确。如果是DHCP动态获取的IP地址,Ipconfig可以让网络管理员看到是否成功地获取到IP地址,查看计算机当前的IP地址、掩码和网关。

(4)跟踪网络连接的Tracert命令。Tracert命令用来显示网络数据包到达目标主机所经过的路由信息,它能把数据包所走的全部节点的IP地址、路由信息、所用的时间都显示出来。

3 网络排查的各种工具

3.1 硬件工具

(1)网络万用表。网络万用表是一种定位于解决网络中单个节点不能上网的问题的设备。可以测试网线线缆的长度、接线图,帮助网络管理员迅速检修和诊断该节点至网络的连通性问题。

(2)网线测试仪。网线测线仪是一种对8根双绞线逐对(根)进行自动扫描,快速测试双绞线或同轴电缆的设备,可以用来快速测试网络的通断以及线序。

3.2 软件工具

超级网管(Super LAN admin)。Super LAN admin软件是相当实用的网络工具软件,功能强大且简单易用。其操作方式简单直观、程序界面友好,在局域网内的任何一台计算机上都可以使用。

4 常见网络故障分析实例

4.1 做好故障排查工作

在开始故障排查工作时一定要注意细节,排除大型网络故障如此,一般十几台计算机的小型网络故障也如此。因为一些最小的细节问题能使整个问题变得明朗化。一般故障排除模式如下。

第一步,当分析网络故障时,首先要清楚故障的现象。应该详细说明故障的现象和可能的原因。第二步,收集有关的信息。向用户、管理者和其他关键人物提一些和故障有关的问题。第三步,根据收集到的情况判断潜在的故障原因。第四步,根据最后可能的故障原因,建立一个诊断计划。第五步,执行诊断计划,认真做好每一步测试和观察,直到故障症状消失。第六步,及时记录改变参数后的结果。从结果分析问题是否得到解决,如果没有,就要继续下去,直到问题解决为止。

4.2 故障现象及分析案例一

(1)故障现象:笔者邻居家里的计算机有一次无法拔号上网,在宽带连接时跳出错误提示用户和密码无效,可是重复检查密码和账号信息并没任何错误的现象。

(2)故障分析:错误691是宽带adsl拨号上网用户常常遇到的故障提示。宽带adsl拨号上网使用pppoe协议连接,通过电话线传输数据,使用adsl专用modem实现数据的调制解调,提示错误691真正意义上来讲可能是以下原因: ①域名出现错误(用户名或密码输入错误); ②电话或宽带到期欠费造成;③服务器无反映(机房用户端口错误或账号未被激活);④硬件故障。

(3)故障解决:笔者询问得知电话费没有欠缴,这应该是网卡驱动的问题,所以把网卡驱动重新装了一下,重启计算机后,拔号上网,问题得到解决。

4.3 故障现象及分析案例二

(1)故障现象:学校机房最近总是间断性出问题。 不能上网、不能上QQ,QQ游戏能玩儿,且不止一台计算机出现这个问题。

(2)故障分析:综合分析,QQ游戏能玩,说明机房网络还是通的,如果只是一台机器出现这种情况,网页打不开时只要把IE设置修复下就可以。QQ上不去,修复下QQ或重装一下就可以。如果是整个机房局域网都是这个问题的话,那就可能是局域网内有机器中了ARP欺骗病毒。

(3)故障解决:用SuperLANadmin扫描软件找到源头,果然有一个学生使用U盘,使该台计算机中了病毒,把这台计算机断开网络后,网络才恢复正常。

计算机网络技术发展迅速,网络发生故障复杂性是不可避免的。网络建成运行后,网络故障诊断、分析、排除是网络管理的重要技术工作。为了更好地提高网络管理水平,网络管理人员应该认真了解有关网络的技术,清楚网络的基本运作与系统参数设置及有关网络工具软件的使用。

(江苏省盐南中等专业学校,江苏 盐城 224005)

参考文献:

篇6

关键词:动车组;空调系统;应急处理手册

1 问题描述

动车组的应急处理手册是动车组随车机械师处置突发故障的作业依据,因此指导书中的描述明确与否可以直接影响到随车机械师处置故障响应的快慢,也可以影响应急指挥人员对随车机械师的指导是否及时与正确。笔者在哈尔滨动车段从事CRH5型动车组的空调系统故障处理工作近3年时间,尤其擅长处理空调控制系统故障,在本文中笔者将结合自己的工作经验和理论知识,讨论CRH5动车组应急处理手册中一部分内容的正确性与明确性与否,具体地说就是:更加明确地指出了一些机械师需要操作的按钮的名称和它的位置,同时也指出了手册中的少量错误、遗漏或者没必要的操作并进行改正,下面笔者就分类介绍一下。

2 具体改进方案

2.1 全列车空调故障的处理

应急手册中处理过程描述:检查动车组司机台上的空调集控开关是否处于工作位置,司机室的QCA柜空调系统相关空开是否闭合正常;若集控开关关闭,则将其开启后故障自动排除;若集控开关开启,则进行下一步骤;检查电气柜内的K25有没有亮起,若K25不亮,可以将K25打到手动强制吸合。

原方案只是说了操作旋钮,并未明确是哪个操作旋钮,笔者认为应该在原方案基础上明确具体操作旋钮的名称S5及QCA柜中空开的名称36Q101,这样就让笔者们的应急手册所描述的操作有了明确的指向性,缩短机械师应急操作的时间,提升应急处置故障过程的效率,减少了误操作的可能性。

2.2 单车空调故障

(1)手册原处理过程:若K25继电器不亮,则进行复位操作以重新构建网络。通过空调E版图分析,E版图当中K25继电器由35Q01空开、35Q02空开供电,如果K25网络信号确失,则按照故障点发生的概率应首先检查最容易存在问题的地方,首先检查该车35Q01,35Q02空开,单车故障一般不是网络故障,不用进行网络修复(RIOM故障可能性极小),如果没有什么异常,此时考虑K25继电器自身是否有故障,可以将K25与其他型号相同继电器进行对调使用(不影响其他系统正常工作的前提)。

(2)手册原处理过程:若QEL柜内接触器K25工作正常,检查QEL柜面板上35系列空开35Q01和35Q02是否工作正常。同理,通过上一条分析能够知道若QEL柜内接触器K25显示网络信号正常,35Q01空开、35Q02一定是处于闭合状态,因此没有必要进行此项多余的检查操作。若QEL柜内接触器K25显示网络信号正常时,应该首先检查QRK柜S1旋钮是否置于自动位,只有当旋钮处于自动位时空调才可以自动对客室内的温度进行调节,但是旋钮S1处于何种位置并不会影响K25继电器的吸合,K25继电器为空调的网络启动信号。S1旋钮,处于手动位或通风位时和K25继电器的工作状态都得是正常的。若S1旋钮位置正常,下一步应观察动车组是否有中压电,若动车组有中压电而且扩展正常,则应检查35Q04空开和空调控制柜内的Q1,F12,F4 3个空开。

(3)手册原处理过程:若废排风机不工作导致车辆在站台上塞拉门无法关闭时,可暂时停止本车空调机组工作,待塞拉门关闭后开启空调。

改进建议:主要是对该条故障进行一个补充,修改后为废排风机不启动中:若K12不吸合,用万用表交流电压档测量K12上口405对1283有无AC24V,如AC24V正常,K12不吸合可断定为接触器故障,可断开F11短接K12接触器1214-402,1215-403,1216-404处理,同时短接其常开触点1004-1155线,闭合F11。如AC24V不正常,应急时可将1018号线(AC24V)与405短接。(此方法可能造成废排风机烧损)。 若废排风机不工作导致车辆在站台上塞拉门无法关闭时,可暂时停止本车空调机组工作,待塞拉门关闭后开启空调。

(4)手册中的原描述为,检查QEL柜内的接触器K6是否吸合(见图1)。如果继电器K6动作,在中压供电和动车组网络都正常的时候,视情况对动车组进行小复位操作,看一看能否清除空调应急通风状态。

手册中说明的是应急通风继电器K6吸合情况下的应急处理过程指的是动车组的应急通风启动,通过分析和经验总结,笔者认为该检查及处理的过程整体存在错误,不能够达到经过应急处理后使动车组恢复正常的目的,该故障发生时并不是网络故障,小复位也不会起到任何的作用。

修改后的方案,综合检查,不仅仅检查K6,要检查QEL柜内的接触器K5,K6,K7是否吸合。如果是K6吸合,K7吸合,K5不吸合,如果出现该现象,那就是启动了应急通风,最先检查应急通风按钮,看一看应急通风是否被人为误启动,如果误启动将按下的按钮弹起;如果不是,还需要检查K6接触器是否被烧损。另外如果K5不吸合,K6吸合,K7不吸合。代表本节车空调系统没有3X400VAC电压,首先检查动车组的空调系统主电路是否有3X400VAC电压,若正常,首先检查F12是否闭合(可能性最大首先检查),F12为中压转换和检测空开,若该空开不闭合,闭合后故障可以消除。

(5)手册原始描述为,若压缩机不工作,检查电气柜内的保护继电器F1,F2 接线是否存在松脱、是否有焦味等。若出现上述现象,需进行修复。若无上述现象,检查 电气柜内保护继电器K27和K28 是否工作正常,若果不正常,则可以判断为网络故障,修复动车组网络。若 K27和K28继电器工作正常,如图2所示,检查 K30继电器工作亮不亮,如果不亮,首先判断动车组的通风系统有没有启动,如果启动了,是检测风压的开关发生了故障现象,这时需要短接 K30继电器。

篇7

【关键词】EOC 故障分析

【中图分类号】TN929.1【文献标识码】A【文章编号】1672-5158(2013)02-0427-01

引言

随着三网融合方案的确定,为了满足用户对双向业务的需求,EOC宽带上网方式在广电行业中得到不断地推广,利用EOC技术进行有线电视网络宽带、双向化改造,可以有效发挥有线电视网频带宽、成本低、易普及的优势,有利于有线电视网络建设的快速发展,同时满足广大居民的多方面需求,由于有源EOC是一个全新的事物,在改造网络和发展用户的时候,经常碰到了一系列的故障那是不可避免的,只有顺利解决各种问题,保证网络的正常运行,才能顺利开展业务。

1.EOC技术简介

EOC (Ethernet over Coax)是用于在同轴电缆上传输宽带数据信号的一种技术,就是将宽带信号经过调制后与电视信号混合在CATV同轴电缆上传输,然后在用户终端通过Cable model 解调分离出数据信号。可以在不增加布线、不改变原同轴电缆及设备、不需要有线电视双向改造的情况下,实现了有线电视双向改造的功能,可以在不影响有线电视信号传输和收看的同时通过同轴电缆实现高速上网。

2.常见故障分析

目前广电在城区及乡镇基本上都开展了宽带上网业务及相关增值业务,而采用EOC技术在广电行业中占的比例最高,特别在面广的农村,因此如何有效的做好有线宽带网中的日常维护工作,确保其安全稳定的运行,这是网络维护人员的一项非常重要的工作,也是宽带业务能否顺利发展的关键工作,下面就本人在维护中遇到的常见EOC网络故障分析如下。

2.1 用户时常掉线、速度慢、丢包严重

此现象一般是由于该EOC终端至局端之间的衰减接近了临界值(65dB左右)。为此,维护人员用场强仪确认终端至局端之间的分支分配网络的衰减在是否在EOC正常工作范围之内(低频建议衰减控制

2.2 距离近的用户能上,距离远的用户不能上

此现象一般是由于该EOC局端故障或内部模块问题, 链路衰减比较严重,导致距离近的用户在EOC正常工作范围之内,距离远的用户超出了范围。

2.3 某个局端下多个用户经常掉线

出现这种现象有两种可能:

(1) 源于噪声,这些噪音出自于某些非EOC用户使用的家用电器,尤其是某些劣质设备的高频头会产生较强的低频噪音恰好落入EOC工作频带,导致EOC系统工作不稳定,此时需要排查和处理噪声源,通过采用逐级排查方法,排查到噪音源后,在噪音源接入处加一个高通滤波器以阻断低频噪音,再重新接入局端。

(2) 局端下接入用户数太多,超出了一定数量,因带宽限制,也会造成用户经常掉线现象。解决方法是增加头端数量,分散单一头端下所带用户数,减少出问题的可能。

2.4 用户Cable modem的cable灯不亮

这种现象可能由以下原因引起:

(1)用户面板处连接不紧密,从而造成了虚头连接,检查用户面板与Cable modem连接;

(2)从EOC终端至EOC局端衰减值太大,超过了Cable modem的接收阀值,可检查此段线路,调整分支分配器配置。

2.5 用户Cable modem的cable灯全亮,就是不能上网

这种现象此种情况首先看用户家里是否有家用放大器,然后看链路上的放大器是否调整好(单向放大器需要安装桥接器,双向需要反向直通):

(1)如果此时用户的cable灯间隙性闪烁,说明链路上某个分支分配器的接头没有接好,使它一直处于虚通状态,一般由于用户家的接头引起。

(2)如果用户终端的cable灯很暗的时候,很大的可能就是链路的衰减过大。衰减过大的可能原因一是因为有有用户家私拉乱接而引起来的,第二个可能就是链路上的分支分配接的太多,需要调整网络线路。

2.6 用户能上网,数字电视有马赛克

针对这种现象,一般为线路接头分支分配与用户家的面板是否接触正常或者在猫前面加高低通隔离,以及用户线是否存在干扰,还有检查用户CATV电平相对低了的话需要调整线路分支分配或者增加光机电平。

2.7 用户新装能上网,指示灯全正常,过一段时间后不能上

这种现象表现为重启EOC局端后,用户又能上一会儿,过后又获不到地址,一般是几个EOC局端之间发生了串扰,通过EOC网管你会发现不能上的EOC终端显示在其他的EOC局端下面,这时你要调整网络结构或在上联设备上做端口隔离。

2.8 其他故障类型

不在上面几种故障之例的故障, 比如光功率不满足要求,导致EOC局端上联ONU掉线,光缆故障、电源故障、用户家电脑故障、卫星电视串接入有线电视分配网络等都比较容易处理。

3.结束语

总而言之, EOC网络就是最后的四百米同轴网络。做为一个EOC网络维护人员我们所要做的其实就是保证这最后四百米信号传输与设备运行的稳定可靠。对于EOC网络的故障处理都是基于对故障的了解及多方面分析,由于广电有线宽带网络规模越来越大,也越来越普及,故障的发生是正常的,对于业务的开展是基于网络稳定的前提下, EOC网络故障类型很多,本文只简单介绍了几种常见的故障分析方案,对于其他一些要在平时网络维护中经过不断的实践攒积经验与学习新的知识,才能得心应手地去解决问题,保证网络的正常运行。

参考文献

[1] 许俊国;EPON+EOC宽带故障理由和排查思路策略毕业论文《有线电视》;2011年

篇8

关键词:网络通讯技术;软件故障;原因;措施

网络通讯技术的发挥需要借助计算机,这项技术在应用的过程中会因为计算机硬件或者软件问题而出现故障,其中软件故障的产生也说明软件系统结构存在漏洞,还不够完善,软件故障产生的原因较为复杂,可以分为内部原因以及外部原因,如果不及时对软件故障进行处理,可能会导致软件系统失效等严重问题。本文对软件故障的类型以及具体的解决措施进行了详细的介绍,希望可以有效的解决网络通讯技术的软件故障。

一、软件故障产生的原因

软件故障产生的原因可分为两种类型,一种是内部原因,另一种是外部原因。内部原因指的是计算机内部软件设计存在一定问题,计算机在人们的生活中比较常见,而且计算机的功能也随着设计的改进不断增多,在科技不断发展的影响下,计算机处理数据的过程也越来越复杂,处理的数据也不断增多。这些技术的改进使得网络通讯越来越方便,但是通讯软件规模在扩大的同时,软件设计的难度也增大了。计算机软件设计的难度越来越大,这也考验了设计人员的能力与技术,有的设计人员由于经验不足,使得软件结构存在很大漏洞,造成软件故障。外部原因指的是软件在使用的过程中,由于软件测试缺乏实际性而出现的软件故障,软件测试是一项比较重要的工作,其可以检测出软件在使用过程中可能存在的问题,并对其进行改进,但是有软件开发公司,在测试软件的过程中选用的是开发环境,这与软件的使用过程并不符合,无法有效的测试出软件的问题,所以,也无法及时处理软件的故障。

二、软件故障诊断

软件故障的诊断需要遵循一定原则,在诊断的过程中,要在软件正常运行的状态下进行故障查找,还要观察软件在未使用情况下的表现形式,这样才能诊断出软件故障的源头,并找出具体的应对措施。在当前计算机软件规模不断扩大的背景下,软件开发与设计越来越复杂,在这一过程中,由于设计人员的疏忽出现失误的情况在所难免,所以,一定要做好软件的检测工作,这样才能使软件在投入市场后,发挥其应有的功能与效用。软件故障的诊断需要贯穿其整个设计与使用的过程,要对软件设计方案、维护技术以及软件检测进行故障排查,在这一过程中,需要经历故障检测、确定、处理以及交付四个阶段,在实际操作的过程中,还需要根据不同的要求对故障检测进行改进。

软件故障检测是一项基础的工作,其对软件的处理有着重要的影响作用,在检测的过程中需要用到很多技术与方法,其中常用的有静态软件技术、动态检测技术、模拟技术等等。在实际检测的过程中,首先要了解故障的表现形式,对其进行识别与定位,要掌握故障出现的细节问题,在什么进程中出现故障的频率最高,软件的操作是否存在不规范的问题等等,只有了解这些细节问题,才能有效的找到处理措施。

软件定位与确认的阶段,需要利用计算机的存储系统,通过归纳总结、数据分析以及代码检测等方法对故障的形式进行诊断,这一过程可以确定故障存在的位置,是故障处理的准备阶段。做好定位工作缩小故障范围越来越小,确定故障位置,尽快制 定出排除计划。

软件故障消除是通过分析故障原因和故障定位,对故障 以及故障可能影响到的范围进行修改、纠正。具体包括消除 的申请与审核、排除计划的制定、排除计划执行、复查软件、软件回归测试、审核与交付。具体见下图。

三、软件故障的维护措施

要想减少网络通信故障,使网络更加稳定可靠,需要对网络进行全面的维护。对于网络维护人员,在软件方面,常见的维护有以下几个方面:

1、对网络安全性的维护。对网络安全性的检测主要包括。对服务器上安装的防病毒软件进行定期升级和维护,并对系统进行定期的查杀毒处理;对服务器上安装的防火墙做不定期的的系统版本升级,检测是否有非法用户入网入侵行为;对联网计算机上的数据库做安全加密处理并对加密方式和手段进行定期更新,以保障数据的安全性。

2、网络通畅性维护。在进行网络维护的过程,经常会遇到网络通讯不畅的问题,其具体表现为网络中的某一结点的其他主机,显示一个很小的数据包,需要几百甚至几千毫秒,传输文件非常慢,遇到这种情况 应首先看集线器或交换机的状态指示灯,并根据情况进行判断。

3、对交换机 、路由器 以及集线器等 网络设备进行检 查,要重点关注其运行状态以及设备的系统配置。

4、检查网络设置,注意服务器是否正常,是否能正常访问,还要查看协议是否正常。

5、检测网络的通畅性 。网络不通畅是网络维护中经常出现的问题,具体表现在网络中的某一点Ping其他的主机,显示 数据包需要花费几百甚至几千毫秒,此时文件传输非常缓慢, 这种情况下要查看集线器和交换机的状态,根据情况做出判断。

6、网络安全性的检测。这方面的维护具体包括:对系统进行定期的查毒杀毒,消灭病毒和木马;对服务器开通防火墙,保持版本的时常更新,检测是否有用户入侵行为;对计算机上 的数据库做安全加密,保障数据的安全性。

四、结语

网络通讯技术是一项先进的技术,其在人们的生活中应用比较广泛,而且给人们的交流与沟通带来了很大的方便。随着计算机各项功能的增多,计算机软件的规模在不断扩大,各项软件的设计难度也越来越大,在设计过程中稍有纰漏就会造成软件故障问题。计算机软件在投入使用前,需要先对其进行检测,在这一过程中需要选择正确的检测环境,否则会影响检测的结果,有的软件开发公司在开发环境下进行使用检测,这种检测结果是缺乏实际意义的,容易造成软件缺陷。为了避免这些问题,相关人员一定要采取通过学习,不断的提高自己的技术水平,从而使网络通讯技术越来越发达。■

参考文献

[1]包东飞.计算机网络通讯技术故障分析与处理[J].信息系统工程. 2010(12)

[2]黄望宗,杨建军,彭东.IP网络故障诊断与排除方法探讨[J].计算机工程与设计. 2007(14)

篇9

论文摘要:可信网络已经成为下一代网络研究的新趋势,可信网络中如何保证网络可用、可生存是可信网络研究的重要组成部分。该文对可信网络的研究内容及网络可生存性的研究现状进行了简介,概述了网络可用、可生存性是一个综合管理信息。通过对网络服务可用性、链路生存性、IP网络生存性及网络带宽测量的总结,对可信网络中如何保证网络可用进行了展望。

1 研究背景

随着互联网规模和应用的快速增长,互联网已经融入了我们日常生活,成为最大的管理信息系统,但是互联网的快速发展也带来了日益突出的网络安全问题,如网络病毒、恶意攻击、垃圾邮件等,导致网络用户对网络的可信度下降。网络正面临着严峻的安全和服务质量保证等重大挑战,保障网络可信成为下一代网络正常发展的重要保证。“高可信网络”已被正式写入国家中长期科学和技术发展规划纲要,为可信网络的发展确定了发展目标[1]。

目前可信网络主要研究的内容包括三个方面:服务提供者的可信,网络信息传输的可信,终端用户的可信[2]。而可信网络需要解决的问题包括四个方面:一是建立网络和用户的可信模型,二是可信网络的体系结构,三是网络服务的可生存性,四是网络的可管理性[3]。为整个系统建立可行的身份可信和行为可信评估模型,解决了传统的网络安全检测只能针对局部进行检测的局限。由于单个网络技术或产品在功能和性能上都有其局限性,以及网络安全的发展趋势由被动检测向主动防御方向发展,需要重新设计一种可信的网络体系,整合多种技术并在多个平面上进行融合。网络服务的可生存性是可信网络研究的一个基本目标,也是网络基本服务可用性的保障,通常采用容错、容侵、面向恢复的计算等方式来保障网络基本服务,同时也可以将网络服务可生存性理解对冗余资源的调度问题,即为某服务关联的冗余资源设计合理的调度策略,借助实时监测机制,调控这些资源对服务请求做出响应。

可信网络中网络可用、可生存性是一个包含服务可用和资源可用的多方面的综合要求,不同的用户群体对网络可能提出不同的要求,关注不同的重点。网络用户和服务提供商主要关注网络服务的可用性,网络运营商更关注物理链路和IP网络的可用性。

2 保证网络可用的研究方面

网络可生存性指对网络系统基本服务可用性的保障,即在系统发生故障或者遭受恶意攻击时仍按照要求及时完成任务的能力,或者重新配置基本服务的能力。网络可用、可生存性是可信网络的基础。

2.1 网络服务可生存性

网络服务是下一代互联网的中心,造成网络服务失效的原因可归纳为软硬件故障或网络攻击破坏用户行为。网络服务可用、可生存性主要指在软件系统的设计,使用和评估过程中,保证提供服务的安全可靠性和可用性。目前这方面的研究主要包括网络信息系统可生存性,p2p网络可生存性,Ad hoc网络可生存性,网络态势分析中服务可用性这几个方面,研究的热点在AD hoc网络和信息系统的可生存性评估。

2.2 网络链路可生存性

网络链路可生存性主要包括对故障的抵抗能力,故障发生后业务的恢复能力,引入了路由机制,可用性评估机制来增强网络生存性,提高网络可用性。

传统的生存机制只考虑一种网络中发生单一故障的情况,并多采用某种单一的技术实现帮故障链路的重新选路,文献[4]等人针对传统子网路由法存在的问题,在子网路由法中考虑了对共享分享链路组的恢复问题,并引入了选路原则,提出了具有多重故障恢复能力的光网络生存性机制,提高了网络的恢复效率同时解决了二次故障的生存性问题[4]。

为了公正的评估网络生存性,文献[5,6]定义网络可用性概念为可用性与阻塞率的平衡点对应的可用性值,设计了动态业务下的网络可用性算法DNAA来得到网络可用性值,并定义了网络的运行性能等于网络的业务接受率乘以业务要求的可用性,算法在保证网络具有最好的运行性能下获得最高的网络可用性[5-6]。

为了能够使网络在出现流量变化和链路故障时有效避免链路拥塞,增强网络的生存性,文献[7]提出了一种通过优化链路权值来增强网络生存性的方案。该方案在选择链路权值时考虑了所有可能的链路故障情景和网络流量的变化,通过引入费用函数对过载链路赋以高费用的方法来避免链路过载,并利用遗传算法在所有可能的链路权值组合中寻找使链路费用之和最小的组合[7]。

2.3 IP网络可生存性

IP网络中IP路由具有较好的鲁棒性,可以在复杂的网络故障场景中提供相应的保护和恢复机制,IP网络的生存性是网络生存性研究的一个子集,常用的方法为多路径路由和快速重路由等方式。

随着交互式应用和各种实时业务的增长对网络生存性要求的提高,IP网络的生存性研究受到了越来越多的关注,文献[8]对IP网络生存性进行了总结,首先对IP网络生存性面临的问题以及影响因素作了概括,并且对目前有关纯IP网络生存性、MPLS网络生存性、IP网络与底层的生存性协调研究作了归纳总结,尤其对纯IP网络的生存性研究现状从多方面进行了比较详细的介绍,最后指出IP网络的快速重路由机制具有很好的实际应用潜力,保护恢复能力和服务质量在MPLS网络中的结合、动态多层保护则是未来IP骨干网生存性维护的发展方向[8]。 转贴于

多路径路由机制也是提高IP网络效率、保障网络安全的主要方式,也是安全路由机制的重要手段。多路径策略能够在局部节点或链路因失效而不能进行数据传输的情形下,使用备用路径保证通信的可靠性。针对现有的针对多路径路由机制的研究大多数是基于实验观察和仿真研究,且大多是针对特定应用场景而提出的启发式算法,缺乏普遍意义。文献[9]从理论上分析多路径策略与网络性能及生存性之间的关系,从点到点网络入手提出了多路径机制下的网络干扰影响模型,对干扰环境下网络性能的上限进行了探讨[9]。

同时为了解决极端环境下的故障处理、故障处理中的负载均衡、关联故障的处理,文献[9]定义网络的可生存性为,系统在受到攻击、故障、意外事件等情况的影响时能够及时完成任务的能力,建立了一种基于性能的网络生存性评估模型,提出了一种基于偏转路由的故障处理技术,以实现对节点故障以及链故障的快速处理,并研究故障处理过程中对负载均衡以及对服务质量的支的问题。提出了两种极端环境下的故障处理技术,分别针对节点可靠、链路不可靠和节点、链路均不可靠的情况。提出了基于连通支配集合的重路由技术,应用于节点可靠而链路不可靠的情况。

2.4 网络可用带宽测量

网络测量可用于评估网络的可用性,是重要的网络性能参数之一,可用带宽测量在路由选择,服务质量,流量工程等方面具有重要的作用。一类是基于探测间隔模型PGM,另一类是基于探测速率模型PRM。

为了对网络可用带宽进行探测,文献[10]在参考BFind和PathLoad的基础上, 针对端到端的网络、基于包排队方式的双向双步长网络路径可用带宽的探测方法[10]。该探测方法由时延监视和UDP发送两个进程组成,基于包的排队时延来获取路径的可用带宽,并通过采用双向双步长的方法来递增或递减UDP包的发送速率。和PathLoad相比实现更加简单,可以缩短探测次数和运行时间,和BFind相比降低了探测带来的开销。

3 总结

可信网络已经成为下一代网络研究的新趋势,可信网络中如何保证网络可用、可生存是可信网络的重要组成部分。本文对可信网络的研究内容及网络可生存性的研究现状进行了简介,进一步发现了网络可用、可生存性是一个综合管理信息。通过对网络服务可用性、链路生存性、IP网络生存性及网络带宽测量的分析,可以得出对于网络可用、可生存性的研究一方面需要从可信网络的体系结构中归纳相应的模型,对网络可用进行定量测量,同时需要从网络源端进行保证和完善可信网络中网络可生存性的目标。网络可生存性的研究还可以从资源调度角度出发,为同某服务关联的冗余资源设计合理的调度策略,调控这些资源对服务需求做出的响应。

参考文献:

[1] 林闯,田立勤,王元卓.可信网络中用户行为可信的研究[J].计算机研究与发展,2008(12):2033-2043.

[2] 林闯,彭雪海.可信网络研究[J].计算机学报,2005(5).

[3] 林闯,任丰原.可控可信可扩展的新一代互联网[J].软件学报,2004(12):1815-1821.

[4] 曲桦,李增智.具有多重故障恢复能力的光网络生存性机制[J].北京邮电大学学报,2006(S1).

[5] 林蓉平,王晟,李乐民.一种考虑阻塞率的WDM网络可用性算法[J].电子科技大学学报,2007(1).

[6] 林蓉平,王晟,李乐民.一种基于运行性能的网络可用性算法[J].电子与信息学报,2006(11).

[7] 于涛,陈山枝,李昕. 一种通过优化链路权值来增强网络生存性的方案[J].高技术通讯,2008(7).

[8] 吴静,郭成城,晏蒲柳.IP网络生存性研究综述[J].计算机科学, 2007(5).

篇10

关键词:移动通信;备份技术;网络容灾

网络安全是近年来人们最为关心的话题之一,是影响移动通信服务质量的首要因素。在目前的工作中,为了提高网络传输水平和运营商工作效率,移动通信运营商在工作中必须要为用户提供一个稳定、安全、高质的服务,但是由于在工作中受到工作人员错误操作、设备本身故障、自然灾害等因素的影响,造成了移动通信网络节点故障往往都是不可以避免的。尤其是交换设备故障,更是经常产生的一种移动通信网络故障现象,这主要是由于其设备位置较高、其故障损害较大而引起的。基于这种社会发展现状,在目前的移动通信网络中,各运营商提出了容灾备份技术,且经过多年的工作实践已经趋于成熟。目前常见的容灾备份技术主要有以下几种。

一、HLR设备的容灾备份技术

HLR作为目前GSM移动网络中最为常见的容灾设备,是网络内部所有业务开展的基础支撑依据,负责着全网用户数据的搜集和储存。在目前的一定通信网络工作中,对HLR设备进行备份是极为关键的,其主要的目的在于当HLR在发生重大安全事故且无法在短时间内恢复的时候,则可以在规定的时间内启动另外一个HLR设备来代替已经发生故障的设备,从而为用户提供可靠的通信服务,以保证移动通信网络的服务质量、服务安全。在目前的工作中,对于HLR设备的容灾备份技术常采用的方法主要包含有1+1临时备份方案、N+1实时备份方案和N+1临时备份方案三种。

1、N+1实时备份方案

这一方案的制定是在网络系统中每一个HLR设备上配置一个容量、型号、性能相同的备份HLR设备,其中在设置的过程中两个设备之间的软件、硬件以及配置功能都是完全相同的。一般来说,在工作中,备份的HLR与主HLR设备之间是通过有关线路进行连接的,并且对于各种数据都是时时刻刻的进行自动备份,这就避免了在设备发生故障之后网络出现中断现象,从而满足了目前人们对网络环境的稳定、高质和安全要求。但是这种设备备份技术在应用的时候由于方案投资成本大、后期运营成本高,新建HLR的时候必须要对已经建成的设备进行分析,且利用率极低,因此在目前的工作中这种方法只适用于那些故障多发地区。

2、N+1实施备份方案

这种方案是基于N台主HLR设备的基础上,采用1台备份设备作为临时数据的贮存器。这一台HLR设备在运行的过程中是针对附近N台HLR所产生的数据进行备份、分析的过程。在这种基础上,当N台HLR设备中其中任何一台在发生故障的时候,备份的HLR设备能够及时的接管这一区域的网络资源和控制工作,保证故障的存在不对全网服务造成影响。其中,在工作的时候是一个发挥效益最好的一种方案。但是由于在工作中受到HLR备份设备容量和能力的限制,造成了在工作中经常会出现一些故障处理不合理、处理不科学的现象,这就给网络运输带来了一定的难题。

3、N+1临时备份方案分析

这种方案的选用是采用1台备份HLR设备对N台主用的HLR设备做服务的。其中备份的HLR设备需要存储由它在工作中认为需要存储的数据,从而实现设备效率的最大发挥。在这种基础上如果是采用N台设备中存在有1台HLR设备,那么其设备中的静态数据很难及时的得到优化,从而造成了设备在使用中存在一定的问题。这就需要对于备用设备的容量给予高度重视,并且对其安装位置、业务恢复时间进行明确的规定。N+1临时备份方案的应用对于HLR设备出现故障较低、区域环境灾害较少的条件下有着重要的意义和作用,而对于一般区域而言,其在工作中却是一个极难发挥出应有功能的模式,因此在应用中存在着一定的制约性。

二、软交换MSC服务器设备容灾备份

MSC服务器作为软交换设备的控制面实体,是移动网中所有业务的基础支撑网元,负责全网业务的移动性管理和呼叫控制,MSC服务器应急容灾系统应遵循最大程度地减少对业务的影响及减少业务中断时间,提高用户感知度的总原则,保障移动通信网业务的顺利运行。

2.1.N+1主备方案

多个MSC服务器配置一个备份MSC服务器。备份MSC服务器具有所有N个主用MSC服务器的数据。正常情况下Ⅳ个主用MSC服务器承担各自的业务,备份MSC服务器没有业务。当某个主用MSC服务器故障时,备份MSC服务器激活该故障MSC服务器相关的静态配置数据(和动态用户数据),MGW重新注册到备份MSC服务器,备份MSC服务器接管故障MSC服务器的、世务。其中备份软交换拥有主用软交换相同的信令点和MSC号。此方案倒换时间基本为分钟级(10min以内)中断,可以实现自动决策自动倒换。为防止乒乓倒换,应采用人上决策倒换。同时倒换过程不需要其他网元设备配合修改数据。

2.2 1+1互备方案

1+l互备容灾方案中,两个MSC服务器正常时都有自己的业务,并且同时作为对方的备份MSC服务器,当对方故障时,则接管对方的业务,本设备就相当于两个虚拟MSC服务器。

2.3 MSC池互备方案

多个MSC服务器组成一个池,池内MSC服务器共同工作。池内多个MGW/BSC对多个MSC服务器节点之间是资源共享关系;控制逻辑关系全连接:正常情况下MGW/BSC基于用户标识以一定算法决定核心网路由,以NRI编号并作为后续寻址方式。MSC服务器故障时,MGW/BSC改变算法将“归属”该服务器节点的用户调整到池内其他服务器节点。MSC池实现了无损、多故障点的资源池容灾。并且满足自动决策自动倒换。但是该种方案倒换以后,用户必须发起一次主叫或者进行位置更新,才能正常被叫。

三、交换网络容灾备份技术的缺点及对策

1、目前传统MSC和BSC基于TDM技术,网元容灾无法做到快速接管。

2、容灾备份大大增加了设备的数据备份和同步维护工作,需运维建立柑关维护制度,投入一定人力。为解决以上问题.需要逐步史换TDM—MSC和BSC来支持VoIP的软交换设备,把现有MSC/MGW的容灾方式向未来的池方式发展,纳入到统一维护管理中来。

四、结束语

为降低移动通信网络核心网元重大故障刘业务的影响,消除单点隐患,各通信运营商已在制定并实施容灾方案。由于不同的容灾解决方案适用的环境不同、容灾的效果不同、对用广的影响不同、投资效果不同.因此运营商只有综合考虑各种因素,结合实际情况有选择地进行容灾,才能达到最理想的容灾敛果。

参考文献

[1] 吴成林,景建新. PDSN的容灾备份方案和应用分析[J]. 移动通信. 2009(Z1)