计算机并行处理技术范文

导语：如何才能写好一篇计算机并行处理技术，这就需要搜集整理更多的资料和文献，欢迎阅读由公务员之家整理的十篇范文，供你借鉴。

计算机并行处理技术

篇1

【关键词】遥感处理电子政务分布式并行计算技术

1 项目背景以及要求

1.1 项目背景

高分遥感在电子政务地理空间基础信息库建设与服务中的应用示范项目，是高分重要的应用示范项目，依托“国家自然资源和地理空间基础信息库”一期工作，重点解决高分辨率遥感卫星数据与国家自然资源和地理空间基础信息库的融合，推进高分数据在电子政务地理空间基础信息库的综合应用示范，形成高分数据及其电子政务应用产品通过共享平台进行分发和共享的机制和格局，为国家宏观综合决策服务，包括资源环境综合监测评价、灾后重建规划实施效果监测、区域发展战略研究和区域规划、资源环境领域规划和重大基本建设项目跟踪及效益监测以及海洋资源开发和经济发展的监测工作等，以及为政府综合部门、业务服务和电子政务业务部门及社会公众服务。

1.2 要求

为满足海量遥感数据的需要，建设了高分遥感数据集群式生产系统，该系统具有高效、自动、智能的技术特性，遥感影像处理的基础支撑平台，提供统一的数据模型、业务模型接口，能够支撑起大规模遥感影像的集群式并行自动化处理。

2 遥感影像处理结构层次

遥感影像操作可以划分为三个不同的层次或者类别，下面就对其进行一一分析。首先为像素级操作，这是通过一副像素影像产生另外的像素影像，包括邻域、括点、几何操作等，很多数据都是有规则、几何、局部。而这种几何操作在进行遥感影像处理时表现为几何校正，因为装载在飞机、卫星的成像传感器受到飞机姿态、卫星、时间、运动、气候等不同因素的影响，其摄取的图像可能出现几何畸变的现象，因此，要能够完成旋转、重新定位、任意弯曲等操作；其次，其具有特征性操作的特征，这也是相关影像产生的特征，包括区域和线，常规性的特征包括纹理、形状、三维特征、梯度特征，一般选择一致的测度，包括方差、均值来进行处理和描述，其显示特征区域进行的可行性，而且，还具有非局部、象征意义的特性，在局部区域并行的同时，还要能够对整体加以处理；再者具有目标级操作的特征，这是由一系列特征诱发的目标，并且其信息具有复杂性、象征意义，一般都是通过相关知识来处理，从而对影像进行理解、描述、解释。

3 通信和同步

在并行计算期间，因为不同进程之间需要传输以及调度数据，因此，其具有相应的通信开销，并且这种开销表现为以下不同的方面，首先为传输等进程之间的数据，主进程从进程调度、数据传输、任务分配入手。在处理遥感影像时，需要能够划分影像，并且将其映射给进程加以处理和计算，其主要依据就是被划分部门的数据通信量，三种图像数据划分方式，如图所示，其中图1表示水平条带、图2为竖直条带、图3为矩形块，不同划分的条带边界表现为所要进行的通信数据。在处理不同影像时，要能够选择不同的划分方式，像素级的处理并行化分支较小，进行数据划分时较为简单，可以结合实际状况来选任何划分方法，特征处理如线条所示，按照竖直条带和水平条带来划分，在目标级、特征级处理期间，需要结合相应的问题、并行计算支撑环境来选择具体的划分方式。从一定角度来分析，要想能够达到并行化的要求，从而让被划分的数据通信量达到最小的要求。

在并行系统执行给定算法期间，可能会出现个别进程计算需要在其他进程完成之后才能开展，这时候同步是需要的，所谓的同步就是在这种状况下顺利使用通信协调技术不受到影响。同步也存在以下两种不同的开销，包括同步需要所有处理机能够进行相应的检验，但是，需要花费相应的时间；其次个别处理器可能为闲置，等待准许继续续需要计算相应消息。

4 结语

高分遥感在电子政务地理空间基础信息库建设与服务中的应用示范项目，是高分重要的应用示范项目，依托“国家自然资源和地理空间基础信息库”一期工作，重点解决高分辨率遥感卫星数据与国家自然资源和地理空间基础信息库的融合。通过实验不难发现，PC机群上所具有的分布式并行算法优势较为明显，但是，其通信开销依然是算法中需要解决的主要问题，在集群逐渐扩展的影响下，通信开销开始增长，这就让并行化程度遭到制约，选择直接少通信量、通信次的方法则能够降低实际的通信开销，从而为实现遥感卫星数据和国家自然资源信息库融合奠定坚实的基础。

参考文献

[1]杨海平，沈占锋，骆剑承，吴炜.海量遥感数据的高性能地学计算应用与发展分析[J].地球信息科学学报，2013（01）：128-136.

[2]王竹晓，胡宏，陈立民，史忠植.动态描述逻辑推理的并行计算技术[J].计算机研究与发展，2011（12）：2317-2325.

[3]马伟锋，李伟.遥感影像数据并行计算中数据分配策略研究[J].浙江工业大学学报，2016（03）：270-274.

[4]潘巍，李战怀.大数据环境下并行计算模型的研究进展[J].华东师范大学学报（自然科学版），2014（05）：43-54.

作者单位

1.中国电子科技集团公司第五十四研究所河北省石家庄市 050081

篇2

【关键词】计算机多线程协议还原方法概述

1 协议并行处理方法

1.1 数据包级别并行方法

在协议栈并行处理方法中，数据包级别并行方法是一种并行度最高的处理方法。对于不同的数据包都会按照对应的处理器进行系列处理，达到同时处理多个数据包或者是归属于同一个链接的数据包。因巨大的吞吐性能以及不存在负载均衡的优势得到了广泛运用。虽然其具有高度的并发性，但是在面对带有上下文信息或状态的协议来说，例如TCP，可以获得的性能提升空间受到了很大的约束。

1.2 函数级别并行方法

函数级别并行方法主要运用于早期的协议并行处理中。早期协议是将链路控制数据和传送数据置于同一个数据包中，这就意味着协议并行处理的函数必须要同时处理链路控制数据外加上传送数据，从而出现的一个问题就是协议处理函数单元之间务必会存在大量的上下文相关结果。

1.3 协议栈层次间并行方法

协议栈层次间并行方法主要运用于目前网络协议的层次结构中。在早期设计相关网络协议时，为了大幅度的降低协议实现难度而将每个层次协议设计成为了相对独立的部分，从而完成独立层间之间的并行处理。但是就目前实际情况来看，这种方法虽然有许多的优势，但是性能受到了层次结构中吞吐量最低层次结构的限制，所以目前需要对协议栈中的每一个层次进行研究，优化吞吐量最低的层次结构。

2 基于连接性多线程TCP/IP协议并行处理方法概述

2.1 TCP/IP协议栈多线程并行化存在的问题

TCP/IP协议栈多线程并行化存在的问题主要存在于临界锁以及处理器之间的负载均衡情况上。考虑到临街锁解决共享冲突的代价极大问题，多线程并发程序虽然可以解决部分问题，但是又带来了诸如临界区碰撞、内核陷入等等问题，影响程序的运行效率。因此，对于多线程并行的TCP/IP协议而言，消除临界锁问题是至关重要的。对于处理器之间的负载均衡情况，需要考虑的就是协调好处理器之间的负载均衡问题。

2.2 多线程TCP/IP协议栈的结构

本文所要分析的多线程TCP/IP协议栈结构主要还是共享内存多处理器平台运行下的多线程TCP/IP协议栈结构，其基本的特点就是当共享内存对处理器平台上的处理器数量增加时，其结构的性能也随之增加。多线程TCP/IP协议栈结构如图1所示。

2.3 处理器均衡措施

处理器均衡措施具体可以细化分为两个步骤。第一个步骤就是对IP数据包中的三元组即源地址、目的地址以及协议标识，按照一定的标准进行分发。仅仅采取第一步不能够对处理器进行深度的处理，需要借助于第二个步骤。第二个步骤包括设置协议栈、促进操作系统借助于任务调度完成负载均衡的操作。后者的时间点在于运行线程数不小于硬件平台的处理器数量。按照上述顺序，可以达到处理器负载均衡的目的。

3 实验方案结果

从本文的实验方案测试结果中可以看出，首先单线程下的程序只能够通过串来执行，从而不能够发挥出处理器的实际性能。其次，在处理器的数量和线程数量对等的情况之下，也不能够发挥出系统硬件的全部性能。最后，在处理器数量小于协议栈线程数量的时点，通过适当的增加线程数量，可以在很大程度上提高整个系统的吞吐量。另外，对于内存分配方式对系统性能的影响上，结合实践经验以及实验方案结构可以发现，相比PtMalloc以及SmartBits而言，FixMalloc可以降低动态内存分配过程中出现的处理器消耗，降低的幅度值大概在8.12%上下。

4 结束语

由于现代处理器性能和网络传输能力发展之间存在的很大的不平衡，从而推进了多处理器的发展。本文从网络协议还原技术出发，提出了一整套的多线程并行的TCP/IP协议的相关还原方案。此外，在通用性的多处理器计算平台的实际操作过程中发现，虽然计算机多线程TCP/IP协议还原技术可以很好的保障当下处理器平台性能的发挥，但是对于进一步提升网络入侵监测系统协议还原能力以及挖掘高性能处理器平台，以此来协调处理器性能和网络传输能力发展不平衡的矛盾，将是下一阶段研究和探究的重点内容。

参考文献

[1]Bjorkman M，Gunningberg P Performance Modeling of Multiprocessor Implementations of Protocols[J]，2009，11（03）：142-145.

[2]田伟，顾韵华，丁妮.网络行为监测与还原系统及关键技术研究[J].计算机工程与设计，2011，29（02）：111-113.

[3]谭敏生，汤亮.基于HTIP的网络数据包还原技术研究[J].计算机技术与发展，2011，17（06）：14-16.

篇3

关键词：系统观；能力培养；教学改革；计算机系统

从1946年第一台电子计算机ENIAC（Electronic Numerical Integrator And Computer）诞生到现在，计算机的发展经过了大型机时代（Mainframe Era： 1950s-1960s）、小型机时代（Minicomputer Era： 1970s）、个人计算机时代（PC Era： Mid 1980s-Mid 2000s）和后PC时代（PostPC Era： Late 2000s）。计算机教学模型机也经历了从大型机、小型机到PC的过程。通常，课堂教学内容比业界技术要滞后几年。20世纪80年代初，基本以IBM 360/370或DJS 200系列等大型系列机为模型机；20世纪80年代中后期开始，则以VAX 11/780等小型机为模型机，并同时开设以IBM PC为模型机的“微机原理与接口技术”课程，到21世纪开始，基本上都转入了以Intel x86或PowerPC或MIPS等微处理器为模型的教学模式。

随着多核/众核处理器、嵌入式和云计算技术的发展，以及大规模数据中心（WSC）的建立和个人移动设备（PMD）的大量普及使用，计算机发展进入了后PC时代。呈现出“人与信息世界及物理世界融合”的趋势和网络化、服务化、普适化和智能化的鲜明特征[1]。

那么，后PC时代的计算机专业教学应该如何改革？计算机专业教育的核心应该是什么？计算机课程的教学内容应该如何调整以适应新的发展需求？这些都是我们从事计算机专业教学的大学老师们应该思考的问题。本文将从计算机专业人才培养的目标、目前我国大学计算机专业教育存在的问题、南京大学在学生系统能力培养方面的新举措等几个方面阐述笔者的思考及初步探索。

一、计算机专业人才“系统观”培养的重要性

图1描述了计算机系统抽象层的转换。从图1可以看出，计算机系统由不同的抽象层构成，“计算”的过程就是不同抽象层转换的过程，上层是下层的抽象，而下层则是上层的具体实现。计算机学科主要研究的是计算机系统各个不同抽象层的实现及其相互转换的机制，计算机学科培养的应该主要是在计算机系统或在系统某些层次上从事相关工作的人才。

计算机系统由各种硬件和各类软件采用层次化方式构建，不同用户工作在不同的系统结构层，如图2所示。

从图2可看出，计算机用户有最终用户、系统管理员、应用程序员和系统程序员。显然，计算机专业培养的主要应该是设计和研制计算机的计算机工程技术人员以及系统程序员、应用程序员和系统管理员。不管培养哪个层面的计算机技术人才，计算机专业教育都要重视学生“系统观”的培养。

所谓“系统观”，笔者认为，就是指对计算机系统的深刻理解。具有“系统观”的人才，能够站在系统的高度考虑和解决应用问题，具有系统层面的认知和设计能力，包括对软、硬件功能进行合理划分、对系统不同层次进行抽象和封装、对系统整体性能进行分析和调优、对系统各层面的错误进行调试和修正、对用户程序进行准确的性能评估和优化，以及根据不同的应用要求合理构建系统框架等能力。

图2 计算机各类用户所在层次

特别是在后PC时代，并行成为重要主题，培养具有系统观的、能够进行软/硬件协同设计的软/硬件贯通人才是关键。而且，后PC时代对于大量从事应用开发的应用程序员的要求也变得更高。首先，后PC时代的应用问题更复杂、应用领域更广泛；其次，要想编写出适合各类不同平台的高效程序，应用开发人员必须对计算机系统具有全面的认识，必须了解不同系统平台的底层结构，并掌握并行程序设计技术和工具。

只有具备“系统观”，计算机工程技术人员才能够设计研制出性价比高的适合特定应用需求或通用的计算机，系统程序员才能编写出适合于底层硬件架构的易于上层应用程序员或系统管理员使用的系统软件，应用程序员才能最合理地利用底层硬件实现机制和系统软件提供的相应功能编写出性能最优的应用软件，系统管理员才能配置出最佳的系统环境并提供最好的系统维护和系统管理等方面的服务。

二、我国大学计算机人才“系统观”培养的现状

为了更好地了解国外大学计算机专业人才培养的情况，笔者对MIT、UC Berkeley、Stanford和CMU等4所美国一流大学在相关课程方面教学情况进行了跟踪调查[2]。我们发现，中美大学在计算机专业人才培养及课程教学方面存在许多不同。

首先，从课程设置上来说，上述美国四校在学完编程语言及其程序设计课程后都开设了一门关于计算机系统的基础课程，而且在课程内容上特别注重在计算机系统各个抽象层上的纵向关联，沿着一条主线，把每个抽象层都串起来，从而使学生形成完整的计算机系统概念。而国内大学计算机专业课程设置，基本上是按计算机系统层次结构进行横向切分，自下而上分解成数字逻辑电路、计算机组成原理、汇编程序设计、操作系统、编译原理、程序设计等课程，而且每门课程都仅局限在本抽象层，相互之间几乎没有关联，学生对整个计算机系统的认识过程就像“盲人摸象”一样，很难形成一个对完整计算机系统的全面认识。虽然国内高校也有计算机系统概论、计算机系统入门或导论之类的课程，但内容广而不深，什么都讲一点，什么都讲不透，基本上是计算机课程概论，而不是计算机系统概论。

其次，美国四校都采用了分流培养模式，都设置了偏硬件或计算机系统的专业或方向。例如，有电子工程（EE）、电子与计算机工程（ECE）、计算机工程（CE）和计算机系统等专业或方向。而目前国内大多数高校都只有一个专业，即计算机科学与技术，专门分出ECE、CE和计算机系统方向进行人才培养的学校很少。国内绝大多数高校只能培养应用程序员，而且是对计算机系统底层知之甚少的应用程序员。

最后，美国四校在计算机系统入门课后面都开设了关于数字系统设计的课程，课程内容涵盖了数字逻辑电路和组成原理两门课的基本内容，并要求学生用EDA方式设计相对完整的流水线CPU，而且都是由EE（ECE）部门开设，但并不要求所有学生都学，通常是偏硬件类的EE、ECE、CE和计算机系统方向的学生必学，其他方向学生选修。反观国内绝大多数高校，基本上都是先上数字逻辑电路（有些合并了一些模电内容）课程，然后上组成原理课程（有些组成原理课程上的是微机原理与接口的内容），而且这两门课程基本上都是所有学生的必修课程，并没有考虑不同方向学生对于计算机底层硬件知识和硬件设计能力的不同需求。目前国内大多数学校的组成原理课程教学基本上还是沿用传统的教学理念，教学内容还停留在计算机硬件的基本构成和基本设计原理层面，既不像国外的数字系统设计那种硬件设计课程，能够让学生真正了解如何用硬件描述语言通过FPGA来设计现代计算机硬件系统；也不是一门关于计算机系统的入门课程，能够让学生全面地理解整个计算机系统的实现机理。因此，目前国内绝大多数高校的组成原理课程的教学，既没能达到培养学生利用现代化工具进行实际硬件设计的能力，也没有让学生学会运用机器底层硬件和系统结构知识来增强高效软件开发和程序调试的能力，更没有通过该课程让学生建立起计算机软、硬件系统的整体概念。

总之，国内大学计算机专业教育在“系统观”培养方面还存在一些问题，这点从近五年来全国计算机专业研究生入学考试的抽样结果可以得到印证。2009年开始，计算机专业的研究生入学考试采用全国统考方式，计算机专业基础综合统考科目包括数据结构、组成原理、操作系统和网络四门课程，总分为150分。五年来的抽样结果显示，全卷平均分每年仅在60～78之间，试题统计难度（单选题的试题难度指答对人数/总人数，综合应用题的试题难度指样本平均分/该题总分，最终难度为加权平均值）仅在0.41～0.52之间，其中组成原理最低，特别是其综合应用题的难度仅在0.181～0.440之间，五年共10个综合应用题，只有两题的难度达到了0.4以上，说明所有考生平均仅掌握所考内容的大约30%左右，有的方面只有20%不到，也即考生们对绝大部分综合应用能力考核内容都没有掌握。从抽样省份来看，前三年抽样的大多是高等教育水平比较高的地区，可想而知，全国的抽样数据应该更差。近五年的综合应用题抽样数据表明，试题统计难度与解题涉及的知识点个数相关性较大，通常涉及的知识点越多得分越差，说明学生的综合应用能力较弱，平时缺乏对相关知识和概念关联性的思考。

根据近年来对全国研究生计算机专业基础综合统考科目考试成绩的抽样调查结果，可以看出国内大学计算机本科专业存在“轻应用、缺关联、少综合、无系统观”的问题[3]。

三、国内大学相关教学改革概况

目前，越来越多的高校发现计算机专业基础课程教学中的一些问题，开始注重学生的系统能力培养，强化学生的“系统观”。

目前为止，已经有一些高校以MIPS为模型机，对数字系统设计的相关内容进行了深入的讲解和实践，也有一些高校同时把CPU设计与操作系统和编译的内容融合起来进行实验课程的开设。浙江大学多年来每年在暑假都会开设有关CPU及其计算机系统设计的选修课；东南大学也专门开设了面向所有学生的计算机系统综合实验课程；北京航空航天大学从2006年开始筹划，花了5年时间实现了突破，在相关的数电和组原、OS及编译原理课程中逐步让学生完成一个完整计算机系统的设计；清华大学目前也已经完成了计算机综合实验平台的所有软、硬件部分的开发，准备在所有本科生中开设计算机系统综合实验课程。此外，中科大和国防科大等高校也一直在实施本科生的计算机系统设计能力培养计划。可喜的是，一些非重点高校的任课老师也在组成原理课程的教学及其相关实验中，引入了以MIPS为模型机的 CPU设计的教学和实验内容。

另一方面，像复旦大学软件学院和上海交大软件学院等则开设了与CMU的CS 213类似的课程[4]，北京大学也在去年全盘引入了CMU的CS 213课程教学内容。但是，总的来说，目前在国内全面开展像CMU的CS 213那样的课程教学困难还不小，对任课教师和学生来说都是一个不小的挑战。

四、南京大学相关教学改革思路和做法

根据对计算机相关领域目前发展情况的分析以及对国外一流大学计算机相关专业教学情况的调查，我系在新的2013版教学计划中，实施分流培养机制，提供了计算机科学、计算机系统、计算机应用、软件工程和信息安全五个方向。

在“系统观”培养方面，其基本培养目标为：建立计算机系统完整概念，深刻理解计算机系统的层次化结构。包括：理解计算机系统中各个抽象层之间的相互转换关系，了解计算机指令集体系结构的设计原则和设计原理，具备使用HDL进行计算机硬件设计的基本能力，深刻理解OS和硬件之间的分工和衔接关系，理解掌握从硬件角度出发进行编译优化的基本技术，深刻理解从硬件角度出发编制高效程序的基本原理，提高利用硬件知识进行程序调试的能力。特别对于计算机系统方向的学生，在系统能力方面则要求更高，在CPU设计、体系结构、操作系统、编译技术和并行处理技术等方面都有相应的实践要求。

在2013版教学计划中，重新规划了相关的一系列课程，并采用以下思路对相关课程进行重新建设：（1）根据系统能力培养总体目标，规划好相关课程各自涵盖的知识结构和框架体系，合理定位各门课程的教学目标，把每个知识点落实到具体课程中。（2）根据相关知识点总体框架，拟定各个相关课程之间知识点衔接方案，并且在教学过程中明确各知识点在不同课程之间的关系。（3）根据规划分头编写或修订教材及教案，并在统一的框架下建设相关课程。（4）在保留各课程独立实验平台的同时，构建一个公共实验平台，使相关课程的实验内容按照一定的关系有机联系起来。

2013版教学计划中有一组课程是所有方向学生都必修的学科平台准入和学科平台准出课程。学科平台准入课程是指转系学生只有选读并考试合格后才有资格转入我系学习的最低门槛课程；学科平台准出课程是指学生只有修读合格后才能从我系毕业的最低门槛课程。

与系统能力培养密切相关的准入课程是“程序设计基础”和“数字逻辑电路”；而与系统能力培养密切相关的准出课程是“计算机系统基础”、“操作系统”和“计算机网络”。

每个方向有几门方向必修课程和方向指选课程。方向必修课程是该方向学生必选的方向基础课程，方向指选课程是为该方向学生指定的选课范围内的方向相关课程。例如，对于计算机系统方向，其方向必修课程是“计算机组成与设计”、“计算机体系结构”和“编译原理”；而在方向指选课程中，与系统能力密切相关有“计算机系统综合实验”、“并行处理技术”、“LINUX分析”、“微机原理与接口”和“嵌入式系统”等课程，也即计算机系统方向学生必须在这些课程中选修一定数量的课程。

图3给出了整个教学计划中与“系统观”培养密切相关的课程设置，图中箭头描述了课程的先后依赖关系。

从图3可看出，所有相关课程中，“计算机系统基础”是最核心的课程，其先行课程是“程序设计基础”和“数字逻辑电路”，与其相关的后续课程有“计算机网络”、“操作系统”、“计算机组成与设计”、“计算机体系结构”、“编译原理”、“并行处理技术”、“微机原理与接口”、“嵌入式系统”、“LINUX分析”和“计算机系统综合实验”。

课程设置基本思路是“从两头到中间、从框架到细节”，即先开设顶层的程序设计课程和最底层的数字逻辑电路课程；然后再在“计算机系统基础”课程中，从两头到中间，把顶层程序设计的内容和底层电路的内容，按照程序员视角串起来，以形成对计算机系统的全面的和系统的框架性整体认识；在此基础上，再分别在其他后续课程中，介绍计算机系统底层的硬件以及操作系统和编译器等层次的实现细节。

围绕系统能力培养目标，根据课程之间的相互关系，我们确立了各课程定位如下：

（1）程序设计基础。该课程是学科平台准入课程，所有学生必修。它主要介绍高级语言编程技术的基础内容，让学生初步理解高级语言及高级语言程序设计涉及的概念，初步理解图1所示的计算机系统中最上面三个抽象层（问题、算法和程序）及其相互转换关系。学完该课程后，学生能够了解到计算机解决应用问题首先必须将其转换为算法，然后用某种编程语言将算法编写成程序才能在计算机上运行。因而，学完本课程后，应该希望进一步了解为什么计算机能够执行程序、计算机如何执行程序等问题。

（2）数字逻辑电路。该课程是学科平台准入课程，所有学生必修。它主要围绕组合逻辑和时序逻辑两大核心内容，在逻辑门到功能部件这两个层次展开，以后续课程中用到的功能部件（如半加器、全加器、加法器、比较器、编码器、译码器、触发器、寄存器、移位器、内存储器等）作为数字逻辑电路设计实例进行介绍，初步掌握图1所示的计算机系统中最下面的三层（功能部件、门电路和器件）相关内容。学完该课程后，学生能够了解到目前主流计算机解决所有问题的最根本的基础是布尔代数和数字逻辑电路，并了解到利用数字逻辑电路可以构建执行程序所需的所有功能部件。

（3）计算机系统基础。该课程是学科平台准出课程，所有学生必修。它是一门新开设课程，主要介绍高级语言程序中的数据类型及其运算、语句和过程调用等是如何在计算机系统中实现的，从宏观上介绍计算机系统涉及的各个层次，使学生从整体上了解计算机系统全貌和相关知识体系，初步理解图1所示的计算机系统中的每一个抽象层及其相互转换关系。学完该课程后，学生能从程序员角度认识计算机系统；能够建立高级语言程序、ISA、OS、编译器、链接器等之间的相互关联；对指令在硬件上的执行过程和指令的底层硬件执行机制有一定的认识和理解。从而增强学生在程序调试、性能提升、程序移植和健壮性等方面的能力，并为后续的“计算机组成与设计”、“操作系统”、“计算机体系结构”等课程打下坚实基础。由此可见，该课程可以作为“程序设计基础”课程的深入内容，能起到为其解惑答疑的作用，学完该课程，学生完全应该能够回答为何计算机能够执行程序以及计算机如何执行程序等问题。

（4）操作系统。该课程是学科平台准出课程，所有学生必修。它将系统地讲解操作系统的基本概念和方法、设计原理和实现技术。主要内容包括：处理器管理，同步、通信和死锁，存储管理，设备管理，文件管理，操作系统安全和保护，分布式操作系统和网络操作系统。既阐述经典内容，又以当代主流操作系统作为实例介绍最新发展；既注重操作系统的理论知识，又重视操作系统的实践和应用。操作系统是一门实践性、应用性很强的课程，学习这门课程必须动手实践。实验将配合原理教学同步进行，课程实验以设计性实验为主，进行模拟类操作系统实验，要求学生能够基于虚拟机环境，实现一个可运行的操作系统。实验通过对操作系统原理的剖析，辅助学生深入理解抽象原理，强化学生对操作系统总体结构的理解和认知，提高学生的动手实践能力，并帮助学生对操作系统建立起理性、全面、完整和准确的概念。

（5）计算机组成与设计。该课程是计算机系统方向学生的必修课程。它主要从寄存器传送级以上层次介绍单处理器计算机设计的基本原理和设计细节，重点在CPU设计和存储器设计方面，使学生在理解高级语言程序与机器级代码之间对应关系的基础上，进一步理解机器级代码如何在具体硬件系统中执行的过程以及如何构造计算机硬件系统。因而，该课程主要涉及图1中的第5层（指令集体系结构）和第6层（微体系结构），并通过实现细节介绍这两个层次与上层的操作系统/虚拟机以及与下层的功能部件/RTL之间的关系。通过该课程的学习，要求学生能够利用硬件描述语言和FPGA开发板来设计基本的功能部件以及单周期CPU和流水线CPU。因而，在课程内容组织方面应该细化通用寄存器组、ALU和桶形移位器等功能部件设计的内容，细化单周期CPU和流水线CPU设计的内容，并讲透流水线CPU设计中的各种冒险处理机制和基本的指令级并行处理的内容。

（6）计算机体系结构。该课程是计算机系统方向学生的必修课程。学生在完成单处理器计算机系统相关技术学习的基础上，通过该课程进行多核处理器、众核处理器、多处理机系统、集群系统等不同粒度和规模的并行计算机系统的工作原理、实现方式及其应用方面的深入学习。因为学生已经建立了单处理器计算机系统的完整概念，因而该课程重点应该更多地转移到超标量流水线、多核/众核系统、多处理器系统、多计算机系统等并行处理系统方面。此外，该课程还涵盖了数据中心、云计算系统和虚拟机/虚拟化方面的部分内容。

（7）编译原理。该课程是计算机系统方向学生的必修课程。学生在掌握了程序设计、数据结构、算法设计与分析、组成原理和操作系统的基础上，进一步学习编译器的设计原理和实现技术。它主要包括有限状态自动机理论、形式语言分类以及词法分析、语法分析、语义分析、中间代码生成、中间代码优化和目标代码生成的作用和方法，还介绍属性文法的基本概念和半形式化的中间代码生成方法。该课程的各个知识模块综合起来对应的培养目标，是使每位学生掌握和编译器设计相关的形式语言理论基础、了解编译器生成工具的使用方式以及实践一个简单编译器的设计与实现过程。该课程的学习能为后续的形式语言和自动机等课程以及在软件工程和自然语言处理等方面的研究工作打下良好的基础。

（8）并行处理技术。该课程是计算机系统方向学生的指选课程。其主要内容包括并行环境、并行算法、并行程序设计、并行性能评价等部分的内容。课程总目标是通过并行计算和并行处理的基本概念、基本原理、基本方法与基本知识的讲授与实践，为计算机系统方向学生打下并行算法与并行处理方面的研究与应用基础。通过简单介绍并行计算机的体系结构、并行计算模型与并行算法的性能评价方法，掌握并行算法设计、编程实现与性能评价时涉及的基本知识与基本概念；通过介绍任务分解、任务调度、负载平衡、设计模式、设计技巧等知识，掌握并行算法设计的基本原理、基本方法与基本技术；通过对MPI与OpenMP等编程语言或编程模型的简单介绍，使学生掌握并行算法程序实现的基本知识；通过几类典型的数值与非数值并行算法介绍，加深学生对并行算法设计基本原理与常用方法的理解，并为实际应用问题的并行算法设计与并行处理打下坚实的基础。

（9）微机原理与接口。该课程是计算机系统方向学生的指选课程。主要定位为在PC上的实例化教学课程，以目前流行的基于IA-32体系结构的PC为实例，主要介绍IA-32提供的存储管理机制、异常/中断机制以及总线和接口技术。实验重点内容在PC的I/O接口技术，包括在FPGA实验板上利用CPU软核进行总线、中断和DMA实验，利用硬件描述语言（HDL）进行UART等I/O接口设计的实验等。

（10）嵌入式系统。该课程是计算机系统方向学生的指选课程。主要定位为在嵌入式系统方面的实例化教学课程。主要介绍嵌入式系统概论、嵌入式处理器、存储器及其总线互连，嵌入式系统集成接口，嵌入式操作系统，嵌入式硬件与软件协同设计方法与工具，嵌入式应用系统开发及其工具，嵌入式系统功耗分析与优化设计等。实验重点内容是基于ARM处理器和μCOS-Ⅱ操作系统的简单嵌入式软件开发技术。

（11）LINUX分析。该课程是计算机系统方向学生的指选课程。它是操作系统的后续课程，以剖析Linux内核实现技术为切入点，结合Linux内核代码，从用户层及内核层两个层面，围绕“原理、技术、应用”三个角度剖析Linux的内部结构与内核实现机制，帮助学生从系统实现角度理解现代操作系统的系统架构、实现机理及关键技术。课程以“技术专题”形式组织教学内容，每个专题由知识讲授与课程实验组成。核心知识模块包括进程管理、进程调度、进程通信、存储管理、系统调用与中断处理、文件管理。每个知识模块按“原理设计基本思想―实现相关技术问题―Linux内核实现途径―用户系统编程体验”为主线组织具体内容。

（12）计算机系统综合实验。该课程是计算机系统方向学生的指选课程。主要目的在于将本科计算机教学中的基础课程，如程序设计、数字逻辑电路、操作系统、计算机组成与设计等课程融会贯通，使学生从系统的角度对整个计算机有一个全面的认识和了解，并能够设计和实现一个简单的计算机系统。本综合实验区别于一般的基础实验课程从单个层面出发的设计局限性，它要求学生把计算机软件和硬件相结合，并强调各个基础课程之间的衔接与联系。实验要求学生能够对于从高级程序语言开发到程序的系统管理、编译与代码转换以及硬件运行的选择与实现等有一个全面的掌握。实验还强调学生的动手能力和对系统的设计能力，培养能够独立开发一套简单系统并能对整个系统进行改进和优化的能力。

当然，除了上述课程以外，其他课程对学生系统能力培养也有一定的作用。除了学科平台准入和准出课程以外，其他方向的学生还可以选修上述其他课程，有些课程还可能是某个方向的必修课和方向指选课，而计算机系统方向的学生除了上述给出的必修课和指选课以外，也还可以选择一些偏理论或偏应用的课程进行修读。

后PC时代WSC、PMD和PC等共存，使得原先基于PC而建立起来的专业教学内容已经远远不能反映现代社会对计算机专业人才的培养要求，原先计算机专业人才培养强调“程序”设计也变为更强调“系统”设计。这需要我们重新规划教学体系，调整教学理念和教学内容，加强学生系统能力培养，使学生能够深刻理解计算机系统整体概念，更好地掌握软/硬件协同设计和程序开发技术，从而更多地培养出满足业界需求的各类计算机专业人才。

参考文献：

[1] 王志英，周兴社，袁春风等. 计算机专业学生系统能力培养和系统课程体系设置研究[J]. 计算机教育，2013（9）：1-6.

[2] 王帅，袁春风. 美国一流大学计算机组成与系统结构实验课程研究[J]. 计算机教育，2011（17）：121-124.

篇4

十多年来，英特尔架构平台一直以优于同类基于RISC的产品的价格提供了更出色的性能和兼容性。现在，英特尔安腾架构又将同样的优势带入了高端企业计算环境。据英特尔估计，随着英特尔安腾2处理器的推出，企业将能够以更优惠的价格购买到更强大的平台，其交易处理能力比Sun Microsystems的同类平台性能高50%。

如果企业目前已经在运行针对安腾架构而编译的应用，那么运行在安腾2架构平台上可将性能提升1.5～2倍。安腾2处理器经过精心设计，可以兼容未来的英特尔安腾处理器。

这些性能的增强展示了清晰并行指令计算（EPIC）模式的扩展能力，EPIC技术形成了英特尔安腾架构的基础。EPIC经过专门设计，旨在使复杂的企业和技术应用能够在多年内快速、经济高效地扩展性能。通过建立一个有助于最大限度提高并行指令吞吐量的环境，EPIC突破了传统体系结构的限制，并且为未来实现更高、更经济高效地性能扩展铺平了道路。

以下我们将讨论EPIC技术的一些关键优势，并阐述了这种技术为什么会使安腾架构成为支持要求最苛刻的企业和技术计算应用的可扩展的、价格经济的平台。本文还详细介绍了安腾2处理器的一些增强特性，这些特性可确保安腾架构继续在高端计算领域独占鳌头。

对EPIC技术的需求

当今对更快更经济的计算解决方案的需求已经达到了前所未有的程度。无论是在技术计算还是在企业IT环境中，由于个人和企业都希望了解和控制日益复杂的流程，因此这种需求更是大幅度增长。

高性能技术计算领域中的挑战

几乎所有科学和工程技术领域的研发小组都希望实现准确的定量分析，并努力建立日益复杂的系统模型。毫无疑问，这是率先采用功能强大、价格经济的安腾架构解决方案的一个市场。以美国国家科学基金会目前正在开发的超级计算机为例，这种分布式系统将采用英特尔安腾处理器和英特尔安腾2处理器，总处理器数量将超过3300个。所有平台将被分配到4个独立的超级计算机构，并通过专用的高速互连链接在一起。整个系统每秒钟可以执行13.6万亿次计算，并能够处理450TB的数据。

又例如为美国西北太平洋国家实验室（PNNL）能源部开发的超级计算机。这种新系统拥有1400个英特尔安腾2处理器、1.8TB内存和170TB硬盘空间，每秒钟将能够执行8.3万亿次浮点运算。开发完成后，它将成为世界上功能最强大的基于Linux的超级计算机之一，使PNNL研究人员能够以比原有系统快30倍的速度处理复杂的应用。英特尔安腾架构的强大能力和经济的价格有助于科学家们突破当前计算能力的限制。目前正在开发的美国国家科学基金会的分布式超级计算机就是最好的范例。

企业计算面临的挑战

商业领域的计算需求日益增长，其中的部分压力来自越来越复杂的技术工程和设计应用。许多行业的公司正在用计算机建模和设计解决方案替代耗时的原型开发。这些计算密集型应用在显著缩短了产品上市时间，同时能够稳步提高复杂性、准确性和完善性。

随着公司不断增加用户量、实现复杂流程的自动化处理、以及更有效地为客户提供服务，他们要求更高的计算能力来支持各种复杂的商业应用，如大型数据库（LDB）、企业资源规划（ERP）、供应链管理（SCM）和业务智能（如数据采掘）等。各公司在交易和处理过程中不断进行企业和部门间整合，这极大增加了工作负载和企业的数据量。这些业务需求不仅要求增强传统应用（如额外特性和功能），同时还增加了计算需求。

创新解决方案

EPIC计算模式是专门为实现高效并行性而设计的，旨在同时处理多个指令或进程。并行性可以增加每处理器时钟周期内可完成的工作量，从而加速应用的处理。EPIC为增强并行性奠定了基础，使英特尔能够通过提高并行指令的吞吐量扩展服务器性能。这种技术已使许多关键类型应用获得了业界领先的性能，而且在未来这种优势将会日益显著。在其它计算模式中，并行处理机会必须由处理器本身来识别。EPIC提供了一种增强的指令集，使编译器能够在软件代码到达处理器之前明确地识别出并行处理机会。这种编译器非常适合此任务，因为她可以查看和分析整个代码为并行处理制定最有效的策略。

这样，硬件和软件就可以根据自身能力选择应用以使其得到最佳处理。编译器还调整了程序，以优化效率。该处理器能够以最快的速度简单地并行处理各种指令。这种处理分工不但带来了立竿见影的性能优势，而且还为性能扩展提供了更多机会。

EPIC技术的关键特性

EPIC技术为高端应用性能的扩展提供了独有的灵活基础。英特尔安腾2处理器构建在此基础上，较第一代英特尔安腾处理器提供了显著的性能优势。未来的安腾处理器仍将会不断提升性能，为现有的安腾架构解决方案提供定期升级机会。

显式并行性

获得高度并行性是EPIC高效计算的关键。目前的英特尔安腾处理器能够同时处理多达6条指令，而且EPIC还能够灵活地提高未来处理器的并行性。（相比之下，基于RISC的同档处理器每时钟周期最多处理4条指令。）

当然，同时处理的最多指令数量并不是衡量应用性能的唯一尺度。处理器必须要能够支持高度的并行性来优化总体吞吐量。EPIC计算模式具备的众多特性使其非常适于该项任务，包括广泛的计算资源、增强的预测和推测能力。

英特尔安腾2处理器的增强：与第一代安腾处理器相比，安腾2处理器拥有更多的执行资源，因此能够支持更高的并行指令吞吐量。如下所述，预测和推测能力也得到了提高。进而使安腾2处理器能够比第一代安腾处理器多处理6条指令，并使这些指令通过流水线更快地运行。

预测能力

大多数软件代码都包括许多条件分支。条件分支是一种诸如“如果/那么”这样的操作，其操作结果决定处理器下一步该做什么。在其它体系结构中，条件分支未处理之前处理器不可能向前运行。在分支密集型代码中，这会成为总体吞吐量的主要限制因素。

在EPIC计算模式下，预测能力使编译器能够明确识别能以并行方式处理的指令流。它还使处理器能够预先载入指令和数据，并同时针对两个分支开始处理。一旦条件语句得到处理，收集到的不正确路径的信息就会被删除，从而使处理器能够绕过一个条件分支而不必等待它被解决，进而显著提高了并行处理效率。

英特尔安腾2处理器的增强

安腾2处理器能够放弃错误结果，并能比第一代安腾处理器更快地恢复有效计算周期。从而可以更积极、有效地利用预测功能来提高总体吞吐量。

EPIC并不是第一种支持64位数据、计算和内存寻址的计算模式。然而与其它同档64位体系结构相比，EPIC技术增强的并行性和安腾架构使大量数据能够得到更有效地处理。如果没有EPIC基于预测、推测和大规模计算资源的高度并行执行模式，64位寻址能力的性能优势会受到限制。

英特尔安腾架构的可靠性

英特尔安腾处理器和兼容芯片组具有大量内建特性，能够最大限度地延长正常运行时间，其中包括在所有主要数据通路上提供高级检错和纠错；以及增强的机器检查体系结构（MCA），可提供改进的错误恢复与管理。这些特性构建在开放、可扩展的框架之上，使平台能够检测、分离并及时修复错误，而在以前这些错误很可能会导致系统故障。

平台制造商正通过各种高端可用性特性来扩展这些能力，如内建硬件冗余、热插拔和热交换组件、故障切换网络连接和经由RAID的数据保护。随着体系结构不断改进，它将会继续以优异的价格提供先进的可用性特性。

篇5

【关键词】FPGA；计算全息；循环迭代算法；优化

1.引言

计算全息是建立在计算机科学与光学结合的全息图制作的一种新技术，具有最终实现3D电视的潜能，与光学全息相比，计算全息具有灵活方便、高重复性、适用范围广对环境要求低等优点[1]，已发展成为一项非常热门的技术。但是全息术系统很难发展到实际使用中，故面临着一个大的挑战，因为全息术需要一种高性能的且能为它实时重现的计算能力。为此我们利用FPGA技术的并行处理特性和基于菲涅尔计算全息图[2-3]，提出了一种基于FPGA技术的计算全息实现方法，在计算速度方面我们得到了很大的改善。另外为了降低系统成本，降低器件功耗，为以后的技术升级留下更多的可编程资源，我们对此算法进行有关VHDL 编码方面的面积优化，提高资源利用率。

一般而言，在基于FPGA数字系统设计时，优化问题主要包括面积优化和速度优化。面积优化是指FPGA的资源的利用率优化；速度优化是指设计对象满足一定的速度要求。面积优化和速度优化通常又是一对矛盾，一般情况下，速度指标是首要的，在满足速度要求的前提下，尽可能实现面积优化面积。

3.硬件结构

根据目前视频处理的性能特点，我们的系统设计采用FPGA+ARM架构的方式，不但具备Altera Cyclone2 FPGA强大的视频处理能力，而且增加了一颗ST公司ARM CORTEX-M3内核CPU――STM32F101R8T6，并且外挂了一颗16Mb大容量串行Flash，可以向FPGA写入OSD和图片等内容，进一步增加了我们系统的硬件能力，帮助我们更好进一步对计算全息的研究。系统的硬件结构如图4所示。

5.结果分析

6.结论

本文主要针对计算全息图在FPGA上实现提出了两种优化方案。其一是速度优化，提出了一种并行处理或流水线处理方案，这是一种基于FPGA的计算全息图生成方法，通过分析菲涅尔全息图数学模型，运用迭代的方法简化计算过程，极大地减少了计算量，并通过FPGA的并行处理特性，提出先计算全息面上每行第一个点的光强值，其余位置的计算通过简单的乘法、加法运算叠加来得到其光强，进一步加快了计算速度，有效缩短全息图的计算时间，并由所生成的全息图再现出原始图像，验证了该方法的可行性。由试验结果可以看出，采用基于FPGA并行处理的方法实现计算全息图，可以大大提高全息图的运算速度，而且制作过程相对比较简单，为计算全息图的实时显示进行了有益的探索，该方法具有很好的应用前景，为下一步实现三维立体图的实时计算全息图研究奠定了良好的技术基础。另一种是面积优化，我们利用VHDL编程的一些技巧，在不影响计算全息处理速度的前提下，来减少硬件资源的利用，降低成本。

参考文献

[1]虞祖良，金国藩.计算机制全息图 [M].北京：清华大学出版社，1984，12-22.

[2]David Abookasis，Joseph Rosen.Three types of computer-generated hologram synthesized from multiple angular viewpoints of a three-dimensional scene[J].Applied Optics，2006，45（25）：6533-6538.

[3]Nobukazu YOSHIKAWA，Toyohiko YATAGAI.Interpolation Method for Computer-G enerated Holograms Using Random Phase Technique[J].Optical Review，1999，6（5）：433-438.

[4]T.Ito，N.Masuda，K.Yoshimura，A.Shiraki，T.Shimobaba，T.Sugie.Special-purpose computer HORN-5 for a real-time electroholography[J].Opt.Express，2005，13（6）：1923-1932.

[5]Shi Y，Wang H，Li Y，Jin H，Ma L.Practical method for color computer-generated rainbow holograms of real-existing objects[J].Applied Optics，2009，48（21）4219-4226.

[6]潘松，黄继业.EDA 技术与VHDL（第三版）[M].北京：清华大学出版社，2002，70-72.

[7]狄国伟，王福源.VHDL语言电路优化设计的方法浅析[J].自动化与仪器仪表，2006（1）：69-71.

篇6

关键词：计算机网络；加密接口卡；硬件设计

伴随着计算机网络的普及应用，网络数据安全性问题引起了人们的广泛关注。而在网络系统中，接口卡加密技术是关键技术，关系到网络数据传输的安全性。加强对基于计算机网络加密接口卡的硬件设计，能够提高系统数据传输可靠性和安全性，因此可为计算机网络发展提供技术支撑。

一、计算机网络加密接口卡加密原理

在计算机网络加密接口卡中，采用了ECC加密技术，可以在定义群中实现双线性映射，提供较小密钥，取得安全系数较好的保密效果[1]。在众多密码加密技术中，ECC技术性能稳定，并且安全级别较高。而网络加密接口卡的原理与加密芯片类似，能够防止非法服务器接入网络系统。从结构上来看，接口卡主要包含处理芯片和密码记忆芯片两部分，需要将ECC密码当成是基础，取得稳定加密效果。按照ECC密码体制，需要对点算法和模算法进行运用，加密速度取决于算法速度。在密码体系构建时，需要选择运算效率较高的方式，以便使硬件加密系统得到性能提升。采用多片数字信号处理器，能够实现算法并行，使解密速度得到加快。

二、基于计算机网络加密接口卡的硬件设计

（一）硬件设计思路在网络加密接口卡硬件设计上，需要采用标准网络管理协议实现硬件加密。不同于主机，计算机网络结构复杂，需要利用专用加密芯片或独立处理芯片才能完成密码运算。对接口卡硬件进行加密，需要将ECC密码体系当成是密钥，得到由加密芯片、硬盘、电子钥匙等构成的加密卡。利用芯片，可以获取钥匙、硬盘等信息，实现ECC密码加解密运算。缺少电子钥匙和加密芯片等部分，计算机将无法实现信息识别。因此在嵌入式系统中，采用硬件加密方式较之软件更加安全。在大型服务器中，采用该种硬件设计方式能够避免非法接入网络给系统带来的破坏。实际在接口选用上，I2C为智能芯片接口，拥有128KB独立存储空间，能够用于存储ECC密码。在接口中，包含128位芯片处理器，促使芯片接口具有较强的功能性和安全性。采用芯片嵌入技术，能够实现程序植入，运用代码方式将软件中部分算法或函数下载到芯片中，用于加解密运算。在硬件设计期间，可以采用C语言进行ECC运算程序编写，将普通I2C芯片转换为硬件加密接口。在对芯片内代码程序进行运行时，采用函数形式能够将结果当成是用户程序，使芯片获得较强运算能力和大下载空间，顺利实现程序代码升级，使接口加密效果得到进一步增强。在处理结点选择时，需要采用数字信号处理器，能够有针对性的实现密码运算。

（二）硬件结构设计结合硬件设计思路，计算机网络加密接口卡采用主从式多处理系统的硬件接口，配备双端存储器提高加解密运算速度。针对微型计算机，拥有与网络不同的硬件环境，还要采用并行处理系统结构满足硬件加密需求。采用该种结构，能够使访问冲突问题得到解决，允许用户对不同单元进行同时访问，降低冲突发生的可能性。利用结构实现结点运算，能够使各结点拥有独立存储器，促使运算期间数据存储需求能够得到满足。根据网络加密特点，需要配备两个高速数字信号处理器TMS320C50，与Pentium4构成三机并行处理系统。在处理器中，包含独立内存单元和32位浮点格式，具有较高运算精度。两个处理器作为独立子系统，需要利用ISA总线与PC连接，采用共享存储方式与主控机实现通讯。PC机是主控机，需要对静态调度算法进行执行，确保加解密任务能够实现合理调配。在微机网络中，文件传输字符超出500个，需要至少25对明密文组，提出了较高加密要求。而结点运算独立性较强，需要存储大量数据，因此应使各结点拥有局部存储器。但受并行规模和卡槽个数限制，最多允许10个从结点存在，所以需要利用共享式存储器加载程序满足加解密运算需求。在系统运行的过程中，需要由PC机向处理器发送复位命令，利用程序实现联机加载，将数据通过双端口RAM传输到各子系统中。在子系统与PC机实现并行计算的条件下，可以独立完成计算任务，然后将结果统一返回至PC机，实现结果输出。考虑到系统采用共享存储互连方式，还要完成并行EPROM的设置。利用控制端口，主机可以向子系统发出初始控制命令，使从结点得到启动管理。采用该种结构设计方案，能够对算法的并行性进行充分利用，促使系统加解密速度得到提高。

（三）硬件技术实现从硬件加解密技术实现过程来看，ECC加密在网络中运用需要得到适当调整，在系统三线并行结构基础上完成加密卡测试。作为具有较强运算性能的处理器，TMS处理器需要利用A结点进行加密任务的执行，然后利用B结点完成解密任务，合理实现结点任务的调配[2]。在实际运作中，RAM需要将全部初始数据提供给TMS系统，然后联合PC机一同执行运算任务。将16位并行EPROM当成是引导，可以顺利实现TMS初始化。为保证PC机能够顺利实现端口控制，还应使结点复位引脚稍低。在系统处于静止状态的情况下，需要在双端口存储器中输入程序代码，为主机调用提供便利。在存储器中，利用引导程序，可以进行引导字或其他引导参数的选择。针对复位引脚，需要利用控制端口置高。而在结点读取的过程中，考虑到程序本身超出32位存储器容量，需要完成128位存储器增设，确保加解密运算能够快速执行。考虑到结点程序较大，可以额外进行32位局部程序存储器的配置。采取该种方式，能够在访问系统时无需等待，因此能够使接口可靠性得到进一步提升。

三、结论

综上所述，采用ECC加密技术实现网络接口卡设计，可以将ECC密码体制当成是基础实现数字信号处理芯片硬件接口设计，得到的加密卡不仅具有较高安全性，同时具有一定可靠性，能够使数据运算、存储需求得到满足。

参考文献

篇7

关键词：超算平台；并行计算；有限元

1 引言

由于技术的发展和要求，ANSYS等计算密集型软件的应用越来越多，人们对计算速度和计算规模的要求越来越高。而个人计算机受到硬件架构和系统软件的限制，已很难满足这种大规模及高性能计算的需求。而高性能计算集群的出现，可以充分发挥各类软件的并行计算能力，很大程度上解决了计算速度和计算规模的问题。目前，随着国家推进智慧城市发展政策的指引，国内多个大城市均开始建设超级计算平台，部分超级计算平台已部署了ANSYS等应用软件，使中小型科研设计院所及工程建造企业通过政府的超算平台解决企业高性能计算问题成为可能。但由于超算中心日常运维成本很高，为了尽量减少超算资源的占用，我们将有限元前、后处理工作放在本地计算机上完成。

2 应用概述

2.1 超算应用的软硬件环境及业务流程

2.1.1 远程超算中心环境

天津超算中心的主业务计算机是当前世界上运算速度最快之一的“天河一号”超级计算机，峰值速度为每秒1206万亿次双精度浮点运算（TFlops），持续速度为563.1TFlops（LINPACK实测值），是我国首台千万亿次超级计算机系统。

2.1.3 业务流程

目前超算平台暂时未提供用户图形交互操作界面，用户只能把预先编制好的命令行作业文件提交到超算平台上执行批量计算。以下为本应用的业务流程：

（1）在本地建立ANSYS有限元几何模型，编制ANSYS计算作业文件、超算平台作业调度文件；

（2）登录远程超级计算机，上传作业文件和作业调度文件，提交计算作业；

（3）观察计算过程；

（4）读取计算结果；

（5）在本地完成有限元计算后处理。

2.2 本地准备工作

2.2.1 建立有限元几何模型

Ansys软件拥有良好的前处理交互界面，建立几何模型所需的计算机资源少，在微机上也可方便地建立比较复杂的几何模型，因此本应用首先在微机上建立整个艏楼的几何模型，并设置好模型的材料属性、单元类型、实常数、剖面属性等参数，如图1所示。几何模型建立后将文件保存为cal_1.db。

2.2.2 编制计算作业文件

为对比微机与超算并行处理模块的处理能力，本模型采用细网格，网格边长尺寸取25 mm。由于网格数量太多，在微机上不能完成网格划分，因此网格划分安排在超算平台上进行。

在超算平台上进行前处理APDL在并行处理模块上使用方法与微机一致，因此本应用采用APDL进行网格划分[1]。计算求解控制同样以APDL实现，保存成文件input.txt.。代码如下：

2.2.3 编制计算作业调度文件

要通过计算作业调度文件才能使用超算中心分配的资源。按照超算中心作业调度文件编制规范要求，编制作业调度文件。意义如下：

第1行指定计算要采用的结点数：如-N 3 表示本应用指定结点数为3；

第2行指定每个结点的CPU核数，本应用指定每个结点上的CPU为4核；

第3行调用Ansys命令行文件，调用编制好的input计算作业文件；

第4行指定工作目录，用户可在远程超级计算机上分配到的文件夹下创建文件。

完整的作业调度文件保存为mechanical130-parallel.sh。

2.3 远程登录超算中心

2.3.1 登陆服务器

为了保证用户数据的安全，超算中心一般采用VPN 软件对用户的登录进行管理[2]。远程用户首先需要使用浏览器软件，通过VPN 用户名和口令验证访问超算中心网站，再根据用户自己的操作系统配置VPN 客户端即可正常登陆超算中心VPN后。

用户成功登陆超算中心VPN后，还需要登录中心具体的资源业务服务器才能进行计算。中心资源一般通过TCP 应用的方式供用户使用，用户必须通过ssh 登陆方式，可以通过SSH Secure Shell Client，SecureCRT，Putty等ssh 客户端软件来使用中心资源。

本应用通过本地Windows操作系统的微机远程登录到天津超算中心的“天河一号”TH-1超级计算机，实现过程如下：

（1）应用IE浏览器；

（2）安装相应控件；

（3）登录到超算中心VPN；

（4）使用SSH Secure Shell Client客户端软件；

（5）登录到天河一号TH-1 超级计算机。

2.3.2 修改用户帐号密码

具体项目数据通常涉及单位的商业秘密，为了保证数据安全，超算中心采用了LDAP 技术来管理用户，新创建的用户节点时会创建相应的工作目录。用户可以通过passwd 命令修改用户密码。

2.4 上传作业文件

计算需要的作业文件需要先从本地上传到超级计算机上，从外部机器向天津超算中心的天河一号TH-1 小系统中上传文件，可以使用sftp 客户端，例如SSH Secure Shell Client 等本身自带的文件传输功能，或者使用WinScp 的sftp 数据传输软件。

2.5 提交作业，在超算平台上进行并行计算

用户将在本地微机上准备的cal_1.db、input.txt及mechanical130-parallel.sh文件上传到超算平台的用户目录下，用ls命令查看文件是否上传成功。确认文件上传成功后，使用yhbatch mechanical130-parallel.sh指令提交作业。作业成功提交后，系统会自动生成作业号，开始进行分布式并行运行。

2.6 观察计算过程

提交作业脚本文件后，系统将会为本次作业分配一个唯一的作业号（Job ID）。

本次作业提交后，系统返回作业号为91705，并在当前目录下生成本次作业日志文件slurm-91705.out；

关键命令解释如下：

yhq -u shikl 命令查看用户shikl所有作业的情况：ST 表示作业状态；R 表示作业处于运行中（Runing）；如果遇到PD 表示作业在等待状态（Pending，可能由于没有空闲的结点或用户达到最大运行作业数或最大运行CPU核数）；ls 命令观察当前目录所有文件；tail -f slurm-91705.out 命令实时查看本次作业的日志文件末尾信息。

2.7 读取计算结果

分布式并行计算每个CPU分别生成独自的Ansys结果文件，如.rst文件，本次应用分别生成file0.rst、file1.rst、file2.rst、file3.rst、file4.rst共4个结果文件，运算完成后Ansys 分布模块自动将每个CPU单独产生fileX.rst文件合成为总的file.rst。

读取计算结果时，不能像单机一样直接读取file.db文件，分布式并行计算结果不会保存到数据库文件中，数据库文件内的数据只包括主服务器的计算结果，因此计算结果只能读取结果文件（file.rst）。

由于本应用计算结果文件太大，在本地无法完成计算结果的读取，计算结果用APDL读取。

3 结语

通过本次应用，熟悉了超算平台ANSYS分布式并行处理模块的使用流程，摸索出了一种微机ANSYS与超算平台ANSYS并行处理模块的连接方式，真实体验了分布式并行计算强大的运算能力。

随着船舶设计越来越向大型化发展，以及一些新规范的要求，如HCSR在计算结构强度时要求将网格划分为细网格（网格边长50 mm），疲劳计算时网格要求划分为精细网格（网格边长不超过板厚），结构计算的规模越来越大，普通微机硬件及效率已经满足不了计算的需求，超算平台为此提供了一个高效的解决方案。但由于超算平台应用费用非常昂贵，而船舶结构计算在前处理和后处理需花费非常大量时间，所有计算过程在超算平台上进行经济性不佳。因此采用在本地进行结构计算的前后处理，在超算平台进行求解计算的方式既经济又高效。本次应用探索的微机ANSYS与超算平台ANSYS业务连接方式具有较高的实用意义，同时对其它软件与超算平台对接也具有一定的借鉴作用。

参考文献

篇8

关键词：芯片测试；DNA计算；研究

中图分类号：TP384文献标识码：A文章编号：1009-3044(2008)23-1059-02

Chip Testing DNA Computer Algorithm Research

PAN Guo1, LI Ken-li2

(1.Hunan Modern Physical Distribution Professional Technology Institute, Changsha 410131, China; 2.School of Computer and Communication, Hunan University, Changsha 410082, China)

Abstract: Uses the DNA supercomputing, designs the chip wrong test the efficient algorithm, and with the existing test technology union, in the solution existing integrated circuit in the wrong test will exist because of lasts long has been unable to guarantee that the chip electric circuit rate of accuracy will achieve 100% this substantive question. This article elaborated the chip testing DNA computer algorithm research significance, the present situation, the research content, the research technique and so on.

Key words: chip testing; DNA computation; research

1 引言

DNA计算及DNA计算机的研究已成为近年来理论计算机科学的研究热点，是组合优化领域NP完全问题和其它难解问题的潜在解决方法之一。电路测试在集成电路研究领域中有着重要的地位，是大规模基础电路VLSI设计中的关键问题，但现有测试方法均要求高计算量，即使借助价格昂贵的超级计算机，依然难以满足实际应用对计算机芯片性能的强大需求。

2 研究意义

随着社会和科学技术的发展，许多新工程领域中的复杂系统不断出现，在这些复杂系统的研究过程中，各种棘手的NP-完全问题处处可见。电子计算机因运算速度和存储容量太小，无法对这些NP完全问题实现有效求解。生物分子计算或DNA计算的出现为这些难解问题的解决带来了新的希望，1994年Adleman博士首先在基于分子生化反应的基础上成功求解了7个顶点的Hamilton路径问题后，DNA计算与DNA计算机的研究形成了理论计算机科学、数学和生物学领域的一个新的研究热点，吸引了众多计算机科学家和生物学家的研究兴趣，而可用DNA计算机解决的数学问题的种类也迅速增长。DNA 计算的最大优点是其具有的海量存储和并行运算能力，因此，它理论上可克服电子计算机存储量小与运算速度慢的不足。而且，只要未来关于DNA计算机的生物技术走向成熟（无错码、链长适中、操作自动化等），其超级计算的成本将远低于现有基于VLSI结构的超级计算机的成本：目前为止，一个测试试管已可产生1018个DNA链，它可使1018位数据以数据并行的方式并行运行。因此，DNA计算机可提供相当于1018个处理单元的并行性和O(1018)的存储空间。目前世界上最快的超级计算机在1000s内大约能并发处理128*1015位的信息，而DNA计算中耗时最长的“抽取”操作在1000s内可在试管中同时处理1018位的数据单元；DNA计算机的存储密度大约为磁带的1012倍。因此，利用DNA计算的巨大并行性，采用完全穷举的方式，仍然能够快速的找到激活故障所需的测试向量。

3 研究现状分析

随着集成电路技术不断发展，集成电路的规模越来越大，系统越来越复杂，单凭手工测试几乎是不可能的了，这迫使人们研究新的方法和技术来完成这项工作。随即计算机的出现，尤其是微型计算机的普及，为测试提供了物质基础，测试逐步从人工转向自动化。

随着各种数字系统尤其是数字计算机的飞速发展，集成电路得到了十分广泛的应用，其制造水平和工艺也随之迅速提高。为了保证系统运行的可靠性，集成电路测试技术成为了数字系统设计制造过程中非常关键的一环。然而集成电路的集成度，规模和复杂度呈现出几何级数的增长速度，这给电路测试带来了很大的难度，同时也出现了很多新的问题，一些传统的测试技术和方法已不能满足人们对系统可靠性的要求。要解决这些问题，迫切需要采用一些新的测试理论，测试技术和方法。

生物分子计算或DNA计算的出现为难解问题的解决带来了新的希望，1994年美国南加州大学的Adleman博士首先在基于分子生化反应的基础上成功求解了7个顶点的Hamilton路径问题[9]，并开创性地提出了DNA计算模型，之后，DNA计算与DNA计算机的研究形成了理论计算机科学、数学和生物学领域的一个新的研究热点，吸引了众多计算机科学家和生物学家的研究兴趣，而可用DNA计算机解决的数学问题的种类也迅速增长[10-12]。DNA计算的最大优点是其具有的海量存储和并行运算能力，因此，它理论上可克服电子计算机存储量小与运算速度慢的不足。而且，只要未来关于DNA计算机的生物技术走向成熟（无错码、链长适中、操作自动化等），其超级计算的成本将远低于现有基于VLSI结构的超级计算机的成本：目前为止，一个测试试管已可产生1018个DNA链，它可使1018位数据以数据并行的方式并行运行[13]。因此，DNA计算机可提供相当于1018个处理单元的并行性和O(1018)的存储空间。目前世界上最快的超级计算机在1000s内大约能并发处理128*1015位的信息，而DNA计算中耗时最长的“抽取”操作在1000s内可在试管中同时处理1018位的数据单元；DNA计算机的存储密度大约为磁带的1012倍。

到目前为止，利用DNA计算已经成功设计出许多数论及图论中NP难问题（如子集和、SAT、团问题等）；Chang利用基于粘贴模型首次提出破解 RSA 密钥的DNA算法；在工程应用方面，诸如电梯调度等NP难问题和数字信号处理也已在DNA计算中得到解决。

但是，利用DNA计算的巨大并行性，采用完全穷举的方式，对于大规模集成电路测试产生目前尚没有相应DNA计算机算法。

4 研究内容与研究目标

应用DNA生物超级计算所具备的海量并行运算能力，力图解决现有测试方法中计算能力不足问题。

1）利用DNA计算存在的巨大并行性，设计基于电压测试产生的直接穷举的DNA计算机算法，结合生物实验与实际芯片对提出的算法进行测试和评估；

2）为了弥补电压测试的不足，进一步提高故障覆盖率，保证集成电路产品的高可靠性，设计基于电流测试产生的基于穷举的DNA计算机算法，结合生物实验与实际芯片对提出的算法进行测试和评估，通过与电压测试DNA计算机算法故障的覆盖率的比较，对所提出算法做进一步的改进；

3）从现有电子计算机中传统并行计算和并行处理的模型出发，分析DNA计算的基本生物操作的并行机制及其在并行方式和存储上所具有的特点，结合遗传算法、FAN算法等测试中的有效经典算法，考虑将传统并行处理的策略和DNA计算的特点相结合，提出可扩展新的DNA计算测试产生算法，算法应能显著降低DNA链长和DNA链数。

研究目标：利用DNA计算机模型，设计芯片错误测试的有效算法，解决现有芯片测试方法因为其要求的海量超级计算而无法保证测试准确率的问题。

5 采取的研究方法

1）DNA计算机模型的选取：针对芯片的功能部件及测试产生的特点，对目前主要的DNA计算模型进行综合比较与评价，并建立相应的评价体系，该体系能够充分考虑所要完成的各生物操作的功能、各功能在不同模型下实现的难易程度、生物操作本身的复杂度、DNA分子链的长度与问题规模间的关系和DNA计算中避免伪解和错解能力的高低等问题。然后，选取一功能上完备的具有执行基本算术和逻辑运算能力即计算上完备的模型，该模型应该具有良好的可扩展性。

2）基本逻辑运算与基本算术运算的DNA计算机算法的设计：大规模的集成电路芯片都是由基本的算术、逻辑部件组成，因此首先设计基本逻辑运算和算术运算是最终测试算法设计的关键。在正确选取了DNA计算模型之后，设计其相应的DNA计算机算法并运用实验手段进行分析改进。

3）集成电路中测试向量产生的DNA计算机算法设计：根据所选取的DNA计算模型及设计的基本算术及逻辑运算的DNA计算机算法，设计相应的基于DNA计算的集成电路测试向量产生的算法。同时，通过合作与交流，了解、借鉴和利用国内外最新DNA计算技术，用以指导求解上述问题的DNA计算机算法研究。

6 实验方案

实验上，采用生物分子计算研究所的普通PCR仪、DNA分子合成仪、杂交箱、测序仪、转移电泳槽、DN段分析系统、图像分析系统和电泳产品及各种生物酶等分子生物学的研究设备和研究药品，将设计的求解上述测试向量产生的DNA超级计算算法进行实验，将多次计算的结果在购置的以注入故障的芯片上进行测试，评估与分析，根据结果确认并完善理论成果，以达到预期研究目标。

1）针对芯片的功能部件及测试产生的特点，对目前主要的 DNA 计算模型进行综合比较与评价，并建立相应的评价体系并然后，选取一功能上完备的具有执行基本算术和逻辑运算能力即计算上完备的模型。

2）基本逻辑运算与基本算术运算的DNA计算机算法的设计并运用实验手段进行分析改进。

3）集成电路中测试向量产生的DNA计算机算法设计并通过在购置的已注入故障的芯片上进行测试评估。

7 结束语

本项研究首次将两者结合，试图利用DNA超级计算机的超级计算能力，解决电路测试呈指数增长的计算要求，具有明显的学科交叉性，将不仅为DNA超级计算开拓新的应用，还可探索为传统集成电路设计提供新的方法，具有相当的科学意义和应用价值。

参考文献：

[1] Keshavarzi A,Tschanz J,Narendra S. Leakage and Process Variation Effects in Current Testing on Future CMOS Circuits[J]. IEEE Design and Test of Computers, 2002,19(5):36-43.

[2] Braich R, S,Chelyapov N,Johnson C. Solution of a 20-variable 3-SATproblem on a DNA computer[J].Science, 2002,296(19):499-502.

篇9

关键词：银行业务；批处理流程；Hadoop MapReduce ；云计算

中图分类号：TP302文献标识码：A文章编号文章编号：16727800（2013）0010000104

作者简介：赵曦（1971-），男，博士，上海金融学院信息管理学院副教授，研究方向为互联网金融应用。

0引言

随着大型商业银行业务规模的扩大和信息技术的发展，数据中心已经成为大型商业银行业务系统与数据资源进行集中业务处理的枢纽，汇集了规模化的IT计算、存储和网络资源。

银行主要承担本外币储蓄、信用卡、对公存贷款业务，银行汇票及联行业务，国际结算和外汇买卖，代收代付等业务 [1]。银行业以网络和信息技术作为其业务处理的核心支撑，形成了前端业务信息采集、中端数据交换和数据中心处理“分布采集、集中处理”模式。随着业务量的增加和金融新产品的涌现，业务管理和信息处理“大集中”后对流程处理效率、系统扩展性和数据存储可靠性提出了更高的要求。金融行业特别是银行业在处理在线联机业务（online transaction）的同时，还需要处理大量的离线批处理业务（batch processing），如影像文件处理、票据结算、外汇清算、薪资、各类报表，批处理业务具有数据量大、占用计算资源多、限时处理完成的特点，银行信息中心通常要配备足够的资源在特定时间段（夜间、周末、月末）进行批量业务数据处理。如何提高批处理业务能力、合理配置计算资源是银行信息中心不断要面对的挑战。

以计算资源和服务虚拟化为核心的云计算架构和技术得到了广泛的认同，正在成为IT产业和信息化应用系统架构的发展趋势，实践表明，基于云计算架构的系统在资源利用、服务效率、运行成本及能源消耗方面具有明显的优势。

本文提出了一种应对批量业务流程处理的优化方法，基本原理是将业务流程的任务节点进行分解和分类，形成流程队列和若干可以进行并行处理分类任务队列，使用Hadoop MapReduce并行计算框架进行并行处理，MapReduce提供的资源调度和容错机制能够有效提高业务处理系统的可扩展性和稳定性。模拟实验表明，流程任务分解优化方法比通常的以流程为处理单元的方式具有一定的优势，可以在云计算环境下分组处理具有共同特征的计算和操作任务，实现优化资源调配，提高批量业务处理的效率。

1批处理业务流程优化

批量业务处理是指一组遵循同一处理流程的重复操作，而涉及的业务流程是一组将输入转化为输出的相互关联或相互作用的活动，活动之间不仅有严格的先后顺序限定，而且活动的内容、方式、责任等也都必须有明确的安排和界定，以使不同活动在不同角色之间进行交接成为可能，批量处理业务流程活动之间的转移不需要人工干预。处理流程中的活动根据数据处理的要求和特点进行设计，如先进行数据核对，然后进行计算，最后进行账户操作，每个活动会产生临时数据。为了提高处理能力和资源使用效率，流程活动设计尽可能遵循以下几个原则：

①独立于其它流程和活动，可进行重复操作；②使用较少类别的计算资源，CPU、网络、存储；③能够进行并行处理。

图1示意了批量流程处理的原理，银行信息中心在每个批处理周期安排若干批处理的规划，配置计算资源，启动和监控批处理过程。每个批处理中包括对应同一处理流程的批量处理任务。

银行信息中心根据资源配置情况，安排批处理规划中的批处理执行，可以做到并行处理，以满足处理时限的要求，每个批处理分配固定的或虚拟化的资源（服务器、CPU、存储、外设），当现有资源不能满足批处理要求时，则需要不断增加资源。这种以批处理流程为单位来决定资源配置的模式（图2）不一定能够确保资源的高效使用，如：需要大量CPU计算的流程同时配置I/O性能较高的资源，造成I/O资源的浪费。经过分析，可以通过优化批处理业务流程和操作来进行改进（图3），以进一步提高资源的使用效率。

以优化流程任务作为并行计算单元，形成批量处理任务队列，根据任务操作的类型来分配最适合的资源，理论上提高了资源配置的精细程度，有助于提高资源使用效率。

2基于MapReduce的批处理优化计算

为了验证提出的以流程任务为基础配置资源的批处理运算架构（图3），我们搭建了Hadoop/MapReduce并行计算实验环境，通过模拟批处理业务，对两种资源配置模式进行比较。

Hadoop[6]云计算平台的核心由HDFS分布存储和映射机制及MapReduce并行计算架构组成，具有开放性、稳定性和扩展性方面的优势，成为了云计算研究和应用的重要平台之一，其架构与提出的批处理流程优化模型吻合程度高。

MapReduce[8]通过两个函数Map和Reduce提供并行计算框架，将计算任务（Job）分解为可以进行独立和并行计算操作集合（Tasks），提交给Map函数处理，而Reduce函数收集、整理、排序Map函数的计算结果。其基本功能是按一定的映射规则将输入的（k1，v1）键值对转换成另一个或一批list（k2，v2）对输出，而Reduce将一个或多个Map输出的list（k2，v2）转换为新的键值对list（k3，v3），作为任务计算的输出[2]。

一种基于C++的脚本语言和解释器封装了实现上述功能的基本功能函数，用来描述任务的执行操作。根据上述模拟批次规划和流程节点类型，得出计算队列表。

硬件计算架构使用5台Ubantu Linux服务器提供Hadoop MapReduce并行计算平台，1个NameNode和4个DataNode，网络环境为100M局域网，通过SSH实现服务器之间的连接、控制和HDFS数据复制，流程和任务队列管理程序运行在NameNode上，Map和Reduce实现分布在DateNode上。图7所示为流程优化模拟架构。

平台模拟了以业务流程为处理单元和任务分解优化两种计算架构，使用同样的模拟流程和数据，同时检测了当一个DateNote服务器宕机时的任务容错机制和性能，表4汇总模拟运行的比较数据。

图7Haddop MapReduce流程优化模拟系统架构

流程最短处理时间指流程任务按照关键逻辑路径执行需要的累计时间，当一个任务处理完成后才能激活后续节点任务。以流程为单位的队列处理模式在4个DataNode平均分配流程，每个DataNode处理的流程数量几乎均等，资源的使用率也相同。任务优化分解方法形成了7个任务队列，DateNode资源分配按照优先资源对照表3进行。

流程平均处理时间指进入流程队列到所有任务处理完毕的时间，包括等待和任务处理时间，资源使用差异指CPU和I/O在高度使用和过度空闲的比例关系。

根据实验平台记录的运行数据，在同样的批处理流程和硬件架构条件下，使用业务流程分解优化的并行计算能够处理更多的事务（320min对比430min），资源的使用效率得到提高（54%对比31%），即使考虑到流程分解和多个任务队列管理的额外开销，运行结果还是表明了所提出方法的优势，为进一步深入研究和完善提供了基础。

3结语

银行批处理“大集中”后，其数量和规模不断扩大，银行信息中心不断面临IT资源优化和灵活配置的挑战，一方面要提升IT架构的资源数量和技术水平，另一方面要优化批处理的模式来更有效地利用IT资源（计算、存储、网络、I/O）。

云计算技术的研究和应用成为了IT产业发展的一个重要方向，基于云计算架构的系统在资源利用、服务效率、运行成本及能源消耗方面具有明显的优势。云计算架构的出现也引发了在信息系统设计、功能开发和维护服务的巨大变化。作为以信息化技术作为重要支撑的银行业，正在逐步尝试和分享云计算带来的各种优势。本文在此背景下，提出了一种针对银行批处理业务的优化流程分解方法。

业务流程分解优化方法通过对流程任务分组，可以为实时处理大批量流程的应用领域（银行、证券、保险、电子商务）提高处理效率，MapReduce原理为流程节点处理提供了并行计算框架，其调度和容错机制可以实现系统计算资源的高扩展性和稳定性。模拟实验表明，本文介绍的基于并行计算的优化流程分解方法比以整个批量处理流程为处理单元的方法在效率、架构和灵活性方面具有一定的优势。下一个阶段，拟将该方法进一步完善，在银行等典型批处理业务应用领域进行深化和拓展。

参考文献：

[1]李得仁.银行批量业务后台集中处理模式的实现[J].中国金融电脑，2012（11）.

[2]李成华.MapReduce：新型的分布式并行计算编程模型[J].计算机工程与科学， 2011（3）.

[3]杨志豪.一种适应数据与计算密集型任务的私有云系统实现研究[J].计算机应用研究， 2011（2）.

[4]易小华.面向MapReduce的数据处理流程开发方法[J].计算机科学与探索，2011（2）.

[5]DEAN J， GHEMAWAT S. MapReduce： simplified data processing on large clusters[J].Communications of the ACM，2008， 51（1）： 107113.

[6]Welcome to Hadoop MapReduce[EB/OL].http：///mapreduce/.

篇10

【关键词】自适应数字波束并行信号

并行信号及阵列信号的分析处理技术是信号处理技术的两大主要内容。并行信号与阵列信号不仅能够对噪声进行抑制、对干扰进行降低，而且能够对有用的目的信号进行增强。相關研究工作者在历经几十年的不断的建立和改善后，终于使并行信号的处理技术被成功应用到每一个需要它的地方，并且产生了许多不同的并行处理系统，每一个系统均在运行方式、结构、应用、算法等方面具有独特之处。

利用自适应数字波束技术对并行信号进行处理，能够有效减小干扰，进而更加精确的得到目标信号。

1自适应数字波束形成技术的发展与研究现状

虽然在现实中利用阵列信号可以减少信号干扰及噪音，可是也不可忽视它的导航和通信两系统中含有的缺陷。举例：传送阵列及并行信号过程中，信号的相位及通道幅值也会出现误差；为阵列信号在尽力降低噪音时会发生排布方式出现误差等的情况。自适应数字波束并行信号技术的出现和发展可以有效避免误差出现，充分彰显阵列和并行信号的长处。自适应数学算法是它建立的基础。数据量及计算量会由于增加的阵列信号量在空间范围内造成信号天线的排布序列的增多而增多，这是计算性能在并行信号处理系统中面临的巨大难题。自适应数字波束通过编成算法的方式加权计算大量并行信号，给信号挑选了最好的权值。设定最好的权值可以实现阵列和并行信号形成波束。需要注意的是，在采用此方法时，庞大的信号数据量及阵列数在信号处理方面形成了难题。

2并行信号的自适应数字波束形成算法研究

2.1并行信号的基本模型

并行机的高性能是处理并行信号的关键，如今被应用的最为普遍的是PC集群系统，它是由数台PC计算机利用网络进行连接，每个节点或工作站协同合作，以此使任务更准确和高效的完成。在信号处理过程中扩展性强、结构简单且成本比较小时PC集群系统的优势，在实际应用它时，为了实现既科学又效率高的目标，可以根据工程情况对其组成和建立进行适当调整。

对于自适应数字波束，我们可以通过信号类型及参考量的不同把它的形成分为下列几类：第一种，空间域数字波束形成方式。此种方式是以空间域参考信息作为基础的，它包含很多信息。此种自适应算法主要有MOVD扩展算法及MOVD算法等。MOVD算法是根据信号空间的来源及线约束方向的自适应算法，它的另一叫法为最小方差算法。一旦并行信号出现空间阵列及位置不确定的情况，它的效率就会大幅降低。第二种，时域数字波束形成方式。此法是在时域中以时间参考信息作为基础的。它的稳定性比较强，主要有LMR算法等。它一般需在时域范围中对信号的序列进行输出，且对空间中信号的阵列排布及来源方向无要求。第三种，盲波束形成方式。此法无需基于以上几种参考信息，仅需部分信号的先验信息。

2.2并行信号的数字模型

并行信号具有较广的应用，自适应数字波束形成算法是在对并行信号进行处理时的前提，它的本质即为依据并行信号的方向对某种信号进行增强或抑制。若想对目标信号进行精准、准确的提取，传统滤波器并做不到，而应用自适应数字波束形成算法就可以提取到想要的信号。它主要包括下面两项：

2.2.1MVDR算法

信号输出功率为此算法的参考依据，它的目的是尽可能减小目标信号的输出功率。利用此种算法时，信号的输出端仅容许目标信号输出，以此来保证输出功率的最小化，做到无失真输出，同时，利用此算法也可以避免噪音对信号的干扰，使得使用系统的信噪比得到提升。

2.2.2约束算法

此算法以权值矢量作为基础，对并行信号权值使用迭代算法，限制每次迭代的矢量。此法能对并行信号中的雷达接收及发射信号进行有效处理，且同时处理二者能够提高雷达信号的处理技术及传输质量。

2.3自适应数字波束并行信号处理的递归法

此法属于自适应阵列的处理算法，递归计算直接算法需要的矩阵求逆是它的基本原理，所以运用此法时不需要直接矩阵求逆。利用矩阵求逆来进行引理，能够使相同的基本的更新权过程演绎出不一样的递归算法。自适应阵列出的递归处理算法本质上依据的还是最小二乘方法，它和卡尔曼滤波方法的关系十分紧密。递归处理算法在处于较稳定的环境下时，在每个采样的瞬间所计算出的权值均是最佳的选择以对接数据为基础的最小二乘方法。

3并行信号的数字波束形成算法的实现

对雷达传送的信号进行实时处理，并输出波束置零的权值是自适应抗干扰算法的作用。若要提升它的信号处理速度，不仅要选择快速收敛算法，还应选用高速结构用于硬件系统。所以，在设计它的硬件系统过程中为了提升运算速度，既要基于算法本身的并行性，应用Systolic并行处理结构，又要辅以高速数字信号储存器和处理芯片等部件的应用。此外，通过进一步严谨的研究分析，还要选对阵列映射方式对算法进行完善，使节点数量变少。通常阵列映射方式分为三种：超平面映射、按Y方向映射和按X方向映射。

4结束语

现如今，无论在工业方面，还是在军事领域，并行信号和阵列信号的发展与应用都是十分重要且值得我们关注的。本文分析了自适应数字波束的发展与研究现状，阐述了并行信号的自适应数字波束形成算法的研究，对自适应数字波束并行信号处理的实现提出了建议，希望可以使并行信号得到稳定、准确和高效率的处理。

参考文献

[1]廖桂生，保铮，张林让.基于特征结构的自适应波束形成新算法[J].电子学报，1998（26）：23-26.

[2]金启华.高速并行自适应干扰抑制技术[C].研究生毕业沦文，1999.

[3]胡善清，刘峰，龙腾.高性能通用并行信号处理模块的设计与实现[J].计算机工程，2007，33（05）：252-254.

[4]吕遵明，王彦刚.基于串行RapidIO的通用数字信号处理模块设计[J].信息化研究，2009，35（09）：39-41.

计算机并行处理技术范文

篇1

篇2

篇3

篇4

篇5

篇6

篇7

篇8

篇9

篇10

免责声明

AI创作文章

热门标签

相关文章

相关期刊

计算机

计算物理

航空计算技术

航空计算技术

精品范文

学术顾问