关于土地信息系统建立过程中的数据质量问题的探讨
时间:2022-05-30 01:46:00
导语:关于土地信息系统建立过程中的数据质量问题的探讨一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。
、前言
土地是人类的宝贵财富,是人类社会进行物质生产所必需的基本条件和自然基础。如何科学、合理地利用有限的土地资源,如何及时了解与掌握土地利用变化数量和空间特点,对于保持耕地总量动态平衡和土地持续利用具有十分重要的意义。
随着社会经济的日趋多样化,土地部门的业务工作及范围也在不断扩大,原有的靠手工操作,图纸管理的模式已经越来越不能满足高效率的需求。为强化土地管理,满足社会对土地资源信息更多、更细、更完善的服务要求,各土地管理部门纷纷加入信息化、数字化的改革大潮。特别是在市场经济条件下,因土地管理部门工作的严肃性、准确性、科学性和规范化要求,管理中任何规定的确定和变更都需要完成大量的信息收集、分析、综合、决策和评估等工作,土地管理也只有强有力的信息技术(IT)的支持下,才能做到真正的科学决策和管理。
土地信息系统(LIS)是地理信息系统的一个分支,是一种基于宗地[以宗地(地块)为单位]的计算机管理信息系统。是一种利用计算机技术及其属性数据进行采集、处理、管理、查询、分析、应用和维护更新的空间信息系统,是土地管理的现代化工具,是土地规划和管理定量化、科学化的方法、手段。但是,在土地信息系统的建设过程中,还存在许多问题,给土地信息系统的建设及发挥带来一定困难。这里仅对土地信息系统建设中的数据质量问题进行探讨。
二、对LIS数据质量的认识
数据是一种未经加工的原始资料,是客观对象的表示,它可以是数字、文字、符号、图像,数据是信息的具体表达形式。一个LIS系统包括空间数据、属性数据、空间数据之间的关系以及空间数据与属性数据之间的关联。
人们往往以为计算机为基础的信息系统的数据质量是可靠的,很少怀疑利用信息系统产生的分析结果在数据质量方面会有问题,但事实远非如此。在某些情况下,由于多种原因,计算机分析的结果甚至会比手工分析的误差更大。这里除软件、硬件的质量问题,计算方法上的问题,以及分类、编码、输入、操作的明显疏忽外,数据本身的质量是重要的原因。
众所周知,数据是LIS的“血液”,是组成系统的重要元素。数据质量的好坏是土地信息系统成功与否的关键所在;数据质量的高低优劣,都直接影响到土地信息系统的经济效益和社会效益,决定了系统应用价值的大小;数据的可靠,质量的好坏将直接影响到整个系统的成败。系统如果不能提供正确、可靠的信息,这个系统也就失去了存在的价值。
数据质量的好坏是一个相对概念,并具有一定的针对性。衡量其好坏主要有以下几个指标:误差、数据的准确度、数据的精度和不确定性[1]。数据质量是数据整体性能的综合体现。
统而言之,数据的质量问题主要表现在两个方面:一是数据是否及时反映了现实世界;二是数据是否保持了一致性和完整性。
土地信息系统的数据量大,数据来源广,数据采集的任务重,在数据库建立过程中会出现许多人为和系统的误差,甚至还有可能产生数据错误,最后采集的数据无法准确反映规划和管理的实际状况,建立在此数据库基础上的系统往往也就达不到管理自动化辅助决策的目的,而只不过是“看看而已”的一种“摆设”罢了。
数据库(包括空间数据库和非空间数据库)是土地信息系统最基本、最重要的组成部分,也是投资比重最大的部分。数据质量的好坏,直接影响系统的功能和应用。不仅要根据技术规程衡量数据质量,还要从数据使用角度分析数据质量问题。数据质量通常是指数据的可靠性和精度,它主要用数据的误差来度量的。现就土地信息系统建立过程中的数据质量问题作进一步的探讨。
三、数据源质量的问题
土地信息系统的数据源指建库中所需要的各种数据类型的来源。它是土地信息系统最基本、最重要的组成部份。土地信息系统的数据源多种多样,主要包括有:地图,地图是系统最主要的数据源,因为地图是地理数据的传统描述形式,是具有共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间关系直观,而且实体的类别和属性可以用各种不同的符号加以识别和表示。土地信息系统其图形数据大部分都来自地图,土地信息系统的属性数据主要有地籍图、宗地图、土地详查图、土地利用现状图、行政区划图、专题图、乃至地形图等各种图件的矢量化地图数据。二是遥感影像数据,遥感影像数据是一个极其重要的信息源。通过遥感影像可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影像还可以取得周期性的资料,这些都为土地信息系统提供了丰富的信息。三是统计数据,包括土地的分类、面积、权属、分布及质量、等级状况、利用状况、非法占地等统计资料。四是实测数据,包括GPS点位数据、地籍测量数据等。五是数字数据,包括数字图形数据和属性数据。数字数据主要有地籍号、档案卷宗号、地类号、图号、手簿号、宗地界址点点号及坐标控制点坐标,宗地面积,面积中误差、年代、日期等等。属性数据包括图形、图像以外的各种文字、数字信息。其中文字信息主要是与宗地档案,文件档案组成相关的各种检索和查询信息(如:土地权利人姓名或单位各称、土地座落,文件档案的标题、发文机关、公文字号等等),以及土地登记、地籍调查、权属审核、登记发证各办公流程中的各种键盘输入信息。六是各种立法文件和文字档案,主要有地籍档案、文件档案等具有法律效力或需要经常查阅的原始文件材料,它们是土地信息的重要组成部分,在土地的规划管理中起着很大的作用。
数据源质量问题指数据的采集和录入中可能产生的误差,建库所需的各种类型的数据的可靠性和精度。
从土地信息系统建立的过程来看,它的主要因素有:各种测量数据,地图和遥感数据等的误差;调查和统计造成的属性数据误差,以及文档数据的错误等,数字化前的预处理、手扶踀自动化的分辨率和矢量化精度。
1、遥感数据
地理信息系统、遥感和计算机辅助制图是现代地理学的重要技术手段。遥感作为一种获取和更新空间数据的强有力手段,能及时地提供准确、综合和大范围进行动态监测的各种资源与环境的信息,因此遥感数据是土地信息系统的一个重要数据源。
所谓遥感(RemoteSensing)就是遥远感知的意思,也就是不直接接触目标物和现象,在距离地物几公里到几百里、甚至上千里的飞机、飞船、卫星上,使用光学或电子仪器接受地面物体或发射的电磁波信号,并从图像胶片或数据磁带形式记录下来,传送到地面,经过信息处理,判读分析和野外实地验证,最终服务于有关部门的规划决策[2]。土地管理部门可以运用遥感技术快速获取现状空间的信息。
尽管遥感技术有很多好处,但因其自身特性,获取的遥感数据可能存在一些误差。如:不同的高度引起的问题,由于传感器的结构及稳定性产生的问题,对信号进行数字化产生的误差。传感器在航线、航向上出现的误差,大气辐射产生的误差,地形和地貌等因素产生的误差等等。在遥感资料的获取时,有些误差是可以控制的,有些则不可控。因此必须对原始数据进行预处理,包括利用地面控制对原始数据进行几何校正,图像增强和分类。对获取的遥感数据进行光谱校正,特征提取,自动识别分类、自动成图等处理[3]。
2、测量数据
各种原始的测量数据是土地信息系统的主要来源之一。包括宗地的权属界线、位置、形状、数量、面积、各级行政界线、地形图测量等。由于人和环境的因素,测量数据不可避免地受到人为误差(对中、读数、平分等误差)、仪器、环境的影响。来源于地面测量的数字数据中含有控制测量和碎部测量误差。其中控制点误差又受控制网的参考基准、网形和观测精度以及观测费用等因素的影响。碎部点误差除了继承了控制点的误差外,还受自身观测方法,观测精度和地界的人为判断,以及地物地貌的取舍等因素的影响。当然原始数据误差受观测仪器、观测者和外界环境三种因素影响。除此之外,还有测量数据的实时性以及数据老化,采集数据的密度不合理,或概括取舍不合理,选取测量规范标准不一致或精度等级不一致造成测量数据的不一致的影响。
地籍要素是构建土地信息系统极为关键的一步,其测量数据的精度高低决定了系统功能能否得到正确和充分发挥。
从地籍测量成果的有效性和土地管理的可能性来考虑,为了保证各权属单元之间的界线清晰,边界无争议,并且双方都能接受而不损害他人和国家的利益,地籍测量要达到一定精度。因此,必须要有相应的数据采集方法作为保证。地籍要素的采集方法目前主要有两种,一种是传统的模拟式外业测图方法,另一种是野外全数字化数据采集方法。传统方法的主要作法是在地籍控制测量的基础上,用解析法测量出权属界址点坐标,以控制点或以界址点为基础施测成地籍图,要形成入库数据信息,则要通过对原图数字化来实现。用传统数据采集方法形成地籍要素数字信息其误差影响因素较多,主要误差来源为:测站点误差m1,量距误差m2,在测图板上描绘方向线误差为m3,刺点误差m4,数字化仪采点误差m5等。按有关专著论述,一般情况下,m1≈±0.12mm,m2≈±0.2,m3≈±0.1mm,m4≈±0.14mm,这四项误差为野外采集误差。数字化m5的影响因素比较复杂,误差产生首先与图形要素有关,要素本身的复杂程度对数字化精度有显著影响,数字化仪本身的精度更应引起重视。正常情况下,用常规数字化仪进行数字化时,精度一般可达到±0.13mm。综合上述得,地籍要素采集精度m采为:
m采=±
=±
=±0.02mm
按1:500比例尺来考虑,实地误差将达到±10cm,由此可见,按传统方法施测,则拟入库的地籍要素信息很难达到规定的±5cm的精度标准[4]。
采用野外全数字化方法,界址点野外数据采集一般采用直接测定坐标法,即将全站仪或测距仪置于测站点上,对界址点上的移动棱镜进行水平角和距离测定,电子手薄记录计算。此种方法的主要误差来源为水平角测角误差mβ和测距误差mD,测角中误差角保守为±5″,测距误差主要来自移动棱镜偏离界址点位置误差,其偏离值按2cm考虑。测距平均边长取100m,按点位误差精度估算公式m2=来计算,则m≈±2cm,即便考虑测站误差和其他偶然的联合影响,点位精度也肯定在规定范围内,所以地籍要素信息数据的野外全数字化有利于提高界址点精度,从而保证地籍数据的质量。
3、调查、统计、文档数据问题
土地信息系统的建设过程中,涉及大量的调查统计数据,这些资料尚存在许多不足之处,为土地信息系统的建设带来了一定困难。
建立土地信息系统,必须首先进行土地基本信息的搜集,开展地籍调查工作,核实宗地权属,掌握土地利用状况,获得宗地位置、形状及其面积的准确数据,为建库奠定基础。
现就地籍调查工作加以探讨,众所周知,权属调查的工作之一是填写地籍调查表。由于权属调查技术性强,工作量大,参与人员多且水平不同等原因,填写后的地籍调查表或多或少会出现下面一些问题。在填土地使用者名称时,单位本应填写全称,可出现了类似这样的情况:某林业局有3宗地,而在3份地籍调查表上出现了xx林业局、县林业局、林业局等名称。按这样的名称录入建立信息系统,将导致不能正确地自动的归户。在填写土地使用者性质时,本应该写“全民”或“集体”或“个体”或“个人”,而出现了“国营”或“国有”或“私营”这样的名词。在填写宗地四至时应说明权属界线所经地物名称及归属、位置、与誰接壤。但出现了东(南、西、北)至xx,而未填出接xx。且有的四至填写错误,如两宗地共用一堵墙时,则只能出现两宗都至墙中,或一宗至墙内另一宗至墙外,但填出了两宗都至墙外或墙内等情况。在填写界址标示处的界址线位置时也有类似错误,有的表填写字迹潦草,或使用简化字,让人难以辨认。有的内容还可以猜出,但户主的姓名、调查员、勘丈员的签名等内容实在难辩;有的表中该填的内容而未填,任意涂改。
共用宗的处理,一个地块被几个权属单位共同使用,而其间又难以划清权属界线,这样的地块称为共用宗[5]。不少县(市)是这样处理的:有多少土地使用者就填多少份地籍调查表,表上的内容按各分宗填写。这样做的好处是所填的内容详细,调查表和土地登记申请书、审批表形成一一对应的关系。但其弊端也是显而易见的,其一较大地增大了填表的工作量,其二增大了复杂程度,在填写四至时,如遇一个土地使用者使用几个地块则不得不写清几个地块的四至;为填清界址指标,又得设置内部界址点,增加了宗地草图和地籍图的负荷量,填表时如不小心还会造成表与表之间的相互矛盾。为了和地调表统一,有的在形成宗地界址点成果表时,除了有宗地界址点成果表外,还有分宗的界址点成果表。如果内部界址点是在纸图上图解的,则将该宗地的宗地界址点和内部界址点和计算机展点后,会出现界址线混乱的情况。在土地信息系统建库时,这些内部点是不能当界址点录入进库的。如进库则在面积统计时,这种内部界址点所围成的区域的面积就被多统计了一次。
建立完备的信息系统,必须具备这样的条件:大比例的地形图或地籍图;野外测量的界址点数据;宗地的属性数据(土地登记申请书、地籍调查表、审批表等)。全省在进行大大规模的城镇地籍时,由于受当时的条件限制,自动化程度低,各作业单位作业水平的不同,或多或少出现一些问题。在建库时所发现的问题主要是界址点的坐标成果与地籍上的位置不吻合;相邻宗的同一界址点坐标不同;界址边长、宗地面积计算有误。某些县(市)为了进行土地登记,由于多方面的原因,在进行初始地籍调查时,只作权属调查,不作规范的地籍测量。为了计算面积,用皮尺或钢尺丈量界址边长及相关尺寸,用几何图形法计算出宗地面积,而不测址点坐标和地籍图。这样做不利于信息化的管理。
4、图形数字化
影响数据质量的因素是多方面的,有相当一部分来自于建库过程中的数字化过程。建库过程中的数据质量,包括数字化前的预处理,纸张变形、手扶跟踪数字化精度或扫描数字化的分辨率和矢量化精度。
(1)数字化前的预处理
用于数字化作业的地形图(工作底图)一般采用聚酯薄膜图,其变形一般小于0.2‰。采用纸质图纸时,图纸的尺寸随湿度和温度的变化而变化,温度不变的情况下,温度由0%增至25%,则纸的尺寸可能改变1.6%[6]。因为纸的膨胀率和收缩率不相同,即使温度回到原来的大小,图纸也不能恢复原来的尺寸。因此在数字化时要适当的比例因子,通过仿射变换进行几何纠正,以减小工作底图变形产生的位置误差,达到相应的精度。
对不同种类和比例的工作底图进行数字化时,应注意它的投影方式是否一致,比例是否匹配。对于不同投影方式应在数字化后及时变换为系统要求的投影方式。对于不同比例应将比例尺和精度记录到元数据中,以便估记由此可能产生的误差。
(2)跟踪数字化
手扶跟踪数字是一种自动化精度较低的数字化方式,其数字化精度也因操作员及其工作的疲劳程度而异,操作员的劳动强度较高。随着大幅面扫描仪的成本不断降低,扫描和矢量化技术不断完善,这种数字化方式可能成为自动扫描数字化的一种补充。
手扶数字化是从地形图输入空间数据的最广泛采用的输入方法。把地形图放置于数字化桌上,用手持设备,跟踪每一个地图特征、数字化设备精确量测鼠标的位置,产生数据形式的坐标数据。
影响跟踪数字化数据质量的因素很多;主要有:数字化底图中地理要素的宽度、密度和复杂程度对数字化结果的质量有着显著影响。数字化仪的分辨率和精度对数字化数据质量有着直接的决定性的影响。《地形图数字化规范》规定,数字化仪的分辨率不能小于每厘米394线(约1000dpi),精度不低于0.127mm(0.005英寸)。常见数字化仪在分辨率方面通常能满足要求,而在精度方面却有相当一部分不能达到要求。在选择数字化仪时要特别注意其精度指标,以满足LIS工程的需要。数字化操作员的技能与经验不同而引入的人为因素误差是不同的,由于操作员视力、操作习惯,熟练程度和疲劳程度的不同,最佳采样点位值判断,十字丝与目标点重合程度的判断会有一定程度的差异,影响数字化的质量。操作方式(如曲线采点方式和采点数目)也会影响数字化数据的质量。
假定各种误差影响符合误差传播规律,手扶跟踪数字化的综合精度应按下式求得:[7]
m数=±
其中:m数表示手扶跟踪数字化的综合精度;m定表示工作底图定向误差,m仪表示数字化仪精度,m人表示人为因素误差。
(3)、扫描数字化
扫描数字化用高精度扫描仪将图像等扫描并形成栅格数据文件进行处理,将之转化矢量图形数据。规范规定:图形定位控制点扫描误差不大于0.1mm,相对于工作底图,矢量化后的扫描点误差不大于0.15mm,线划误差不大于0.2mm。影响扫描数字化质量的因素除原图质量外,还包括:扫描精度、定向精度、矢量化精度损失等。
①扫描仪的分辨率和精度
扫描仪的分辨率和精度对扫描数字化质量的影响是至关重要的。因此,要根据具体情况选择适当的扫描仪。目前,大幅面扫描仪大致有,滚筒式(drum),平板式(flatebed),直进式(directfeed)3种。这些扫描仪能够输出一种或多种形式栅格数据文件(二值、灰度和彩色)。
滚筒式扫描仪精度较高价格较贵,能以较高的分辨率扫描AO或更大的图纸。
平板式扫描仪与滚筒式一样精度高、价格贵、分辨率很高,但一般幅面不会超过A1幅面。由于平板式扫描仪幅面小,扫描后多需进行拼接,从而增加了工作难度,引入了更多的误差源。LIS工程一般不选用这种扫描仪。
直接式扫描仪精度较低,价格也较便宜。通常能够满足一般LIS工程的需要。
目前,需要的大幅面扫描仪品牌有:CONTEX、VIDER、ANATECH等。
在选择扫描仪时,应注意其是否采用硬件消蓝。光学分辨率代表了扫描仪的分辨率能力,而经销商往往只是给出插值分辨。同时,应注意扫描仪的歪斜失真,歪斜失真的大小与扫描仪的走纸方式有关。
②栅格数据矢量化的精度损失
在土地信息系统中,栅格数据与矢量数据各具特点与适用性,为了在一个系统中可以兼容这两种数据,以便有利于进一步分析处理,常常需要实现两种结构的转换。
栅格的矢量转换处理的目的,是为了将栅格数据分析的结果,通过矢量绘图装置输出,或者为了数据压缩的需要,将大量的面状栅格数据转换为由少量数据表示的多边形边界,但是主要目的是为了能将自动扫描仪获取的栅格数据加入矢量形式的数据库。
在栅格数据矢量的过程中的细化、跟踪等均可能引入一些误差。复杂图形全自动化矢量化效果极差,会产生众多的交叉线,导致多边形跟踪错误。对此,应采用交互式矢量化方法。因此在选择矢量化软件时不应仅仅关心自动化程度(全自动矢量化软件价格往往很高)。还要特别注意是否具有以下功能:智能去斑,裁剪,扭曲较正,比例控制,水平校正,光栅编辑和交互式矢量化等。
③扫描数字化方法误差
扫描数字化的几何分辨率是扫描数字化方法误差中最重要的误差源,减小这种误差的唯一方法就是提高扫描仪的几何分辨率。但是,随着分辨率的提高,栅格数据量以平方级速度增长。这往往造成计算机存储资源耗尽,数据处理时间平方级延长。以300dpi(约每mm12个点)的分辨率扫描时,独立点间距离的相对精度为1.4/1000左右。全自动矢量化细化过程所产生的点位误差为1~2个像素点,而交互跟踪矢量化最大点位误差可以控制在一个像素点。按300dpi计,每个像素点相当于图上0.01mm。扫描数字化综合精度可按下式计算:
M扫=±
其中:M扫表示扫描数字化的综合精度;M定表示底图定向误差;M仪表示扫描仪精度;M矢表示矢量化误差。这里,M定取±0.12mm,按300dpi计算M仪取±0.09mm,M矢取±0.1mm。则M扫=±0.180[8]。
四、数据处理质量
土地信息系统的数据库建立后,其中已经包含了数据源和数据库建库所引入的误差。数据库中的多源数据,经过系统的各种分析处理后,在形成新的数据和最后产品的过程中还会产生新的数据质量问题。这些问题包括:几何改正,坐标变换和比例变换,几何数据的编辑、属性数据的编辑、空间分析,数据格式的转换等。
1、空间分析
空间分析是对分析空间数据的技术的通称。从客观上区分,可归纳为:空间的图形数据的拓扑运算;非空间属性数据的运算;空间和非空间属性的联合运算等[9]。空间分析赖以进行的基础是空间数据库,土地信息系统的空间数据分析,是实现土地资源信息系统的实际运用的重点途径。
空间分析中的叠加分析是土地信息系统中十分常用的一种分析方法,是用户经常用以提取数据的手段之一。通过同一地区不同内容的多幅地图的叠加组合,产生新的图形和属性信息。在这个过程中往往产生拓扑匹配、位置和属性方面的数据质量问题。由于叠加时多边形的边界可能不完全重合,从而产生若干无意义多边形。对这些无意义多边形进行处理的结果往往会改变界线的位置,叠加后形成的新的多边形的属性值也可能存在由于属性组合带来的误差。
2、坐标变换
土地信息系统数据来源较多,各种数据输入信息系统应便于系统对数据进行图形显示,叠加查询,统计分析处理。LIS要实现这些功能,一个首要和基本的前提就是各种不同来源的数据在系统内必须在一致的地形图坐标系下。但是,在实际的数据采集过程中,大量的数据坐标并不一定属于系统用户所要求的坐标系,原始数据为一种坐标系,系统要求的数据为另一种地图坐标系,有的数据坐标根本没有地理意义,对此情况,必须提供从一种地图坐标系到另一中坐标系的坐标变换。
在具体的操作过程中,有可能产生新的误差。在不同比例尺下对坐标数据的重新设立产生误差,进行投影变换和/或基准面变换时产生的误差。生产实践中为提高数据质量,确保系统的数据精度和可靠性,通常用仿射变换和相似变换等模型来进行数据处理,以减小或消除误差。
坐标变换的实质是建立两个平面点之间的一一对应关系,现有一般GIS(LIS是GIS的专题)软件大都提供了以下两种模型实现坐标变换。
一是仿射变换:仿射变换也称六参数变换,其变换公式为:[10]
x´=Ax+By+C(Ⅰ)
y´=Dx+Ey+F(Ⅱ)
其中,x´、y´为地图输出坐标系中的坐标点对;x、y为输入坐标中的坐标点时;A,B,C,D,E,F为方程参数。参数在坐标系空间上的几何意义为:A和A分别确定点(x,y)在输出坐标中x方面和y方向上的缩放尺度。B和D确定旋转角度,C和F分别确定在x方向和y方向上的水平移尺寸。
二是相似变换:当式(Ⅰ)、(Ⅱ)中的参数满足条件A=E=Scos@,B=-D=Ssin@时,则得到四参数的相似变换公式:
x´=Ax+By+B(Ⅲ)
y´=-Bx+Ay+D(Ⅳ)
式中,x´、y´为输出地图坐标系中的坐标点对;x、y为输入地图坐标中的坐标点对;A、B、C、D为方程参数,相似变换实质上也是坐标系间的平移,旋转和缩放尺度的变换,式中C和D分别为坐标在x轴和y轴上的平移大小,为缩放比例,@=arctg(B/A)为旋转角度。
为了求出以上公式中的参数,建立两种坐标之间的仿射(或相似)转换关系,至少需要三个(或两个)已知的控制点坐标。而实际上,应选择多于三个(或两个)控制点,方能按照最小二乘法原理进行平差,得出系数值,代入上述方程即建立输入和输出坐标系之间的仿射(或相似)变换数学模型。
可以看出,仿射变换和相似变换都为线性函数变换模型,可实现对原图形的平移、旋转和缩放,相比较而言,相似变换不能进行x轴、y轴不均匀缩放的变换,而仿射变换能保证更高的数据精度。
3、数据变换
(1)CAD向GIS的转换
目前我国土地管理中存在一个较为普遍的问题是土地信息系统的构建与图形数据采集较少作用一个整体来通盘考虑,地籍测绘大大超前于信息管理系统构建。中小城市这种问题表现得更为突出。为满足土地确权发证,土地定级估价等需要,1995年前测绘的地籍图等图件因受技术条件的限制绝大部分是采用传统白纸测图方法完成的。随着计算机技术的发展和在测绘工作中的普及应用,1995年之后数字地图逐渐取代传统测绘。但一个不容忽视的事实是,绝大多数测绘图软件是在AUTOCAD上进行二次开发完成的。有些甚至是采用低版本的CAD,有些测绘图软件虽然测的是数字图,但只有非编码的图形文件,不保留信息,或者图形编辑以后,返不成信息。这种数字图说到底仅仅是从传统的白纸图过渡到计算机驱动绘制的白纸图。本质上与传统测绘没有什么区别。有些虽然采用了较高版本的CAD基础软件二次开发成数字测图软件并采用了数字编码技术,但由于较少考虑CAD与GIS的数据共享问题(土地信息系统属于专题GIS)。在着手考虑构建土地信息系统时,遇到的突出问题则是如何充分,有效利用已有数字信息资料,并确保数据转换质量。
对于传统模拟图或难以返成信息的所谓数字图只能采用原图数字化,形成数字信息后方可加以利用,但其精度丢失是不可避免的。
对于采用了编码技术,也能返成信息的数字图,其数字信息可以通过数据转换来实现数据共享,但由于CAD与GIS图形数据之间其数据格式,数据内容甚至数据概念都有很大差异,数据转换时应注意以下三个方面:[11]①数据格式转换。不同的软件有不同的数据格式,有些可以通过通用数据格式如DXF实现转换,但转换过程中的数据丢失也的确令人烦恼。②数据元素转换。CAD与GIS两者之间的图形元素不是一一对应关系,CAD图形中的图形元素种类要比GIS图形文件中的图形元素种类多,GIS中只有点、线、面三类基本图形元素,而CAD中包括有点、线、面、注记、矩形等多种图形元素,在具体转换中,CAD的图形元素哪些转换成GIS的点,哪些元素转换面面,什么元素需要转换成GIS的属性数据,什么元素则不需要转换到GIS中去等。CAD与GIS图形元素之间的对应关系,都需要认真细致地加以技术处理,使空间数据和属性数据在输入系统后正确地连接起来。③拓扑关系的形成。因为CAD的图形元素之间没有拓扑关系,实现CAD向GIS数据转换的一个重要内容就是要将转换后的图形数据按照一定的技术要求经过编辑,在GIS环境下建立几何元素的拓扑关系。
在实际转换中,还会出现许多意想不到的技术问题,会影响数据转换质量,有待进一步解决。
(2)矢量数据结构向栅格数据结构的转换
土地信息系统的建设中,许多数据如行政边界,交通干线,土地利用类型、土壤类型等都是用矢量数字化的方法输入计算机或以矢量的方式存在计算机中,表现为点、线、多边形数据。然而,矢量数据直接用于多种数据的复合分析等处理将比较复杂,特别是不同数据要在位置上一一配准,寻找交点并进行分析。相比之下利用栅格数据模式进行处理则容易得多。加之土地覆盖的叠置复合分析更需要把其从矢量数据的形式转变为栅格数据的形式。
矢量数据的基本坐标是直角坐标(x,y),其坐标原点一般取图的左下角。网格数据的基本坐标是行和列(i,j),其坐标原点一般取图的左上角。两种数据变换时,令直角坐标x和y分别与行与列平行。由于矢量数据的基本要素是点、线、面,因而只要实现点、线、面的转换,各种线划图形的变换问题基本上都可以解决[12]。
矢量数据变成栅格数据的原理与方法并不困难,但由于矢量数据的记录方式各不相同,也会产生一些问题。如多边形之间公共边原来只有一条交界线,转变成网格后成为有一定宽度的界线,产生了一定的近似性。特别是几条线交叉处,一个网格元素中包括了相邻的几种类别,转换时只能用其中的一种类别作为交叉点所在的元素的类别,这种误差应在允许的范围以内。而减小网格尺寸,虽提高了精度,但大大提高了数据的冗余量。
栅格数据结构需要大量的计算机内存来存贮和处理数据,才能达到与矢量数据结构相同的空间分辨率,而矢量结构在某些特定形式的处理中,如象多边形叠置,空间均值处理等尚有大量的技术问题来解决。值得注意的是,无论采用哪种转换方法,转换的结果都会不同程度地引起原始信息的损失。
4、空间数据的编辑
通过矢量数字化或扫描数字化所获取的原始空间数据,都不能避免地存在错误或误差。属性数据在建库时,也难免会存在错误。诸如:空间数据的不完整或重复,空间点、线、面数据的丢失或重复,区域中心点的遗漏,栅格数据矢量化时引起的断线等,空间数据位置的不准确、线段过长或过短,线段的断裂、相邻多边形结点的不重合及空间数据的变形等。因此,必须对图形数据和属性数据进行一定的编辑。
土地信息系统数据编辑是消耗时间的交互处理工作,对空间数据不完整或位置的误差,主要是利用LIS图形编辑功能,如删除(目标、属性、坐标),修改(平移、拷贝、连接、分裂、合并、装饰)、插入等进行处理。对空间数据比例尺的不准确和变形,可以通过比例尺变换和纠正来处理。
在数据的编辑过程中,由可能产生一些新的问题。如:线段的相关与延伸出现的问题,图形的平移与旋转出现的问题,删除“细部多边形”时产生的误差,数值计算与变化的误差;文件的合并以及形成新文件的问题;属性数据的重新定义和更新的问题。有的问题时可能避免的,有的问题则无法避免。因此,必须进行检核。通过耐心细致的检查,主要误差都能从数据中寻找出来,并有效消除误差。一般采用叠合比较法,目视检查法和逻辑法。
叠合比较法是空间数字化正确与否的最佳检核方法,按与原图相同的比例尺把数字化的内容绘在透明材料上,此后与原图叠合在一起,在透光桌上仔细的观察和比较。一般。对于空间数据的比例尺不准确和空间数据的变形马上就可以观察出来,对于空间数据的位置不完整和不准确则须把遗漏、位置错误的地方明显地标注出来。目视检查指在屏幕上用目视检查的方法,检查一些明显的数字化误差与错误,包括线段过长或过短,多边形的重叠和裂口、线段的断裂等。
5、由计算机引起的问题
在计算机中,数据是由一定字长的编辑数码表示的,由计算机字长可能引起一种误差。这种误差出现在各种数值运算和模型分析中,由这种误差引起的问题很多[13],例如LIS空间数据库中整数编码对面积和周长计算的影响,比例尺变换和旋转变换对拓扑关系的影响等。削弱误差影响的主要方法有:改变数据在计算机中的表示方式,采用合适的算法等。
除了数据处理精度外,数据存储精度也与计算机字长有关。16位的计算机在存储低分辨率的栅格图像时不会出现问题,但存储高精度的控制点坐标或点位精度要求高的地理数据时,则不能胜任。
五、数据应用质量
土地信息数据在使用过程中往往出现一些质量问题,这些问题包括数据的完备程度,时间的有效性,拓扑关系的正确等。
1、数据的完备程度
数据的完备程度指地理数据在范围、内容、及结构方面满足所有要求的完整程度。包括数据范围、空间实体类型、空间关系分类、属性特征分类等方面的完整性。
一般来说,空间范围越大,数据的完整性就越差。在土地信息系统的建库过程中,数据不完整最简单的例子是缺少数据。如计算机从GPS接收机传输位置数据时,由于软件受干扰或其它因素的缘故,只记录下经度而丢失纬度,以至造成数据不完整。另外由于GPS接收机无法收到四颗或更多的卫星信号而无法计算高程数据也会造成数据的不完整。又如某个应用项目需要1:5000的基础底图,但现在的地图数据只覆盖项目区的一部分,底图数据便不完整。
在土地信息系统底建库中,涉及大量的地籍档案。地籍档案来源于土管机关的地籍部门,数量大、形式多、浩繁、零乱,随着时间地推移,以及人为和自然的各种因素地影响,有可能遭到损坏。如档案老化,书写材料低劣、地籍档案变到污染,变色、虫蛀等现象,进而影响到整个系统的质量。
2、数据的现势性
数据的现势指数据反映客观现象目前状况的程度。数据的现势差,反映的客观现象就可能不准确。不同现象的变化频率是不同的。如地形的变化一般来说比人类建设要缓慢,地形可能会由于山崩、雪崩、泥石流、人工挖掘及填海等原因而在局部区域改变。但由于地图制作周期较长,局部的变化往往不能及时地反映在地形图上,对那些变化较快的地区,地形图就失去了现势性。城市地区土地覆盖变化较快,这类地区土地覆盖图的现势性就比发展较慢的农村地区会差些。地形图上记录着所用航空像片获得的年代。若又用其他数据进行过修改(一般是较新的航空像片),也应记录于上。
在土地信息系统建库中,要求地籍信息和地籍图必须具有现势性。地籍信息变更比较频繁,如土地利用类型,权属或宗地的重划,合并等。由于受自然因素和人为作用的影响,土地资源的数量、质量、分布和使用情况都处在经常变化之中。基于这一特点,土地管理部门提供的数据很难保证现势性,这也是影响数据质量的一个重要方面。
3、拓扑关系
在LIS中,为了真实地反映地理实体,不仅要包括实体的位置、形状、大小和属性,还包括必须反映实体之间的相互关系,这些关系就是指它们之间的邻接关系,关联关系和包含关系,拓扑关系。拓扑关系的核心是建立点、线、面的关联关系。通常有以下几种空间关系:点-点关系、点-线关系、点-面关系、线-线关系、线-面关系、面-面关系。空间数据的拓扑关系,对数据处理和空间分析具有非常重要的意义[14]。
利用拓扑关系,可以确定一种空间实体相对于另一种空间实体的位置关系。利用拓扑关系,可以确定某县有多少耕地,分析土地利用类型及对土地适宜性做出评价等。
在拓扑关系的建立中,拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化,拓扑关系的不正确等情况,导致空间分析的结果错误,给土地管理决策带来一定的影响。
六、结论
数据是LIS最基本和最重要的组成部分,同时也是一个LIS项目中投资比重最大的一个部分。数据质量的好坏,会直接影响到LIS的系统功能和应用质量问题的三个方面(数据源的质量问题、数据处理质量问题、数据应用质量问题)着手,对LIS的数据质量问题进行了一定的归纳总结和初步的探讨。众所周知,LIS的数据质量是影响LIS的一个瓶颈环节,LIS数据量大、数据种类多、数据结构复杂。因此,在LIS的建设过程中,如何在数据采集与建库中实施质量控制,保证数据质量对土地信息系统建设来说显得尤为关键。
七、总结与体会
毕业论文的撰写是一次再学习和锻炼的机会,是对所学知识的一个融会贯通的过程。通过毕业论文的撰写,我对所学的知识有了更深层次领悟和掌握,对自己所学的土地管理专业有了一个整体认识。毕业论文不仅是对所学知识的总结,也是运用所学知识探求新知的方法、手段。既是一次再学习的过程,也是一次深入学习的机会。同时,毕业论文写作,为今后的学习工作奠定了一定的基础。通过毕业论文的写作,我真正懂得理论联系实际的重要性。在撰写毕业论文中,我运用所掌握的基本知识、方法和技能,研究探讨了土地信息系统建立过程中数据质量的有关问题。通过毕业论文的撰写,我进一步完善了自己的知识结构,学习了更多的知识。不仅如此,我对土地信息系统数据质量控制措施与方法方面有了更进一步的认识。
通过毕业论文的写作,不仅强化了我的学习素质、研究素质和创业素质,而且培养了我的创新意识,激发了我探求新知的欲望。认真写作毕业论文,不仅能进一步巩固所学的理论知识,而且还能进一步提高自己的各项基本技能,实践能力和解决问题的能力。
八、谢辞
在论文的写作过程中,玉文龙老师给予了很大的支持和帮助,为论文的写作提出了许多宝贵性的意见和建议;在他的指导下,这篇论文得以顺利完成。在资料的搜集过程中,图书馆工作人员为我们提供了很大帮助,本组同学也给予了很多支持,在此表示衷心感谢。