当前位置: 迅达文档网 > 党团工作 >

多源数据集成技术研究(胡洁,高庆方,李辉)

| 来源:网友投稿
 



[摘要] 随着地理信息系统(GIS)的发展和广泛应用,地理数据日益丰富。由于地理数据采集方式和应用软件的不同,它们的格式及结构也各不同,导致了多源性地理数据的产生。本文首先总结了地理数据多源性的主要表现,然后介绍了目前较常用的多源数据集成方法,并分析了这些方法的优缺点。以黄河基本河情信息系统建设为例,从分析系统数据源出发,说明了系统数据库设计的内容及多源数据集成的关键技术。

[关键词] 多源数据 数据集成 数据库设计 黄河基本河情信息系统

1 引言

地理信息系统(GIS)是在计算机软硬件支持下,采集、存储、管理、检索、分析和描述地理空间数据,适时提供各种空间的和动态的地理信息,用于管理和决策过程的计算机系统[1]。地理空间数据是GIS 的操作对象,是GIS 所表达的现实世界经过模型抽象的实质性内容;它是GIS中最基础的、也是最重要的部分。近年来,随着GIS应用领域的越来越广泛,地理数据也在日益丰富。但是,由于地理数据采集方式和应用软件的不同,这些地理数据的格式及结构也各不同,导致了多源性地理数据的产生。目前,GIS已进入了社会化GIS时代,GIS应用需要集多种数据源以及不同数据格式的数据才能完成;随着GIS化的进一步发展、网络技术的广泛应用以及地理数据的数量、复杂性和多样性的增加,多源地理数据的共享和集成已成为必然趋势。

2 地理数据多源性的表现

地理数据的多源性主要表现在以下几方面[2,3]:

(1)多语义性。地理信息指的是地理系统中各种信息,由于地理系统的研究对象的多种类特点决定了地理信息的多语义性。对于同一个地理信息单元(实体),其几何特征是一致的,但是却对应着多种语义,既有地理位置、海拔高度、气候、地貌、土壤等自然地理特征,也有行政区界限、人口、产量等社会经济信息。一个GIS的研究,会因不同系统解决问题侧重点的不同而存在着语义分异的问题。

(2)多时空性和多尺度。GIS数据具有很强的时空特性,一个GIS系统中的数据源既有同一时间不同空间的数据系列,也有同一空间不同时间的数据序列。不仅如此,GIS还会根据系统需要而采用不同尺度对地理空间进行表达,不同的观察尺度具有不同的比例尺和不同的精度。GIS数据集成包括不同时空和不同尺度数据源的集成。

(3)获取手段多样性。获取地理空间数据的方法有多种多样,包括来自现有系统、图表、遥感手段、GPS手段、统计调查、实地勘测等。这些不同手段获得的数据其存储格式及提取和处理手段都各不相同。

(4)存储格式多源性。GIS数据不仅表达空间实体(真实体或者虚拟实体) 的位置和几何形状,同时也记录空间实体对应的属性。这就决定了GIS数据源包含有图形数据和属性数据两部分。图形数据又可以分为栅格格式和矢量格式两类。传统的GIS一般将属性数据放在关系数据库中,而将图形数据存放在专门的图形文件中。不同的GIS软件采取不同的文件存储格式。

(5)分布式特征。数据分布式特征是指空间数据存储或更新、使用等操作物理上不在一处,而通过计算机网络基于地学规律、地理特征和过程的相关性在逻辑上联系到一起。

(6)空间拓扑特征。空间数据不仅表达地理特征和过程在各种坐标体系的空间位置,并且数据的空间特性之间也有拓扑关系,拓扑关系表现在数据空间特征的面积、连接性、邻接性、连通性、长度等方面。

3 多源数据的集成技术

数据、集成软件及集成规则是数据集成的三个必备基础条件[4]。数据是集成的对象;集成软件是可以处理空间特征、属性特征及其之间关联的通用或专题GIS软件,或是为数据集成专门设计的软件,它们可以实现集成的大多数操作;集成规则是进行数据集成的依据。地理数据由于来源不同,其空间参照系及各种参数存在着很大差异,如果要使之匹配起来,需经一系列的转换、一致化操作等过程。

目前,实现多源数据集成的方式主要有三种[5]:数据格式转换模式、数据互操作模式和直接数据访问模式。其中,数据格式转换模式直接通过数据转换程序将目标数据转换成需要的格式数据,这种模式需要将数据统一起来,违背了数据分布和独立性的原则;而且,由于不同数据格式描述空间对象时采用的数据模型不同,因而转换后不能完全准确表达源数据的信息。数据互操作模式将数据源放在数据服务器上,客户端应用程序通过向数据服务器发出请求而获得数据,这种模式独立于具体平台,数据格式不需要公开;但是,由于存储在数据服务器的数据格式不一,用户如果想打开获得的数据必须具有被访问数据格式的宿主软件,因此,这就要求用户必须同时拥有这两个GIS软件,并且同时运行,才能完成数据互操作过程。直接数据访问模式指在一个GIS软件中实现对其他软件数据格式的直接访问,用户可以使用单个GIS软件存取多种数据格式。这种模式不仅避免了频繁的数据转换,而且不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。因此,直接数据访问提供了一种更为经济实用的多源数据集成模式。

但是实际操作中,综合客观要求、项目成本、现有资源等多方面原因,并不单一的使用某一种模式来实现多源数据的集成,而是多种模式结合使用,达到多源数据的统一存储和管理。下面以黄河基本河情信息系统建设为例,介绍该系统实现多源数据有效集成的方法、策略。

3.1 系统数据源

黄河基本河情信息系统数据库建设中采用的数据类型多样,有属性数据(如流域背景数据)和空间数据(各种图形数据);数据来源、格式丰富。有MapGIS格式的矢量数据、Coverage格式的数字地形图、GRID格式的DEM数据、纸质图等;比例尺多样,有100万、25万的基础地理数据和不同比例尺的专题图数据等;而且,由于数据来源较多,数学基础也不尽相同。因此,多源数据集成涉及到多方面,包括地图比例尺、地图投影、数据格式、数据模型、语义、平面坐标系、高程系、时间的一致性等等。

为了实现多源数据的集成,系统对所有数据进行分层、分类、表结构等的数据库设计后,在统一的数学基础上采用Geodatabase模型存储,利用安装在数据库服务器上Oracle9i对数据库进行存储管理,通过ArcSDE实现用户与数据库的连接。

3.2 数据库设计

数据库设计是数据建库的基础,是GIS数据处理、分析、统计的关键。在黄河基本河情信息系统中,所有数据均以全关系数据库的形式进行存储,因此,数据的分类、编码、表结构设计等环节显得尤为重要。

3.2.1 统一的数学基础

由于数据来源较多,数学基础不尽相同,要求在数据库中采用统一的数学基础。数学基础主要是针对Geodatabase数据模型中的数据集(Dataset)来说的,数据集是数学基础的载体,每个数据集可以有不同的数学基础。统一数学基础包括坐标系统、高程基准、地图投影、偏移参数、中央子午线、标准纬线、比例系数、长度单位等的统一设置。

3.2.2 数据分类、编码及表结构设计

数据采集时,依据“数字黄河”工程标准:《黄河基础地理要素分层标准》和《黄河基础地理要素分类与代码标准》,首先对黄河基础地理数据进行分层整理,然后将每一类要素进行分类、编码。所有信息及要素在数据库中都是以表的形式存储,按照Geodatabase的数据格式设计各种表结构。表结构设计是基于ArcGIS的表结构进行设计,具有ArcGIS要求的基本字段和扩展字段,这里不再详述。上述过程可以用图1描述。

3.3 数据集成

数据库设计完成后,需要根据数据库设计规范进行数据的编辑和入库。对于纸质地图扫描矢量化、设置统一的数学基础;对于数字地图,格式不一致的通过 “数据格式转换模式”将数据格式统一转换至Geodatabase格式,这里采用ArcToolBox提供的系列转换工具和FME来实现数据格式的直接转换。创建个人地理数据库(Personal Geodatabase)或远程地理数据库(SDE Geodatabase);然后在该数据库下创建多个地理数据集(Dataset),在每个地理数据集下添加多个地理要素类(FeatureClass),这里的“地理要素类”可以理解为通常意义上的“图层(Layer)”;最后,在ArcCatalog中按着预先设计的表结构添加相应的字段到对应的属性表中。这里,数据的“多语义性”通过在属性表中添加相应的字段得以实现。另外,各专题属性信息按着设计的表结构构建完成后,也可以通过ArcCatalog直接导入到前面所建的地理数据库中。

黄河基本河情信息系统中的所有数据是在统一数学基础之上采用Geodatabase模型存储的,对应数据源的分类,划分1∶100万、1∶25万、黄河专题三个地理数据集,每个数据集中创建对应的地理要素类,每个地理要素类对应地理数据集的每个图层,图2为对应的远程地理数据库存储目录树。

综上所述,所有类型的数据(包括空间数据和属性数据)都被导入到一个本地或远程的地理数据库中进行存储,根据比例尺的不同,分成不同的数据集;从图2的目录树中可以看出,各专题属性信息表在地理数据库中与各个地理数据集是并列存储的。上述过程完成了不同数学基础(包括坐标系统、高程基准、地图投影)、不同比例尺、不同数据格式、不同数据类型(空间数据和属性数据)的多源数据的有效集成。系统还分别给1∶100万和1∶25万比例尺的数字线划图(DLG)、数字高程模型(DEM)数据设计了相应的元数据,专题图集中各幅专题图都有一个专题信息元数据表与之对应。元数据中分别记录了资料名称、主要数据源、数据源生产日期、数据源数据格式、数据生产单位、地图比例尺、坐

标系、高程基准、建库日期、生产单位、发布单位等。从元数据中可以看到地理数据库中各个数据集及属性表的说明信息,包括各个数据的采集建库时间、生产制作单位和地理区间范围,这就解决了多时空数据的集成问题。

为了使得一个系统同时支持不同的空间数据格式、数据共立于具体平台、数据格式不需要公开、随时随地上传、下载更新所需数据,这里采用 “数据互操作模式”将所有的数据存储在数据库服务器上,在数据库服务器上安装Oracle9i,用于对数据库进行存储、恢复、备份等操作。数据建库完成后,通过ArcSDE和ArcCatalog将所有数据导入到Oracle中进行统一管理。客户端根据自己的用户权限,借助空间数据库引擎(即ArcSDE)和ArcCatalog,实现数据服务器中数据的上传、下载、浏览、查询等操作。

数据的集成过程如图3的流程图所示:

4 结论

GIS的迅速发展和广泛应用导致了地理信息数据多源性的产生,为数据的综合利用和共享带来了很大困难。随着面向对象数据库技术的成熟, 使用大型的关系数据库管理系统(RDBMS)管理海量空间数据成为可能,本研究利用GIS系列软件,对多源数据进行格式转换、统一数学基础和数据库设计后,将处理后的数据以Geodatabase的数据模型进行组织、入库。在数据库服务器上利用Oracle9i存储、管理地理数据库,利用ArcSDE建立客户端与地理数据库的关联,实现数据的上传、下载、浏览、查询等操作。研究表明,这种多源数据的处理及管理模式,既能实现多源数据的有效集成,又能提供对多平台的地理数据服务, 非常适合企业化的GIS数据组织,将会成为未来地理信息系统的发展方向。

参考文献

[1] 吴信才等,地理信息系统原理与方法[M],北京:电子工业出版社,2002

[2] 王琴,李建辉,GIS空间多源数据集成模式探讨[J],黄河水利职业技术学院学报,2007

[3] 程海军等,GIS数据格式集成方法的探讨[J],河南理工大学学报,2006

[4] 李晓军等,多源空间数据集成技术状况与应用前景研究[J],计算机与现代化,2006

[5] 李跃军,张月琴,基于Oracle Spatial实现多源空间数据集成[J],科技情报开发

与经济,2006




    

推荐访问:技术研究 集成 数据 李辉 高庆方

热门排行

党委党组落实全面从严治党主体责任规定指出本地区本单位发生重大违纪违法案件14篇

党委党组落实全面从严治党主体责任规定指出本地区本单位发生重大违纪违法案件14篇党委党组落实全面从严治党主体责任规定指出本地区本单位发生重大违纪违法案件篇1我

2022年五星支部创建实施方案5篇

2022年五星支部创建实施方案5篇2022年五星支部创建实施方案篇1为切实提高支部党建工作科学化水平、不断夯实党建基础,挖掘支部党建特色,创新支部党建工作做

七言绝句古诗精选【十首】

【 能力训练 导语】七言绝句是中国传统诗歌的一种体裁,简称七绝,属于近体诗范畴。此体全诗四句,每句七

2022年支部党员大会记录内容14篇

2022年支部党员大会记录内容14篇2022年支部党员大会记录内容篇120xx年度我校新党员发展工作已经开始。根据学校党委3月21日会议精神,今年新党员发展

统计工作如何为企业管理服务

作为企业管理重要组成部分的统计工作,在企业的经济运行中发挥着信息、咨询和监督三大作用,它为企业的经营

乡镇创建无毒社区工作方案

一、指导思想以“三个代表”重要思想为指导,认真贯彻落实上级精神,以禁吸戒毒为中心,全面落实禁毒工作责

四年级我家菜园日记500字

菜园子,就是种菜的地方。种菜的时候为了防止家禽进入菜地,于是农夫用篱笆或者栅栏将菜地围起来形成的一个

哈尔移动城堡电影观后有感范本

在观看完一部作品以后,相信你会有不少感想吧,这时我们很有必要写一篇观后感了。可能你现在毫无头绪吧,下

党支部2022年学习计划14篇

党支部2022年学习计划14篇党支部2022年学习计划篇1认真坚持“三会一课”制度,对于加强支部建设,提高党的战斗力、健全党的生活,严格党员管理,充分发挥党