11.07.2015 Views

Andmestandardid.Andmevahetus. - Tartu Ülikool

Andmestandardid.Andmevahetus. - Tartu Ülikool

Andmestandardid.Andmevahetus. - Tartu Ülikool

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Geoinformaatika Ikoostanud: Jüri Roosaareroosaare@ut.ee18. <strong>Andmestandardid</strong> ja andmevahetusPeamine andmekasutus toimub kaasajal andmevõrkude, eeskätt Interneti kaudu.Seepärast on efektiivseks andmevahetuseks vajalikud standardiseerimise probleemidlahendatud ja lahendamisel vastavalt sellele, kuidas areneb Internet. Selleks et võrkudesolevad arvutid saaksid omavahel suhelda, peavad nendevahelise kommunikatsioonireeglid (nn. protokollid) väga täpselt paigas olema. Mida lihtsamad onandmestruktuurid, mida vähem tuleb seal arvestada informatsiooni semantilise küljega,seda lihtsam on niisuguseid protokolle luua.Probleemi mõistmiseks võiks tuua analoogia keelega: tähtede edasi andmisekstuleb kokku leppida, kuidas sümboleid kodeerida. Sõnade moodustamiseks läheb meilvaja juba ka õigekirja ja grammatikat, lausete jaoks – süntaksit. Pikema tekstiadekvaatseks mõistmiseks aga tuleb keelt osata kogu tema mitmekesisuses jakeerukuses.Arvutites on kasutuses erineva tasemega programmeerimiskeeled, andmekirjelduskeeledja päringukeeled.Geoinformaatika seost spetsiifiliselt andmevõrkude ja eriti Internetiga käsitlebedaspidi eraldi loeng, praegu alustame ruumiandmete vahetuse üldisemate küsimustega.Nüüdisajal tegeleb kasutaja suhteliselt üha vähem andmete sisestamisega ningüha enam olemasolevate (kusagil, enamasti selleks spetsialiseerunud riigi- võierafirmades sisestatud) andmetega. Seepärast on vaja tagada, et võimalikult erinevadkasutajad ja võimalikult erinev tarkvara saaks võimalikult lihtsasti kasutada erinevaidolemasolevaid andmeid. Kuna andmete hulk on väga suur ja väga mitmekesine jakasvab väga kiiresti, siis on samuti vaja tagada, et andmete dubleerimine oleks niivähene kui võimalik.Kõik see kehtib täiel määral ka ruumiandmete kohta. USA-s, kus ruumiandmetestrateegiline tähtsus on teadvustatud väga kõrgel tasemel ja kus 1990. aastasttegutseb ametkondadevaheline FGDC (Federal Geographic Data Committee) 1 ,käivitati presidendi korraldusega aprillist 1994 nn. Ruumiandmete RahvuslikInfrastruktuur NSDI (National Spatial Data Infrastructure), mille eesmärgiks onruumiandmete efektiivne ühiskasutus 2 .18.1. Ruumiandmete standardiseerimisorganisatsioonidRahvusvaheline Standardiorganisatsioon (ISO) töötab standardeid välja kõikideeluvaldkondade tarbeks. Seal on moodustanud geoinformaatika/geomaatika tehnilinekomitee (TC 211, Geographic information/Geomatics), mis tegeleb digitaalsel kujuloleva geograaflise informatsiooni ja seonduvate probleemide standardiseerimisega.Ruumiandmetega seonduvaid standardeid tekib ka teistes komiteedes.Rahvusvahelise initsiatiivina tekkis The OpenGIS Project (1993), millestkujunes välja tarkvarafirmasid ja ülikoole ühendav The Open GIS Consortium, Inc.(http://www.opengis.org/). OGIS on seadnud eesmärgiks avatud süsteemide ideoloogia1 'to promote the coordinated use, sharing, and dissemination of geospatial data on a nationalbasis' (http://www.fgdc.gov/fgdc/fgdc.html).2 NSDI... "means the technology, policies, standards, and human resources necessary to acquire,process, store, distribute, and improve utilization of geospatial data throughout all levels ofgovernment, the private and non-profit sectors, and the academic community”. NSDI… “encompassespolicies, standards, and procedures for organizations to cooperatively produce and share geographicdata” (http://www.fgdc.gov/nsdi/nsdi.html).© <strong>Tartu</strong> <strong>Ülikool</strong>, 200218-1


Geoinformaatika Ikoostanud: Jüri Roosaareroosaare@ut.eerakendamise ruumiandmete levitamisel ja töötlusel 3 ja on kujunenud ruumiandmetevallas üheks peamiseks tooni andvaks organisatsiooniks. OGISe standardid põhinevadliikmete konsensusel ja RISO (Eesti Riigi infosüsteemid: http://www.riso.ee/) kavatsebnad meie vabariigi avaliku sektori jaoks kuulutada “tungivalt soovituslikeks”.Ülemaailmseid standardeid silmas pidades püüavad riigid ja organisatsioonidluua oma normatiive. Tehakse vahet de facto ehk kirjutamata standardite ja de jure ehkametlike standardite vahel. Kirjutamata standardid tekivad reeglina nii, et kõige rohkemkasutatavad failiformaadid ja andmevormingud kujunevad praktilise andmevahetusealuseks (sellisteks on Eestis näiteks MS Office’i .doc ja .xls). Umbes nagu dollarrahaturul. Kirjutamata standardid ei pruugi olla püsivad ja näiteks versioonierinevustesttingitud raskused võivad pärssida nende kasutamist.Ruumiandmete faktilisteks standarditeks on juhtivate tarkvarafirmade jaandmepakkujate poolt kasutatavad failiformaadid ja nende aluseks olevad andmemudelid.18.2. <strong>Andmestandardid</strong>Andmestandardeid on vaja:• rakendusprogrammidele suurema universaalsuse tagamiseks,• tööks andmevõrkudes,• vähendamaks tööd erinevate liideste (interface) ja teisendus- võimuundurprogrammide (converter) loomisel, mis sisalduvad paljudes pakettidesnäiteks IDRISI-s on konverterid nii kõigi levinumate GIS-pakettide formaatidejaoks, kui ka vahendid, mis võimaldavad teha madalamal tasemel andmeteteisaldamist üksikute vajalike operatsioonide kaupa (baitide järjekorravahetamine täisarvude puhul või CR ja LF lisamine, võimaldamaks andmeidteisendada UNIX-ile või Mac-ile vastuvõetavaks).Teoreetiline ideaal võiks olla üks ühtne andmestandard, kuid praktikas olekssee liig universaalsena ka liiga kohmakas ja keerukas 4 . On välja kujunenud mõnedsagedamini kasutatavad failiformaadid, mis võimaldavad vahetada andmeid erinevatarkvara vahel. Üldreeglina toimub andmevahetuse käigus teatud info kadu (näitekstekstifailide puhul võib moonduda makett, GIS-i vektormudeli puhul jääb ülekandmata osa topoloogilisest infost), mistõttu info salvestatakse teatava liiaga.Klassifikaatorite erinevuste puhul (näiteks andmebaasi failide struktuur, väljadetüübid ja ühikud vms. on erinevad) on andmed küll formaalselt üle kantavad, kuidsisuliselt tuleb teha tülikaid täiendavaid teisendusi (muuta andmebaaside struktuure,teisendada ühikuid jms.), või pole andmed üldse võrreldavad (näiteks on ühessüsteemis maakasutus kasutaja järgi – põllumajanduslik maa vrs metsamajanduslikmaa nõukogude ajal –, teises süsteemis faktilise kasutuse järgi).Sisulise ühilduvuse tagamiseks on loodud mitmeid geograafiliste andmetefailide standardeid, millest alles tahetakse kujundada sagelikasutatavad formaadid.GIS-i andmevahetust käsitledes vaatleme alljärgnevalt levinumaid failiformaate.Teatava lihtsustusena võime rääkida eraldi:3 OpenGIS is defined as transparent access to heterogeneous geodata and geoprocessingresources in a networked environment. The goal of the OpenGIS Project is to provide a comprehensivesuite of open interface specifications that enable developers to write interoperating components thatprovide these capabilities (http://www.opengis.org).4 Standardid sätestavad standardiseeritavate objektide kohta normid, eeskirja ja nõuded. Midakitsam ja konkreetsem on objektide hulk, seda paremini on ta standartiseeritav. Seetõttu on üksikute(näiteks konkreetset failiformaati haaravate või mõne organisatsiooni sees de facto kasutuses olevate)standardite hulk väga suur ja dünaamiliselt muutuv.© <strong>Tartu</strong> <strong>Ülikool</strong>, 200218-2


• atributiivandmete formaatidest ja nende standarditest,• graafiliste andmete formaatidest ja standarditest,• konkreetsete geoinfo tarkvarade poolt kasutatavatest formaatidest,• ruumiinfo (digitaalkartograafia) formaatidest ja standarditest.Geoinformaatika Ikoostanud: Jüri Roosaareroosaare@ut.ee18.3. Atributiivandmete formaadidPikka aega olid kõige levinumad ASCII koodis tekstid (kodeering sümbolitekaupa), mille piiratud võimalustega (standardne ASCII 256 sümbolit) on puutunudkokku vanemate elektronposti programmide kasutajad. Kui selline tekst on kindlaltabelkujul (eri andmete vahel teatud eraldaja, kirjed ühepikkused, erinevate kirjetestruktuur sama), siis on seda võimalik importida erinevatesse andmehalduritesse(tingimusel et kirjete struktuur on teada).Seoses kontoritarkvara (näit. MS Office) väga laia levikuga hakkasiddomineerima hakanud ka vastavad formaadid:• tekstidokumendid (Wordi .doc-failid)• tööraamatud (Exceli .xls-failid)• andmebaasid (Accessi .mdb-failid).Varasemaks personaalarvutite de facto andmebaasistandardiks olid XBase'i(dBase, FoxPro ja ühilduvad) failid (.dbf). dbf-failide formaat on üldjuhul 5 teisaldatavpeaaegu kõigisse personaalarvutite andmeohjesüsteemidesse.SQL (Standard Query Language) on kujunenud relatsiooniliste andmebaasidepäringukeele standardiks.WWW tõttu on üheks oluliseks formaadiks tõusnud HTML-keelsed (HyperText Markup Language), olemuselt ASCII koodis failid;- Veebinduse arenguga tekkisid esialgse HTML edasiarendused (näiteks sedaüldistav SGML – Standard Generalized Markup Language);- püütakse välja töötada ka universaalset tekstidokumendi märgistuskeelt, mislubaks tarkvarast sõltumatut tekstide vahetust ja töötlust. Praegusel hetkel onsellisena kasutusel XML (Extensible Markup Language), mille lühiselgitus onleitav aadressil: http://ttk17.edu.ee/~aavola/WWW/xml.html, selle spetsifikatsioonaga aadressil: http://www.riik.ee/xml/trans/REC-xml-19980210-ee.html.18.4. Graafikaformaadid18.4.1. RastergraafikaRastergraafika andmete puhul on erinevusi põhjustavateks küsimusteks, kuidas onkodeeritud värvid ja kuidas on pikslite väärtused tihendatud e. pakitud (compressed).Windows toetab küllaltki paljusid selliseid formaate; valik levinumaid:• *.BMP (ka nn. bitmap) on Windows'i enda poolt kasutatav formaat, mille nõrgaksküljeks on tema mahukus, kuna andmeid ei pakita;• *.JPG (JPEG - Joint Photographic Experts Group) on üks WWW-s kasutatavaidformaate, mis sobib ka impordiks Windows-i; toetab 16-miljonilist värvisüsteemi jaon hästi paindlikult pakitav; faili suurus oleneb sellest, kui palju me pakkimiseloriginaali (näiteks kõrgtäpsusega skaneeritud fotot) lihtsustame. Uuem GIS tarkvaraküll toetab seda formaati, kuid tuleb silmas pidada, et pakkimisel toimunud5 erinevuste tõttu mõnedes andmetüüpides (memo, picture, general) tehakse tegelikult vahetuniversaalse klassikalise dbf-faili (dBASE III Plus) ning erinevate uuemate dBASE’i (IV ja 5.0) jaFoxPro failide struktuuri vahel© <strong>Tartu</strong> <strong>Ülikool</strong>, 200218-3


Geoinformaatika Ikoostanud: Jüri Roosaareroosaare@ut.eelihtsustuste tõttu pole rastrielementide väärtused enam täpsed; küll sobib .jpg agavaatamiseks või digimise aluskujutiseks.• *.TIF (TIFF - Tag Image File Format), mis algselt loodi Aldus Corp. poolt ja midaon täiendatud paljude tarkvarafirmade poolt; tavaliseks väljundiks skaanerist 6 japeamiseks sisendiks graafilise disaini programidesse (Adobe Photoshop, AldusPhotostyler, Corel PHOTO-PAINT jt.);• *.GIF (Graphic Interchange Format) on CompuServe'i poolt loodud formaat, mis onküllaltki levinud slideshow-programmide puhul, sest võimaldab animatsioone 7 ;toetab ainult kuni 256 värvi; IDRISI seda formaati ei toeta, kuid näiteks AdobePhotoshop võimaldab üsna paindlikult teisendusi TIFF ↔ GIF;• *.PCX formaat (pärineb paketilt PC Paintbrush), oli pikka aega üks levinumaid jaon imporditav ka paljudesse vanadesse pakettidesse.18.4.2. VektorgraafikaVektorgraafika andmete puhul on peamiseks probleemiks, et andmete teisaldamisel jateisendamisel säiliksid objektid (kaared, sõlmed, polügonid, tüübid) ja nendetopoloogilised suhted, samuti projektsioon ja mõõtkava; enamik graafikaformaate eisuuda kõiki neid nõudeid korraga täita; valik levinumaid:• *.DXF (Drawing Exchange Format) formaat on AUTOCAD ja teiste ComputerAided Design programmide poolt loodud seni kõige levinum formaat, mis on ASCIIkoodis ning koosneb joonestuskäskudest ja parameetritest,- IDRISIs (alates v.4.1.) teostab andmevahetust DXFIDRIS, mis ekspordibvektorfaile üsna viletsasti; impordil on ta suhteliselt paindlik, kuid kasutajapeab omama algteadmisi .DXF-faili struktuurist; teadma näiteks, milliseomaduse alusel genereerida identifikaator (vt. IDRISI32 Help failist);- infoobjektiks on kiht, mistõttu topoloogiat üle ei kanta;- DXF-formaadis oli algselt palju Eestis levinud digitaalkaarte (sõltumatasellest, millise paketiga nad loodud olid) ja selle formaadi vahendusel toimusolulisel määral andmevahetus geoinformaatika algusaegadel;• *.CGM (Computer Graphics Metafile) on American National Standards Institute(ANSI) poolt loodud universaalne standard, mis võimaldab ka objekt-orienteeritust,- pole siiski GIS-i tarkvara poolt eriti toetatud (v.a. Intergraph-i tarkvara;kasutada oskavad näiteks HG - HarvardGraphics ja CorelDraw); IDRISI eitoeta;• *.AI on PS (PostScript) failide laiend, mis sobib andmevahetuseks professionaalsetegraafiakapakettidega (CorelDRAW! ja Adobe Illustrator).18.5. Levinumad GIS-andmete formaadidErinevad GIS-paketid kasutavad oma erinevaid andmeideoloogiaid ja formaate(mis erinevad näiteks .rst ja .vct-failidest IDRISI32s), kuid omavad kas:• teisendusvõimalusi eeltoodud formaatidesse,• spetsiaalsete digitaalkartograafia või kosmoseinfo formaatide sisestusvõimalusi,• muundurprogramme andmevahetuseks tuntumate GIS-ide vahel.6 esineb paljude erinevate teisenditena, millest mitmeid lihtsamad paketid ei toeta7 Laiatarbeprogrammidest toetavad animeeritud GIF-e veebibrauserid ja ka PowerPoint (alatesversioonist 9).© <strong>Tartu</strong> <strong>Ülikool</strong>, 200218-4


Geoinformaatika Ikoostanud: Jüri Roosaareroosaare@ut.eeKüllalt tavapärane (mitte ainult geoinfo tarkvara puhul, vaid tarkvara puhulüldse) on see, et formaate, mida suudetakse lugeda (importida), on palju rohkem kuineid, mida suudetakse kirjutada (exportida).Firma Safe Software Inc (http://www.safe.com/) on välja töötanud jaarendamas spetsiaaltarkvara Feature Manipulation Engine, mis keskendubGIS-andmete vahetusele.Rasterandmete alal on kujunemas kõige levinumaks formaadiks SPOTCorporationi eestvõttel välja töötatud GEOTIFF, mis võimaldab tavalisele TIF faililelisada ka koordinaatinfot ja metaandmeid. Lähemalt on võimalik uurida aadressilt:http://remotesensing.org/geotiff/spec/geotiffhome.html. Idrisi32 suudab importidaGEOTIFF faile.18.6. Geograafia märgistuskeelXML baasil on koostatud nn. geograafia märgistuskeel GML (GeographyMarkup Language), mis OGISe standardina on kasutuses geograafilise infoedastamisel. GML sisaldab võimalusi nii vektorkujul ruumiandmete kui kaatribuutandmete säilitamiseks. GML on mõeldud ainult andmete hoidmiseks jatranspordiks ning ei sisalda vahendeid andmete visualiseerimiseks. Tänu XMLtehnoloogia järjest laiemale kasutusele saab GML-ist tõenäoliselt enimlevinudandmevahetusvorming ruumiandmete edastamiseks, milleks käesoleva aasta suvelilmuv uus versioon omab suuri võimalusi.18.7. Digitaalkartograafia formaadidOn välja kujunenud (enim Ameerikas) sagelikasutatavad digitaalkartograafiaandmeformaadid, mis algselt on loodud ühe või teise ametkonna poolt, praegu agasaanud üldlevinuiks, kuna selliseid andmeid on palju:• DLG [Digital Line Graphs] (hetkel levinuim modifikatsioon: DLG-3) on USAGeoloogiateenistuse (USGS) kui USA-s ühe peamise kartograafilise jageodeetilise info haldaja poolt kasutatav formaat topograafiliste kaartideplanimeetrilise info jaoks (vektorformaadis koos põhjaliku identifikaatoritesüsteemiga ning 1:24,000, 1:250,000 ja 1:2,000,000 mõõtkavas);• DEM [Digital Elevation Model] on USA Geoloogiateenistuse poolt loodudhüpsomeetrilise info failid, kus kõrgusmudel on antud lõuna-põhja-suunalisteprofiiljoonte kogumina läänest itta kas 1:24,000 või 1:250,000 mõõtkavas;• CTG [Composite Theme Grid] on USA Geoloogiateenistuse poolt loodudrasterformaadis failid maakasutuse ja -korralduse kohta;• need pole ainsad, näiteks USA Kaitseministeeriumi Kaardistusagentuuril [U.S.Defence Mapping Agency] on analoogsed formaadid DTED [Digital TerrainElevation Data] ja DFAD [Digital Feature Analysis Data].• Omaette süsteemi moodustavad USA Rahvaloendusbüroo (The US Bureau of theCensus) poolt loodud failid, mis sisaldavad USA rahvaloenduse andmeidgeograafilisel alusel (topoaluseks peamiselt DLG), mis on ühendatudadministratiivjaotuste, valimis-, posti- (ZIP koodid) ja munitsipaalringkondade,aadresside jms. jaotustega ning mida on (näiteks CD ROM-idel) võimalik osta jakasutada koos muu statistilise andmestikuga;o GBF/DIME failid olid kasutuses 1970-1990,© <strong>Tartu</strong> <strong>Ülikool</strong>, 200218-5


ooGeoinformaatika Ikoostanud: Jüri Roosaareroosaare@ut.eeTIGER [Topologically Integrated Geographic and Referencing system]on (kaubamärgiga kaitstud) failide süsteemi nimi, millele alates 1990.a.baseerub kogu rahvastikualane info 8 ,ETF [European Transfer Format] on põhiliselt väikesemõõtkavalistedigitaalkaartide andmebaaside jaoks,• DIGEST [DIgital Geographic Exchange STandard] on NATO formaat.• SDTS [Spatial Data Transfer Standard] on USA rahvuslik standard, mis haarabvaldkonna alates kontseptuaalsest tasemest kuni failide füüsilise struktuurini,hõlmates ka metaandmed ja andmekvaliteedi.Töö SDTS loomiseks algas 1982, standardina (nn. FIPS - Federal Information ProcessingStandard) läks kasutusse 1992, edasiarendamine toimub pidevalt 9 . SDTS koosneb kolmestosast: esimene sisaldab kontseptuaal- ja andmemudeli, kvaliteedinõuded ja andmevahetusformaadi;teine sisaldab ruuminähtuste ja nende omaduste loetelu ja määrangud; kolmasmääratleb SDTSi kasutamise ISO terminites.Idrisi32 suudab importida SDTS kõrgusmudeli rasterandmeid.18.8. Ruumiandmete standardid EestisKa Eestis on asutud ruumiandmete standardite loomisele (vt.http://www.maaamet.ee/projektid/ram.php).8 huvilistel kontakteeruda J. Roosaarega, kes 1992 külastas USA Rahvaloendusbürood ja kohtusvastavate spetsialistidega; T. Jagomäe töödega temaatikal 'Rahvaloendus ja GIS' saab tutvuda, kasutades linkeTÜGI ja REGIO kodulehtedel.9 vt. näit. FGDC töögruppide kodulehelt http://www.fgdc.gov/standards/status/swgstat.html© <strong>Tartu</strong> <strong>Ülikool</strong>, 200218-6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!