05.11.2012 Views

MOKYMO KURSAS INFORMACINIS RAŠTINGUMAS ... - LiDA

MOKYMO KURSAS INFORMACINIS RAŠTINGUMAS ... - LiDA

MOKYMO KURSAS INFORMACINIS RAŠTINGUMAS ... - LiDA

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

EUROPOS SĄJUNGA<br />

Europos socialinis fondas<br />

KURKIME ATEITĮ DRAUGE!<br />

Projektas<br />

“Empirinių duomenų ir informacijos HSM tyrimams kaupimas ir valdymas : Lietuvos HSM<br />

duomenų archyvas (<strong>LiDA</strong>)”<br />

SFMIS Nr. BPD2004-ESF-2.5.0-03-05/0042<br />

<strong>MOKYMO</strong> <strong>KURSAS</strong><br />

<strong>INFORMACINIS</strong> <strong>RAŠTINGUMAS</strong> DUOMENŲ ARCHYVO<br />

VARTOJIMUI<br />

KAUNAS, 2008


Autorė: Marija Prokopčik<br />

Autorė dėkoja kolegėms Jūratei Kuprienei ir dr. Reginai Varnienei už pagalbą<br />

rengiant mokomąją medžiagą<br />

2


Turinys<br />

ĮVADAS .............................................................................................................................................................................. 4<br />

1. NATŪRALIŲ IR KONTROLIUOJAMŲ KALBŲ SAMPRATA, JŲ PRIVALUMAI, TRŪKUMAI IR<br />

GALIMYBĖS INFORMACIJOS TVARKYBOS IR IEŠKOS POŽIŪRIU ................................................................ 5<br />

NATŪRALIŲ IR KONTROLIUOJAMŲ KALBŲ SAMPRATA ....................................................................................................... 5<br />

NATŪRALIŲ KALBŲ TRŪKUMAI INFORMACIJOS TVARKYBOS IR IEŠKOS POŽIŪRIU ........................................................... 6<br />

REIKALAVIMAI IPK IR JŲ REALIZAVIMO PRIEMONĖS .......................................................................................................... 8<br />

KONTROLIUOJAMOS (DIRBTINĖS) KALBOS ......................................................................................................................... 9<br />

SVARBIAUSIOS DOKUMENTŲ KLASIFIKACIJOS ................................................................................................................... 10<br />

2. DALYKINĖ TEMINĖ DOKUMENTŲ ANALIZĖ IR INDEKSAVIMO PROCESAS ........................................ 18<br />

3. KONTROLIUOJAMI ŽODYNAI. TEZAURAI, KAIP LEKSIKOGRAFINĖS KONTROLĖS UŽTIKRINIMO<br />

PRIEMONĖ ..................................................................................................................................................................... 26<br />

TEZAURAI, JŲ PASKIRTIS IR FUNKCIJOS ............................................................................................................................. 26<br />

TEZAURŲ STRUKTŪRA IR FIKSUOJAMI SANTYKIAI ........................................................................................................... 28<br />

TEZAURŲ RENGIMAS IR VERTINIMAS ................................................................................................................................ 30<br />

4. SVARBIAUSI HUMANITARINIŲ IR SOCIALINIO MOKSLŲ SRITIES TEZAURAI ................................... 32<br />

INFORMACIJOS TVARKYMUI IR PAIEŠKAI DUOMENŲ ARCHYVUOSE NAUDOJAMI HSM SRITIES TEZAURAI ................... 38<br />

LIDA TEZAURAS ................................................................................................................................................................ 41<br />

5. METADUOMENYS. METADUOMENŲ SCHEMOS IR ELEMENTŲ RINKINIAI. EMPIRINIŲ DUOMENŲ<br />

APRAŠYMO STANDARTAS IR JO TAIKYMAS ARCHYVO REIKMĖMS. ........................................................ 48<br />

LIDA IR LINGVISTINIS APRŪPINIMAS ................................................................................................................................. 48<br />

LIDA – ARCHYVAS ............................................................................................................................................................. 53<br />

METADUOMENYS ................................................................................................................................................................ 57<br />

DUBLIN CORE METADUOMENŲ INICIATYVA ....................................................................................................................... 60<br />

DDI ..................................................................................................................................................................................... 62<br />

LIDA METADUOMENŲ SĄSAJA SU BIBLIOTEKŲ KATALOGŲ ĮRAŠAIS .................................................................................. 63<br />

EMPIRINIŲ DUOMENŲ APRAŠYMO STANDARTAS IR JO TAIKYMAS ARCHYVO REIKMĖMS ................................................... 66<br />

LIDA PRIEIGA IR METADUOMENŲ PERŽIŪRA ..................................................................................................................... 69<br />

KITI ARCHYVAI IR DUOMENŲ RINKINIŲ PERŽIŪRA ........................................................................................................... 84<br />

NAUDOTOS LITERATŪROS IR ŠALTINIŲ SĄRAŠAS: ........................................................................................ 86<br />

SANTRUMPŲ SĄRAŠAS: ............................................................................................................................................. 89<br />

6. PRIEDAS. <strong>MOKYMO</strong> KURSO SKAIDRĖS<br />

3


Įvadas<br />

Duomenų tvarkymas ir jų paieška socialinės ir humanitarinės srities duomenų archyvuose<br />

reikalauja atitinkamų teorinių žinių ir praktinių įgūdžių. Lietuvos socialinių ir humanitarinių mokslų<br />

tyrinėtojai, kurie yra potencialūs <strong>LiDA</strong> kūrėjai ir naudotojai, neturi pakankamų šios srities žinių ir<br />

praktinių įgūdžių, neturi patirties naudojant tezaurų tipo kontroliuojamus žodynus, rengiant ir<br />

tvarkant metaduomenis.<br />

Mokymo kursas ,,Informacinis raštingumas duomenų archyvo vartojimui“ skirtas socialinių<br />

ir humanitarinių mokslų duomenų vartotojams – ekspertams, doktorantams, pedagogams,<br />

dėstytojams, mokslininkams ir kitiems.tyrėjams. Mokymų medžiagos rengimo tikslas yra suteikti<br />

teorinių žinių ir praktinių įgūdžių, būtinų HSM duomenų organizavimui ir jų paieškai; supažindinti<br />

su pagrindinėmis informacijos paieškos kalbomis, jų organizavimo būdais ir priemonėmis, HSM<br />

duomenų analize ir indeksavimo procesais, kontrolės žodynais, visų pirma, tezaurais ir<br />

svarbiausiomis metaduomenų schemomis; ugdyti gebėjimus naudotis archyvavimo reikmėms<br />

parengtu lietuvišku HSM tezauru ir empirinių duomenų aprašymo standartu. Mokymo kurso<br />

medžiagą sudaro šie skyriai: natūralių ir kontroliuojamų kalbų samprata, jų privalumai, trūkumai ir<br />

galimybės informacijos tvarkybos ir ieškos požiūriu; dalykinė teminė dokumentų analizė ir<br />

indeksavimo procesas; kontroliuojami žodynai :tezaurai, kaip leksikografinės kontrolės užtikrinimo<br />

priemonė; svarbiausi HSM srities tezaurai, HSM tezauro lietuvių kalba naudojimas archyvo<br />

reikmėms; metaduomenys, metaduomenų schemos ir elementų rinkiniai, empirinių duomenų<br />

aprašymo standartas ir jo taikymas archyvo reikmėms.<br />

Šiuose skyriuose medžiaga yra pristatoma nuosekliai derinant teorines žinias ir siekiant<br />

formuoti praktinius įgūdžius. Kiekviena tema pradedama nuo atitinkamos tematikos terminų<br />

pristatymo, apibrėžimų, medžiagos, kuri reikalinga aptariamos problematikos supratimui. Praktinėje<br />

dalyje pateikiami konkretūs pavyzdžiai, pristatomos analizuojamų priemonių rengimo ir taikymo<br />

galimybės organizuojant HSM informaciją archyve ir vykdant jos paiešką.<br />

4


1. Natūralių ir kontroliuojamų kalbų samprata, jų privalumai, trūkumai ir<br />

galimybės informacijos tvarkybos ir ieškos požiūriu<br />

Informacijos tvarkymas ir jos ieška siejama su informacijos organizavimu. Organizuodami<br />

informaciją, mes ją grupuojame, klasifikuojame, kategorizuojame, t.y. jungiame į klases, grupes,<br />

kategorijas.<br />

Informacija organizuojama tam, kad būtų galima surasti mus dominančius objektus,<br />

informaciją apie juos. Kitas svarbus informacijos organizavimo rezultatas – galimybė išsaugoti ją<br />

ateities kartoms.<br />

Mūsų objektas – informacija saugoma archyvuose, bibliotekose ar muziejuose, kitose<br />

panašiose talpyklose, t.y. kalbama apie informaciją, kuri užfiksuota tam tikrose laikmenose (o jeigu<br />

virtuali, tai tam tikru būdu apipavidalinta). Būtent šią informaciją – informacijos vienetus,<br />

informacijos paketus (angl. Information packages), - tai turbūt tiksliausias tinklalapio apibūdinimas,<br />

turime organizuoti taip, kad ją būtų kiek galint paprasčiau surasti.<br />

Informacijos vienetus galima organizuoti pagal formalius požymius – autorius, antraštę,<br />

ISBN ar ISSN numerį, leidimo, vietą, metus, formą.<br />

Kita galimybė - šių informacijos vienetų organizavimas pagal jų turinį – išskiriant temą,<br />

dalyką, objektą, t.y. atliekant jų intelektualaus turinio analizę.<br />

Kiekvieno informacijos vieneto dalykinė (teminė) analizė susijusi su jo intelektualiojo<br />

turinio nustatymu (apie ką yra informacijos vienetas, jo ,,apie-ybė” – angl. aboutness), atitinkamų<br />

,,apie-ybę” nusakančių sąvokų pasirinkimu – ,,įžodinimu” ir šių sąvokų išreiškimu konkrečios<br />

informacijos paieškos kalbos (toliau IPK) terminais. Natūralios kalbos (toliau NK) žodžiai tuo būdu<br />

išverčiami į IPK terminus. Bendriausiu atveju IPK gali būti dvejopos – linijinės hierarchinės<br />

struktūros IPK (nuo plačiausios prie siauriausios sąvokos – nuo bendro prie specifinio) –<br />

hierarchinės klasifikacijos ir žodinės abėcėlinės IPK, kur terminai (panašūs į NK žodžius) dėstomi<br />

abėcėlės seka.<br />

Natūralių ir kontroliuojamų kalbų samprata<br />

Akivaizdu, kad ne vienam kyla klausimas, kam reikalingos IPK, jeigu dabar paieška pagal<br />

dalyką tapo pagrindiniu informacijos radimo būdu ir ieškodami informacijos vartotojai masiškai<br />

naudoja NK. Kita vertus nors internete masiškai naudojama paieška pagal natūralios kalbos žodžius<br />

formuluojamus kaip reikšminiai žodžiai, didžiuliai nerelevančios informacijos kiekiai netenkina<br />

5


daugelio vartotojų. Akivaizdu, kad didėjant pasiekiamos informacijos kiekiui vien paieškos pagal<br />

RŽ nepakanka. Daugelis žodžių, o anglų kalboje, kurią taip dažnai naudojame informacijos paieškai,<br />

beveik visi turi daugiau negu vieną prasmę ar reikšmę, o šios dar po kelis niuansus. Daugelis žodžių<br />

gali būti daiktavardžiai, veiksmažodžiai, būdvardžiai, prieveiksmiai. Paieškos sistemos, kurios<br />

tariamai leidžia vartotojui naudoti ,,natūralią kalbą”, iki šiol nesugeba atskirti visų reikšmių ar<br />

kalbos dalių, ypač kai kalbama apie plačias universalias sistemas. Tam tikrų pasiekimų yra<br />

siauresnėse sistemose.<br />

Kita problema tai, kad autoriai, rašantys apie tuos pačius dalykus naudoja skirtingus žodžius<br />

jiems įvardinti, o tų pačių dalykų ieškantys žmonės neranda reikiamų žodžių jiems pavadinti. Yra<br />

atlikta daugybė tyrimų, skirtų indeksavimo nuoseklumo reiškiniui. Koks bebūtų tokių tyrimų tikslas<br />

ir rezultatai, visi jie parodė, kad tai pačiai sąvokai išreikšti žmonės dažnai pasirenka skirtingus<br />

žodžius, t.y. indeksavimui būdingas nenuoseklumas.<br />

Tokia situacija rodo, kad norint suderinti visus žodžius, kuriuos būtų galima naudoti sąvokai<br />

išreikšti ir parodyti visas įmanomas tam tikro žodžio reikšmes, reikalinga tam tikra dirbtinė struktūra<br />

– informacijos paieškos kalba, kuri paprastai naudojama kaip kontroliuojamas žodynas.<br />

IPK - dirbtinė kalba, skirta dokumentų ir užklausų turiniui išreikšti ir fiksuoti<br />

informacijos paieškos sistemoje (toliau IPS).<br />

Natūralių kalbų trūkumai informacijos tvarkybos ir ieškos požiūriu<br />

Natūrali kalba (kaip informacijos fiksavimo priemonė inf. tvarkymo ir ieškos požiūriu)<br />

turi trūkumų, kuriuos leidžia pašalinti arba apriboti IPK ir jų žodynų naudojimas.<br />

Pagrindinė trūkumų priežastis tai, kad NK turinys ir išraiškos priemonės nėra tapatūs:<br />

vienas turinys – kelios išraiškos formos.<br />

NK, viena vertus, būdingas - gausumas (įvairumas, perteklius), kita vertus, yra situacijų,<br />

kai NK priemonių nepakanka tam tikrai sąvokai išreikšti.<br />

Gausumas<br />

Sinonimai<br />

Sinonimai (gr. synonymos- bendravardis) – skirtingai skambantys, bet tą pačią arba artimą<br />

prasmę turintys žodžiai, žodžių formos, junginiai. Absoliučių sinonimų (kiškis – zuikis) nėra daug,<br />

tačiau daug diferencinių (kalbėti – byloti, kampas- kertė), dar daugiau žodžių tampa sinonimais tam<br />

tikrame kontekste. Taigi tekstų autoriai turi galimybę rinktis įvairius žodžius, žodžių junginius tai<br />

6


pačiai sąvokai išreikšti. Todėl rengiant kontroliuojamus žodynus taip svarbu nustatyti visus<br />

sinonimus ir apjungti juos po vienu pavadinimu. Ar ,,drabužiai”, ,,drapanos”, ,,apdaras”, ,,apranga”<br />

reiškia tą patį dalyką? Jeigu ne tą patį, ar jų skirtumai tokie ryškūs, kad kiekvieną jų būtų galima<br />

laikyti atskiru leksiniu vienetu? Svarbu nustatyti ir tą, kuris geriausiai žinomas numatomam<br />

vartotojui. Kita vertus toks pasirinkimas paprastai priklauso nuo rengėjo.<br />

Žodžių formos<br />

Vystantis kalbai terminai, kuriuos žymi keli žodžiai, susilieja į vieną (pvz., on line; on-line;<br />

online). Kartais gali būti naudojamos visos trys formos. Dar vienas žodžių formų įvairovės pvz., yra<br />

britų ir amerikiečių rašybos būdai (catalog ir catalogue, colour ir color).<br />

Prielinksniai gali iš esmės pakeisti žodžio reikšmę: lygybė – nelygybė, ginklavimasis ir<br />

nusiginklavimas. Paprastai kontroliuojamuose žodynuose nėra prasmės naudoti abi sąvokas, nes jos<br />

dažniausiai nagrinėjamos tik drauge.<br />

Svarbiausias žodžių formų skirtumas tai - vienaskaita ir daugiskaita. Taisyklės, kurią formą<br />

naudoti nėra. Paprastai laikoma, kad daugiskaita suponuoja platesnę sąvokos apimtį (pvz., geriau<br />

knygos, o ne knyga), kita vertus, daugiskaita ir vienaskaita gali turėti skirtingas reikšmes (menas ir<br />

menai)<br />

Santrumpos ir akronimai<br />

Santrumpos ir akronimai tradiciškai yra iššifruojami arba ne priklausomai nuo jų paplitimo,<br />

numatomų vartotojų ir jų žinių. Dėl globalus paieškos pobūdžio numatyti visus galimus vartotojus<br />

sudėtinga, todėl paprastai santrumpas ir akronimus reikėtų iššifruoti. Net visuotinai žinomas<br />

akronimas AIDS ispanų kalba yra SIDA.<br />

Tikslūs (specifiški) ir bendrieji terminai<br />

Tai pačiai sąvokai išreikšti galime naudoti tikslius (adekvačius) terminus arba bendruosius<br />

(apibendrinančius). Pavyzdžiui, „Katės“ kabutės nelietuviškos yra ir kitose teksto vietose yra<br />

bendresnis terminas, negu „Kačių veislės“, ,,Kačių veislės” bendresnis negu „Siamo katės“, o<br />

,,Mėlynosios Siamo katės” – dar tikslesnis. Pvz., JAV Kongreso bibliotekos rubrikų sąraše (angl.<br />

Library of Congress Subject Headings) – tiksliausias terminas –-,,Siamo katės”, o mažesnėms<br />

viešosioms bibliotekoms skirtame Sears rubrikyne (angl. SEARS list of subject headings) – ,,Katės”,<br />

nors yra nuoroda, kad esant reikalui galima sukurti terminą konkrečiai kačių veislei. Lietuvos M.<br />

Mažvydo nacionalinės bibliotekos rubrikyne yra tik vienas terminas – ,,Katės”.<br />

7


Spendimą apie tikslumą lemia informacijos išteklių pobūdis ir apimtis, vartotojų tipas. Jeigu<br />

fondas universalus – pakanka termino ,,Katės”, jeigu siauresnis – galima naudoti tikslesnį terminą.<br />

Visuotinai paplitę /populiarūs terminai ir specialūs terminai<br />

Kai sąvoką galima išreikšti specialiu ir techniniu terminu, žodyno rengėjai turi nuspręsti, kuri forma<br />

tinkamesnė. Paprastai specialistams skirtame žodyne bus naudojamas specialus terminas, pvz.,<br />

navikas, neoplazma, o bendros paskirties žodyne bus taikomas paplitęs terminas, pvz. vėžys. Kita<br />

vertus, atsižvelgiant į tarptautinės autoritetinės kontrolės mastą, paieškos metu turėtų būti<br />

aktyvuojami abu šie terminai. Tokias galimybes užtikrina ontologijų naudojimas.<br />

Nepakankamumas<br />

Homografai<br />

Homografai tai – žodžiai, turintys vienodą formą, bet skirtingas reikšmes. (Merkurijus –<br />

planeta, romėnų dievas, automobilis; kasa – plaukų, bilietų, vienas iš žmogaus organų, vėžys –<br />

gyvūnas ir susirgimas). Kiekviename žodyne turi būti numatytas būdas, kaip atskirti skirtingas<br />

reikšmes. Galima naudoti pastabas arba homografo sinonimą kaip teiktiną terminą (atitiktinį).<br />

Vienas būdų, kaip elgtis su homografais yra taikyti pastabas (paaiškinimus). Pavyzdžiui:<br />

Merkurijus (planeta)<br />

Merkurijus (Romėnų dievas).<br />

Paaiškinimai naudojami ir tada, kai reikia parodyti skirtingą termino naudojimo kontekstą:<br />

Svetimavimas (actekų teisė)<br />

Svetimavimas (žydų teisė)<br />

Svetimavimas (zulusų teisė)<br />

Be to, pastabos padeda paaiškinti nežinomus žodžius. Pavyzdžiui: Zulusai (Pietų Afrikos<br />

gentis).<br />

Dirbtinės IPK turėtų eliminuoti arba bent sumažinti šiuos trūkumus.<br />

Reikalavimai IPK ir jų realizavimo priemonės<br />

IPK keliami tokie reikalavimai:<br />

8


• vienareikšmiškumas - viena sąvoka = vienas žodis (išraiškos būdas); Tuo būdu apribojama<br />

sinonimika, homonimija, NK daugiareikšmiškumas, kalba formalizuojama;<br />

• aiškus naudingų paieškai loginių santykių ir psichologinių asociacijų fiksavimas tarp IPK<br />

elementų;<br />

• atvirumas; - galima keisti, pildyti;<br />

• naudojimosi patogumas – mnemoniškumas, paprastumas, kompaktiškumas.<br />

Pagrindinė tokių reikalavimų realizavimo priemonė – atitinkamų IPK elementų ir<br />

žodyno struktūros pasirinkimas.<br />

Pagrindiniai IPK elementai;<br />

• leksiniai vienetai (žodžiai, kodai, indeksai, jų junginiai);<br />

• paradigminiai santykiai (baziniai, analitiniai) – prasmės (panašumo, skirtumo ir kt.)<br />

santykiai tarp LV, kurie nepriklauso nuo konteksto, o priklauso nuo paieškos poreikių;<br />

• sintagminiai santykiai (teksto, gramatiniai, sintaksės) – santykiai tarp LV vienoje paieškos<br />

charakteristikoje. Jie priklauso nuo konteksto ir gali keistis.<br />

Kontroliuojamos (dirbtinės) kalbos<br />

Yra daugybė IPK klasifikavimo kriterijų (IPK struktūros elementai, leksinių vienetų<br />

koordinavimas arba postkoordinavimas). Mūsų reikmėms pakanka išskirti jau minėtas dviejų<br />

rūšių IPK – linijinės hierarchinės struktūros IPK, hierarchinės klasifikacijos, (kai einama nuo<br />

plačiausios prie siauriausios sąvokos – nuo bendro prie specifinio) –arba ir žodinės abėcėlinės IPK,<br />

kur terminai (panašūs į NK žodžius) dėstomi abėcėlės seka.<br />

Linijinės hierarchinės struktūros IPK arba hierarchinės klasifikacijos<br />

Dokumentų arba bibliotekinės klasifikacijos tai – dokumentų (informacijos vienetų)<br />

skirstymo sistemos, kuriose kiekviena klasė kitų atžvilgiu turi nuolatinę vietą. Klasifikacijos gali<br />

būti natūralios ir dirbtinės. Natūralios yra paremtos esminiais objektų požymiais, pvz., dokumentų<br />

klasifikavimas pagal turinį. Dirbtinės klasifikacijos remiasi antraeiliais, neesminiais objektų<br />

požymiais, pvz., dokumentų klasifikacija pagal dydį arba abėcėliškai pagal autorius, antraštes.<br />

Paprastai jos atlieka pagalbinį vaidmenį.<br />

9


Dokumentų arba bibliotekinis bibliografinis klasifikavimas yra tiesiogiai susijęs su mokslo<br />

klasifikavimu: jis yra antrinis mokslo klasifikavimo atžvilgiu ir nuo jo priklauso arba juo remiasi.<br />

Svarbiausios dokumentų klasifikacijos<br />

Melvilio Djuji (Melvil Dewey, 1851 -1931) dešimtainė klasifikacija (DDK)<br />

Pagrindinė DDK klasių eilė<br />

000 Generalities Bendrasis<br />

100 Philosophy & psychology Filosofija ir psichologija<br />

200 Religion Religija<br />

300 Social sciences Socialiniai mokslai<br />

400 Languages Kalbos/Filologija<br />

500 Natural sciences & mathematics Gamtos mokslai ir matematika<br />

600 Technology (Applied sciences) Technologija<br />

mokslai)<br />

(taikomieji<br />

700 The arts (Fine and decorative arts) Vaizduojamieji menai<br />

800 Literature & rhetoric Literatūra<br />

900 Geography & history Geografija ir istorija<br />

Sudarant indeksą, pirmasis trijų narių skaičiaus elementas rodo pagrindinę klasę, antrasis<br />

rodo skyrių, trečias - poskyrį: pvz. 600 Technologija, 610 Medicina, 620 Inžinerija, 630 Žemės ūkis;<br />

611 – žmogaus anatomija, 612 – žmogaus fiziologija.<br />

Šiuo metu DDK yra viena labiausiai naudojamų dokumentų klasifikacijų pasaulyje.<br />

DDK autorines teises turi OCLC (angl. Online computer library center). Leidžiamas pilnas<br />

ir sutrumpinti (iki 20.000 dokumentų fondui) lentelių variantai, popierine ir elektronine forma<br />

(WebDewey ir WebDeweyAbridged). 2003 m. išėjo 22 pilnas leidimas. Nuo 1994 m. leidžiamas CD<br />

Dewey for Windows, nauja medžiaga atsispindi adresu http://www.oclc.org/dewey.<br />

Universalioji dešimtainė klasifikacija (UDK)<br />

10


Ši klasifikacija plačiai naudojama Lietuvoje. UDK yra skirta visų žinijos sričių dokumentų<br />

klasifikavimui. Tai universali, daugiakalbė klasifikavimo sistema, kuri turi dešimtainę indeksaciją,<br />

hierarchinę skyrių struktūrą, yra sisteminė, t. y. remiasi mokslų sistematika. Tūkstančiai bibliotekų<br />

pasaulyje naudojasi UDK sisteminiam fondų sustatymui ir paieškai. Kompiuteriniuose kataloguose<br />

UDK naudojama kaip dalykinio naršymo ir paieškos priemonė.<br />

Pagrindinė klasių eilė:<br />

0 Bendrasis sykius<br />

1 Filosofija. Psichologija<br />

2 Religija. Teologija<br />

3 Visuomenės mokslai<br />

4 [laisvas nuo 1961 m.]<br />

5 Matematika. Gamtos mokslai<br />

6 Taikomieji mokslai. Medicina. Technika<br />

7 Menas. Fotografija. Žaidimai. Sportas<br />

8 Kalbotyra. Filologija. Grožinė literatūra. Literatūros mokslas<br />

9 Geografija. Biografijos. Istorija<br />

Klasės toliau skirstomos taikant dešimtainį principą. Einama nuo plačiausios (bendriausios)<br />

iki siauriausios (konkrečiausios) sąvokos:<br />

0 Bendrasis skyrius<br />

00 Įvadas. Žinių ir kultūros pagrindai<br />

004 Kompiuterija ir kompiuterinė technologija. Duomenų apdorojimas<br />

004.4 Programinė įranga<br />

004.42 Kompiuterio programavimas. Kompiuterinės programos<br />

004.422 Kompiuterinių programų sudėtinės dalys<br />

004.422.3 Kintamieji<br />

004.422.32 Kintamųjų rūšys<br />

004.422.324 Statinis ir dinaminis kintamasis<br />

UDK puikiai tinka kompiuterinėms sistemoms. Naudojami charakteringi ženklai leidžia<br />

atlikti paiešką pagal bet kurį elementą ar jų derinį ir užtikrina paieškos tikslumą. Skaitmeninių kodų<br />

ir natūralios kalbos aprašymų derinimas užtikrina dvejopo rūšiavimo, pagal numerius ir abėcėlę,<br />

galimybę (katalogams, autoritetiniams failams, rodyklėms tvarkyti).<br />

11


1995 metais Lietuvos nacionalinė M. Mažvydo biblioteka pasirašė MRF (angl. angl. Master<br />

Reference File) failo vertimo ir publikavimo licencijos sutartis su UDK Konsorciumu. Šios sutarties<br />

pagrindu rengiama lietuviška UDK bazė. 2001 m. UDK bazė integruota į bendrą Lietuvos<br />

nacionalinės M. Mažvydo bibliotekos LIBIS duomenų bazių struktūrą ir įgyvendinta šios<br />

bibliotekos kompiuterinio katalogo bibliografinių įrašų bei UDK duomenų bazių sąsaja.<br />

Žodinės abėcėlinės IPK<br />

Žodinės abėcėlinės IPK, tai tokios informacijos tvarkybai ir paieškai skirtos kalbos, kurių<br />

leksiniai vienetai - NK žodžiai ar jų junginiai dėstomi abėcėlės seka. Žodinės abėcėlinės IPK<br />

abėcėlinės dalykų klasifikacijos ir deskriptorinės kalbos. Žodinės abėcėlinės IPK fiksuojamos<br />

kontroliuojamuose žodynuose: rubrikynuose, tezauruose ontologijose.<br />

Abėcėlinės dalykinės IPK<br />

Dalykinimo esmė - dokumento turinys išreiškiamas tipiniais žodžiais - dalykinėmis<br />

rubrikomis. IPK žodyne (rubrikyne) rubrikos dėstomos abėcėlės seka.<br />

Dalykinė rubrika (toliau DR) - trumpa (formalizuota) dalyko žodinė išraiška.<br />

Atlikus konceptualiąją dokumento analizę ir nustačius reikiamas sąvokas, jos yra<br />

išreiškiamos, kaip dalykinė(ės) rubrika(os), t.y. natūralios kalbos žodžiai. Taigi dokumentas ,,Etika<br />

gyvenime ir versle: pažinimas ir taikymas” (Beržinskas, Gediminas 2002. - 286, [1] p.) bus<br />

indeksuojamas naudojant dalykines rubrikas: verslo etika, asmenybės moralė, protas, moralė ir<br />

politika, o ne indeksą 17 (UDK), Kita vertus, šie žodžiai rubrikoje yra pasirenkami ne laisvai, o<br />

naudojant specialų rubrikų sąrašą, žodyną ar vardyną.<br />

Dalykinant išskiriamas dalykas kaip toks, nesiejant jo su mokslo šaka. Dalyko vieta<br />

hierarchinėje struktūroje nerodoma. Dalykinant naudojami kontroliuojami žodynai - rubrikynai<br />

(rubrikų sąrašai, vardynai).<br />

Populiariausias ir plačiausiai pasaulyje naudojamas kontroliuojamas dalykinių rubrikų<br />

žodynas yra JAV Kongreso bibliotekos rubrikų sąrašas (angl. Library of Congress Subject Headings<br />

- LCSH). LCSH apima visą žiniją. Jis naudojamas visų tipų bibliotekose JAV ir kitose anglakalbėse<br />

pasaulio valstybėse. Bet kuri biblioteka gali teikti savo siūlymus dėl naujų rubrikų įtraukimo. Tokius<br />

siūlymus teikia apie 100 bibliotekų, jų tarpe ir Lietuvos nacionalinė M. Mažvydo biblioteka. Gauti<br />

siūlymai svarstomi kiekvieną savaitę. Kasmet įtraukiama apie 8.000 naujų rubrikų.<br />

12


Tradicinis LCSH įvaizdis – 5 storos raudonos knygos. 2007 m. išėjo 30 leidimas (280.000<br />

rubrikų ir nuorodų). Tai šios srities pasaulio standartas. Rubrikynas yra išverstas į kitas kalbas,<br />

naudojamas kaip pagrindas rengiant analogiškus kitų kalbų žodynus, pvz. lietuvių.<br />

Kitas unifikuoto standartinių dalykinių rubrikų sąrašo pavyzdys tai mažoms ir vidutinėms<br />

viešosioms ir mokyklų bibliotekoms skirtas Sears dalykinių rubrikų sąrašas (angl. Sears List of<br />

Subject Headings). Sears rubrikyne naudojami platesni terminai, mažiau yra specifinių, mokslininkų<br />

auditorijai skirtų terminų. Be to, čia yra mažiau skirsnių.<br />

LCSH SEARS<br />

BT Body covering (anatomy)<br />

Head<br />

RT Scalp<br />

NT Beards<br />

Bristles<br />

Eyerbrows<br />

Eyerlashes<br />

Gray hair<br />

Guard hair<br />

Hosehair<br />

Long hair<br />

Molting<br />

Mustaches<br />

Sale of human hair<br />

Whiskers<br />

Wigs<br />

Wool<br />

…<br />

Hair—Coloring<br />

USE Hair – Dyeing and bleaching<br />

…<br />

Hair dyes<br />

UF Dyes and dyeing – Hair<br />

Hair tints<br />

Tints, hair<br />

BT Hair preparations<br />

Use for general materials on hair as well as for<br />

materials on hairdressing and haircutting.<br />

UF Barbering<br />

Coiffure<br />

Haircutting<br />

Hairdressing<br />

Hairstyles<br />

Hairstyling<br />

BT Head<br />

Personal grooming<br />

NT Wigs<br />

Dalykinė rubrika ,,Plaukai“ (HAIR) iš LCSH ir SEARS rubrikynų<br />

Lietuvos Martyno Mažvydo bibliotekos rubrikynas yra kuriamas JAV Kongreso<br />

bibliotekos rubrikyno pagrindu. Tai reiškia, kad jame gali kuriamos naujos lietuviškos rubrikos<br />

(neturinčios angliškų analogų), bet tai turi būti daroma pagal LCSH sistemos taisykles. Rubrikyną<br />

kuria Lietuvos nacionalinė biblioteka kaip autoritetinę dalykų bazę UNIMARC formatu. Kitoms<br />

įstaigoms jis yra parduodamas. Įstaiga įsigijusi rubrikyną įsipareigoja jame nieko nekeisti.<br />

Rubrikyną dokumentų dalykinimui ir dalykinei paieškai elektroniniuose kataloguose naudoja visos<br />

13


Lietuvos bibliotekos, todėl jis žinomas vartotojui. Rubrikyne yra apie 150.000 įvairių mokslo sričių<br />

terminų.<br />

Dalykinė rubrika ,,Plaukai“ iš Lietuvos nacionalinės M. Mažvydo bibliotekos rubrikyno<br />

Deskriptorinės IPK<br />

Šios IPK yra paremtos koodinatinio indeksavimo metodu, kurio esmė yra tai, kad<br />

indeksuojama paties indeksuojamo teksto žodžiais.<br />

Indeksuojant, informacinio pranešimo turinys yra išreiškiamas aibe paprastas klases<br />

žyminčių NK žodžių, arba žodžių junginių, tarp kurių nėra linijinės priklausomybės. Jie žymi<br />

dokumento koordinates teminių dalykinių požymių erdvėje. Tai leidžia atspindėti bet kurį iš<br />

anksto nenumatytą dokumento temos, dalyko aspektą. Pagal koordinates atliekama paieška.<br />

Koordinatinio indeksavimo požymis ir esmė - manipuliavimas paprastomis klasėmis ir<br />

loginių operatorių naudojimas. Loginiai operatoriai, dar vadinami Būlio operatoriais, jų<br />

autoriaus Dž. Būlio (George Boole, 1815-1864) garbei, leidžia iš paprastų klasių sudaryti<br />

sudėtingas.<br />

• sąjunga (ARBA, U)<br />

• sankirta (IR, ∩)<br />

• skirtumas (NE, /)<br />

14


Sudėtinių klasių susidarymą iš paprastų gerai iliustruoja Veno diagramos. Džono<br />

Venno (John Venn, 1834-1923) anglų matematiko ir filosofo diagramos skirtos rodyti loginius<br />

santykius tarp aibių.<br />

Loginių operatorių naudojimas leidžia iš nedidelio skaičiaus paprastų klasių sukurti<br />

daug ir įvairių sudėtinių klasių.<br />

Dar viena svarbi deskriptorinių IPK lyginant su kitomis kalbomis ypatybė yra tai,<br />

atliekant deskriptorinį indeksavimą yra indeksuojama sąvokomis. Tai leidžia ženkliai apriboti<br />

indeksavimo subjektyvumą.<br />

Deskriptorinių kalbų kontrolės priemonė yra tezauras.<br />

Ontologijos<br />

Ontologija - tam tikros srities bendrai naudojamų sąvokų/konceptų, esybių tipų, jų<br />

tarpusavio priklausomybių, sąryšių, aksiomų, dėsningumų ir kt. visumos formalus aprašas.<br />

Filosofijoje ontologija suteikia kriterijus, kurie leidžia išskirti įvairius objektų tipus<br />

(konkretūs ir abstraktūs, egzistuojantys ir ne, realūs ir idealūs, priklausomi ir ne) bei jų ryšius<br />

(santykius, priklausomybes ir pan.) Žodis ontologija pirmiausia yra filosofijos terminas, turintis<br />

prasmę būtiesar visos tikrovės teorija, naudojamas ir kaip sinonimas terminui metafizika.<br />

Maždaug nuo 1990 m. šis terminas pradėtas naudoti ir kompiuterijos, dirbtinio intelekto<br />

srityse, kalbant apie žinių bendrą naudojimą (angl. knowledge sharing), programinių agentų<br />

tarpusavio sąveiką, visuotinai pripažįstamų (angl. common sense) žinių atvaizdavimą, natūralios<br />

kalbos apdorojimą ir kt.<br />

Pagal paskirtį ontologijos skirstomos:<br />

• žinių vaizdavimo ontologijas;<br />

• bendrąsias ontologijas, visuotinai naudojamų sąvokų ontologijas;<br />

• aukščiausio lygio ontologijas, meta–ontologijas;<br />

• lingvistines ontologijas;<br />

• nagrinėjimo sričių ontologijas; ir kt.<br />

Viena iš plačiausiai žinomų ir naudojamų lingvistinių ontologijų yra WordNet<br />

(www.wordnet.com).<br />

15


WordNet® – 100.000 žodžių reikšmių sugrupuotų į 5 kategorijas: daiktavardžiai,<br />

veiksmažodžiai, būdvardžiai, prieveiksmini ir funkciniai žodžiai; jų reikšmės yra susietos<br />

įvairiais santykiais.<br />

• Sinonimai - tokios pačios arba labai artimos prasmės žodžiai, kurie gali vienas kitą pakeisti.<br />

Sinonimijos santykis toks pat kaip santykis USE tradiciniuose kontroliuojamuose<br />

žodynuose;<br />

• Koordinuoti terminai.Juos galima laikyti broliais ir seserimis. Jie kilę iš to paties termino.<br />

Tai toks pat santykis kaip tradicinio kontroliuojamo žodyno susijęs terminas ar asociacija;<br />

• Hipernimai -tai visų rūšinių elementų gimininiai terminai, pvz. terminas “šeima” yra<br />

hipernimas terminams ,,kalbų šeima”, ,,kreivių šeima”, ‚‘“globos namai”. Hipernimai<br />

panašūs į tradicinio kontroliuojamo žodyno santykį ,,platesnis/gimininis terminas”;<br />

• Hiponimai žymi klasės narius, pvz., ,,kreivių šeima” – termino ,,šeima” hiponimas.<br />

Hiponimai panašūs į tradicinio kontroliuojamo žodyno santykį ,,siauresnis/rūšinis<br />

terminas”);<br />

• Holonimai - tai visumos, kurios dalis yra meronimas pavadinimas. Holonimas tai<br />

pavadinimas visumos, kuri turi dalis (pvz., šeima turi narius: vaikai, tėvai, seserys ir pan.).<br />

Holonimai taip pat panašūs į ,,platesnio termino” santykį;<br />

• Meronimai - kažko sudedamosios dalys ar nariai, pvz., ,,sesuo” tai ,,šeimos” meronimas.<br />

Meronimai taip pat panašūs į ,,siauresnio termino” santykį);<br />

• Antonimai turi priešingą reikšmę. Pvz., ,,šaltas” ir ,,karštas” yra antonimai. Tradiciniuose<br />

kontroliuojamuose žodynuose jie paprastai nėra fiksuojami.<br />

Kiekvienas žodis gali būti priskirtas 5 kategorijoms ir gali turėti daugelį skirtingų reikšmių.<br />

Pvz., romance.<br />

Key: "S:" = Show Synset (semantic) relations, "W:" = Show Word (lexical) relations<br />

Noun<br />

• S: (n) love affair, romance (a relationship between two lovers)<br />

• S: (n) romanticism, romance (an exciting and mysterious quality (as of a heroic time or<br />

adventure))<br />

• S: (n) Romance, Romance language, Latinian language (the group of languages derived<br />

from Latin)<br />

• S: (n) love story, romance (a story dealing with love)<br />

• S: (n) romance (a novel dealing with idealized events remote from everyday life)<br />

16


Verb<br />

• S: (v) woo, court, romance, solicit (make amorous advances towards) "John is courting<br />

Mary"<br />

• S: (v) romance (have a love affair with)<br />

• S: (v) chat up, flirt, dally, butterfly, coquet, coquette, romance, philander, mash (talk or<br />

behave amorously, without serious intentions) "The guys always try to chat up the new<br />

secretaries"; "My husband never flirts with other women"<br />

• S: (v) romance (tell romantic or exaggerated lies) "This author romanced his trip to an<br />

Adjective<br />

exotic country"<br />

• S: (adj) Romance, Latin (relating to languages derived from Latin) "Romance languages"<br />

Atliekant paiešką pagal reikšminius žodžius naudojant lingvistines ontologijas, pradžioje<br />

išduodami dokumentai, kurie tiksliai atitinka pateiktus terminus pvz., šeimos krizė. Jeigu rezultatas<br />

netenkina, sistema gali siūlyti kitus variantus, kaip antai:šeimynos krizė, namiškių krizė, namų krizė,<br />

giminės krizė, terminą ,,krizė” keisti terminu ,,kritinė situacija”, toliau galėtų eiti šeimos padėtis,<br />

šeimos situacija, santuokos krizė, poros krizė ir t.t. Tokiu būdu plati ontologija gali išplėsti<br />

pilnateksčių dokumentų paieškos pagal reikšminius žodžius galimybes.<br />

17


2. Dalykinė teminė dokumentų analizė ir indeksavimo procesas<br />

Tvarkant ir organizuojant informaciją, yra atliekama informacijos vienetų(dokumentų)<br />

dalykinė teminė analizė, kurios pagrindu jie yra indeksuojami, t. y. parengiama dokumento paieškos<br />

charakteristika arba metaduomenys. Informacijos vieneto tvarkybos rezultatas gali būti<br />

klasifikacijos indeksas, dalykinė rubrika, deskriptorių sąrašas.<br />

Indeksavimo procesą reglamentuoja ISO -5963-1985 E standartas Documentation – Methods<br />

for examining documents, determining their subjects and selecting indexing terms.<br />

Standarte nurodyta, kad indeksavimo procesą sudaro trys etapai, kurie praktikoje dažnai<br />

persidengia ir vyksta vienu metu:<br />

• dokumento analizė ir jo dalyko/temos nustatymas;<br />

• svarbiausių dalyką/temą apibūdinančių sąvokų išaiškinimas;<br />

• šių sąvokų išreiškimas indeksavimo kalbos terminais (konkrečios IPK leksiniais vienetais).<br />

Šiame etape natūralios kalbos žodžiai išverčiami į naudojamą IPK.<br />

Dalykinę (teminę) analizę visų pirma sudaro konceptualioji informacijos vieneto<br />

(dokumento) analizė. Konceptualioji analizė tai nustatymas, apie ką yra objekto intelektualusis<br />

turinys, arba koks tas objektas yra.<br />

Analizuojant apie ką yra informacijos vienetas, reikėtų siekti išsiaiškinti tris pagrindinius<br />

klausimus:<br />

• kas tai?<br />

• kam tai reikalinga/skirta?<br />

• apie ką tai?<br />

Atsakant į pirmą klausimą, reikėtų nurodyti kurią nors pagrindinių žinijos formų/kategorijų:<br />

istorija, filosofija, technika ir pan.<br />

Remiantis pirmuoju atsakymu, galima atsakyti į antrąjį: ar informacija skirta veterinarui, ar<br />

zoologui?<br />

Atsakant į trečią klausimą nurodoma tema. Kita vertus, dalykinėje analizėje reikia atsižvelgti<br />

į teksto pobūdį (struktūra ir laikmena) ir į dėstymo pobūdį (požiūris, rašymo stilius, auditorija,<br />

intelektinis lygis).<br />

Nustatyti apie ką yra informacijos vienetas nėra lengva. Ne visada ir ne kiekvienas<br />

informacijos vienetas turi aiškiai identifikuojamą ,,apie-ybę” (angl. aboutness). ,,Apie-ybė” gali<br />

turėti daugybę aspektų ir atsakant į klausimą apie ką tai dažnai tenka išvardyti ne vieną.<br />

18


Nors kai kurie informacijos vienetai atrodo turi lengvai įvardijamą dalyką, iš tikrųjų viskas<br />

nėra taip paprasta. Pvz. knyga ,,Sociologijos istorija” skirta sociologijai, bet tiksliau kalbant tai<br />

knyga apie sociologiją istorijos požiūriu, tačiau tai nėra knyga apie istoriją. Gali būti, kad kitu metu<br />

ar kitoje vietoje, šios knygos dalyku galėtų būti laikoma istorija.<br />

Kartais teigiama, kad nemažai sunkumų kyla ir atsakant į klausimą “Kam tai<br />

reikalinga/skirta?”. Pvz., jau minėta knyga ,,Sociologijos istorija” yra apie sociologiją, kuri<br />

pateikiama istorijos perspektyvoje. ,,Įvado į sociologiją” tema taip pat yra sociologija, bet abu šie<br />

šaltiniai yra labai skirtingi. Vartotojas, ieškantis ,,Įvado į sociologiją” nebus patenkintas gavęs<br />

,,Sociologijos istoriją”. Atsakydami į klausimą apie informacijos paskirtį, galime išvengti tokių<br />

nesusipratimų.<br />

Dar vienas svarbus aspektas nustatant dalyką yra kultūrinė aplinka ir išsilavinimas.<br />

Akivaizdu, kad Rytų ir Vakarų kultūrų atstovai daugelį dalykų mato ir vertina skirtingai.<br />

Konceptualiosios analizės rezultatas priklauso ir nuo taikomų metodų.<br />

Taikant tikslinį metodą siekiama nustatyti autoriaus tikslą ar sumanymą. Kai kurie autoriai<br />

nurodo savo kūrinių tikslinę paskirtį, tačiau dažnai tokios informacijos nėra, arba nurodomi net keli<br />

tikslai. Taikant pagrindinio dalyko metodą, bandoma nustatyti centrinį objektą, kuris iškyla virš<br />

likusios informacijos. Kita vertus, centrinio objekto išskyrimas priklauso nuo indeksuotojo ir kūrėjo<br />

požiūrio, asmeninės nuostatos ar suinteresuotumo. Net to paties asmens požiūris gali pasikeisti per<br />

kelias savaites.<br />

Objektyvumo metodas (beje dažniausiai naudojamas atliekant kompiuterinę konceptualiąją<br />

analizę) paremtas statistikos duomenimis apie dažniausiai naudojamus terminus. Deja, dažnai<br />

naudojamas terminas gali įvardinti foninius arba susijusius dalykus (pvz., knygoje apie Antrą<br />

pasaulinį karą bus nuolat minima Vokietija). Kita vertus, terminas tiksliai apibūdinantis, apie ką yra<br />

informacijos vienetas gali būti nė karto nepaminėtas. (pvz., knygoje apie kurio nors žinomo asmens<br />

politinę karjerą, toks žodis gali būti nepanaudotas). Taikant atrankos ir atmetimo vienybės metodą,<br />

ieškoma, kas jungia kūrinį į vieną visumą, suriša, kas buvo pasakyta (atranka) ir nepasakyta<br />

(atmetimas). Kita vertus, indeksuotojas turėtų būti objektyvus ir turėti pakankamai daug žinių apie<br />

objektą, kad pajėgtų nustatyti, kas buvo atmesta.<br />

Akivaizdu, kad vieno teisingo būdo nustatyti apie ką yra informacijos vienetas nėra. Galima<br />

naudoti vieną kurį ar visus minėtus metodus, tačiau pakeitus metodą gali pakisti ir rezultatas. Vienas<br />

ir tas pats asmuo gali gauti skirtingą rezultatą naudodamas skirtingus metodus, o keli asmenys<br />

naudojantys tą patį metodą taip pat gali gauti skirtingą rezultatą.<br />

19


Dar daugiau keblumų kelia netekstinės informacijos vienetų ,,apie-ybės” nustatytas. Šiuo<br />

atveju galima taikyti kelis konceptualiosios analizės lygius:<br />

• teminę aprėptį rodančių sąvokų ar jų grupių identifikavimas;<br />

• bendras apibūdinimas ir pavaizduotų objektų ar scenų išvardijimas;<br />

• su pavaizduotais objektais ar scenomis susijusios teminės ar ikonografinės reikšmės<br />

nustatymas ir interpretavimas.<br />

Tvarkant meno kūrinius lengviausia išvardinti objektus ir scenas. Be to, galima nustatyti<br />

dalykinę sąvoką (pvz., mūšio scenos pavaizdavimas) arba iš darbo antraštės nustatyti konkretų<br />

dalyką (pvz., Žalgirio mūšis). Daug sunkiau nustatyti muzikos kūrinių dalyką apibūdinančias<br />

sąvokas ar išvardinti, kas pavaizduota. Pakankamai paprasta nusakyti, kaip objektas atrodo, bet<br />

interpretavimo reikalingos teminės ar ikonografinės netekstinės informacijos vienetų<br />

identifikavimas reikalauja specialaus rengimo.<br />

ISO gairėse pažymima, kad atliekant dalykinę teminę informacijos vieneto analizę, nėra<br />

tikslingą skaityti visą dokumentą. Kita vertus, indeksuotojas turėtų užtikrinti, kad naudinga<br />

informacija nebus praleista. Todėl nurodomos pagrindinės dokumento dalys, kurioms reikia skirti<br />

ypatingą dėmesį:<br />

antraštė; santrauka; turinys; įvadas, pirmieji skyriai, paragrafai ir išvados; iliustracijos, diagramos,<br />

lentelės ir jų pavadinimai; pabraukti ir kt. išskirti žodžiai ir žodžių junginiai.<br />

Daugiausiai informacijos duoda antraštė ir santrauka, tačiau jos dažnai gali klaidinti, pvz.,<br />

antraštė gali būti abstrakti, ji visada bus subjektyvi, o santraukos negalima laikyti pakankamu viso<br />

dokumento pakaitalu. Turinys padeda išaiškinti dalyką ar temą ir identifikuoti potėmes, aspektus.<br />

Turinys ypač svarbus tvarkant straipsnių rinkinius, konferencijų medžiagą ir pan. Įvade, pirmuose<br />

skyriuose ir išvadose autoriai ar sudarytojai pristato tikslus, paskirti, apibendrina pateiktą<br />

informaciją. Iliustracijos, lentelės, jų pavadinimai ypač svarbūs tokiose srityse kaip menas, nes<br />

padeda lengviau ir tiksliau nustatyti informacijos ,,apie-ybę”.<br />

Antrajame etape indeksuotojas nustato pagrindines išaiškinto dalyko sąvokas. Šiame etape<br />

dokumento dalykas formuluojamas natūralios kalbos žodžiais, frazėmis.<br />

Gairėse pabrėžiama, kad terminai, kuriuos pasirenka ar atmeta indeksuotojas priklauso nuo<br />

indeksavimo tikslo. Pasirenkant sąvokas būtina atsižvelgti į tai, ar jos gali būti naudingos<br />

potencialiems sistemos vartotojams. Kita vertus nereikia pamiršti, kad sistema gali naudotis ir kitų<br />

20


grupių vartotojai, taigi dokumento dalyko arba temos nereikėtų interpretuoti pernelyg siaurai, todėl<br />

sąvokų skaičiaus riboti nereikia.<br />

Pasirenkamų sąvokų pobūdis ir jų kiekis priklauso nuo pasirinkto indeksavimo išsamumo.<br />

Išsamumas tai - analizės metu nustatomų dalykų ir aspektų skaičius. Išsamumas gali būti dviejų<br />

lygių: gilusis ir apibendrinantis. Giliuoju indeksavimu siekiama išgauti visas pagrindines dokumente<br />

aptariamas sąvokas, temas ir potėmes. Apibendrinant apsiribojama svarbiausiais, bendraisiais<br />

dalykais.<br />

Bibliotekose knygų ir serialinių leidinių indeksavimas tradiciškai yra apibendrinančio lygio,<br />

giliau indeksuojami straipsniai, knygų skyriai.<br />

Indeksavimo išsamumas įtakoja paieškos pilnumą ir tikslumą.<br />

Pilnumas – a : (a + b) x 100 %, kur<br />

a - visi išduoti relevantūs dokumentai;<br />

b – visi neišduoti relevantūs dokumentai;<br />

Tikslumas - a : (a + c) x 100 %, kur<br />

a - visi išduoti relevantūs dokumentai;<br />

c – visi išduoti nerelevantūs dokumentai;<br />

Gilusis indeksavimas didina tikslumą, nes naudojami tikslesni ir specifiškesni terminai.<br />

Apibendrinimas paprastai didina pilnumą, nes paieškos terminai yra platesni. Apibendrinimas labai<br />

naudingas ir plačiai taikomas apčiuopiamų išteklių paieškai (knygų, CD, vaizdajuosčių, žurnalų ir<br />

pan.).<br />

Ieškant elektroninių išteklių (neapčiuopiamų), atsirandą naujų iššūkių. Ieškant tinkle, tam<br />

tikrą žodį turintis informacijos vienetas bus išduotas pagal analogišką paieškos žodį, net jeigu<br />

pastarasis neatspindi jo dalyko ar temos. Dėl tokio žodžių buvimu pagrįsto išdavimo kriterijaus<br />

ženkliai išauga pilnumas, bet sumažėja tikslumas.<br />

Kitas svarbus aspektas nustatant indeksavimo išsamumo lygį - ką laikyti analizės vienetu.<br />

Tradiciškai tai yra bibliotekos ar archyvo fonde saugomi ištekliai. Internete tokio analizės vieneto<br />

apibrėžimo nėra; tai gali būti elektroninis žurnalas, straipsnis, tinklalapis su visomis nuorodomis ir<br />

ryšiais, individualus tokio tinklalapio elementas. Neatsakius į šį klausimą, sudėtinga spręsti, koks<br />

indeksavimo išsamumo lygis gerintų paieškos rezultatus.<br />

Kitas antrojo indeksavimo etapo uždavinys: sąvokų identifikavimas arba atpažinimas<br />

21


Informacijos vienetų dalykais gali būti įvairių rūšių sąvokos. Tai gali būti temos arba<br />

dalykai; pavadinimai (asmenvardžiai, kolektyvų pavadinimai, geografiniai pavadinimai, kiti –<br />

pastatų, architektūrinių/archeologinių vietovių ir pan.); laikotarpiai, formos.<br />

Temos. Dauguma žmonių informacijos dalyko apibūdinimui pasirenka temą ar dalyką<br />

nusakantį terminą. Tema/dalykas gali būti konkreti ir abstrakti. Paprastai tai - pagrindinis<br />

dokumento dėmesio objektas, tai gali būti viso informacijos vieneto tema.<br />

Pavadinimai. Dokumento dalykas, ar kuris dalyko aspektas. Tai gali būti asmuo, kolektyvas<br />

ar institucija, teritorija, ar kita pavadinimą turinti esybė.<br />

Mes galime turėti dokumentą apie rašytoją, mokslininką, visuomenės veikėją; biblioteką,<br />

ministeriją, žvejybos įmonę. Dokumentas gali būti apie vietovę (Žemaitija), miestą (Vilnius).<br />

Ypatingą kategoriją sudaro konkrečių esybių pavadinimai (Rasų kapinės, Žaliasis tiltas, Paryžiaus<br />

panteonas).<br />

Laikotarpiai. Laikotarpiai tai - svarbus teminės dalykinės informacijos elementas.<br />

Laikotarpis konkretina ir (arba) susiaurina dalyko apimtį. Pvz., dokumente apie prieigą prie<br />

informacijos taikant kompiuterius 8 – ame dešimtmetyje nebus informacijos apie internetą.<br />

Laikotarpiams žymėti dažnai naudojami jų pavadinimai – Antrasis pasaulinis karas, Renesansas ir<br />

pan..<br />

Forma. Galiausiai nustatoma informacijos vieneto ar jo dalies forma. Formos nustatymas<br />

nepakeičia dokumento temos arba dalyko, bet gali iš esmės pakeisti požiūrį į jį ar pristatymo būdą.<br />

Formą apibūdina tie terminai, kurie skirti konkrečių rūšių ar žanrų medžiagai apibūdinti.<br />

Nustatant informacijos vieneto formą, atsižvelgiama į:<br />

• fizines charakteristikas (vaizdajuostės, nuotraukos, žemėlapiai ir pan.);<br />

• konkretų juose esančių duomenų tipą (bibliografijos, klausimynai, statistika);<br />

• informacijos pateikimo būdą (dienoraščiai, apžvalgos, rodyklės);<br />

• stilių, paskirtį, tikslinę auditoriją (romanas, komiksas, vadovėlis).<br />

Formos ir dalyko atskyrimas šiuo metu ypač svarbus, nes vis daugiau tenka organizuoti<br />

netekstinės informacijos. Pvz., muzikoje formos identifikavimas visada buvo labai svarbus. Dabar<br />

vis daugiau yra ieškoma kitokių informacijos formų, pvz., piešinių, skaitmeninių žemėlapių,<br />

skulptūrų reprodukcijų. Atskiriant formą nuo turinio, lengviau kurti sistemas, leidžiančias ieškoti<br />

informacijos formų. Naujausios metaduomenų sistemos turi specialiai formai skirtas kategorijas,<br />

pvz., ,,Išteklių tipas” ir ,,Formatas” Dublin Core metaduomenų formato standarte.<br />

22


Trečiasis etapas - vertimas iš natūralios kalbos į konkrečią indeksavimo kalbą, t.y.<br />

konceptualiosios analizės rezultatų atvaizdavimas kataloguotojo, klasifikuotojo ar indeksuotojo<br />

naudojamos schemos (klasifikacijos, rubrikyno, tezauro) leksiniais vienetais. Tai reiškia, kad jeigu<br />

yra naudojama UDK, sąvoka turi patekti į tam tikrą dešimtainės hierarchinės struktūros vietą. Jeigu<br />

naudojamas rubrikynas ar tezauras, informacijos vieneto turinį reikia suformuluoti sakiniu, tada<br />

išskiriami svarbiausi šio sakinio terminai, kurių atitikmenys esantys kontroliuojamame žodyne<br />

naudojami sąvokoms išreikšti. Tuo būdu dalykinės analizės rezultatas gali būti klasifikacijos<br />

indeksas(ai), dalykinė(s) rubrika(os) ar deskriptorius(ių) sąrašas. Pvz. dokumento apie pašte<br />

dirbančių žmonių darbo užmokestį turinys gali būti išreikštas indeksu 656.8: 331.2 (UDK),<br />

deskriptoriais iš tezauro: Darbo užmokestis, paštas, darbuotojai arba DR iš LNB rubrikyno Paštas,<br />

tarnautojai, atlyginimas.<br />

Šiame etape svarbu atsižvelgti į tai, kad kontroliuojamame žodyne gali nebūti reikalingų<br />

leksinių vienetų. Tada indeksuotojas turėtų pasirinkti artimiausią pagal prasmę leksinį vienetą arba<br />

papildyti žodyną nauju terminu.<br />

Specialiai akcentuojama, kad konceptualiosios analizės neturėtų įtakoti žodynas. Pradžioje<br />

atliekama analizė, po to galvojama apie terminus. Negalima ignoruoti dalyko, aspekto, temos, nes<br />

manoma, kad nėra tinkamo termino jiems išreikšti.<br />

Konceptualiosios analizės objektas - idėjos (sąvokos), o ne terminai. Net jeigu indeksuotojo<br />

ir autoriaus terminai sutampa, gali skirtis jų prasmė. Čia praverčia klasifikavimo principų<br />

išmanymas, juk klasifikavimas prasideda nuo sąvokų nustatymo.<br />

Indeksuojant reikia atkreipti dėmesį į: specifinė indeksavimo problemą – nuoseklumą.<br />

Idealiu atveju dokumentui priskirti terminai (indeksai), jų skaičius ir išsamumo lygis neturi<br />

priklausyti nuo indeksuotojo. Taigi du indeksuotojai turėtų išskirti tą pačią ,,apie-ybę” ir išreikšti ją<br />

vienodais terminais iš kontroliuojamo žodyno. Tačiau praktiškai nuoseklumas yra sunkiai<br />

pasiekiamas. Nuoseklaus ,,apie-ybės” nustatymo sunkumus įrodo nemažai specialių tyrimų. Vienas<br />

tokių tyrimų parodė, kad objektui ar sąvokai buvo priskirti vidutiniškai 25,6 teminiai pavadinimai.<br />

Toks rezultatas rodo žmonių nesugebėjimą nustatyti tą pačią dokumento ,,apie-ybę” arba pasirinkti<br />

vienodus natūralios kalbos žodžius nustatytai ,,apie-ybei” išreikšti. Kita vertus indeksavimo<br />

nuoseklumas, o tuo pačiu ir nuspėjamumas yra vienas iš informacijos sistemų kokybės faktorių ir<br />

rodiklių. Šioje vietoje akivaizdi kontroliuojamo žodyno reikšmė: naudojant vienodus<br />

kontroliuojamus žodynus ir jų taikymo taisykles konceptualiosios analizės rezultatas bus išreikštas<br />

nuosekliais indeksais, dalykinėmis rubrikomis ar deskriptoriais.<br />

23


Nuoseklumui pasiekti indeksuotojas turi būti nešališkas, atsisakyti subjektyvumo nustatant<br />

sąvokas ir pasirenkant indeksavimo terminus, turėti indeksuojamų dokumentų srities žinių, palaikyti<br />

tiesioginį ryšį su vartotojais. Kadangi indeksavimo procesas yra susijęs su žmonių priimamais<br />

sprendimais, jis negali būti visiškai nešališkas ir indeksavimo nuoseklumo problema išlieka aktuali<br />

nepaisant visų standartizavimo pastangų.<br />

Indeksavimo kokybę įtakojantys faktoriai. ISO standarte nurodoma, kad indeksavimo kokybė<br />

priklauso nuo šių faktorių:<br />

• indeksuotojo kvalifikacija (profesionalumas) ir patirtis;<br />

• indeksavimo priemonių kokybė.<br />

Greta išskiriamas dar vienas kokybę įtakojantis faktorius. Tai - indeksavimo politika<br />

(išsamumas ir tikslumas). Indeksavimo politiką apibūdina iš anksto apibrėžtas indeksavimo<br />

išsamumas ir tikslumas.<br />

Terminų skaičius<br />

Dalykinių rubrikų ar deskriptorių priskiriamų vienam dokumentui skaičius priklauso nuo<br />

daugelio faktorių. Istoriškai šis skaičius kinta. Kortelių kataloguose dalykinių rubrikų skaičiaus<br />

didėjimas turėjo ekonominių pasekmių ir kėlė nepatogumų vartotojams (brangiau kataloguoti ir<br />

peržiūrėti, daugiau vietos laikyti katalogui, vartotojams labai dideliu katalogu sudėtingiau naudotis,<br />

ilgesnė paieška). Viena vertus, kuo daugiau dalykinių rubrikų tuo brangiau indeksuoti, kita vertus –<br />

jeigu reikia priskirti 2, o ne 10, tenka ilgiau svarstyti, ką pasirinkti, kuri geriau atitinka turinį.<br />

Kitas aspektas – kai daugiau terminų lengvinama prieiga prie visų išteklių, daugiau prieigos<br />

taškų, galima išskirti tam tikrus specifinius, netikėtus aspektus.<br />

Indeksavimo tikslumo matas neegzistuoja. Pagrindinis principas buvo suformuluotas dar<br />

XIX a pabaigoje, kai Ch. A. Cutteris sukūrė žodyninio katalogo rengimo taisykles. Šio principo<br />

esmė, kad reikia pasirinkti tiksliausią terminą, kuris apima visą dokumento dalyką, pvz.,<br />

APELSINAI, o ne CITRUSINIAI VAISIAI ir ne VAISIAI arba artimiausią..<br />

Indeksavimo nuoseklumas<br />

Nuoseklumą lemiantys faktoriai :<br />

• rubrikų skaičius;<br />

• žodyno dydis ir tikslumas;<br />

• indeksuotojo asmenybė;<br />

• turimos priemonės (žodynai, žinynai);<br />

24


• tvarkomo teksto dydis;<br />

• indeksuojamo dokumento ir terminų ypatybės (konkretūs objektai - daiktai ir abstraktūs<br />

objektai -idėjos)<br />

Indeksavimas nėra savitikslis procesas. Jo kokybė apibudinama pragmatiškai: tai toks<br />

indeksavimas, kuris leidžia iš duomenų bazės gauti dokumentą, kuris atitinka užklausą ir negauti to,<br />

kuris užklausos neatitinka. Antra vertus, paieškos rezultatą įtakoja daugelis faktorių: vartotojas (kaip<br />

jis suvokia ir formuluoja savo poreikį – užklausos turinys ir struktūra – paieškos strategija –<br />

duomenų bazės turinys - indeksavimo kokybė - žodyno kokybė. Vertindami indeksavimą galime<br />

kalbėti tik apie konceptualiosios analizės, sąvokų nustatymo ir vertimo kokybę.<br />

Galimos klaidos:<br />

• nesugebėjimas atpažinti vartotoją dominančią temą;<br />

• neteisingai suprastas dalykas/tema – neteisingai nustatyta sąvoka;<br />

• nesugebėjimas pasirinkti tiksliausią (siauriausią) rubriką/deskriptorių;<br />

• neteisingos rubrikos/deskriptoriaus pasirinkimas (aplaidumas, neišmanymas).<br />

Gero indeksavimo matas - geri paieškos rezultatai: tinkamas pilnumas ir tikslumas.<br />

Absoliučia prasme vienintelės teisingos paieškos charakteristikos nėra. Blogai, jeigu indeksavimas:<br />

• prieštarauja bendrai politikai (išsamumas);<br />

• ne tiksliausias terminas;<br />

• neteisingas terminas;<br />

• terminas praleidžiamas.<br />

Indeksavimą įtakoja šie faktoriai:<br />

indeksuotojas žodynas dokumentas procesas aplinka<br />

Dalyko/temos<br />

išmanymas;<br />

poreikių<br />

žinojimas;<br />

patirtis;<br />

koncentracija;<br />

teksto<br />

skaitymas ir<br />

suvokimas<br />

tikslumas;<br />

dviprasmiški<br />

terminai (be<br />

pastabų);<br />

struktūra<br />

(nuorodos);<br />

pagalbinės<br />

priemonės<br />

dalykas;<br />

sudėtingumas;<br />

kalba (rusų ar<br />

aiškumas);<br />

apimtis;<br />

dėstymas;<br />

apibendrinimas<br />

taisyklės ir<br />

instrukcijos;<br />

dalykinamų<br />

dok. skaičius;<br />

išsamumas;<br />

temperatūra;<br />

apšvietimas;<br />

triukšmas<br />

25


3. Kontroliuojami žodynai. Tezaurai, kaip leksikografinės kontrolės užtikrinimo<br />

priemonė<br />

Tezaurai, jų paskirtis ir funkcijos<br />

Tezauras – tai kontroliuojamas žodynas, kuris užtikrina sistemoje naudojamų terminų<br />

leksikografinę kontrolę ir jų naudojimo nuoseklumą.<br />

Toks žodynas – tai sisteminės struktūros žodžių ir žodžių junginių sąrašas, kurio tikslas<br />

vienareikšmiškai atspindėti dokumentų sistemoje esamų dokumentų ir joje atliekamų paieškų<br />

konceptualų turinį. Pagrindinis tezauro leksinis vienetas – deskriptorius.<br />

Tezauras (arba deskriptorių žodyno) – informacijos tvarkybos ir paieškos įrankis: tam tikroje<br />

sistemoje vartotinų žodžių ir pasakymų sąrašas drauge su jų ryšiais, variantais, sinonimais, tezauro<br />

naršymo priemonėmis.<br />

Tezauras yra ideografinis žodynas. Kita žodynų rūšis – leksikografiniai. Ideografiniuose<br />

žodynuose leksiniai vienetai grupuojami pagal išraiškos (parašymo) panašumą. Tokiuose žodynuose<br />

einama nuo žodžio prie prasmės. Tai – įvairių kalbų žodynai, pvz., lietuvių – anglų kalbų žodynas.<br />

Ideografiniuose žodynuose leksiniai vienetai grupuojami pagal prasmės artimumą, t.y.<br />

einama nuo prasmės prie konkretaus žodžio. Ideografiniai žodynai sudaromi jau daugelį šimtmečių.<br />

Didžiausią poveikį ir postūmį kurti ideografinius žodynus padarė P. M. Roget‘o ,,Anglų kalbos<br />

žodžių ir pasakymų tezauras“ (angl. Thesaurus of English words and phrases, 1852). Tai klasikinis<br />

tradicinio tezauro arba sinonimų žodyno pavyzdys. Šiame žodyne einama nuo vieno termino prie<br />

kito sinonimiško. Šio žodyno paskirtis - rasti žodį, kuris geriausiai perteikia pranešimo prasmę.<br />

26


Termino ,,Smallness“ struktūra ir reikšmės iš Roget‘o tezauro.<br />

http://machaut.uchicago.edu/?action=search&resource=Roget%27s&word=small&searchtype=head<br />

word<br />

XX a. antroje pusėje atsiranda naujo tipo – informacijos paieškos tezaurai. Nors tezauras –<br />

tai ideografinis žodynas, tačiau jis veikia priešingai, negu lingvistinis tezauras. Šiame žodyne daug<br />

sinonimų apjungiami vienu žodžiu ar žodžių junginiu.<br />

Ilgą laiką tokius tezaurus naudojo sistemų kūrėjai, IT specialistai, bibliotekininkai. Išplitus<br />

internetui, tezaurų, kaip kontroliuojamų žodynų reikšmė vėl ima augti.<br />

Tezaurų, kaip ir kitų kontroliuojamų žodynų reikšmė susijusi su natūralios kalbos<br />

ypatybėmis, t.y. jos trūkumais informacijos tvarkybos ir ieškos požiūriu. Svarbiausias jų tai, kad<br />

dokumentų arba informacijos vienetų autorių ir vartotojų, ieškančių šių dokumentų kalba, dažnai<br />

būna nevienoda. Tezaurų naudojimas ypač svarbus ir naudingas, kai kuriamos duomenų bazės<br />

jungiamos į informacines sistemas. Norint „susikalbėti” su partneriais, būti teisingai suprastiems ir<br />

tiksliai suprasti kitus, privalu naudoti tą patį žodyną. Tezaurus informacijos ir duomenų tvarkybai ir<br />

ieškai naudoja daugelis organizacijų. Kuriami universalūs, šakiniai ir specialūs mikro tezaurai.<br />

Tezaurai taip pat dažnai tampa paieškos ir yra navigacijos elektroninėse duomenų bazėse<br />

įrankiai. Jie yra nepakeičiami norint tiksliai įvardinti paieškos tikslą ir greitai surasti ieškomus<br />

duomenis. Atlikdamas paiešką vartotojas dažnai tezauro nemato arba net nežino, kad toks žodynas<br />

27


yra naudojamas. Sistemoje vartotojo įvesti reikšminiai žodžiai gali būti automatiškai pakeičiami<br />

deskriptoriais. Be to, naudojant tezaurą vartotojo nurodomi terminai gali būti automatiškai susieti su<br />

platesniais, siauresniais ar asociaciniais terminais iš tezauro.<br />

Tezaurų funkcijos:<br />

• Vertimas iš natūralios kalbos į deskriptorinę. Tezauras parodo, kurį terminą<br />

naudoti kiekvienai sąvokai apibrėžti;<br />

• Informacijos/duomenų paieškai naudingų loginių ryšių ir santykių atspindėjimas;<br />

• Atitinkamos srities terminijos standartizavimas ir norminimas.<br />

Tuo būdu tezaurų naudojimas užtikrina:<br />

• Terminų naudojimo nuoseklumą – terminai teikiami ir formuluojami pagal visiems žinomas<br />

taisykles;<br />

• Ryšių tarp leksinių vienetų nustatymą ir fiksavimą - rodo terminų prasmės ryšius;<br />

• Dokumentų paiešką - tezauras naudojamas kaip informacijos paieškos įrankis.<br />

Tezaurai gali būti universalūs (visų mokslo sričių) ir specializuoti (vienos ar kelių mokslo<br />

sričių). Rengiami vienos kalbos ir daugiakalbiai tezaurai.<br />

Tezaurų rengimą reglamentuoja Tarptautinės standartų organizacijos standartai:<br />

ISO 2788 – 1986 – Guidelines for the establishment and development of monolingual<br />

thesauri (Vienakalbio tezauro nustatymo ir sudarymo gairės).<br />

ISO 5964 – 1985 – Guidelines for the establishment and development of multilingual<br />

thesauri (Daugiakalbio tezauro nustatymo ir sudarymo gairės).<br />

Tezaurų struktūra ir fiksuojami santykiai<br />

Tezauras tai - abėcėlinis deskriptorių ir reikšminių žodžių sąrašas.<br />

Deskriptorius ir reikšminius žodžius (nedeskriptorius) tezaure jungia sinonimijos arba<br />

ekvivalentumo santykiai.<br />

Ekvivalentumas gali būti tikrasis (imanentinis, pvz.: defektas - yda, kiškis - zuikis,<br />

malūnsparnis -sraigtasparnis, Lietuvos Nacionalinė biblioteka - LNB ir artimas fakultatyvusis, pvz.:<br />

straipsnis -ataskaita, oras - atmosfera, katalogas – kartoteka, vertybinių popierių rinka – finansų<br />

rinka. Deskriptoriaus ir nedeskriptoriaus ekvivalentumo santykiai nurodomi tokiais sutrumpinimais:<br />

- UF (angl. Used for – vartojamas vietoj). Ši santrumpa rodo deskriptoriaus ir<br />

nedeskriptoriaus, kuriam jis atstovauja, santykius. Pavyzdžiui:<br />

Malūnsparnis<br />

28


UF helikopteris<br />

- USE (naudok) reiškia nedeskriptoriaus ir deskriptoriaus, kurį jis pakeičia santykius.<br />

Pavyzdžiui:<br />

helikopteris<br />

USE malūnsparnis.<br />

Pagrindiniai prasmės santykiai tarp deskriptorių:<br />

- giminė – rūšis (bendra/plati ir specifinė/siaura sąvoka), pvz.: baldai – stalai; gėlės –<br />

ratiliai; sostinės – Vilnius. Jie dar gali būti vadinami hierarchiniais arba pavaldumo santykiais. Šie<br />

santykiai paprastai žymimi santrumpomis BT (angl. Broader term - platesnis terminas) ir NT<br />

(narrower term - siauresnis terminas).<br />

- asociatyvūs santykiai. Jiems žymėti naudojama santrumpa RT ( angl. Related term –<br />

susijęs terminas). Asociatyvūs santykiai būna įvairių rūšių:<br />

Objektas – instrumentas (temperatūra - termostatas);<br />

Objektas – vieta (ligonis - ligoninė);<br />

Objektas – funkcija (biblioteka – knygų išdavimas)<br />

Veiksmas – objektas – rezultatas (mezgimas – siūlai - megztinis);<br />

Panašūs objektai/artimumas (arklys, asilas, mulas);<br />

Veikėjas – veiksmas (vagis - vagystė);<br />

Disciplina – objektas (ornitologija - paukštis);<br />

Priešingybės (judėjimas - ramybė);<br />

Gretimumas (žiema - sniegas);<br />

Visuma – dalis (knyga – viršelis).<br />

Asociatyvūs santykiai visada yra simetriški, pvz.:<br />

įsiskolinimas<br />

RT mokumas<br />

mokumas<br />

RT įsiskolinimas<br />

Apibrėžiantys žodžiai (angl. Qualifiers)<br />

Skliausteliuose nurodomi apibrėžiantys žodžiai homonimų dviprasmiškumui pašalinti ir<br />

terminų, kurių naudojimas konkrečiame kontekste gali įnešti painiavos, prasmei sukonkretinti.<br />

Apibrėžiantys žodžiai tampa deskriptoriaus dalimi ir turi būti įtraukiami indeksuojant ar<br />

atliekant paiešką. Pvz.:<br />

29


gynyba (teisė)<br />

gynyba (karyba)<br />

Vartojimo pastabos (angl. Scope note)<br />

Vartojimo pastabos naudojamos, kai reikia paaiškinti specialaus termino reikšmę, paaiškinti,<br />

kaip toks terminas naudojamas arba apriboti termino naudojimo sritį. Kartais pastabos tikslas yra<br />

įspėti vartotoją, kad tikslingiau būtų naudoti kitą terminą. Pastabos žymimos santrumpa SN.<br />

Pavyzdžiui:<br />

Sovietų Sąjunga<br />

SN: naudojamas 1922-1991; panaikintas 1991.<br />

Hierarchinių santykių tarp deskriptorių fiksavimas užtikrina galimybę plėsti ir/arba siaurinti<br />

paiešką pasirenkant patį tiksliausią terminą. Tezaure naudojamos nuorodos į sinonimus leidžia rasti<br />

alternatyvius paieškos terminus, o asociatyvių terminų fiksavimas rodo sąvokų ryšius.<br />

Tezaurų rengimas ir vertinimas<br />

Paprastai išskiriami šie tezauro rengimo etapai:<br />

• Terminų atranka ir jų įtraukimas į reikšminių žodžių sąrašą. Paprastai terminai yra<br />

atrenkami iš tam tikros mokslo krypties dokumentų, atliekant pirminį indeksavimą. Šiame etape tarp<br />

terminų ryšiai nėra nustatomi (dedukcinis metodas). Naudojant indukcinį metodą, nauji terminai<br />

įtraukiami į tezaurą iš karto nustatant termino priklausomybę vienai ar keletui kategorijų ir<br />

formuojant atitinkamus ryšius. Gali būti derinami abu terminų atrankos būdai.<br />

• Terminų verifikavimas. Prieš įtraukiant terminą į reikšminių žodžių sąrašą ir (arba)<br />

tezaurą turi būti atliekamas jo patikrinimas. Tam naudojami žinynai ir enciklopedijos, jau<br />

egzistuojantys tezaurai, klasifikatoriai, techninių žurnalų rodyklės, referatinių leidinių rodyklės,<br />

naujausi žinynai, galima konsultuotis su specialistais.<br />

• Reikšminių žodžių deskriptorizavimas. Šiame etape vyksta atrinktų terminų<br />

norminimas ir sąlyginio ekvivalentumo klasių formavimas, kai iš sinonimiškų ar sąlygiškai<br />

sinonimiškų terminų atrenkami plačiausiai naudojami, stilistiškai neutralūs tokias klases<br />

atstovaujantys žodžiai.<br />

• Deskriptorių klasių formavimas ir užrašymas. Tezauro apiforminimas. Kiekvienas<br />

tezauro leksinis vienetas pateikiamas tam tikra griežtai nustatyta tvarka. Prie jo nurodomi: sinonimai<br />

ir kiti atitiktiniai terminai, naudojimo pastabos, platesni, siauresni ir susiję terminai. Prie termino<br />

gali būti pateikiamas jo apibrėžimas ar kiti reikalingi paaiškinimai. Specialios tezaurų kūrimų<br />

30


programos labai palengvina termino įrašymo darbus automatiškai sukurdamos atvirkštinius ryšius ir<br />

neleisdamos skirtingų sąvokų reikšti taip pačiais terminais, atitiktinių terminų naudoti ten kur turi<br />

būti rašomi tik patvirtinti terminai ir t.t.<br />

• Tezauro kūrimas yra tęstinis procesas, kadangi kiekvienoje mokslo srityje ar kryptyje<br />

vyksta pokyčiai: atsiranda nauji terminai ar kinta jai reiškiamų sąvokų ribos. Į tezaurą nuolat turi<br />

būti įtraukiami nauji terminai (paprastai taikant indukcinį metodą), pašalinami seni, neteiktini<br />

terminai.<br />

Vertinant parengtus tezaurus siūloma atsižvelgti į tokius kriterijus:<br />

• Terminologija: ar atitinka mokslo sritį, nuolat atnaujinama ir tiksli?<br />

• Apimtis: ar tinkamai apibūdina mokslo sritį, nėra per plati ar per siaura?<br />

• Suskirstymas: ar prasmingas suskirstymas į temas?<br />

• Apibrėžimai ir pastabos: ar pakankamai išsamiai ir aiškiai apibūdina terminus?<br />

• Nuorodos: ar pakankamos pagal skaičių ir formą?<br />

• Formatas: ar aiškus pateikimas?<br />

• Klasifikacija: ar suderintas su kuria nors klasifikacijos schema?<br />

31


4. Svarbiausi humanitarinių ir socialinio mokslų srities tezaurai<br />

Tezaurus informacijos ir duomenų tvarkybai ir ieškai naudoja daugelis organizacijų. Kuriami<br />

universalūs, šakiniai ir specialūs mikro tezaurai. Sudaromi specialūs elektroninių tezaurų sąrašai 1 .<br />

Rengiami įvairios apimties, paplitimo ir kokybės HSM srities tezaurai. Šioje srityje galima išskirti<br />

ERIC, UNESCO tezaurą, ELSST, Sociologinių terminų tezaurą ir kitus.<br />

ERIC – Informacijos apie švietimo išteklius centras (angl. Education Resources Information<br />

Center) JAV yra virtuali švietimo išteklių ir informacijos<br />

biblioteka.http://www.eric.ed.gov/ERICWebPortal/Home.portal?_nfpb=true&_pageLabel=Thesauru<br />

s&_nfls=false. Informacijai tvarkyti ir paieškai atlikti taikomas ERIC tezauras. Terminai išdėstyti<br />

abėcėlės seka.<br />

Tezaure galima pasirinkti terminą iš abėcėlinio sąrašo arba pagal temą. Pvz., pasirinkus<br />

temą socialinės problemos – social problems, gaunamas sąrašas deskriptorių ir nedeskriptorių, iš<br />

kurių pasirinkus norimą, pvz., sexual abuse, pristatoma hierarchinė deskriptoriaus struktūra iš kurios<br />

galima pasirinkti paieškos terminą. Pasirinkus paiekos terminą, gaunamas dokumentų, atitinkančių<br />

šį dalyką, sąrašas.<br />

1 Koch T., Controlled vocabularies, thesauri and classification systems available in the WWW.<br />

[interaktyvus]. [žiūrėta 2006 m. lapkričio 20 d.]. Prieiga per internetą<br />

http://www.ub2.lu.se/metadata/subject-help.html;<br />

Web Thesaurus compendium[interaktyvus]. [žiūrėta 2006 m. lapkričio 20 d.]. Prieiga per internetą:<br />

http://www.ipsi.fraunhofer.de/~lutes/thesoecd.html<br />

32


UNESCO Tezauras (angl. UNESCO Thesaurus) – tai trikalbis kontroliuojamas šios<br />

organizacijos žodynas, kuris apima šių sričių terminus: švietimo, mokslo, kultūros, humanitarinių ir<br />

socialinių mokslų, informacijos ir komunikacijos, politikos, teisės ir ekonomikos. Be to, į tezaurą<br />

įtraukti valstybių ir įvairių valstybinių grupuočių ar sąjungų (politinių, ekonominių, geografinių,<br />

etninių, religinių ir pan.) pavadinimai. Visų kalbų versijose yra 87 mikrotezauro terminai, 4261<br />

deskriptorius, 4049 atvirkštiniai hierarchiniai ryšiai (BT/NT), 5771 asociatyvūs ryšiai (RT).<br />

Versijoje anglų kalba yra per 2340 atitiktinių terminų ir 600 terminų apibūdinimų. Tezauro paskirtis<br />

– lengvinti indeksavimą bibliotekose, archyvuose ir panašiose institucijose.<br />

Tezauras pristatomas dvejopai: kaip abėcėlinė ir hierarchinė struktūra. Pasirinkus reikiamą<br />

terminą pagal abėcėlę ar iš teminio mikrotezauro, formuluojama užklausa.<br />

UNESCO tezauras naudojamas ir kaip bazinis tezauras kurti panašios tematikos<br />

kontroliuojamus žodynus. Tezauro naudojimo principai ir sąlygos<br />

http://www2.ulcc.ac.uk/unesco/#purc.<br />

33


Europos kalbų socialinių mokslų tezauras (angl. European Language Social Science<br />

Thesaurus -ELSST). Jis yra rengiamas remiantis ISO 2788:1986 ir ISO 5964:1985 standartų<br />

reikalavimais. Jo pagrindą sudaro HASSET (Humanities and Social Science Electronic Thesaurus)<br />

tezauras anglų kalba. Detalus HASSET tezauras buvo sustambintas, nes ELSST tikslas yra sukurti<br />

bendrą ontologiją, kuri konkrečių institucijų poreikiams galėtų būti praplėsta terminais, susijusiais<br />

su kultūriniais ir instituciniais ypatumais. Atlikus dažniausiai UKDA kataloge naudojamų terminų<br />

analizę buvo atrinkti plačiausi terminai: ekonomika, darbas ir įsidarbinimas, politika, politinės<br />

sistemos, socialinės problemos, diskriminacija, požiūriai, probleminės grupės, politinės institucijos,<br />

etninės grupės, gyvenimo sąlygos, socialinė struktūra, duomenys, amžiaus grupės, demografija,<br />

sociologija, socialinis gerbūvis, aplinkosaugos mokslai, edukologija, identitetas, tautiškumas, šeima,<br />

religija, analizė, metodologija, šeimos aplinka. Vėliau, derinant su CESSDA (Council of European<br />

Social Science Data Archives) poreikiais tezauras buvo papildytas kitais plačiais terminais. Šiuo<br />

metu tezaure pakeikta daugiau kaip 3000 terminų vokiečių, danų, graikų, anglų, ispanų, suomių,<br />

prancūzų, norvegų ir švedų kalbomis.<br />

Sociologinių terminų tezauras (angl. Sociological abstracts Thesaurus)<br />

http://www.csa.com/factsheets/supplements/sociothes.php<br />

Atliekant paiešką CSA duomenų bazėse vartotojas turi galimybę pasirinkti sritį, pvz.,<br />

humanitariniai mokslai, menai, socialiniai mokslai ir atitinkamos srities tezaurą norima kalba,<br />

pavyzdžiui, Sociologinių terminų tezaurą ar Politinių mokslų tezaurą anglų kalba. Be to, Tezaurai<br />

pateikiami kaip hierarchinė struktūra, kai abėcėlinis deskriptorių ir nedeskriptorių sąrašas ir kaip<br />

permutacinė rodyklė.<br />

34


Pasirinkus Sociologinių terminų tezauro terminą ,,addiction“, gaunamas sąrašas dokumentų,<br />

kuriame šis terminas buvo naudotas indeksuojant.<br />

35


CSA duomenų bazės yra komercinės, todėl neįsigijus prieigos teisių galima tik bandomoji<br />

paieška.<br />

Europos švietimo terminų tezauras (angl. Thesaurus for Education Systems in Europe-<br />

TESE) yra daugiakalbis edukologijos terminų žodynas, sukurtas bendromis Europos komisijos ir<br />

Europos tarybos pastangomis. http://www.eurydice.org/portal/page/portal/Eurydice<br />

TESE pateikia edukologijos mokslo krypties terminus: švietimo principai ir sistemos,<br />

švietimo politika, švietimo institucijos, mokytojai, mokiniai, pastatai ir mokymo įranga, mokymo<br />

programa ir mokymo dalykai, edukaciniai tyrimai, ugdymo psichologija, sociologija ir ekonomika ir<br />

kt. Daugiakalbis edukologijos terminų tezauras parengtas pagal ISO 5964 1985 standartą. TESE<br />

pateikiami terminai 9 kalbomis.<br />

36


Pasirinkus iš TESE tezauro terminą ,,migracija“ – angl. migration, matome deskriptoriaus<br />

struktūrą, termino atitikmenis devyniomis kalbomis bei informaciją, kad siauresnis deskriptoriaus<br />

,,migration“ terminas ,,country of origin“ buvo panaudotas indeksuojant vieną šioje duomenų bazėje<br />

esantį dokumentą.<br />

EUROVOC. http://www3.lrs.lt/pls/ev/ev.main. Europos žodynas (tezauras) „EUROVOC“ -<br />

tai sisteminis žodžių ir žodžių junginių sąrašas. Jo paskirtis – tiksliai atspindėti dokumentų sistemoje<br />

esančių dokumentų ir joje atliekamų paieškų konceptualų turinį. Tai daugiakalbis tezauras lietuvių,<br />

anglų, vokiečių ir prancūzų kalbomis sudarytas Europos Bendrijos institucijų dokumentų<br />

informacijai apdoroti. Tezauras apima 21 sritį, jį sudaro 127 teminiai mikrotezaurai Jis skirtas<br />

Europos institucijų bibliotekoms, dokumentų tarnyboms ir dokumentų duomenų bazėms bei jų<br />

paslaugų vartotojams. Nors žodyne svarbiausia Europos Sąjunga, vis dėlto tai yra platus daugiašakis<br />

tezauras.<br />

37


Deskriptoriaus ,,pilietinės teisės“ iš EUROVOC tezauro hierarchinė struktūra.<br />

Informacijos tvarkymui ir paieškai duomenų archyvuose naudojami HSM srities<br />

tezaurai<br />

HASSET tezauras<br />

Jungtinės Karalystės duomenų archyvo (United Kingdom Data Archive, toliau UKDA)<br />

Humanitarinių ir socialinių mokslų elektroninis tezauro (Humanities and Social Science Electronic<br />

Thesaurus, toliau HASSET 2 ) pirminis variantas paremtas plačiai žinomu UNESCO tezauru, kurį<br />

parengė Jean Aitchison (Paris: UNESCO, 1977) (ISBN: 92-3-101469-2). Vėliau jis buvo<br />

tobulinamas ir dabar naudojamas UKDA online paieškos sistemoje.<br />

HASSET yra daugiadalykis tezauras. Jį parengė UKDA savo paties tikslams, todėl šio<br />

žodyno turinys ir aprėptis atspindi UKDA poreikius ir išteklius. Plačiausiai ir išsamiausiai<br />

pristatytos pagrindinės socialinių mokslų sritys: politika, sociologija, ekonomika, švietimas, teisė,<br />

nusikalstamumas, demografija, sveikata, užimtumas, ir vis didesnis dėmesys skiriamas<br />

technologijai.<br />

Tezaure mažai naudojami tikriniai daiktavardžiai. Geografiniai pavadinimai naudojami tiek,<br />

kiek jie reikalingi indeksavimui.<br />

2 HASSET thesaurus. In: UK Data Archive. [interaktyvus]. [žiūrėta 2007 m. 2007 m. rugpjūčio 11 d . Prieiga per<br />

internetą http://www.data-archive.ac.uk/search/hassetSearch.asp<br />

38


HASSET sandara ir struktūra atitinka Didžiosios Britanijos standarto (British Standard<br />

5723:1987) ir ISO 2788-1986 - Establishment and development of monolingual thesauri<br />

reikalavimus.<br />

Tezaure fiksuojami įprastiniai santykiai tarp leksinių vienetų (teiktini ir neteiktini terminai,<br />

žymima USE/UF), hierarchiniai santykiai (platesni ir siauresni terminai, žymima BT/NT) ir<br />

asociaciniai santykiai (žymima RT). Apibrėžiančių žodžių ir pastabų naudojimas HASSET atitinka<br />

aukščiau nurodytus principus.<br />

UKDA skatina nekomercinį HASSET taikymą su sąlyga, kad visais tezauro reprodukavimo<br />

ar adaptavimo atvejais bus nurodyta UKDA autorystė.<br />

HASSET termino ,,crime“ struktūra<br />

Pasirinkus susijusį terminą punishment (CRIME RT PUNISHMENT), gaunamas šiai temai<br />

skirtų dokumentų sąrašas.<br />

39


ICPSR Subject Thesaurus 3<br />

JAV politinių ir socialinių tyrimų universitetų konsorciumo (Inter-university consortium for<br />

political and social research) dalykinis tezauras (toliau ICPSR tezauras) buvo parengtas<br />

vadovaujantis Guidelines for the Construction, Format, and Management of Monolingual Thesauri,<br />

Z39.19-1993 (NISO 1993) nuostatomis.<br />

ICPSR tezauras yra daugiadalykis. Jis apima visas ICPSR archyvo sritis: politikos mokslai,<br />

sociologija, istorija, ekonomika, švietimas, teisingumas, gerontologija, demografija, sveikata<br />

apsauga, teisė ir tarptautiniai santykiai.<br />

Asmenvardžiai ir geografiniai pavadinimai nėra tezauro leksiniai vienetai. Šie terminai<br />

įtraukti į specialiai šiam tikslui sudarytus kontroliuojamus sąrašus. ICPSR tezauro įvade pristatomos<br />

pagrindiniai šio žodyno sudarymo principai: daugiskaitos ir vienaskaitos, žodžių junginių,<br />

santrumpų ir akronimų, tikrinių daiktavardžių ir pavadinimų naudojimas.<br />

Tezaure fiksuojami įprastiniai santykiai tarp leksinių vienetų (teiktini ir neteiktini terminai,<br />

žymima USE/UF), hierarchiniai santykiai, kurie atspindi santykius giminė - rūšis, visuma - dalis,<br />

klasė - poklasė. Jie žymimi santrumpa BT/NT. Nehierarchiniai santykiai rodo artimus prasminius,<br />

3 ICPSR Subject Thesaurus. In: Inter university consortium for political and social studies. [interaktyvus]. [žiūrėta 2006<br />

m. lapkričio 20 d.]. Prieiga per internetą http://www.icpsr.umich.edu/thesaurus/index.html<br />

40


ne sinonimiškumo, santykius (žymima RT). Apibrėžiančių žodžių ir vartojimo pastabų naudojimas<br />

ICPSRST atitinka aukščiau nurodytus principus.<br />

Paieška ICPSR bazėje tezaure pasirinkus terminą occupational categories RT employment<br />

qualifications RT job skills<br />

<strong>LiDA</strong> tezauras<br />

<strong>LiDA</strong> tezauro rengimo metodika<br />

Rengiant <strong>LiDA</strong> tezaurą ir pasirenkant jo sudarymo metodiką buvo vadovautasi nuostatomis,<br />

kad <strong>LiDA</strong> dokumentų tvarkybai ir ieškai reikalingas specialus HSM terminų tezauras lietuvių kalba,<br />

kuris turi tapti <strong>LiDA</strong> informacinės sistemos lingvistinio aprūpinimo sudėtine dalimi, užtikrinančia<br />

duomenų archyve saugomų dokumentų apdorojimo nuoseklumą ir aukštą paieškos kokybę.<br />

Atlikus kontroliuojamų žodynų rengimo praktikos Lietuvoje analizę 4 , buvo nuspręsta, kad<br />

<strong>LiDA</strong> terminų tezauro sudarymui geriausia pasinaudoti esamais šios srities tezaurais anglų kalbą ir<br />

pasirinkus tinkamiausią bei plačiausiai HSM srityje naudojamą išversti jį į lietuvių kalbą.<br />

4 Lietuvoje iš esmės nėra originalių tezaurų rengimo patirties. Pirmas ir kol kas vienintelis tezauras<br />

lietuvių kalba – EUROVOC tezauras, skirtas Europos Bendrijos institucijų dokumentų informacijai<br />

tvarkyti. Lietuviškasis šio tezauro variantas yra trečiojo 3.1 Europos Bendrijos oficialių publikacijų<br />

biuro parengto tezauro vertimas. Šis tezauras yra daugiakalbis, greta terminų lietuvių kalba<br />

pateikiami terminai anglų, vokiečių ir prancūzų kalbomis. Tezauras naudojamas LR Seimo<br />

informacijos sistemos dokumentų, visų pirma LR teisės aktų tvarkymui ir paieškai. Kita vertus,<br />

41


Atsižvelgus į pirmoje projekto vykdymo stadijoje tezauro rengėjų atliktos HSM srities<br />

kontroliuojamų žodynų analizės rezultatus, kai buvo analizuojama įvairių šios srities tezaurų apimtis<br />

paplitimas, atitikimas ISO standartams, buvo padaryta išvada, kad tinkamiausias <strong>LiDA</strong> tikslams yra<br />

HASSET tezauras. Jis sudaro lietuviškojo HSM srities tezauro pagrindą.<br />

Antra vertus, konkretūs <strong>LiDA</strong> poreikiai, kaupiamų dokumentų specifika, akademinės<br />

bendruomenės lūkesčiai, lietuvių kalbos ypatybės reikalauja, kad HASSET tezauro leksika būtų<br />

atitinkamai adaptuota. Todėl rengiant <strong>LiDA</strong> tezaurą buvo naudotasi įvairiomis lingvistinėmis<br />

priemonėmis lietuvių kalba: Lietuvos nacionalinės Martyno Mažvydo bibliotekos rubrikynu,<br />

EUROVOC tezauru, terminų žodynais ir kt.<br />

Renkantis tinkamiausią <strong>LiDA</strong> tezauro rengimo modelį buvo nuspręsta, kad atsižvelgiant į<br />

Europos ir pasaulio HSM archyvų šiuolaikinę praktiką, reikėtų rengti ne vienos kalbos, o dvikalbį<br />

anglų – lietuvių kalbų tezaurą.<br />

Tezaurų rengimo verčiant ir adaptuojant esamus kitų kalbų tezaurus galimybes, metodus, jų<br />

privalumus ir trūkumus apibūdina ISO 5964 standartas. Šiame dokumente pristatomi trys<br />

daugiakalbio tezauro kūrimo metodai:<br />

• Ab initio kūrimas: t.y. naujo žodyno kūrimas, nesiremiant jau egzistuojančio tezauro<br />

terminais.<br />

• Jau egzistuojančio vienakalbio tezauro vertimas.<br />

• Dviem ar keliomis kalbom jau egzistuojančių tezaurų derinimas ir jungimas.<br />

Pirmojo metodo privalumas – lengva užtikrinti kalbos neutralumą, t.y. išvengiama<br />

konkrečios kalbos įtakos. Tokio tezauro kūrimo išlaidos yra didelės, kadangi reikia sukurti tezauro<br />

struktūrą, pateikti sąvokų apibrėžimus ir nustatyti atitikmenis įvairiomis kalbomis.<br />

Antrojo metodo didelis privalumas tas, kad nereikia kurti reikšminių žodžių masyvo,<br />

formuoti tezauro struktūros. Didžiausias šio metodo sunkumas tai, kad verčiant ne visada sutampa<br />

terminais reiškiamų sąvokų ribos ir vieną terminą tenka versti keliais kitos kalbos terminais, gali<br />

kadangi tezauras yra daugiadalykis juo gali naudotis ir kitos institucijos, visų pirma Europos<br />

institucijų bibliotekos, dokumentų tarnybos ir dokumentų duomenų bazės bei jų paslaugų vartotojai.<br />

Nors žodyne svarbiausia Europos Sąjunga, vis dėlto tai yra platus daugiašakis tezauras. Šiuo metu<br />

yra rengiamas Archeologijos terminų tezauras.<br />

Lietuvos bibliotekos rengdamos atitinkamus kontroliuojamus žodynus dokumentų tvarkybai ir<br />

ieškai, kaip antai rubrikynus ar hierarchinės struktūros dokumentų klasifikacijas, taip pat naudojasi<br />

kitų nacionalinių ar tarptautinių institucijų parengtais žodynais. Taigi kontroliuojamų žodynų<br />

rengimo Lietuvoje patirtis rodo, kad dažniausiai pasirenkamas atitinkamų tarptautinių žodynų<br />

vertimo į lietuvių kalbą ir adaptavimo būdas.<br />

42


skirtis jų loginiai santykiai, hierarchijos lygis ir pan. Kartais visai nėra kitakalbio atitikmens,<br />

terminų kiekis, jų apimtis gali neatitikti konkrečių atitinkamos sistemos poreikių.<br />

Taikant trečiąjį metodą problemos kyla dėl tezaurų skirtingos hierarchinės struktūros, taip<br />

pat dėl svarbių terminų semantikos skirtumų. Todėl tezauro versijos skirtingomis kalbomis gali<br />

turėti skirtingas hierarchines struktūras.<br />

Nepaisant aukščiau minėtų trūkumų buvo pasirinktas daugiakalbio tezauro rengimo būdas,<br />

t.y. jau egzistuojančio vienakalbio žodyno vertimas į lietuvių kalbą ir jo pildymas bei adaptavimas.<br />

<strong>LiDA</strong> tezauro naudojimas<br />

<strong>LiDA</strong> tezauras tai - dviejų kalbų elektroninis kontroliuojamas žodynas. Žodyne visi terminai<br />

yra anglų ir lietuvių kalbomis. Vartotojai naudodami lietuviškus terminus gali atlikti angliškų tekstų<br />

paiešką ir atvirkščiai.<br />

Tezauras apima daugelį HSM ir kitų mokslo bei praktinės veiklos sričių.<br />

Pagrindinės tezauro sritys:<br />

1. aplinkos apsauga,<br />

2. ekonomika,<br />

3. energetika,<br />

4. darbas ir užimtumas,<br />

5. darbo santykiai,<br />

6. demografija,<br />

7. finansai,<br />

8. gamyba ir technologija,<br />

9. geografija,<br />

10. karyba,<br />

11. komunikacijos,<br />

12. laisvalaikis, sportas ir kultūra,<br />

13. lygios galimybės,<br />

14. medicina,<br />

15. mokslas,<br />

16. politika,<br />

17. pramonė,<br />

18. prekyba,<br />

19. religija,<br />

43


20. socialinė apsauga,<br />

21. socialinė rūpyba,<br />

22. socialiniai klausimai,<br />

23. sociologija,<br />

24. statistika,<br />

25. sveikatos apsauga,<br />

26. šeima ir šeimos ūkis,<br />

27. švietimas ir ugdymas,<br />

28. teisė,<br />

29. transportas,<br />

30. vaikų teisės,<br />

31. verslas,<br />

32. žemės ūkis ir miškininkystė,<br />

33. žemės ūkio ir maisto produktai,<br />

34. žiniasklaida,<br />

35. žmogaus teisės<br />

36. žmonės su negalia<br />

Kai kurios sritys yra pristatytos detaliau, kitos fragmentiškai. Detalumas daugiausiai<br />

priklauso nuo atliekamų HSM srities tyrimų tematikos ir atitinkamos terminologijos poreikių.<br />

Rengiant <strong>LiDA</strong> tezaurą, buvo atsisakyta daugelio Jungtinės Karalystė teritorijų, miestų, kitų<br />

geografinių pavadinimų, taip pat kai kurių Jungtinei Karalystei būdingų daiktų, reiškinių, procesų<br />

pavadinimų. Kai kuriose vietose prie lietuviško termino vartotojas gali rasti pastabą (Jungtinė<br />

Karalystė), kuri rodo, kad lietuvių kalba tokio atitikmens nėra, todėl pateikta tik bendroji sąvoka ar<br />

paaiškinimas.<br />

Pvz., POOR LAWS - Paramos vargšams įstatymai (Jungtinė Karalystė)<br />

Kita vertus, dėl būtinumo papildyti <strong>LiDA</strong> tezaurą lietuviškais terminais, pavadinimais ir<br />

pan., kurie turi turėti atitikmenį anglų kalba, šie vertiniai gali būti ne visai tikslūs.<br />

Pvz., Avarinis gyvenamasis fondas – EMERGENCY DWELLING FUND.<br />

Visais atvejais <strong>LiDA</strong> tezaure palikta HASSET tezauro deskriptorių straipsnių struktūra ir<br />

užfiksuoti tokie santykiai tarp leksinių vienetų, kurie buvo originale.<br />

Taigi <strong>LiDA</strong> tezaure fiksuojami sinonimijos, gimininiai – rūšiniai ir asociaciniai santykiai.<br />

44


Deskriptoriaus ir nedeskriptoriaus sinonimijos santykiai žymimi santrumpomis UF (Used for<br />

– vartojamas vietoj) ir USE (naudok).<br />

Santrumpa UF rodo deskriptoriaus ir nedeskriptoriaus, kuriam jis atstovauja, santykius. Pvz.:<br />

COMPLEMENTARY THERAPIES Netradicinis gydymas<br />

UF COMPLEMENTARY MEDICINE Netradicinė medicina<br />

UF COMPLEMENTARY HEALTH CARE Netradicinė sveikatos priežiūra<br />

UF ALTERNATIVE MEDICINE Alternatyvi medicina<br />

UF ALTERNATIVE THERAPIES Alternatyvus gydymas<br />

Santrumpa USE (naudok) reiškia nedeskriptoriaus ir deskriptoriaus, kurį jis pakeičia santykius. Pvz:<br />

COMPLEMENTARY MEDICINE Netradicinė medicina<br />

USE COMPLEMENTARY THERAPIES Netradicinis gydymas<br />

COMPLEMENTARY HEALTH CARE Netradicinė sveikatos priežiūra<br />

USE COMPLEMENTARY THERAPIES Netradicinis gydymas<br />

ALTERNATIVE MEDICINE Alternatyvi medicina<br />

USE COMPLEMENTARY THERAPIES Netradicinis gydymas<br />

ALTERNATIVE THERAPIES Alternatyvus gydymas<br />

USE COMPLEMENTARY THERAPIES Netradicinis gydymas<br />

Ieškant informacijos apie dalyką, kuris gali būti pavadintas alternatyvus gydymas,<br />

alternatyvi medicina, netradicinė sveikatos priežiūra ar netradicinė medicina, reikia vartoti<br />

deskriptorių Netradicinis gydymas. T. y. sinonimijos arba ekvivalentiškumo santykiai parodo<br />

indeksuotojui arba vartotojui, kokį deskriptorių reikia naudoti vietoje pasirinkto nedeskriptoriaus.<br />

Hierarchiniai gimininiai ir rūšiniai santykiai žymimi santrumpomis BT (platesnis terminas),<br />

kai reikia parodyti santykį tarp specifinio ir bendresnio deskriptoriaus ir NT (siauresnis terminas),<br />

kai siekiama parodyti santykius tarp bendro ir siauresnės ar konkretesnės prasmės deskriptoriaus.<br />

Skaitmuo prie santrumpos BT (6) arba (7) rodo skirtingą jų hierarchijos lygį.<br />

Pavyzdžiui,<br />

COMPLEMENTARY THERAPIES Netradicinis gydymas<br />

45


UF COMPLEMENTARY MEDICINE Netradicinė medicina<br />

UF COMPLEMENTARY HEALTH CARE Netradicinė sveikatos priežiūra<br />

UF ALTERNATIVE MEDICINE Alternatyvi medicina<br />

UF ALTERNATIVE THERAPIES Alternatyvus gydymas<br />

NT(5) ACUPUNCTURE Akupunktūra<br />

NT(5) CHIROPRACTIC Chiropraktika<br />

NT(5) FOLK MEDICINE Liaudies medicina<br />

NT(5) HOMEOPATHY Homeopatija<br />

BT(6) MEDICAL TREATMENT METHODS Gydymo metodai<br />

BT(7) MEDICAL SCIENCES Medicinos mokslai<br />

Asociatyvius deskriptorių santykius rodo santrumpa RT (8) (related term – asociatyvus<br />

terminas). Pavyzdžiui:<br />

MARKET ECONOMY Rinkos ekonomika<br />

BT(6) ECONOMIC SYSTEMS Ekonominės sistemos<br />

BT(7)ECONOMICS Ekonomika<br />

RT(8)CAPITALISM Kapitalizmas<br />

RT(8) ECONOMIC COMPETITION Ekonominė konkurencija<br />

RT(8)PRIVATIZATION Privatizavimas<br />

Indeksuotojui ir vartotojui, kuris ketina naudoti tam tikrą deskriptorių asociatyvūs santykiai<br />

rodo, kad vietoje deskriptoriaus Rinkos ekonomika jis galėtų naudoti terminus Ekonominė<br />

konkurencija, Privatizavimas ar Kapitalizmas, kurie taip pat tinka konkrečios informacijos<br />

tvarkymui ar paieškai, o kartais gali net tiksliau išreikšti reikiamą sąvoką.<br />

Esant reikalui deskriptoriaus reikšmė gali būti siaurinama arba paaiškinama. Pavyzdžiui:<br />

MONEY SUPPLY – Pinigų pasiūla (pinigų, cirkuliuojančių šalies ekonomikoje, kiekis)<br />

INCONTINENCE – Nelaikymas (medicina)<br />

Tezauro kūrimas yra tęstinis procesas, kadangi kiekvienoje mokslo srityje ar kryptyje vyksta<br />

pokyčiai: atsiranda nauji terminai ar kinta jais reiškiamų sąvokų ribos. Į tezaurą nuolat turi būti<br />

įtraukiami nauji terminai, pašalinami seni, neteiktini terminai. Akivaizdu, kad kaupiant ir tvarkant<br />

Lietuvos HSM duomenų archyvą atsiras naujų lietuviškų terminų, kurie būtini indeksavimui ir<br />

paieškai. Kita vertus, gavus HASSET tezauro papildymus ir pakeitimus atitinkamai turės būti<br />

modifikuojama angliškoji ir lietuviškoji tezauro leksikos dalis.<br />

46


Tezauro duomenys yra prieinami <strong>LiDA</strong> svetainėje: http://www.lidata.eu.<br />

• pasirinkti kalbą<br />

• įvesti pirmą raidę arba termino pradžią<br />

• atlikti paiešką<br />

• spragtelėti “+”, jeigu domina susiję terminai<br />

• spragtelėti ant susijusio termino, jeigu domina tolimesnės sąsajos.<br />

Vadovaujantis minėtomis taisyklėmis pasirenkame lietuvių kalbą, įvedame termino pradžią<br />

(žm. – ieškome termino ,,žmogaus teisės“) ir atliekame paiešką. Radus terminą, nuspaudžiame ,,+”<br />

ir gauname susijusių terminų sąrašą.<br />

Jeigu vartotoją domina tolimesnės sąsajos, reikia spragtelėti ant norimo termino, pvz., Kultūrinės<br />

teisės.<br />

47


5. Metaduomenys. Metaduomenų schemos ir elementų rinkiniai. Empirinių<br />

duomenų aprašymo standartas ir jo taikymas archyvo reikmėms.<br />

Duomenų archyve <strong>LiDA</strong> yra kaupiami įvairūs empiriniai (gyventojų surašymų, namų valdų,<br />

rinkimų, vyriausybės ir savivaldybių, visuomenės nuomonės apklausų ir tyrimų, statistikos ir kt.)<br />

duomenys, kuriuos sukaupia tyrėjai. Taip pat čia saugomi ir prieinami publikuoti informacinio<br />

pobūdžio leidiniai (knygos, žurnalai), nepublikuota informacija (mokslinių tyrimų ataskaitos,<br />

disertacijos) ir mokslinių tyrimų apžvalgos. Visi šie duomenys ir informacija saugoma šiais<br />

formatais: DDI Document (*.xml); SPSS System (*.sav); SPSS Portable (*.por); SPSS Syntax<br />

(*.sps); SAS (*.sp1); Stata 7 ir Stata 8 (*.dta); Statistica (*.sta); NSDstat (*.nsf); dBase (*.dbf); DIF<br />

(*.dif); Delimited Text (*.txt, *.cvs).<br />

<strong>LiDA</strong> ir lingvistinis aprūpinimas<br />

48


HSM duomenų archyvo sukūrimui ir egzistavimui yra būtinas lingvistinis aprūpinimas –<br />

kitaip tariant archyve talpinamų duomenų bei informacijos aprašymo taisyklių sukūrimas tų<br />

duomenų pateikimo į archyvą, saugojimo, prieigai užtikrinti.<br />

<strong>LiDA</strong> lingvistinio aprūpinimo funkcinei struktūrai turėjo įtakos jau egzistuojantys šalyje ir<br />

užsienyje atvirieji elektroninių išteklių archyvai. Pirmiausia buvo remiamasi Atvirų archyvų<br />

iniciatyvos metodologija, kuri pateikta ISO standarte ISO 14721:2003 Space Data and Information<br />

Transfer System - Open Archival Information System - Reference Model. Šiame standarte<br />

pakankamai aiškiai išdėstyti pagrindiniai reikalavimai, keliami tokio pobūdžio archyvams. Pagal šį<br />

modelį sudarytas <strong>LiDA</strong> lingvistinis aprūpinimas užtikrina šių funkcijų vykdymą:<br />

• komplektavimą, apima visus veiksmus susijusius su elektroninės informacijos ir duomenų<br />

surinkimu iš tyrėjų ir patalpinimu į bendrą serverį. Šis procesas reikalauja pasikeisti<br />

bibliografine ir administracine informacija su tyrėjais;<br />

• registravimą: naujai gauta elektroninė informacija ar duomenys yra užregistruojami archyve<br />

ir bibliografinė informacija pateikiama į elektroninius katalogus;<br />

• patikrinimą: tai procesas, kurio metu atliekamas failų formato bei elektroninės informacijos<br />

ar duomenų loginio integralumo patikrinimas;<br />

• katalogavimą: tai elektroninės informacijos ar duomenų metaduomenų įrašo sudarymo<br />

procedūros, užtikrinančios, kad informacija ar duomenys būtų surastos kataloguose bei<br />

pasaulio mokslinių tyrimų archyvuose;<br />

• saugojimo tvarkymą: čia atliekamos tokios procedūros kaip išsaugojimas skaitmeninėse<br />

laikmenose, pastovus atsarginių kopijų darymas bei kopijavimas įvairiems tikslams. Čia<br />

ypatingas vaidmuo tenka techniniams metaduomenims, fiksuojantiems informaciją apie<br />

skaitmeninio objekto migravimą archyve;<br />

• pakavimą ir pateikimą: užtikrina skaitmeninio objekto prieinamumą, tarnauja statistikai,<br />

monitoringui ir kitiems tikslams. Jo paskirtis yra skaitmeninio objekto paieška, reikalingos<br />

skaitmeninio objekto kopijos paieška ir perdavimas į kreipties modulį. Šis procesas gali<br />

apimti tokias procedūras kaip reikalingos skaitmeninio objekto dalies radimas, kopijavimas<br />

arba viso teksto pridėjimas, tam tikras skaitmeninio objekto dalies reformatavimas peržiūrai,<br />

atspausdinimas;<br />

• kreiptį: užtikrina prieigą prie Archyvo skaitmeninių objektų. Šis procesas apima suradimo<br />

galimybių suformavimą, vartotojo identifikavimą, vartotojo teisių bei profilio nustatymą ir<br />

kt.;<br />

49


integravimą: į bendrą Lietuvos ir Europos mokslinių tyrimų elektroninio turinio erdvę.<br />

Truputį istorijos. Pagal Bendrojo programavimo dokumentą 2007-2013 metams, iš 2007-<br />

2013 metams 800 milijonų Lt skiriamų Informacinės visuomenės plėtrai, elektroninio turinio plėtrai<br />

bus skirta 70%, o infrastruktūros plėtrai, t.y., technikai 30%. Tai yra atvirkštinis santykis, lyginant<br />

su prieš tai buvusiu santykiu. Į informacinės visuomenės programą buvo įrašyta mokslinių duomenų<br />

archyvavimo finansavimas, kurio ankstesniame BPD dokumente nebuvo. Taigi, su naujojo BPD<br />

2007-2013 m. patvirtinimu atsivėrė naujos perspektyvos gauti finansavimą mokslinių duomenų<br />

archyvų kūrimui. HSM <strong>LiDA</strong> archyvas yra pirmasis visateksčių mokslinių duomenų archyvas,<br />

pradėtas kurti 2007 m.<br />

Tačiau, ar jis buvo kuriamas tuščioje vietoje? Suprantama, kad ne. Pirmiausia buvo<br />

pasinaudota Slovėnijos bei Vokietijos patirtimi, bei pasisemta patirties iš LNB kartu su partneriais<br />

vykdomo projekto „Integralios virtualios bibliotekų informacinės sistemos sukūrimas“ (projekto<br />

svetainė internete http://www.epaveldas.lt).<br />

50


LNB projektą verta paminėti, nes metodologine prasme jis buvo naudingas, formuojant<br />

<strong>LiDA</strong> lingvistinį aprūpinimą. Svarbiausia šio projekto ypatybė tai, kad jame dalyvauja trys<br />

skirtingos atminties institucijos: archyvai, muziejai ir bibliotekos. Todėl teko ne tik derinti skirtingus<br />

standartus, bet ir surasti sąlyčio taškus, parengti vieningą metaduomenų parengimo metodologiją,<br />

kuri galėtų būti atspindėta štai tokia schema:<br />

Iš schemos mes matome didžiulę įvairovę standartų, naudojamų dokumentų arba<br />

skaitmeninių objektų aprašymui. Pavyzdžiui, aprašo parengimui: archyvuose ISAD, bibliotekose<br />

ISBD, muziejuose RIS.<br />

Sukurto lingvistinio aprūpinimo esmę sudaro tai, kad jis užtikrino galimybę dalyvaujančioms<br />

institucijoms rengti savo metaduomenis taip, kaip yra įpratusios pagal savo taisykles ir savo srities<br />

standartus, o portale pateikiami tik labai lakoniški metaduomenys DC formatu. Štai iš čia matomo<br />

portalo http://www.epaveldas.lt per nuorodą į pirminę sistemą einama toliau į LNB, arba į Dailės<br />

muziejų ir susipažįstama su išsamiu aprašu.<br />

51


Ši idėja pasirodė priimtina ir projektuojant <strong>LiDA</strong>, todėl suformuotas LIDA lingvistinis<br />

aprūpinimas iš esmės yra grindžiamas čia pateiktu pavyzdžiu.<br />

<strong>LiDA</strong> lingvistinis aprūpinimas buvo suformuotas remiantis Lietuvos ir pasaulio šalių<br />

elektroninių archyvų, katalogų bei juos apibūdinančių dokumentų analize, siekiant nustatyti ir<br />

pasiūlyti optimaliausią <strong>LiDA</strong> metaduomenų turinį ir formą, kuo labiau atitinkančius šiuolaikinius<br />

reikalavimus, keliamus Europos elektroninio turinio prieigai bei siekiant suderinti su Lietuvos<br />

skaitmeniniu turiniu.<br />

Suformuotas lingvistinis aprūpinimas leido pasiūlyti HSM duomenų archyvo architektūrą,<br />

padedančią užtikrinti:<br />

• spartų duomenų perdavimą, vykdant atskiras užklausas bei operuojant dideliais duomenų<br />

kiekiais;<br />

• galimybę palaikyti daugialypės terpės dokumentus, sudarytus iš teksto ir atvaizdų;<br />

• paskirstyto pradinio duomenų apdorojimo galimybę, kuriai esant projekto partneriai gali<br />

patys parengti skaitmeninius fondus ir talpinti juos į bendrąją duomenų bazę;<br />

• archyve saugomiems formaliems dokumentams suteikti nuolatinius vardus.<br />

Lingvistinis aprūpinimas taip pat užtikrina virtualios sistemos archyvavimą ir objektų erdvės<br />

tvarkymą:<br />

• integruojant skaitmeninius objektus įvairiais formatais;<br />

• formuojant skaitmeninių objektų erdvę taip, kad ją galima kuo efektyviau pateikti paieškai<br />

ir skaitmeninių objektų pateikimui;<br />

• užtikrinant skirtingų metaduomenų ir formatų suderinamumą, parengus metaduomenų<br />

kodavimo sistemų sankirtas.<br />

HSM duomenų archyvo Lingvistinis aprūpinimas užtikrina monitoringo realizavimą.<br />

HSM duomenų archyvo Lingvistinis aprūpinimas užtikrins skaitmeninių objektų prieigos ir sklaidos<br />

realizavimą bei suderinamą su Lietuvos ir Europos skaitmeniniu turiniu:<br />

• sparčią prieigą prie skaitmeninių objektų saugomų KTU pagrindiniame skaitmeninės<br />

informacijos Archyve bei išsamių archyvinių aprašų projekto partnerių sistemose;<br />

• informacijos pateikimą internete per interneto sąsają;<br />

• patogią prieigą prie dokumentų pagal įvairius jų požymius;<br />

• paieškos rezultatų išdavimą pagal sąrašą, kuriame turi būti nurodomi užklausą atitinkantys<br />

dokumentai ar jų dalys.<br />

52


<strong>LiDA</strong> – archyvas<br />

Prieš pradedant <strong>LiDA</strong> kūrimą, reikėjo atsakyti į esminius klausimus, ar tai bus archyvas,<br />

atitinkantis archyvų srities ideologiją, standartus ir, ar tai bus visateksčių duomenų bazė.<br />

Atsižvelgiant į tai, kad į <strong>LiDA</strong> numatoma talpinti empirinius duomenis: gyventojų surašymų, namų<br />

valdų, rinkimų, visuomenės nuomonių apklausų ir tyrimų duomenys, akivaizdu, kad turi būti<br />

kuriamas archyvas, atitinkantis visus reikalavimus, keliamus archyvams.<br />

<strong>LiDA</strong> – tai HSM duomenų archyvas. Prieš pristatant mokslinių duomenų archyvavimo<br />

koncepciją, turime pateikti archyvo sąvoką, kurią mes suprantame kaip skaitmeninių objektų<br />

saugyklą, atliekančią tradicines kaupimo, saugojimo ir prieigos prie informacijos funkcijas bei<br />

paskirstytą sistema, platinančią turimą skaitmeninę informaciją bei aktyviai skatinančią bei<br />

palaikančią šios informacijos kūrimo procesą.<br />

Jeigu <strong>LiDA</strong> yra archyvas, tuomet teko susipažinti, pirmiausia, su archyvuose naudojama<br />

terminologija bei naudojamais standartais.<br />

Pagal kokius dokumentus ir standartus archyvuose kuriami metaduomenys?<br />

Pradžioje panagrinėkime fizinių objektų ir skaitmeninių objektų panašumus bei atitinkamus<br />

jų aprašymus (metaduomenis). Tradiciniai archyviniai fondai ir jų sudėtinės dalys atspindimi<br />

archyviniuose aprašuose, kurie padeda atitinkamai identifikuoti kiekvieną objektą, suteikia<br />

informacijos apie jo turinį, struktūrą, sukūrimo kontekstą bei leidžia vartotojui įvertinti, ar objektas<br />

gali būti jam naudingas.<br />

Siekiant pateikti rekomendacijas dėl archyvinio aprašo sudarymo, palyginome ISAD (G)<br />

(Pagrindinis Tarptautinis standartinis arhyvinis aprašymas, angl. General International Standard<br />

Archival Description 5 ) terminologiją su metaduomenų apibrėžimais: ISAD (G) nurodo, jog tai yra<br />

bendrosios archyviniams aprašams, nepriklausomai nuo aprašomo vieneto ir pobūdžio bei apimties,<br />

taisyklės. Jose nurodoma, kaip formuluoti informaciją kiekvienam iš 26 elementų, kurie išdėstyti 6<br />

pagrindinėse srityse (identifikavimo, konteksto, turinio ir sandaros, prieigos ir naudojimo sąlygų,<br />

sietinės medžiagos, pastabų), kurios leidžia sudaryti išsamų aprašomo objekto vaizdą.<br />

ISAD (G) garantuoja išsamių, tinkamų ir aiškių aprašų sudarymą, palengvina informacijos<br />

apie archyvinę medžiagą sudarymą, palengvina informacijos apie archyvinę medžiagą mainus ir<br />

paiešką, sudaro galimybę keistis autoritetiniais duomenimis, leidžia sujungti aprašus iš įvairių<br />

5 http://www.ica.org/en/node/30000<br />

53


saugyklų į vieningą informacijos sistemą. Todėl galima tvirtinti, kad archyvinis aprašas yra<br />

archyvinių objektų metaduomenys, kaip kad katalogų įrašai yra bibliotekų metaduomenys.<br />

Tuo atveju, kai fizinis archyvo objektas yra suskaitmenintas, būtina parengti prieigą prie jo<br />

turinio. Todėl iškyla būtinybė aprašyti skaitmeninio objekto vaizdą arba jo turinį. Jei objektas yra<br />

fondas, reikia sudaryti viso fondo archyvinį aprašą su jo hierarchine struktūra, atskleidžiančia jo<br />

struktūrines dalis. Šis procesas yra vadinamas "aprašomųjų metaduomenų" sudarymu.<br />

Jeigu archyvinis aprašas gali būti traktuojamas kaip „archyviniai metaduomenys“ ir jeigu<br />

archyvinis fizinių objektų aprašas ir archyvų skaitmeninių fondų metaduomenys yra, galima daryti<br />

išvadą, kad skaitmeniniai objektai yra aprašomi taip pat, kaip ir fiziniai objektai. Tai yra labai svarbi<br />

išvada, kuri gali būti pateikta schematiškai:<br />

Pagrindinės archyvinio aprašo charakteristikos yra aiškiai suformuluotos ISAD (G). Svarbiausia šio<br />

standartinio aprašo ypatybė yra ta, kad jis sudaro galimybę atspindėti archyvinį fondą taip, kaip jis<br />

egzistuoja. Tai reiškia, kad archyvinis aprašas pradedamas rengti nuo pagrindinio, aprašant<br />

specifinius entitetus, nuo fondo prie bylos (fizinės) ir atskirų jos vienetų.<br />

Todėl kuriant <strong>LiDA</strong> buvo nutarta laikytis tos pačios logikos, kurią diktuoja ISAD (G) –<br />

kurti hierarchinę archyvo struktūrą, išreiškiamą taip, kaip parodyta paveikslėlyje:<br />

54


Svarbu pastebėti, kad ISAD (G) tinka ir tradicinės formos objektų aprašui ir kompiuterinio<br />

archyvo objektų aprašui. Jeigu aprašomieji metaduomenys yra naudojami prieigai prie skaitmeninio<br />

fondo, hierarchinė metaduomenų struktūra turi užtikrinti prieigą prie kiekvieno atskiro fondo<br />

vieneto, saugomo archyve. Tuo pačiu metu, elektroninėje aplinkoje metaduomenys privalo atkurti<br />

loginį, o ne fizinį archyve saugomų objektų ryšį.<br />

Siekiant patenkinti šiuos reikalavimus, aprašomieji metaduomenys privalo turėti tokią pačią<br />

hierarchinę struktūrą kaip ir tradiciniai. Tai reiškia, kad jie turi būti suderinti su tarptautiniu<br />

archyviniu aprašu ISAD (G), kuris sudaro galimybę parengti archyvinio aprašo hierarchinę<br />

struktūrą. Kitaip tariant, pilnesnį ir patogesnį archyvų objektų bei duomenų bazių turinio aprašymą<br />

elektroninėje aplinkoje.<br />

Nors ISAD (G) tinka ir skaitmeniniams objektams aprašyti, vis dėl to skaitmeninių objektų<br />

aprašymui buvo sukurta keletas metaduomenų modelių, pavyzdžiui, Dublin Core, kuris yra šiuo<br />

metu vienas populiariausių ir Lietuvoje pripažintas šalies standartu (LST ISO 15836:2007:<br />

Informacija ir dokumentai. Dublin Core metaduomenų elementų grupė (tapatus ISO 15836:2003).<br />

Dublin Core schema susideda iš elementų. Ji gali palaikyti paprastą ryšį tarp dviejų<br />

skaitmeninių objektų, kadangi "ryšio" elementas, apibūdinamas kaip "nuoroda į susijusį išteklių"<br />

turi šiuos "kvalifikatorius": "dalis", "turi dalį".<br />

Tuo pačiu Dublin Core (DC), kaip ir kiti metaduomenys sukurti skaitmeniniams ištekliams,<br />

negali pilnai būti pritaikyti siekiant pilnai aprašyti archyvinį skaitmeninį išteklių. Be to, kai kurie<br />

DC elementai gali sukelti netgi tam tikrą sumaištį, pavyzdžiui, "informacija apie kūrėją".<br />

Archyvuose kiekvieno archyvinio vieneto aprašas yra reikšmingas tik kai yra aiškiai aprašytas<br />

55


fondo, kuriam jis priklauso, kūrėjas (angl. Creator). Tik tai kūrėjo istorija ir struktūra gali padėti<br />

vartotojui suprasti sąlygas, kuriomis dokumentas buvo sukurtas arba surinktas, kritiškai įvertinti<br />

dokumentų turinį. Šio tipo duomenys yra labai svarbūs aprašui. Būtent tokių duomenų ir trūksta<br />

Dublin Core. DC elementas vadinamas "kūrėju" yra apibūdinamas kaip už entitetų turinį pirminės<br />

atsakomybės sritis. Archyvams toks apibūdinimas nėra tinkamas. ISAD (G) kūrėją apibūdina kaip<br />

"Kolektyvas, šeima arba asmuo sukūręs, surinkęs arba turintis dokumentus savo personalinės<br />

arba kolektyvinės veiklos metu".<br />

Žmonės, atsakingi už dokumentų patalpinimą į fondus, dažniausiai skiriasi nuo kūrėjo. Taigi,<br />

atsižvelgiant į "kūrėjo" apibūdinimą, pateikiamą DC, yra tam tikras prieštaravimas. Jeigu<br />

naudojamas DC apibrėžimas, neįmanoma pažymėti arba nurodyti, kas surinko ir yra šio dokumento<br />

(archyvo) savininkas. Vėliau kalbėdami apie DDI kodifikatorių pastebime, jog tyrimo vykdytojas ir<br />

skaitmeninio dokumento kūrėjas yra atskirti.<br />

DC metaduomenų schemos sukūrimu buvo siekiama iki minimo sumažinti elementų skaičių,<br />

siekiant aprašyti skaitmeninius išteklius. Beje, DC yra tik bibliografinis modelis, kuris negali būti<br />

pakankamai efektyviai pritaikytas, aprašant archyvinius objektus. Todėl praktika rodo, jog be galo<br />

sunku parengti korektiškus archyvinius aprašus, panaudojant šią metaduomenų schemą. O tai savo<br />

ruožtu apsunkins ir skaitmeninių objektų paiešką.<br />

Vėlesnės DC versijos buvo praturtintos semantinėmis priemonėmis. "Kvalifikatorių" dėka<br />

buvo sudaryta galimybė tiksliau aprašyti kūrėją, pavyzdžiui <br />

Rengiant Lietuvos HSM duomenų archyvinio aprašo sudarymo taisykles bei kuriant HSM<br />

duomenų archyvą pirmiausia reikėjo apsispręsti dėl skaitmeninių objektų aprašo išsamumo. Reikėjo<br />

atsakyti į klausimą, ar skaitmeninio aprašymui pakaks Dubline Core laukų, kuris yra skiriamas<br />

išteklių pateikimui internete, ar reikės naudoti kitą metaduomenų standartą.<br />

Siekiant išlaikyti tradiciniuose archyvuose tvarką ir logiką, kuri yra išreiškiama tokia<br />

schema, buvo pasirinkta, jog privalom sukurti hierarchinę <strong>LiDA</strong> struktūrą, kuri leistų aprašyti fondą<br />

taip: pirmiausia parengti failų apyrašą, kuris archyvų standartuose – ISAD (G) vadinamas serija, po<br />

to atskirą failą, ir jam atskirus esančius dokumentus. Apsisprendus dėl tokios <strong>LiDA</strong> hierarchinės<br />

struktūros, tapo akivaizdu, kad DC, nors ir yra skaitmeninių išteklių standartas neužtikrinus tokio<br />

detalaus duomenų aprašymo. Reikėjo ieškoti schemos, leidžiančios parengti tokio pobūdžio<br />

metaduomenis ir labiausiai atitinkančius socialinę-humanitarinę mokslų specifiką.<br />

<strong>LiDA</strong> archyvinio saugojimo metaduomenų sudarymui buvo pasiūlyta naudoti DDI<br />

kodifikatorių, leidžiantį apibūdinti bet kokio struktūrinio lygmens išteklius: fondą, atskirą išteklių,<br />

ištekliaus sudėtinę dalį.<br />

56


Metaduomenys<br />

Labai svarbus <strong>LiDA</strong> lingvistinio aprūpinimo elementas yra metaduomenys. Metaduomenys<br />

yra struktūriškai apibrėžta informacija, kuri apibūdina, paaiškina dokumentą ar informacinį išteklių,<br />

nurodo jo buvimo vietą arba kitokiu būdu palengvina jo suradimą, naudojimą arba valdymą.<br />

Metaduomenys yra informacija apie bet kokio tipo ar rūšies informacijos išteklių.<br />

Šie duomenys apibūdina tokius informacijos išteklių aspektus:<br />

• Turinio informacija – vidinė charakteristika, apibūdinanti intelektualiąją informaciją,<br />

teikiamą informacijos išteklių (pavyzdžiui, tematika, žanras);<br />

• Konteksto informacija – išorinė charakteristika, apibūdinanti duomenis, susijusius su<br />

veiksmais informacijos išteklių atžvilgiu (kas, kada, kur, kaip sukūrė/pakeitė/atnaujino arba<br />

atliko kitus veiksmus su konkrečiu dokumentu);<br />

57


• Struktūros informacija – vidinė ar išorinė charakteristika, apibrėžianti formalius ryšius<br />

išteklių viduje ar tarpusavyje. Pavyzdžiui, kai aprašomos dokumento dalys (skyriai, tomai,<br />

straipsniai), nurodomas jų ryšys su visu dokumentu (vidiniai ryšiai), o kai informacija apie tą<br />

patį įvykį pateikta skirtinguose informacijos ištekliuose, metaduomenys nurodo į išorinius<br />

ryšius.<br />

Lygiai kaip, pavyzdžiui, kataloguotojai nusprendžia, ar katalogo įrašas bus kuriamas visam<br />

rinkiniui, ar atskirai kiekvienam tomui, taip ir metaduomenų kūrėjas priima panašius sprendimus.<br />

Metaduomenys taip pat gali būti naudojami bet kuriame informacinio modelio, kurio pagrindu<br />

sukurti IFLA Funkciniai reikalavimai bibliografiniams įrašams, lygmenyje (kūrinys, išraiška,<br />

apraiška, dokumentas). Pavyzdžiui, metaduomenų įrašas gali apibūdinti pranešimą, konkrečią<br />

pranešimo laidą arba atskirą tos pranešimo laidos kopiją. Metaduomenys gali būti įterpti į<br />

skaitmeninį objektą arba gali būti saugomi atskirai nuo jo. Jie dažnai įterpiami į HTML dokumentus<br />

ir atvaizdo failų antraštes.<br />

Metaduomenų saugojimas kartu su jų apibūdinamu objektu užtikrina, kad jie nebus<br />

prarandami, panaikina duomenų ir metaduomenų susiejimo problemas bei garantuoja, kad kartu su<br />

objektu bus atnaujinami ir metaduomenys.<br />

Metaduomenų rūšys<br />

Pagrindinės metaduomenų funkcijos yra palengvinti skaitmeninių informacijos išteklių<br />

identifikavimą, vietos nustatymą, išrinkimą, valdymą, naudojimą ir saugojimą tinklinėje aplinkoje.<br />

Pagal šias funkcijas skiriamos tokios metaduomenų rūšys:<br />

1. Aprašomieji metaduomenys – tai duomenys, kurie identifikuoja ir apibūdina patį<br />

informacijos išteklių. Pateikiami pagrindiniai dokumento atributai – kūrėjas (autorius,<br />

sudarytojas ir pan.), antraštė, dalykas, anotacija ir pan. Tokių metaduomenų pavyzdys –<br />

katalogo įrašai, pagalbinės rodyklės.<br />

2. Administravimo metaduomenys yra susiję su atliekamų procesų valdymu. Jie apima įvairius<br />

technologinius procesus: komplektavimas, skaitmeninimas, autorių teisių apsauga,<br />

dokumentų priežiūros veiksmai (konservavimas, restauravimas, skaitmeninimas).<br />

Administravimo metaduomenys paprastai skirstomi į:<br />

• Autorių teisių valdymo – apibrėžia intelektinės nuosavybės teises ir su jomis susijusias<br />

naudojimo taisykles bei apribojimus.<br />

58


• Išsaugojimo – dokumentuoja visus veiksmus, nukreiptus į informacijos išteklių išsaugojimą.<br />

Tai yra informacija apie fizinę dokumento būklę, atliktus restauravimo, konservavimo,<br />

skaitmeninimo veiksmus, skaitmenintų ar skaitmeninių dokumentų formatų atnaujinimą ir<br />

pan.<br />

• Techninius – ši metaduomenų rūšis siejasi su skaitmeninių ir skaitmenintų išteklių valdymu.<br />

Skaitmeninėje aplinkoje informacijos išteklių prieinamumas ir išsaugojimas priklauso nuo<br />

įvairių techninių parametrų – programinės ir techninės įrangos, kuria naudojantis buvo<br />

sukurti dokumentai, bylų formatų ir suspaudimo metodų ir pan.<br />

• Naudojimo – metaduomenys, fiksuojantys informacijos išteklių naudojimo pobūdį. (Kaip<br />

įvairių formatų išteklius galima panaudoti įvairiems tikslams, pavyzdžiui, parodoms.)<br />

Naudojimo metaduomenys fiksuoja ir pačią vartotojo ir ištekliaus sąveiką (pavyzdžiui, gali<br />

teikti informaciją apie vartotojo statusą ir jam leidžiamus atlikti veiksmus).<br />

Metaduomenys paaiškina bet kokio lygio informacijos rinkinius – gali aprašyti<br />

kolekcijas, atskirą išteklių ar didelio ištekliaus sudedamąją dalį (pavyzdžiui, fotografiją straipsnyje).<br />

Metaduomenys taip pat gali būti naudojami aprašyti bet kokio lygio informacijos modeliams,<br />

išvardintiems IFLA (Tarptautinė bibliotekų asociacijų ir jų įstaigų federacija, angl. The International<br />

Federation of Library Associations and Institutions 6 ) Funkciniuose bibliografinių įrašų<br />

reikalavimuose (angl. Functional Requirements for Bibliographic Records): darbams, posakiams,<br />

įrodymams ar užrašams. Pavyzdžiui, metaduomenų įrašas gali aprašyti konferencijos pranešimą arba<br />

šio pranešimo specialią kopiją.<br />

Metaduomenų įrašo struktūra<br />

Metaduomenų įrašas susideda iš tam tikro skaičiaus iš anksto apibrėžtų elementų,<br />

reprezentuojančių informacijos ištekliaus savybes. Tokių elementų ir jų naudojimo taisyklių rinkinys<br />

vadinamas metaduomenų schema, nurodanti, kaip ir kokius duomenis apie išteklių būtina pateikti.<br />

Kiekviena metaduomenų schema paprastai turi ribotą skaičių elementų, kiekvienas elementas turi<br />

vardą ir atskirą reikšmę. Pačių elementų apibrėžimas ar reikšmė yra žinoma kaip schemos<br />

semantika. Reikšmės, duotos metaduomenų elementams, yra turinys. Metaduomenų schemos<br />

paprastai tiksliai apibrėžia elementų vardus ir jų semantiką. Dar schemos gali nusakyti turinio<br />

taisykles, kaip turinys turi būti formuluojamas (pavyzdžiui, kaip identifikuoti pagrindinį<br />

6 http://www.ifla.org/<br />

59


pavadinimą), turinio atvaizdavimo taisykles (pavyzdžiui, rašybos didžiosiomis raidėmis taisyklės),<br />

leidžiamas turinio reikšmes (pavyzdžiui, terminai turi būti naudojami iš specialaus kontrolinio<br />

žodyno).<br />

Taip pat metaduomenų schema gali pasižymėti specifine sintakse (gali būti metaduomenų<br />

schema nepriklausoma nuo sintaksės, tai yra be sintaksę nurodančių taisyklių). Sintaksė<br />

reglamentuoja metaduomenų elementų ir jų turinio kodavimą bei pateikimą elektroninėje terpėje.<br />

Kodavimui naudojamos vadinamosios žymių kalbos (angl. markup languages) – formalių taisyklių<br />

ir įrankių rinkinys, kuris leidžia pateikti ir interpretuoti (pavyzdžiui, formatuoti, keistis duomenimis<br />

tarp įvairių sistemų ir pan.) duomenis skaitmeninėje aplinkoje. Dauguma dabartinių metaduomenų<br />

schemų naudoja SGML (angl. Standard Generalized Mark-up Language) arba XML (angl.<br />

Extensible Mark-up Language). SGML labai sudėtinga, todėl dažnai naudojamasi jos poaibiais.<br />

Ilgainiui paplito SGML poaibis – XML kalba, kuri leidžia aprašyti ir formaliąsias dokumento<br />

savybes, ir informacijos išteklių turinį, atspindėti metaduomenų elementus ir jų tarpusavio ryšius.<br />

Dublin Core metaduomenų iniciatyva<br />

Dublin Core metaduomenų iniciatyvos (angl. Dublin Core, toliau DC) elementų rinkinio<br />

atsiradimas siejamas su seminaru, vykusiu 1995 Dubline (JAV, Ohio valstija). Šio standarto<br />

sukūrimą paskatino didėjančių internete prieinamos informacijos masyvų valdymo problemos, nes<br />

tapo aišku, kad bibliotekininkai nepajėgs vieni registruoti interaktyvius dokumentus. Šio standarto<br />

esmė – sukurti paprastą metaduomenų schemą, kuri leistų ne profesionalams (pavyzdžiui, leidėjams,<br />

autoriams) patiems aprašyti elektroninius informacijos išteklius.<br />

Lietuvoje skaitmeninės interneto informacijos aprašymui buvo patvirtintas LST ISO<br />

1586:2007.<br />

Standartą sudaro 15 elementų:<br />

• Antraštė (angl. Title) – dokumento pavadinimas;<br />

• Kūrėjas (angl. Creator) – dokumento autorius (pavyzdžiui, asmuo, organizacija, atsakingi už<br />

dokumento turinį);<br />

• Tema (angl. Subject and Keywords) – dokumento tematika. Nustatant dalyką ir reikšminius<br />

žodžius rekomenduojama remtis kontroliuojamais žodynais ar klasifikacijos schemomis.<br />

• Aprašas (angl. Description) – dokumento turinio santrauka (pavyzdžiui, turinys, laisvos<br />

formos trumpas turinio aprašymas);<br />

60


• Leidėjas (angl. Publisher) – įstaiga, asmuo ir pan., išleidę dokumentą;<br />

• Teikėjas (angl. Contributor) – asmuo, organizacija, atsakinga už informacijos ištekliaus<br />

turinio teikinius;<br />

• Data (angl. Date) – reikšmingos dokumento gyvavimo datos (pavyzdžiui, kūrimo,<br />

atnaujinimo ir kt.). Nurodant datą rekomenduojama vadovautis ISO 8601 standartu;<br />

• Rūšis (angl. Resource Type) – ištekliaus žanras, paskirtis ir pan. Nustatant ištekliaus rūšį<br />

patartina naudotis kontroliuojamais žodynais;<br />

• Formatas (angl. Format) – fizinio ar skaitmeninio ištekliaus parametrai (pavyzdžiui,<br />

laikmena, dydis, techninė ir programinė įranga). Formatui nustatyti rekomenduojama<br />

pasitelkti kontroliuojamus žodynus;<br />

• Identifikatorius (angl. Resource Identifier) – adresas ar skaitmenų eilutė, identifikuojantį<br />

išteklių, pavyzdžiui, ISBN, Uniform Resource Locator (Unifikuotas ištekliaus adresas),<br />

Digital Object Identifier (Skaitmeninio objekto identifikatorius);<br />

• Šaltinis (angl. Source) – dokumentas, kuriam priklauso aprašomas išteklius (pavyzdžiui,<br />

rinkinys, kuriame yra skyrius ar straipsnis);<br />

• Kalba (angl. Language) – kalba, kuria parašytas dokumentas. Kalbos santrumpų pateikimui<br />

rekomenduojama naudotis RFC3066 ir ISO639 standartais;<br />

• Sąsaja (angl. Relation) – nuoroda į susijusius išteklius;<br />

• Aprėptis (angl. Coverage) – dokumento turinio geografinės (vietovės pavadinimas), laiko<br />

(datos), institucinės priklausomybės charakteristikos. Rekomenduojama naudotis<br />

kontroliuojamais žodynais;<br />

• Teisės (angl. Rights management) – intelektinės nuosavybės teisių informacija.<br />

Visi DC elementai yra neprivalomi ir visi kartojami. Elementai gali būti atvaizduojami bet<br />

kokia tvarka. Atvaizdavimo tvarką gali reglamentuoti žymių kalba. DC metaduomenų schema yra<br />

nepriklausoma nuo sintaksės. Ir paprastam ir išplėstam DC metaduomenų elementų rinkiniui<br />

išreikšti gali būti naudojamos įvairios žymių kalbos.<br />

Populiarus DC metaduomenų schemos naudojimo modelis – pritaikymas savo reikmėms.<br />

Kadangi schemos naudojimo taisyklės leidžia ją papildyti, dažniausiai pagrindinių elementų skaičius<br />

papildomas trūkstamais ir reikiamais specifinės srities elementais. Teoretikai tai vertina ir kaip<br />

privalumą, nes standartas pritaikomas įvairiausiems projektams, ir kaip trūkumą, kadangi taip<br />

kuriamos visiškai naujos metaduomenų schemos. Dauguma projektų, naudojančių šį metaduomenų<br />

61


standartą, suprato, jog reikia kurti papildomus elementus ir taisykles – o tai daug pastangų ir laiko<br />

reikalaujantis darbas.<br />

Dublin Core ir <strong>LiDA</strong><br />

Archyvuose informacija saugoma keliais lygiais. Tai iliustruoja paveikslėlis: Fondas – tai<br />

archyve saugoma atskira talpykla. Toje talpykloje gali būti keli vienos grupės failai (bylos). Tuose<br />

failuose gali būti keli dokumentai. Tai hierarchinė struktūra. Archyvuose saugant informaciją yra<br />

labai svarbu turėti metaduomenis apie kiekvieną iš šių lygių. Taigi – metaduomenys turi būti<br />

hierarchinės struktūros.<br />

Dublin Core branduolio metaduomenų schema gali būti pritaikoma <strong>LiDA</strong> archyvui kelis<br />

kartus kartojant tuos pačius elementus. Tačiau tai nėra efektyvu. Todėl buvo nuspręsta ieškoti<br />

empiriniams duomenims tinkamesnio metaduomenų standarto.<br />

DDI<br />

Politinių ir socialinių mokslų tyrimų tarpuniversitetinio konsorciumo (angl. Inter-University<br />

Consortium for Political and Social Research - ICPSR) projektas Duomenų aprašymo iniciatyva<br />

(angl. Data Documentation Initiative, toliau DDI) buvo pradėtas 1994 m. Jo tikslas – sukurti<br />

tarptautinį XML pagrįstą standartą socialinių ir humanitarinių mokslų srities mokslinių tyrimų<br />

duomenų turiniui ir struktūrai aprašyti, sudarytam aprašui (metaduomenims) atvaizduoti, išsaugoti ir<br />

keistis.<br />

DDI paskirtis ir struktūra<br />

Socialiniuose moksluose metaduomenys apie duomenų rinkinius dažnai vadinami<br />

kodifikatoriais (angl. codebooks). DDI kodifikatoriai kuriami unifikuotu, griežtai struktūriškai<br />

sutvarkytu formatu, kuris yra lengvai ir tiksliai paieškomas internete, gali būti tuo pačiu metu<br />

naudojamas daugialypių duomenų rinkinių, taip pat gali žymiai pagerinti metaduomenų turinį ir<br />

naudojimą. DDI leidžia hierarchiškai aprašyti: 1) socialinių ir humanitarinių mokslų tyrimus; 2)<br />

duomenų failus, sukurtas pagal tuos tyrimus; 3) kintamuosius, naudotus tuose duomenų failuose.<br />

DDI kodifikatorius yra XML dokumento tipo apibrėžtis (DTD), nurodanti elementus, iš<br />

kurių dokumentas yra sudarytas, tų elementų ypatybes ir loginius ryšius su kitais elementais. DDI<br />

sudaro per 300 metaduomenų elementų ir atributų, dauguma kurių yra neprivalomi naudoti. Visų šių<br />

62


elementų vaidmuo ir naudojimas apibrėžtas Žymių bibliotekoje (angl. Tag Library). Elementai<br />

kodifikatoriuje yra išdėstyti hierarchiškai.<br />

DDI kodifikatorius susideda iš 5 elementų blokų:<br />

1. Dokumento aprašymas (angl. Document Description), kurį sudaro bibliografinė informacija,<br />

paaiškinanti patį kodifikatorių (metaduomenų dokumentą) ir šaltinius, kurie buvo panaudoti<br />

kodifikatoriui sukurti.<br />

2. Mokslinio tyrimo aprašymas (angl. Study Description) – elementai, aprašantys atliktą<br />

mokslinį tyrimą (tyrimo pavadinimas, tyrimo atlikimo metodologija, duomenų turinio<br />

aprėptis, duomenų prieiga ir pan.).<br />

3. Duomenų failų aprašymas (angl. Data Files Description) – pateikiama informacija apie<br />

kiekvieną atskirą failą, kuriame saugomi mokslinio tyrimo duomenys. Tai duomenys apie<br />

duomenų failo formatą, apimtį, struktūrą, nurodoma failo paleidimo informacija ir pan.<br />

4. Kintamųjų aprašymas (angl. Variables Description) – elementai, paaiškinantys kintamuosius<br />

duomenų rinkinyje (formatą, kintamųjų ir reikšmių žymėjimą, apibrėžimus ir pan.). Trečias<br />

blokas pateikia fizinį mokslinio tyrimo duomenų rinkinio aprašymą, o šis blokas – loginį.<br />

5. Kita su tyrimu susijusi medžiaga (angl. Other Related Materials) – kiti su moksliniu tyrimu<br />

susiję dokumentai ar elektroniniai failai (bibliografija, atskiras apklausos elektroninis<br />

dokumentas, ataskaitos ir pan.).<br />

Pagrindinis DDI tikslas buvo apibrėžti rinkinį visų galimų elementų ir atributų, naudojamų<br />

socialinių ir humanitarinių mokslų tyrimų duomenų rinkiniams aprašyti. Todėl rezultate gauta labai<br />

didelės apimties specifikacija. Į ją galima sudėti bet kokią informaciją, kokia duomenų kūrėjui ar<br />

naudotojui pasirodys esanti susijusi su duomenų rinkiniu. DDI komitetas sunkiai priėjo sprendimo<br />

nustatant, kokie elementai yra privalomi, o kokie rekomenduojami. DDI komitetas nustatė „griežtai<br />

rekomenduojamų“ elementų sąrašą, kurį sudaro 14 elementų, atitinkančių Dublino branduolio (angl.<br />

Dublin Core) standartą, bei kiti 30 elementų. Taip pat atskiros bendruomenės ir organizacijos<br />

pradėjo apsibrėžti savus privalomų DDI elementų sąrašus. Tokiu pavyzdžiu gali būti CESSDA<br />

(angl. Council of European Social Science Data Archives 7 ) DDI projekto grupė, kuri nustatė DDI<br />

naudojimo taisykles Europos socialinių mokslų duomenų archyvams. Remiantis šiomis<br />

rekomendacijomis buvo sudarytas šis <strong>LiDA</strong> kodifikatorius.<br />

<strong>LiDA</strong> metaduomenų sąsaja su bibliotekų katalogų įrašais<br />

7 http://www.nsd.uib.no/cessda/home.html<br />

63


Siekiant platesnės humanitarinių ir socialinių mokslinių duomenų sklaidos bei kuriamo archyvo<br />

suderinanmumo su kitomis Lietuvos mokslo įstaigomis, akademinėmis bei mokslinėmis<br />

bibliotekomis, turi būti galimybė konvertuoti <strong>LiDA</strong> patalpintų skaitmeninių tyrimų/studijų<br />

metaduomenis į MARC21 formatą, kuris naudojamas mūsų šalies ir užsienio šalių bibliotekų<br />

katalogams sudaryti. Šiam tikslui žemiau pateikiama konvertavimo lentelė, leidžianti <strong>LiDA</strong> archyvo<br />

metaduomenis konvertuoti į MARC21 formatą. Perspektyvoje reikėtų parengti ir konvertorių į<br />

UNIMARC formatą, kurį naudoja daugelis Lietuvos ir užsienio šalių bibliotekų.<br />

DDI, Dublin Core, MARC21 elementų sankirtos<br />

Sudaryta pagal Mapping to Dublin Core 8 ir Field Mapping Table 9 .<br />

DDI elemento žyma DDI elemento pavadinimas DC elementas<br />

2.1.1.1 Tyrimo ar duomenų rinkinio antraštė Antraštė<br />

MARC21<br />

elemento žyma<br />

245 0?$a<br />

245 0?$b<br />

2.1.2.1<br />

Tyrimo ar duomenų rinkinio pirminė<br />

atsakomybė<br />

Kūrėjas<br />

245 0?$c<br />

700 1#$a<br />

2.2.1.1<br />

2.2.1.2<br />

Reikšminiai žodžiai<br />

Temų klasifikatorius<br />

Tema<br />

650 #7$a<br />

653 0#$a<br />

2.2.2 Santrauka Aprašas 520 3#$a<br />

2.1.3.1 Tyrimo ar duomenų rinkinio leidėjas Leidėjas 260 ##$b<br />

2.1.3.6<br />

Tyrimo ar duomenų rinkinio finansavimo<br />

šaltinis<br />

2.1.2.2 Kiti tyrimo ar duomenų rinkinio autoriai Teikėjas<br />

2.1.3.3<br />

Tyrimo ar duomenų rinkinio išleidimo<br />

data<br />

Data<br />

2.1.4.5<br />

Tyrimo ar duomenų rinkinio platinimo<br />

data<br />

2.2.3.10 Duomenų rūšis Rūšis<br />

3.1.5 Failo tipas Formatas<br />

536 ##$a<br />

700 1#$a<br />

710 2#$a<br />

260 ##$c<br />

260 ##$d<br />

008<br />

260 ##$c<br />

8<br />

http://www.ddialliance.org/related/dc.html 31 psl. yra parašyta kada pažiūrėta ir pavadinimas puslapio. Suvienodinti<br />

reikia su 2-3 išnaša?<br />

9<br />

http://www.icpsr.umich.edu/ICPSR/or/metadata/table.html<br />

64


2.1.1.5<br />

2.3.1.8<br />

Tyrimo ar duomenų rinkinio<br />

identifikacinis numeris<br />

Tyrimo ar duomenų rinkinio šaltinių<br />

duomenys<br />

Identifikatorius<br />

Šaltinis<br />

-- -- Kalba 10<br />

2.5<br />

Kita su tyrimu ar duomenų rinkiniu<br />

susijusi medžiaga<br />

2.2.3.1<br />

Tyrimo ar duomenų rinkinio laiko<br />

aprėptis<br />

2.2.3.2 Duomenų surinkimo data<br />

2.2.3.3 Šalis<br />

2.2.3.4<br />

2.1.3.2<br />

Tyrimo ar duomenų rinkinio geografinė<br />

aprėptis<br />

Autorinės teisės į tyrimą ar duomenų<br />

rinkinį<br />

Sąsaja<br />

Aprėptis<br />

Teisės<br />

001<br />

035 ##$a<br />

490 1#$v<br />

830 #0$v<br />

786 1#$a<br />

786 1#$t<br />

786 1#$d<br />

041 0#$a<br />

041 0#$9<br />

787 1#$a<br />

787 1#$t<br />

787 1#$d<br />

518 ##$a<br />

522 ##$a<br />

506 ##$a<br />

506 ##$e<br />

506 ##$g<br />

590 ##$a<br />

590 ##$9<br />

2.1.5.1<br />

Tyrimo ar duomenų rinkinio serijos<br />

antraštė<br />

490 1#$a<br />

830 #0$a<br />

2.1.6.1 Tyrimo versija 250 ##$a<br />

2.2.3.9 Populiacija 567 ##$a<br />

2.3.1.4 Duomenų atrankos procedūra 567 ##$a<br />

2.3.1.6 Duomenų rinkimo metodas 567 ##$a<br />

2.4.1.4 Duomenų rinkinio dydis 516 ##$a<br />

2.4.2.7<br />

Prieigos prie tyrimo duomenų rinkinio<br />

sąlygos<br />

506 ##$a<br />

3.1.1 Duomenų failo antraštė 505 0#$a<br />

10 DDI schemoje kiekvienas elementas turi atributą xml:lang<br />

65


Empirinių duomenų aprašymo standartas ir jo taikymas archyvo reikmėms<br />

Toliau pateikiamas <strong>LiDA</strong> archyve talpinamiems duomenų rinkiniams atprašyti surarytas standartas.<br />

DDI skyrius<br />

Tyrimo<br />

kodifikatoriaus<br />

aprašas<br />

Tyrimo<br />

aprašymas<br />

DDI<br />

Nr.<br />

DDI žyma<br />

su nuoroda į<br />

aprašymą<br />

(angl.)<br />

Lauko žymos<br />

pavadinimas<br />

(ang.)<br />

Lauko žymos<br />

pavadinimas<br />

Lauko žymos turinys<br />

(aprašymas)<br />

1.1.1.1 titl Title Dokumento antraštė Pagrindinė dokumento<br />

antraštė<br />

1.1.1.2 subTitl Subtitle Paantraštė Antraštė, paaiškinanti ar<br />

patikslinanti pagrindinę<br />

antraštę<br />

1.1.1.3 altTitl Alternative Title Alternatyvi antraštė Kita dokumento antraštė<br />

1.1.1.4 parTitl Parallel Title Lygiagreti antraštė Pagrindinė dokumento<br />

1.1.1.5 IDNo Identification<br />

number<br />

1.1.3.5 software Software used in<br />

Production<br />

Identifikacinis<br />

numeris<br />

Naudojama<br />

programinė įranga<br />

antraštė kita kalba<br />

Unikalus dokumento numeris,<br />

sudaromas pagal archyvo<br />

patvirtintas taisykles<br />

Programinės įrangos<br />

pavadinimas, versija ir<br />

įdiegimo data<br />

2.1.1.1 titl Title Tyrimo antraštė Pagrindinė tyrimo antraštė<br />

2.1.1.2 subTitl Subtitle Paantraštė Antraštė, paaiškinanti ar<br />

patikslinanti pagrindinę<br />

antraštę<br />

2.1.1.3 altTitl Alternative Title Alternatyvi antraštė Kita tyrimo antraštė<br />

2.1.1.4 parTitl Parallel Title Lygiagreti antraštė Pagrindinė tyrimo antraštė kita<br />

2.1.1.5 IDNo Identification<br />

number<br />

2.1.2.1 AuthEnty Authoring<br />

Entity/Primary<br />

Investigator<br />

2.1.2.2 othId Other<br />

Identifications/Ack<br />

nowledgments<br />

Identifikacinis<br />

numeris<br />

Pirminės<br />

atsakomybės<br />

duomenys<br />

kalba<br />

Unikalus tyrimo numeris,<br />

sudaromas pagal archyvo<br />

patvirtintas taisykles<br />

Asmuo ar organizacija, atlikę<br />

tyrimą<br />

Kiti tyrimo autoriai Kitas asmuo ar organizacija,<br />

atlikę tyrimą<br />

2.1.3.1 producer Producer Leidėjas/gamintojas Asmuo ar organizacija<br />

atsakingi už tyrimą<br />

2.1.3.2 copyright Copyright Autorinė teisė Asmuo/organizacija turinti<br />

autorines teises į tyrimą<br />

2.1.3.3 prodDate Date of Production Išleidimo data Tyrimo atlikimo (pabaigos)<br />

data<br />

2.1.3.4 prodPlac Place of Production Leidimo vieta Tyrimo atlikusios<br />

organizacijos adresas<br />

2.1.3.6 fundAg Fundings Finansavimo šaltinis Tyrimą užsakęs<br />

asmuo/organizacija<br />

2.1.4.1 distrbtr Distributor Platintojas Organizacija atsakinga už<br />

tyrimo duomenų sklaidą<br />

2.1.4.2 contact Contact Persons Kontaktiniai asmenys Už archyve kaupiamus tyrimo<br />

duomenis atsakingo asmens<br />

informacija, skirta<br />

vartotojams, kuriems gali kilti<br />

klausimų dėl tyrimo duomenų<br />

naudojimo tvarkos<br />

2.1.4.3 depositr Depositor Pateikėjas Asmuo/organizacija, pateikę<br />

66


2.1.4.4 depDate Date of Deposit Pateikimo data<br />

tyrimą į archyvą<br />

Tyrimo pateikimo į archyvą<br />

data<br />

2.1.4.5 distDate Date of<br />

Platinimo data Tyrimo, esančio archyve,<br />

Distribution<br />

2.1.5.1 serName Series Name Serijos (apyrašo ar<br />

failų sąrašo)<br />

pavadinimas<br />

sklaidos pradžia<br />

Serijos (apyrašo-failų sąrašo),<br />

kuriai priklauso tyrimas,<br />

pavadinimas<br />

2.1.5.2 serInfo Series Information Serijos informacija Serijos, kuriai priklauso<br />

tyrimas, istorija ir įvairių<br />

2.1.7 biblCit Bibliographic Bibliografinis aprašas<br />

ypatybių reziumė<br />

Išsamus tyrimo bibliografinis<br />

Citation<br />

aprašas<br />

2.1.8 holdings Holdings<br />

Fiziniai vienentai Informacija apie aprašomo<br />

Information<br />

tyrimo fizinius ar elektroninius<br />

vienetus<br />

2.2.1.1 keyword Keywords Reikšminiai žodžiai Reikšminiai žodžiai<br />

(rekomenduojama 3-5)<br />

pasirenkami naudojantis<br />

kontroliuojamu žodynu<br />

(tezauru)<br />

2,2.1.2 topcClas Topic<br />

Temų klasifikatorius Pagrindinė tyrimo tema,<br />

Classification<br />

pasirenkama iš kontroliuojamo<br />

žodyno (tezauro)<br />

2.2.2 abstract Abstract Tyrimo santrauka Tekstas, trumpai apibūdinantis<br />

tyrimo tikslą, esmę ir apimtį<br />

(rekomenduojama 200-500<br />

žodžių)<br />

2.2.3.1 timePrd Time Period Tyrimo laikotarpis Tyrimo atlikimo laikotarpis<br />

2.2.3.2 collDate Dates of Collection Duomenų surinkimo Duomenų surinkimo<br />

data<br />

laikotarpis<br />

2.2.3.3 nation Countries Šalis Šalis(-ys), kurioje(-iose)<br />

surinkti duomenys<br />

2.2.3.4 geogCover Geographic Geografinė aprėptis Geografinė vieta(-os),<br />

Coverage<br />

kurioje(-iose) surinkti<br />

duomenys<br />

2.2.3.5 geogUnit Geografic Unit Geografinis vienetas Geografinis vienetas(-ai),<br />

kuriame(-iuose) surinkti<br />

duomenys (apskritis, rajonas,<br />

miestas ir kt.)<br />

2.2.3.6<br />

/<br />

2.2.3.8<br />

2.2.3.7<br />

/<br />

2.2.3.9<br />

2.2.3.8<br />

/<br />

2.2.3.1<br />

0<br />

anlyUnit Unit or analysis<br />

(Nesstare)<br />

Tyrimo objektas Pagrindinis tyrimo analizės ar<br />

stebėjimo objektas, esantis<br />

sudėtine bendro tyrimo dalimi.<br />

Tai gali būti asmuo, šeima,<br />

institucija, organizacija,<br />

administracinis vienetas ir<br />

universe Universe Tiriamoji grupė Grupė asmenų ar kitų tyrimo<br />

elementų, kurie yra tyrimo<br />

objektas ir su kuriais susijęs<br />

pan.<br />

tyrimo rezultatas<br />

dataKind Kind of Data Duomenų rūšis Duomenų rūšis naudota<br />

tyrimui (apklausos ar pžvalgos<br />

duomenys, administracinių<br />

įrašų duomenys, eksperimentų<br />

duomenys, psichologiniai<br />

67


testai, tekstiniai duomenys,<br />

koduoti dokumentai ir pan.)<br />

2.2.4 notes Notes and<br />

Comments<br />

Pastabos<br />

2.3.1.1 timeMeth Time Method Laiko metodas Tyrimo periodiškumas<br />

(vienkartinis, daugkartinis)<br />

2.3.1.2 dataCollecto Data Collector Duomenų rinkėjas Asmuo/organizacija, atsakinga<br />

r<br />

už apklausos, interviu ar kt.<br />

duomenų surinkimą<br />

2.3.1.3 frequenc Frequency of Data Duomenų rinkimo<br />

Collection dažnumas (jei rinkta<br />

per keletą kartų, kas 1<br />

metai, kas 10 metų ir<br />

pan.)<br />

2.3.1.4 sampProc Sampling<br />

Procedure<br />

Atrankos metodas Tyrimo atrankos metodas<br />

2.3.1.6 collMode Mode of Data Duomenų rinkimo Metodas naudotas duomenims<br />

Collection metodas<br />

rinkti<br />

2.3.1.7 resInstru Type of Research Tyrimo<br />

Priemonė, naudota duomenims<br />

Instrument instrumentarijus rinkti<br />

2.3.1.8 sources Data Sources Duomenų šaltiniai Šaltiniai, naudoti duomenims<br />

rinkti (apklausos, stebėjimo<br />

dokumentų analizės,<br />

statistiniai kitų tyrimų<br />

duomenys ir pan.)<br />

2.1.3.9 collSitu Characteristics of Duomenų rinkimo Svarbių duomenų rinkimo<br />

Data Collection aplinkybės<br />

aplinkybių paaiškinimas<br />

(respondentų<br />

bendradarbiavimas ir pan.)<br />

2.3.1.1 weight Weighting Duomenų svėrimas Jei duomenys buvo sverti,<br />

2<br />

pateikiami svėrimo aprašymai<br />

2.3.1.1 cleanOps Cleaning<br />

Valymo veiksmai Duomenų rinkinio išvalymo<br />

3<br />

Operations<br />

procedūros<br />

2.3.2 notes Notes and<br />

Comments<br />

Pastabos<br />

2.3.4 stdyClas Class of Study Tyrimo būsena Nurodomas tyrimo būsenos<br />

numeris arba įrašomas tekstas,<br />

paaiškinantis tyrimo būseną<br />

2.4.1.1 accsPlac Locations of Data Duomenų rinkinio Tyrimo skaitmeninio objekto<br />

Collection saugojimo vieta saugojimo vieta(-os),<br />

pateikiant jo tikslų elektroninį<br />

adresą<br />

2.4.1.2 origArch Original Archive Archyvas, kuriame Archyvas, iš kurio buvo<br />

Where Collection saugomas tyrimo surinkti tyrimo duomenys.<br />

Stored<br />

originalas<br />

Pirminis archyvas<br />

2.4.1.3 avlStatus Availability Status Prieigos sąlygos Tyrimo skaitmeninio objekto<br />

prieigos sąlygos. Jas nustato<br />

tyrimo autoriai,<br />

vadovaudamiesi archyvo<br />

naudojimosi taisyklėmis<br />

2.4.1.4 collSize Extent of<br />

Duomenų rinkinio Duomenų rinkinio failų kiekis,<br />

Collection dydis<br />

įskaitant tik tuos failus,<br />

kuriuose yra tyrimo duomenys<br />

2.4.1.6 fileQnty Number of Files Tyrimo duomenų<br />

failų skaičius<br />

Nurodomas failų skačius<br />

2.4.2.1 confDec Confidentiality Respondentų asmens<br />

Declaration Text duomenų apsaugos<br />

reikalavimai<br />

68


Tyrimo failų<br />

aprašymas<br />

2.4.2.3 restrctn Restrictions Apribojimai Naudojimosi tyrimo<br />

duomenimis apribojimai pagal<br />

2.4.2.5 citReq Citation<br />

Requirement<br />

2.4.2.6 deposReq Deposit<br />

Requirement<br />

<strong>LiDA</strong> prieiga ir metaduomenų peržiūra<br />

<strong>LiDA</strong> archyvo katalogas per Nesstar WebView<br />

Citavimo<br />

reikalavimai<br />

Pateikimo į archyvą<br />

reikalavimai<br />

<strong>LiDA</strong> archyvas yra prieinamas per projekto svetainę http://www.lidata.eu.lt:<br />

archyvo taisykles<br />

Publikacijos, parengtos tyrimo<br />

duomenų pagrindu, turi būti<br />

cituojamos kaip šaltiniai<br />

nuorodose ar literatūros<br />

sąraše.<br />

Reikalavimai vartotojams,<br />

norintiems kaupti savo tyrimus<br />

archyve<br />

2.4.2.7 conditions Access Conditions Prieigos sąlygos Papildoma informacija apie<br />

prieigos prie tyrimo duomenų<br />

sąlygas<br />

2.4.2.8 disclaimer Disclaimer Įspėjimas Informacija apie atsakomybę<br />

ir sankcijas už neteisingą<br />

tyrimo duomenų panaudojimą<br />

2.5.1 relMat Related Materials Susiję dokumentai Su tyrimu betarpiškai susiję<br />

dokumentai (klausimynas,<br />

anketos ir pan.)<br />

2.5.2 relStdy Related Studies Susiję tyrimai Su tyrimu susiję kiti tyrimai<br />

2.5.3 relPubl Related<br />

Susijusios<br />

Su tyrimu susijusios<br />

Publications publikacijos publikacijos<br />

2.5.4 othRefs Notes Pastabos Kitos pastabos, susijusios su<br />

tyrimu (pavyzdžiui, pagrindinė<br />

kalba, kuria rengiami tyrimo<br />

duomenys ir metaduomenys)<br />

3.1.1 fileName File name Failo pavadinimas Tyrimo failo pavadinimas<br />

3.1.2 fileCont Contents of File Failo turinys Tyrimo failo turinys<br />

3.1.3.1. caseQnty Overall Case Count Tiriamųjų skaičius Tyrime dalyvavusių tiriamųjų<br />

2.2<br />

faile<br />

kiekis faile<br />

3.1.3.1. varQnty Overall Variable Kintamųjų skaičius Tyrime panaudotų kintamųjų<br />

2.1<br />

Count<br />

faile<br />

skaičius faile<br />

3.1.5 fileType Type of File Failo tipas Tyrimo failo tipas<br />

3.1.7 filePlac Place of File Failo sukūrimo vieta Archyvas, kuriame yra tyrimo<br />

Production<br />

produkcinis failas<br />

3.1.9 ProcStat Processing Status Failo kūrimo statusas Kuriamo archive tyrimo failo<br />

statusas<br />

3.1.12. version Version Versija Kuriamo archive tyrimo failo<br />

1<br />

ir/arba jam taikomo šablono<br />

versija<br />

3.1.12. verResp Version<br />

Versijos atsakomybės Tyrimo failo versijos<br />

2<br />

Responsibility<br />

statement<br />

duomenys<br />

atsakomybės duomenys<br />

69


Atidaromas Nesstar WebView langas. Nesstar WebView leidžia:<br />

• prieigą prie duomenų: juos peržiūrėti, atsisiųsti, eksportuoti, atsispausdinti;<br />

• duomenų rinkinių, kintamųjų, su tyrimu susijusios medžiagos, lentelių paiešką;<br />

• duomenų koreliacinę, regresinę, grafinę analizę.<br />

Prieiga prie duomenų priklauso nuo archyvo savininko, kuris turi parengęs atitinkamas prieigos<br />

taisykles. Šis taisyklių rinkinys gali būti patalpintas ir parodomas internete, archyvo savininko ar<br />

archyvo svetainėje. <strong>LiDA</strong> archyvo prieigos taisyklės prieinamos pagrindiniame projekto svetainės<br />

lange pasirinkus meniu Naudojimo taisyklės.<br />

<strong>LiDA</strong> archyvo duomenų peržiūra<br />

<strong>LiDA</strong> Nesstar WebView langas padalintaas į dvi dalis. Kairėje pusėje rodomas <strong>LiDA</strong> archyve<br />

saugomų tyrimų rinkinių katalogas, o dešinėje pusėje – pasirinkto tyrimo rinkinio, atskiro tyrimo ar<br />

jo kintamojo metaduomenys. Metaduomenis taip pat galima peržiūrėti lango viršuje paspaudus<br />

mygtuką „Description“:<br />

70


Kairėje lango pusėje esančiame tyrimo duomenų metaduomenų (angl. Metadata) skyriuje<br />

informacija pateikiama pagal DDI – ji suskirstyta į keturis pagrindinius DDI blokus: Dokumento<br />

(kodifikatoriaus) aprašymas, tyrimo aprašymas, Duomenų failų aprašymas ir kita susijusi medžiaga.<br />

Kintamųjų (angl. Variables) skyriuje pateikiama informacija apie visus tyrimo kintamuosius.<br />

Kintamieji čia sugrupuoti į grupes.<br />

Norint peržiūrėti visą tyrimo informaciją, kairėje pusėje ties skyriumi reikia spausti<br />

informaciją išskleidžiančią ikoną . Kai informacija yra visa išskleista ir rodoma dešinėje lango<br />

pusėje, skyriaus pavadinimas paryškinamas raudonai ir ties juo atsiranda simbolis .<br />

Dešiniosios lango pusės viršuje yra trys pagrindiniai meniu elementai: Description,<br />

Tabulation ir Anglysis. Description – peržiūrėti metaduomenis ar informaciją apie kairėje lango<br />

dalyje pasirinktą tyrimo elementą ar kintamąjį. Tabulation – atlikti kintamųjų analizę. Paspaudus šį<br />

mygtuką iš pradžių rodoma tuščia lentelė. Norint įdėti kintamąjį į lentelę, reikia spustelėti ant<br />

kintamojo kairėje lango dalyje ir iš atsiradusio meniu pasirinkti reikiamą operaciją. Taip galima<br />

įkelti kelis kintamuosius ir juos vėliau analizuoti lango viršuje esančių mygtukų pagalba:<br />

71


Analysis mygtuko pagalba galima atlikti regresinę ir koreliacinę analizę.<br />

Duomenų išsaugojimas į savo kompiuterį<br />

Pasirinkti saugojimui galima metaduomenis HTML ir XML formatu bei tyrimų duomenis įvairias<br />

formatais. Saugoma tai, kas rodoma dešinėje lango dalyje. Paspaudus mygtuką atidaromas<br />

langas, kuriame reikia nurodyti kas ir kaip bus saugoma:<br />

Duomenų eksportas ir spausdinimas<br />

72


Norint eksportuoti tyrimo duomenis į Excel formatą, spaudžiamas mygtukas , į PDF formatą –<br />

mygtukas . Norint spausdinti duomenis, spaudžiamas mygtukas .<br />

Bookmarks<br />

Ši funkcija naudojama išsaugoti tuo metu rodomą duomenų rinkinio atvaizdavimą, pavyzdžiui,<br />

informaciją apie kintamąjį, atliktą duomenų analizę ir pan. Išsaugotas duomenų rinkinio<br />

atvaizdavimas patalpinamas į serverį ir yra matomas kitiems tokias pat teises turintiems vartotojams.<br />

Norint sukurti Bookmark, reikia spustelti mygtuką ir iš išsiskleidžiančio sąrašo pasirinkti meniu<br />

Server Bookmark. Atidaromas langas, kuriame reikia nurodyti Bookmark pavadinimą ir aprašyti<br />

tai, ką norite išsaugoti, kad vėliau peržiūrint būtų galima suprasti, kodėl tai yra svarbu:<br />

Paspaudus mygtuką Add bookmark, jis parodomas tyrimo elementų rinkinio sąraše kairėje Nesstar<br />

WebView lango dalyje:<br />

73


Norint peržiūrėti Bookmark, reikia spustelti pele ant jo pavadinimo ir iš išsiskleidžiančio meniu<br />

sąrašo pasirinkti reikiamą elementą:<br />

Paieška<br />

<strong>LiDA</strong> Nesstar WebView aplinkoje galima atlikti paprastą ir išplėstinę paieškas. Paprasta paieška<br />

atliekama pagrindiniame <strong>LiDA</strong> Nesstar WebView lange kairėje pusėje esančiame paieškos laukelyje<br />

įrašius užklausą ir paspaudus mygtuką :<br />

74


Norint atlikti išplėstinę paieška, šalia paprastos paieškos lauko reikia spausti . Atidaromas<br />

išplėstos paieškos langas:<br />

75


<strong>LiDA</strong> prieiga per eLABa<br />

Taip pat Lietuvoje kuriama Lietuvos akademinė elektroninė biblioteka – eLABa. Prieiga per<br />

http://elaba.library.lt. Ji skirta Lietuvos mokslo institucijoms, kurių autoriai kuria mokslines ir<br />

studijų publikacijas, kurias reikia įkelti, saugoti, kataloguoti ir pateikti skaitytojams bei kitoms<br />

sistemoms. Pagrindinis tikslas – sukurti aplinką bei priemones ir jomis naudojantis rengti, kaupti,<br />

ilgą laiką saugoti ir įvairiais išvesties būdais pateikti vartotojams Lietuvos mokslo ir studijų<br />

elektroninius dokumentus.<br />

eLABa kaupiami, saugomi ir skelbiami eLABa duomenų teikėjų įkelti šių tipų elektroniniai<br />

dokumentai:<br />

• Knygos (monografijos, vadovėliai, mokymui skirtos knygos ir pan.);<br />

• Periodiniai ar vienkartiniai recenzuojami mokslo leidiniai (žurnalai) bei mokslo<br />

populiarinimo leidiniai (žurnalai), išspausdinti, išleisti kompaktiniais diskais arba paskelbti<br />

internete;<br />

• Atskiri moksliniai ir mokslo populiarinimo straipsniai, publikuoti mokslo ir mokslo<br />

populiarinimo leidiniuose;<br />

• Pranešimai mokslinėse ar metodinėse konferencijose, seminaruose ir pan.;<br />

• Studijų baigiamieji darbai, daktaro disertacijos ir jų santraukos;<br />

• Mokslinių tyrimų ir eksperimentinės plėtros darbų bei projektų ataskaitos;<br />

• Kita.<br />

eLABa lange pasirinkite meniu „Ištekliai“ ir iš sąrašo pasirinkite <strong>LiDA</strong> archyvo nuorodą:<br />

76


ALEPH paieškos sistemos lange <strong>LiDA</strong> duomenų galima ieškoti per įvairias paieškas: paprastą,<br />

keliuose ištekliuose, detalią, komandinę ir išplėstą. Kokią paiešką pasirinkti priklauso nuo to, kokiu<br />

tikslu ieškote informacijos, kokią pradinę informaciją apie ieškomus leidinius jau turite ir pan.:<br />

- Paprastą paiešką tikslinga pasirinkti tuomet, jeigu atliekate bendresnio pobūdžio paiešką.<br />

Šios paieškos metu jūsų pageidaujamo paieškos žodžio arba žodžių ieško visuose paieškos<br />

laukuose arba viename pasirinktame paieškos lauke, t.y. pagal autoriaus pavardę, tikslią<br />

antraštę, žodį ar žodžius antraštėje, ISSN, ISBN, leidimo metus ir kt. Paprasta paieška<br />

dažniausiai naudojasi pradedantieji arba greitą paiešką atliekantys informacijos vartotojai.<br />

- Detalią paiešką tikslinga pasirinkti tuomet, jeigu žinote tikslius leidinio duomenis arba bent<br />

kelis bibliografinio aprašo elementus, pavyzdžiui, autorių, antraštė, publikavimo metus,<br />

leidimo vietą, leidyklą ar kitus duomenis.<br />

- Paiešką keliuose ištekliuose reikėtų pasirinkti tuomet, jeigu jums reikalingo leidinio ar<br />

leidinių neradote savo institucijos bibliotekos kataloge arba tuomet, kai jūsų bibliotekos<br />

kataloge neradote leidinių pagal pasirinktą žodį ar žodžius. Atlikę paiešką sužinosite, kokioje<br />

Lietuvos akademinėje bibliotekoje ar keliose bibliotekose yra jūsų ieškomas leidinys.<br />

- Išplėstą paiešką pasirinkite tuomet, jeigu norite suformuluoti sudėtingą paiešką, derinti kelis<br />

paieškos kriterijus. Rezultatai pateikiami pagal kiekvieną paieškos kriterijų atskirai, o taip<br />

pat visus paieškos kriterijus atitinkantys paieškos rezultatai.<br />

- Komandinę paiešką rekomenduojama atlikti didesnę informacijos paieškos patirtį turintiems<br />

vartotojams, kurie sugeba paiešką suformuluoti laukų komandų pagalba. Šiuo atveju galima<br />

suformuluoti itin sudėtingą paieškos klausimą, naudoti loginius operatorius, skliaustus ir pan.<br />

O tai leidžia gauti labai tikslius rezultatus.<br />

77


Paprastos paieškos langas, kurio laukelyje „Įveskite žodį arba frazę“ įrašoma užklausa ir kituose<br />

laukeliuose nurodomi užklausą apibūdinantys parametrai:<br />

Atlikus paiešką, paieškos rezultatai pateikiami lentelėje:<br />

78


Lentelėje rodomi tik pagrindiniai tyrimo metaduomenys: autorius ir tyrimo antraštė. Norint<br />

peržiūrėti detalius metaduomenis apie tyrimą, reikia spausti numerį šios lentelės kairėje. Atidaromas<br />

langas, kuriame rodomi detalūs metaduomenys apie tyrimą. Metaduomenų sąrašo viršuje esanti<br />

nuoroda „Sąsaja“ skirta atidaryti langą, iš kurio galima parsisiųsti su tyrimu susijusius dokumentus<br />

ar pačius duomenis.<br />

79


Duomenims parsisiųsti paspaudus nuorodą „Sąsaja“ atidaromas langas:<br />

Šiame lange pateikiamas su tyrimu susijusių duomenų ir dokumentų sąrašas. Paspaudus pele ant<br />

vienos iš sąrašo ikonų, parsiunčiamas duomenų failas ar kompiuterio ekrane parodomas pats<br />

dokumentas.<br />

80


<strong>LiDA</strong> prieiga per Lietuvos virtualią biblioteką<br />

Lietuvos virtuali biblioteka yra kompleksinė sistema, suteikianti galimybę iš vieningos paieškos<br />

platformos ieškoti įvairaus tipo dokumentų. Paieška atliekama įvairiuose ištekliuose –<br />

elektroniniuose kataloguose ir duomenų bazėse. Šiuo metu LVB galite ieškoti ir rasti:<br />

- bibliografinės informacijos apie socialinius ir humanitarinius mokslinius tyrimus bei rasti ir<br />

parsisiųsti tų tyrimų duomenis iš <strong>LiDA</strong> archyvo;<br />

- bibliografinius duomenis apie leidinius, aprašytus Lietuvos akademinių ir viešųjų bibliotekų<br />

bei kai kurių užsienio bibliotekų kataloguose;<br />

- straipsnių, konferencijų pranešimų ir kt. dokumentų, aprašytų institucijų publikacijų<br />

duomenų bazėse, bibliografinius duomenis ir santraukas. Dalis dokumentų pateikia ryšį į<br />

visatekstį dokumentą;<br />

- dokumentų, sukauptų Lietuvoje kuriamose duomenų bazėse Lituanistika, ETD, eLABa,<br />

LABT katalogas, <strong>LiDA</strong> bibliografinius duomenis ir/ar pačius visateksčius dokumentus;<br />

- dokumentų (straipsnių, konferencijų pranešimų, knygų ir kt.), prieinamų per Lietuvos<br />

institucijose prenumeruojamas užsienio duomenų bazes, bibliografinius duomenis ir/ar<br />

pačius visateksčius dokumentus.<br />

<strong>LiDA</strong> archyvas bus prieinamas taip pat per Lietuvos virtualią biblioteką – http://www.lvb.lt.<br />

81


Norint atlikti paiešką tik <strong>LiDA</strong> archyve, reikia nuimti žymėjimus ties kitais informaciniais ištekliais.<br />

Jei žymėjimai nenuimami, tuo pačiu metu paieška atliekama ir kituose informaciniuose ištekliuose.<br />

Atlikus paiešką paieškos rezultatai pateikiami lentelės forma. Lentelėje rodomas tik tyrimo autorius<br />

ir antraštė.<br />

Norint peržiūrėti detalius metaduomenis apie tyrimą, reikia spausti tyrimo antraštės nuorodą.<br />

Atidaromas langas, kuriame rodomas išsamių metaduomenų sąrašas:<br />

82


Norint parsisiųsti tyrimo duomenis ar su tyrimu susijusius dokumentus, reikia spausti „Prieiga“<br />

eilutėje esančią nuorodą. Atidaromas langas, kuriame pateikiamas su tyrimu susijusių elektroninių<br />

dokumentų sąrašas:<br />

83


Šis langas toks pat kaip eLABa paieškos sistemos. Šiame lange pateikiamas su tyrimu susijusių<br />

duomenų ir dokumentų sąrašas, kuriame paspaudus pele ant vienos iš sąrašo ikonų, parsiunčiamas<br />

duomenų failas ar kompiuterio ekrane parodomas pats dokumentas.<br />

Kiti archyvai ir duomenų rinkinių peržiūra<br />

Socialinių tyrimų archyvų sąrašus galite rasti <strong>LiDA</strong> projekto svetainėje http://www.lidata.eu<br />

pasirinkus meniu punktą Plėtra ir Bendradarbiavimas:<br />

Taip pat socialinių mokslų duomenų archyvų sąrašą internete pateikia Amsterdamo universiteto<br />

Sociologijos ir antropologijos departamentas - http://www.sociosite.net/databases.php:<br />

84


Užsienio šalių duomenų archyvai ir jų paieškos sistemos<br />

Vokietijos socialinių mokslų infrastruktūros paslaugų asociacijos archyvas (angl. German Social<br />

Science Infrastructure Services – GESIS) yra prieinamas per internetą adresu<br />

http://zacat.gesis.org/webview/index.jsp. Šis archyvas kaip ir <strong>LiDA</strong> naudoja Nesstar WebView<br />

aplinką duomenų archyvo turiniui atvaizduoti, ieškoti ir analizuoti.<br />

Jungtinės Karalystės duomenų archyvas (angl. UK Data Archive) yra prieinamas per internetą<br />

adresu http://www.data-archive.ac.uk/findingData/aboutCat.asp. Pagrindinėje svetainėje pateikiama<br />

jungtinės paieškos galimybė – galimybė atlikti paiešką vienu metu keliuose Jungtinės Karalystės<br />

archyvuose. Atlikus paiešką, paieškos rezultatų lange gali būti mygtukas į Nesstar WebView, kurį<br />

paspaudus patenkama į atitinkamo Jungtinės Karalystės duomenų archyvo Nesstar WebView<br />

aplinką.<br />

85


Slovėnijos socialinių mokslų archyvas prieinamas per internetą adresu http://nesstar2.adp.fdv.uni-<br />

lj.si/webview/. Šis archyvas kaip ir <strong>LiDA</strong> naudoja Nesstar WebView aplinką duomenų archyvo<br />

turiniui atvaizduoti, ieškoti ir analizuoti.<br />

Politinių ir socialinių mokslų tyrimų tarpuniversitetinis konsorciumas (angl. Inter-University<br />

Consortium for Political and Social Research) savo svetainėje pateikia nuorodą į elektroninį<br />

archyvą, kuris prieinamas adresu https://www.icpsr.umich.edu/. Tai jungtinė kelių JAV archyvų<br />

duomenų paieškos ir atvaizdavimo sistema. Archyvų sąrašą galima peržiūrėti internete adresu<br />

http://www.icpsr.umich.edu/cocoon/ICPSR/all/archives.xml?token=Archives. Šis archyvas turi<br />

savitą paieškos ir duomenų bei informacijos atvaizdavimo sistemą. Norint peržiūrėti ar atsisiųsti<br />

duomenis būtina užsiregistruoti – registracija yra paprasta, nemokama ir greita.<br />

Naudotos literatūros ir šaltinių sąrašas<br />

Archiv družboslovnih podatkov [interaktyvus]. [Žiūrėta 2008-04-04]. Prieiga per internetą:<br />

http://nesstar2.adp.fdv.uni-lj.si/webview/<br />

Beyond Bookmarks: chemes for Organizing the Web. [interaktyvus]. [žiūrėta 2008 04 15].<br />

Prieiga per internetą:http://www.public.iastate.edu/~CYBERSTACKS/CTW.htm<br />

Borgman, Ch. L. Nuo Gutenbergo iki globalios informacijos infrastruktūros. Informacijos<br />

prieiga tinklų apraizgytame pasaulyje. 2003. 327 p.<br />

CAPLAN, Priscilla. Metadata fundamentals for all librarians. Chicago, 2003. 192 p. ISBN 0-<br />

8389-0847-0.<br />

Data Documentation Initiative [interaktyvus]. DDI [žiūrėta 2007-12-13]. Prieiga per internetą:<br />

http://www.icpsr.umich.edu/DDI/<br />

Digital Preservation Management [interaktyvus]. Cornell University Library, 2003-2007 [žiūrėta<br />

2007-12-07]. Prieiga per internetą: http://www.icpsr.umich.edu/dpm/dpm-eng/eng_index.html<br />

Dublin Core Metadata Initiative [interaktyvus]. DCMI, 1995-2008 [žiūrėta 2007-12-18]. Prieiga<br />

per internetą: http://dublincore.org/<br />

ePaveldas [interaktyvus]. [Žiūrėta 2008-02-06]. Prieiga per internetą: http://www.epaveldas.lt<br />

Europos žodynas EUROVOC [interaktyvus]. [žiūrėta 2008 04 11]. Prieiga per internetą<br />

http://www3.lrs.lt/eurovoc<br />

86


German Social Science Infrastructure Servines [interaktyvus]. 2004 [žiūrėta 2008-04-04].<br />

Prieiga per internetą: http://zacat.gesis.org/webview/index.jsp<br />

Gilchrist A. Thesauri, taxonomies and ontologies – an etymological note//JDOC, vol. 59 No.1,<br />

2003, p. 7-17.<br />

Gill T., Gilliland A.J, Woodley M. S. Introduction to metadata: pathways to digital information<br />

[interaktyvus]. 1998. [žiūrėta 2008 04 11] Prieiga per internetą:<br />

http://www.getty.edu/research/conducting_research/standards/intrometadata/index/html<br />

HASSET thesaurus. In: UK Data Archive. [interaktyvus]. [žiūrėta 2008 04 11] . Prieiga per<br />

internetą http://www.data-archive.ac.uk/search/hassetSearch.asp<br />

HAYNES, D. Metadata for information management and retrieval. London : Facet<br />

Publishing, 2004. - xiv, 186 p. : iliustr. - ISBN 1-85604-489-0<br />

Hunter E.J. Classification made simple. Ashgate, 2002, 150 p.<br />

Inter-University Consortium for Political and Social Research [interaktyvus]. University of<br />

Michigan, 2007 [žiūrėta 2008-04-04]. Prieiga per internetą: https://www.icpsr.umich.edu/<br />

ISBD(ER): International Standard Bibliographic Description for Electronic Resources<br />

[interaktyvus]. [Žiūrėta 2008-01-24]. Prieiga per internetą:<br />

http://www.ifla.org/VII/s13/pubs/isbd3.htm#17<br />

ISO 14721:2003 Space Data and Information Transfer System - Open Archival Information<br />

System - Reference Model [interaktyvus]. International Organization for Standardization, 2008<br />

[žiūrėta 2007-02-04]. Prieiga per internetą:<br />

http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=24683<br />

Koch T. Controlled vocabularies, thesauri and classification systems available in the WWW.<br />

[žiūrėta 2008 04 07] Prieiga per internetą http://www.lub.lu.se/metadata/subject-help.html<br />

<strong>LiDA</strong> : Lietuvos HSM duomenų archyvas [interaktyvus]. Kaunas: KTU Politikos ir viešojo<br />

administravimo institutas, 2008 [žiūrėta 2008-04-03]. Prieiga per internetą:<br />

http://debian.library.lt/webview/<br />

Lietuvos 2004-2006 metų bendrasis programavimo dokumentas [interaktyvus]. Patvirtinta<br />

Lietuvos Respublikos Vyriausybės 2004 m. rugpjūčio 2 d. nutarimu Nr. 935 (Žin., 2004, Nr.<br />

123-4486) [žiūrėta 2008-02-04]. Prieiga per internetą:<br />

http://www.ivpk.lt/fondai/bpd/BPD_2007-03-28_1.doc<br />

Lietuvos akademinė elektroninė biblioteka eLABa [interaktyvus]. Lietuvos akademinių<br />

bibliotekų tinklas (LABT), 2005 [žiūrėta 2008-04-03]. Prieiga per internetą:<br />

http://elaba.library.lt<br />

Lietuvos virtuali biblioteka [interaktyvus]. Lietuvos akademinių bibliotekų tinklas (LABT)<br />

[žiūrėta 2008-04-03]. Prieiga per internetą: http://www.lvb.lt<br />

87


LUPOVICI, C.; MASANES, J. Metadata for the long term preservation of electronic<br />

publications. Den Haag: Koninklijke Bibliotheek, 2000. 22 p.<br />

Medical subject headings [interaktyvus]. National Library of Medicine [žiūrėta 2008 m. 04 07]<br />

Prieiga per internetą http://www.nlm.nih.gov/mesh/<br />

Miežinienė A. IPS teorijos raida/ Teoriniai bibliotekininkystės pagrindai: vadovėlis<br />

bibliotekininkystės ir bibliografijos specialybių studentams/ sudaryta G. Raguotienės. Vilnius:<br />

Stepono batoro leidykla. 2-asis patais. ir papild. leid. 1990. P. 127-187<br />

Mokslų klasifikacija. Mokslas ir studijos [interaktyvus]. [Žiūrėta 2008 m. 04 08 d.]<br />

http://www.mokslas.lt/index.cgi?menu_item=science_directions<br />

OWL. Web Ontology Language overview. [interaktyvus]. Semantic Web. [žiūrėta 2008 04<br />

08].Prieiga per internetą: http://www.w3.org/TR/owl-features/.<br />

Roget’s thesaurus of English words and phrases. [Žiūrėta 2008 04 08]. Prieiga per internetą<br />

http://leva.leeds.ac.uk/www_rgt/rgt_index.html<br />

ŠTREIMIKIS, A.; KUČIUKAS, V.; ŽURAUKAS, S.; TARGAMADZĖ, A; ŽALYS, A. Lietuvo<br />

s akademinė e. biblioteka (eLABa) // Informacijos mokslai = Information Sciences : mokslo<br />

darbai / Vilniaus universitetas. - ISSN 1392-0561. - Vilnius. - 2007, T. 40, p. 9-24<br />

Taylor Arlene G. Introduction to cataloging and classification. Tenth ed. /Library and<br />

Information Text Series. – London, Libraries Unlimited, 2006. P.301- 390.<br />

Taylor Arlene G. The organization of information. Second ed. /Library and Information Text<br />

Series. – London, Libraries Unlimited, 2004. P. 10-65, 139-155, 241-295.<br />

UDC Consortium [interaktyvus]. [žiūrėta 2008 04 02]. Prieiga per internetą<br />

http://www.udcc.org/<br />

UK Data Archive [interaktyvus]. University of Essex, 2002-2008 [žiūrėta 2008-04-04] prieiga<br />

per internetą: http://www.data-archive.ac.uk/findingData/aboutCat.asp<br />

Universalioji dešimtainė klasifikacija: Sutrumpintos lentelės/ sudarė A. Miežinienė, M.<br />

Prokopčik. – Vilnius, 1994. – 476 p.<br />

Web Thesaurus compendium[interaktyvus]. [žiūrėta 2008 m. 03 15]. Prieiga per internetą:<br />

http://www.ipsi.fraunhofer.de/~lutes/thesoecd.html<br />

88


Santrumpų sąrašas<br />

ALEPH – Integruota bibliotekinė sistema ALEPH (angl. Aleph Integrated Library System)<br />

BPD – Bendrasis programavimo dokumentas<br />

CESSDA – Europos socialinių mokslų duomenų archyvų taryva (angl. Council of European Social<br />

Science Data Archives)<br />

DC – Dublino branduolys (angl. Dublin Core)<br />

DDI – Duomenų aprašymo iniciatyva (angl. Data Documentation Initiative)<br />

DTD – dokumento tipo apibrėžtis (angl. Document Type Definition)<br />

eLABa - Lietuvos akademinė elektroninė biblioteka<br />

ETD – Elektroninės tezės ir disertacijos<br />

HTML – Hiperteksto žymėjimo kalba (angl. Hyper Text Markup Language)<br />

ICPSR - Politinių ir socialinių mokslų tyrimų tarpuniversitetinis konsorciumas (angl. Inter-<br />

University Consortium for Political and Social Research)<br />

IFLA – Tarptautinė bibliotekų asociacijų ir jų įstaigų federacija (angl. International Federation of<br />

Library Associations and Institutions)<br />

IPK – Informacijos paieškos kalba<br />

IPS – Informacijos paieškos sistema<br />

ISAD – Tarptautinis archyvinio aprašymo standartas (angl. International Standard Archival<br />

Description)<br />

ISAD (G) – Bendras tarptautinis archyvinio aprašymo standartas (angl. General International<br />

Standard Archival Description)<br />

ISBN – Tarptautinis standartinis knygos numeris (angl. International Standard Book Number)<br />

ISSN – Tarptautinis standartinis serijos numeris (angl. International Standard Serial Number)<br />

KTU – Kauno technologijos universitetas<br />

LABT – Lietuvos akademinių bibliotekų tinklas<br />

LCSH – JAV Kongreso bibliotekos rubrikynas (angl. Library of Congress Subject Headings)_<br />

LNB – Lietuvos nacionalinė Martyno Mažvydo biblioteka<br />

LV – Leksinis vienetas<br />

LVB – Lietuvos virtuali biblioteka<br />

Nesstar – Tikliniai socialinių mokslų įrankiai ir resursai (angl. Networked Social Science Tools and<br />

Resources)<br />

NK – Natūrali kalba<br />

RŽ – Reikšminis žodis<br />

SGML - Universali dokumentų ženklinimo kalba (angl. Standard Generalized Mark-up Language)<br />

UNIMARC – Universalus MARC formatas (angl. Universal MARC Format)<br />

XML – (angl. Extensible Mark-up Language)<br />

89

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!