MOKYMO KURSAS INFORMACINIS RAŠTINGUMAS ... - LiDA
MOKYMO KURSAS INFORMACINIS RAŠTINGUMAS ... - LiDA
MOKYMO KURSAS INFORMACINIS RAŠTINGUMAS ... - LiDA
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
EUROPOS SĄJUNGA<br />
Europos socialinis fondas<br />
KURKIME ATEITĮ DRAUGE!<br />
Projektas<br />
“Empirinių duomenų ir informacijos HSM tyrimams kaupimas ir valdymas : Lietuvos HSM<br />
duomenų archyvas (<strong>LiDA</strong>)”<br />
SFMIS Nr. BPD2004-ESF-2.5.0-03-05/0042<br />
<strong>MOKYMO</strong> <strong>KURSAS</strong><br />
<strong>INFORMACINIS</strong> <strong>RAŠTINGUMAS</strong> DUOMENŲ ARCHYVO<br />
VARTOJIMUI<br />
KAUNAS, 2008
Autorė: Marija Prokopčik<br />
Autorė dėkoja kolegėms Jūratei Kuprienei ir dr. Reginai Varnienei už pagalbą<br />
rengiant mokomąją medžiagą<br />
2
Turinys<br />
ĮVADAS .............................................................................................................................................................................. 4<br />
1. NATŪRALIŲ IR KONTROLIUOJAMŲ KALBŲ SAMPRATA, JŲ PRIVALUMAI, TRŪKUMAI IR<br />
GALIMYBĖS INFORMACIJOS TVARKYBOS IR IEŠKOS POŽIŪRIU ................................................................ 5<br />
NATŪRALIŲ IR KONTROLIUOJAMŲ KALBŲ SAMPRATA ....................................................................................................... 5<br />
NATŪRALIŲ KALBŲ TRŪKUMAI INFORMACIJOS TVARKYBOS IR IEŠKOS POŽIŪRIU ........................................................... 6<br />
REIKALAVIMAI IPK IR JŲ REALIZAVIMO PRIEMONĖS .......................................................................................................... 8<br />
KONTROLIUOJAMOS (DIRBTINĖS) KALBOS ......................................................................................................................... 9<br />
SVARBIAUSIOS DOKUMENTŲ KLASIFIKACIJOS ................................................................................................................... 10<br />
2. DALYKINĖ TEMINĖ DOKUMENTŲ ANALIZĖ IR INDEKSAVIMO PROCESAS ........................................ 18<br />
3. KONTROLIUOJAMI ŽODYNAI. TEZAURAI, KAIP LEKSIKOGRAFINĖS KONTROLĖS UŽTIKRINIMO<br />
PRIEMONĖ ..................................................................................................................................................................... 26<br />
TEZAURAI, JŲ PASKIRTIS IR FUNKCIJOS ............................................................................................................................. 26<br />
TEZAURŲ STRUKTŪRA IR FIKSUOJAMI SANTYKIAI ........................................................................................................... 28<br />
TEZAURŲ RENGIMAS IR VERTINIMAS ................................................................................................................................ 30<br />
4. SVARBIAUSI HUMANITARINIŲ IR SOCIALINIO MOKSLŲ SRITIES TEZAURAI ................................... 32<br />
INFORMACIJOS TVARKYMUI IR PAIEŠKAI DUOMENŲ ARCHYVUOSE NAUDOJAMI HSM SRITIES TEZAURAI ................... 38<br />
LIDA TEZAURAS ................................................................................................................................................................ 41<br />
5. METADUOMENYS. METADUOMENŲ SCHEMOS IR ELEMENTŲ RINKINIAI. EMPIRINIŲ DUOMENŲ<br />
APRAŠYMO STANDARTAS IR JO TAIKYMAS ARCHYVO REIKMĖMS. ........................................................ 48<br />
LIDA IR LINGVISTINIS APRŪPINIMAS ................................................................................................................................. 48<br />
LIDA – ARCHYVAS ............................................................................................................................................................. 53<br />
METADUOMENYS ................................................................................................................................................................ 57<br />
DUBLIN CORE METADUOMENŲ INICIATYVA ....................................................................................................................... 60<br />
DDI ..................................................................................................................................................................................... 62<br />
LIDA METADUOMENŲ SĄSAJA SU BIBLIOTEKŲ KATALOGŲ ĮRAŠAIS .................................................................................. 63<br />
EMPIRINIŲ DUOMENŲ APRAŠYMO STANDARTAS IR JO TAIKYMAS ARCHYVO REIKMĖMS ................................................... 66<br />
LIDA PRIEIGA IR METADUOMENŲ PERŽIŪRA ..................................................................................................................... 69<br />
KITI ARCHYVAI IR DUOMENŲ RINKINIŲ PERŽIŪRA ........................................................................................................... 84<br />
NAUDOTOS LITERATŪROS IR ŠALTINIŲ SĄRAŠAS: ........................................................................................ 86<br />
SANTRUMPŲ SĄRAŠAS: ............................................................................................................................................. 89<br />
6. PRIEDAS. <strong>MOKYMO</strong> KURSO SKAIDRĖS<br />
3
Įvadas<br />
Duomenų tvarkymas ir jų paieška socialinės ir humanitarinės srities duomenų archyvuose<br />
reikalauja atitinkamų teorinių žinių ir praktinių įgūdžių. Lietuvos socialinių ir humanitarinių mokslų<br />
tyrinėtojai, kurie yra potencialūs <strong>LiDA</strong> kūrėjai ir naudotojai, neturi pakankamų šios srities žinių ir<br />
praktinių įgūdžių, neturi patirties naudojant tezaurų tipo kontroliuojamus žodynus, rengiant ir<br />
tvarkant metaduomenis.<br />
Mokymo kursas ,,Informacinis raštingumas duomenų archyvo vartojimui“ skirtas socialinių<br />
ir humanitarinių mokslų duomenų vartotojams – ekspertams, doktorantams, pedagogams,<br />
dėstytojams, mokslininkams ir kitiems.tyrėjams. Mokymų medžiagos rengimo tikslas yra suteikti<br />
teorinių žinių ir praktinių įgūdžių, būtinų HSM duomenų organizavimui ir jų paieškai; supažindinti<br />
su pagrindinėmis informacijos paieškos kalbomis, jų organizavimo būdais ir priemonėmis, HSM<br />
duomenų analize ir indeksavimo procesais, kontrolės žodynais, visų pirma, tezaurais ir<br />
svarbiausiomis metaduomenų schemomis; ugdyti gebėjimus naudotis archyvavimo reikmėms<br />
parengtu lietuvišku HSM tezauru ir empirinių duomenų aprašymo standartu. Mokymo kurso<br />
medžiagą sudaro šie skyriai: natūralių ir kontroliuojamų kalbų samprata, jų privalumai, trūkumai ir<br />
galimybės informacijos tvarkybos ir ieškos požiūriu; dalykinė teminė dokumentų analizė ir<br />
indeksavimo procesas; kontroliuojami žodynai :tezaurai, kaip leksikografinės kontrolės užtikrinimo<br />
priemonė; svarbiausi HSM srities tezaurai, HSM tezauro lietuvių kalba naudojimas archyvo<br />
reikmėms; metaduomenys, metaduomenų schemos ir elementų rinkiniai, empirinių duomenų<br />
aprašymo standartas ir jo taikymas archyvo reikmėms.<br />
Šiuose skyriuose medžiaga yra pristatoma nuosekliai derinant teorines žinias ir siekiant<br />
formuoti praktinius įgūdžius. Kiekviena tema pradedama nuo atitinkamos tematikos terminų<br />
pristatymo, apibrėžimų, medžiagos, kuri reikalinga aptariamos problematikos supratimui. Praktinėje<br />
dalyje pateikiami konkretūs pavyzdžiai, pristatomos analizuojamų priemonių rengimo ir taikymo<br />
galimybės organizuojant HSM informaciją archyve ir vykdant jos paiešką.<br />
4
1. Natūralių ir kontroliuojamų kalbų samprata, jų privalumai, trūkumai ir<br />
galimybės informacijos tvarkybos ir ieškos požiūriu<br />
Informacijos tvarkymas ir jos ieška siejama su informacijos organizavimu. Organizuodami<br />
informaciją, mes ją grupuojame, klasifikuojame, kategorizuojame, t.y. jungiame į klases, grupes,<br />
kategorijas.<br />
Informacija organizuojama tam, kad būtų galima surasti mus dominančius objektus,<br />
informaciją apie juos. Kitas svarbus informacijos organizavimo rezultatas – galimybė išsaugoti ją<br />
ateities kartoms.<br />
Mūsų objektas – informacija saugoma archyvuose, bibliotekose ar muziejuose, kitose<br />
panašiose talpyklose, t.y. kalbama apie informaciją, kuri užfiksuota tam tikrose laikmenose (o jeigu<br />
virtuali, tai tam tikru būdu apipavidalinta). Būtent šią informaciją – informacijos vienetus,<br />
informacijos paketus (angl. Information packages), - tai turbūt tiksliausias tinklalapio apibūdinimas,<br />
turime organizuoti taip, kad ją būtų kiek galint paprasčiau surasti.<br />
Informacijos vienetus galima organizuoti pagal formalius požymius – autorius, antraštę,<br />
ISBN ar ISSN numerį, leidimo, vietą, metus, formą.<br />
Kita galimybė - šių informacijos vienetų organizavimas pagal jų turinį – išskiriant temą,<br />
dalyką, objektą, t.y. atliekant jų intelektualaus turinio analizę.<br />
Kiekvieno informacijos vieneto dalykinė (teminė) analizė susijusi su jo intelektualiojo<br />
turinio nustatymu (apie ką yra informacijos vienetas, jo ,,apie-ybė” – angl. aboutness), atitinkamų<br />
,,apie-ybę” nusakančių sąvokų pasirinkimu – ,,įžodinimu” ir šių sąvokų išreiškimu konkrečios<br />
informacijos paieškos kalbos (toliau IPK) terminais. Natūralios kalbos (toliau NK) žodžiai tuo būdu<br />
išverčiami į IPK terminus. Bendriausiu atveju IPK gali būti dvejopos – linijinės hierarchinės<br />
struktūros IPK (nuo plačiausios prie siauriausios sąvokos – nuo bendro prie specifinio) –<br />
hierarchinės klasifikacijos ir žodinės abėcėlinės IPK, kur terminai (panašūs į NK žodžius) dėstomi<br />
abėcėlės seka.<br />
Natūralių ir kontroliuojamų kalbų samprata<br />
Akivaizdu, kad ne vienam kyla klausimas, kam reikalingos IPK, jeigu dabar paieška pagal<br />
dalyką tapo pagrindiniu informacijos radimo būdu ir ieškodami informacijos vartotojai masiškai<br />
naudoja NK. Kita vertus nors internete masiškai naudojama paieška pagal natūralios kalbos žodžius<br />
formuluojamus kaip reikšminiai žodžiai, didžiuliai nerelevančios informacijos kiekiai netenkina<br />
5
daugelio vartotojų. Akivaizdu, kad didėjant pasiekiamos informacijos kiekiui vien paieškos pagal<br />
RŽ nepakanka. Daugelis žodžių, o anglų kalboje, kurią taip dažnai naudojame informacijos paieškai,<br />
beveik visi turi daugiau negu vieną prasmę ar reikšmę, o šios dar po kelis niuansus. Daugelis žodžių<br />
gali būti daiktavardžiai, veiksmažodžiai, būdvardžiai, prieveiksmiai. Paieškos sistemos, kurios<br />
tariamai leidžia vartotojui naudoti ,,natūralią kalbą”, iki šiol nesugeba atskirti visų reikšmių ar<br />
kalbos dalių, ypač kai kalbama apie plačias universalias sistemas. Tam tikrų pasiekimų yra<br />
siauresnėse sistemose.<br />
Kita problema tai, kad autoriai, rašantys apie tuos pačius dalykus naudoja skirtingus žodžius<br />
jiems įvardinti, o tų pačių dalykų ieškantys žmonės neranda reikiamų žodžių jiems pavadinti. Yra<br />
atlikta daugybė tyrimų, skirtų indeksavimo nuoseklumo reiškiniui. Koks bebūtų tokių tyrimų tikslas<br />
ir rezultatai, visi jie parodė, kad tai pačiai sąvokai išreikšti žmonės dažnai pasirenka skirtingus<br />
žodžius, t.y. indeksavimui būdingas nenuoseklumas.<br />
Tokia situacija rodo, kad norint suderinti visus žodžius, kuriuos būtų galima naudoti sąvokai<br />
išreikšti ir parodyti visas įmanomas tam tikro žodžio reikšmes, reikalinga tam tikra dirbtinė struktūra<br />
– informacijos paieškos kalba, kuri paprastai naudojama kaip kontroliuojamas žodynas.<br />
IPK - dirbtinė kalba, skirta dokumentų ir užklausų turiniui išreikšti ir fiksuoti<br />
informacijos paieškos sistemoje (toliau IPS).<br />
Natūralių kalbų trūkumai informacijos tvarkybos ir ieškos požiūriu<br />
Natūrali kalba (kaip informacijos fiksavimo priemonė inf. tvarkymo ir ieškos požiūriu)<br />
turi trūkumų, kuriuos leidžia pašalinti arba apriboti IPK ir jų žodynų naudojimas.<br />
Pagrindinė trūkumų priežastis tai, kad NK turinys ir išraiškos priemonės nėra tapatūs:<br />
vienas turinys – kelios išraiškos formos.<br />
NK, viena vertus, būdingas - gausumas (įvairumas, perteklius), kita vertus, yra situacijų,<br />
kai NK priemonių nepakanka tam tikrai sąvokai išreikšti.<br />
Gausumas<br />
Sinonimai<br />
Sinonimai (gr. synonymos- bendravardis) – skirtingai skambantys, bet tą pačią arba artimą<br />
prasmę turintys žodžiai, žodžių formos, junginiai. Absoliučių sinonimų (kiškis – zuikis) nėra daug,<br />
tačiau daug diferencinių (kalbėti – byloti, kampas- kertė), dar daugiau žodžių tampa sinonimais tam<br />
tikrame kontekste. Taigi tekstų autoriai turi galimybę rinktis įvairius žodžius, žodžių junginius tai<br />
6
pačiai sąvokai išreikšti. Todėl rengiant kontroliuojamus žodynus taip svarbu nustatyti visus<br />
sinonimus ir apjungti juos po vienu pavadinimu. Ar ,,drabužiai”, ,,drapanos”, ,,apdaras”, ,,apranga”<br />
reiškia tą patį dalyką? Jeigu ne tą patį, ar jų skirtumai tokie ryškūs, kad kiekvieną jų būtų galima<br />
laikyti atskiru leksiniu vienetu? Svarbu nustatyti ir tą, kuris geriausiai žinomas numatomam<br />
vartotojui. Kita vertus toks pasirinkimas paprastai priklauso nuo rengėjo.<br />
Žodžių formos<br />
Vystantis kalbai terminai, kuriuos žymi keli žodžiai, susilieja į vieną (pvz., on line; on-line;<br />
online). Kartais gali būti naudojamos visos trys formos. Dar vienas žodžių formų įvairovės pvz., yra<br />
britų ir amerikiečių rašybos būdai (catalog ir catalogue, colour ir color).<br />
Prielinksniai gali iš esmės pakeisti žodžio reikšmę: lygybė – nelygybė, ginklavimasis ir<br />
nusiginklavimas. Paprastai kontroliuojamuose žodynuose nėra prasmės naudoti abi sąvokas, nes jos<br />
dažniausiai nagrinėjamos tik drauge.<br />
Svarbiausias žodžių formų skirtumas tai - vienaskaita ir daugiskaita. Taisyklės, kurią formą<br />
naudoti nėra. Paprastai laikoma, kad daugiskaita suponuoja platesnę sąvokos apimtį (pvz., geriau<br />
knygos, o ne knyga), kita vertus, daugiskaita ir vienaskaita gali turėti skirtingas reikšmes (menas ir<br />
menai)<br />
Santrumpos ir akronimai<br />
Santrumpos ir akronimai tradiciškai yra iššifruojami arba ne priklausomai nuo jų paplitimo,<br />
numatomų vartotojų ir jų žinių. Dėl globalus paieškos pobūdžio numatyti visus galimus vartotojus<br />
sudėtinga, todėl paprastai santrumpas ir akronimus reikėtų iššifruoti. Net visuotinai žinomas<br />
akronimas AIDS ispanų kalba yra SIDA.<br />
Tikslūs (specifiški) ir bendrieji terminai<br />
Tai pačiai sąvokai išreikšti galime naudoti tikslius (adekvačius) terminus arba bendruosius<br />
(apibendrinančius). Pavyzdžiui, „Katės“ kabutės nelietuviškos yra ir kitose teksto vietose yra<br />
bendresnis terminas, negu „Kačių veislės“, ,,Kačių veislės” bendresnis negu „Siamo katės“, o<br />
,,Mėlynosios Siamo katės” – dar tikslesnis. Pvz., JAV Kongreso bibliotekos rubrikų sąraše (angl.<br />
Library of Congress Subject Headings) – tiksliausias terminas –-,,Siamo katės”, o mažesnėms<br />
viešosioms bibliotekoms skirtame Sears rubrikyne (angl. SEARS list of subject headings) – ,,Katės”,<br />
nors yra nuoroda, kad esant reikalui galima sukurti terminą konkrečiai kačių veislei. Lietuvos M.<br />
Mažvydo nacionalinės bibliotekos rubrikyne yra tik vienas terminas – ,,Katės”.<br />
7
Spendimą apie tikslumą lemia informacijos išteklių pobūdis ir apimtis, vartotojų tipas. Jeigu<br />
fondas universalus – pakanka termino ,,Katės”, jeigu siauresnis – galima naudoti tikslesnį terminą.<br />
Visuotinai paplitę /populiarūs terminai ir specialūs terminai<br />
Kai sąvoką galima išreikšti specialiu ir techniniu terminu, žodyno rengėjai turi nuspręsti, kuri forma<br />
tinkamesnė. Paprastai specialistams skirtame žodyne bus naudojamas specialus terminas, pvz.,<br />
navikas, neoplazma, o bendros paskirties žodyne bus taikomas paplitęs terminas, pvz. vėžys. Kita<br />
vertus, atsižvelgiant į tarptautinės autoritetinės kontrolės mastą, paieškos metu turėtų būti<br />
aktyvuojami abu šie terminai. Tokias galimybes užtikrina ontologijų naudojimas.<br />
Nepakankamumas<br />
Homografai<br />
Homografai tai – žodžiai, turintys vienodą formą, bet skirtingas reikšmes. (Merkurijus –<br />
planeta, romėnų dievas, automobilis; kasa – plaukų, bilietų, vienas iš žmogaus organų, vėžys –<br />
gyvūnas ir susirgimas). Kiekviename žodyne turi būti numatytas būdas, kaip atskirti skirtingas<br />
reikšmes. Galima naudoti pastabas arba homografo sinonimą kaip teiktiną terminą (atitiktinį).<br />
Vienas būdų, kaip elgtis su homografais yra taikyti pastabas (paaiškinimus). Pavyzdžiui:<br />
Merkurijus (planeta)<br />
Merkurijus (Romėnų dievas).<br />
Paaiškinimai naudojami ir tada, kai reikia parodyti skirtingą termino naudojimo kontekstą:<br />
Svetimavimas (actekų teisė)<br />
Svetimavimas (žydų teisė)<br />
Svetimavimas (zulusų teisė)<br />
Be to, pastabos padeda paaiškinti nežinomus žodžius. Pavyzdžiui: Zulusai (Pietų Afrikos<br />
gentis).<br />
Dirbtinės IPK turėtų eliminuoti arba bent sumažinti šiuos trūkumus.<br />
Reikalavimai IPK ir jų realizavimo priemonės<br />
IPK keliami tokie reikalavimai:<br />
8
• vienareikšmiškumas - viena sąvoka = vienas žodis (išraiškos būdas); Tuo būdu apribojama<br />
sinonimika, homonimija, NK daugiareikšmiškumas, kalba formalizuojama;<br />
• aiškus naudingų paieškai loginių santykių ir psichologinių asociacijų fiksavimas tarp IPK<br />
elementų;<br />
• atvirumas; - galima keisti, pildyti;<br />
• naudojimosi patogumas – mnemoniškumas, paprastumas, kompaktiškumas.<br />
Pagrindinė tokių reikalavimų realizavimo priemonė – atitinkamų IPK elementų ir<br />
žodyno struktūros pasirinkimas.<br />
Pagrindiniai IPK elementai;<br />
• leksiniai vienetai (žodžiai, kodai, indeksai, jų junginiai);<br />
• paradigminiai santykiai (baziniai, analitiniai) – prasmės (panašumo, skirtumo ir kt.)<br />
santykiai tarp LV, kurie nepriklauso nuo konteksto, o priklauso nuo paieškos poreikių;<br />
• sintagminiai santykiai (teksto, gramatiniai, sintaksės) – santykiai tarp LV vienoje paieškos<br />
charakteristikoje. Jie priklauso nuo konteksto ir gali keistis.<br />
Kontroliuojamos (dirbtinės) kalbos<br />
Yra daugybė IPK klasifikavimo kriterijų (IPK struktūros elementai, leksinių vienetų<br />
koordinavimas arba postkoordinavimas). Mūsų reikmėms pakanka išskirti jau minėtas dviejų<br />
rūšių IPK – linijinės hierarchinės struktūros IPK, hierarchinės klasifikacijos, (kai einama nuo<br />
plačiausios prie siauriausios sąvokos – nuo bendro prie specifinio) –arba ir žodinės abėcėlinės IPK,<br />
kur terminai (panašūs į NK žodžius) dėstomi abėcėlės seka.<br />
Linijinės hierarchinės struktūros IPK arba hierarchinės klasifikacijos<br />
Dokumentų arba bibliotekinės klasifikacijos tai – dokumentų (informacijos vienetų)<br />
skirstymo sistemos, kuriose kiekviena klasė kitų atžvilgiu turi nuolatinę vietą. Klasifikacijos gali<br />
būti natūralios ir dirbtinės. Natūralios yra paremtos esminiais objektų požymiais, pvz., dokumentų<br />
klasifikavimas pagal turinį. Dirbtinės klasifikacijos remiasi antraeiliais, neesminiais objektų<br />
požymiais, pvz., dokumentų klasifikacija pagal dydį arba abėcėliškai pagal autorius, antraštes.<br />
Paprastai jos atlieka pagalbinį vaidmenį.<br />
9
Dokumentų arba bibliotekinis bibliografinis klasifikavimas yra tiesiogiai susijęs su mokslo<br />
klasifikavimu: jis yra antrinis mokslo klasifikavimo atžvilgiu ir nuo jo priklauso arba juo remiasi.<br />
Svarbiausios dokumentų klasifikacijos<br />
Melvilio Djuji (Melvil Dewey, 1851 -1931) dešimtainė klasifikacija (DDK)<br />
Pagrindinė DDK klasių eilė<br />
000 Generalities Bendrasis<br />
100 Philosophy & psychology Filosofija ir psichologija<br />
200 Religion Religija<br />
300 Social sciences Socialiniai mokslai<br />
400 Languages Kalbos/Filologija<br />
500 Natural sciences & mathematics Gamtos mokslai ir matematika<br />
600 Technology (Applied sciences) Technologija<br />
mokslai)<br />
(taikomieji<br />
700 The arts (Fine and decorative arts) Vaizduojamieji menai<br />
800 Literature & rhetoric Literatūra<br />
900 Geography & history Geografija ir istorija<br />
Sudarant indeksą, pirmasis trijų narių skaičiaus elementas rodo pagrindinę klasę, antrasis<br />
rodo skyrių, trečias - poskyrį: pvz. 600 Technologija, 610 Medicina, 620 Inžinerija, 630 Žemės ūkis;<br />
611 – žmogaus anatomija, 612 – žmogaus fiziologija.<br />
Šiuo metu DDK yra viena labiausiai naudojamų dokumentų klasifikacijų pasaulyje.<br />
DDK autorines teises turi OCLC (angl. Online computer library center). Leidžiamas pilnas<br />
ir sutrumpinti (iki 20.000 dokumentų fondui) lentelių variantai, popierine ir elektronine forma<br />
(WebDewey ir WebDeweyAbridged). 2003 m. išėjo 22 pilnas leidimas. Nuo 1994 m. leidžiamas CD<br />
Dewey for Windows, nauja medžiaga atsispindi adresu http://www.oclc.org/dewey.<br />
Universalioji dešimtainė klasifikacija (UDK)<br />
10
Ši klasifikacija plačiai naudojama Lietuvoje. UDK yra skirta visų žinijos sričių dokumentų<br />
klasifikavimui. Tai universali, daugiakalbė klasifikavimo sistema, kuri turi dešimtainę indeksaciją,<br />
hierarchinę skyrių struktūrą, yra sisteminė, t. y. remiasi mokslų sistematika. Tūkstančiai bibliotekų<br />
pasaulyje naudojasi UDK sisteminiam fondų sustatymui ir paieškai. Kompiuteriniuose kataloguose<br />
UDK naudojama kaip dalykinio naršymo ir paieškos priemonė.<br />
Pagrindinė klasių eilė:<br />
0 Bendrasis sykius<br />
1 Filosofija. Psichologija<br />
2 Religija. Teologija<br />
3 Visuomenės mokslai<br />
4 [laisvas nuo 1961 m.]<br />
5 Matematika. Gamtos mokslai<br />
6 Taikomieji mokslai. Medicina. Technika<br />
7 Menas. Fotografija. Žaidimai. Sportas<br />
8 Kalbotyra. Filologija. Grožinė literatūra. Literatūros mokslas<br />
9 Geografija. Biografijos. Istorija<br />
Klasės toliau skirstomos taikant dešimtainį principą. Einama nuo plačiausios (bendriausios)<br />
iki siauriausios (konkrečiausios) sąvokos:<br />
0 Bendrasis skyrius<br />
00 Įvadas. Žinių ir kultūros pagrindai<br />
004 Kompiuterija ir kompiuterinė technologija. Duomenų apdorojimas<br />
004.4 Programinė įranga<br />
004.42 Kompiuterio programavimas. Kompiuterinės programos<br />
004.422 Kompiuterinių programų sudėtinės dalys<br />
004.422.3 Kintamieji<br />
004.422.32 Kintamųjų rūšys<br />
004.422.324 Statinis ir dinaminis kintamasis<br />
UDK puikiai tinka kompiuterinėms sistemoms. Naudojami charakteringi ženklai leidžia<br />
atlikti paiešką pagal bet kurį elementą ar jų derinį ir užtikrina paieškos tikslumą. Skaitmeninių kodų<br />
ir natūralios kalbos aprašymų derinimas užtikrina dvejopo rūšiavimo, pagal numerius ir abėcėlę,<br />
galimybę (katalogams, autoritetiniams failams, rodyklėms tvarkyti).<br />
11
1995 metais Lietuvos nacionalinė M. Mažvydo biblioteka pasirašė MRF (angl. angl. Master<br />
Reference File) failo vertimo ir publikavimo licencijos sutartis su UDK Konsorciumu. Šios sutarties<br />
pagrindu rengiama lietuviška UDK bazė. 2001 m. UDK bazė integruota į bendrą Lietuvos<br />
nacionalinės M. Mažvydo bibliotekos LIBIS duomenų bazių struktūrą ir įgyvendinta šios<br />
bibliotekos kompiuterinio katalogo bibliografinių įrašų bei UDK duomenų bazių sąsaja.<br />
Žodinės abėcėlinės IPK<br />
Žodinės abėcėlinės IPK, tai tokios informacijos tvarkybai ir paieškai skirtos kalbos, kurių<br />
leksiniai vienetai - NK žodžiai ar jų junginiai dėstomi abėcėlės seka. Žodinės abėcėlinės IPK<br />
abėcėlinės dalykų klasifikacijos ir deskriptorinės kalbos. Žodinės abėcėlinės IPK fiksuojamos<br />
kontroliuojamuose žodynuose: rubrikynuose, tezauruose ontologijose.<br />
Abėcėlinės dalykinės IPK<br />
Dalykinimo esmė - dokumento turinys išreiškiamas tipiniais žodžiais - dalykinėmis<br />
rubrikomis. IPK žodyne (rubrikyne) rubrikos dėstomos abėcėlės seka.<br />
Dalykinė rubrika (toliau DR) - trumpa (formalizuota) dalyko žodinė išraiška.<br />
Atlikus konceptualiąją dokumento analizę ir nustačius reikiamas sąvokas, jos yra<br />
išreiškiamos, kaip dalykinė(ės) rubrika(os), t.y. natūralios kalbos žodžiai. Taigi dokumentas ,,Etika<br />
gyvenime ir versle: pažinimas ir taikymas” (Beržinskas, Gediminas 2002. - 286, [1] p.) bus<br />
indeksuojamas naudojant dalykines rubrikas: verslo etika, asmenybės moralė, protas, moralė ir<br />
politika, o ne indeksą 17 (UDK), Kita vertus, šie žodžiai rubrikoje yra pasirenkami ne laisvai, o<br />
naudojant specialų rubrikų sąrašą, žodyną ar vardyną.<br />
Dalykinant išskiriamas dalykas kaip toks, nesiejant jo su mokslo šaka. Dalyko vieta<br />
hierarchinėje struktūroje nerodoma. Dalykinant naudojami kontroliuojami žodynai - rubrikynai<br />
(rubrikų sąrašai, vardynai).<br />
Populiariausias ir plačiausiai pasaulyje naudojamas kontroliuojamas dalykinių rubrikų<br />
žodynas yra JAV Kongreso bibliotekos rubrikų sąrašas (angl. Library of Congress Subject Headings<br />
- LCSH). LCSH apima visą žiniją. Jis naudojamas visų tipų bibliotekose JAV ir kitose anglakalbėse<br />
pasaulio valstybėse. Bet kuri biblioteka gali teikti savo siūlymus dėl naujų rubrikų įtraukimo. Tokius<br />
siūlymus teikia apie 100 bibliotekų, jų tarpe ir Lietuvos nacionalinė M. Mažvydo biblioteka. Gauti<br />
siūlymai svarstomi kiekvieną savaitę. Kasmet įtraukiama apie 8.000 naujų rubrikų.<br />
12
Tradicinis LCSH įvaizdis – 5 storos raudonos knygos. 2007 m. išėjo 30 leidimas (280.000<br />
rubrikų ir nuorodų). Tai šios srities pasaulio standartas. Rubrikynas yra išverstas į kitas kalbas,<br />
naudojamas kaip pagrindas rengiant analogiškus kitų kalbų žodynus, pvz. lietuvių.<br />
Kitas unifikuoto standartinių dalykinių rubrikų sąrašo pavyzdys tai mažoms ir vidutinėms<br />
viešosioms ir mokyklų bibliotekoms skirtas Sears dalykinių rubrikų sąrašas (angl. Sears List of<br />
Subject Headings). Sears rubrikyne naudojami platesni terminai, mažiau yra specifinių, mokslininkų<br />
auditorijai skirtų terminų. Be to, čia yra mažiau skirsnių.<br />
LCSH SEARS<br />
BT Body covering (anatomy)<br />
Head<br />
RT Scalp<br />
NT Beards<br />
Bristles<br />
Eyerbrows<br />
Eyerlashes<br />
Gray hair<br />
Guard hair<br />
Hosehair<br />
Long hair<br />
Molting<br />
Mustaches<br />
Sale of human hair<br />
Whiskers<br />
Wigs<br />
Wool<br />
…<br />
Hair—Coloring<br />
USE Hair – Dyeing and bleaching<br />
…<br />
Hair dyes<br />
UF Dyes and dyeing – Hair<br />
Hair tints<br />
Tints, hair<br />
BT Hair preparations<br />
Use for general materials on hair as well as for<br />
materials on hairdressing and haircutting.<br />
UF Barbering<br />
Coiffure<br />
Haircutting<br />
Hairdressing<br />
Hairstyles<br />
Hairstyling<br />
BT Head<br />
Personal grooming<br />
NT Wigs<br />
Dalykinė rubrika ,,Plaukai“ (HAIR) iš LCSH ir SEARS rubrikynų<br />
Lietuvos Martyno Mažvydo bibliotekos rubrikynas yra kuriamas JAV Kongreso<br />
bibliotekos rubrikyno pagrindu. Tai reiškia, kad jame gali kuriamos naujos lietuviškos rubrikos<br />
(neturinčios angliškų analogų), bet tai turi būti daroma pagal LCSH sistemos taisykles. Rubrikyną<br />
kuria Lietuvos nacionalinė biblioteka kaip autoritetinę dalykų bazę UNIMARC formatu. Kitoms<br />
įstaigoms jis yra parduodamas. Įstaiga įsigijusi rubrikyną įsipareigoja jame nieko nekeisti.<br />
Rubrikyną dokumentų dalykinimui ir dalykinei paieškai elektroniniuose kataloguose naudoja visos<br />
13
Lietuvos bibliotekos, todėl jis žinomas vartotojui. Rubrikyne yra apie 150.000 įvairių mokslo sričių<br />
terminų.<br />
Dalykinė rubrika ,,Plaukai“ iš Lietuvos nacionalinės M. Mažvydo bibliotekos rubrikyno<br />
Deskriptorinės IPK<br />
Šios IPK yra paremtos koodinatinio indeksavimo metodu, kurio esmė yra tai, kad<br />
indeksuojama paties indeksuojamo teksto žodžiais.<br />
Indeksuojant, informacinio pranešimo turinys yra išreiškiamas aibe paprastas klases<br />
žyminčių NK žodžių, arba žodžių junginių, tarp kurių nėra linijinės priklausomybės. Jie žymi<br />
dokumento koordinates teminių dalykinių požymių erdvėje. Tai leidžia atspindėti bet kurį iš<br />
anksto nenumatytą dokumento temos, dalyko aspektą. Pagal koordinates atliekama paieška.<br />
Koordinatinio indeksavimo požymis ir esmė - manipuliavimas paprastomis klasėmis ir<br />
loginių operatorių naudojimas. Loginiai operatoriai, dar vadinami Būlio operatoriais, jų<br />
autoriaus Dž. Būlio (George Boole, 1815-1864) garbei, leidžia iš paprastų klasių sudaryti<br />
sudėtingas.<br />
• sąjunga (ARBA, U)<br />
• sankirta (IR, ∩)<br />
• skirtumas (NE, /)<br />
14
Sudėtinių klasių susidarymą iš paprastų gerai iliustruoja Veno diagramos. Džono<br />
Venno (John Venn, 1834-1923) anglų matematiko ir filosofo diagramos skirtos rodyti loginius<br />
santykius tarp aibių.<br />
Loginių operatorių naudojimas leidžia iš nedidelio skaičiaus paprastų klasių sukurti<br />
daug ir įvairių sudėtinių klasių.<br />
Dar viena svarbi deskriptorinių IPK lyginant su kitomis kalbomis ypatybė yra tai,<br />
atliekant deskriptorinį indeksavimą yra indeksuojama sąvokomis. Tai leidžia ženkliai apriboti<br />
indeksavimo subjektyvumą.<br />
Deskriptorinių kalbų kontrolės priemonė yra tezauras.<br />
Ontologijos<br />
Ontologija - tam tikros srities bendrai naudojamų sąvokų/konceptų, esybių tipų, jų<br />
tarpusavio priklausomybių, sąryšių, aksiomų, dėsningumų ir kt. visumos formalus aprašas.<br />
Filosofijoje ontologija suteikia kriterijus, kurie leidžia išskirti įvairius objektų tipus<br />
(konkretūs ir abstraktūs, egzistuojantys ir ne, realūs ir idealūs, priklausomi ir ne) bei jų ryšius<br />
(santykius, priklausomybes ir pan.) Žodis ontologija pirmiausia yra filosofijos terminas, turintis<br />
prasmę būtiesar visos tikrovės teorija, naudojamas ir kaip sinonimas terminui metafizika.<br />
Maždaug nuo 1990 m. šis terminas pradėtas naudoti ir kompiuterijos, dirbtinio intelekto<br />
srityse, kalbant apie žinių bendrą naudojimą (angl. knowledge sharing), programinių agentų<br />
tarpusavio sąveiką, visuotinai pripažįstamų (angl. common sense) žinių atvaizdavimą, natūralios<br />
kalbos apdorojimą ir kt.<br />
Pagal paskirtį ontologijos skirstomos:<br />
• žinių vaizdavimo ontologijas;<br />
• bendrąsias ontologijas, visuotinai naudojamų sąvokų ontologijas;<br />
• aukščiausio lygio ontologijas, meta–ontologijas;<br />
• lingvistines ontologijas;<br />
• nagrinėjimo sričių ontologijas; ir kt.<br />
Viena iš plačiausiai žinomų ir naudojamų lingvistinių ontologijų yra WordNet<br />
(www.wordnet.com).<br />
15
WordNet® – 100.000 žodžių reikšmių sugrupuotų į 5 kategorijas: daiktavardžiai,<br />
veiksmažodžiai, būdvardžiai, prieveiksmini ir funkciniai žodžiai; jų reikšmės yra susietos<br />
įvairiais santykiais.<br />
• Sinonimai - tokios pačios arba labai artimos prasmės žodžiai, kurie gali vienas kitą pakeisti.<br />
Sinonimijos santykis toks pat kaip santykis USE tradiciniuose kontroliuojamuose<br />
žodynuose;<br />
• Koordinuoti terminai.Juos galima laikyti broliais ir seserimis. Jie kilę iš to paties termino.<br />
Tai toks pat santykis kaip tradicinio kontroliuojamo žodyno susijęs terminas ar asociacija;<br />
• Hipernimai -tai visų rūšinių elementų gimininiai terminai, pvz. terminas “šeima” yra<br />
hipernimas terminams ,,kalbų šeima”, ,,kreivių šeima”, ‚‘“globos namai”. Hipernimai<br />
panašūs į tradicinio kontroliuojamo žodyno santykį ,,platesnis/gimininis terminas”;<br />
• Hiponimai žymi klasės narius, pvz., ,,kreivių šeima” – termino ,,šeima” hiponimas.<br />
Hiponimai panašūs į tradicinio kontroliuojamo žodyno santykį ,,siauresnis/rūšinis<br />
terminas”);<br />
• Holonimai - tai visumos, kurios dalis yra meronimas pavadinimas. Holonimas tai<br />
pavadinimas visumos, kuri turi dalis (pvz., šeima turi narius: vaikai, tėvai, seserys ir pan.).<br />
Holonimai taip pat panašūs į ,,platesnio termino” santykį;<br />
• Meronimai - kažko sudedamosios dalys ar nariai, pvz., ,,sesuo” tai ,,šeimos” meronimas.<br />
Meronimai taip pat panašūs į ,,siauresnio termino” santykį);<br />
• Antonimai turi priešingą reikšmę. Pvz., ,,šaltas” ir ,,karštas” yra antonimai. Tradiciniuose<br />
kontroliuojamuose žodynuose jie paprastai nėra fiksuojami.<br />
Kiekvienas žodis gali būti priskirtas 5 kategorijoms ir gali turėti daugelį skirtingų reikšmių.<br />
Pvz., romance.<br />
Key: "S:" = Show Synset (semantic) relations, "W:" = Show Word (lexical) relations<br />
Noun<br />
• S: (n) love affair, romance (a relationship between two lovers)<br />
• S: (n) romanticism, romance (an exciting and mysterious quality (as of a heroic time or<br />
adventure))<br />
• S: (n) Romance, Romance language, Latinian language (the group of languages derived<br />
from Latin)<br />
• S: (n) love story, romance (a story dealing with love)<br />
• S: (n) romance (a novel dealing with idealized events remote from everyday life)<br />
16
Verb<br />
• S: (v) woo, court, romance, solicit (make amorous advances towards) "John is courting<br />
Mary"<br />
• S: (v) romance (have a love affair with)<br />
• S: (v) chat up, flirt, dally, butterfly, coquet, coquette, romance, philander, mash (talk or<br />
behave amorously, without serious intentions) "The guys always try to chat up the new<br />
secretaries"; "My husband never flirts with other women"<br />
• S: (v) romance (tell romantic or exaggerated lies) "This author romanced his trip to an<br />
Adjective<br />
exotic country"<br />
• S: (adj) Romance, Latin (relating to languages derived from Latin) "Romance languages"<br />
Atliekant paiešką pagal reikšminius žodžius naudojant lingvistines ontologijas, pradžioje<br />
išduodami dokumentai, kurie tiksliai atitinka pateiktus terminus pvz., šeimos krizė. Jeigu rezultatas<br />
netenkina, sistema gali siūlyti kitus variantus, kaip antai:šeimynos krizė, namiškių krizė, namų krizė,<br />
giminės krizė, terminą ,,krizė” keisti terminu ,,kritinė situacija”, toliau galėtų eiti šeimos padėtis,<br />
šeimos situacija, santuokos krizė, poros krizė ir t.t. Tokiu būdu plati ontologija gali išplėsti<br />
pilnateksčių dokumentų paieškos pagal reikšminius žodžius galimybes.<br />
17
2. Dalykinė teminė dokumentų analizė ir indeksavimo procesas<br />
Tvarkant ir organizuojant informaciją, yra atliekama informacijos vienetų(dokumentų)<br />
dalykinė teminė analizė, kurios pagrindu jie yra indeksuojami, t. y. parengiama dokumento paieškos<br />
charakteristika arba metaduomenys. Informacijos vieneto tvarkybos rezultatas gali būti<br />
klasifikacijos indeksas, dalykinė rubrika, deskriptorių sąrašas.<br />
Indeksavimo procesą reglamentuoja ISO -5963-1985 E standartas Documentation – Methods<br />
for examining documents, determining their subjects and selecting indexing terms.<br />
Standarte nurodyta, kad indeksavimo procesą sudaro trys etapai, kurie praktikoje dažnai<br />
persidengia ir vyksta vienu metu:<br />
• dokumento analizė ir jo dalyko/temos nustatymas;<br />
• svarbiausių dalyką/temą apibūdinančių sąvokų išaiškinimas;<br />
• šių sąvokų išreiškimas indeksavimo kalbos terminais (konkrečios IPK leksiniais vienetais).<br />
Šiame etape natūralios kalbos žodžiai išverčiami į naudojamą IPK.<br />
Dalykinę (teminę) analizę visų pirma sudaro konceptualioji informacijos vieneto<br />
(dokumento) analizė. Konceptualioji analizė tai nustatymas, apie ką yra objekto intelektualusis<br />
turinys, arba koks tas objektas yra.<br />
Analizuojant apie ką yra informacijos vienetas, reikėtų siekti išsiaiškinti tris pagrindinius<br />
klausimus:<br />
• kas tai?<br />
• kam tai reikalinga/skirta?<br />
• apie ką tai?<br />
Atsakant į pirmą klausimą, reikėtų nurodyti kurią nors pagrindinių žinijos formų/kategorijų:<br />
istorija, filosofija, technika ir pan.<br />
Remiantis pirmuoju atsakymu, galima atsakyti į antrąjį: ar informacija skirta veterinarui, ar<br />
zoologui?<br />
Atsakant į trečią klausimą nurodoma tema. Kita vertus, dalykinėje analizėje reikia atsižvelgti<br />
į teksto pobūdį (struktūra ir laikmena) ir į dėstymo pobūdį (požiūris, rašymo stilius, auditorija,<br />
intelektinis lygis).<br />
Nustatyti apie ką yra informacijos vienetas nėra lengva. Ne visada ir ne kiekvienas<br />
informacijos vienetas turi aiškiai identifikuojamą ,,apie-ybę” (angl. aboutness). ,,Apie-ybė” gali<br />
turėti daugybę aspektų ir atsakant į klausimą apie ką tai dažnai tenka išvardyti ne vieną.<br />
18
Nors kai kurie informacijos vienetai atrodo turi lengvai įvardijamą dalyką, iš tikrųjų viskas<br />
nėra taip paprasta. Pvz. knyga ,,Sociologijos istorija” skirta sociologijai, bet tiksliau kalbant tai<br />
knyga apie sociologiją istorijos požiūriu, tačiau tai nėra knyga apie istoriją. Gali būti, kad kitu metu<br />
ar kitoje vietoje, šios knygos dalyku galėtų būti laikoma istorija.<br />
Kartais teigiama, kad nemažai sunkumų kyla ir atsakant į klausimą “Kam tai<br />
reikalinga/skirta?”. Pvz., jau minėta knyga ,,Sociologijos istorija” yra apie sociologiją, kuri<br />
pateikiama istorijos perspektyvoje. ,,Įvado į sociologiją” tema taip pat yra sociologija, bet abu šie<br />
šaltiniai yra labai skirtingi. Vartotojas, ieškantis ,,Įvado į sociologiją” nebus patenkintas gavęs<br />
,,Sociologijos istoriją”. Atsakydami į klausimą apie informacijos paskirtį, galime išvengti tokių<br />
nesusipratimų.<br />
Dar vienas svarbus aspektas nustatant dalyką yra kultūrinė aplinka ir išsilavinimas.<br />
Akivaizdu, kad Rytų ir Vakarų kultūrų atstovai daugelį dalykų mato ir vertina skirtingai.<br />
Konceptualiosios analizės rezultatas priklauso ir nuo taikomų metodų.<br />
Taikant tikslinį metodą siekiama nustatyti autoriaus tikslą ar sumanymą. Kai kurie autoriai<br />
nurodo savo kūrinių tikslinę paskirtį, tačiau dažnai tokios informacijos nėra, arba nurodomi net keli<br />
tikslai. Taikant pagrindinio dalyko metodą, bandoma nustatyti centrinį objektą, kuris iškyla virš<br />
likusios informacijos. Kita vertus, centrinio objekto išskyrimas priklauso nuo indeksuotojo ir kūrėjo<br />
požiūrio, asmeninės nuostatos ar suinteresuotumo. Net to paties asmens požiūris gali pasikeisti per<br />
kelias savaites.<br />
Objektyvumo metodas (beje dažniausiai naudojamas atliekant kompiuterinę konceptualiąją<br />
analizę) paremtas statistikos duomenimis apie dažniausiai naudojamus terminus. Deja, dažnai<br />
naudojamas terminas gali įvardinti foninius arba susijusius dalykus (pvz., knygoje apie Antrą<br />
pasaulinį karą bus nuolat minima Vokietija). Kita vertus, terminas tiksliai apibūdinantis, apie ką yra<br />
informacijos vienetas gali būti nė karto nepaminėtas. (pvz., knygoje apie kurio nors žinomo asmens<br />
politinę karjerą, toks žodis gali būti nepanaudotas). Taikant atrankos ir atmetimo vienybės metodą,<br />
ieškoma, kas jungia kūrinį į vieną visumą, suriša, kas buvo pasakyta (atranka) ir nepasakyta<br />
(atmetimas). Kita vertus, indeksuotojas turėtų būti objektyvus ir turėti pakankamai daug žinių apie<br />
objektą, kad pajėgtų nustatyti, kas buvo atmesta.<br />
Akivaizdu, kad vieno teisingo būdo nustatyti apie ką yra informacijos vienetas nėra. Galima<br />
naudoti vieną kurį ar visus minėtus metodus, tačiau pakeitus metodą gali pakisti ir rezultatas. Vienas<br />
ir tas pats asmuo gali gauti skirtingą rezultatą naudodamas skirtingus metodus, o keli asmenys<br />
naudojantys tą patį metodą taip pat gali gauti skirtingą rezultatą.<br />
19
Dar daugiau keblumų kelia netekstinės informacijos vienetų ,,apie-ybės” nustatytas. Šiuo<br />
atveju galima taikyti kelis konceptualiosios analizės lygius:<br />
• teminę aprėptį rodančių sąvokų ar jų grupių identifikavimas;<br />
• bendras apibūdinimas ir pavaizduotų objektų ar scenų išvardijimas;<br />
• su pavaizduotais objektais ar scenomis susijusios teminės ar ikonografinės reikšmės<br />
nustatymas ir interpretavimas.<br />
Tvarkant meno kūrinius lengviausia išvardinti objektus ir scenas. Be to, galima nustatyti<br />
dalykinę sąvoką (pvz., mūšio scenos pavaizdavimas) arba iš darbo antraštės nustatyti konkretų<br />
dalyką (pvz., Žalgirio mūšis). Daug sunkiau nustatyti muzikos kūrinių dalyką apibūdinančias<br />
sąvokas ar išvardinti, kas pavaizduota. Pakankamai paprasta nusakyti, kaip objektas atrodo, bet<br />
interpretavimo reikalingos teminės ar ikonografinės netekstinės informacijos vienetų<br />
identifikavimas reikalauja specialaus rengimo.<br />
ISO gairėse pažymima, kad atliekant dalykinę teminę informacijos vieneto analizę, nėra<br />
tikslingą skaityti visą dokumentą. Kita vertus, indeksuotojas turėtų užtikrinti, kad naudinga<br />
informacija nebus praleista. Todėl nurodomos pagrindinės dokumento dalys, kurioms reikia skirti<br />
ypatingą dėmesį:<br />
antraštė; santrauka; turinys; įvadas, pirmieji skyriai, paragrafai ir išvados; iliustracijos, diagramos,<br />
lentelės ir jų pavadinimai; pabraukti ir kt. išskirti žodžiai ir žodžių junginiai.<br />
Daugiausiai informacijos duoda antraštė ir santrauka, tačiau jos dažnai gali klaidinti, pvz.,<br />
antraštė gali būti abstrakti, ji visada bus subjektyvi, o santraukos negalima laikyti pakankamu viso<br />
dokumento pakaitalu. Turinys padeda išaiškinti dalyką ar temą ir identifikuoti potėmes, aspektus.<br />
Turinys ypač svarbus tvarkant straipsnių rinkinius, konferencijų medžiagą ir pan. Įvade, pirmuose<br />
skyriuose ir išvadose autoriai ar sudarytojai pristato tikslus, paskirti, apibendrina pateiktą<br />
informaciją. Iliustracijos, lentelės, jų pavadinimai ypač svarbūs tokiose srityse kaip menas, nes<br />
padeda lengviau ir tiksliau nustatyti informacijos ,,apie-ybę”.<br />
Antrajame etape indeksuotojas nustato pagrindines išaiškinto dalyko sąvokas. Šiame etape<br />
dokumento dalykas formuluojamas natūralios kalbos žodžiais, frazėmis.<br />
Gairėse pabrėžiama, kad terminai, kuriuos pasirenka ar atmeta indeksuotojas priklauso nuo<br />
indeksavimo tikslo. Pasirenkant sąvokas būtina atsižvelgti į tai, ar jos gali būti naudingos<br />
potencialiems sistemos vartotojams. Kita vertus nereikia pamiršti, kad sistema gali naudotis ir kitų<br />
20
grupių vartotojai, taigi dokumento dalyko arba temos nereikėtų interpretuoti pernelyg siaurai, todėl<br />
sąvokų skaičiaus riboti nereikia.<br />
Pasirenkamų sąvokų pobūdis ir jų kiekis priklauso nuo pasirinkto indeksavimo išsamumo.<br />
Išsamumas tai - analizės metu nustatomų dalykų ir aspektų skaičius. Išsamumas gali būti dviejų<br />
lygių: gilusis ir apibendrinantis. Giliuoju indeksavimu siekiama išgauti visas pagrindines dokumente<br />
aptariamas sąvokas, temas ir potėmes. Apibendrinant apsiribojama svarbiausiais, bendraisiais<br />
dalykais.<br />
Bibliotekose knygų ir serialinių leidinių indeksavimas tradiciškai yra apibendrinančio lygio,<br />
giliau indeksuojami straipsniai, knygų skyriai.<br />
Indeksavimo išsamumas įtakoja paieškos pilnumą ir tikslumą.<br />
Pilnumas – a : (a + b) x 100 %, kur<br />
a - visi išduoti relevantūs dokumentai;<br />
b – visi neišduoti relevantūs dokumentai;<br />
Tikslumas - a : (a + c) x 100 %, kur<br />
a - visi išduoti relevantūs dokumentai;<br />
c – visi išduoti nerelevantūs dokumentai;<br />
Gilusis indeksavimas didina tikslumą, nes naudojami tikslesni ir specifiškesni terminai.<br />
Apibendrinimas paprastai didina pilnumą, nes paieškos terminai yra platesni. Apibendrinimas labai<br />
naudingas ir plačiai taikomas apčiuopiamų išteklių paieškai (knygų, CD, vaizdajuosčių, žurnalų ir<br />
pan.).<br />
Ieškant elektroninių išteklių (neapčiuopiamų), atsirandą naujų iššūkių. Ieškant tinkle, tam<br />
tikrą žodį turintis informacijos vienetas bus išduotas pagal analogišką paieškos žodį, net jeigu<br />
pastarasis neatspindi jo dalyko ar temos. Dėl tokio žodžių buvimu pagrįsto išdavimo kriterijaus<br />
ženkliai išauga pilnumas, bet sumažėja tikslumas.<br />
Kitas svarbus aspektas nustatant indeksavimo išsamumo lygį - ką laikyti analizės vienetu.<br />
Tradiciškai tai yra bibliotekos ar archyvo fonde saugomi ištekliai. Internete tokio analizės vieneto<br />
apibrėžimo nėra; tai gali būti elektroninis žurnalas, straipsnis, tinklalapis su visomis nuorodomis ir<br />
ryšiais, individualus tokio tinklalapio elementas. Neatsakius į šį klausimą, sudėtinga spręsti, koks<br />
indeksavimo išsamumo lygis gerintų paieškos rezultatus.<br />
Kitas antrojo indeksavimo etapo uždavinys: sąvokų identifikavimas arba atpažinimas<br />
21
Informacijos vienetų dalykais gali būti įvairių rūšių sąvokos. Tai gali būti temos arba<br />
dalykai; pavadinimai (asmenvardžiai, kolektyvų pavadinimai, geografiniai pavadinimai, kiti –<br />
pastatų, architektūrinių/archeologinių vietovių ir pan.); laikotarpiai, formos.<br />
Temos. Dauguma žmonių informacijos dalyko apibūdinimui pasirenka temą ar dalyką<br />
nusakantį terminą. Tema/dalykas gali būti konkreti ir abstrakti. Paprastai tai - pagrindinis<br />
dokumento dėmesio objektas, tai gali būti viso informacijos vieneto tema.<br />
Pavadinimai. Dokumento dalykas, ar kuris dalyko aspektas. Tai gali būti asmuo, kolektyvas<br />
ar institucija, teritorija, ar kita pavadinimą turinti esybė.<br />
Mes galime turėti dokumentą apie rašytoją, mokslininką, visuomenės veikėją; biblioteką,<br />
ministeriją, žvejybos įmonę. Dokumentas gali būti apie vietovę (Žemaitija), miestą (Vilnius).<br />
Ypatingą kategoriją sudaro konkrečių esybių pavadinimai (Rasų kapinės, Žaliasis tiltas, Paryžiaus<br />
panteonas).<br />
Laikotarpiai. Laikotarpiai tai - svarbus teminės dalykinės informacijos elementas.<br />
Laikotarpis konkretina ir (arba) susiaurina dalyko apimtį. Pvz., dokumente apie prieigą prie<br />
informacijos taikant kompiuterius 8 – ame dešimtmetyje nebus informacijos apie internetą.<br />
Laikotarpiams žymėti dažnai naudojami jų pavadinimai – Antrasis pasaulinis karas, Renesansas ir<br />
pan..<br />
Forma. Galiausiai nustatoma informacijos vieneto ar jo dalies forma. Formos nustatymas<br />
nepakeičia dokumento temos arba dalyko, bet gali iš esmės pakeisti požiūrį į jį ar pristatymo būdą.<br />
Formą apibūdina tie terminai, kurie skirti konkrečių rūšių ar žanrų medžiagai apibūdinti.<br />
Nustatant informacijos vieneto formą, atsižvelgiama į:<br />
• fizines charakteristikas (vaizdajuostės, nuotraukos, žemėlapiai ir pan.);<br />
• konkretų juose esančių duomenų tipą (bibliografijos, klausimynai, statistika);<br />
• informacijos pateikimo būdą (dienoraščiai, apžvalgos, rodyklės);<br />
• stilių, paskirtį, tikslinę auditoriją (romanas, komiksas, vadovėlis).<br />
Formos ir dalyko atskyrimas šiuo metu ypač svarbus, nes vis daugiau tenka organizuoti<br />
netekstinės informacijos. Pvz., muzikoje formos identifikavimas visada buvo labai svarbus. Dabar<br />
vis daugiau yra ieškoma kitokių informacijos formų, pvz., piešinių, skaitmeninių žemėlapių,<br />
skulptūrų reprodukcijų. Atskiriant formą nuo turinio, lengviau kurti sistemas, leidžiančias ieškoti<br />
informacijos formų. Naujausios metaduomenų sistemos turi specialiai formai skirtas kategorijas,<br />
pvz., ,,Išteklių tipas” ir ,,Formatas” Dublin Core metaduomenų formato standarte.<br />
22
Trečiasis etapas - vertimas iš natūralios kalbos į konkrečią indeksavimo kalbą, t.y.<br />
konceptualiosios analizės rezultatų atvaizdavimas kataloguotojo, klasifikuotojo ar indeksuotojo<br />
naudojamos schemos (klasifikacijos, rubrikyno, tezauro) leksiniais vienetais. Tai reiškia, kad jeigu<br />
yra naudojama UDK, sąvoka turi patekti į tam tikrą dešimtainės hierarchinės struktūros vietą. Jeigu<br />
naudojamas rubrikynas ar tezauras, informacijos vieneto turinį reikia suformuluoti sakiniu, tada<br />
išskiriami svarbiausi šio sakinio terminai, kurių atitikmenys esantys kontroliuojamame žodyne<br />
naudojami sąvokoms išreikšti. Tuo būdu dalykinės analizės rezultatas gali būti klasifikacijos<br />
indeksas(ai), dalykinė(s) rubrika(os) ar deskriptorius(ių) sąrašas. Pvz. dokumento apie pašte<br />
dirbančių žmonių darbo užmokestį turinys gali būti išreikštas indeksu 656.8: 331.2 (UDK),<br />
deskriptoriais iš tezauro: Darbo užmokestis, paštas, darbuotojai arba DR iš LNB rubrikyno Paštas,<br />
tarnautojai, atlyginimas.<br />
Šiame etape svarbu atsižvelgti į tai, kad kontroliuojamame žodyne gali nebūti reikalingų<br />
leksinių vienetų. Tada indeksuotojas turėtų pasirinkti artimiausią pagal prasmę leksinį vienetą arba<br />
papildyti žodyną nauju terminu.<br />
Specialiai akcentuojama, kad konceptualiosios analizės neturėtų įtakoti žodynas. Pradžioje<br />
atliekama analizė, po to galvojama apie terminus. Negalima ignoruoti dalyko, aspekto, temos, nes<br />
manoma, kad nėra tinkamo termino jiems išreikšti.<br />
Konceptualiosios analizės objektas - idėjos (sąvokos), o ne terminai. Net jeigu indeksuotojo<br />
ir autoriaus terminai sutampa, gali skirtis jų prasmė. Čia praverčia klasifikavimo principų<br />
išmanymas, juk klasifikavimas prasideda nuo sąvokų nustatymo.<br />
Indeksuojant reikia atkreipti dėmesį į: specifinė indeksavimo problemą – nuoseklumą.<br />
Idealiu atveju dokumentui priskirti terminai (indeksai), jų skaičius ir išsamumo lygis neturi<br />
priklausyti nuo indeksuotojo. Taigi du indeksuotojai turėtų išskirti tą pačią ,,apie-ybę” ir išreikšti ją<br />
vienodais terminais iš kontroliuojamo žodyno. Tačiau praktiškai nuoseklumas yra sunkiai<br />
pasiekiamas. Nuoseklaus ,,apie-ybės” nustatymo sunkumus įrodo nemažai specialių tyrimų. Vienas<br />
tokių tyrimų parodė, kad objektui ar sąvokai buvo priskirti vidutiniškai 25,6 teminiai pavadinimai.<br />
Toks rezultatas rodo žmonių nesugebėjimą nustatyti tą pačią dokumento ,,apie-ybę” arba pasirinkti<br />
vienodus natūralios kalbos žodžius nustatytai ,,apie-ybei” išreikšti. Kita vertus indeksavimo<br />
nuoseklumas, o tuo pačiu ir nuspėjamumas yra vienas iš informacijos sistemų kokybės faktorių ir<br />
rodiklių. Šioje vietoje akivaizdi kontroliuojamo žodyno reikšmė: naudojant vienodus<br />
kontroliuojamus žodynus ir jų taikymo taisykles konceptualiosios analizės rezultatas bus išreikštas<br />
nuosekliais indeksais, dalykinėmis rubrikomis ar deskriptoriais.<br />
23
Nuoseklumui pasiekti indeksuotojas turi būti nešališkas, atsisakyti subjektyvumo nustatant<br />
sąvokas ir pasirenkant indeksavimo terminus, turėti indeksuojamų dokumentų srities žinių, palaikyti<br />
tiesioginį ryšį su vartotojais. Kadangi indeksavimo procesas yra susijęs su žmonių priimamais<br />
sprendimais, jis negali būti visiškai nešališkas ir indeksavimo nuoseklumo problema išlieka aktuali<br />
nepaisant visų standartizavimo pastangų.<br />
Indeksavimo kokybę įtakojantys faktoriai. ISO standarte nurodoma, kad indeksavimo kokybė<br />
priklauso nuo šių faktorių:<br />
• indeksuotojo kvalifikacija (profesionalumas) ir patirtis;<br />
• indeksavimo priemonių kokybė.<br />
Greta išskiriamas dar vienas kokybę įtakojantis faktorius. Tai - indeksavimo politika<br />
(išsamumas ir tikslumas). Indeksavimo politiką apibūdina iš anksto apibrėžtas indeksavimo<br />
išsamumas ir tikslumas.<br />
Terminų skaičius<br />
Dalykinių rubrikų ar deskriptorių priskiriamų vienam dokumentui skaičius priklauso nuo<br />
daugelio faktorių. Istoriškai šis skaičius kinta. Kortelių kataloguose dalykinių rubrikų skaičiaus<br />
didėjimas turėjo ekonominių pasekmių ir kėlė nepatogumų vartotojams (brangiau kataloguoti ir<br />
peržiūrėti, daugiau vietos laikyti katalogui, vartotojams labai dideliu katalogu sudėtingiau naudotis,<br />
ilgesnė paieška). Viena vertus, kuo daugiau dalykinių rubrikų tuo brangiau indeksuoti, kita vertus –<br />
jeigu reikia priskirti 2, o ne 10, tenka ilgiau svarstyti, ką pasirinkti, kuri geriau atitinka turinį.<br />
Kitas aspektas – kai daugiau terminų lengvinama prieiga prie visų išteklių, daugiau prieigos<br />
taškų, galima išskirti tam tikrus specifinius, netikėtus aspektus.<br />
Indeksavimo tikslumo matas neegzistuoja. Pagrindinis principas buvo suformuluotas dar<br />
XIX a pabaigoje, kai Ch. A. Cutteris sukūrė žodyninio katalogo rengimo taisykles. Šio principo<br />
esmė, kad reikia pasirinkti tiksliausią terminą, kuris apima visą dokumento dalyką, pvz.,<br />
APELSINAI, o ne CITRUSINIAI VAISIAI ir ne VAISIAI arba artimiausią..<br />
Indeksavimo nuoseklumas<br />
Nuoseklumą lemiantys faktoriai :<br />
• rubrikų skaičius;<br />
• žodyno dydis ir tikslumas;<br />
• indeksuotojo asmenybė;<br />
• turimos priemonės (žodynai, žinynai);<br />
24
• tvarkomo teksto dydis;<br />
• indeksuojamo dokumento ir terminų ypatybės (konkretūs objektai - daiktai ir abstraktūs<br />
objektai -idėjos)<br />
Indeksavimas nėra savitikslis procesas. Jo kokybė apibudinama pragmatiškai: tai toks<br />
indeksavimas, kuris leidžia iš duomenų bazės gauti dokumentą, kuris atitinka užklausą ir negauti to,<br />
kuris užklausos neatitinka. Antra vertus, paieškos rezultatą įtakoja daugelis faktorių: vartotojas (kaip<br />
jis suvokia ir formuluoja savo poreikį – užklausos turinys ir struktūra – paieškos strategija –<br />
duomenų bazės turinys - indeksavimo kokybė - žodyno kokybė. Vertindami indeksavimą galime<br />
kalbėti tik apie konceptualiosios analizės, sąvokų nustatymo ir vertimo kokybę.<br />
Galimos klaidos:<br />
• nesugebėjimas atpažinti vartotoją dominančią temą;<br />
• neteisingai suprastas dalykas/tema – neteisingai nustatyta sąvoka;<br />
• nesugebėjimas pasirinkti tiksliausią (siauriausią) rubriką/deskriptorių;<br />
• neteisingos rubrikos/deskriptoriaus pasirinkimas (aplaidumas, neišmanymas).<br />
Gero indeksavimo matas - geri paieškos rezultatai: tinkamas pilnumas ir tikslumas.<br />
Absoliučia prasme vienintelės teisingos paieškos charakteristikos nėra. Blogai, jeigu indeksavimas:<br />
• prieštarauja bendrai politikai (išsamumas);<br />
• ne tiksliausias terminas;<br />
• neteisingas terminas;<br />
• terminas praleidžiamas.<br />
Indeksavimą įtakoja šie faktoriai:<br />
indeksuotojas žodynas dokumentas procesas aplinka<br />
Dalyko/temos<br />
išmanymas;<br />
poreikių<br />
žinojimas;<br />
patirtis;<br />
koncentracija;<br />
teksto<br />
skaitymas ir<br />
suvokimas<br />
tikslumas;<br />
dviprasmiški<br />
terminai (be<br />
pastabų);<br />
struktūra<br />
(nuorodos);<br />
pagalbinės<br />
priemonės<br />
dalykas;<br />
sudėtingumas;<br />
kalba (rusų ar<br />
aiškumas);<br />
apimtis;<br />
dėstymas;<br />
apibendrinimas<br />
taisyklės ir<br />
instrukcijos;<br />
dalykinamų<br />
dok. skaičius;<br />
išsamumas;<br />
temperatūra;<br />
apšvietimas;<br />
triukšmas<br />
25
3. Kontroliuojami žodynai. Tezaurai, kaip leksikografinės kontrolės užtikrinimo<br />
priemonė<br />
Tezaurai, jų paskirtis ir funkcijos<br />
Tezauras – tai kontroliuojamas žodynas, kuris užtikrina sistemoje naudojamų terminų<br />
leksikografinę kontrolę ir jų naudojimo nuoseklumą.<br />
Toks žodynas – tai sisteminės struktūros žodžių ir žodžių junginių sąrašas, kurio tikslas<br />
vienareikšmiškai atspindėti dokumentų sistemoje esamų dokumentų ir joje atliekamų paieškų<br />
konceptualų turinį. Pagrindinis tezauro leksinis vienetas – deskriptorius.<br />
Tezauras (arba deskriptorių žodyno) – informacijos tvarkybos ir paieškos įrankis: tam tikroje<br />
sistemoje vartotinų žodžių ir pasakymų sąrašas drauge su jų ryšiais, variantais, sinonimais, tezauro<br />
naršymo priemonėmis.<br />
Tezauras yra ideografinis žodynas. Kita žodynų rūšis – leksikografiniai. Ideografiniuose<br />
žodynuose leksiniai vienetai grupuojami pagal išraiškos (parašymo) panašumą. Tokiuose žodynuose<br />
einama nuo žodžio prie prasmės. Tai – įvairių kalbų žodynai, pvz., lietuvių – anglų kalbų žodynas.<br />
Ideografiniuose žodynuose leksiniai vienetai grupuojami pagal prasmės artimumą, t.y.<br />
einama nuo prasmės prie konkretaus žodžio. Ideografiniai žodynai sudaromi jau daugelį šimtmečių.<br />
Didžiausią poveikį ir postūmį kurti ideografinius žodynus padarė P. M. Roget‘o ,,Anglų kalbos<br />
žodžių ir pasakymų tezauras“ (angl. Thesaurus of English words and phrases, 1852). Tai klasikinis<br />
tradicinio tezauro arba sinonimų žodyno pavyzdys. Šiame žodyne einama nuo vieno termino prie<br />
kito sinonimiško. Šio žodyno paskirtis - rasti žodį, kuris geriausiai perteikia pranešimo prasmę.<br />
26
Termino ,,Smallness“ struktūra ir reikšmės iš Roget‘o tezauro.<br />
http://machaut.uchicago.edu/?action=search&resource=Roget%27s&word=small&searchtype=head<br />
word<br />
XX a. antroje pusėje atsiranda naujo tipo – informacijos paieškos tezaurai. Nors tezauras –<br />
tai ideografinis žodynas, tačiau jis veikia priešingai, negu lingvistinis tezauras. Šiame žodyne daug<br />
sinonimų apjungiami vienu žodžiu ar žodžių junginiu.<br />
Ilgą laiką tokius tezaurus naudojo sistemų kūrėjai, IT specialistai, bibliotekininkai. Išplitus<br />
internetui, tezaurų, kaip kontroliuojamų žodynų reikšmė vėl ima augti.<br />
Tezaurų, kaip ir kitų kontroliuojamų žodynų reikšmė susijusi su natūralios kalbos<br />
ypatybėmis, t.y. jos trūkumais informacijos tvarkybos ir ieškos požiūriu. Svarbiausias jų tai, kad<br />
dokumentų arba informacijos vienetų autorių ir vartotojų, ieškančių šių dokumentų kalba, dažnai<br />
būna nevienoda. Tezaurų naudojimas ypač svarbus ir naudingas, kai kuriamos duomenų bazės<br />
jungiamos į informacines sistemas. Norint „susikalbėti” su partneriais, būti teisingai suprastiems ir<br />
tiksliai suprasti kitus, privalu naudoti tą patį žodyną. Tezaurus informacijos ir duomenų tvarkybai ir<br />
ieškai naudoja daugelis organizacijų. Kuriami universalūs, šakiniai ir specialūs mikro tezaurai.<br />
Tezaurai taip pat dažnai tampa paieškos ir yra navigacijos elektroninėse duomenų bazėse<br />
įrankiai. Jie yra nepakeičiami norint tiksliai įvardinti paieškos tikslą ir greitai surasti ieškomus<br />
duomenis. Atlikdamas paiešką vartotojas dažnai tezauro nemato arba net nežino, kad toks žodynas<br />
27
yra naudojamas. Sistemoje vartotojo įvesti reikšminiai žodžiai gali būti automatiškai pakeičiami<br />
deskriptoriais. Be to, naudojant tezaurą vartotojo nurodomi terminai gali būti automatiškai susieti su<br />
platesniais, siauresniais ar asociaciniais terminais iš tezauro.<br />
Tezaurų funkcijos:<br />
• Vertimas iš natūralios kalbos į deskriptorinę. Tezauras parodo, kurį terminą<br />
naudoti kiekvienai sąvokai apibrėžti;<br />
• Informacijos/duomenų paieškai naudingų loginių ryšių ir santykių atspindėjimas;<br />
• Atitinkamos srities terminijos standartizavimas ir norminimas.<br />
Tuo būdu tezaurų naudojimas užtikrina:<br />
• Terminų naudojimo nuoseklumą – terminai teikiami ir formuluojami pagal visiems žinomas<br />
taisykles;<br />
• Ryšių tarp leksinių vienetų nustatymą ir fiksavimą - rodo terminų prasmės ryšius;<br />
• Dokumentų paiešką - tezauras naudojamas kaip informacijos paieškos įrankis.<br />
Tezaurai gali būti universalūs (visų mokslo sričių) ir specializuoti (vienos ar kelių mokslo<br />
sričių). Rengiami vienos kalbos ir daugiakalbiai tezaurai.<br />
Tezaurų rengimą reglamentuoja Tarptautinės standartų organizacijos standartai:<br />
ISO 2788 – 1986 – Guidelines for the establishment and development of monolingual<br />
thesauri (Vienakalbio tezauro nustatymo ir sudarymo gairės).<br />
ISO 5964 – 1985 – Guidelines for the establishment and development of multilingual<br />
thesauri (Daugiakalbio tezauro nustatymo ir sudarymo gairės).<br />
Tezaurų struktūra ir fiksuojami santykiai<br />
Tezauras tai - abėcėlinis deskriptorių ir reikšminių žodžių sąrašas.<br />
Deskriptorius ir reikšminius žodžius (nedeskriptorius) tezaure jungia sinonimijos arba<br />
ekvivalentumo santykiai.<br />
Ekvivalentumas gali būti tikrasis (imanentinis, pvz.: defektas - yda, kiškis - zuikis,<br />
malūnsparnis -sraigtasparnis, Lietuvos Nacionalinė biblioteka - LNB ir artimas fakultatyvusis, pvz.:<br />
straipsnis -ataskaita, oras - atmosfera, katalogas – kartoteka, vertybinių popierių rinka – finansų<br />
rinka. Deskriptoriaus ir nedeskriptoriaus ekvivalentumo santykiai nurodomi tokiais sutrumpinimais:<br />
- UF (angl. Used for – vartojamas vietoj). Ši santrumpa rodo deskriptoriaus ir<br />
nedeskriptoriaus, kuriam jis atstovauja, santykius. Pavyzdžiui:<br />
Malūnsparnis<br />
28
UF helikopteris<br />
- USE (naudok) reiškia nedeskriptoriaus ir deskriptoriaus, kurį jis pakeičia santykius.<br />
Pavyzdžiui:<br />
helikopteris<br />
USE malūnsparnis.<br />
Pagrindiniai prasmės santykiai tarp deskriptorių:<br />
- giminė – rūšis (bendra/plati ir specifinė/siaura sąvoka), pvz.: baldai – stalai; gėlės –<br />
ratiliai; sostinės – Vilnius. Jie dar gali būti vadinami hierarchiniais arba pavaldumo santykiais. Šie<br />
santykiai paprastai žymimi santrumpomis BT (angl. Broader term - platesnis terminas) ir NT<br />
(narrower term - siauresnis terminas).<br />
- asociatyvūs santykiai. Jiems žymėti naudojama santrumpa RT ( angl. Related term –<br />
susijęs terminas). Asociatyvūs santykiai būna įvairių rūšių:<br />
Objektas – instrumentas (temperatūra - termostatas);<br />
Objektas – vieta (ligonis - ligoninė);<br />
Objektas – funkcija (biblioteka – knygų išdavimas)<br />
Veiksmas – objektas – rezultatas (mezgimas – siūlai - megztinis);<br />
Panašūs objektai/artimumas (arklys, asilas, mulas);<br />
Veikėjas – veiksmas (vagis - vagystė);<br />
Disciplina – objektas (ornitologija - paukštis);<br />
Priešingybės (judėjimas - ramybė);<br />
Gretimumas (žiema - sniegas);<br />
Visuma – dalis (knyga – viršelis).<br />
Asociatyvūs santykiai visada yra simetriški, pvz.:<br />
įsiskolinimas<br />
RT mokumas<br />
mokumas<br />
RT įsiskolinimas<br />
Apibrėžiantys žodžiai (angl. Qualifiers)<br />
Skliausteliuose nurodomi apibrėžiantys žodžiai homonimų dviprasmiškumui pašalinti ir<br />
terminų, kurių naudojimas konkrečiame kontekste gali įnešti painiavos, prasmei sukonkretinti.<br />
Apibrėžiantys žodžiai tampa deskriptoriaus dalimi ir turi būti įtraukiami indeksuojant ar<br />
atliekant paiešką. Pvz.:<br />
29
gynyba (teisė)<br />
gynyba (karyba)<br />
Vartojimo pastabos (angl. Scope note)<br />
Vartojimo pastabos naudojamos, kai reikia paaiškinti specialaus termino reikšmę, paaiškinti,<br />
kaip toks terminas naudojamas arba apriboti termino naudojimo sritį. Kartais pastabos tikslas yra<br />
įspėti vartotoją, kad tikslingiau būtų naudoti kitą terminą. Pastabos žymimos santrumpa SN.<br />
Pavyzdžiui:<br />
Sovietų Sąjunga<br />
SN: naudojamas 1922-1991; panaikintas 1991.<br />
Hierarchinių santykių tarp deskriptorių fiksavimas užtikrina galimybę plėsti ir/arba siaurinti<br />
paiešką pasirenkant patį tiksliausią terminą. Tezaure naudojamos nuorodos į sinonimus leidžia rasti<br />
alternatyvius paieškos terminus, o asociatyvių terminų fiksavimas rodo sąvokų ryšius.<br />
Tezaurų rengimas ir vertinimas<br />
Paprastai išskiriami šie tezauro rengimo etapai:<br />
• Terminų atranka ir jų įtraukimas į reikšminių žodžių sąrašą. Paprastai terminai yra<br />
atrenkami iš tam tikros mokslo krypties dokumentų, atliekant pirminį indeksavimą. Šiame etape tarp<br />
terminų ryšiai nėra nustatomi (dedukcinis metodas). Naudojant indukcinį metodą, nauji terminai<br />
įtraukiami į tezaurą iš karto nustatant termino priklausomybę vienai ar keletui kategorijų ir<br />
formuojant atitinkamus ryšius. Gali būti derinami abu terminų atrankos būdai.<br />
• Terminų verifikavimas. Prieš įtraukiant terminą į reikšminių žodžių sąrašą ir (arba)<br />
tezaurą turi būti atliekamas jo patikrinimas. Tam naudojami žinynai ir enciklopedijos, jau<br />
egzistuojantys tezaurai, klasifikatoriai, techninių žurnalų rodyklės, referatinių leidinių rodyklės,<br />
naujausi žinynai, galima konsultuotis su specialistais.<br />
• Reikšminių žodžių deskriptorizavimas. Šiame etape vyksta atrinktų terminų<br />
norminimas ir sąlyginio ekvivalentumo klasių formavimas, kai iš sinonimiškų ar sąlygiškai<br />
sinonimiškų terminų atrenkami plačiausiai naudojami, stilistiškai neutralūs tokias klases<br />
atstovaujantys žodžiai.<br />
• Deskriptorių klasių formavimas ir užrašymas. Tezauro apiforminimas. Kiekvienas<br />
tezauro leksinis vienetas pateikiamas tam tikra griežtai nustatyta tvarka. Prie jo nurodomi: sinonimai<br />
ir kiti atitiktiniai terminai, naudojimo pastabos, platesni, siauresni ir susiję terminai. Prie termino<br />
gali būti pateikiamas jo apibrėžimas ar kiti reikalingi paaiškinimai. Specialios tezaurų kūrimų<br />
30
programos labai palengvina termino įrašymo darbus automatiškai sukurdamos atvirkštinius ryšius ir<br />
neleisdamos skirtingų sąvokų reikšti taip pačiais terminais, atitiktinių terminų naudoti ten kur turi<br />
būti rašomi tik patvirtinti terminai ir t.t.<br />
• Tezauro kūrimas yra tęstinis procesas, kadangi kiekvienoje mokslo srityje ar kryptyje<br />
vyksta pokyčiai: atsiranda nauji terminai ar kinta jai reiškiamų sąvokų ribos. Į tezaurą nuolat turi<br />
būti įtraukiami nauji terminai (paprastai taikant indukcinį metodą), pašalinami seni, neteiktini<br />
terminai.<br />
Vertinant parengtus tezaurus siūloma atsižvelgti į tokius kriterijus:<br />
• Terminologija: ar atitinka mokslo sritį, nuolat atnaujinama ir tiksli?<br />
• Apimtis: ar tinkamai apibūdina mokslo sritį, nėra per plati ar per siaura?<br />
• Suskirstymas: ar prasmingas suskirstymas į temas?<br />
• Apibrėžimai ir pastabos: ar pakankamai išsamiai ir aiškiai apibūdina terminus?<br />
• Nuorodos: ar pakankamos pagal skaičių ir formą?<br />
• Formatas: ar aiškus pateikimas?<br />
• Klasifikacija: ar suderintas su kuria nors klasifikacijos schema?<br />
31
4. Svarbiausi humanitarinių ir socialinio mokslų srities tezaurai<br />
Tezaurus informacijos ir duomenų tvarkybai ir ieškai naudoja daugelis organizacijų. Kuriami<br />
universalūs, šakiniai ir specialūs mikro tezaurai. Sudaromi specialūs elektroninių tezaurų sąrašai 1 .<br />
Rengiami įvairios apimties, paplitimo ir kokybės HSM srities tezaurai. Šioje srityje galima išskirti<br />
ERIC, UNESCO tezaurą, ELSST, Sociologinių terminų tezaurą ir kitus.<br />
ERIC – Informacijos apie švietimo išteklius centras (angl. Education Resources Information<br />
Center) JAV yra virtuali švietimo išteklių ir informacijos<br />
biblioteka.http://www.eric.ed.gov/ERICWebPortal/Home.portal?_nfpb=true&_pageLabel=Thesauru<br />
s&_nfls=false. Informacijai tvarkyti ir paieškai atlikti taikomas ERIC tezauras. Terminai išdėstyti<br />
abėcėlės seka.<br />
Tezaure galima pasirinkti terminą iš abėcėlinio sąrašo arba pagal temą. Pvz., pasirinkus<br />
temą socialinės problemos – social problems, gaunamas sąrašas deskriptorių ir nedeskriptorių, iš<br />
kurių pasirinkus norimą, pvz., sexual abuse, pristatoma hierarchinė deskriptoriaus struktūra iš kurios<br />
galima pasirinkti paieškos terminą. Pasirinkus paiekos terminą, gaunamas dokumentų, atitinkančių<br />
šį dalyką, sąrašas.<br />
1 Koch T., Controlled vocabularies, thesauri and classification systems available in the WWW.<br />
[interaktyvus]. [žiūrėta 2006 m. lapkričio 20 d.]. Prieiga per internetą<br />
http://www.ub2.lu.se/metadata/subject-help.html;<br />
Web Thesaurus compendium[interaktyvus]. [žiūrėta 2006 m. lapkričio 20 d.]. Prieiga per internetą:<br />
http://www.ipsi.fraunhofer.de/~lutes/thesoecd.html<br />
32
UNESCO Tezauras (angl. UNESCO Thesaurus) – tai trikalbis kontroliuojamas šios<br />
organizacijos žodynas, kuris apima šių sričių terminus: švietimo, mokslo, kultūros, humanitarinių ir<br />
socialinių mokslų, informacijos ir komunikacijos, politikos, teisės ir ekonomikos. Be to, į tezaurą<br />
įtraukti valstybių ir įvairių valstybinių grupuočių ar sąjungų (politinių, ekonominių, geografinių,<br />
etninių, religinių ir pan.) pavadinimai. Visų kalbų versijose yra 87 mikrotezauro terminai, 4261<br />
deskriptorius, 4049 atvirkštiniai hierarchiniai ryšiai (BT/NT), 5771 asociatyvūs ryšiai (RT).<br />
Versijoje anglų kalba yra per 2340 atitiktinių terminų ir 600 terminų apibūdinimų. Tezauro paskirtis<br />
– lengvinti indeksavimą bibliotekose, archyvuose ir panašiose institucijose.<br />
Tezauras pristatomas dvejopai: kaip abėcėlinė ir hierarchinė struktūra. Pasirinkus reikiamą<br />
terminą pagal abėcėlę ar iš teminio mikrotezauro, formuluojama užklausa.<br />
UNESCO tezauras naudojamas ir kaip bazinis tezauras kurti panašios tematikos<br />
kontroliuojamus žodynus. Tezauro naudojimo principai ir sąlygos<br />
http://www2.ulcc.ac.uk/unesco/#purc.<br />
33
Europos kalbų socialinių mokslų tezauras (angl. European Language Social Science<br />
Thesaurus -ELSST). Jis yra rengiamas remiantis ISO 2788:1986 ir ISO 5964:1985 standartų<br />
reikalavimais. Jo pagrindą sudaro HASSET (Humanities and Social Science Electronic Thesaurus)<br />
tezauras anglų kalba. Detalus HASSET tezauras buvo sustambintas, nes ELSST tikslas yra sukurti<br />
bendrą ontologiją, kuri konkrečių institucijų poreikiams galėtų būti praplėsta terminais, susijusiais<br />
su kultūriniais ir instituciniais ypatumais. Atlikus dažniausiai UKDA kataloge naudojamų terminų<br />
analizę buvo atrinkti plačiausi terminai: ekonomika, darbas ir įsidarbinimas, politika, politinės<br />
sistemos, socialinės problemos, diskriminacija, požiūriai, probleminės grupės, politinės institucijos,<br />
etninės grupės, gyvenimo sąlygos, socialinė struktūra, duomenys, amžiaus grupės, demografija,<br />
sociologija, socialinis gerbūvis, aplinkosaugos mokslai, edukologija, identitetas, tautiškumas, šeima,<br />
religija, analizė, metodologija, šeimos aplinka. Vėliau, derinant su CESSDA (Council of European<br />
Social Science Data Archives) poreikiais tezauras buvo papildytas kitais plačiais terminais. Šiuo<br />
metu tezaure pakeikta daugiau kaip 3000 terminų vokiečių, danų, graikų, anglų, ispanų, suomių,<br />
prancūzų, norvegų ir švedų kalbomis.<br />
Sociologinių terminų tezauras (angl. Sociological abstracts Thesaurus)<br />
http://www.csa.com/factsheets/supplements/sociothes.php<br />
Atliekant paiešką CSA duomenų bazėse vartotojas turi galimybę pasirinkti sritį, pvz.,<br />
humanitariniai mokslai, menai, socialiniai mokslai ir atitinkamos srities tezaurą norima kalba,<br />
pavyzdžiui, Sociologinių terminų tezaurą ar Politinių mokslų tezaurą anglų kalba. Be to, Tezaurai<br />
pateikiami kaip hierarchinė struktūra, kai abėcėlinis deskriptorių ir nedeskriptorių sąrašas ir kaip<br />
permutacinė rodyklė.<br />
34
Pasirinkus Sociologinių terminų tezauro terminą ,,addiction“, gaunamas sąrašas dokumentų,<br />
kuriame šis terminas buvo naudotas indeksuojant.<br />
35
CSA duomenų bazės yra komercinės, todėl neįsigijus prieigos teisių galima tik bandomoji<br />
paieška.<br />
Europos švietimo terminų tezauras (angl. Thesaurus for Education Systems in Europe-<br />
TESE) yra daugiakalbis edukologijos terminų žodynas, sukurtas bendromis Europos komisijos ir<br />
Europos tarybos pastangomis. http://www.eurydice.org/portal/page/portal/Eurydice<br />
TESE pateikia edukologijos mokslo krypties terminus: švietimo principai ir sistemos,<br />
švietimo politika, švietimo institucijos, mokytojai, mokiniai, pastatai ir mokymo įranga, mokymo<br />
programa ir mokymo dalykai, edukaciniai tyrimai, ugdymo psichologija, sociologija ir ekonomika ir<br />
kt. Daugiakalbis edukologijos terminų tezauras parengtas pagal ISO 5964 1985 standartą. TESE<br />
pateikiami terminai 9 kalbomis.<br />
36
Pasirinkus iš TESE tezauro terminą ,,migracija“ – angl. migration, matome deskriptoriaus<br />
struktūrą, termino atitikmenis devyniomis kalbomis bei informaciją, kad siauresnis deskriptoriaus<br />
,,migration“ terminas ,,country of origin“ buvo panaudotas indeksuojant vieną šioje duomenų bazėje<br />
esantį dokumentą.<br />
EUROVOC. http://www3.lrs.lt/pls/ev/ev.main. Europos žodynas (tezauras) „EUROVOC“ -<br />
tai sisteminis žodžių ir žodžių junginių sąrašas. Jo paskirtis – tiksliai atspindėti dokumentų sistemoje<br />
esančių dokumentų ir joje atliekamų paieškų konceptualų turinį. Tai daugiakalbis tezauras lietuvių,<br />
anglų, vokiečių ir prancūzų kalbomis sudarytas Europos Bendrijos institucijų dokumentų<br />
informacijai apdoroti. Tezauras apima 21 sritį, jį sudaro 127 teminiai mikrotezaurai Jis skirtas<br />
Europos institucijų bibliotekoms, dokumentų tarnyboms ir dokumentų duomenų bazėms bei jų<br />
paslaugų vartotojams. Nors žodyne svarbiausia Europos Sąjunga, vis dėlto tai yra platus daugiašakis<br />
tezauras.<br />
37
Deskriptoriaus ,,pilietinės teisės“ iš EUROVOC tezauro hierarchinė struktūra.<br />
Informacijos tvarkymui ir paieškai duomenų archyvuose naudojami HSM srities<br />
tezaurai<br />
HASSET tezauras<br />
Jungtinės Karalystės duomenų archyvo (United Kingdom Data Archive, toliau UKDA)<br />
Humanitarinių ir socialinių mokslų elektroninis tezauro (Humanities and Social Science Electronic<br />
Thesaurus, toliau HASSET 2 ) pirminis variantas paremtas plačiai žinomu UNESCO tezauru, kurį<br />
parengė Jean Aitchison (Paris: UNESCO, 1977) (ISBN: 92-3-101469-2). Vėliau jis buvo<br />
tobulinamas ir dabar naudojamas UKDA online paieškos sistemoje.<br />
HASSET yra daugiadalykis tezauras. Jį parengė UKDA savo paties tikslams, todėl šio<br />
žodyno turinys ir aprėptis atspindi UKDA poreikius ir išteklius. Plačiausiai ir išsamiausiai<br />
pristatytos pagrindinės socialinių mokslų sritys: politika, sociologija, ekonomika, švietimas, teisė,<br />
nusikalstamumas, demografija, sveikata, užimtumas, ir vis didesnis dėmesys skiriamas<br />
technologijai.<br />
Tezaure mažai naudojami tikriniai daiktavardžiai. Geografiniai pavadinimai naudojami tiek,<br />
kiek jie reikalingi indeksavimui.<br />
2 HASSET thesaurus. In: UK Data Archive. [interaktyvus]. [žiūrėta 2007 m. 2007 m. rugpjūčio 11 d . Prieiga per<br />
internetą http://www.data-archive.ac.uk/search/hassetSearch.asp<br />
38
HASSET sandara ir struktūra atitinka Didžiosios Britanijos standarto (British Standard<br />
5723:1987) ir ISO 2788-1986 - Establishment and development of monolingual thesauri<br />
reikalavimus.<br />
Tezaure fiksuojami įprastiniai santykiai tarp leksinių vienetų (teiktini ir neteiktini terminai,<br />
žymima USE/UF), hierarchiniai santykiai (platesni ir siauresni terminai, žymima BT/NT) ir<br />
asociaciniai santykiai (žymima RT). Apibrėžiančių žodžių ir pastabų naudojimas HASSET atitinka<br />
aukščiau nurodytus principus.<br />
UKDA skatina nekomercinį HASSET taikymą su sąlyga, kad visais tezauro reprodukavimo<br />
ar adaptavimo atvejais bus nurodyta UKDA autorystė.<br />
HASSET termino ,,crime“ struktūra<br />
Pasirinkus susijusį terminą punishment (CRIME RT PUNISHMENT), gaunamas šiai temai<br />
skirtų dokumentų sąrašas.<br />
39
ICPSR Subject Thesaurus 3<br />
JAV politinių ir socialinių tyrimų universitetų konsorciumo (Inter-university consortium for<br />
political and social research) dalykinis tezauras (toliau ICPSR tezauras) buvo parengtas<br />
vadovaujantis Guidelines for the Construction, Format, and Management of Monolingual Thesauri,<br />
Z39.19-1993 (NISO 1993) nuostatomis.<br />
ICPSR tezauras yra daugiadalykis. Jis apima visas ICPSR archyvo sritis: politikos mokslai,<br />
sociologija, istorija, ekonomika, švietimas, teisingumas, gerontologija, demografija, sveikata<br />
apsauga, teisė ir tarptautiniai santykiai.<br />
Asmenvardžiai ir geografiniai pavadinimai nėra tezauro leksiniai vienetai. Šie terminai<br />
įtraukti į specialiai šiam tikslui sudarytus kontroliuojamus sąrašus. ICPSR tezauro įvade pristatomos<br />
pagrindiniai šio žodyno sudarymo principai: daugiskaitos ir vienaskaitos, žodžių junginių,<br />
santrumpų ir akronimų, tikrinių daiktavardžių ir pavadinimų naudojimas.<br />
Tezaure fiksuojami įprastiniai santykiai tarp leksinių vienetų (teiktini ir neteiktini terminai,<br />
žymima USE/UF), hierarchiniai santykiai, kurie atspindi santykius giminė - rūšis, visuma - dalis,<br />
klasė - poklasė. Jie žymimi santrumpa BT/NT. Nehierarchiniai santykiai rodo artimus prasminius,<br />
3 ICPSR Subject Thesaurus. In: Inter university consortium for political and social studies. [interaktyvus]. [žiūrėta 2006<br />
m. lapkričio 20 d.]. Prieiga per internetą http://www.icpsr.umich.edu/thesaurus/index.html<br />
40
ne sinonimiškumo, santykius (žymima RT). Apibrėžiančių žodžių ir vartojimo pastabų naudojimas<br />
ICPSRST atitinka aukščiau nurodytus principus.<br />
Paieška ICPSR bazėje tezaure pasirinkus terminą occupational categories RT employment<br />
qualifications RT job skills<br />
<strong>LiDA</strong> tezauras<br />
<strong>LiDA</strong> tezauro rengimo metodika<br />
Rengiant <strong>LiDA</strong> tezaurą ir pasirenkant jo sudarymo metodiką buvo vadovautasi nuostatomis,<br />
kad <strong>LiDA</strong> dokumentų tvarkybai ir ieškai reikalingas specialus HSM terminų tezauras lietuvių kalba,<br />
kuris turi tapti <strong>LiDA</strong> informacinės sistemos lingvistinio aprūpinimo sudėtine dalimi, užtikrinančia<br />
duomenų archyve saugomų dokumentų apdorojimo nuoseklumą ir aukštą paieškos kokybę.<br />
Atlikus kontroliuojamų žodynų rengimo praktikos Lietuvoje analizę 4 , buvo nuspręsta, kad<br />
<strong>LiDA</strong> terminų tezauro sudarymui geriausia pasinaudoti esamais šios srities tezaurais anglų kalbą ir<br />
pasirinkus tinkamiausią bei plačiausiai HSM srityje naudojamą išversti jį į lietuvių kalbą.<br />
4 Lietuvoje iš esmės nėra originalių tezaurų rengimo patirties. Pirmas ir kol kas vienintelis tezauras<br />
lietuvių kalba – EUROVOC tezauras, skirtas Europos Bendrijos institucijų dokumentų informacijai<br />
tvarkyti. Lietuviškasis šio tezauro variantas yra trečiojo 3.1 Europos Bendrijos oficialių publikacijų<br />
biuro parengto tezauro vertimas. Šis tezauras yra daugiakalbis, greta terminų lietuvių kalba<br />
pateikiami terminai anglų, vokiečių ir prancūzų kalbomis. Tezauras naudojamas LR Seimo<br />
informacijos sistemos dokumentų, visų pirma LR teisės aktų tvarkymui ir paieškai. Kita vertus,<br />
41
Atsižvelgus į pirmoje projekto vykdymo stadijoje tezauro rengėjų atliktos HSM srities<br />
kontroliuojamų žodynų analizės rezultatus, kai buvo analizuojama įvairių šios srities tezaurų apimtis<br />
paplitimas, atitikimas ISO standartams, buvo padaryta išvada, kad tinkamiausias <strong>LiDA</strong> tikslams yra<br />
HASSET tezauras. Jis sudaro lietuviškojo HSM srities tezauro pagrindą.<br />
Antra vertus, konkretūs <strong>LiDA</strong> poreikiai, kaupiamų dokumentų specifika, akademinės<br />
bendruomenės lūkesčiai, lietuvių kalbos ypatybės reikalauja, kad HASSET tezauro leksika būtų<br />
atitinkamai adaptuota. Todėl rengiant <strong>LiDA</strong> tezaurą buvo naudotasi įvairiomis lingvistinėmis<br />
priemonėmis lietuvių kalba: Lietuvos nacionalinės Martyno Mažvydo bibliotekos rubrikynu,<br />
EUROVOC tezauru, terminų žodynais ir kt.<br />
Renkantis tinkamiausią <strong>LiDA</strong> tezauro rengimo modelį buvo nuspręsta, kad atsižvelgiant į<br />
Europos ir pasaulio HSM archyvų šiuolaikinę praktiką, reikėtų rengti ne vienos kalbos, o dvikalbį<br />
anglų – lietuvių kalbų tezaurą.<br />
Tezaurų rengimo verčiant ir adaptuojant esamus kitų kalbų tezaurus galimybes, metodus, jų<br />
privalumus ir trūkumus apibūdina ISO 5964 standartas. Šiame dokumente pristatomi trys<br />
daugiakalbio tezauro kūrimo metodai:<br />
• Ab initio kūrimas: t.y. naujo žodyno kūrimas, nesiremiant jau egzistuojančio tezauro<br />
terminais.<br />
• Jau egzistuojančio vienakalbio tezauro vertimas.<br />
• Dviem ar keliomis kalbom jau egzistuojančių tezaurų derinimas ir jungimas.<br />
Pirmojo metodo privalumas – lengva užtikrinti kalbos neutralumą, t.y. išvengiama<br />
konkrečios kalbos įtakos. Tokio tezauro kūrimo išlaidos yra didelės, kadangi reikia sukurti tezauro<br />
struktūrą, pateikti sąvokų apibrėžimus ir nustatyti atitikmenis įvairiomis kalbomis.<br />
Antrojo metodo didelis privalumas tas, kad nereikia kurti reikšminių žodžių masyvo,<br />
formuoti tezauro struktūros. Didžiausias šio metodo sunkumas tai, kad verčiant ne visada sutampa<br />
terminais reiškiamų sąvokų ribos ir vieną terminą tenka versti keliais kitos kalbos terminais, gali<br />
kadangi tezauras yra daugiadalykis juo gali naudotis ir kitos institucijos, visų pirma Europos<br />
institucijų bibliotekos, dokumentų tarnybos ir dokumentų duomenų bazės bei jų paslaugų vartotojai.<br />
Nors žodyne svarbiausia Europos Sąjunga, vis dėlto tai yra platus daugiašakis tezauras. Šiuo metu<br />
yra rengiamas Archeologijos terminų tezauras.<br />
Lietuvos bibliotekos rengdamos atitinkamus kontroliuojamus žodynus dokumentų tvarkybai ir<br />
ieškai, kaip antai rubrikynus ar hierarchinės struktūros dokumentų klasifikacijas, taip pat naudojasi<br />
kitų nacionalinių ar tarptautinių institucijų parengtais žodynais. Taigi kontroliuojamų žodynų<br />
rengimo Lietuvoje patirtis rodo, kad dažniausiai pasirenkamas atitinkamų tarptautinių žodynų<br />
vertimo į lietuvių kalbą ir adaptavimo būdas.<br />
42
skirtis jų loginiai santykiai, hierarchijos lygis ir pan. Kartais visai nėra kitakalbio atitikmens,<br />
terminų kiekis, jų apimtis gali neatitikti konkrečių atitinkamos sistemos poreikių.<br />
Taikant trečiąjį metodą problemos kyla dėl tezaurų skirtingos hierarchinės struktūros, taip<br />
pat dėl svarbių terminų semantikos skirtumų. Todėl tezauro versijos skirtingomis kalbomis gali<br />
turėti skirtingas hierarchines struktūras.<br />
Nepaisant aukščiau minėtų trūkumų buvo pasirinktas daugiakalbio tezauro rengimo būdas,<br />
t.y. jau egzistuojančio vienakalbio žodyno vertimas į lietuvių kalbą ir jo pildymas bei adaptavimas.<br />
<strong>LiDA</strong> tezauro naudojimas<br />
<strong>LiDA</strong> tezauras tai - dviejų kalbų elektroninis kontroliuojamas žodynas. Žodyne visi terminai<br />
yra anglų ir lietuvių kalbomis. Vartotojai naudodami lietuviškus terminus gali atlikti angliškų tekstų<br />
paiešką ir atvirkščiai.<br />
Tezauras apima daugelį HSM ir kitų mokslo bei praktinės veiklos sričių.<br />
Pagrindinės tezauro sritys:<br />
1. aplinkos apsauga,<br />
2. ekonomika,<br />
3. energetika,<br />
4. darbas ir užimtumas,<br />
5. darbo santykiai,<br />
6. demografija,<br />
7. finansai,<br />
8. gamyba ir technologija,<br />
9. geografija,<br />
10. karyba,<br />
11. komunikacijos,<br />
12. laisvalaikis, sportas ir kultūra,<br />
13. lygios galimybės,<br />
14. medicina,<br />
15. mokslas,<br />
16. politika,<br />
17. pramonė,<br />
18. prekyba,<br />
19. religija,<br />
43
20. socialinė apsauga,<br />
21. socialinė rūpyba,<br />
22. socialiniai klausimai,<br />
23. sociologija,<br />
24. statistika,<br />
25. sveikatos apsauga,<br />
26. šeima ir šeimos ūkis,<br />
27. švietimas ir ugdymas,<br />
28. teisė,<br />
29. transportas,<br />
30. vaikų teisės,<br />
31. verslas,<br />
32. žemės ūkis ir miškininkystė,<br />
33. žemės ūkio ir maisto produktai,<br />
34. žiniasklaida,<br />
35. žmogaus teisės<br />
36. žmonės su negalia<br />
Kai kurios sritys yra pristatytos detaliau, kitos fragmentiškai. Detalumas daugiausiai<br />
priklauso nuo atliekamų HSM srities tyrimų tematikos ir atitinkamos terminologijos poreikių.<br />
Rengiant <strong>LiDA</strong> tezaurą, buvo atsisakyta daugelio Jungtinės Karalystė teritorijų, miestų, kitų<br />
geografinių pavadinimų, taip pat kai kurių Jungtinei Karalystei būdingų daiktų, reiškinių, procesų<br />
pavadinimų. Kai kuriose vietose prie lietuviško termino vartotojas gali rasti pastabą (Jungtinė<br />
Karalystė), kuri rodo, kad lietuvių kalba tokio atitikmens nėra, todėl pateikta tik bendroji sąvoka ar<br />
paaiškinimas.<br />
Pvz., POOR LAWS - Paramos vargšams įstatymai (Jungtinė Karalystė)<br />
Kita vertus, dėl būtinumo papildyti <strong>LiDA</strong> tezaurą lietuviškais terminais, pavadinimais ir<br />
pan., kurie turi turėti atitikmenį anglų kalba, šie vertiniai gali būti ne visai tikslūs.<br />
Pvz., Avarinis gyvenamasis fondas – EMERGENCY DWELLING FUND.<br />
Visais atvejais <strong>LiDA</strong> tezaure palikta HASSET tezauro deskriptorių straipsnių struktūra ir<br />
užfiksuoti tokie santykiai tarp leksinių vienetų, kurie buvo originale.<br />
Taigi <strong>LiDA</strong> tezaure fiksuojami sinonimijos, gimininiai – rūšiniai ir asociaciniai santykiai.<br />
44
Deskriptoriaus ir nedeskriptoriaus sinonimijos santykiai žymimi santrumpomis UF (Used for<br />
– vartojamas vietoj) ir USE (naudok).<br />
Santrumpa UF rodo deskriptoriaus ir nedeskriptoriaus, kuriam jis atstovauja, santykius. Pvz.:<br />
COMPLEMENTARY THERAPIES Netradicinis gydymas<br />
UF COMPLEMENTARY MEDICINE Netradicinė medicina<br />
UF COMPLEMENTARY HEALTH CARE Netradicinė sveikatos priežiūra<br />
UF ALTERNATIVE MEDICINE Alternatyvi medicina<br />
UF ALTERNATIVE THERAPIES Alternatyvus gydymas<br />
Santrumpa USE (naudok) reiškia nedeskriptoriaus ir deskriptoriaus, kurį jis pakeičia santykius. Pvz:<br />
COMPLEMENTARY MEDICINE Netradicinė medicina<br />
USE COMPLEMENTARY THERAPIES Netradicinis gydymas<br />
COMPLEMENTARY HEALTH CARE Netradicinė sveikatos priežiūra<br />
USE COMPLEMENTARY THERAPIES Netradicinis gydymas<br />
ALTERNATIVE MEDICINE Alternatyvi medicina<br />
USE COMPLEMENTARY THERAPIES Netradicinis gydymas<br />
ALTERNATIVE THERAPIES Alternatyvus gydymas<br />
USE COMPLEMENTARY THERAPIES Netradicinis gydymas<br />
Ieškant informacijos apie dalyką, kuris gali būti pavadintas alternatyvus gydymas,<br />
alternatyvi medicina, netradicinė sveikatos priežiūra ar netradicinė medicina, reikia vartoti<br />
deskriptorių Netradicinis gydymas. T. y. sinonimijos arba ekvivalentiškumo santykiai parodo<br />
indeksuotojui arba vartotojui, kokį deskriptorių reikia naudoti vietoje pasirinkto nedeskriptoriaus.<br />
Hierarchiniai gimininiai ir rūšiniai santykiai žymimi santrumpomis BT (platesnis terminas),<br />
kai reikia parodyti santykį tarp specifinio ir bendresnio deskriptoriaus ir NT (siauresnis terminas),<br />
kai siekiama parodyti santykius tarp bendro ir siauresnės ar konkretesnės prasmės deskriptoriaus.<br />
Skaitmuo prie santrumpos BT (6) arba (7) rodo skirtingą jų hierarchijos lygį.<br />
Pavyzdžiui,<br />
COMPLEMENTARY THERAPIES Netradicinis gydymas<br />
45
UF COMPLEMENTARY MEDICINE Netradicinė medicina<br />
UF COMPLEMENTARY HEALTH CARE Netradicinė sveikatos priežiūra<br />
UF ALTERNATIVE MEDICINE Alternatyvi medicina<br />
UF ALTERNATIVE THERAPIES Alternatyvus gydymas<br />
NT(5) ACUPUNCTURE Akupunktūra<br />
NT(5) CHIROPRACTIC Chiropraktika<br />
NT(5) FOLK MEDICINE Liaudies medicina<br />
NT(5) HOMEOPATHY Homeopatija<br />
BT(6) MEDICAL TREATMENT METHODS Gydymo metodai<br />
BT(7) MEDICAL SCIENCES Medicinos mokslai<br />
Asociatyvius deskriptorių santykius rodo santrumpa RT (8) (related term – asociatyvus<br />
terminas). Pavyzdžiui:<br />
MARKET ECONOMY Rinkos ekonomika<br />
BT(6) ECONOMIC SYSTEMS Ekonominės sistemos<br />
BT(7)ECONOMICS Ekonomika<br />
RT(8)CAPITALISM Kapitalizmas<br />
RT(8) ECONOMIC COMPETITION Ekonominė konkurencija<br />
RT(8)PRIVATIZATION Privatizavimas<br />
Indeksuotojui ir vartotojui, kuris ketina naudoti tam tikrą deskriptorių asociatyvūs santykiai<br />
rodo, kad vietoje deskriptoriaus Rinkos ekonomika jis galėtų naudoti terminus Ekonominė<br />
konkurencija, Privatizavimas ar Kapitalizmas, kurie taip pat tinka konkrečios informacijos<br />
tvarkymui ar paieškai, o kartais gali net tiksliau išreikšti reikiamą sąvoką.<br />
Esant reikalui deskriptoriaus reikšmė gali būti siaurinama arba paaiškinama. Pavyzdžiui:<br />
MONEY SUPPLY – Pinigų pasiūla (pinigų, cirkuliuojančių šalies ekonomikoje, kiekis)<br />
INCONTINENCE – Nelaikymas (medicina)<br />
Tezauro kūrimas yra tęstinis procesas, kadangi kiekvienoje mokslo srityje ar kryptyje vyksta<br />
pokyčiai: atsiranda nauji terminai ar kinta jais reiškiamų sąvokų ribos. Į tezaurą nuolat turi būti<br />
įtraukiami nauji terminai, pašalinami seni, neteiktini terminai. Akivaizdu, kad kaupiant ir tvarkant<br />
Lietuvos HSM duomenų archyvą atsiras naujų lietuviškų terminų, kurie būtini indeksavimui ir<br />
paieškai. Kita vertus, gavus HASSET tezauro papildymus ir pakeitimus atitinkamai turės būti<br />
modifikuojama angliškoji ir lietuviškoji tezauro leksikos dalis.<br />
46
Tezauro duomenys yra prieinami <strong>LiDA</strong> svetainėje: http://www.lidata.eu.<br />
• pasirinkti kalbą<br />
• įvesti pirmą raidę arba termino pradžią<br />
• atlikti paiešką<br />
• spragtelėti “+”, jeigu domina susiję terminai<br />
• spragtelėti ant susijusio termino, jeigu domina tolimesnės sąsajos.<br />
Vadovaujantis minėtomis taisyklėmis pasirenkame lietuvių kalbą, įvedame termino pradžią<br />
(žm. – ieškome termino ,,žmogaus teisės“) ir atliekame paiešką. Radus terminą, nuspaudžiame ,,+”<br />
ir gauname susijusių terminų sąrašą.<br />
Jeigu vartotoją domina tolimesnės sąsajos, reikia spragtelėti ant norimo termino, pvz., Kultūrinės<br />
teisės.<br />
47
5. Metaduomenys. Metaduomenų schemos ir elementų rinkiniai. Empirinių<br />
duomenų aprašymo standartas ir jo taikymas archyvo reikmėms.<br />
Duomenų archyve <strong>LiDA</strong> yra kaupiami įvairūs empiriniai (gyventojų surašymų, namų valdų,<br />
rinkimų, vyriausybės ir savivaldybių, visuomenės nuomonės apklausų ir tyrimų, statistikos ir kt.)<br />
duomenys, kuriuos sukaupia tyrėjai. Taip pat čia saugomi ir prieinami publikuoti informacinio<br />
pobūdžio leidiniai (knygos, žurnalai), nepublikuota informacija (mokslinių tyrimų ataskaitos,<br />
disertacijos) ir mokslinių tyrimų apžvalgos. Visi šie duomenys ir informacija saugoma šiais<br />
formatais: DDI Document (*.xml); SPSS System (*.sav); SPSS Portable (*.por); SPSS Syntax<br />
(*.sps); SAS (*.sp1); Stata 7 ir Stata 8 (*.dta); Statistica (*.sta); NSDstat (*.nsf); dBase (*.dbf); DIF<br />
(*.dif); Delimited Text (*.txt, *.cvs).<br />
<strong>LiDA</strong> ir lingvistinis aprūpinimas<br />
48
HSM duomenų archyvo sukūrimui ir egzistavimui yra būtinas lingvistinis aprūpinimas –<br />
kitaip tariant archyve talpinamų duomenų bei informacijos aprašymo taisyklių sukūrimas tų<br />
duomenų pateikimo į archyvą, saugojimo, prieigai užtikrinti.<br />
<strong>LiDA</strong> lingvistinio aprūpinimo funkcinei struktūrai turėjo įtakos jau egzistuojantys šalyje ir<br />
užsienyje atvirieji elektroninių išteklių archyvai. Pirmiausia buvo remiamasi Atvirų archyvų<br />
iniciatyvos metodologija, kuri pateikta ISO standarte ISO 14721:2003 Space Data and Information<br />
Transfer System - Open Archival Information System - Reference Model. Šiame standarte<br />
pakankamai aiškiai išdėstyti pagrindiniai reikalavimai, keliami tokio pobūdžio archyvams. Pagal šį<br />
modelį sudarytas <strong>LiDA</strong> lingvistinis aprūpinimas užtikrina šių funkcijų vykdymą:<br />
• komplektavimą, apima visus veiksmus susijusius su elektroninės informacijos ir duomenų<br />
surinkimu iš tyrėjų ir patalpinimu į bendrą serverį. Šis procesas reikalauja pasikeisti<br />
bibliografine ir administracine informacija su tyrėjais;<br />
• registravimą: naujai gauta elektroninė informacija ar duomenys yra užregistruojami archyve<br />
ir bibliografinė informacija pateikiama į elektroninius katalogus;<br />
• patikrinimą: tai procesas, kurio metu atliekamas failų formato bei elektroninės informacijos<br />
ar duomenų loginio integralumo patikrinimas;<br />
• katalogavimą: tai elektroninės informacijos ar duomenų metaduomenų įrašo sudarymo<br />
procedūros, užtikrinančios, kad informacija ar duomenys būtų surastos kataloguose bei<br />
pasaulio mokslinių tyrimų archyvuose;<br />
• saugojimo tvarkymą: čia atliekamos tokios procedūros kaip išsaugojimas skaitmeninėse<br />
laikmenose, pastovus atsarginių kopijų darymas bei kopijavimas įvairiems tikslams. Čia<br />
ypatingas vaidmuo tenka techniniams metaduomenims, fiksuojantiems informaciją apie<br />
skaitmeninio objekto migravimą archyve;<br />
• pakavimą ir pateikimą: užtikrina skaitmeninio objekto prieinamumą, tarnauja statistikai,<br />
monitoringui ir kitiems tikslams. Jo paskirtis yra skaitmeninio objekto paieška, reikalingos<br />
skaitmeninio objekto kopijos paieška ir perdavimas į kreipties modulį. Šis procesas gali<br />
apimti tokias procedūras kaip reikalingos skaitmeninio objekto dalies radimas, kopijavimas<br />
arba viso teksto pridėjimas, tam tikras skaitmeninio objekto dalies reformatavimas peržiūrai,<br />
atspausdinimas;<br />
• kreiptį: užtikrina prieigą prie Archyvo skaitmeninių objektų. Šis procesas apima suradimo<br />
galimybių suformavimą, vartotojo identifikavimą, vartotojo teisių bei profilio nustatymą ir<br />
kt.;<br />
49
integravimą: į bendrą Lietuvos ir Europos mokslinių tyrimų elektroninio turinio erdvę.<br />
Truputį istorijos. Pagal Bendrojo programavimo dokumentą 2007-2013 metams, iš 2007-<br />
2013 metams 800 milijonų Lt skiriamų Informacinės visuomenės plėtrai, elektroninio turinio plėtrai<br />
bus skirta 70%, o infrastruktūros plėtrai, t.y., technikai 30%. Tai yra atvirkštinis santykis, lyginant<br />
su prieš tai buvusiu santykiu. Į informacinės visuomenės programą buvo įrašyta mokslinių duomenų<br />
archyvavimo finansavimas, kurio ankstesniame BPD dokumente nebuvo. Taigi, su naujojo BPD<br />
2007-2013 m. patvirtinimu atsivėrė naujos perspektyvos gauti finansavimą mokslinių duomenų<br />
archyvų kūrimui. HSM <strong>LiDA</strong> archyvas yra pirmasis visateksčių mokslinių duomenų archyvas,<br />
pradėtas kurti 2007 m.<br />
Tačiau, ar jis buvo kuriamas tuščioje vietoje? Suprantama, kad ne. Pirmiausia buvo<br />
pasinaudota Slovėnijos bei Vokietijos patirtimi, bei pasisemta patirties iš LNB kartu su partneriais<br />
vykdomo projekto „Integralios virtualios bibliotekų informacinės sistemos sukūrimas“ (projekto<br />
svetainė internete http://www.epaveldas.lt).<br />
50
LNB projektą verta paminėti, nes metodologine prasme jis buvo naudingas, formuojant<br />
<strong>LiDA</strong> lingvistinį aprūpinimą. Svarbiausia šio projekto ypatybė tai, kad jame dalyvauja trys<br />
skirtingos atminties institucijos: archyvai, muziejai ir bibliotekos. Todėl teko ne tik derinti skirtingus<br />
standartus, bet ir surasti sąlyčio taškus, parengti vieningą metaduomenų parengimo metodologiją,<br />
kuri galėtų būti atspindėta štai tokia schema:<br />
Iš schemos mes matome didžiulę įvairovę standartų, naudojamų dokumentų arba<br />
skaitmeninių objektų aprašymui. Pavyzdžiui, aprašo parengimui: archyvuose ISAD, bibliotekose<br />
ISBD, muziejuose RIS.<br />
Sukurto lingvistinio aprūpinimo esmę sudaro tai, kad jis užtikrino galimybę dalyvaujančioms<br />
institucijoms rengti savo metaduomenis taip, kaip yra įpratusios pagal savo taisykles ir savo srities<br />
standartus, o portale pateikiami tik labai lakoniški metaduomenys DC formatu. Štai iš čia matomo<br />
portalo http://www.epaveldas.lt per nuorodą į pirminę sistemą einama toliau į LNB, arba į Dailės<br />
muziejų ir susipažįstama su išsamiu aprašu.<br />
51
Ši idėja pasirodė priimtina ir projektuojant <strong>LiDA</strong>, todėl suformuotas LIDA lingvistinis<br />
aprūpinimas iš esmės yra grindžiamas čia pateiktu pavyzdžiu.<br />
<strong>LiDA</strong> lingvistinis aprūpinimas buvo suformuotas remiantis Lietuvos ir pasaulio šalių<br />
elektroninių archyvų, katalogų bei juos apibūdinančių dokumentų analize, siekiant nustatyti ir<br />
pasiūlyti optimaliausią <strong>LiDA</strong> metaduomenų turinį ir formą, kuo labiau atitinkančius šiuolaikinius<br />
reikalavimus, keliamus Europos elektroninio turinio prieigai bei siekiant suderinti su Lietuvos<br />
skaitmeniniu turiniu.<br />
Suformuotas lingvistinis aprūpinimas leido pasiūlyti HSM duomenų archyvo architektūrą,<br />
padedančią užtikrinti:<br />
• spartų duomenų perdavimą, vykdant atskiras užklausas bei operuojant dideliais duomenų<br />
kiekiais;<br />
• galimybę palaikyti daugialypės terpės dokumentus, sudarytus iš teksto ir atvaizdų;<br />
• paskirstyto pradinio duomenų apdorojimo galimybę, kuriai esant projekto partneriai gali<br />
patys parengti skaitmeninius fondus ir talpinti juos į bendrąją duomenų bazę;<br />
• archyve saugomiems formaliems dokumentams suteikti nuolatinius vardus.<br />
Lingvistinis aprūpinimas taip pat užtikrina virtualios sistemos archyvavimą ir objektų erdvės<br />
tvarkymą:<br />
• integruojant skaitmeninius objektus įvairiais formatais;<br />
• formuojant skaitmeninių objektų erdvę taip, kad ją galima kuo efektyviau pateikti paieškai<br />
ir skaitmeninių objektų pateikimui;<br />
• užtikrinant skirtingų metaduomenų ir formatų suderinamumą, parengus metaduomenų<br />
kodavimo sistemų sankirtas.<br />
HSM duomenų archyvo Lingvistinis aprūpinimas užtikrina monitoringo realizavimą.<br />
HSM duomenų archyvo Lingvistinis aprūpinimas užtikrins skaitmeninių objektų prieigos ir sklaidos<br />
realizavimą bei suderinamą su Lietuvos ir Europos skaitmeniniu turiniu:<br />
• sparčią prieigą prie skaitmeninių objektų saugomų KTU pagrindiniame skaitmeninės<br />
informacijos Archyve bei išsamių archyvinių aprašų projekto partnerių sistemose;<br />
• informacijos pateikimą internete per interneto sąsają;<br />
• patogią prieigą prie dokumentų pagal įvairius jų požymius;<br />
• paieškos rezultatų išdavimą pagal sąrašą, kuriame turi būti nurodomi užklausą atitinkantys<br />
dokumentai ar jų dalys.<br />
52
<strong>LiDA</strong> – archyvas<br />
Prieš pradedant <strong>LiDA</strong> kūrimą, reikėjo atsakyti į esminius klausimus, ar tai bus archyvas,<br />
atitinkantis archyvų srities ideologiją, standartus ir, ar tai bus visateksčių duomenų bazė.<br />
Atsižvelgiant į tai, kad į <strong>LiDA</strong> numatoma talpinti empirinius duomenis: gyventojų surašymų, namų<br />
valdų, rinkimų, visuomenės nuomonių apklausų ir tyrimų duomenys, akivaizdu, kad turi būti<br />
kuriamas archyvas, atitinkantis visus reikalavimus, keliamus archyvams.<br />
<strong>LiDA</strong> – tai HSM duomenų archyvas. Prieš pristatant mokslinių duomenų archyvavimo<br />
koncepciją, turime pateikti archyvo sąvoką, kurią mes suprantame kaip skaitmeninių objektų<br />
saugyklą, atliekančią tradicines kaupimo, saugojimo ir prieigos prie informacijos funkcijas bei<br />
paskirstytą sistema, platinančią turimą skaitmeninę informaciją bei aktyviai skatinančią bei<br />
palaikančią šios informacijos kūrimo procesą.<br />
Jeigu <strong>LiDA</strong> yra archyvas, tuomet teko susipažinti, pirmiausia, su archyvuose naudojama<br />
terminologija bei naudojamais standartais.<br />
Pagal kokius dokumentus ir standartus archyvuose kuriami metaduomenys?<br />
Pradžioje panagrinėkime fizinių objektų ir skaitmeninių objektų panašumus bei atitinkamus<br />
jų aprašymus (metaduomenis). Tradiciniai archyviniai fondai ir jų sudėtinės dalys atspindimi<br />
archyviniuose aprašuose, kurie padeda atitinkamai identifikuoti kiekvieną objektą, suteikia<br />
informacijos apie jo turinį, struktūrą, sukūrimo kontekstą bei leidžia vartotojui įvertinti, ar objektas<br />
gali būti jam naudingas.<br />
Siekiant pateikti rekomendacijas dėl archyvinio aprašo sudarymo, palyginome ISAD (G)<br />
(Pagrindinis Tarptautinis standartinis arhyvinis aprašymas, angl. General International Standard<br />
Archival Description 5 ) terminologiją su metaduomenų apibrėžimais: ISAD (G) nurodo, jog tai yra<br />
bendrosios archyviniams aprašams, nepriklausomai nuo aprašomo vieneto ir pobūdžio bei apimties,<br />
taisyklės. Jose nurodoma, kaip formuluoti informaciją kiekvienam iš 26 elementų, kurie išdėstyti 6<br />
pagrindinėse srityse (identifikavimo, konteksto, turinio ir sandaros, prieigos ir naudojimo sąlygų,<br />
sietinės medžiagos, pastabų), kurios leidžia sudaryti išsamų aprašomo objekto vaizdą.<br />
ISAD (G) garantuoja išsamių, tinkamų ir aiškių aprašų sudarymą, palengvina informacijos<br />
apie archyvinę medžiagą sudarymą, palengvina informacijos apie archyvinę medžiagą mainus ir<br />
paiešką, sudaro galimybę keistis autoritetiniais duomenimis, leidžia sujungti aprašus iš įvairių<br />
5 http://www.ica.org/en/node/30000<br />
53
saugyklų į vieningą informacijos sistemą. Todėl galima tvirtinti, kad archyvinis aprašas yra<br />
archyvinių objektų metaduomenys, kaip kad katalogų įrašai yra bibliotekų metaduomenys.<br />
Tuo atveju, kai fizinis archyvo objektas yra suskaitmenintas, būtina parengti prieigą prie jo<br />
turinio. Todėl iškyla būtinybė aprašyti skaitmeninio objekto vaizdą arba jo turinį. Jei objektas yra<br />
fondas, reikia sudaryti viso fondo archyvinį aprašą su jo hierarchine struktūra, atskleidžiančia jo<br />
struktūrines dalis. Šis procesas yra vadinamas "aprašomųjų metaduomenų" sudarymu.<br />
Jeigu archyvinis aprašas gali būti traktuojamas kaip „archyviniai metaduomenys“ ir jeigu<br />
archyvinis fizinių objektų aprašas ir archyvų skaitmeninių fondų metaduomenys yra, galima daryti<br />
išvadą, kad skaitmeniniai objektai yra aprašomi taip pat, kaip ir fiziniai objektai. Tai yra labai svarbi<br />
išvada, kuri gali būti pateikta schematiškai:<br />
Pagrindinės archyvinio aprašo charakteristikos yra aiškiai suformuluotos ISAD (G). Svarbiausia šio<br />
standartinio aprašo ypatybė yra ta, kad jis sudaro galimybę atspindėti archyvinį fondą taip, kaip jis<br />
egzistuoja. Tai reiškia, kad archyvinis aprašas pradedamas rengti nuo pagrindinio, aprašant<br />
specifinius entitetus, nuo fondo prie bylos (fizinės) ir atskirų jos vienetų.<br />
Todėl kuriant <strong>LiDA</strong> buvo nutarta laikytis tos pačios logikos, kurią diktuoja ISAD (G) –<br />
kurti hierarchinę archyvo struktūrą, išreiškiamą taip, kaip parodyta paveikslėlyje:<br />
54
Svarbu pastebėti, kad ISAD (G) tinka ir tradicinės formos objektų aprašui ir kompiuterinio<br />
archyvo objektų aprašui. Jeigu aprašomieji metaduomenys yra naudojami prieigai prie skaitmeninio<br />
fondo, hierarchinė metaduomenų struktūra turi užtikrinti prieigą prie kiekvieno atskiro fondo<br />
vieneto, saugomo archyve. Tuo pačiu metu, elektroninėje aplinkoje metaduomenys privalo atkurti<br />
loginį, o ne fizinį archyve saugomų objektų ryšį.<br />
Siekiant patenkinti šiuos reikalavimus, aprašomieji metaduomenys privalo turėti tokią pačią<br />
hierarchinę struktūrą kaip ir tradiciniai. Tai reiškia, kad jie turi būti suderinti su tarptautiniu<br />
archyviniu aprašu ISAD (G), kuris sudaro galimybę parengti archyvinio aprašo hierarchinę<br />
struktūrą. Kitaip tariant, pilnesnį ir patogesnį archyvų objektų bei duomenų bazių turinio aprašymą<br />
elektroninėje aplinkoje.<br />
Nors ISAD (G) tinka ir skaitmeniniams objektams aprašyti, vis dėl to skaitmeninių objektų<br />
aprašymui buvo sukurta keletas metaduomenų modelių, pavyzdžiui, Dublin Core, kuris yra šiuo<br />
metu vienas populiariausių ir Lietuvoje pripažintas šalies standartu (LST ISO 15836:2007:<br />
Informacija ir dokumentai. Dublin Core metaduomenų elementų grupė (tapatus ISO 15836:2003).<br />
Dublin Core schema susideda iš elementų. Ji gali palaikyti paprastą ryšį tarp dviejų<br />
skaitmeninių objektų, kadangi "ryšio" elementas, apibūdinamas kaip "nuoroda į susijusį išteklių"<br />
turi šiuos "kvalifikatorius": "dalis", "turi dalį".<br />
Tuo pačiu Dublin Core (DC), kaip ir kiti metaduomenys sukurti skaitmeniniams ištekliams,<br />
negali pilnai būti pritaikyti siekiant pilnai aprašyti archyvinį skaitmeninį išteklių. Be to, kai kurie<br />
DC elementai gali sukelti netgi tam tikrą sumaištį, pavyzdžiui, "informacija apie kūrėją".<br />
Archyvuose kiekvieno archyvinio vieneto aprašas yra reikšmingas tik kai yra aiškiai aprašytas<br />
55
fondo, kuriam jis priklauso, kūrėjas (angl. Creator). Tik tai kūrėjo istorija ir struktūra gali padėti<br />
vartotojui suprasti sąlygas, kuriomis dokumentas buvo sukurtas arba surinktas, kritiškai įvertinti<br />
dokumentų turinį. Šio tipo duomenys yra labai svarbūs aprašui. Būtent tokių duomenų ir trūksta<br />
Dublin Core. DC elementas vadinamas "kūrėju" yra apibūdinamas kaip už entitetų turinį pirminės<br />
atsakomybės sritis. Archyvams toks apibūdinimas nėra tinkamas. ISAD (G) kūrėją apibūdina kaip<br />
"Kolektyvas, šeima arba asmuo sukūręs, surinkęs arba turintis dokumentus savo personalinės<br />
arba kolektyvinės veiklos metu".<br />
Žmonės, atsakingi už dokumentų patalpinimą į fondus, dažniausiai skiriasi nuo kūrėjo. Taigi,<br />
atsižvelgiant į "kūrėjo" apibūdinimą, pateikiamą DC, yra tam tikras prieštaravimas. Jeigu<br />
naudojamas DC apibrėžimas, neįmanoma pažymėti arba nurodyti, kas surinko ir yra šio dokumento<br />
(archyvo) savininkas. Vėliau kalbėdami apie DDI kodifikatorių pastebime, jog tyrimo vykdytojas ir<br />
skaitmeninio dokumento kūrėjas yra atskirti.<br />
DC metaduomenų schemos sukūrimu buvo siekiama iki minimo sumažinti elementų skaičių,<br />
siekiant aprašyti skaitmeninius išteklius. Beje, DC yra tik bibliografinis modelis, kuris negali būti<br />
pakankamai efektyviai pritaikytas, aprašant archyvinius objektus. Todėl praktika rodo, jog be galo<br />
sunku parengti korektiškus archyvinius aprašus, panaudojant šią metaduomenų schemą. O tai savo<br />
ruožtu apsunkins ir skaitmeninių objektų paiešką.<br />
Vėlesnės DC versijos buvo praturtintos semantinėmis priemonėmis. "Kvalifikatorių" dėka<br />
buvo sudaryta galimybė tiksliau aprašyti kūrėją, pavyzdžiui <br />
Rengiant Lietuvos HSM duomenų archyvinio aprašo sudarymo taisykles bei kuriant HSM<br />
duomenų archyvą pirmiausia reikėjo apsispręsti dėl skaitmeninių objektų aprašo išsamumo. Reikėjo<br />
atsakyti į klausimą, ar skaitmeninio aprašymui pakaks Dubline Core laukų, kuris yra skiriamas<br />
išteklių pateikimui internete, ar reikės naudoti kitą metaduomenų standartą.<br />
Siekiant išlaikyti tradiciniuose archyvuose tvarką ir logiką, kuri yra išreiškiama tokia<br />
schema, buvo pasirinkta, jog privalom sukurti hierarchinę <strong>LiDA</strong> struktūrą, kuri leistų aprašyti fondą<br />
taip: pirmiausia parengti failų apyrašą, kuris archyvų standartuose – ISAD (G) vadinamas serija, po<br />
to atskirą failą, ir jam atskirus esančius dokumentus. Apsisprendus dėl tokios <strong>LiDA</strong> hierarchinės<br />
struktūros, tapo akivaizdu, kad DC, nors ir yra skaitmeninių išteklių standartas neužtikrinus tokio<br />
detalaus duomenų aprašymo. Reikėjo ieškoti schemos, leidžiančios parengti tokio pobūdžio<br />
metaduomenis ir labiausiai atitinkančius socialinę-humanitarinę mokslų specifiką.<br />
<strong>LiDA</strong> archyvinio saugojimo metaduomenų sudarymui buvo pasiūlyta naudoti DDI<br />
kodifikatorių, leidžiantį apibūdinti bet kokio struktūrinio lygmens išteklius: fondą, atskirą išteklių,<br />
ištekliaus sudėtinę dalį.<br />
56
Metaduomenys<br />
Labai svarbus <strong>LiDA</strong> lingvistinio aprūpinimo elementas yra metaduomenys. Metaduomenys<br />
yra struktūriškai apibrėžta informacija, kuri apibūdina, paaiškina dokumentą ar informacinį išteklių,<br />
nurodo jo buvimo vietą arba kitokiu būdu palengvina jo suradimą, naudojimą arba valdymą.<br />
Metaduomenys yra informacija apie bet kokio tipo ar rūšies informacijos išteklių.<br />
Šie duomenys apibūdina tokius informacijos išteklių aspektus:<br />
• Turinio informacija – vidinė charakteristika, apibūdinanti intelektualiąją informaciją,<br />
teikiamą informacijos išteklių (pavyzdžiui, tematika, žanras);<br />
• Konteksto informacija – išorinė charakteristika, apibūdinanti duomenis, susijusius su<br />
veiksmais informacijos išteklių atžvilgiu (kas, kada, kur, kaip sukūrė/pakeitė/atnaujino arba<br />
atliko kitus veiksmus su konkrečiu dokumentu);<br />
57
• Struktūros informacija – vidinė ar išorinė charakteristika, apibrėžianti formalius ryšius<br />
išteklių viduje ar tarpusavyje. Pavyzdžiui, kai aprašomos dokumento dalys (skyriai, tomai,<br />
straipsniai), nurodomas jų ryšys su visu dokumentu (vidiniai ryšiai), o kai informacija apie tą<br />
patį įvykį pateikta skirtinguose informacijos ištekliuose, metaduomenys nurodo į išorinius<br />
ryšius.<br />
Lygiai kaip, pavyzdžiui, kataloguotojai nusprendžia, ar katalogo įrašas bus kuriamas visam<br />
rinkiniui, ar atskirai kiekvienam tomui, taip ir metaduomenų kūrėjas priima panašius sprendimus.<br />
Metaduomenys taip pat gali būti naudojami bet kuriame informacinio modelio, kurio pagrindu<br />
sukurti IFLA Funkciniai reikalavimai bibliografiniams įrašams, lygmenyje (kūrinys, išraiška,<br />
apraiška, dokumentas). Pavyzdžiui, metaduomenų įrašas gali apibūdinti pranešimą, konkrečią<br />
pranešimo laidą arba atskirą tos pranešimo laidos kopiją. Metaduomenys gali būti įterpti į<br />
skaitmeninį objektą arba gali būti saugomi atskirai nuo jo. Jie dažnai įterpiami į HTML dokumentus<br />
ir atvaizdo failų antraštes.<br />
Metaduomenų saugojimas kartu su jų apibūdinamu objektu užtikrina, kad jie nebus<br />
prarandami, panaikina duomenų ir metaduomenų susiejimo problemas bei garantuoja, kad kartu su<br />
objektu bus atnaujinami ir metaduomenys.<br />
Metaduomenų rūšys<br />
Pagrindinės metaduomenų funkcijos yra palengvinti skaitmeninių informacijos išteklių<br />
identifikavimą, vietos nustatymą, išrinkimą, valdymą, naudojimą ir saugojimą tinklinėje aplinkoje.<br />
Pagal šias funkcijas skiriamos tokios metaduomenų rūšys:<br />
1. Aprašomieji metaduomenys – tai duomenys, kurie identifikuoja ir apibūdina patį<br />
informacijos išteklių. Pateikiami pagrindiniai dokumento atributai – kūrėjas (autorius,<br />
sudarytojas ir pan.), antraštė, dalykas, anotacija ir pan. Tokių metaduomenų pavyzdys –<br />
katalogo įrašai, pagalbinės rodyklės.<br />
2. Administravimo metaduomenys yra susiję su atliekamų procesų valdymu. Jie apima įvairius<br />
technologinius procesus: komplektavimas, skaitmeninimas, autorių teisių apsauga,<br />
dokumentų priežiūros veiksmai (konservavimas, restauravimas, skaitmeninimas).<br />
Administravimo metaduomenys paprastai skirstomi į:<br />
• Autorių teisių valdymo – apibrėžia intelektinės nuosavybės teises ir su jomis susijusias<br />
naudojimo taisykles bei apribojimus.<br />
58
• Išsaugojimo – dokumentuoja visus veiksmus, nukreiptus į informacijos išteklių išsaugojimą.<br />
Tai yra informacija apie fizinę dokumento būklę, atliktus restauravimo, konservavimo,<br />
skaitmeninimo veiksmus, skaitmenintų ar skaitmeninių dokumentų formatų atnaujinimą ir<br />
pan.<br />
• Techninius – ši metaduomenų rūšis siejasi su skaitmeninių ir skaitmenintų išteklių valdymu.<br />
Skaitmeninėje aplinkoje informacijos išteklių prieinamumas ir išsaugojimas priklauso nuo<br />
įvairių techninių parametrų – programinės ir techninės įrangos, kuria naudojantis buvo<br />
sukurti dokumentai, bylų formatų ir suspaudimo metodų ir pan.<br />
• Naudojimo – metaduomenys, fiksuojantys informacijos išteklių naudojimo pobūdį. (Kaip<br />
įvairių formatų išteklius galima panaudoti įvairiems tikslams, pavyzdžiui, parodoms.)<br />
Naudojimo metaduomenys fiksuoja ir pačią vartotojo ir ištekliaus sąveiką (pavyzdžiui, gali<br />
teikti informaciją apie vartotojo statusą ir jam leidžiamus atlikti veiksmus).<br />
Metaduomenys paaiškina bet kokio lygio informacijos rinkinius – gali aprašyti<br />
kolekcijas, atskirą išteklių ar didelio ištekliaus sudedamąją dalį (pavyzdžiui, fotografiją straipsnyje).<br />
Metaduomenys taip pat gali būti naudojami aprašyti bet kokio lygio informacijos modeliams,<br />
išvardintiems IFLA (Tarptautinė bibliotekų asociacijų ir jų įstaigų federacija, angl. The International<br />
Federation of Library Associations and Institutions 6 ) Funkciniuose bibliografinių įrašų<br />
reikalavimuose (angl. Functional Requirements for Bibliographic Records): darbams, posakiams,<br />
įrodymams ar užrašams. Pavyzdžiui, metaduomenų įrašas gali aprašyti konferencijos pranešimą arba<br />
šio pranešimo specialią kopiją.<br />
Metaduomenų įrašo struktūra<br />
Metaduomenų įrašas susideda iš tam tikro skaičiaus iš anksto apibrėžtų elementų,<br />
reprezentuojančių informacijos ištekliaus savybes. Tokių elementų ir jų naudojimo taisyklių rinkinys<br />
vadinamas metaduomenų schema, nurodanti, kaip ir kokius duomenis apie išteklių būtina pateikti.<br />
Kiekviena metaduomenų schema paprastai turi ribotą skaičių elementų, kiekvienas elementas turi<br />
vardą ir atskirą reikšmę. Pačių elementų apibrėžimas ar reikšmė yra žinoma kaip schemos<br />
semantika. Reikšmės, duotos metaduomenų elementams, yra turinys. Metaduomenų schemos<br />
paprastai tiksliai apibrėžia elementų vardus ir jų semantiką. Dar schemos gali nusakyti turinio<br />
taisykles, kaip turinys turi būti formuluojamas (pavyzdžiui, kaip identifikuoti pagrindinį<br />
6 http://www.ifla.org/<br />
59
pavadinimą), turinio atvaizdavimo taisykles (pavyzdžiui, rašybos didžiosiomis raidėmis taisyklės),<br />
leidžiamas turinio reikšmes (pavyzdžiui, terminai turi būti naudojami iš specialaus kontrolinio<br />
žodyno).<br />
Taip pat metaduomenų schema gali pasižymėti specifine sintakse (gali būti metaduomenų<br />
schema nepriklausoma nuo sintaksės, tai yra be sintaksę nurodančių taisyklių). Sintaksė<br />
reglamentuoja metaduomenų elementų ir jų turinio kodavimą bei pateikimą elektroninėje terpėje.<br />
Kodavimui naudojamos vadinamosios žymių kalbos (angl. markup languages) – formalių taisyklių<br />
ir įrankių rinkinys, kuris leidžia pateikti ir interpretuoti (pavyzdžiui, formatuoti, keistis duomenimis<br />
tarp įvairių sistemų ir pan.) duomenis skaitmeninėje aplinkoje. Dauguma dabartinių metaduomenų<br />
schemų naudoja SGML (angl. Standard Generalized Mark-up Language) arba XML (angl.<br />
Extensible Mark-up Language). SGML labai sudėtinga, todėl dažnai naudojamasi jos poaibiais.<br />
Ilgainiui paplito SGML poaibis – XML kalba, kuri leidžia aprašyti ir formaliąsias dokumento<br />
savybes, ir informacijos išteklių turinį, atspindėti metaduomenų elementus ir jų tarpusavio ryšius.<br />
Dublin Core metaduomenų iniciatyva<br />
Dublin Core metaduomenų iniciatyvos (angl. Dublin Core, toliau DC) elementų rinkinio<br />
atsiradimas siejamas su seminaru, vykusiu 1995 Dubline (JAV, Ohio valstija). Šio standarto<br />
sukūrimą paskatino didėjančių internete prieinamos informacijos masyvų valdymo problemos, nes<br />
tapo aišku, kad bibliotekininkai nepajėgs vieni registruoti interaktyvius dokumentus. Šio standarto<br />
esmė – sukurti paprastą metaduomenų schemą, kuri leistų ne profesionalams (pavyzdžiui, leidėjams,<br />
autoriams) patiems aprašyti elektroninius informacijos išteklius.<br />
Lietuvoje skaitmeninės interneto informacijos aprašymui buvo patvirtintas LST ISO<br />
1586:2007.<br />
Standartą sudaro 15 elementų:<br />
• Antraštė (angl. Title) – dokumento pavadinimas;<br />
• Kūrėjas (angl. Creator) – dokumento autorius (pavyzdžiui, asmuo, organizacija, atsakingi už<br />
dokumento turinį);<br />
• Tema (angl. Subject and Keywords) – dokumento tematika. Nustatant dalyką ir reikšminius<br />
žodžius rekomenduojama remtis kontroliuojamais žodynais ar klasifikacijos schemomis.<br />
• Aprašas (angl. Description) – dokumento turinio santrauka (pavyzdžiui, turinys, laisvos<br />
formos trumpas turinio aprašymas);<br />
60
• Leidėjas (angl. Publisher) – įstaiga, asmuo ir pan., išleidę dokumentą;<br />
• Teikėjas (angl. Contributor) – asmuo, organizacija, atsakinga už informacijos ištekliaus<br />
turinio teikinius;<br />
• Data (angl. Date) – reikšmingos dokumento gyvavimo datos (pavyzdžiui, kūrimo,<br />
atnaujinimo ir kt.). Nurodant datą rekomenduojama vadovautis ISO 8601 standartu;<br />
• Rūšis (angl. Resource Type) – ištekliaus žanras, paskirtis ir pan. Nustatant ištekliaus rūšį<br />
patartina naudotis kontroliuojamais žodynais;<br />
• Formatas (angl. Format) – fizinio ar skaitmeninio ištekliaus parametrai (pavyzdžiui,<br />
laikmena, dydis, techninė ir programinė įranga). Formatui nustatyti rekomenduojama<br />
pasitelkti kontroliuojamus žodynus;<br />
• Identifikatorius (angl. Resource Identifier) – adresas ar skaitmenų eilutė, identifikuojantį<br />
išteklių, pavyzdžiui, ISBN, Uniform Resource Locator (Unifikuotas ištekliaus adresas),<br />
Digital Object Identifier (Skaitmeninio objekto identifikatorius);<br />
• Šaltinis (angl. Source) – dokumentas, kuriam priklauso aprašomas išteklius (pavyzdžiui,<br />
rinkinys, kuriame yra skyrius ar straipsnis);<br />
• Kalba (angl. Language) – kalba, kuria parašytas dokumentas. Kalbos santrumpų pateikimui<br />
rekomenduojama naudotis RFC3066 ir ISO639 standartais;<br />
• Sąsaja (angl. Relation) – nuoroda į susijusius išteklius;<br />
• Aprėptis (angl. Coverage) – dokumento turinio geografinės (vietovės pavadinimas), laiko<br />
(datos), institucinės priklausomybės charakteristikos. Rekomenduojama naudotis<br />
kontroliuojamais žodynais;<br />
• Teisės (angl. Rights management) – intelektinės nuosavybės teisių informacija.<br />
Visi DC elementai yra neprivalomi ir visi kartojami. Elementai gali būti atvaizduojami bet<br />
kokia tvarka. Atvaizdavimo tvarką gali reglamentuoti žymių kalba. DC metaduomenų schema yra<br />
nepriklausoma nuo sintaksės. Ir paprastam ir išplėstam DC metaduomenų elementų rinkiniui<br />
išreikšti gali būti naudojamos įvairios žymių kalbos.<br />
Populiarus DC metaduomenų schemos naudojimo modelis – pritaikymas savo reikmėms.<br />
Kadangi schemos naudojimo taisyklės leidžia ją papildyti, dažniausiai pagrindinių elementų skaičius<br />
papildomas trūkstamais ir reikiamais specifinės srities elementais. Teoretikai tai vertina ir kaip<br />
privalumą, nes standartas pritaikomas įvairiausiems projektams, ir kaip trūkumą, kadangi taip<br />
kuriamos visiškai naujos metaduomenų schemos. Dauguma projektų, naudojančių šį metaduomenų<br />
61
standartą, suprato, jog reikia kurti papildomus elementus ir taisykles – o tai daug pastangų ir laiko<br />
reikalaujantis darbas.<br />
Dublin Core ir <strong>LiDA</strong><br />
Archyvuose informacija saugoma keliais lygiais. Tai iliustruoja paveikslėlis: Fondas – tai<br />
archyve saugoma atskira talpykla. Toje talpykloje gali būti keli vienos grupės failai (bylos). Tuose<br />
failuose gali būti keli dokumentai. Tai hierarchinė struktūra. Archyvuose saugant informaciją yra<br />
labai svarbu turėti metaduomenis apie kiekvieną iš šių lygių. Taigi – metaduomenys turi būti<br />
hierarchinės struktūros.<br />
Dublin Core branduolio metaduomenų schema gali būti pritaikoma <strong>LiDA</strong> archyvui kelis<br />
kartus kartojant tuos pačius elementus. Tačiau tai nėra efektyvu. Todėl buvo nuspręsta ieškoti<br />
empiriniams duomenims tinkamesnio metaduomenų standarto.<br />
DDI<br />
Politinių ir socialinių mokslų tyrimų tarpuniversitetinio konsorciumo (angl. Inter-University<br />
Consortium for Political and Social Research - ICPSR) projektas Duomenų aprašymo iniciatyva<br />
(angl. Data Documentation Initiative, toliau DDI) buvo pradėtas 1994 m. Jo tikslas – sukurti<br />
tarptautinį XML pagrįstą standartą socialinių ir humanitarinių mokslų srities mokslinių tyrimų<br />
duomenų turiniui ir struktūrai aprašyti, sudarytam aprašui (metaduomenims) atvaizduoti, išsaugoti ir<br />
keistis.<br />
DDI paskirtis ir struktūra<br />
Socialiniuose moksluose metaduomenys apie duomenų rinkinius dažnai vadinami<br />
kodifikatoriais (angl. codebooks). DDI kodifikatoriai kuriami unifikuotu, griežtai struktūriškai<br />
sutvarkytu formatu, kuris yra lengvai ir tiksliai paieškomas internete, gali būti tuo pačiu metu<br />
naudojamas daugialypių duomenų rinkinių, taip pat gali žymiai pagerinti metaduomenų turinį ir<br />
naudojimą. DDI leidžia hierarchiškai aprašyti: 1) socialinių ir humanitarinių mokslų tyrimus; 2)<br />
duomenų failus, sukurtas pagal tuos tyrimus; 3) kintamuosius, naudotus tuose duomenų failuose.<br />
DDI kodifikatorius yra XML dokumento tipo apibrėžtis (DTD), nurodanti elementus, iš<br />
kurių dokumentas yra sudarytas, tų elementų ypatybes ir loginius ryšius su kitais elementais. DDI<br />
sudaro per 300 metaduomenų elementų ir atributų, dauguma kurių yra neprivalomi naudoti. Visų šių<br />
62
elementų vaidmuo ir naudojimas apibrėžtas Žymių bibliotekoje (angl. Tag Library). Elementai<br />
kodifikatoriuje yra išdėstyti hierarchiškai.<br />
DDI kodifikatorius susideda iš 5 elementų blokų:<br />
1. Dokumento aprašymas (angl. Document Description), kurį sudaro bibliografinė informacija,<br />
paaiškinanti patį kodifikatorių (metaduomenų dokumentą) ir šaltinius, kurie buvo panaudoti<br />
kodifikatoriui sukurti.<br />
2. Mokslinio tyrimo aprašymas (angl. Study Description) – elementai, aprašantys atliktą<br />
mokslinį tyrimą (tyrimo pavadinimas, tyrimo atlikimo metodologija, duomenų turinio<br />
aprėptis, duomenų prieiga ir pan.).<br />
3. Duomenų failų aprašymas (angl. Data Files Description) – pateikiama informacija apie<br />
kiekvieną atskirą failą, kuriame saugomi mokslinio tyrimo duomenys. Tai duomenys apie<br />
duomenų failo formatą, apimtį, struktūrą, nurodoma failo paleidimo informacija ir pan.<br />
4. Kintamųjų aprašymas (angl. Variables Description) – elementai, paaiškinantys kintamuosius<br />
duomenų rinkinyje (formatą, kintamųjų ir reikšmių žymėjimą, apibrėžimus ir pan.). Trečias<br />
blokas pateikia fizinį mokslinio tyrimo duomenų rinkinio aprašymą, o šis blokas – loginį.<br />
5. Kita su tyrimu susijusi medžiaga (angl. Other Related Materials) – kiti su moksliniu tyrimu<br />
susiję dokumentai ar elektroniniai failai (bibliografija, atskiras apklausos elektroninis<br />
dokumentas, ataskaitos ir pan.).<br />
Pagrindinis DDI tikslas buvo apibrėžti rinkinį visų galimų elementų ir atributų, naudojamų<br />
socialinių ir humanitarinių mokslų tyrimų duomenų rinkiniams aprašyti. Todėl rezultate gauta labai<br />
didelės apimties specifikacija. Į ją galima sudėti bet kokią informaciją, kokia duomenų kūrėjui ar<br />
naudotojui pasirodys esanti susijusi su duomenų rinkiniu. DDI komitetas sunkiai priėjo sprendimo<br />
nustatant, kokie elementai yra privalomi, o kokie rekomenduojami. DDI komitetas nustatė „griežtai<br />
rekomenduojamų“ elementų sąrašą, kurį sudaro 14 elementų, atitinkančių Dublino branduolio (angl.<br />
Dublin Core) standartą, bei kiti 30 elementų. Taip pat atskiros bendruomenės ir organizacijos<br />
pradėjo apsibrėžti savus privalomų DDI elementų sąrašus. Tokiu pavyzdžiu gali būti CESSDA<br />
(angl. Council of European Social Science Data Archives 7 ) DDI projekto grupė, kuri nustatė DDI<br />
naudojimo taisykles Europos socialinių mokslų duomenų archyvams. Remiantis šiomis<br />
rekomendacijomis buvo sudarytas šis <strong>LiDA</strong> kodifikatorius.<br />
<strong>LiDA</strong> metaduomenų sąsaja su bibliotekų katalogų įrašais<br />
7 http://www.nsd.uib.no/cessda/home.html<br />
63
Siekiant platesnės humanitarinių ir socialinių mokslinių duomenų sklaidos bei kuriamo archyvo<br />
suderinanmumo su kitomis Lietuvos mokslo įstaigomis, akademinėmis bei mokslinėmis<br />
bibliotekomis, turi būti galimybė konvertuoti <strong>LiDA</strong> patalpintų skaitmeninių tyrimų/studijų<br />
metaduomenis į MARC21 formatą, kuris naudojamas mūsų šalies ir užsienio šalių bibliotekų<br />
katalogams sudaryti. Šiam tikslui žemiau pateikiama konvertavimo lentelė, leidžianti <strong>LiDA</strong> archyvo<br />
metaduomenis konvertuoti į MARC21 formatą. Perspektyvoje reikėtų parengti ir konvertorių į<br />
UNIMARC formatą, kurį naudoja daugelis Lietuvos ir užsienio šalių bibliotekų.<br />
DDI, Dublin Core, MARC21 elementų sankirtos<br />
Sudaryta pagal Mapping to Dublin Core 8 ir Field Mapping Table 9 .<br />
DDI elemento žyma DDI elemento pavadinimas DC elementas<br />
2.1.1.1 Tyrimo ar duomenų rinkinio antraštė Antraštė<br />
MARC21<br />
elemento žyma<br />
245 0?$a<br />
245 0?$b<br />
2.1.2.1<br />
Tyrimo ar duomenų rinkinio pirminė<br />
atsakomybė<br />
Kūrėjas<br />
245 0?$c<br />
700 1#$a<br />
2.2.1.1<br />
2.2.1.2<br />
Reikšminiai žodžiai<br />
Temų klasifikatorius<br />
Tema<br />
650 #7$a<br />
653 0#$a<br />
2.2.2 Santrauka Aprašas 520 3#$a<br />
2.1.3.1 Tyrimo ar duomenų rinkinio leidėjas Leidėjas 260 ##$b<br />
2.1.3.6<br />
Tyrimo ar duomenų rinkinio finansavimo<br />
šaltinis<br />
2.1.2.2 Kiti tyrimo ar duomenų rinkinio autoriai Teikėjas<br />
2.1.3.3<br />
Tyrimo ar duomenų rinkinio išleidimo<br />
data<br />
Data<br />
2.1.4.5<br />
Tyrimo ar duomenų rinkinio platinimo<br />
data<br />
2.2.3.10 Duomenų rūšis Rūšis<br />
3.1.5 Failo tipas Formatas<br />
536 ##$a<br />
700 1#$a<br />
710 2#$a<br />
260 ##$c<br />
260 ##$d<br />
008<br />
260 ##$c<br />
8<br />
http://www.ddialliance.org/related/dc.html 31 psl. yra parašyta kada pažiūrėta ir pavadinimas puslapio. Suvienodinti<br />
reikia su 2-3 išnaša?<br />
9<br />
http://www.icpsr.umich.edu/ICPSR/or/metadata/table.html<br />
64
2.1.1.5<br />
2.3.1.8<br />
Tyrimo ar duomenų rinkinio<br />
identifikacinis numeris<br />
Tyrimo ar duomenų rinkinio šaltinių<br />
duomenys<br />
Identifikatorius<br />
Šaltinis<br />
-- -- Kalba 10<br />
2.5<br />
Kita su tyrimu ar duomenų rinkiniu<br />
susijusi medžiaga<br />
2.2.3.1<br />
Tyrimo ar duomenų rinkinio laiko<br />
aprėptis<br />
2.2.3.2 Duomenų surinkimo data<br />
2.2.3.3 Šalis<br />
2.2.3.4<br />
2.1.3.2<br />
Tyrimo ar duomenų rinkinio geografinė<br />
aprėptis<br />
Autorinės teisės į tyrimą ar duomenų<br />
rinkinį<br />
Sąsaja<br />
Aprėptis<br />
Teisės<br />
001<br />
035 ##$a<br />
490 1#$v<br />
830 #0$v<br />
786 1#$a<br />
786 1#$t<br />
786 1#$d<br />
041 0#$a<br />
041 0#$9<br />
787 1#$a<br />
787 1#$t<br />
787 1#$d<br />
518 ##$a<br />
522 ##$a<br />
506 ##$a<br />
506 ##$e<br />
506 ##$g<br />
590 ##$a<br />
590 ##$9<br />
2.1.5.1<br />
Tyrimo ar duomenų rinkinio serijos<br />
antraštė<br />
490 1#$a<br />
830 #0$a<br />
2.1.6.1 Tyrimo versija 250 ##$a<br />
2.2.3.9 Populiacija 567 ##$a<br />
2.3.1.4 Duomenų atrankos procedūra 567 ##$a<br />
2.3.1.6 Duomenų rinkimo metodas 567 ##$a<br />
2.4.1.4 Duomenų rinkinio dydis 516 ##$a<br />
2.4.2.7<br />
Prieigos prie tyrimo duomenų rinkinio<br />
sąlygos<br />
506 ##$a<br />
3.1.1 Duomenų failo antraštė 505 0#$a<br />
10 DDI schemoje kiekvienas elementas turi atributą xml:lang<br />
65
Empirinių duomenų aprašymo standartas ir jo taikymas archyvo reikmėms<br />
Toliau pateikiamas <strong>LiDA</strong> archyve talpinamiems duomenų rinkiniams atprašyti surarytas standartas.<br />
DDI skyrius<br />
Tyrimo<br />
kodifikatoriaus<br />
aprašas<br />
Tyrimo<br />
aprašymas<br />
DDI<br />
Nr.<br />
DDI žyma<br />
su nuoroda į<br />
aprašymą<br />
(angl.)<br />
Lauko žymos<br />
pavadinimas<br />
(ang.)<br />
Lauko žymos<br />
pavadinimas<br />
Lauko žymos turinys<br />
(aprašymas)<br />
1.1.1.1 titl Title Dokumento antraštė Pagrindinė dokumento<br />
antraštė<br />
1.1.1.2 subTitl Subtitle Paantraštė Antraštė, paaiškinanti ar<br />
patikslinanti pagrindinę<br />
antraštę<br />
1.1.1.3 altTitl Alternative Title Alternatyvi antraštė Kita dokumento antraštė<br />
1.1.1.4 parTitl Parallel Title Lygiagreti antraštė Pagrindinė dokumento<br />
1.1.1.5 IDNo Identification<br />
number<br />
1.1.3.5 software Software used in<br />
Production<br />
Identifikacinis<br />
numeris<br />
Naudojama<br />
programinė įranga<br />
antraštė kita kalba<br />
Unikalus dokumento numeris,<br />
sudaromas pagal archyvo<br />
patvirtintas taisykles<br />
Programinės įrangos<br />
pavadinimas, versija ir<br />
įdiegimo data<br />
2.1.1.1 titl Title Tyrimo antraštė Pagrindinė tyrimo antraštė<br />
2.1.1.2 subTitl Subtitle Paantraštė Antraštė, paaiškinanti ar<br />
patikslinanti pagrindinę<br />
antraštę<br />
2.1.1.3 altTitl Alternative Title Alternatyvi antraštė Kita tyrimo antraštė<br />
2.1.1.4 parTitl Parallel Title Lygiagreti antraštė Pagrindinė tyrimo antraštė kita<br />
2.1.1.5 IDNo Identification<br />
number<br />
2.1.2.1 AuthEnty Authoring<br />
Entity/Primary<br />
Investigator<br />
2.1.2.2 othId Other<br />
Identifications/Ack<br />
nowledgments<br />
Identifikacinis<br />
numeris<br />
Pirminės<br />
atsakomybės<br />
duomenys<br />
kalba<br />
Unikalus tyrimo numeris,<br />
sudaromas pagal archyvo<br />
patvirtintas taisykles<br />
Asmuo ar organizacija, atlikę<br />
tyrimą<br />
Kiti tyrimo autoriai Kitas asmuo ar organizacija,<br />
atlikę tyrimą<br />
2.1.3.1 producer Producer Leidėjas/gamintojas Asmuo ar organizacija<br />
atsakingi už tyrimą<br />
2.1.3.2 copyright Copyright Autorinė teisė Asmuo/organizacija turinti<br />
autorines teises į tyrimą<br />
2.1.3.3 prodDate Date of Production Išleidimo data Tyrimo atlikimo (pabaigos)<br />
data<br />
2.1.3.4 prodPlac Place of Production Leidimo vieta Tyrimo atlikusios<br />
organizacijos adresas<br />
2.1.3.6 fundAg Fundings Finansavimo šaltinis Tyrimą užsakęs<br />
asmuo/organizacija<br />
2.1.4.1 distrbtr Distributor Platintojas Organizacija atsakinga už<br />
tyrimo duomenų sklaidą<br />
2.1.4.2 contact Contact Persons Kontaktiniai asmenys Už archyve kaupiamus tyrimo<br />
duomenis atsakingo asmens<br />
informacija, skirta<br />
vartotojams, kuriems gali kilti<br />
klausimų dėl tyrimo duomenų<br />
naudojimo tvarkos<br />
2.1.4.3 depositr Depositor Pateikėjas Asmuo/organizacija, pateikę<br />
66
2.1.4.4 depDate Date of Deposit Pateikimo data<br />
tyrimą į archyvą<br />
Tyrimo pateikimo į archyvą<br />
data<br />
2.1.4.5 distDate Date of<br />
Platinimo data Tyrimo, esančio archyve,<br />
Distribution<br />
2.1.5.1 serName Series Name Serijos (apyrašo ar<br />
failų sąrašo)<br />
pavadinimas<br />
sklaidos pradžia<br />
Serijos (apyrašo-failų sąrašo),<br />
kuriai priklauso tyrimas,<br />
pavadinimas<br />
2.1.5.2 serInfo Series Information Serijos informacija Serijos, kuriai priklauso<br />
tyrimas, istorija ir įvairių<br />
2.1.7 biblCit Bibliographic Bibliografinis aprašas<br />
ypatybių reziumė<br />
Išsamus tyrimo bibliografinis<br />
Citation<br />
aprašas<br />
2.1.8 holdings Holdings<br />
Fiziniai vienentai Informacija apie aprašomo<br />
Information<br />
tyrimo fizinius ar elektroninius<br />
vienetus<br />
2.2.1.1 keyword Keywords Reikšminiai žodžiai Reikšminiai žodžiai<br />
(rekomenduojama 3-5)<br />
pasirenkami naudojantis<br />
kontroliuojamu žodynu<br />
(tezauru)<br />
2,2.1.2 topcClas Topic<br />
Temų klasifikatorius Pagrindinė tyrimo tema,<br />
Classification<br />
pasirenkama iš kontroliuojamo<br />
žodyno (tezauro)<br />
2.2.2 abstract Abstract Tyrimo santrauka Tekstas, trumpai apibūdinantis<br />
tyrimo tikslą, esmę ir apimtį<br />
(rekomenduojama 200-500<br />
žodžių)<br />
2.2.3.1 timePrd Time Period Tyrimo laikotarpis Tyrimo atlikimo laikotarpis<br />
2.2.3.2 collDate Dates of Collection Duomenų surinkimo Duomenų surinkimo<br />
data<br />
laikotarpis<br />
2.2.3.3 nation Countries Šalis Šalis(-ys), kurioje(-iose)<br />
surinkti duomenys<br />
2.2.3.4 geogCover Geographic Geografinė aprėptis Geografinė vieta(-os),<br />
Coverage<br />
kurioje(-iose) surinkti<br />
duomenys<br />
2.2.3.5 geogUnit Geografic Unit Geografinis vienetas Geografinis vienetas(-ai),<br />
kuriame(-iuose) surinkti<br />
duomenys (apskritis, rajonas,<br />
miestas ir kt.)<br />
2.2.3.6<br />
/<br />
2.2.3.8<br />
2.2.3.7<br />
/<br />
2.2.3.9<br />
2.2.3.8<br />
/<br />
2.2.3.1<br />
0<br />
anlyUnit Unit or analysis<br />
(Nesstare)<br />
Tyrimo objektas Pagrindinis tyrimo analizės ar<br />
stebėjimo objektas, esantis<br />
sudėtine bendro tyrimo dalimi.<br />
Tai gali būti asmuo, šeima,<br />
institucija, organizacija,<br />
administracinis vienetas ir<br />
universe Universe Tiriamoji grupė Grupė asmenų ar kitų tyrimo<br />
elementų, kurie yra tyrimo<br />
objektas ir su kuriais susijęs<br />
pan.<br />
tyrimo rezultatas<br />
dataKind Kind of Data Duomenų rūšis Duomenų rūšis naudota<br />
tyrimui (apklausos ar pžvalgos<br />
duomenys, administracinių<br />
įrašų duomenys, eksperimentų<br />
duomenys, psichologiniai<br />
67
testai, tekstiniai duomenys,<br />
koduoti dokumentai ir pan.)<br />
2.2.4 notes Notes and<br />
Comments<br />
Pastabos<br />
2.3.1.1 timeMeth Time Method Laiko metodas Tyrimo periodiškumas<br />
(vienkartinis, daugkartinis)<br />
2.3.1.2 dataCollecto Data Collector Duomenų rinkėjas Asmuo/organizacija, atsakinga<br />
r<br />
už apklausos, interviu ar kt.<br />
duomenų surinkimą<br />
2.3.1.3 frequenc Frequency of Data Duomenų rinkimo<br />
Collection dažnumas (jei rinkta<br />
per keletą kartų, kas 1<br />
metai, kas 10 metų ir<br />
pan.)<br />
2.3.1.4 sampProc Sampling<br />
Procedure<br />
Atrankos metodas Tyrimo atrankos metodas<br />
2.3.1.6 collMode Mode of Data Duomenų rinkimo Metodas naudotas duomenims<br />
Collection metodas<br />
rinkti<br />
2.3.1.7 resInstru Type of Research Tyrimo<br />
Priemonė, naudota duomenims<br />
Instrument instrumentarijus rinkti<br />
2.3.1.8 sources Data Sources Duomenų šaltiniai Šaltiniai, naudoti duomenims<br />
rinkti (apklausos, stebėjimo<br />
dokumentų analizės,<br />
statistiniai kitų tyrimų<br />
duomenys ir pan.)<br />
2.1.3.9 collSitu Characteristics of Duomenų rinkimo Svarbių duomenų rinkimo<br />
Data Collection aplinkybės<br />
aplinkybių paaiškinimas<br />
(respondentų<br />
bendradarbiavimas ir pan.)<br />
2.3.1.1 weight Weighting Duomenų svėrimas Jei duomenys buvo sverti,<br />
2<br />
pateikiami svėrimo aprašymai<br />
2.3.1.1 cleanOps Cleaning<br />
Valymo veiksmai Duomenų rinkinio išvalymo<br />
3<br />
Operations<br />
procedūros<br />
2.3.2 notes Notes and<br />
Comments<br />
Pastabos<br />
2.3.4 stdyClas Class of Study Tyrimo būsena Nurodomas tyrimo būsenos<br />
numeris arba įrašomas tekstas,<br />
paaiškinantis tyrimo būseną<br />
2.4.1.1 accsPlac Locations of Data Duomenų rinkinio Tyrimo skaitmeninio objekto<br />
Collection saugojimo vieta saugojimo vieta(-os),<br />
pateikiant jo tikslų elektroninį<br />
adresą<br />
2.4.1.2 origArch Original Archive Archyvas, kuriame Archyvas, iš kurio buvo<br />
Where Collection saugomas tyrimo surinkti tyrimo duomenys.<br />
Stored<br />
originalas<br />
Pirminis archyvas<br />
2.4.1.3 avlStatus Availability Status Prieigos sąlygos Tyrimo skaitmeninio objekto<br />
prieigos sąlygos. Jas nustato<br />
tyrimo autoriai,<br />
vadovaudamiesi archyvo<br />
naudojimosi taisyklėmis<br />
2.4.1.4 collSize Extent of<br />
Duomenų rinkinio Duomenų rinkinio failų kiekis,<br />
Collection dydis<br />
įskaitant tik tuos failus,<br />
kuriuose yra tyrimo duomenys<br />
2.4.1.6 fileQnty Number of Files Tyrimo duomenų<br />
failų skaičius<br />
Nurodomas failų skačius<br />
2.4.2.1 confDec Confidentiality Respondentų asmens<br />
Declaration Text duomenų apsaugos<br />
reikalavimai<br />
68
Tyrimo failų<br />
aprašymas<br />
2.4.2.3 restrctn Restrictions Apribojimai Naudojimosi tyrimo<br />
duomenimis apribojimai pagal<br />
2.4.2.5 citReq Citation<br />
Requirement<br />
2.4.2.6 deposReq Deposit<br />
Requirement<br />
<strong>LiDA</strong> prieiga ir metaduomenų peržiūra<br />
<strong>LiDA</strong> archyvo katalogas per Nesstar WebView<br />
Citavimo<br />
reikalavimai<br />
Pateikimo į archyvą<br />
reikalavimai<br />
<strong>LiDA</strong> archyvas yra prieinamas per projekto svetainę http://www.lidata.eu.lt:<br />
archyvo taisykles<br />
Publikacijos, parengtos tyrimo<br />
duomenų pagrindu, turi būti<br />
cituojamos kaip šaltiniai<br />
nuorodose ar literatūros<br />
sąraše.<br />
Reikalavimai vartotojams,<br />
norintiems kaupti savo tyrimus<br />
archyve<br />
2.4.2.7 conditions Access Conditions Prieigos sąlygos Papildoma informacija apie<br />
prieigos prie tyrimo duomenų<br />
sąlygas<br />
2.4.2.8 disclaimer Disclaimer Įspėjimas Informacija apie atsakomybę<br />
ir sankcijas už neteisingą<br />
tyrimo duomenų panaudojimą<br />
2.5.1 relMat Related Materials Susiję dokumentai Su tyrimu betarpiškai susiję<br />
dokumentai (klausimynas,<br />
anketos ir pan.)<br />
2.5.2 relStdy Related Studies Susiję tyrimai Su tyrimu susiję kiti tyrimai<br />
2.5.3 relPubl Related<br />
Susijusios<br />
Su tyrimu susijusios<br />
Publications publikacijos publikacijos<br />
2.5.4 othRefs Notes Pastabos Kitos pastabos, susijusios su<br />
tyrimu (pavyzdžiui, pagrindinė<br />
kalba, kuria rengiami tyrimo<br />
duomenys ir metaduomenys)<br />
3.1.1 fileName File name Failo pavadinimas Tyrimo failo pavadinimas<br />
3.1.2 fileCont Contents of File Failo turinys Tyrimo failo turinys<br />
3.1.3.1. caseQnty Overall Case Count Tiriamųjų skaičius Tyrime dalyvavusių tiriamųjų<br />
2.2<br />
faile<br />
kiekis faile<br />
3.1.3.1. varQnty Overall Variable Kintamųjų skaičius Tyrime panaudotų kintamųjų<br />
2.1<br />
Count<br />
faile<br />
skaičius faile<br />
3.1.5 fileType Type of File Failo tipas Tyrimo failo tipas<br />
3.1.7 filePlac Place of File Failo sukūrimo vieta Archyvas, kuriame yra tyrimo<br />
Production<br />
produkcinis failas<br />
3.1.9 ProcStat Processing Status Failo kūrimo statusas Kuriamo archive tyrimo failo<br />
statusas<br />
3.1.12. version Version Versija Kuriamo archive tyrimo failo<br />
1<br />
ir/arba jam taikomo šablono<br />
versija<br />
3.1.12. verResp Version<br />
Versijos atsakomybės Tyrimo failo versijos<br />
2<br />
Responsibility<br />
statement<br />
duomenys<br />
atsakomybės duomenys<br />
69
Atidaromas Nesstar WebView langas. Nesstar WebView leidžia:<br />
• prieigą prie duomenų: juos peržiūrėti, atsisiųsti, eksportuoti, atsispausdinti;<br />
• duomenų rinkinių, kintamųjų, su tyrimu susijusios medžiagos, lentelių paiešką;<br />
• duomenų koreliacinę, regresinę, grafinę analizę.<br />
Prieiga prie duomenų priklauso nuo archyvo savininko, kuris turi parengęs atitinkamas prieigos<br />
taisykles. Šis taisyklių rinkinys gali būti patalpintas ir parodomas internete, archyvo savininko ar<br />
archyvo svetainėje. <strong>LiDA</strong> archyvo prieigos taisyklės prieinamos pagrindiniame projekto svetainės<br />
lange pasirinkus meniu Naudojimo taisyklės.<br />
<strong>LiDA</strong> archyvo duomenų peržiūra<br />
<strong>LiDA</strong> Nesstar WebView langas padalintaas į dvi dalis. Kairėje pusėje rodomas <strong>LiDA</strong> archyve<br />
saugomų tyrimų rinkinių katalogas, o dešinėje pusėje – pasirinkto tyrimo rinkinio, atskiro tyrimo ar<br />
jo kintamojo metaduomenys. Metaduomenis taip pat galima peržiūrėti lango viršuje paspaudus<br />
mygtuką „Description“:<br />
70
Kairėje lango pusėje esančiame tyrimo duomenų metaduomenų (angl. Metadata) skyriuje<br />
informacija pateikiama pagal DDI – ji suskirstyta į keturis pagrindinius DDI blokus: Dokumento<br />
(kodifikatoriaus) aprašymas, tyrimo aprašymas, Duomenų failų aprašymas ir kita susijusi medžiaga.<br />
Kintamųjų (angl. Variables) skyriuje pateikiama informacija apie visus tyrimo kintamuosius.<br />
Kintamieji čia sugrupuoti į grupes.<br />
Norint peržiūrėti visą tyrimo informaciją, kairėje pusėje ties skyriumi reikia spausti<br />
informaciją išskleidžiančią ikoną . Kai informacija yra visa išskleista ir rodoma dešinėje lango<br />
pusėje, skyriaus pavadinimas paryškinamas raudonai ir ties juo atsiranda simbolis .<br />
Dešiniosios lango pusės viršuje yra trys pagrindiniai meniu elementai: Description,<br />
Tabulation ir Anglysis. Description – peržiūrėti metaduomenis ar informaciją apie kairėje lango<br />
dalyje pasirinktą tyrimo elementą ar kintamąjį. Tabulation – atlikti kintamųjų analizę. Paspaudus šį<br />
mygtuką iš pradžių rodoma tuščia lentelė. Norint įdėti kintamąjį į lentelę, reikia spustelėti ant<br />
kintamojo kairėje lango dalyje ir iš atsiradusio meniu pasirinkti reikiamą operaciją. Taip galima<br />
įkelti kelis kintamuosius ir juos vėliau analizuoti lango viršuje esančių mygtukų pagalba:<br />
71
Analysis mygtuko pagalba galima atlikti regresinę ir koreliacinę analizę.<br />
Duomenų išsaugojimas į savo kompiuterį<br />
Pasirinkti saugojimui galima metaduomenis HTML ir XML formatu bei tyrimų duomenis įvairias<br />
formatais. Saugoma tai, kas rodoma dešinėje lango dalyje. Paspaudus mygtuką atidaromas<br />
langas, kuriame reikia nurodyti kas ir kaip bus saugoma:<br />
Duomenų eksportas ir spausdinimas<br />
72
Norint eksportuoti tyrimo duomenis į Excel formatą, spaudžiamas mygtukas , į PDF formatą –<br />
mygtukas . Norint spausdinti duomenis, spaudžiamas mygtukas .<br />
Bookmarks<br />
Ši funkcija naudojama išsaugoti tuo metu rodomą duomenų rinkinio atvaizdavimą, pavyzdžiui,<br />
informaciją apie kintamąjį, atliktą duomenų analizę ir pan. Išsaugotas duomenų rinkinio<br />
atvaizdavimas patalpinamas į serverį ir yra matomas kitiems tokias pat teises turintiems vartotojams.<br />
Norint sukurti Bookmark, reikia spustelti mygtuką ir iš išsiskleidžiančio sąrašo pasirinkti meniu<br />
Server Bookmark. Atidaromas langas, kuriame reikia nurodyti Bookmark pavadinimą ir aprašyti<br />
tai, ką norite išsaugoti, kad vėliau peržiūrint būtų galima suprasti, kodėl tai yra svarbu:<br />
Paspaudus mygtuką Add bookmark, jis parodomas tyrimo elementų rinkinio sąraše kairėje Nesstar<br />
WebView lango dalyje:<br />
73
Norint peržiūrėti Bookmark, reikia spustelti pele ant jo pavadinimo ir iš išsiskleidžiančio meniu<br />
sąrašo pasirinkti reikiamą elementą:<br />
Paieška<br />
<strong>LiDA</strong> Nesstar WebView aplinkoje galima atlikti paprastą ir išplėstinę paieškas. Paprasta paieška<br />
atliekama pagrindiniame <strong>LiDA</strong> Nesstar WebView lange kairėje pusėje esančiame paieškos laukelyje<br />
įrašius užklausą ir paspaudus mygtuką :<br />
74
Norint atlikti išplėstinę paieška, šalia paprastos paieškos lauko reikia spausti . Atidaromas<br />
išplėstos paieškos langas:<br />
75
<strong>LiDA</strong> prieiga per eLABa<br />
Taip pat Lietuvoje kuriama Lietuvos akademinė elektroninė biblioteka – eLABa. Prieiga per<br />
http://elaba.library.lt. Ji skirta Lietuvos mokslo institucijoms, kurių autoriai kuria mokslines ir<br />
studijų publikacijas, kurias reikia įkelti, saugoti, kataloguoti ir pateikti skaitytojams bei kitoms<br />
sistemoms. Pagrindinis tikslas – sukurti aplinką bei priemones ir jomis naudojantis rengti, kaupti,<br />
ilgą laiką saugoti ir įvairiais išvesties būdais pateikti vartotojams Lietuvos mokslo ir studijų<br />
elektroninius dokumentus.<br />
eLABa kaupiami, saugomi ir skelbiami eLABa duomenų teikėjų įkelti šių tipų elektroniniai<br />
dokumentai:<br />
• Knygos (monografijos, vadovėliai, mokymui skirtos knygos ir pan.);<br />
• Periodiniai ar vienkartiniai recenzuojami mokslo leidiniai (žurnalai) bei mokslo<br />
populiarinimo leidiniai (žurnalai), išspausdinti, išleisti kompaktiniais diskais arba paskelbti<br />
internete;<br />
• Atskiri moksliniai ir mokslo populiarinimo straipsniai, publikuoti mokslo ir mokslo<br />
populiarinimo leidiniuose;<br />
• Pranešimai mokslinėse ar metodinėse konferencijose, seminaruose ir pan.;<br />
• Studijų baigiamieji darbai, daktaro disertacijos ir jų santraukos;<br />
• Mokslinių tyrimų ir eksperimentinės plėtros darbų bei projektų ataskaitos;<br />
• Kita.<br />
eLABa lange pasirinkite meniu „Ištekliai“ ir iš sąrašo pasirinkite <strong>LiDA</strong> archyvo nuorodą:<br />
76
ALEPH paieškos sistemos lange <strong>LiDA</strong> duomenų galima ieškoti per įvairias paieškas: paprastą,<br />
keliuose ištekliuose, detalią, komandinę ir išplėstą. Kokią paiešką pasirinkti priklauso nuo to, kokiu<br />
tikslu ieškote informacijos, kokią pradinę informaciją apie ieškomus leidinius jau turite ir pan.:<br />
- Paprastą paiešką tikslinga pasirinkti tuomet, jeigu atliekate bendresnio pobūdžio paiešką.<br />
Šios paieškos metu jūsų pageidaujamo paieškos žodžio arba žodžių ieško visuose paieškos<br />
laukuose arba viename pasirinktame paieškos lauke, t.y. pagal autoriaus pavardę, tikslią<br />
antraštę, žodį ar žodžius antraštėje, ISSN, ISBN, leidimo metus ir kt. Paprasta paieška<br />
dažniausiai naudojasi pradedantieji arba greitą paiešką atliekantys informacijos vartotojai.<br />
- Detalią paiešką tikslinga pasirinkti tuomet, jeigu žinote tikslius leidinio duomenis arba bent<br />
kelis bibliografinio aprašo elementus, pavyzdžiui, autorių, antraštė, publikavimo metus,<br />
leidimo vietą, leidyklą ar kitus duomenis.<br />
- Paiešką keliuose ištekliuose reikėtų pasirinkti tuomet, jeigu jums reikalingo leidinio ar<br />
leidinių neradote savo institucijos bibliotekos kataloge arba tuomet, kai jūsų bibliotekos<br />
kataloge neradote leidinių pagal pasirinktą žodį ar žodžius. Atlikę paiešką sužinosite, kokioje<br />
Lietuvos akademinėje bibliotekoje ar keliose bibliotekose yra jūsų ieškomas leidinys.<br />
- Išplėstą paiešką pasirinkite tuomet, jeigu norite suformuluoti sudėtingą paiešką, derinti kelis<br />
paieškos kriterijus. Rezultatai pateikiami pagal kiekvieną paieškos kriterijų atskirai, o taip<br />
pat visus paieškos kriterijus atitinkantys paieškos rezultatai.<br />
- Komandinę paiešką rekomenduojama atlikti didesnę informacijos paieškos patirtį turintiems<br />
vartotojams, kurie sugeba paiešką suformuluoti laukų komandų pagalba. Šiuo atveju galima<br />
suformuluoti itin sudėtingą paieškos klausimą, naudoti loginius operatorius, skliaustus ir pan.<br />
O tai leidžia gauti labai tikslius rezultatus.<br />
77
Paprastos paieškos langas, kurio laukelyje „Įveskite žodį arba frazę“ įrašoma užklausa ir kituose<br />
laukeliuose nurodomi užklausą apibūdinantys parametrai:<br />
Atlikus paiešką, paieškos rezultatai pateikiami lentelėje:<br />
78
Lentelėje rodomi tik pagrindiniai tyrimo metaduomenys: autorius ir tyrimo antraštė. Norint<br />
peržiūrėti detalius metaduomenis apie tyrimą, reikia spausti numerį šios lentelės kairėje. Atidaromas<br />
langas, kuriame rodomi detalūs metaduomenys apie tyrimą. Metaduomenų sąrašo viršuje esanti<br />
nuoroda „Sąsaja“ skirta atidaryti langą, iš kurio galima parsisiųsti su tyrimu susijusius dokumentus<br />
ar pačius duomenis.<br />
79
Duomenims parsisiųsti paspaudus nuorodą „Sąsaja“ atidaromas langas:<br />
Šiame lange pateikiamas su tyrimu susijusių duomenų ir dokumentų sąrašas. Paspaudus pele ant<br />
vienos iš sąrašo ikonų, parsiunčiamas duomenų failas ar kompiuterio ekrane parodomas pats<br />
dokumentas.<br />
80
<strong>LiDA</strong> prieiga per Lietuvos virtualią biblioteką<br />
Lietuvos virtuali biblioteka yra kompleksinė sistema, suteikianti galimybę iš vieningos paieškos<br />
platformos ieškoti įvairaus tipo dokumentų. Paieška atliekama įvairiuose ištekliuose –<br />
elektroniniuose kataloguose ir duomenų bazėse. Šiuo metu LVB galite ieškoti ir rasti:<br />
- bibliografinės informacijos apie socialinius ir humanitarinius mokslinius tyrimus bei rasti ir<br />
parsisiųsti tų tyrimų duomenis iš <strong>LiDA</strong> archyvo;<br />
- bibliografinius duomenis apie leidinius, aprašytus Lietuvos akademinių ir viešųjų bibliotekų<br />
bei kai kurių užsienio bibliotekų kataloguose;<br />
- straipsnių, konferencijų pranešimų ir kt. dokumentų, aprašytų institucijų publikacijų<br />
duomenų bazėse, bibliografinius duomenis ir santraukas. Dalis dokumentų pateikia ryšį į<br />
visatekstį dokumentą;<br />
- dokumentų, sukauptų Lietuvoje kuriamose duomenų bazėse Lituanistika, ETD, eLABa,<br />
LABT katalogas, <strong>LiDA</strong> bibliografinius duomenis ir/ar pačius visateksčius dokumentus;<br />
- dokumentų (straipsnių, konferencijų pranešimų, knygų ir kt.), prieinamų per Lietuvos<br />
institucijose prenumeruojamas užsienio duomenų bazes, bibliografinius duomenis ir/ar<br />
pačius visateksčius dokumentus.<br />
<strong>LiDA</strong> archyvas bus prieinamas taip pat per Lietuvos virtualią biblioteką – http://www.lvb.lt.<br />
81
Norint atlikti paiešką tik <strong>LiDA</strong> archyve, reikia nuimti žymėjimus ties kitais informaciniais ištekliais.<br />
Jei žymėjimai nenuimami, tuo pačiu metu paieška atliekama ir kituose informaciniuose ištekliuose.<br />
Atlikus paiešką paieškos rezultatai pateikiami lentelės forma. Lentelėje rodomas tik tyrimo autorius<br />
ir antraštė.<br />
Norint peržiūrėti detalius metaduomenis apie tyrimą, reikia spausti tyrimo antraštės nuorodą.<br />
Atidaromas langas, kuriame rodomas išsamių metaduomenų sąrašas:<br />
82
Norint parsisiųsti tyrimo duomenis ar su tyrimu susijusius dokumentus, reikia spausti „Prieiga“<br />
eilutėje esančią nuorodą. Atidaromas langas, kuriame pateikiamas su tyrimu susijusių elektroninių<br />
dokumentų sąrašas:<br />
83
Šis langas toks pat kaip eLABa paieškos sistemos. Šiame lange pateikiamas su tyrimu susijusių<br />
duomenų ir dokumentų sąrašas, kuriame paspaudus pele ant vienos iš sąrašo ikonų, parsiunčiamas<br />
duomenų failas ar kompiuterio ekrane parodomas pats dokumentas.<br />
Kiti archyvai ir duomenų rinkinių peržiūra<br />
Socialinių tyrimų archyvų sąrašus galite rasti <strong>LiDA</strong> projekto svetainėje http://www.lidata.eu<br />
pasirinkus meniu punktą Plėtra ir Bendradarbiavimas:<br />
Taip pat socialinių mokslų duomenų archyvų sąrašą internete pateikia Amsterdamo universiteto<br />
Sociologijos ir antropologijos departamentas - http://www.sociosite.net/databases.php:<br />
84
Užsienio šalių duomenų archyvai ir jų paieškos sistemos<br />
Vokietijos socialinių mokslų infrastruktūros paslaugų asociacijos archyvas (angl. German Social<br />
Science Infrastructure Services – GESIS) yra prieinamas per internetą adresu<br />
http://zacat.gesis.org/webview/index.jsp. Šis archyvas kaip ir <strong>LiDA</strong> naudoja Nesstar WebView<br />
aplinką duomenų archyvo turiniui atvaizduoti, ieškoti ir analizuoti.<br />
Jungtinės Karalystės duomenų archyvas (angl. UK Data Archive) yra prieinamas per internetą<br />
adresu http://www.data-archive.ac.uk/findingData/aboutCat.asp. Pagrindinėje svetainėje pateikiama<br />
jungtinės paieškos galimybė – galimybė atlikti paiešką vienu metu keliuose Jungtinės Karalystės<br />
archyvuose. Atlikus paiešką, paieškos rezultatų lange gali būti mygtukas į Nesstar WebView, kurį<br />
paspaudus patenkama į atitinkamo Jungtinės Karalystės duomenų archyvo Nesstar WebView<br />
aplinką.<br />
85
Slovėnijos socialinių mokslų archyvas prieinamas per internetą adresu http://nesstar2.adp.fdv.uni-<br />
lj.si/webview/. Šis archyvas kaip ir <strong>LiDA</strong> naudoja Nesstar WebView aplinką duomenų archyvo<br />
turiniui atvaizduoti, ieškoti ir analizuoti.<br />
Politinių ir socialinių mokslų tyrimų tarpuniversitetinis konsorciumas (angl. Inter-University<br />
Consortium for Political and Social Research) savo svetainėje pateikia nuorodą į elektroninį<br />
archyvą, kuris prieinamas adresu https://www.icpsr.umich.edu/. Tai jungtinė kelių JAV archyvų<br />
duomenų paieškos ir atvaizdavimo sistema. Archyvų sąrašą galima peržiūrėti internete adresu<br />
http://www.icpsr.umich.edu/cocoon/ICPSR/all/archives.xml?token=Archives. Šis archyvas turi<br />
savitą paieškos ir duomenų bei informacijos atvaizdavimo sistemą. Norint peržiūrėti ar atsisiųsti<br />
duomenis būtina užsiregistruoti – registracija yra paprasta, nemokama ir greita.<br />
Naudotos literatūros ir šaltinių sąrašas<br />
Archiv družboslovnih podatkov [interaktyvus]. [Žiūrėta 2008-04-04]. Prieiga per internetą:<br />
http://nesstar2.adp.fdv.uni-lj.si/webview/<br />
Beyond Bookmarks: chemes for Organizing the Web. [interaktyvus]. [žiūrėta 2008 04 15].<br />
Prieiga per internetą:http://www.public.iastate.edu/~CYBERSTACKS/CTW.htm<br />
Borgman, Ch. L. Nuo Gutenbergo iki globalios informacijos infrastruktūros. Informacijos<br />
prieiga tinklų apraizgytame pasaulyje. 2003. 327 p.<br />
CAPLAN, Priscilla. Metadata fundamentals for all librarians. Chicago, 2003. 192 p. ISBN 0-<br />
8389-0847-0.<br />
Data Documentation Initiative [interaktyvus]. DDI [žiūrėta 2007-12-13]. Prieiga per internetą:<br />
http://www.icpsr.umich.edu/DDI/<br />
Digital Preservation Management [interaktyvus]. Cornell University Library, 2003-2007 [žiūrėta<br />
2007-12-07]. Prieiga per internetą: http://www.icpsr.umich.edu/dpm/dpm-eng/eng_index.html<br />
Dublin Core Metadata Initiative [interaktyvus]. DCMI, 1995-2008 [žiūrėta 2007-12-18]. Prieiga<br />
per internetą: http://dublincore.org/<br />
ePaveldas [interaktyvus]. [Žiūrėta 2008-02-06]. Prieiga per internetą: http://www.epaveldas.lt<br />
Europos žodynas EUROVOC [interaktyvus]. [žiūrėta 2008 04 11]. Prieiga per internetą<br />
http://www3.lrs.lt/eurovoc<br />
86
German Social Science Infrastructure Servines [interaktyvus]. 2004 [žiūrėta 2008-04-04].<br />
Prieiga per internetą: http://zacat.gesis.org/webview/index.jsp<br />
Gilchrist A. Thesauri, taxonomies and ontologies – an etymological note//JDOC, vol. 59 No.1,<br />
2003, p. 7-17.<br />
Gill T., Gilliland A.J, Woodley M. S. Introduction to metadata: pathways to digital information<br />
[interaktyvus]. 1998. [žiūrėta 2008 04 11] Prieiga per internetą:<br />
http://www.getty.edu/research/conducting_research/standards/intrometadata/index/html<br />
HASSET thesaurus. In: UK Data Archive. [interaktyvus]. [žiūrėta 2008 04 11] . Prieiga per<br />
internetą http://www.data-archive.ac.uk/search/hassetSearch.asp<br />
HAYNES, D. Metadata for information management and retrieval. London : Facet<br />
Publishing, 2004. - xiv, 186 p. : iliustr. - ISBN 1-85604-489-0<br />
Hunter E.J. Classification made simple. Ashgate, 2002, 150 p.<br />
Inter-University Consortium for Political and Social Research [interaktyvus]. University of<br />
Michigan, 2007 [žiūrėta 2008-04-04]. Prieiga per internetą: https://www.icpsr.umich.edu/<br />
ISBD(ER): International Standard Bibliographic Description for Electronic Resources<br />
[interaktyvus]. [Žiūrėta 2008-01-24]. Prieiga per internetą:<br />
http://www.ifla.org/VII/s13/pubs/isbd3.htm#17<br />
ISO 14721:2003 Space Data and Information Transfer System - Open Archival Information<br />
System - Reference Model [interaktyvus]. International Organization for Standardization, 2008<br />
[žiūrėta 2007-02-04]. Prieiga per internetą:<br />
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=24683<br />
Koch T. Controlled vocabularies, thesauri and classification systems available in the WWW.<br />
[žiūrėta 2008 04 07] Prieiga per internetą http://www.lub.lu.se/metadata/subject-help.html<br />
<strong>LiDA</strong> : Lietuvos HSM duomenų archyvas [interaktyvus]. Kaunas: KTU Politikos ir viešojo<br />
administravimo institutas, 2008 [žiūrėta 2008-04-03]. Prieiga per internetą:<br />
http://debian.library.lt/webview/<br />
Lietuvos 2004-2006 metų bendrasis programavimo dokumentas [interaktyvus]. Patvirtinta<br />
Lietuvos Respublikos Vyriausybės 2004 m. rugpjūčio 2 d. nutarimu Nr. 935 (Žin., 2004, Nr.<br />
123-4486) [žiūrėta 2008-02-04]. Prieiga per internetą:<br />
http://www.ivpk.lt/fondai/bpd/BPD_2007-03-28_1.doc<br />
Lietuvos akademinė elektroninė biblioteka eLABa [interaktyvus]. Lietuvos akademinių<br />
bibliotekų tinklas (LABT), 2005 [žiūrėta 2008-04-03]. Prieiga per internetą:<br />
http://elaba.library.lt<br />
Lietuvos virtuali biblioteka [interaktyvus]. Lietuvos akademinių bibliotekų tinklas (LABT)<br />
[žiūrėta 2008-04-03]. Prieiga per internetą: http://www.lvb.lt<br />
87
LUPOVICI, C.; MASANES, J. Metadata for the long term preservation of electronic<br />
publications. Den Haag: Koninklijke Bibliotheek, 2000. 22 p.<br />
Medical subject headings [interaktyvus]. National Library of Medicine [žiūrėta 2008 m. 04 07]<br />
Prieiga per internetą http://www.nlm.nih.gov/mesh/<br />
Miežinienė A. IPS teorijos raida/ Teoriniai bibliotekininkystės pagrindai: vadovėlis<br />
bibliotekininkystės ir bibliografijos specialybių studentams/ sudaryta G. Raguotienės. Vilnius:<br />
Stepono batoro leidykla. 2-asis patais. ir papild. leid. 1990. P. 127-187<br />
Mokslų klasifikacija. Mokslas ir studijos [interaktyvus]. [Žiūrėta 2008 m. 04 08 d.]<br />
http://www.mokslas.lt/index.cgi?menu_item=science_directions<br />
OWL. Web Ontology Language overview. [interaktyvus]. Semantic Web. [žiūrėta 2008 04<br />
08].Prieiga per internetą: http://www.w3.org/TR/owl-features/.<br />
Roget’s thesaurus of English words and phrases. [Žiūrėta 2008 04 08]. Prieiga per internetą<br />
http://leva.leeds.ac.uk/www_rgt/rgt_index.html<br />
ŠTREIMIKIS, A.; KUČIUKAS, V.; ŽURAUKAS, S.; TARGAMADZĖ, A; ŽALYS, A. Lietuvo<br />
s akademinė e. biblioteka (eLABa) // Informacijos mokslai = Information Sciences : mokslo<br />
darbai / Vilniaus universitetas. - ISSN 1392-0561. - Vilnius. - 2007, T. 40, p. 9-24<br />
Taylor Arlene G. Introduction to cataloging and classification. Tenth ed. /Library and<br />
Information Text Series. – London, Libraries Unlimited, 2006. P.301- 390.<br />
Taylor Arlene G. The organization of information. Second ed. /Library and Information Text<br />
Series. – London, Libraries Unlimited, 2004. P. 10-65, 139-155, 241-295.<br />
UDC Consortium [interaktyvus]. [žiūrėta 2008 04 02]. Prieiga per internetą<br />
http://www.udcc.org/<br />
UK Data Archive [interaktyvus]. University of Essex, 2002-2008 [žiūrėta 2008-04-04] prieiga<br />
per internetą: http://www.data-archive.ac.uk/findingData/aboutCat.asp<br />
Universalioji dešimtainė klasifikacija: Sutrumpintos lentelės/ sudarė A. Miežinienė, M.<br />
Prokopčik. – Vilnius, 1994. – 476 p.<br />
Web Thesaurus compendium[interaktyvus]. [žiūrėta 2008 m. 03 15]. Prieiga per internetą:<br />
http://www.ipsi.fraunhofer.de/~lutes/thesoecd.html<br />
88
Santrumpų sąrašas<br />
ALEPH – Integruota bibliotekinė sistema ALEPH (angl. Aleph Integrated Library System)<br />
BPD – Bendrasis programavimo dokumentas<br />
CESSDA – Europos socialinių mokslų duomenų archyvų taryva (angl. Council of European Social<br />
Science Data Archives)<br />
DC – Dublino branduolys (angl. Dublin Core)<br />
DDI – Duomenų aprašymo iniciatyva (angl. Data Documentation Initiative)<br />
DTD – dokumento tipo apibrėžtis (angl. Document Type Definition)<br />
eLABa - Lietuvos akademinė elektroninė biblioteka<br />
ETD – Elektroninės tezės ir disertacijos<br />
HTML – Hiperteksto žymėjimo kalba (angl. Hyper Text Markup Language)<br />
ICPSR - Politinių ir socialinių mokslų tyrimų tarpuniversitetinis konsorciumas (angl. Inter-<br />
University Consortium for Political and Social Research)<br />
IFLA – Tarptautinė bibliotekų asociacijų ir jų įstaigų federacija (angl. International Federation of<br />
Library Associations and Institutions)<br />
IPK – Informacijos paieškos kalba<br />
IPS – Informacijos paieškos sistema<br />
ISAD – Tarptautinis archyvinio aprašymo standartas (angl. International Standard Archival<br />
Description)<br />
ISAD (G) – Bendras tarptautinis archyvinio aprašymo standartas (angl. General International<br />
Standard Archival Description)<br />
ISBN – Tarptautinis standartinis knygos numeris (angl. International Standard Book Number)<br />
ISSN – Tarptautinis standartinis serijos numeris (angl. International Standard Serial Number)<br />
KTU – Kauno technologijos universitetas<br />
LABT – Lietuvos akademinių bibliotekų tinklas<br />
LCSH – JAV Kongreso bibliotekos rubrikynas (angl. Library of Congress Subject Headings)_<br />
LNB – Lietuvos nacionalinė Martyno Mažvydo biblioteka<br />
LV – Leksinis vienetas<br />
LVB – Lietuvos virtuali biblioteka<br />
Nesstar – Tikliniai socialinių mokslų įrankiai ir resursai (angl. Networked Social Science Tools and<br />
Resources)<br />
NK – Natūrali kalba<br />
RŽ – Reikšminis žodis<br />
SGML - Universali dokumentų ženklinimo kalba (angl. Standard Generalized Mark-up Language)<br />
UNIMARC – Universalus MARC formatas (angl. Universal MARC Format)<br />
XML – (angl. Extensible Mark-up Language)<br />
89