©2003 Digitized by USU digital library 1 PENGGUNAAN BAHASA ...

PENGGUNAAN BAHASA ALAMIAH DAN KOSA KATA TERKONTROL DALAM SISTEMTEMU KEMBALI INFORMASI BERBASIS TEKSJONNER HASUGIANStaf Pengajar pada Program Studi Ilmu Perpustakaan Fakultas Sastra USU1. PendahuluanBahasa dan atau kosa kata (vocabulary) memegang peranan yang sangatpenting dalam efektifitas dan efisiensi penelusuran pada suatu sistem temu kembaliinformasi. (Muddamalle, 1998 : 881). Kegiatan penelusuran hanya dapat berlangsungbila menggunakan kosa kata, sebab kosa kata inilah yang digunakan sebagai alat(tools) penelusuran untuk menemukan dokumen yang diinginkan. Dalam sistem temukembali informasi, kosa kata itu disebut dengan indeks, yang dapat berupa indekssubjek, pengarang, judul, maupun tesaurus.Pada dasarnya ada dua pendekatan penelusuran yang lajim digunakan dalamsistem temu kembali informasi yaitu bahasa alami (natural language), dan kosa kataterkontrol yang sering juga disebut controlled vocabulary. Kedua pendekatan ini sejaksemula telah digunakan secara luas dalam sistem temu kembali informasi.Studi tentang efektifitas dan efisiensi penelusuran menggunakan pendekatanbahasa alamiah (natural language) dan kosa kata terkontrol (controlled vocabulary)dalam sistem temu kembali informasi telah lama dilakukan. Banyak database yang telahdibangun untuk digunakan sebagai sarana penelusuran eksperimen dalam rangkapembuktian efektifitas dan efisiensi dari kedua pendekatan tersebut.Muddamalle (1998 : 881-883) mencatat bahwa sejarah bahasa alamiah(natural language) kontra kosa kata terkontrol (controlled vocabulary) dalam sistemtemu kembali informasi dibagi kepada tiga era. Era pertama dimulai pada abad ke-19dengan penekanan kepada popularitas pengindeksan istilah berdasarkan judul (titleterm indexing). Pada era ini kosa kata terkontrol atau controlled vocabulary lebihdominan digunakan dalam penelusuran, terutama digunakan untuk menemukancantuman bibliografi dalam katalog berklasifikasi di perpustakaan. Sedangkanpenelusuran berdasarkan bahasa alamiah yang biasa disebut dengan sebutan free-textsearching atau penelusuran dengan teks bebas, baru dalam tahap permulaan dilakukanpada era ini.Era kedua dimulai pada saat kehadiran komputer dalam sistem temu kembaliinformasi. Pada era ini kegiatan pengindeksan mulai dilakukan dalam bentuk mekanis.Kemudian, era ketiga dimulai pada pertengahan tahun 1970-an, dimana pendekatanyang berbeda dilakukan untuk menguji isu natural language versus controlledvocabulary, melalui pengujian rasio Recall dan Precision dalam sistem temu kembaliinformasi pada berbagai database berbasis teks.Para ahli informasi terus melakukan berbagai penelitian dan percobaanberkenaan dengan kedua pendekatan tersebut. Hasil yang diperoleh bervariasi antarasatu peneliti dan yang lainnya. Beberapa contoh hasil penelitian tersebut dapat dilihatdi bawah ini.Pada tahun 1976, Barbara Charton melakukan penelitian melalui penelusuranpada Chemical Abstracts, untuk menjawab pertanyaan penelitian, Is a controlledvocabulary necessary ?. Dalam hasil penelitiannya, dia mengemukakan bahwa suatupenelusuran dengan teks bebas bisa seefektif penelusuran menggunakan controlledvocabulary, asalkan dilakukan oleh seseorang yang memiliki pengalaman dalampenelusuran. Penelusuran dengan teks bebas bisa lebih efektif, sebab ada kalanyapenelusuran menggunakan controlled vocabulary mengorbankan ketepatan dalamkemungkinan mencapai kemudahan.Markey, Atherton, dan Newton (1982), membandingkan 165 pernyataanpenelusuran dengan teks bebas (free-text search statements) yang digunakan dalam©2003 Digitized by USU digital library 1

mengakses ERIC database untuk mengetahui apakah konsep ekspresi dengan istilahteks bebas atau bahasa alamiah dapat juga diekspresikan dari deskriptor ERIC (ERICdescriptors). Mereka menemukan bahwa salah satu dari setiap delapan pernyataanpenelusuran teks bebas yang tidak direpresentasikan dalam ERIC controlledvocabulary. Secara keseluruhan, temu kembali teks bebas (free-text retrieval) denganmenggunakan pendekatan bahasa alamiah menghasilkan perolehan (recall) yang tinggidengan ketepatan (precision) yang rendah, dari pada menggunakan pendekatancontrolled vocabulary.Calkins (1980) sesuai kutipan Muddammalle, dalam hasil pengamatannyakepada sejumlah penelusur yang hanya menggunakan istilah controlled vocabulary danyang hanya menggunakan penelusuran teks bebas, mengemukakan kesimpulan bahwapenelusuran menggunakan teks bebas dan controlled vocabulary ternyata salingmelengkapi, dan penampilan terbaik yang dicapai dalam penelusuran ialahmenggunakan kombinasi dari keduanya.Dari ketiga contoh hasil penelitian yang dikemukakan di atas, dapat dilihatbahwa efektifitas dan efisiensi penelusuran menggunakan pendekatan bahasa alamiahatau penelusuran dengan teks bebas (free-text search) ada kalanya lebih baik daripada kosa kata terkontrol, demikian sebaliknya pendekatan menggunakan controlledvocabulary ada kalanya lebih baik dari bahasa alamiah. Mengingat banyaknyapenelitian dan eksperimen yang telah dilakukan untuk menguji kedua pendekatantersebut, maka keunggulan maupun kelemahan dari kedua pendekatan tersebut telahbanyak yang diketahui. Tulisan ini mencoba mengangkat isu tersebut untuk dibahassecara teoritis melalui tinjauan literatur.Sasaran utama yang akan dicapai dalam tulisan ini ialah mengetahui sejumlahkeunggulan dan kelemahan penelusuran menggunakan pendekatan bahasa alamiah(natural languages) dan kosa kata terkontrol (controlled vocabulary). Kemudian akandirekomendasikan pendekatan mana yang ideal digunakan dalam sistem temu kembaliinformasi berbasis teks. Akan tetapi sebelum pembahasan itu dilakukan, terlebih dahuluakan dibahas beberapa hal yang menyangkut dengan sistem temu kembali informasiberbasis teks antara lain, Pengertian dan Fasilitas Sistem Temu Kembali InformasiBerbasis Teks, Keefektifan Sistem Temu Kembali Informasi Berbasis Teks, sertaPengindeksan dan Bahasa Indeks Dalam Sistem Temu Kembali Informasi.2. Pengertian, dan Fasilitas Sistem Temu Kembali Informasi Berbasis TeksPada dasarnya sistem temu kembali informasi adalah suatu proses untukmengidentifikasi, kemudian mema nggil (retrieve) suatu dokumen dari suatu simpanan(file), sebagai jawaban atas pemintaan informasi. Pengertian lain menyatakan bahwasistem temu kembali informasi adalah proses yang berhubungan dengan representasi,penyimpanan, pencarian dengan pemanggilan informasi yang relevan dengankebutuhan informasi yang diinginkan pengguna. (Ingwerson, 1992 : 49). Pendapat inimenunjukan bahwa pada sistem temu kembali informasi terkandung sejumlah kegiatanyang meliputi proses penyimpanan, penyediaan representasi, identifikasi sertapencarian atau penelusuran dokumen yang relevan pada suatu database, dalamrangka memenuhi kebutuhan informasi dari pengguna. Dari sekian banyak sistem temukembali yang ada,salah satu diantaranyya adalah sistem temu kembali informasiberbasis teks atau tekstual.Sitem temu kembali tekstual adalah salah satu dari berbagai sistem yangmengelola penyimpanan teks secara terkomputerisasi, kemudian temu kembaliinformasinya. (Rowley, 1987 : 1). Dalam sistem temu kembali tekstual, fokus utamaialah terletak pada penyimpanan dan temu kembali informasi berbasis teks, dan bukandata numerik, tabulasi, atau data grafis semata. Tetapi dalam kenyataannya ,dokumen-dokumen yang ada saat ini jarang yang hanya terdiri dari informasi berbasisteks semata, melainkan dokumen yang berupa gabungan dari numerik, tabel, grafis,image dan sebagainya dengan teks.©2003 Digitized by USU digital library 2

Umumnya sitem temu kembali tekstual didesain untuk memberi suatu kawasantitik akses (access points) kepada suatu database dari informasi yang relatif tidakterstruktur, yang lajim dikenal dengan sebutan teks bebas. Oleh karena itu, kegiatanfree-text search dapat dilakukan dengan menggunakan bahasa alamiah (naturallanguage) dari dokumen yang berbentuk teks yang tersimpan dalam suatu database.Keadaan ini sangat menolong pengguna awam yang tidak mampu menelusur denganmenggunakan bahasa indeks (controlled language) yang dibuat oleh indekser, sepertihalnya tesaurus atau tajuk subyek tertentu.Teskey (1984) dalam suntingan Rowlands mengidentifikasikan ada empat fungsiyang paling penting, yang bisa terbukti dalam segala jenis sistem temu kembaliinformasi tekstual yang baik, yaitu bahwa suatu sistem temu kembali informasi tekstualyang baik, seharusnya dapat untuk: (a) menerima dan menyusun berbagai teks dariberbagai sumber; (b) menetapkan penyimpanan yang sesuai untuk semua teks, (c)mendapatkan/memperoleh informasi yang spesifik dari teks yang tersimpan dalammerespon queries yang diberikan; (c) memproses teks yang didapatkan, danmenyajikannya kepada pengguna dalam format yang dapat diterima (acceptable).Suatu sistem temu kembali berbasis teks, secara normal karakteristiknya dilihatdari fasilitas temu kembali yang dimilikinya. Seringkali suatu sistem temu kembali tidakdapat menelusur informasi melalui field-field tertentu atau khusus, karenaketerbatasan fasilitas yang dimilikinya. Oleh karena itu fasilitas penelusuran yangditawarkan dalam suatu sistem temu kembali, adalah merupakan salah satu unsur yangpaling penting dalam memilih paket-paket informasi berbasis teks.Secara umum bahwa suatu sistem temu kembali tekstual memiliki sejumlahfasilitas yang dapat digunakan untuk: pertanyaan atau bahasa perintah (query orcommand language); formulasi pertanyaan Boolean (Boolean query formulation);pemurnian penelusuran (search refinement); pemendekan/pemotongan danpenelusuran rentetan teks (truncation and text string searching); daftar katatakterpakai dalam penelusuran (stop list or common word list); tesaurus / pendukungperbendaharaan kosa kata (thesaurus / vocabulary support); kedekatan penelusuran(proximity searching); pembatasan penelusuran dengan ruas (limiting searching byfield); dan penelusuran kawasan numerik ( numeric range searching). (Rowlands, 1987: 7-8). Sejumlah fasilitas yang disebutkan di atas sangat diperlukan untuk melakukanpenelusuran pada suatu database. Kelengkapan fasilitas ini tentu sangatmempengaruhi keefektifan sistem temu kembali informasi, yang tentu akan berdampakkepada tingkat ketepatan (precision) dalam penelusuran.3. Efektifitas Sistem Temu Kembali Informasi Berbasis TeksPesatnya kemajuan teknologi informasi khususnya komputer disertai dengandukungan kecanggihan perangkat lunak (software) mengakibatkannya mampu menata,menyimpan sejumlah besar informasi dan menyediakan akses terhadap informasitersebut dengan cepat dan tepat. Kemajuan itu sangat berpengaruh kepadaperkembangan sistem temu kembali informasi (information retrieval system).Keakuratan dan kecepatan dari suatu sistem informasi sangat diharpakan dalam upayamemenuhi kebutuhan pengguna untuk memperoleh informasi yang diinginkannya.Efektifitas dari suatu sistem temu kembali informasi adalah kemampuan darisistem itu untuk memanggil berbagai dokumen dari suatu basis data sesuai denganpermintaan pengguna. Efektifitas dari sistem temu kembali informasi tersebut dapatdiukur. Ada dua hal penting yang biasanya digunakan dalam mengukur kemampuansuatu sistem temu kembali informasi yaitu rasio atau perbandingan dari perolehan(recall), dan ketepatan (precicion). (Lee Pao, 1989 : 225).Perolehan (recall) berhubungan dengan kemampuan sistem untuk memanggildokumen yang relevan, sedangkan ketepatan (precision) berkaitan dengankemampuan sistem untuk tidak memanggil dokumen yang tidak relevan. Rasio dari©2003 Digitized by USU digital library 3

tingkat perolehan (recall) dan ketepatan (precision) yang dicapai dalam kegiatanpenelusuran dapat diungkapkan sebagai berikut :Jumlah dokumen relevan yang terambilRecall = -------------------------------------------------------------Jumlah dokumen relevan yang ada dalam database (file)Jumlah dokumen relevan yang terambilPrecision = ------------------------------------------------------Jumlah dokumen yang terambil dalam pencarianRasio dari recall sebenarnya sulit diukur karena jumlah seluruh dokumen yangrelevan dalam database sangat besar. Oleh karena itu presisi-lah (precision) yangmenjadi salah satu ukuran yang digunakan untuk menilai keefektifan suatu sistem temukembali informasi. Untuk memudahkan pemahaman akan kedua rasio tersebut, berikutdikemukakan sebuah contoh soal dan perhitungan penentuan recall dan precision.Andaikan suatu file database menyimpan 100 dokumen. Pada suatupenelusuran, ada 10 dokumen terambil (retrieved) dan hanya 4 dokumen terambildalam pencarian yang relevan dengan pertanyaan (query), kemudian ada 2 dokumenlain dalam file dabase diketahui relevan kepada query akan tetapi tidak terambil (notretrieved). Untuk menghitung rasio recall dan precision dari seperti disebut pada soaldi atas, sering digunakan tabel berikut :Tabel Perhitungan Recall dan PrecisionRelevant Not Relevant TotalRetrieved 4 ( a ) 6 ( b ) 10Not Retrieved 2 ( c ) 88 ( d ) 90Total 6 94 100Berdasarkan tabel di atas, sekarang perhitungannya dapat dilakukan denganmengacu kepada kepada rasio yang telah dikemukakan sebelumnya. Untuk menghitungrasio recall, terlebih dahulu kita tentukan jumlah dokumen relevan yang terambil,berdasarkan data pada tabel yaitu a , sedangkan Jumlah dokumen relevan yang adadalam database adalah a + c. Dengan demikian rasio recall ( R ) tersebut dapatdinyatakan sebagai berikut :aR = ------a + c4= -------4 + 2= 0,66Selanjutnya untuk menghitung precision, hal yang sama pada penghitunganrecall diberlakukan yaitu jumlah dokumen relevan yang terambil adalah a , sedangkanJumlah dokumen yang terambil dalam pencarian adalah a + b. Dengan demikian rasioprecision ( P ) dapat dinyatakan sebagai berikut :©2003 Digitized by USU digital library 4

aPrecision = --------a + b4= -------4 + 6= 0,40Kondisi ideal dari keefektifan suatu sistem temu kembali informasi adalahapabila rasio recall dan precision sama besarnya (1 : 1 ). (Lee Pao, 1989 : 229).Selain itu, suatu sistem temu kembali dinyatakan efektif apabila hasil penelusuranmampu menunjukkan ketepatan (precision) yang tinggi sekalipun perolehannya rendah(Rowley, 1992 : 172)4. Pengindeksan dan Bahasa Indeks Dalam Sistem Temu Kembali InformasiSalah satu faktor yang berpengaruh terhadap sistem temu kembali ialahpengindeksan dokumen. Pengindeksan (indexing) mencakup proses pencatatan ciri-ciridokumen, analisis isi, klasifikasi maupun pembuatan entri ke dalam bahasa indeks.Tujuan pengindeksan ialah untuk memungkinkan ditemukannya dokumen yang relevandengan pertanyaan (query) dengan tepat.Kegiatan pengideksan akan menghasilkan indeks. Meadow (1992 : 69-70)mengemukakan bahwa indeks adalah merupakan cantuman dari bermacam-macamatribut yang diharapkan dapat digunakan sebagai dasar pencarian dokumen. Jikaatribut tersebut berupa subjek, maka indeks yang mewakilinya disebut sebagai indekssubjek. Sedangkan bila atribut tersebut berupa pengarang, maka indeks yangmewakilinya disebut sebagai indeks pengarang. Umumnya kegiatan pengindeksanadalah berupa pengindeksan subjek, namun dalam kenyataannya di perpustakaanindeks subjek dan pengarang sama-sama digunakan dalam sistem temu kembali.Indeks di perpustakaan berfungsi sebagai sarana atau kunci yang menunjukkankepada penelusur dokumen-dokumen yang potensial relevan dengan permintaannya.Sarana itu sering disebut sebagai wakil dari dokumen yang dimiliki, yaitu berupakatalog perpustakaan. Dengan demikian fungsi indeks pada database maupunperpustakaan pada prinsipnya adalah sama yaitu sebagai sarana temu kembali.Tujuan utama dari pengindeksan ialah untuk membentuk representasi daridokumen dalam bentuk yang sesuai untuk dicantuman dalam berbagai tipe database(Lancaster, 1998 : 1). Indeks sebagai representasi dari dokumen diharapkan dapatmenggambarkan isi atau subjek yang terkandung di dalam dokumen tersebut, sehinggadapat ditemukan kembali melalui istilah (index term) yang digunakan.Pada dasarnya ada dua jenis bahasa indeks yaitu bahasa alamiah (naturallanguage) dan kosa kata terkontrol (controlled vocabulary). Bahasa alamiah adalahbahasa dari dokumen yang diindeks. Biasanya bahasa tersebut merupakan bahasayang tidak terkendali (uncontrolled vocabulary). Bahasa alamiah ini umum digunakandalam komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang(Lancaster, 1986 : 159). Sedangkan kosa kata terkontrol dapat berupa indeks subjek,pengarang, judul maupun tesaurus.Ditinjau dari sisi sistem temu kembali informasi, tesaurus adalah suatu daftarpengendali (authority list) istilah-istilah khusus yang digunakan dalam sistem temukembali informasi. Akan tetapi bila ditinjau dari segi fungsinya tesaurus adalah saranapengawasan istilah yang digunakan untuk penerjemahan bahasa alamiah dokumen kebahasa yang lebih terkendali. Tesaurus berisi sejumlah istilah indeks denganmenggunakan bahasa yang terkendali, sehingga sering disebut juga dengan bahasa©2003 Digitized by USU digital library 5

terkontrol (controlled language). Tujuan utama tesaurus adalah juga untukmemudahkan temu kembali dokumen, dan untuk mencapai konsistensi dalampengindeksan dokumen pada sistem simpan dan temu kembali informasi.Dalam bahasa pengindeksan kosa kata terkontrol seperti tesaurus, istilah yangdigunakan untuk menyatakan kandungan atau isi suatau dokumen telah dibakukandalam suatu daftar indeks yang disusun secara alfabetis, misalnya Sears List ofSubject Heading, Library of Congress Subject Heading, Macro Economics Thesaurus,DDC Index, dan sebagainya. Sedangkan pengindeksan bahasa alamiah adalahpengindeksan yang dilakukan pada semua istilah baik dari judul, abstrak, maupun dariteks lengkap (full text) dokumen, terkecuali stop word atau daftar kata umum yangtidak digunakan dalam penelusuran (Rowley, 1992 : 272). Semua istilah indeks yangdihasilkan adalah bergantung kepada bahasa dokumen itu sendiri, dan semuanya itudapat merupakan representasi dari dokumen itu. Mengingat volume pengindeksandalam bahasa alamiah ini sangat besar, maka biasanya dilakukan oleh komputer.Bahasa alamiah dan kosa kata terkontrol adalah dua bahasa hasil daripengindeksan yang sama-sama dapat dipergunakan sebagai representasi dokumen.Kedua bahasa pengindeksan tersebut digunakan pada waktu pemasukan (input) datake database, dan akan digunakan juga pada waktu pencarian / penelusuran (output)informasi dari database. Yang manakah diantara keduanya yang paling baik digunakandalam pencarian / penelusuran informasi pada suatu database ?5. Bahasa Alamiah versus Kosa Kata Terkontrol Dalam Sitem Temu KembaliInformasi5.1. Keunggulan dan Kelemahan Bahasa AlamiahKeungulan maupun kelemahan bahasa alamiah dalam sistem temu kembaliinformasi sangat bervariasi dan kompleks. Banyak faktor yang mungkin dapatmempengaruhinya. Banyak keunggulan dari penggunaan bahasa alamiah dalampenelusuran informasi, beberapa diantaranya adalah :(a) Bahasa alamiah dapat dengan mudah dimengerti oleh pengguna tanpa harusmemerlukan pelatihan khusus, dan berbagai nuansa makna dapat diekspresikandengan lebih leluasa (Meadow, 1992 : 37-38). Maksudnya, dengan kekayaanperbendaharaan kosa kata, memungkinkan penelusur mengekspresikan gagasan,perasaan dan keinginannya dengan berbagai cara dan nuansa untuk mendapatkandokumen yang diinginkannya.(b) Bahasa alamiah memiliki spesifikasi (specification) yang tinggi (Lancaster, 1977 :23). Spesifikasi istilah ini muncul karena dapat menggunakan seluruh isitilah yangterdapat dalam dokumen sebagai query. Spesifikasi istilah akan memudahkanpencarian untuk mendapatkan ketepatan (precision) yang tinggi. Semakin tinggispesifikasi istilah yang digunakan dalam penelusuran, maka akan semakin tinggiketepatan (precision), sedangkan perolehan (recall) akan semakin rendah.Sebaliknya bila spesifikasi istilah rendah, maka perolehan (recall) akan semakintinggi, sedangkan ketepatan (precision) cenderung rendah. Misalnya, bila kitamenggunakan istilah “LINGUISTICS” untuk mencari dokumen yang memuat penelitiantentang logat bahasa pada suatu database, maka jumlah perolehan (recall) pastiakan tinggi, sedangkan ketepatan (precision) akan rendah, karena istilah“LINGUISTICS” adalah istilah umum dalam ilmu bahasa yang berarti spesifikasinyarendah. Akan tetapi bila kita menggunakan istilah “DIALECT”, maka jumlah perolehan(recall) akan rendah, sedangkan ketepatan (precision) tinggi, karena istilah“DIALECT” adalah isitilah khusus, yang berarti spesifikasinya tinggi.(c) Bahasa alamiah memiliki kedalaman (exhaustivity) yang tinggi (Foskett, 1985 :114). Artinya, banyak tema atau subjek baru yang dihasilkan dokumen yang dapatdijadikan sebagai istilah baru dalam penelusuran. Karena, pada prinsipnya bahwa©2003 Digitized by USU digital library 6

semua kata terkecuali stop word dapat dijafikan sebagai keyword dalampenelusuran.(d) Penelusur yang merupakan praktisi dalam bidangnya dapat melakukan penelusurandengan bahasa alamiah dengan lebih efektif.Selain memiliki sejumlah keunggulan, bahasa alamiah juga memiliki berbagaikelemahan, beberapa diantaranya adalah :(a) Bahasa alamiah tidak atau kurang ringkas ( lack of consiseness) (Meadow, 1992 :38). Query yang digunakan penelusur sering berupa kata atau istilah berbeda atautidak standar sehingga sering terjadi kehilangan informasi saat penelusuran.Misalnya, seorang penelusur ingin mendapatkan dokumen tentang Proses yangdialami seseorang untuk menjadi semakin tua. Lalu dia menggunakan query“PROSES MAKIN TUA”. Dengan query itu, mungkin penelusur tersebut akanmendapatkan perolehan (recall) yang ketepatannya (precsion) tidak ada, karenadokumen yang berisi istilah itu tidak ada. Akan tetapi bila penelusur itumenggunakan istilah indeks subjek “PENUAAN” sebagai query, mungkin akan diaperoleh (recall) sejumlah dokumen yang ketepatannya (precision) sangat tinggi,yang berarti sangat sesuai dengan yang diinginkannya. Kesalahan yang terjadisebenarnya terletak pada penyusunan atau pemilihan istilah yang tepat sebagaiquery.(b) Mempunyai ambiguitas (ambiguity) yang tinggi. (Meadaw, 1992 : 37). Muddamalle(1998 : 881) menyebut bahwa …”natural language is full of ambiguities”.Ambiguitas adalah kata atau istilah yang dapat memiliki lebih dari satu arti sehinggamengakibatkan kerancuan. Ambiguitas dapat terjadi karena sinomim atau homograf.Sinonim yaitu bentuk kata yang berbeda tetapi artinya sama, dapat menyebabkanterpencarnya informasi mengenai topik yang sama. Misalnya, kata sado, dokar,delman. Homograf yaitu kata-kata yang ejaannya sama tetapi maknanya berbeda,misalnya raut artinya meruncingkan, menghaluskan, tetapi raut dapat juga artinyatampang, potongan. Sinonim dan homograf dapat mengakibatkan false drops yaituterjaringnya dokumen yang sama sekali tidak relevan, atau subjek yang tidakrelevan ikut terjaring atau terambil dalam proses temu kembali.(c) Kesulitan komputer untuk menginterpretasikan teks (Meadaw, 1992 : 37).Kelemahan ini terjadi karena ketidak mampuan sistem menyerap atau menangkapmakna dari suatu pernyataan. Hal ini terjadi karena dalam memroses bahasa alami,komputer tidak bisa bekerja sebagaimana otak manusia, terkecuali komputertersebut dilengkapi dengan suatu knowledge base. Misalnya, seseorang inginmencari dokumen tentang “Perpustakaan Sekolah” pada suatu database, maka iaakan menggunakan query Perpustakaan AND Sekolah, akan tetapi dalam pencariandokumen tentang “Sekolah Perpustakaan”, juga akan terjaring atau terambil,padahal konsep “Perpustakaan Sekolah” dengan “Sekolah Perpustakaan” mempunyaimakna yang berbeda. Dalam keadaan ini juga terjadi false drops.5.2. Keunggulan dan Kelemahan Kosa Kata TerkontrolBanyak keunggulan dari penggunaan kosa kata terkontrol (controlledvocabulary) dalam sistem temu kembali informasi, beberapa diantarnya adalah :(a) Proses penelusuran dan temu kembali informasi lebih efisien (Korfhage, 1997 : 24).Artinya, dengan menggunakan kosa kata terkontrol seperti indeks subjek atautesaurus dalam penelusuran, maka ketepatan dari dokumen yang terambil dengankebutuhan pengguna dapat diperoleh dalam waktu yang relatip singkat.©2003 Digitized by USU digital library 7

(b) Mempunyai representasi dokumen yang konsisten. Kosa kata atau istilah yangdigunakan dalam pengindeksan dokumen pada saat input sistem adalah kosa katayang terkontrol dan standar. Oleh karena itu, bila kosa kata atau istilah tersebutkemudian dijadikan sebagai query untuk pencarian atau penelusuran, maka sudahpasti akan tetap mewakili atau merepresentasikan dokumen yang sama seperti padasaat input sistem dilakukan. Misalnya, pada input sistemdokumen Adirepresentasikan oleh kosa kata atau indeks subjek “MICROBIOLOGY ”, pada waktupencarian, seorang penelusur menggunakan “MICROBIOLOGY” sebagai query-nya,maka penelusur tersebut pasti akan menemukan dokumen A karena representasidokumennya tetap konsisten. Dengan demikian selalu terjadi kesamaan penggunaanistilah diantara pengindeks (indexer) dengan penelusur (searcher)(c) Memudahkan penelusuran komprehensif dengan menyatukan istilah terkait secarasemantis (Lancaster, 1977, 2). Maksudnya, ada kalanya suatu kosa kata atauindeks subjek tertentu mempunyai hubungan makna dengan indeks yang lain,sehingga dapat digunakan untuk memperkuat pencarian. Misalnya untuk mencaridokumen tentang “pengebalan tubuh manusia terhadap penyakit”, maka kosa kataatau indeks subjek yang dapat dijadikan sebaga query ialah “IMMUNIZATION”, akantetapi untuk menguatkan pencarian penelusur juga dapat menggunakan kosa katalain seperti “VACCINATION”, karena kedua kosa kata di atas adalah terkait secarasemantis.(d) Memiliki ambiguity yang sangat kecil. Ambiguitas atau kerancuan dapat diminimizedengan sekecil mungkin karena kosa kata dapat mengontrol sinonim dan homograf.Selain keunggulan, penggunaan kosa kata terkontrol (controlled vocabulary)pada sistem temu kembali juga mempunyai banyak kelemahan, sebagian diantaranyaadalah :(a) Kosa kata terkontrol harus selalu diperbaharui. Perkembangan ilmu dan teknologimenyebabkan munculnya berbagai subjek baru yang sekaligus juga berdampakterhadap pemunculan atau penghilangan suatu istilah atau kosa kata. Oleh karenaitu, suatu tajuk subjek atau tesaurus pada suatu periode tertentu harusdiperbaharui untuk bisa menyesuaikan diri sesuai perkembangan (Muddamalle, 1998: 881). Misalnya, bila kita menelusur dengan istilah atau kosa kata “CANCER”sebagai query pada indeks DDC edisi ke 19, maka kita akan dirujuk dengan kata see“TUMORS”. Sekalipun keduanya semantis, namun terdapat perbedaan. Ini terjadikarena pada indeks DDC edisi ke 19 subjek CANCER belum dijabarkan secara lengkapkarena mungkin pada masa itu istilah cancer masih belum populer. Akan tetapi biladitelusur pada indeks DDC edisi ke 20 dan 21, istilah tersebut telah dijabarkansecara rinci. Hal itu menunjukkan bahwa indeks DDC tersebut diperbaharui secaraberkala.(b) Kosa kata terkontrol (controlled vocabulary) sering dihadapkan kepadaketidakcocokan (incompatibility) istilah diantara satu database dengan databaseyang lainnya pada bidang ilmu yang sama (Lancaster, 1986 : 159). Misalnya, CABCD-ROM dan Agricola CD-ROM adalah dua database yang memuat indeks danabstrak penelitian pada bidang ilmu yang sama yaitu Pertanian. Akan tetapi adakalanya beberapa kosa kata atau istilah yang digunakan untuk indeks subjek padakedua database tersebut berbeda. Hal ini tentunya bisa menyulitkan penelusur bilamelakukan penelusuran pada kedua database tersebut.(c) Kurangnya spesifikasi dalam kosa kata. Berbeda dengan bahasa alamiah, dimanapenelusur dapat menggunakan secara bebas kosa kata yang spesifik. Akan tetapipada kosa kata terkontroll, spesifikasi istilah ditentukan oleh ketersediaannya padaindeks subjek atau tesaurus.(d) Kosa kata terkontrol memiliki struktur yang tidak lengkap. Artinya rincian subjekadalah sangat terbatas untuk pencarian atau penelusuran komprehensif.©2003 Digitized by USU digital library 8

(e) Kosa kata terkontrol memerlukan biaya dan upaya yang besar pada waktu inputsistem yaitu pada saat pengindeksan dilakukan. (Lancaster, 177 : 7).5.3. Pendekatan penelusuran yang ideal.Dengan menguraikan sejumlah keunggulan dan kelemahan dalam melakukanpenelusuran menggunakan pendekatan bahasa alamiah (natural language) dan kosakata terkontrol (controlled vocabulary) sebagai mana dijelaskan di atas, maka muculpertanyaan, “pendekatan manakah yang ideal dilakukan dalam melakukan penelusurandalam sistem temu kembali informasi ?“Untuk menjawab pertanyaan tersebut, Manikya Rao Muddamalle (1998 : 881-887) melalui penelitiannya yang berjudul “Natural Language versus ControlledVocabulary in Information Retrieval: a Case Study in Soil Mechanics”, menyatakanbahwa temu kembali bahasa alamiah dan kosa kata terkontrol menunjukkan hasil yangsangat efektif, dengan perbedaan atau dengan batasan yang sangat tipis, hasilnyatidak jauh berbeda. Untuk mencapai temu kembali yang optimum, suatu teknik temukembali dengan kombinasi bahasa alamiah dan kosa kata terkontrol dapat diadopsi.Teknik penelusuran secara kombinasi ini telah diuji, dan ditemukan hasil bahwaterdapat penambahan 5 % hasil temu kembali melebihi atau lebih tinggi dari pada hasiltemu kembali secara terpisah. Oleh karena itu, alternatif bahasa alamiah ataukosakata terkontrol tidak perlu diperlakukan lebih lama sebagai teknik terpisah, akantetapi lebih baik diperlakukan bersama sebagai suatu teknik kombinasi yang ideal.6. KesimpulanBahasa atau kosa kata (vocabulary) memegang peranan yang sangat pentingdalam efektifitas dan efisiensi penelusuran pada suatu sistem temu kembali informasiPendekatan bahasa alamiah dan kosa kata terkontrol dalam sistem temu kembaliinformasi berbasis teks sama-sama memiliki keunggulan dan kelemahan. Keduapendekatan tersebut tetap masih efektif untuk digunakan. Akan tetapi teknik temukembali dengan menggunakan kombinasi dari bahasa alamiah dan kosa kata terkontroladalah bentuk pendekatan yang ideal digunakan dalam temu kembali informasi. Dengandemikian penelusuran menggunakan bahasa alamiah atau natural language dan kosakata terkontrol atau controlled vocabulary ternyata saling melengkapiReferensiDimitroff, Alexandra. “Affective Response and Retrieval Performance: Analysis ofContributing Factors”. Library and Information Science Research. 18,1995 : 121- 132.Frants, Valery I. Automated Information Retrieval: Theory and Methods, AcademicPress, New York, 1997.©2003 Digitized by USU digital library 9

Hasibuan, Zainal A. “Kajian Sistem Temu-Kembali Informasi: Pergeseran Paradigma dariOrientasi Teknologi ke Orientasi Pemakai”. Prosiding Seminar Sehari LayananPusdokinfo Berorientasi Pemakai di Era Informasi. Depok, 16 Maret 1996.Hasibuan, Zainal A.”Pendekatan Struktur Dokumen Dalam Sistem Temu-KembaliInformasi”. Kursus Penyegaran dan Penambah Ilmu Perpustakaan Dokumentasi,dan Informasi (KPP Pusdokinfo VI) di Universitas Indonesia. Depok, 13-17Oktober 1997Hildreth, Charles R. “The Use and Understanding of Keyword Searching in a UniversityOnline Catalog”. Information Technology and Libraries. 1, June 1997 :52-62Korfhage, Robert R. Information Storage and Retrieval, John Wiley & Sons, New York,1997.Lancaster, F.W. Indexing and Abstracting in Theory and Practise, Library AssociationPublishing, London, 1998.Lancaster, F.W. Vocabulary Control in Information Retrieval System: in AdvancesLibrarianship, Academic Press, New York, 1977Lancaster, F.W. Vocabulary Control for Information Retrieval, Information ResourcesPress, Arlington, Virginia, 1986.McJunkin, Monika Cahill. “Precision and Recall in Title Keyword Searches”. InformationTechnology and Libraries, 14 (3), 1995 : 161-171.McQuire, April R. ; Eastman, Caroline M. “The Ambiguity of Negation in NaturalLanguage Queries to Information Retrieval Systems”. Journal of The AmericanSociety for Information Science, 49 (8), 1998 : 686-692.Meadow, Charles T. Text Information Retrieval Systems, Academic Press, New York,1997.Muddamalle, Manikya Rao. “Natural Language versus Controlled Vocabulary inInformation Retrieval: a Case Studi in Soil Mechanics”. Journal of The AmericanSociety for Information Science, 49 (10), 1998 : 881-887.Pao, Miranda Lee. Concepts of Information Retrieval. Libraries Unlimited, Englewood,Colorado, 1989.Rowlands, Ian [editor]. Text Retrieval: an Introduction, Taylor Graham, London, 1986.©2003 Digitized by USU digital library 10

©2003 Digitized by USU digital library 1 PENGGUNAAN BAHASA ...

Create successful ePaper yourself

Delete template?

Save as template?