12.07.2015 Views

Support Vector Machine - Anto Satriyo Nugroho

Support Vector Machine - Anto Satriyo Nugroho

Support Vector Machine - Anto Satriyo Nugroho

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.Com<strong>Support</strong> <strong>Vector</strong> <strong>Machine</strong>–Teori dan Aplikasinya dalam Bioinformatika 1 –<strong>Anto</strong> <strong>Satriyo</strong> <strong>Nugroho</strong>, Arief Budi Witarto, Dwi Handokoasnugroho@ieee.orghttp://asnugroho.netLisensi Dokumen:Copyright © 2003 IlmuKomputer.ComSeluruh dokumen di IlmuKomputer.Com dapat digunakan, dimodifikasi dan disebarkan secarabebas untuk tujuan bukan komersial (nonprofit), dengan syarat tidak menghapus atau merubahatribut penulis dan pernyataan copyright yang disertakan dalam setiap dokumen. Tidakdiperbolehkan melakukan penulisan ulang, kecuali mendapatkan ijin terlebih dahulu dariIlmuKomputer.Com.Abstrak:<strong>Support</strong> <strong>Vector</strong> <strong>Machine</strong> (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai rangkaianharmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu metode pattern recognition,usia SVM terbilang masih relatif muda. Walaupun demikian, evaluasi kemampuannya dalam berbagai aplikasinyamenempatkannya sebagai state of the art dalam pattern recognition, dan dewasa ini merupakan salah satu tema yangberkembang dengan pesat. SVM adalah metode learning machine yang bekerja atas prinsip Structural RiskMinimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada inputspace. Tulisan ini membahas teori dasar SVM dan aplikasinya dalam bioinformatika, khususnya pada analisaekspresi gen yang diperoleh dari analisa microarray.Keywords: pattern recognition, support vector machine, bioinformatika1. PENDAHULUANPattern Recognition merupakan salah satubidang dalam komputer sains, yang memetakansuatu data ke dalam konsep tertentu yang telahdidefinisikan sebelumnya. Konsep tertentu inidisebut class atau category. Aplikasi patternrecognition sangat luas, di antaranya mengenalisuara dalam sistem sekuriti, membaca hurufdalam OCR, mengklasifikasikan penyakit secaraotomatis berdasarkan hasil diagnosa kondisimedis pasien dan sebagainya. Berbagai metodedikenal dalam pattern recognition, seperti linear1 Bahan dalam makalah ini sebagian besar berasal dari makalah : <strong>Nugroho</strong>, A.S., Witarto, A.B., Handoko, D.,"Application of <strong>Support</strong> <strong>Vector</strong> <strong>Machine</strong> in Bioinformatics", Proceeding of Indonesian Scientific Meeting in CentralJapan, December 20, 2003, Gifu-Japan


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.ComDiscrimination boundariesMarginClass −1 Class +1Class −1 Class +1(a)(b)Gambar 1– SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class –1 dan +1discrimination analysis, hidden markov modelhingga metode kecerdasan buatan sepertiartificial neural network. Salah satu metodeyang akhir-akhir ini banyak mendapat perhatiansebagai state of the art dalam patternrecognition adalah <strong>Support</strong> <strong>Vector</strong> <strong>Machine</strong>(SVM) [1] [2]. <strong>Support</strong> <strong>Vector</strong> <strong>Machine</strong> (SVM)dikembangkan oleh Boser, Guyon, Vapnik,dan pertama kali dipresentasikan pada tahun1992 di Annual Workshop on ComputationalLearning Theory. Konsep dasar SVMsebenarnya merupakan kombinasi harmonis dariteori-teori komputasi yang telah ada puluhantahun sebelumnya, seperti margin hyperplane(Duda & Hart tahun 1973, Cover tahun 1965,Vapnik 1964, dsb.), kernel diperkenalkan olehAronszajn tahun 1950, dan demikian jugadengan konsep-konsep pendukung yang lain.Akan tetapi hingga tahun 1992, belum pernahada upaya merangkaikan komponen-komponentersebut [3][4].Berbeda dengan strategi neural network yangberusaha mencari hyperplane pemisah antarclass, SVM berusaha menemukan hyperplaneyang terbaik pada input space. Prinsip dasarSVM adalah linear classifier, dan selanjutnyadikembangkan agar dapat bekerja pada problemnon-linear. dengan memasukkan konsep kerneltrick pada ruang kerja berdimensi tinggi.Perkembangan ini memberikan rangsanganminat penelitian di bidang pattern recognitionuntuk investigasi potensi kemampuan SVMsecara teoritis maupun dari segi aplikasi.Dewasa ini SVM telah berhasil diaplikasikandalam problema dunia nyata (real-worldproblems), dan secara umum memberikan solusiyang lebih baik dibandingkan metodekonvensional seperti misalnya artificial neuralnetwork. Tulisan ini memperkenalkan konsepdasar SVM, dan membahas aplikasinya dibioinformatika, yang akhir-akhir ini merupakansalah satu bidang yang berkembang cukup pesat.2. PATTERN RECOGNITION MEMAKAISUPPORT VECTOR MACHINEKonsep SVM dapat dijelaskan secara sederhanasebagai usaha mencari hyperplane 2 terbaik yangberfungsi sebagai pemisah dua buah class padainput space. Gambar 1a memperlihatkanbeberapa pattern yang merupakan anggota daridua buah class : +1 dan –1. Pattern yangtergabung pada class –1 disimbolkan denganwarna merah (kotak), sedangkan pattern padaclass +1, disimbolkan dengan warnakuning(lingkaran). Problem klasifikasi dapatditerjemahkan dengan usaha menemukan garis(hyperplane) yang memisahkan antara kedua2 hyperplane dalam ruang vector berdimensi d adalahaffine subspace berdimensi d-1 yang membagi ruangvector tersebut ke dalam dua bagian, yangmasing-masing berkorespondensi pada class yangberbeda [4]


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.Comkelompok tersebut. Berbagai alternatif garispemisah (discrimination boundaries)ditunjukkan pada gambar 1-a.Hyperplane pemisah terbaik antarakedua class dapat ditemukan dengan mengukurmargin hyperplane tsb. dan mencari titikmaksimalnya. Margin adalah jarak antarahyperplane tersebut dengan pattern terdekat darimasing-masing class. Pattern yang paling dekatini disebut sebagai support vector. Garis solidpada gambar 1-b menunjukkan hyperplane yangterbaik, yaitu yang terletak tepat padatengah-tengah kedua class, sedangkan titikmerah dan kuning yang berada dalam lingkaranhitam adalah support vector. Usaha untukmencari lokasi hyperplane ini merupakan intidari proses pembelajaran pada SVM.Data yang tersedia dinotasikan sebagairxi∈ Rdsedangkan label masing-masingy untuk i = 1,2,L,l ,dinotasikan ∈{ −1 , + 1}iyang mana l adalah banyaknya data.Diasumsikan kedua class –1 dan +1 dapatterpisah secara sempurna oleh hyperplaneberdimensi d , yang didefinisikanw r . xr + b = 0(1)Pattern x r iyang termasuk class –1 (sampelnegatif) dapat dirumuskan sebagai pattern yangmemenuhi pertidaksamaanr. xr + b ≤ −1(2)w isedangkan pattern x r iyang termasuk class +1(sampel positif)r. xr + b ≥ +1w i(3)Margin terbesar dapat ditemukan denganmemaksimalkan nilai jarak antara hyperplanedan titik terdekatnya, yaitu 1 / w r . Hal ini dapatdirumuskan sebagai Quadratic Programming(QP) problem, yaitu mencari titik minimalpersamaan (4), dengan memperhatikanconstraint persamaan (5).1 r 2min r τ ( w)= w(4)w 2r ry ( x . w + b)−1≥ 0,∀i(5)iiProblem ini dapat dipecahkan dengan berbagaiteknik komputasi, di antaranya LagrangeMultiplier.rL(w,b,α)=12rw2−l∑i=1r rα ( y (( x . w + b)−1))ii( i = 1,2, L,l)(6)αiadalah Lagrange multipliers, yang bernilainol atau positif ( α ≥ 0). Nilai optimal dariipersamaan (6) dapat dihitung denganmeminimalkan L terhadap w r dan b , danmemaksimalkan L terhadap αi. Denganmemperhatikan sifat bahwa pada titik optimalgradient L =0, persamaan (6) dapat dimodifikasisebagai maksimalisasi problem yang hanyamengandung saja α , sebagaimana persamaan(7) di bawah.Maximize:il∑ −lrαi ∑α iαjyiyjxi.xji=1 2 i,j=1(7)Subject to:∑αi≥ 0 ( i = 1,2, L,l)α iy i= 0 (8)li=1Dari hasil dari perhitungan ini diperolehαiyang kebanyakan bernilai positif. Data yangberkorelasi dengan αiyang positif inilah yangdisebut sebagai support vector.3. SOFT MARGINPenjelasan di atas berdasarkan asumsi bahwakedua belah class dapat terpisah secarasempurna oleh hyperplane. Akan tetapi,i


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.Comumumnya dua buah class pada input space tidakdapat terpisah secara sempurna. Hal inimenyebabkan constraint pada persamaan (5)tidak dapat terpenuhi, sehingga optimisasi tidakdapat dilakukan. Untuk mengatasi masalah ini,SVM dirumuskan ulang denganmemperkenalkan teknik softmargin. Dalamsoftmargin, persamaan (5) dimodifikasi denganmemasukkan slack variabelr ry ( x . w + b)≥ 1−ξ ,iiξ ( ξ > 0)sbb.iii∀i(9)Dengan demikian persamaan (4) diubahmenjadi :lr 1 r 2min r τ ( w,ξ ) = w + C∑ξi(10)w2i=1Paramater C dipilih untuk mengontrol tradeoffantara margin dan error klasifikasi ξ . Nilai Cyang besar berarti akan memberikan penaltiyang lebih besar terhadap error klasifikasi tsb.4. KERNEL TRICK DAN NON LINEARCLASSIFICATION PADA SVMPada umumnya masalah dalam domain dunianyata (real world problem) jarang yang bersifatlinear separable. Kebanyakan bersifat non linear.Untuk menyelesaikan problem non linear, SVMdimodifikasi dengan memasukkan fungsiKernel.Dalam non linear SVM, pertama-tamadata x r dipetakan oleh fungsi Φ(x r ) ke ruangvektor yang berdimensi lebih tinggi. Pada ruangvektor yang baru ini, hyperplane yangmemisahkan kedua class tersebut dapatdikonstruksikan. Hal ini sejalan dengan teoriCover yang menyatakan“Jika suatutransformasi bersifat non linear dan dimensidari feature space cukup tinggi, maka data padainput space dapat dipetakan ke feature spaceyang baru, dimana pattern-pattern tersebutpada probabilitas tinggi dapat dipisahkansecara linear”.Ilustrasi dari konsep ini dapat dilihatpada gambar 2. Pada gambar 2a diperlihatkandata pada class kuning dan data pada classmerah yang berada pada input space berdimensidua tidak dapat dipisahkan secara linear.Selanjutnya gambar 2b menunjukkan bahwafungsi Φ memetakan tiap data pada inputspace tersebut ke ruang vektor baru yangberdimensi lebih tinggi (dimensi 3), dimanakedua class dapat dipisahkan secara linear olehsebuah hyperplane. Notasi matematika darimapping ini adalah sbb.d qΦ : R → R d < q (11)HyperplaneInput SpaceXHigh-dimensional Feature SpaceΦ(X )Gambar 2– Fungsi Φ memetakan data ke ruang vektor yang berdimensi lebih tinggi, sehingga keduaclass dapat dipisahkan secara linear oleh sebuah hyperplane


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.ComTabel 1- Kernel yang umum dipakai dalam SVMJenis KernelDefinisir r r r pPolynomial K ( xi, xj)= ( xi.xj+ 1)r r 2Gaussian r r xi− xjK( xi, xj)= exp( − )22σr r r rSigmoid K( x , x ) tanh( α x . x + β )ij=i jPemetaan ini dilakukan dengan menjagatopologi data, dalam artian dua data yangberjarak dekat pada input space akan berjarakdekat juga pada feature space, sebaliknya duadata yang berjarak jauh pada input space akanjuga berjarak jauh pada feature space.Selanjutnya proses pembelajaran pada SVMdalam menemukan titik-titik support vector,hanya bergantung pada dot product dari datayang sudah ditransformasikan pada ruang baruyang berdimensi lebih tinggi, yaitur rΦ x i). Φ(x ) .(jKarena umumnya transformasi Φ ini tidakdiketahui, dan sangat sulit untuk difahamisecara mudah, maka perhitungan dot producttersebut sesuai teori Mercer dapat digantikanr rdengan fungsi kernel K x i, x ) yang(jmendefinisikan secara implisit transformasi Φ .Hal ini disebut sebagai Kernel Trick,yang dirumuskanr r r rK x , x ) = Φ(x ). Φ(x ) (12)(i ji jKernel trick memberikan berbagai kemudahan,karena dalam proses pembelajaran SVM, untukmenentukan support vector, kita hanya cukupmengetahui fungsi kernel yang dipakai, dantidak perlu mengetahui wujud dari fungsi nonlinear Φ . Berbagai jenis fungsi kernel dikenal,sebagaimana dirangkumkan pada tabel 1.Selanjutnya hasil klasifikasi dari data x rdiperoleh dari persamaan berikut :r r rf ( Φ ( x))= w.Φ(x)+ b=n∑iri=1, xi∈SV(13)r rα y Φ(x).Φ(x ) + b (14)ii=n∑iri=1, xi∈SVr rα y K ( x,x ) + b (15)SV pada persamaan di atas dimaksudkandengan subset dari training set yang terpilihsebagai support vector, dengan kata laindata x r iyang berkorespondensi pada αi≥ 0 .5. METODE SEKUENSIALHyperplane yang optimal dalam SVM dapatditemukan dengan merumuskannya ke dalam QPproblem dan diselesaikan dengan library yangbanyak tersedia dalam analisa numerik.Alternatif lain yang cukup sederhana adalahmetode sekuensial yang dikembangkan olehVijayakumar [5], sbb.1. Initialization α = 0ii2Hitung matriks D y y ( K(x , x ) + λ )ij=i j i j2. Lakukan step (a), (b) dan (c) dibawah untuk(a)i = 1,2,L,ll∑E i= α Dj=1jij(b) δα = min { max[ γ (1 − E ), −α],C −α}(c)iα = α + δαiii3. Kembali ke step 2 sampai nilai α mencapaikonvergenPada algoritma di atas, γ adalah parameteruntuk mengkontrol kecepatan proses learning.Konvergensi dapat didefinisikan dari tingkatperubahan nilai α .iiii


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.Com6. KARAKTERISTIK SVMKarakteristik SVM sebagaimana telah dijelaskanpada bagian sebelumnya, dirangkumkan sebagaiberikut:1. Secara prinsip SVM adalah linear classifier2. Pattern recognition dilakukan denganmentransformasikan data pada input spaceke ruang yang berdimensi lebih tinggi, danoptimisasi dilakukan pada ruang vector yangbaru tersebut. Hal ini membedakan SVMdari solusi pattern recognition padaumumnya, yang melakukan optimisasiparameter pada ruang hasil transformasiyang berdimensi lebih rendah daripadadimensi input space.3. Menerapkan strategi Structural RiskMinimization (SRM)4. Prinsip kerja SVM pada dasarnya hanyamampu menangani klasifikasi dua class.7. KELEBIHAN DAN KEKURANGAN SVMDalam memilih solusi untuk menyelesaikansuatu masalah, kelebihan dan kelemahanmasing-masing metode harus diperhatikan.Selanjutnya metode yang tepat dipilih denganmemperhatikan karakteristik data yang diolah.Dalam hal SVM, walaupun berbagai studi telahmenunjukkan kelebihan metode SVMdibandingkan metode konvensional lain, SVMjuga memiliki berbagai kelemahan. KelebihanSVM antara lain sbb.1. GeneralisasiGeneralisasi didefinisikan sebagaikemampuan suatu metode (SVM, neuralnetwork, dsb.) untuk mengklasifikasikansuatu pattern, yang tidak termasuk data yangdipakai dalam fase pembelajaran metode itu.Vapnik menjelaskan bahwa generalizationerror dipengaruhi oleh dua faktor: errorterhadap training set, dan satu faktor lagiyang dipengaruhi oleh dimensi VC(Vapnik-Chervokinensis). Strategipembelajaran pada neural network danumumnya metode learning machinedifokuskan pada usaha untukmeminimimalkan error pada training-set.Strategi ini disebut Empirical RiskMinimization (ERM). Adapun SVM selainmeminimalkan error pada training-set, jugameminimalkan faktor kedua. Strategi inidisebut Structural Risk Minimization (SRM),dan dalam SVM diwujudkan denganmemilih hyperplane dengan margin terbesar.Berbagai studi empiris menunjukkan bahwapendekatan SRM pada SVM memberikanerror generalisasi yang lebih kecil daripadayang diperoleh dari strategi ERM padaneural network maupun metode yang lain.2. Curse of dimensionalityCurse of dimensionality didefinisikansebagai masalah yang dihadapi suatumetode pattern recognition dalammengestimasikan parameter (misalnyajumlah hidden neuron pada neural network,stopping criteria dalam proses pembelajarandsb.) dikarenakan jumlah sampel data yangrelatif sedikit dibandingkan dimensionalruang vektor data tersebut. Semakin tinggidimensi dari ruang vektor informasi yangdiolah, membawa konsekuensidibutuhkannya jumlah data dalam prosespembelajaran. Pada kenyataannya seringkaliterjadi, data yang diolah berjumlah terbatas,dan untuk mengumpulkan data yang lebihbanyak tidak mungkin dilakukan karenakendala biaya dan kesulitan teknis. Dalamkondisi tersebut, jika metode itu “terpaksa”harus bekerja pada data yang berjumlahrelatif sedikit dibandingkan dimensinya,akan membuat proses estimasi parametermetode menjadi sangat sulit.Curse of dimensionality sering dialamidalam aplikasi di bidang biomedicalengineering, karena biasanya data biologiyang tersedia sangat terbatas, danpenyediaannya memerlukan biaya tinggi.Vapnik membuktikan bahwa tingkatgeneralisasi yang diperoleh oleh SVM tidakdipengaruhi oleh dimensi dari input vector[3]. Hal ini merupakan alasan mengapaSVM merupakan salah satu metode yangtepat dipakai untuk memecahkan masalahberdimensi tinggi, dalam keterbatasansampel data yang ada.3. Landasan teoriSebagai metode yang berbasis statistik,SVM memiliki landasan teori yang dapatdianalisa dengan jelas, dan tidak bersifat


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.Comblack box.4. FeasibilitySVM dapat diimplementasikan relatifmudah, karena proses penentuan supportvector dapat dirumuskan dalam QP problem.Dengan demikian jika kita memiliki libraryuntuk menyelesaikan QP problem, dengansendirinya SVM dapat diimplementasikandengan mudah. Selain itu dapat diselesaikandengan metode sekuensial sebagaimanapenjelasan sebelumnya.Disamping kelebihannya, SVM memilikikelemahan atau keterbatasan, antara lain:1. Sulit dipakai dalam problem berskala besar.Skala besar dalam hal ini dimaksudkandengan jumlah sample yang diolah.2. SVM secara teoritik dikembangkan untukproblem klasifikasi dengan dua class.Dewasa ini SVM telah dimodifikasi agardapat menyelesaikan masalah dengan classlebih dari dua, antara lain strategi Oneversus rest dan strategi Tree Structure.Namun demikian, masing-masing strategiini memiliki kelemahan, sehingga dapatdikatakan penelitian dan pengembanganSVM pada multiclass-problem masihmerupakan tema penelitian yang masihterbuka.8. APLIKASI SVM DALAMBIOINFORMATIKAPada paruh pertama tulisan ini, diskusidifokuskan pada dasar-dasar teori metode<strong>Support</strong> <strong>Vector</strong> <strong>Machine</strong> sebagai salah satu topikmenarik yang tengah hangat dibicarakan dalamdunia komputer sains. Sebagaimana lazimnyaperkembangan suatu teori, pertanyaanberikutnya adalah bagaimana teori tersebutdiaplikasikan pada dunia nyata ? Apakah metodeyang bagus secara teoritis itu mampudiaplikasikan untuk menyelesaikan suatumasalah nyata, ataukah teori tersebut hanyaberhenti pada ujicoba dengan toy problems ?Dalam hal ini Vapnik memberikan ungkapanmenarik yang perlu digarisbawahi : “Nothing ismore practical than a good theory” [3]. Faktayang membuktikan pernyataan Vapnik tersebutadalah semakin luasnya penelitian yangmembuktikan kehandalan SVM dari sudut teorimaupun aplikasi, dimana salah satu aplikasinyaadalah dalam bidang bioinformatika.Bioinformatika adalah suatu disiplinyang mengawinkan teknologi informasi danteknologi biologi, untuk menjawabpermasalahan kompleks dalam bidang biologi.Bioinformatika berkembang dari kebutuhanmanusia untuk menganalisa data yang dewasaini kuantitasnya makin meningkat. Akselerasidari ketersediaan data biologi ini tidak terlepasdari peranan kerjasama harmonis teknologiinformasi dan kemajuan di bidang bioteknologi.Sebagai contoh, pembacaan sekuen genommanusia oleh Celera Genomics dapatdiselesaikan dalam waktu singkat, dibandingkanusaha konsorsium lembaga riset publik AS,Europa, dsb. [5]. Dengan melimpahnya databiologi tersebut, akan timbul pertanyaan :bagaimana kita memperoleh manfaat dari dataini ?Rutherford D. Roger memberikanungkapan menarik: “We are drowning ininformation, but starving for knowledge”.Ungkapan ini sejalan dengan situasi terkini didunia bioteknologi. Melimpahnya ketersediaandata harus diikuti dengan tahapan mengekstrakinformasi dari data tersebut. Selanjutnyainformasi ini diolah agar dapat ditarikpengetahuan (knowledge) yang bermanfaat bagimasyarakat dan kemanusiaan. Misalnya dalambidang klinis, pengetahuan yang diperolehtersebut dipakai untuk mendesain obat atauterapi medis yang sesuai dengan kebutuhan sangpasien (tailor made medicine), untuk identifikasiagen penyakit baru, untuk diagnosa penyakitbaru [6].Untuk mewujudkan proses transformasidata-informasi-knowledge ini, teknologiinformasi memiliki peranan penting. Hal initerlihat dari banyaknya paper yang membahasaplikasi metode komputasi untuk menganalisadata biologi seperti statistical pattern recognition,artificial neural network, SVM, dsb.[8] Tiapmetode memiliki sisi kelebihan dan kekurangan,dan metode yang tepat harus dipilih denganmemperhatikan karakteristik problem biologitersebut.Berbagai penelitian dilakukan untukmengevaluasi potensi SVM dalam analisa databiologi, antara lain:


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.Com1. Analisa ekspresi gen [9]2. Deteksi homologi protein [4]3. Prediksi struktur protein [10]Makalah ini mengambil contoh bahasanaplikasi SVM pada masalah pertama, yaituanalisa data ekspresi gen, karena kesesuaiannyadengan kemampuan SVM dalam mengolahinformasi berdimensi tinggi. Data biologi yangdiolah dan dianalisa oleh SVM diperoleh darieksperimen microarray yang memungkinkanpengamatan ekspresi ribuan gen sekaligus,misalnya pada sel yang diambil dari penderitapenyakit kanker. Pemanfaatan microarraymembuka kemungkinan untuk mengetahuikuantitas maupun kualitas transkripsi satu gen,sehingga dapat diidentifikasikan : gen-gen apasaja yang aktif terhadap perlakuan tertentu,misalnya timbulnya kanker. Informasi inimerupakan pertimbangan penting bagi ahlimedis untuk mengetahui mekanisme timbulnyapenyakit, dan menentukan terapi mana yangpaling tepat bagi si pasien.Proses dalam analisa micorarray secarasederhana dapat diuraikan sebagai berikut.Pertama-tama mRNA yang disolasi dari sampeldikembalikan dulu dalam bentuk DNAmenggunakan reaksi reverse transcription.Selanjutnya melalui proses hibridisasi, hanyaDNA yang komplementer saja yang akanberikatan dengan DNA di atas chip. DNA yangtelah diberi label warna berbeda ini akanmenunjukkan pattern yang unik. Denganmemanfaatkan teknologi pengolahan citra(image processing), pattern ini selanjutnyaditransfer ke dalam ekspresi numerik untukdiolah dengan berbagai metode patternrecognition (dalam hal ini SVM).Dalam studi analisa ekspresi gen, adatiga hal yang merupakan bahasan menarik darisudut pattern recognition [11]:1. Mungkinkah dengan data ekspresi gen darimicroarray, kita memprediksi suatu class,misalnya apakah seorang pasien tersebutterkena kanker atau tidak, atau menentukanstatus mutasi p53 pasien, dsb.2. Kalau hal tersebut memungkinkan untukdilaksanakan, berapakah tingkat akurasiyang mungkin dicapai ?3. Bagaimana menentukan kandidat gen yangmemiliki potensi kedokteran/farmasi ?Bahasan dalam makalah ini dibatasi padatema pertama, dengan mengevaluasi performaSVM dalam klasifikasikan ekspresi gen.Temaini tergolong tema pattern recognition yangsangat sulit, karena memiliki karakteristik1. Data observasi berdimensi tinggi : manusiamemiliki sekitar 31 ribu jenis gen, sehinggasetiap pengukuran memberikan satu titikpada ruang vektor berdimensi sekitar 31ribu2. Noisy3. Unbalanced, dalam artian sampel classpositif seringkali tersedia dalam jumlahyang jauh lebih sedikit daripada sampelclass negatif.Karakteristik ini menjadi latar belakangmengapa SVM mendapat perhatian besar darikalangan bioinformatika. Potensi SVMsebagaimana diuraikan pada halaman yangterdahulu memberikan harapan untuk dapatmenyelesaikan problem dengan karakteristiktersebut. Salah satu paper yang membahasaplikasi SVM dalam analisa data ekspresi genadalah sebagaimana yang dilakukan oleh groupTerrence S. Furey.9. RISET GROUP TERRENCE S. FUREY :ANALISA EKSPRESI GEN MEMAKAISVMSalah penelitian bioinformatika mengenaiaplikasi SVM dalam analisa gene-expressionadalah sebagaimana yang dilakukan oleh groupTerrence S. Furey, dimuat di journalBioinformatics [9]. Group Furey memakai SVMdengan dot product kernel (linear SVM) untukmenganalisa vektor berdimensi ribuan yangdibentuk oleh ekspresi gen diperoleh darieksperimen microarray. Evaluasi dilakukanterhadap tiga database : Ovarian tissue dataset,human acute leukemia (Golub dataset), danyang ketiga adalah human tumour dan normalcolon tissue dataset. Masing-masing eksperimendapat dirangkumkan sebagai berikut:1. Ovarian datasetSampel yang berasal dari ovarian cancertissue, normal ovarian tissue dan normal tissuenon-ovarian yang lain, total sebanyak 31 sampel.


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.ComTiap data terdiri dari 97,802 cDNA untukmasing-masing tissue, dengan demikianmembentuk ruang vektor berdimensi 97,802.Untuk mereduksi dimensi dari feature vector ini,dilakukan feature subset selection (FSS) denganmemilih sekumpulan feature yang palingsignikan. Furey memilih strategy single bestcriterion, yaitu tiap feature dievaluasi secaraterpisah dengan menentukan mana yang palingberpengaruh pada class separability. Walaupunmetode ini memiliki banyak sisi lemah, danmengabaikan kontribusi yang dimiliki secaraberkelompok, tapi metode FSS ini mungkinpaling mudah dilakukan dalam kondisi dimensivektor yang hampir mencapai 100,000. Hasildari FSS memperlihatkan bahwa dari 97,802cDNA, cukup diperlukan 50 buah feature(cDNA) yang memiliki score signifikansitertinggi. Selanjutnya estimasi parameterdilakukan dengan leave-one-out crossvalidation.Hasil eksperimen menunjukkan bahwa satusampel dari kelompok normal ovarian tissueselalu gagal diklasifikasikan. Hasil analisa darikegagalan ini menunjukkan bahwa margin darimisclassification cukup besar. Hal ini berartiSVM sangat yakin, bahwa sampel ini tergolongcancerous tissue. Dengan mengeliminasi satusampel dari non-ovarian normal tissue yangkualitasnya diragukan, total akurasi SVM 90%(misklasifikasi : 3 dari total 30 sampel).2. Human acute leukemiaData pada eksperimen ini berasal dari studiyang dilakukan oleh Golub [12], dan tersediaonline di internet. Data diambil dari 72 pasienpenderita myeloid leukimia (AML) dan acutelymphoblastic leukimia (ALL). Data ini dibagidalam dua kelompok: training set (27 ALL dan11 AML), dan test set (20 ALL dan 14 AML).Tiap sampel terdiri dari vektor berdimensi 7129yang berasal dari ekspresi gen si pasien sebagaihasil analisa Affymetrix high-densityoligonucleotide microarray. FSS dilakukan padatraining set untuk menseleksi feature yangsignifikan, dengan metode sebagaimanapenjelasan sebelumnya.SVM dilatih dengan data dari training set,dan performa-nya dievaluasi pada test set. Hasildari eksperimen menunjukkan bahwa SVMmengklasifikan secara benar antara 30 sampai32 dari total 34 sampel pada test set.3. Human tumour dan normal colon tissuedatasetData pada eksperimen ini berasal dari studiyang dilakukan oleh Alon [13], yang terdiri dari40 tissue tumor dan 22 tissue normal colon. Tiapsampel berasal dari hasil analisa Affymetrixoligonucleotide arrays terhadap 6500 genmanusia. Dari 6500 gen ini, sebanyak 2000diantaranya yang diseleksi terlebih dahuluberdasarkan kriteria tertentu, dipergunakanuntuk keperluan klasifikasi.Performa SVM dievaluasi dengan metodeleave-one-out crossvalidation, dan sebagai hasil56 sampel berhasil diklasifikasikan secara benar(misklasifikasi : 6 sampel). Selanjutnyapercobaan diulangi dengan memakai subsetyang terdiri dari 1000 dari total 2000 featurepada tiap vektor. Hasil pada eksperimen keduaini sama dengan sebelumnya, yaitu 6 sampelsaja yang tidak dapat diklasifikasikan secarabenar. Dari ke-6 sampel ini tiga diantaranyanormal tissue dan tiga yang lain tumor tissue.Tabel 2-Sebagian dari hasil eksperimen Furey : komparasi SVM dan perceptron pada studi analisaekspresi genError Num. of Error Num. ofDataset Dimensi tumor tissuenormal tissueSVM Perceptron SVM PerceptronOvarian 97,802 3 4.8 5 4.6Golub0 2.8 0 0.67,129datasetColon3 3.7 3 3.82,000dataset


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.ComSelanjutnya Furey menguji performaperceptron (artificial neural network), padaketiga dataset yang sama. Sebagian hasil darieksperimen tersebut dirangkumkan pada Tabel 2.Perhatikan bahwa tingkat error pada tabeladalah hasil rata-rata dari lima kali eksperimen,yang dilakukan dengan mengubah urutansampel. Secara keseluruhan SVM memberikanhasil yang lebih baik, kecuali pada normal tissuedata Ovarian.Namun demikian, sebagaimana dijelaskanoleh Furey, karena evaluasi ini dilakukan padadata yang jumlahnya relatif sedikit, hasil padaTabel 2 belum dapat dikatakan valid untukmemberikan kesimpulan bahwa SVM lebihsuperior dibandingkan metode yang lain.Dengan makin banyaknya ketersediaan dataekspresi gen hasil analisa microarray,diharapkan SVM dapat diujicoba padaeksperimen yang data skala besar, sehinggahasil komparasi pada eksperimen tersebut tidakdiragukan validitasnya.10. KESIMPULANMakalah ini memperkenalkan teori dasar<strong>Support</strong> <strong>Vector</strong> <strong>Machine</strong> (SVM), sebagai salahsatu topik yang dewasa ini banyak mendapatperhatian sebagai state of the art dalam bidangpattern recognition. Kelebihan SVMdibandingkan metode yang lain terletak padakemampuannya untuk menemukan hyperplaneterbaik yang memisahkan dua buah class padafeature space yang ditunjang oleh strategiStructural Risk Minimization (SRM).Pada paruh kedua dari makalah ini, dibahasaplikasi SVM pada bioinformatika, khususnyaanalisa ekspresi gen yang diperoleh darieksperimen microarray terhadap pasienpenderita penyakit kanker. Eksperimen inidilakukan oleh group Terrence S. Furey, dengantujuan memakai SVM untuk mengklasifikanapakah suatu pasien terkena penyakit kankeratau tidak, berdasarkan hasil analisa microarrayterhadap sel pasien tersebut. Secara umum,SVM menunjukkan hasil yang lebih baikdaripada perceptron. Walaupun demikian,dikarenakan jumlah sampel yang relatif sedikit,hasil eksperimen itu belum dapat memberikankesimpulan final bahwa SVM superior terhadapperceptron.Walaupun eksperimen dengan datamicroarray secara statistik masih terdapatkelemahan, terutama dari sudut keterbatasandata, dan mahalnya cost yang diperlukan untukanalisa, evaluasi SVM merupakan suatu usahayang sangat berharga untuk mengklarifikasikanmasalah yang timbul. Analisa pada data skalakecil ini akan memudahkan bagi kita untukmenemukan sisi-sisi lemah dari metode yangdipakai. Seiring dengan kemajuan IT danbioteknologi modern yang mencengangkanakhir-akhir ini, diperkirakan pada tahun-tahunmendatang, dunia ilmu pengetahuan akansemakin terbanjiri dengan data biologi,sedangkan teknologi informasi pun akan melajudengan kencang. Dalam situasi ini, denganmemanfaatkan teknologi informasi secara tepat,diharapkan data biologi tersebut dapat diolahmenjadi suatu informasi, dan seterusnyaditransformasikan sebagai suatu pengetahuanyang dapat ditarik manfaatnya bagi kesehatandan kesejahteraan umat manusia.REFERENSI1- Byun H., Lee S.W., “A Survey on PatternRecognition Applications of <strong>Support</strong> <strong>Vector</strong><strong>Machine</strong>s”, International Journal of PatternRecognition and Artificial Intelligence,Vol.17, No.3, 2003, pp.459-4862- Tsuda K., “Overview of <strong>Support</strong> <strong>Vector</strong><strong>Machine</strong>”, Journal of IEICE, Vol.83, No.6,2000, pp.460-466 (in Japanese)3- Vapnik V.N., “The Nature of StatisticalLearning Theory”, 2 nd edition, Springer-Verlag,New York Berlin Heidelberg, 19994- Cristianini N., Taylor J.S., “An Introduction to<strong>Support</strong> <strong>Vector</strong> <strong>Machine</strong>s and OtherKernel-Based Learning Methods”, CambridgePress University, 20005- Vijayakumar S, Wu S, “Sequential <strong>Support</strong><strong>Vector</strong> Classifiers and Regression”, Proc.International Conference on Soft Computing(SOCO'99),Genoa, Italy, pp.610-619, 19996- Witarto A.B, “Bioinformatika:Mengawinkan teknologi informasi denganbioteknologi”, http://ilmukomputer.com ,June 2003 (in Indonesian)7- Utama A., “Peranan bioinformatika dalamduniakedokteran”,


Kuliah Umum IlmuKomputer.ComCopyright © 2003 IlmuKomputer.Comhttp://ilmukomputer.com , August 2003(in Indonesian)8- <strong>Nugroho</strong> A.S., “Bioinformatika dan patternrecognition”, http://ilmukomputer.com ,July 2003 (in Indonesian)9- Furey T.S, et al., “<strong>Support</strong> vector machineclassification and validation of cancer tissuesamples using microarray expression data”,Bioinformatics, Vol.16, No.10, 2000,pp.906-91410- Ward J.J., et al., “Secondary structureprediction with support vector machine”,Bioinformatics, Vol.19, No.13, 2003,pp.1650-165511- Maeda E., “Gene expression analysis andfeature selection”, IEICE Technical Report,PRMU-2003-37, Vol.103, No.150, 2003,pp.57-62 (in Japanese)12- Golub T. et al., “Molecular classification ofcancer : class discovery and class predictionby gene expression monitoring”, Science,Vol. 286, 1999, pp.531-53713- Alon U. et al., “Broad patterns of geneexpression revealed by clustering analysisof tumor and normal colon tissues probedby oligonucleotide arrays”, Proc. Natl. Acad.Sci. USA, No.96, 1999, pp.6745-6750

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!