KONSEP DATA MINING
(Penerapan Data Mining pada Rumah Sakit Menggunakan Metode Association)
Dengan bertambahnya angka harapan hidup
bangsa Indonesia perhatian masalah kesehatan beralih dari penyakit
infeksi ke penyakit degenerative. Pada umumnya
penyakit tidak mengenal usia, karena
penyakit bisa menyerang siapapun. karena itu perlu di waspadai serangan dari penyakit tersebut. Penyakit manusia banyak
jenisnya seperti, anemia, diabetes, jantung, kulit, kanker, demam berdarah, typus, ginjal
dan sebagainya.
Rumah Sakit adalah tempat untuk
menangani pasien dari berbagai
daerah dan jenis penyakit pasien
tersebut berbeda-beda, karena cara hidup dan lingkungan berperan dalam perjalanan
penyakit. Berdasarkan hal tersebut
untuk meningkatkan upaya menurunkan
angka kesakitan dan prevalensi timbulnya komplikasi pada
penyakit maka perlu dilakukan
penelitian-penelitian yang mengarah pada pembuatan sistem yang dapat mendeteksi
timbulnya penyakit sehingga dapat dilakukan
upaya prefentif serta upaya rehabilitatif bagi penderita penyakit dengan pendekatan yang menyeluruh, sehingga dampak
terjadinya
berbagai penyakit menahun, seperti
penyakit jantung koroner, penyakit pada mata, ginjal dan
syaraf dapat dikurangi.
Dalam usaha peningkatan kesehatan,
penguasaan teknologi perlu ditingkatkan.
Selain itu, juga perlu diimbangi dengan sistem informasi dan
data yang akurat bagi kepentingan dinas kesehatan maupun instansi
terkait untuk pengambilan kebijakan. Misalnya informasi mengenai daerah pemberantasan penyakit dan potensi adanya penyakit dalam
suatu daerah tertentu sehingga informasi-informasi ini dapat mengarahkan
paramedis melakukan usaha pemberantasan penyakit tersebut. Untuk mengatasi
masalah dalam pemberantasan penyakit
ini, diperlukan analisa terhadap data penyakit
yang terlah didapat dari setiap daerah yang pernah dirawat pada rumah sakit, sehingga dapat
diketahui penyakit apa yang paling banyak dalam masing-masing daerah dan daerah mana
yang jenis penyakitnya paling berbahaya. Dengan demikian,
daerah yang utama untuk pemberantasan penyakit tersebut dapat di tentukan.
Salah satu alternatif sebagai solusi dari masalah tersebut adalah
membuat suatu pencarian pola atau hubungan Association
rule (aturan asosiatif) dari data yang berskala besar dan kaitannya sangat
erat dengan data mining yang dapat
digunakan untuk menemukan aturan-aturan
tertentu yang
mengasosiasikan data yang satu dengan data yang lainnya dengan suatu metode
algoritma. Metode algoritma apriori bisa melakukan penelusuran pada data
historis untuk mengidentifikasi pola data yang didasarkan pada sifat-sifat yang teridentifikasi sebelumnya. Kemudian dapat
diberikan alternatif pengobatan atau
pencegahan bila ditemukan indikasi yang mengarah pada timbulnya penyakit. Informasi yang dihasilkan untuk
selanjutnya bisa digunakan oleh Dinas Kesehatan setempat maupun dokter sebagai dasar untuk melakukan tindakan-tindakan yang diperlukan.
1.
Tinjauan Pustaka
Data mining adalah proses pengolahan informasi dari sebuah database
yang besar, meliputi proses ekstraksi, pengenalan, komprehensif, dan penyajian
informasi sehingga dapat digunakan dalam pengambilan keputusan bisnis yang krusial”.[1][3]
Metodologi Data Mining
Langkah-langkah yang dibutuhkan untuk mengerjakan
implementasi Data Mining :
1.
Problem Analysis, langkah ini untuk
menganalisa permasalahan dalam bisnis yang hendak diatasi dengan menggunakan Data Mining. Dari sini harus dibuat
penilaian pada ketersediaan data, teknologi yang dipakai dan hasil yang
diinginkan sebagai bagian dari keseluruhan solusi.
2.
Data Preparation, langkah ini untuk
mengekstrasi data dan mentransformasikannya ke dalam format yang dibutuhkan
oleh algoritma Data Mining, termasuk
di dalamnya join tabel, menambah field baru, membersihkan data dan sebagainya.
3.
Data Exploration, langkah ini mendahului
langkah pencarian pola yang sesungguhnya. Didalamnya terdapat proses eksplorasi
secara visual dan memberikan pengguna kemudahan untuk menemukan kesalahan yang
terjadi dalam proses data preparation.
4.
Pattern Generation, langkah ini menggunakan
cara induksi dan mengumpulkan algoritma penelusuran untuk membuat pola-pola
tertentu.
5.
Pattern Deployment, langkah ini pengembangan
pola-pola yang ditemukan yang didesain dalam langkah problem analysis. Pola-pola ini khusus digunakan dalam Decision Support System (DSS), untuk
membuat laporan-laporan atau buku petunjuk, atau memfilter data untuk tujuan pemrosesan.
6.
Pattern Monitoring, kesimpulan utama dari hasil
pengembangan Data Mining adalah
kesamaan pola-pola di waktu yang lalu dapat
diaplikasikan untuk
kondisi-kondisi yang terjadi di masa depan. [1]
Analisa Association Rule
Penerapan data mining dengan association rule bertujuan menemukan informasi item-item yang saling berhubungan dalam bentuk rule, dengan demikian association
rule di terapkan pada pola data penyakit yang paling sering muncul dengan
menggunakan algoritma apriori. Dengan
demikian proses untuk menemukan hubungan
antar item ini
mungkin memerlukan pembacaan data penyakit secara berulang-ulang dalam
jumlah data penyakit yang besar untuk menemukan pola-pola hubungan yang berbeda, maka waktu dan biaya
komputasi tentunya juga akan sangat besar, sehingga untuk menemukan hubungan
tersebut diperlukan suatu algoritma yang efisien.
Analisa pola frekuensi tinggi
Analisis asosiasi atau association
rule mining adalah teknik data mining untuk menemukan aturan assosiatif
antara suatu kombinasi item. Aturan assosiatif dari penyakit pasien di rumah
sakit adalah dapat diketahuinya berapa besar kemungkinan seorang pasien dapat
mengidap penyakit TB. Paru bersamaan dengan Febris. Dengan pengetahuan tersebut
Dokter yang merawat dapat mengambil tindakan penolongan pertama pada pasien.
Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis
pola frequensi tinggi (frequent pattern
mining) menarik perhatian banyak peneliti untuk menghasilkan algoritma yang
efisien. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua
parameter, support (nilai penunjang)
yaitu persentase kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu
kuatnya hubungan antar item dalam aturan assosiatif.
Aturan assosiatif biasanya dinyatakan dalam bentuk :
{Febris, TB.Paru} -> {Dispepsya} (support = 40%, confidence = 50%)
Yang artinya :
"50% dari transaksi di database yang memuat item Febris dan TB.Paru juga
memuat item Dispepsya. Sedangkan 40% dari seluruh transaksi yang ada di
database memuat ketiga item itu." Dapat juga diartikan : "Seorang
pasien yang mengidam penyakit Febris dan TB.Paru kemungkinan 50% punya penyakit
Dispepsya. Aturan ini cukup signifikan karena mewakili 40% dari catatan
transaksi selama ini." Analisis asosiasi didefinisikan suatu proses untuk
menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat
minimum untuk confidence (minimum confidence). Dasar
analisis asosiasi terbagi menjadi dua tahap :
Data dari
Penyakit pasien seperti
ditunjukkan dalam tabel 1 berikut :
Tabel 1. Penyakit Pasien
Pasien
|
Item Penyakit
|
1
2
3
4
5
6
7
8
9
10
11
|
Febris, Dispepsya, Anemia Anemia, Febris, DM
DM, DHF, Dispepsya Dispepsya, Febris, Anemia
Febris, Anemia, Dispepsya Dispepsya, Febris, DHF Febris, Anemia, DM Febris,
DM, DHF
Anemia,
Dispepsya, Thyphoid Febris,
Hypertensi, Dyspepsia Hypertensi, Dispepsya.
Febris
|
Data tersebut diatas dalam database Pasien direpresentasikan dalam bentuk
seperti tampak pada tabel 1. berikut:
Tabel 2. Representasi Data Penyakit Pasien
JlhPasien
|
Item Penyakit
|
2
8
6
4
9
3
1
|
Hypertensi Dispepsya Anaemia DM
Febris DHF
Thyphoid
|
Dan bila di
bentuk dalam bentuk tabular, data Penyakit Pasien akan tampak seperti pada
tabel 3 berikut:
|
Tabel 3. Format Tabular Data Penyakit Pasien
Pasien
|
Hy
|
Dis
|
Ane mia
|
DM
|
Febris
|
DHF
|
Thy
pho id
|
pert
ensi
|
pep
sya
|
||||||
1
|
0
|
1
|
1
|
0
|
1
|
0
|
0
|
2
|
0
|
0
|
1
|
1
|
1
|
0
|
0
|
3
|
0
|
1
|
0
|
1
|
0
|
1
|
0
|
4
|
0
|
1
|
1
|
0
|
1
|
0
|
0
|
5
|
0
|
1
|
1
|
0
|
1
|
0
|
0
|
6
|
0
|
1
|
0
|
0
|
1
|
1
|
0
|
7
|
0
|
0
|
1
|
1
|
1
|
0
|
0
|
8
|
0
|
0
|
0
|
1
|
1
|
1
|
0
|
9
|
0
|
1
|
1
|
0
|
0
|
0
|
1
|
10
|
1
|
1
|
0
|
0
|
1
|
0
|
0
|
11
|
1
|
1
|
0
|
0
|
1
|
0
|
0
|
Misalkan D adalah Pasien yang direperesentasikan dalam tabel 1, dimana
masing- masing Pasien T dalam D merepresentasikan himpunan item yang berada
dalam I. Himpunan items A (Febris dan Dispepsya) dan himpunan item lain B
(Anemia). Kemudian aturan asosiasi akan berbentuk :
Jika Febris dan Dispepsya Maka
Febris.
Dimana antecedent A dan consequent B merupakan subset
dari I, kemudian A dan B merupakan mutually
exclusive. Definisi ini tidak berlaku untuk aturan trivial seperti :
Jika A, maka B ( A_B)
Penulis hanya akan mengambil
aturan yang memiliki support dan/atau
confidence yang tinggi. Aturan yang
kuat adalah aturan-aturan yang melebihi kriteria support dan/atau confidence
minimum. Aturan yang memiliki support
lebih dari 20 % dan confidence lebih dari 35 %. Sebuah itemset adalah himpunan item-item yang ada dalam I, dan k-itemset adalah itemset yang berisi k item.
Misalnya {Febris, Dispepsya) adalah sebuah 2-itemset
dan {Tb. Paru, Anemia, DM) merupakan 3-itemset.
Frequent Itemset menunjukkan itemset yang memiliki frekuensi
kemunculan lebih dari nilai minimum yang telah ditentukan (ф). Misalkan ф = 3,
maka semua itemset yang frekuensi
kemunculannya lebih dari 3 kali disebut frequent.
Himpunan dari frequent k- itemset dilambangkan
dengan Fk .
Tabel 4. Calon
3-Itemset
Combination
|
Count
|
Dispepsya, Anemia, Febris
Dyspepsia, Febris, DHF
|
3
1
|
Confidence minimal adalah 75% maka aturan yang bisa terbentuk adalah aturan dengan
1 antecedent berikut:
“IF Mengidam Dispepsya end Anaemia, Then
Mengidam Febris”
Sementara itu calon aturan
asosiasi dari F2 bisa dilihat pada tabel 5. berikut:
Tabel 5. Calon Aturan Asosiasi dari F2
Aturan
Asosiasi Final
pencarian frequent itemset, dengan association
rule. Sesuai dengan namanya, algoritma ini menggunakan knowledge mengenai
frequent itemset yang telah diketahui sebelumnya, untuk memproses informasi
selanjutnya. Algoritma apriori memiliki beberapa prinsip dasar yaitu :
1. Kumpulan
jumlah item tunggal, dapatkan item besar.
2. Dapatkan
kandidat pairs, hitung => large pair dari
item-item.
3. Dapatkan
candidate triplets, hitung => large triplets dari item-item dan seterusnya.
4. Sebagai
petunjuk : setiap sumset dari sebuah
frequent itemset harus menjadi frequent.
|
Analisa Penerapan Algoritma
Apriori
Apriori adalah suatu algoritma yang sudah sangat dikenal dalam melakukan pencarian frequent itemset, dengan association
rule. Sesuai dengan namanya, algoritma ini menggunakan knowledge mengenai
frequent itemset yang telah diketahui sebelumnya, untuk memproses informasi
selanjutnya. Algoritma apriori memiliki beberapa prinsip dasar yaitu :
1. Kumpulan
jumlah item tunggal, dapatkan item besar.
2. Dapatkan
kandidat pairs, hitung => large pair dari
item-item.
3. Dapatkan
candidate triplets, hitung => large triplets dari item-item dan seterusnya.
4. Sebagai
petunjuk : setiap sumset dari sebuah
frequent itemset harus menjadi frequent.
Table 6. C1
dan L1 Untuk mencari 1- itemset
C1 L1
Juml
Pasien
|
Item Penyakit
|
Juml
Pasien
|
Item
Penyakit
|
2
8
6
4
9
3
1
|
Hypertensi Dispepsya Anaemia DM
Febris DHF
Thyphoid
|
8
6
4
9
3
|
Dispepsya Anaemia DM
Febris DHF
|
1. Pada iterasi pertama dari algoritama , setiap item adalah anggota dari set calon 1- itemset, C1. Algoritma akan secara langsung memeriksa semua penyakit yang ada untuk dapat menghitung kejadian munculnya setiap item. Jika diasumsikan bahwa minimum support yang dibutuhkan adalah 2 ( misalnya min_sup = 3/11=27,3%. Set dari 1-itemset, L1, dapat ditentukan yaitu semua calon 1-itemset yang memenuhi minimum support.\
2.
Untuk menemukan 2-itemset, L2, algorima ini
menggunakan pengkombinasian C1 dengan L1 untuk menghasilkan candidate set dari 2-itemset, C2. C2 merupakan hasil kombinasi dari L1.
Penyakit yang ada dalam database D
diperiksa dan support count dari setiap calon itemset yang ada di C2
ditambahkan, seperti yang diajukkan pada table.
3. Set dari 2-itemset, L2,
dapat ditentukan, yaitu semua
candidate 2-itemset yang memenuhi minimum support. Proses untuk menghasilakan
suatu set candidate dari 3- itemset,
C2, dijelaskan secara lebih detail pada
table 10, 11, 12 Pertama dapatkan C3, yaitu dengan cara mengkombinasikan L2
dengan C2, maka menhasilkan { Dispepsya, Anemia, Febris}berdasarkan pada
algoritma apriori, maka semua sumset dari frequent itemset diatas, harus juga
frequent, dapat dipastikan kemudian ke-empat candidate terakhit tidak mungkin
akan frequent. Oleh karena itu harus disingkirkan dari
C3, dengan demikian dapat
menghemat usaha yang tidak diperlukan untuk melakukan perhitungan terhadap
database, ketika akan menentukan L3. Penyakit yang ada di D di periksa untuk
menentukan L3, yaitu terdiri dari candidate 3-Itemset di C3 yang memenuhi minimum support yang sudah
ditentukan.
4.
Algoritma akan melakukan kombinasi antara C3 dengan L3 untuk menghasilkan
candidate dari 4-itemset, C4. Dengan demikian , C4 ?, dan algoritma berhenti
karena telah menemukan semua frequent itemset.
Table 7. final proses 3-itemset
Combination
|
Count
|
Dispepsya, Anemia, Febris
Dyspepsia, Febris, DHF
|
3
1
|
4. Kesimpulan
Atas analisis dan pembahasan yang dilakukan pada Pola Data Penyakit
Rumah Sakit dengan menerapkan Metode Association
Rule Menggunakan Algoritma Apriori,
maka dapat diambil kesimpulan sebagai berikut:
1.
Metode Association
Rule Menggunakan Algoritma Apriori
dapat membantu
Rumah Sakit untuk melakukan penelusuran pada data historis Penyakit untuk
mengidentifikasi pola
data yang didasarkan pada
sifat-sifat yang teridentifikasi sebelumnya.
2.
Penggunaan Metode Association Rule Menggunakan Algoritma
Apriori sangat membantu dalam memperkirakan Penyakit Pasien yang
harus ditangani oleh Rumah Sakit dalam periode yang akan datang.
3.
Penggunaan aplikasi Data Mining dapat
membantu dalam pengambilan keputusan untuk pengklasifikasian untuk banyak data.
4. Penggunaan Metode Association
Rule Menggunakan Algoritma Apriori dalam menemukan
penyakit telah menemukan semua frequent itemset untuk penyakit
Dispepsya, Anemia, Febris sebanyak 3.
5.
Metode ini dapat diterapkan pada permasalahan yang berkaitan dalam pencarian
informasi dimasa yang akan datang.
[1]
Abdallah Alashqur, “Mining Association Rule: A Database Perspective”, International Journal of
Computer Science and Network Security, Vol 8 No. 12, December 2008, Page 69 –
74, HTTP:// paper.ijcsns.org/07_book/200812/20081211. pdf
[2]
D,Suryadi, (2001) Pengantar Data Mining,
Andi, Yogyakarta
[3]
Kusrini (2007), “Penerapan Algoritma
Apriori pada Data Mining untuk Mengelompokkan Barang Berdasarkan Kecenderungan Kemunculan Bersama dalam Satu Transaksi”, Page 1 – 16, HTTP://dosen.amikom.ac.id/.../Publikasi%2
0Apriori-Kusrini_Feb-07_.pdf
[4]
Susanto. (2010). Pengantar Data Mining.
Informatika. Jakarta
Post a Comment