KONSEP DATA MINING




(Penerapan Data Mining pada Rumah Sakit  Menggunakan Metode Association)





              Dengan bertambahnya angka harapan  hidup bangsa Indonesia perhatian masalah kesehatan beralih dari penyakit infeksi ke penyakit degenerative. Pada umumnya penyakit tidak mengenal usia, karena penyakit bisa menyerang siapapun. karena itu perlu di waspadai serangan dari penyakit tersebut. Penyakit manusia banyak jenisnya seperti, anemia, diabetes, jantung, kulit, kanker, demam berdarah, typus, ginjal dan sebagainya.

Rumah Sakit adalah tempat untuk menangani pasien dari berbagai daerah dan jenis penyakit pasien tersebut berbeda-beda, karena cara hidup dan lingkungan berperan dalam perjalanan penyakit. Berdasarkan hal tersebut  untuk meningkatkan upaya menurunkan angka kesakitan dan prevalensi timbulnya komplikasi pada penyakit maka perlu dilakukan penelitian-penelitian yang mengarah pada pembuatan sistem yang dapat mendeteksi timbulnya penyakit sehingga dapat dilakukan upaya prefentif serta upaya rehabilitatif bagi penderita penyakit dengan pendekatan yang menyeluruh,  sehingga dampak  terjadinya berbagai  penyakit menahun, seperti penyakit jantung koroner, penyakit pada mata, ginjal dan

syaraf dapat dikurangi.
Dalam usaha peningkatan kesehatan, penguasaan teknologi perlu ditingkatkan. Selain itu, juga perlu diimbangi dengan sistem informasi dan data yang akurat bagi kepentingan dinas kesehatan maupun instansi terkait untuk pengambilan kebijakan. Misalnya informasi mengenai daerah pemberantasan penyakit dan potensi adanya penyakit dalam suatu daerah tertentu sehingga informasi-informasi ini dapat mengarahkan paramedis melakukan usaha pemberantasan penyakit tersebut. Untuk mengatasi masalah dalam pemberantasan penyakit ini, diperlukan analisa terhadap data penyakit yang terlah didapat dari setiap daerah yang pernah dirawat pada rumah sakit, sehingga dapat diketahui penyakit apa yang paling banyak dalam masing-masing daerah dan daerah mana yang jenis penyakitnya paling berbahaya. Dengan demikian, daerah yang utama untuk pemberantasan penyakit tersebut dapat di tentukan.
Salah satu alternatif sebagai solusi dari masalah tersebut adalah membuat suatu pencarian pola atau hubungan Association rule (aturan asosiatif) dari data yang berskala besar dan kaitannya sangat erat dengan data mining yang dapat digunakan untuk menemukan aturan-aturan
tertentu yang mengasosiasikan data yang satu dengan data yang lainnya dengan suatu metode algoritma. Metode algoritma apriori bisa melakukan penelusuran pada data historis untuk mengidentifikasi pola data yang didasarkan pada sifat-sifat yang teridentifikasi sebelumnya. Kemudian dapat diberikan alternatif pengobatan atau pencegahan bila ditemukan indikasi yang mengarah pada timbulnya penyakit.  Informasi yang dihasilkan untuk selanjutnya  bisa  digunakan oleh Dinas Kesehatan setempat maupun dokter sebagai dasar untuk melakukan tindakan-tindakan yang diperlukan.


1.        Tinjauan Pustaka




Data Mining (DM)

Data mining adalah proses pengolahan informasi dari sebuah database yang besar, meliputi proses ekstraksi, pengenalan, komprehensif, dan penyajian informasi sehingga dapat digunakan dalam pengambilan keputusan bisnis yang krusial”.[1][3]

Metodologi Data Mining


Langkah-langkah yang dibutuhkan untuk mengerjakan implementasi Data Mining :

1.     Problem Analysis, langkah ini untuk menganalisa permasalahan dalam bisnis yang hendak diatasi dengan menggunakan Data Mining. Dari sini harus dibuat penilaian pada ketersediaan data, teknologi yang dipakai dan hasil yang diinginkan sebagai bagian dari keseluruhan solusi.

2.     Data Preparation, langkah ini untuk mengekstrasi data dan mentransformasikannya ke dalam format yang dibutuhkan oleh algoritma Data Mining, termasuk di dalamnya join tabel, menambah field baru, membersihkan data dan sebagainya.

3.     Data Exploration, langkah ini mendahului langkah pencarian pola yang sesungguhnya. Didalamnya terdapat proses eksplorasi secara visual dan memberikan pengguna kemudahan untuk menemukan kesalahan yang terjadi dalam proses data preparation.

4.     Pattern Generation, langkah ini menggunakan cara induksi dan mengumpulkan algoritma penelusuran untuk membuat pola-pola tertentu.

5.     Pattern Deployment, langkah ini pengembangan pola-pola yang ditemukan yang didesain dalam langkah problem analysis. Pola-pola ini khusus digunakan dalam Decision Support System (DSS), untuk membuat laporan-laporan atau buku petunjuk, atau memfilter data untuk tujuan pemrosesan.

6.     Pattern Monitoring, kesimpulan utama dari hasil pengembangan Data Mining adalah kesamaan pola-pola di waktu yang lalu dapat
diaplikasikan    untuk   kondisi-kondisi     yang terjadi di masa depan. [1]

2.        Analisa dan Pembahasan 

     Analisa Association Rule
Penerapan data mining dengan association rule bertujuan menemukan informasi item-item yang saling berhubungan dalam bentuk rule, dengan demikian association rule di terapkan pada pola data penyakit yang paling sering muncul dengan menggunakan algoritma apriori. Dengan demikian proses untuk menemukan hubungan  antar   item   ini   mungkin memerlukan pembacaan data penyakit secara berulang-ulang dalam jumlah data penyakit yang besar untuk menemukan pola-pola  hubungan yang berbeda, maka waktu dan biaya komputasi tentunya juga akan sangat besar, sehingga untuk menemukan hubungan tersebut diperlukan suatu algoritma yang efisien.


Analisa pola frekuensi tinggi



Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Aturan assosiatif dari penyakit pasien di rumah sakit adalah dapat diketahuinya berapa besar kemungkinan seorang pasien dapat mengidap penyakit TB. Paru bersamaan dengan Febris. Dengan pengetahuan tersebut Dokter yang merawat dapat mengambil tindakan penolongan pertama pada pasien.
Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis pola frequensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang) yaitu persentase kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif.
Aturan assosiatif biasanya dinyatakan dalam bentuk :


{Febris, TB.Paru} -> {Dispepsya} (support = 40%, confidence = 50%)


Yang artinya : "50% dari transaksi di database yang memuat item Febris dan TB.Paru juga memuat item Dispepsya. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item itu." Dapat juga diartikan : "Seorang pasien yang mengidam penyakit Febris dan TB.Paru kemungkinan 50% punya penyakit Dispepsya. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini." Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat

minimum untuk confidence (minimum confidence). Dasar analisis asosiasi terbagi menjadi dua tahap :

Data       dari   Penyakit   pasien       seperti ditunjukkan dalam tabel 1 berikut :


Tabel 1. Penyakit Pasien
Pasien
Item Penyakit
1
2
3
4
5
6
7
8
9
10
11
Febris, Dispepsya, Anemia Anemia, Febris, DM
DM, DHF, Dispepsya Dispepsya, Febris, Anemia Febris, Anemia, Dispepsya Dispepsya, Febris, DHF Febris, Anemia, DM Febris, DM, DHF
Anemia, Dispepsya, Thyphoid Febris, Hypertensi, Dyspepsia Hypertensi, Dispepsya. Febris


Data tersebut diatas dalam database Pasien direpresentasikan dalam bentuk seperti tampak pada tabel 1. berikut:


Tabel 2. Representasi Data Penyakit Pasien
JlhPasien
Item Penyakit
2
8
6
4
9
3
1
Hypertensi Dispepsya Anaemia DM
Febris DHF
Thyphoid


Dan bila di bentuk dalam bentuk tabular, data Penyakit Pasien akan tampak seperti pada tabel 3 berikut:

Anaemia Hypertensi, DM
Hypertensi, Febris Hypertensi, DHF
Hypertensi, Thypoid Dispepsya, Anaemia Dispepsya, DM
Dispepsya, Febris Dispepsya, DHF
Dispepsya, Thypoid
2
0
0
4
1
6
2
1
Febris Anaemia, DHF
Anaemia, Thypoid DM, Febris DM, DHF DM,
Thypoid Febris, DHF Febris, Thypoid DHF,
Thypoid
1
3
2
0
2
0


 

Tabel 3. Format Tabular Data Penyakit Pasien

Pasien
Hy
Dis
Ane mia

DM

Febris

DHF
Thy pho id
pert ensi
pep sya
1
0
1
1
0
1
0
0
2
0
0
1
1
1
0
0
3
0
1
0
1
0
1
0
4
0
1
1
0
1
0
0
5
0
1
1
0
1
0
0
6
0
1
0
0
1
1
0
7
0
0
1
1
1
0
0
8
0
0
0
1
1
1
0
9
0
1
1
0
0
0
1
10
1
1
0
0
1
0
0
11
1
1
0
0
1
0
0



Misalkan D adalah Pasien yang direperesentasikan dalam tabel 1, dimana masing- masing Pasien T dalam D merepresentasikan himpunan item yang berada dalam I. Himpunan items A (Febris dan Dispepsya) dan himpunan item lain B (Anemia). Kemudian aturan asosiasi akan berbentuk :


Jika Febris dan Dispepsya Maka Febris.


Dimana antecedent A dan consequent B merupakan subset dari I, kemudian A dan B merupakan mutually exclusive. Definisi ini tidak berlaku untuk aturan trivial seperti :


Jika A, maka B ( A_B)


Penulis hanya akan mengambil aturan yang memiliki support dan/atau confidence yang tinggi. Aturan yang kuat adalah aturan-aturan yang melebihi kriteria support dan/atau confidence minimum. Aturan yang memiliki support lebih dari 20 % dan confidence lebih dari 35 %. Sebuah itemset adalah himpunan item-item yang ada dalam I, dan k-itemset adalah itemset yang berisi k item. Misalnya {Febris, Dispepsya) adalah sebuah 2-itemset dan {Tb. Paru, Anemia, DM) merupakan 3-itemset. Frequent Itemset menunjukkan itemset yang memiliki frekuensi kemunculan lebih dari nilai minimum yang telah ditentukan (ф). Misalkan ф = 3, maka semua itemset yang frekuensi kemunculannya lebih dari 3 kali disebut frequent. Himpunan dari frequent k- itemset dilambangkan dengan Fk .






Tabel 4. Calon 3-Itemset

Combination
Count
Dispepsya,            Anemia, Febris
Dyspepsia, Febris, DHF
3
1




Confidence minimal adalah 75% maka aturan yang bisa terbentuk adalah aturan dengan 1 antecedent berikut:

“IF Mengidam Dispepsya end Anaemia, Then

Mengidam Febris”
Sementara itu calon aturan asosiasi dari F2 bisa dilihat pada tabel 5. berikut:


Tabel 5. Calon Aturan Asosiasi dari F2




 Aturan Asosiasi Final

pencarian frequent itemset, dengan association rule. Sesuai dengan namanya, algoritma ini menggunakan knowledge mengenai frequent itemset yang telah diketahui sebelumnya, untuk memproses informasi selanjutnya. Algoritma apriori memiliki beberapa prinsip dasar yaitu :

1.     Kumpulan jumlah item tunggal, dapatkan item besar.

2.     Dapatkan kandidat pairs, hitung => large pair dari item-item.

3.     Dapatkan candidate triplets, hitung => large triplets dari item-item dan seterusnya.

4.     Sebagai petunjuk : setiap sumset dari sebuah frequent itemset harus menjadi frequent.
 




Code Pasien
Item Penyakit
1
Febris, Dispepsya, Anemia
2
Anemia, Febris, DM
3
DM, DHF, Dispepsya
4
Dispepsya, Febris, Anemia
5
Febris, Anemia, Dispepsya
6
Dispepsya, Febris, DHF
7
Febris, Anemia, DM
8
Febris, DM, DHF
9
Anemia, Dispepsya, Thyphoid
10
Febris, Hypertensi, Dyspepsia
11
Hypertensi, Dispepsya. Febris

 

Analisa Penerapan Algoritma Apriori


Apriori adalah suatu algoritma yang sudah sangat dikenal dalam melakukan pencarian frequent itemset, dengan association rule. Sesuai dengan namanya, algoritma ini menggunakan knowledge mengenai frequent itemset yang telah diketahui sebelumnya, untuk memproses informasi selanjutnya. Algoritma apriori memiliki beberapa prinsip dasar yaitu :
1.     Kumpulan jumlah item tunggal, dapatkan item besar.
2.     Dapatkan kandidat pairs, hitung => large pair dari item-item.
3.     Dapatkan candidate triplets, hitung => large triplets dari item-item dan seterusnya.
4.     Sebagai petunjuk : setiap sumset dari sebuah frequent itemset harus menjadi frequent.



Table 6. C1 dan L1 Untuk mencari 1- itemset


C1                                                 L1

Juml
Pasien
Item Penyakit
Juml
Pasien
Item
Penyakit
2
8
6
4
9
3
1
Hypertensi Dispepsya Anaemia DM
Febris DHF
Thyphoid
8
6
4
9
3
Dispepsya Anaemia DM
Febris DHF


1.    Pada iterasi pertama dari algoritama , setiap item adalah anggota dari set calon 1- itemset, C1. Algoritma akan secara langsung memeriksa semua penyakit yang ada untuk dapat menghitung kejadian munculnya setiap item. Jika diasumsikan bahwa minimum support yang dibutuhkan adalah 2 ( misalnya min_sup = 3/11=27,3%. Set dari 1-itemset, L1, dapat ditentukan yaitu semua calon 1-itemset yang memenuhi minimum support.\


2.    Untuk menemukan 2-itemset, L2, algorima ini menggunakan pengkombinasian C1 dengan L1 untuk menghasilkan candidate set dari 2-itemset, C2. C2 merupakan hasil kombinasi dari L1. Penyakit yang ada dalam database D diperiksa dan support count dari setiap calon itemset yang ada di C2 ditambahkan, seperti yang diajukkan pada table.


                                                     


3.   Set dari 2-itemset, L2,  dapat  ditentukan, yaitu semua candidate 2-itemset yang memenuhi minimum support. Proses untuk menghasilakan suatu set candidate dari 3- itemset, C2, dijelaskan secara lebih detail  pada table 10, 11, 12 Pertama dapatkan C3, yaitu dengan cara mengkombinasikan L2 dengan C2, maka menhasilkan { Dispepsya, Anemia, Febris}berdasarkan pada algoritma apriori, maka semua sumset dari frequent itemset diatas, harus juga frequent, dapat dipastikan kemudian ke-empat candidate terakhit tidak mungkin akan frequent. Oleh karena itu harus disingkirkan  dari  C3,  dengan demikian dapat menghemat usaha yang tidak diperlukan untuk melakukan perhitungan terhadap database, ketika akan menentukan L3. Penyakit yang ada di D di periksa untuk menentukan L3, yaitu terdiri dari candidate 3-Itemset di C3  yang memenuhi minimum support yang sudah ditentukan.




4.     Algoritma akan melakukan kombinasi antara C3 dengan L3 untuk menghasilkan candidate dari 4-itemset, C4. Dengan demikian , C4 ?, dan algoritma berhenti karena telah menemukan semua frequent itemset.




Table 7. final proses 3-itemset
Combination
Count
Dispepsya, Anemia, Febris
Dyspepsia, Febris, DHF
3
1


4.     Kesimpulan


Atas analisis dan pembahasan yang dilakukan pada Pola Data Penyakit Rumah Sakit dengan menerapkan Metode Association Rule Menggunakan Algoritma Apriori, maka dapat diambil kesimpulan sebagai berikut:

1.      Metode Association Rule Menggunakan Algoritma Apriori dapat membantu Rumah Sakit untuk melakukan penelusuran pada data historis Penyakit untuk mengidentifikasi pola

data yang didasarkan pada sifat-sifat yang teridentifikasi sebelumnya.


2.      Penggunaan Metode Association Rule Menggunakan Algoritma Apriori sangat membantu dalam memperkirakan Penyakit Pasien yang harus ditangani oleh Rumah Sakit dalam periode yang akan datang.



3.      Penggunaan aplikasi Data Mining dapat membantu dalam pengambilan keputusan untuk pengklasifikasian untuk banyak data.



4.      Penggunaan Metode Association Rule Menggunakan Algoritma Apriori dalam menemukan penyakit telah menemukan semua frequent itemset untuk penyakit Dispepsya, Anemia, Febris sebanyak 3.

5.      Metode ini dapat diterapkan pada permasalahan yang berkaitan dalam pencarian informasi dimasa yang akan datang.

5.  Daftar Pustaka

[1]         Abdallah Alashqur, “Mining Association Rule: A Database  Perspective”, International Journal of Computer Science and Network Security, Vol 8 No. 12, December 2008, Page 69 – 74, HTTP:// paper.ijcsns.org/07_book/200812/20081211. pdf

[2]         D,Suryadi, (2001) Pengantar Data Mining,
Andi, Yogyakarta

[3]         Kusrini      (2007),     “Penerapan    Algoritma Apriori                           pada       Data       Mining                   untuk Mengelompokkan       Barang Berdasarkan Kecenderungan            Kemunculan                         Bersama dalam Satu Transaksi”, Page 1 – 16, HTTP://dosen.amikom.ac.id/.../Publikasi%2 0Apriori-Kusrini_Feb-07_.pdf

[4]         Susanto. (2010). Pengantar Data Mining.
Informatika. Jakarta



Tidak ada komentar