Pengertian Datamining
Ketika
kita disodori sejumlah data dari suatu subjek atau kejadian, apa yang bisa kita lakukan Untuk menindak
lanjutinya? Kita perlu mengolahnya untuk
mendapatkan kecenderungan tertentu dari data tersebut. Misalkan data itu tentang mahasiswa
baru, mungkin bisa kita kelompokkan berdasarkan asal SMU atau
tingginya nilai tes masuk atau berdasarkan kedua – duanya. Setelah proses
pengelompokan ini mungkin akan kita dapatkan mahasiswa berdasarkan kategori dari SMU
swasta dengan nilai tertentu.
Kemudian kita bisa melakukan analisis
lebih jauh, mengenali pola data
mahasiswa tersebut. Misalnya
kecenderungan jika mahasiswa berasal dari negeri akan menapatkan indeks
prestasi tinggi di semester pertama atau
kecenderungan yang lain.
Kemudian
kita juga bisa melakukan pekerjaan prediksi atas apa yang akan terjadi pada
seorang mahasiswa berasarkan data masa
sebelumnya berkaitan dengan indeks prestasi yang akan dicapainya pada semester satu. Pekerjaan – pekerjaan seperti ini dalam dunia ilmiah sering
disebut dengan pattern
recognition atau pengenalan pola. Pengenalan pola adalah bagian dari data
mining. Jadi pengenalan pola adalah
suatu disiplin ilmu yang mempelajari bagaimana
kita mengelompokkan obyek ke
berbagai kelas dan bagaimana dari data
bisa kita temukan kecenderungannya. Yang pertama mengacu pada kasus klasifikasi dan yang kedua mengacu pada regresi. Data mining juga
meliputi langkah – langkah menentukan
varibel atau fitur
yang penting untuk di pakai dalam klasifikasi dan regresi. Data mining memegang peran penting
dalam bidang industry, keuangan,
cuaca, ilmu dan teknologi. Data mining berkenaan dengan pengolahan data dalam skala besar. Berikut ini adalah contoh – contoh data
volume besar yang sekarang tersedia di
dunia.
•
Very Long Baseline Interferometry (VLBI) milik Eropa mempunyai 16 teleskop, dimana setiap satunya
menghasilkan
data sebesar 1 Gigabit / detik data
astronomi . Ini membawa konsekuensi penyimpanan
anilisis suatu problem skala besar.
• AT- T menangani milyaran panggilan telepon
per hari
• Berdasarkan survey Winter Corp .2003: france telecom mempunyai
decision – support DB , 30 TB
(tera
bit) ; AT & T 26 TB
• Google searches milyaran halaman, mencapai ratusan
TB
• UC Berkeley 2003 mengestimasi 5 exabytes ( 5 juta terabytes) data baru
dihasilkan pada tahun 2002
Winter
Corp melakukan survei mengenai ukuran data paling besar dalam beberapa tahun
terakhir.
Dalam dua
tahun terakhir ukuran ini menjadi 3 kali lipat ( Piatetsky and Shapiro, 2006).
Banyak
kasus dalam kehidupan sehari – hari yang
memakai teknik – teknik data mining yang
dipelajari
dalam buku ini. Istilah ini mungkin belum begitu di kenal di kalangan mahasiswa
maupun
dosen atau
kalangan umum termasuk industry.
Contoh
– contoh berikut ini memperlihatkan
masalah –masalah dalam data mining :
1.
Memprediksi
harga suatu saham dalam beberapa bulan ke depan
berdasarkan performansi
perusahaan dan data – data
ekonomi.
2.
Memprediksi apakah seorang pasien yang diopname akan mendapatkan serangan jantung berikutnya
berdasarkan catatan kesehatan sebelumnya dan pola makananya.
3.
Memprediksi permintaan semen dalam beberapa tahun
mndatang berdasarkan data permintaan semen di tahun - tahun sebelumnya.
4.
Memprediksi
apakah akan terjadi tornado berdasarkan informasi dari sebuah radar tentang kondisi angin dan
atmosfir yang lain.
5.
Identifikasi apakah sudah trjadi penipuan terhadap
pengguna kartu kredit dengan melihat catatan transaksi yang tersimpan dalam database perusahaan kredit.
6.
Barang apa
yang biasanya dibeli oleh customer supermarket ketika dia membeli diaper bayi?
bagaimana manajemen supermarket member
respon stelah mengetahui pola pembelian
customer.
7.
Berapa persen
kira – kira customer yang akan lari dari
service atau produk kita? Bagaimana
mencegahnya?
8.
Dalam hal
orang meminta hutang ke suatu bank. Haruskah suatu bank menyetujui hutang
tersebut? Orang yang punya sejarah
paling bagus biasanya tidak perlu hutang, dan orang yang mempunyai sejarah
paling buruk biasanya tidak akan membayar hutang. Customer bank yang terbaik adalah yang ditengah –tengah.
9.
Dalam
e-commerce, misalkan seseorang membeli buku lewat Amazon.com. Kita bisa
menyarankan buku lain apa yang seharusnya dibeli oleh customer yang sama.
Amazon bisa melakukan klastering data buku – buku yang dibeli. Misalnya
customer yang membeli Data Mining : Teknik memanfaatkan data , juga membeli
Data Mining dengan Matlab.
10.
Diberikan data microarray untuk sejumlah sampel
(pasien), bisakah kita mendiagnosis secara akurat penyakit yang diderita? Prediksi
hasil dari suatu treatment terhadap pasien ? Rekomendasikan
treatment terbaik?
11.
Dalam
marketing : menemukan kelompok customer dan mempergunakan untuk target pemasaran dan
re-organization.
12.
Dalam
Astronomi: menemukan kelompok bintang yang mirip dan galaksi.
13.
Gemomics :
menemukan kelompok gen dengan tingkat ekspresi
yang mirip.
Tentu saja masih banyak lagi contoh – contoh dari
berbagai bidang yang bisa dimasukkan atau bisa diselesaikan dengan teknik –
teknik data mining. Teknik – teknik belajar (learning) memegang peran kunci dalam masalah - masalah di atas. Masalah – masalah yang
sesuai untuk diselesaikan dengan teknik data mining bila dicirikan dengan
(Piatetsky and Shapiro, 2006)
• Memerlukan
keputusan yang bersifat knowledge – based
• Mempunyai lingkungan yang berubah
• Metode
yang ada sekarang bersifat sub – optimal
• Tersedia
data yang bisa diakses, cukup dan relevan
• Memberikan
keuntungan yang tinggi jika keputusan yang diambil tepat
Secara
umum kajian data mining meliputi hal – hal seperti dalam
Gambar
1.1
Buku ini memperkenalkan dan membahas metode – metode yang sering
dipaki dalam data mining. bahasan terutama ditujukan untuk
klastering,klasifikasi,regresi, seleksi
variabel dan market basket analisis atau aturan asosiasi. Dalam contoh
di atas, harga aham masuk dalam variabel
kuantitatif yang nilainya kontinyu.
Sedangkan output dari prediksi kita terhadap tornado berupa variabel diskrit atau kategori yaitu
ada tornado atau tidak. Untuk masalah
harga saham kita menggunakan teknik prediksi yang sering di sebut regresi.
Dalam prediksi tornado kita gunakan teknik
klasifikasi. Apa yang akan kita lalukan terhadap data yang kita miliki
secara umum dan urutan langkahnya
digambarkan dalam Untuk ilustrasi lebih jauh, lihat sebagian
data Iris Fisher (1936) dalam Tabel 1.1 berikut yang
menandakan jenis bunga berdasarkan panjang
sepal, lebar sepal, panjang petal dan
lebar petal.
Sedangkan jenis bunga bisa di kelompokkan alam Virginica, Setosa dan Versicolor .
Jenis - jenis bunga
iris ini bisa diubah ke dalam nilai numeric,
misalkan 1 untuk Virginica, 2 untuk
Setosa dan 3 untuk
Versicolor. Dalam hal ini, panjang panjang sepal, lebar
sepal, panjang petal dan lebar petal
kita sebut
Sebagai
atribut atau variabel. Nilai dari variabel ini kita sebut input. Sedangkan
jenis bunga kita namakan
sebagai output.
EmoticonEmoticon