PENGERTIAN DATA MINING, TEXT MINING DAN WEB
MINING
1.
Data Mining
Data Mining adalah serangkaian proses
untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang
selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri
berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar
material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang
dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine
learning, statistik dan database. Data mining adalah proses menerapkan metode
ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan
arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data
mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi
informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti
pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan
selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring
volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan
supermarket scanner data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.
Latar Belakang
Terbentuknya Data Mining
- Melimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan atau organisasi.
- Merlimpahnya data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun..
- Data–data tersebut merupakan data transaksi yang umumnya diproses menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line Transaction Processing).
Fungsi - Fungsi
Umum Data Mining
- Assosiation, adalah proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu
- Sequence, proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu dan diterapkan lebih dari satu periode
- Clustering, adalah proses pengelompokan seumlah data/obyek ke dalam kelompok data sehingga setiap kelompok berisi data yang mirip
- Classification, proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
- Regretion, adalah proses pemetaan data dalam suatu nilai prediksi
- Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan data.
- Solution, adalah proses penemuan akar masalah dan problem solving dari persoalan bisnis yang dihadapkai atau paling tidak sebagai informasi dalam pengambilan keputusan.
Proses Data
Mining
1. Pembersihan data dan integritas
data (Cleaning & Integration)
Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian dinintegrasikan dalam satu database datawarehouse
2. Seleksi dan transformasi data (selection and transformation)
Data yang ada dalam database datawarehouse kemudian direduksi untuk mendapatkan hasil yang akurat. Beberapa cara seleksi, antara lain :
Metode seleksi pada data Mining
Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian dinintegrasikan dalam satu database datawarehouse
2. Seleksi dan transformasi data (selection and transformation)
Data yang ada dalam database datawarehouse kemudian direduksi untuk mendapatkan hasil yang akurat. Beberapa cara seleksi, antara lain :
Metode seleksi pada data Mining
·
Sampling,
adalah seleksi subset representatif dari populasi data yang besar.
·
Denoising,
adalah proses menghilangkan noise dari data yang akan ditransformasikan
·
Feature
extraction, adalah proses membuka spesifikasi data yang signifikan dalam
konteks tertentu
Metode
transformasi pada Data Mining
·
Centering,
mengurangi setiap data dengan rata-rata dari setiap atribut yang ada.
· Normalisation,
membagi setiap data yang dicentering dengan standar deviasi dari
atribut
bersangkutan.
·
Scaling,
mengubah data sehingga berada dalam skala tertentu.
3. Penambangan data (data mining)
Data yang telah ditransformasi, kemudian ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunkan fungsi-fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi, dimana pemilihannya bergantung pada tujuan dan proses pencarian pengetahuan secara menyeluruh.
Data yang telah ditransformasi, kemudian ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunkan fungsi-fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi, dimana pemilihannya bergantung pada tujuan dan proses pencarian pengetahuan secara menyeluruh.
4. Evaluasi pola dan presentasi
pengetahuan
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang mudah dipahami pengguna.
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang mudah dipahami pengguna.
Manfaat Data Mining
Dari sudut pandang komersial
Pemanfaatan data mining dapat
digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya,
mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan
menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset
untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya
digunakan untuk menangani persoalan menumpuknya data/informasi dan bagaimana
menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data
mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan
bisnis itu sendiri, misalnya :
1.
Bagaimana
mengetahui hilangnya pelanggan karena pesaing
2. Bagaimana
mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik
3. Bagaimana
mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain
4.
Bagaimana
memprediski tingkat penjualan
5.
Bagaimana
menilai tingkat resiko dalam menentukan jumlah produksi suatu item.
6.
Bagaimana
memprediksi prilaku bisnis di masa yang akan datang
Dari sudut
pandang keilmuan
Data mining dapat digunakan untuk
mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan
sangat besar, misal :
1.
Remote
sensor yang ditempatkan pada suatu satelit.
2.
Teleskop
yang digunakan untuk memindai langit.
3.
Simulasi
saintifik yang membangkitkan data dalam ukuran terabytes.
2.
Text
Mining
Text mining memiliki definisi menambang data yang berupa teks dimana sumber
data biasanya di dapatkan dari dokumen, dan tujuannya adalah mencari kata-kata
yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan
antardokumen.
Sedangkan menurut situs wikipedia, Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipanteks, dll. Jenis masukan untuk penambangan teksini disebut data takter struktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevandari data teks terstrukturini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll.
Sedangkan menurut situs wikipedia, Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipanteks, dll. Jenis masukan untuk penambangan teksini disebut data takter struktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevandari data teks terstrukturini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll.
Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks text clustering).
Text Mining
Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu.
Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.
3. Web Mining
Web mining adalah ekstraksi
pola-pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan
data yang relatif besar pada layanan world wide web. Web mining
teridiri atas tiga bagian yaitu: web content mining, web structure
mining, dan web usage mining.
Web content
mining adalah suatu proses
otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada
prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen.
Isi data web antara lain dapat berupa teks, citra, audio, video, metadata, dan
hyperlink. Ada dua strategi yang umum digunakan: pertama langsung melakukan mining
terhadap data, dan kedua melakukan pencarian serta mengimprove hasil
pencarian seperti layaknya search engine.
Web struncture
mining dikenal juga sebagai
web log mining adalah teknik yang digunakan untuk menemukan struktur
link dari hyperlink dan membangun rangkuman website dan halaman web.
Salah satu manfaatnya adlah untuk menentukan pagerank pada suatu
halaman web.
Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web melalui
informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai
tool yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data
log. Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web
usage mining adalah untuk kustomosasi halaman berdasarkan profil pengguna,
menentukan ketertarikan pelanggan terhadap produk tertentu, dan menentukan
target market yang sesuai.
Kita juga punya nih artikel mengenai Data Flow Diagram, silahkan dikunjungi dan dibaca, berikut http://repository.gunadarma.ac.id/bitstream/123456789/1359/1/50407997.pdf
BalasHapusTerimakasih