BAB I
PENDAHULUAN
1.1. Latar Belakang
Data ialah bahan mentah yang perlu diolah
sehingga menghasilkan informasi atau keterangan, baik kualitatif maupun
kuantitatif yang menunjukkan fakta. Sedangkan perolehan data seyogyanya
relevaan artinya data yang ada hubungannya langsung dengan masalah penelitian,
mutakhir artinya data yang diperoleh masih hangat dibicarakan, dan diusahakan
oleh orang pertama (data primer).
Data yang sudah memenuhi syarat perlu diolah.
Pengolahan data merupakan kegiatan terpenting dalam proses dan kegiatan
penelitian. Kekeliruan memilih analisis dan perhitungan akan berakibat fatal
pada kesimpulan, generalisasi maupun interpretasi. Hal ini perlu dikaji secara
mendalam hal-hal yang menyangkut pengolahan data, supaya bisa memilih dan
menentukan secara tepat dalam pengolahan data.
1.2 Tujuan
Tujuan dari penulisan ini adalah untuk
mengetahui lebih lanjut tentang teknik atau metode pengolahan data, Data
Mining, Web Mining, Machine Learning.
BAB II
ISI
2.1 PENGOLAHAN DATA
2.1.1 Langkah Pengolahan
Data
Langkah-langkah pengolahan data adalah sebagai berikut:
a. Penyusunan data
Data
yang sudah ada perlu dikumpulkan semua agar mudah untuk mengecek apakah semua
data yang dibutuhkan sudah terekap semua. Kegiatan ini dimaksudkan untuk
menguji hipotesis penelitian. Penyusunan data harus dipilih data yang ada
hubungannya dengan penelitian, dan benar-benar otentik. Adapun data yang
diambil melalui wawancara harus dipisahkan antara pendapat responden dan
pendapat interviwer.
b. Klasifikasi data
Klasifikasi
data merupakan usaha menggolongkan, mengelompokkan, dan memilah data
berdasarkan pada klasifikasi tertentu yang telah dibuat dan ditentukan oleh
peneliti. Keuntungan klasifikasi data ini adalah untuk memudahkan pengujian
hipotesis.
c. Pengolahan data
Pengolahan
data dilakukan untuk menguji hipotesis yang telah dirumuskan. Hipotesis yang
akan diuji harus berkaitan dan berhubungan dengan permasalahan yang akan
diajukan. Semua jenis penelitian tidak harus berhipotesis akan tetapi semua
jenis penelitian wajib merumuskan masalahnya, sedangkan penelitian yang
menggunakan hipotesis adalah metode eksperimen. Jenis data akan menentukan
apakah peneliti akan menggunakan teknik kualitatif atau kuantitatif. Data
kualitatif diolah dengan menggunakan teknik statistika baik statistika non
parametrik maupun statistika parametrik. Statistika non parametrik tidak
menguji parameter populasi akan tetapi yang diuji adalah distribusi yang
menggunakan asumsi bahwa data yang akan dianalisis tidak terikat dengan adanya
distribusi normal atau tidak harus berdistribusi normal dan data yang banyak
digunakan untuk statistika non parametrik adalah data nominal atau data
ordinal.
d. Interpretasi hasil pengolahan data
Tahap
ini menerangkan setelah peneliti menyelesaikan analisis datanya dengan cermat.
Kemudian langkah selanjutnya peneliti menginterpretasikan hasil analisis
akhirnya peneliti menarik suatu kesimpulan yang berisikan intisari dari seluruh
rangkaian kegiatan penelitian dan membuat rekomendasinya. Menginterpretasikan
hasil analisis perlu diperhatikan hal-hal antara lain: interpretasi tidak
melenceng dari hasil analisis, interpretasi harus masih dalam batas kerangka
penelitian, dan secara etis peneliti rela mengemukakan kesulitan dan
hambatan-hambatan sewaktu dalam penelitian.
2.2 DATA MINING
2.2.1 Pengertian Data Mining
Data
Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit
barang berharga dari sejumlah besar material dasar. Karena itu Data Mining
sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan
buatan (artificial intelligent), machine learning, statistik dan database. Data
mining adalah proses menerapkan metode ini untuk data dengan maksud untuk
mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses
untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin
penting untuk mengubah data tersebut menjadi informasi. Hal ini sering
digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan
deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis,
ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan
penumpang penerbangan, data sensus dan supermarket scanner data untuk
menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam
analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap
collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data
mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili
seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis
tertentu dan perilaku yang ada di bagian lain dari domain. Untuk mengatasi
masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan
pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia.
Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau
dihapus sama sekali, selama konstruksi desain eksperimental.
Beberapa
teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya
antara lain: clustering, classification, association rule mining, neural
network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap
Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada
database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut
hanya dapat dipakai untuk data skala kecil saja.
2.2.2 Proses Data Mining
1. Pembersihan data dan integritas data (Cleaning & Integration)
Proses ini digunakan untuk membuang data yang
tidak konsisten dan bersifat noise dari data yang terdapat di berbagai
basisdata yang mungkin berbeda format maupun platform yang kemudian
dinintegrasikan dalam satu database datawarehouse
2. Seleksi dan transformasi data (selection and
transformation)
Data yang ada dalam database datawarehouse
kemudian direduksi untuk mendapatkan hasil yang akurat. Beberapa cara seleksi,
antara lain :
a. Metode seleksi pada data Mining
·
Sampling, adalah seleksi
subset representatif dari populasi data yang besar.
·
Denoising, adalah proses
menghilangkan noise dari data yang akan ditransformasikan
·
Feature extraction,
adalah proses membuka spesifikasi data yang signifikan dalam konteks tertentu
b. Metode transformasi pada Data Mining
·
Centering, mengurangi
setiap data dengan rata-rata dari setiap atribut yang ada.
·
Normalisation, membagi
setiap data yang dicentering dengan standar deviasi dari atribut bersangkutan.
·
Scaling, mengubah data
sehingga berada dalam skala tertentu.
3. Penambangan data (data mining)
Data yang telah ditransformasi, kemudian
ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola
atau informasi menarik dalam data terpilih dengan menggunkan fungsi-fungsi
tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi, dimana
pemilihannya bergantung pada tujuan dan proses pencarian pengetahuan secara
menyeluruh.
4. Evaluasi pola dan presentasi pengetahuan
Tahap ini merupakan bagian dari proses pencarian
pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah terakhir
KDD adalah mempresentasikan pengetahuan dalam bentuk yang mudah dipahami
pengguna.
2.2.3. Manfaat Data Mining
A.
Dari sudut pandang
komersial
Pemanfaatan data mining dapat digunakan dalam
menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya
serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan
informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk
meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan
untuk menangani persoalan menumpuknya data/informasi dan bagaimana
menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining
juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis
itu sendiri, misalnya :
1. Bagaimana mengetahui hilangnya pelanggan karena
pesaing
2. Bagaimana mengetahui item produk atau konsumen
yang memiliki kesamaan karakteristik
3. Bagaimana mengidentifikasi produk-produk yang
terjual bersamaan dengan produk lain
4.Bagaimana memprediski tingkat penjualan
5.Bagaimana menilai tingkat resiko dalam
menentukan jumlah produksi suatu item.
6.Bagaimana memprediksi prilaku bisnis di masa
yang akan datang
B. Dari sudut pandang keilmuan
Data mining dapat digunakan untuk mengcapture,
menganlisis serta menyimpan data yang bersifat real-time dan sangat besar,
misal :
1. Remote sensor yang ditempatkan pada suatu satelit.
2.Teleskop yang digunakan untuk memindai langit.
3.Simulasi saintifik yang membangkitkan data dalam
ukuran terabytes.
2.3
Web Mining
2.3.1 Pengertian Web Mining
Web mining adalah ekstraksi
pola-pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan
data yang relatif besar pada layanan world wide web. Web mining teridiri atas
tiga bagian yaitu: web content mining, web structure mining, dan web usage mining.
Web content mining adalah
suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau
data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada
dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video,
metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung
melakukan mining terhadap data, dan kedua melakukan pencarian serta mengimprove
hasil pencarian seperti layaknya search engine.
Web struncture mining
dikenal juga sebagai web log mining
adalah teknik yang digunakan untuk menemukan struktur link dari hyperlink dan
membangun rangkuman website dan halaman
web. Salah satu manfaatnya adlah untuk
menentukan pagerank pada suatu halaman web.
Web usage mining adalah
teknik untuk mengenali perilaku pelanggan dan struktur web melalui informasi
yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool yang
sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log.
Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage
mining adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan
ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market
yang sesuai.
2.3.2 Jenis Web Mining
Berdasarkan jenis data
primer yang digunakan dalam proses penggalian informasi, web mining dapat
dikategorikan menjadi 3 jenis,
yaitu: web structure
mining, web content mining, dan web usage mining.
A. Web Structure Mining
Web structure mining
bertujuan untuk menemukan pengetahuan yang bermanfaat dari hyperlinks, di mana
hyperlinks tersebut menggambarkan mengenai struktur Web. Hyperlink merupakan
sebuah tautan yang terdapat pada suatu halaman web dan merujuk ke bagian lain
pada halaman yang sama atau ke halaman lain. Pemanfaatan yang paling populer
dari web structure mining adalah untuk menentukan tingkat otoritas suatu
halaman web. Mesin pencari Google menggunakan informasi tersebut untuk
menentukan urutan hasil pencariannya. Sebuah algoritma web structure mining,
PageRank, ditemukan oleh dua pendiri Google: Larry Page dan Sergey Brin. Web
structure mining dapat juga diaplikasikan untuk mengkluster atau
mengklasifikasikan halaman web (Gomes dan Gong, 2005).
B. Web Content Mining
Web content mining
bertujuan untuk mengekstrak informasi atau pengetahuan yang bermanfaat dari isi
halaman web. Terdapat dua kategori dalam web content mining: ekstraksi data
terstruktur dan text mining. Ide mengenai ekstraksi data terstruktur berasal
dari hasil pengamatan bahwa kebanyakan situs web menampilkan informasi penting
yang berasal dari basisdata mereka menggunakan suatu template tertentu. Kita
dapat mengidentifikasi template tersebut dengan mencari pola-pola yang berulang
dalam halaman web. Selain data terstruktur, halaman web juga mengandung banyak
sekali teks yang tidak terstruktur yang ditulis dalam bahasa natural.
Penggalian informasi dari teks seperti ini merupakan domain dari text mining.
Salah satu hal yang penting untuk dilakukan dalam text mining adalah
mengekstrak pendapat atau sentimen orang-orang dalam tinjauan produk, forum,
jejaring sosial, dan blog.
C. Web Usage Mining
Web usage mining bertujuan
untuk menangkap dan memodelkan pola perilaku dan profil dari pengunjung web.
Pola-pola tersebut dapat digunakan untuk meningkatkan pemahaman mengenai
perilaku dari segmen-segmen pengunjung web yang berbeda, untuk memaksimalkan
tata letak dan struktur dari situs web, dan untuk memberikan informasi yang
sesuai dengan profil pengunjung. Berbeda dengan dua jenis web mining
sebelumnya, sumber data primer dari web usage mining adalah log akses web
server, bukan halaman web.
2.4 MACHINE LEARNING
2.4.1 Pengertian dan Definisi Machine Learning
Machine Learning, cabang dari kecerdasan
buatan, adalah disiplin ilmu yang mencakup perancangan dan pengembangan
algoritma yang memungkinkan komputer untuk mengembangkan perilaku yang
didasarkan pada data empiris, seperti dari sensor data basis data. Sistem
pembelajar dapat memanfaatkan contoh (data) untuk menangkap ciri yang
diperlukan dari probabilitas yang mendasarinya (yang tidak diketahui). Data
dapat dilihat sebagai contoh yang menggambarkan hubungan antara variabel yang
diamati. Fokus besar penelitian pembelajaran mesin adalah bagaimana mengenali
secara otomatis pola kompleks dan membuat keputusan cerdas berdasarkan data.
Kesukarannya terjadi karena himpunan semua peri laku yang mungkin, dari semua
masukan yang dimungkinkan, terlalu besar untuk diliput oleh himpunan contoh
pengamatan (data pelatihan). Karena itu pembelajar harus merampatkan
(generalisasi) perilaku dari contoh yang ada untuk menghasilkan keluaran yang
berguna dalam kasus-kasus baru.
2.4.2 Sejarah dan Perbedaan Machine Learning
dengan Data Mining
Pada tahun 1951, John McCarthy yang baru saja
mendapatkan gelar PhD meyakinkan Minsky, Claude Shannon, dan Nathaniel
Rochester untuk membantunya membawa peneliti Amerika Serikat yang memiliki
ketertarikan pada teori automata, jaring syaraf, dan studi mengenai kecerdasan
menjadi satu. Mereka mengorganisir
sebuah lokakarya di Dartmouth College di Hanover, New Hampshire pada tahun
1956. Pada saat itulah dianggap menjadi
tahun lahirnya kecerdasan buatan. Sejak
awal, para peneliti kecerdasan buatan tidak segan membuat prediksi mengenai
keberhasilan dari kecerdasan buatan ini.
Pada awalnya kecerdasan buatan berkembang
cukup pesat, hal ini disebabkan karena ekspektasi yang terlalu tinggi dari para
peneliti di bidang ini. Hingga pada tahun 1974, bidang kecerdasan buatan mulai
kurang diminati. Sampai pada tahun 1980, ketertarikan terhadap kecerdasan
buatan sebagai bidang penelitian mulai bangkit kembali. Salah satu yang
mendukung hal ini adalah hasil kerja Yarowsky (1995), ia melakukan percobaan
menggunakan pembelajaran mesin dan mendapatkan hasil diatas 96% untuk ke
akuratan dari percobaannya. Setelah Yarowsky banyak orang-orang yang melakukan
percobaan menggunakan pembelajaran mesin dan mendapatkan hasil yang memuaskan,
dari sinilah pembelajaran mesin dapat semakin berkembang hingga hari ini.
Dari definisi yang telah dijelaskan
sebelumnya, dapat disimpulkan bahwa pada Machine Learning berkaitan dengan
studi, desain dan pengembangan dari suatu algoritma yang dapat memungkinkan
sebuah komputer dapat belajar tanpa harus diprogram secara eksplisit. Sedangkan
pada data mining dilakukan proses yang dimulai dari data yang tidak terstruktur
lalu diekstrak agar mendapatkan suatu pengetahuan ataupun sebuah pola yang
belum diketahui. Selama proses data mining itulah algoritma dari Machine learning
digunakan
2.4.3 Aplikasi Machine
Learning dan Dampaknya pada Masyarakat
A. Aplikasi Machine Learning
Contoh penerapan machine learning dalam
kehidupan adalah sebagai berikut.
1. Penerapan di bidang kedoteran contohnya
adalah mendeteksi penyakit seseorang dari gejala yang ada. Contoh lainnya
adalah mendeteksi penyakit jantung dari rekaman elektrokardiogram.
2. Pada bidang computer vision contohnya
adalah penerapan pengenalan wajah dan pelabelan wajah seperti pada facebook.
Contoh lainnya adalah penterjemahan tulisan tangan menjadi teks.
3. Pada biang information retrival contohnya
adalah penterjemahan bahasa dengan menggunakan komputer, mengubah suara menjadi
teks, dan filter email spam.
Salah satu teknik pengaplikasian machine
learning adalah supervised learning. Seperti yang dibahas sebelumnya, machine
learning tanpa data maka tidak akan bisa bekerja. Oleh karena itu hal yang
pertama kali disiapkan adalah data. Data biasanya akan dibagi menjadi 2
kelompok, yaitu data training dan data testing. Data training nantinya akan
digunakan untuk melatih algoritma untuk mencari model yang cocok, sementara
data testing akan dipakai untuk mengetes dan mengetahui performa model yang
didapatkan pada tahapan testing.
Dari model yang didapatkan, kita dapat
melakukan prediksi yang dibedakan menjadi dua macam, tergantung tipe
keluarannya. Jika hasil prediksi bersifat diskrit, maka dinamakan proses
klasifikasi. Contohnya klasifikasi jenis kelamin dilihat dari tulisan tangan
(output laki dan perempuan). Sementara jika kelurannya bersifat kontinyu, maka
dinamakan proses regresi. Contohnya prediksi kisaran harga rumah di kota
Bandung (output berupa harga rumah).
B. Dampak Machine Learning di Masyarakat
Penerapan teknologi machine learning mau
tidak mau pasti telah dirasakan sekarang. Setidaknya ada dua dampak yang saling
bertolak belakang dari pengembangan teknolgi machine learning. Ya, dampak
positif dan dampak negatif.
Salah satu dampak positif dari machine
learning adalah menjadi peluang bagi para wirausahawan dan praktisi teknologi
untuk terus berkarya dalam mengembangkan teknologi machine learning.
Terbantunya aktivitas yang harus dilakukan manusia pun menjadi salah satu
dampak positif machine learning. Sebagai contohnya adalah adanya fitur pengecekan
ejaan untuk tiap bahasa pada Microsoft Word. Pengecekan secara manual akan
memakan waktu berhari-hari dan melibatkan banyak tenaga untuk mendapatkan
penulisan yang sempurna. Tapi dengan bantuan fitur pengecekan ejaan tersebut,
secara real-time kita bisa melihat kesalahan yang terjadi pada saat pengetikan.
Akan tetapi disamping itu ada dampak negatif
yang harus kita waspadai. Adanya pemotongan tenaga kerja karena pekerjaan telah
digantikan oleh alat teknologi machine learning adalah suatu permasalahan yang
harus dihadapi. Ditambah dengan ketergantungan terhadap teknologi akan semakin
terasa. Manusia akan lebih terlena oleh kemampuan gadget-nya sehingga lupa
belajar untuk melakukan suatu aktivitas tanpa bantuan teknologi.
BAB III
KESIMPULAN
3. Kesimpulan
Pengolahan
data merupakan salah satu bagian penting dalam penelitian dimana dalam
prosesnya terdapat metode pengumpulan data, peringkasan data hingga
pengelompokkannya. Dari segenap kegiatan yang dilakukan dalam pengolahan data,
semata – mata bertujuan untuk dapat membantu jalannya penelitian agar dapat
mencapai tujuannya yaitu melihat, memecahkan dan menjawab persoalan yang tengah
dipertanyakan dalam penelitian.
Sumber dari:
a b c d e f g h i j S. J. Russell, P. Norvig, J.
F. Canny, J. M. Malik, and D. D. Edwards, Artificial Intelligence: A Modern
Approach, vol. 2. Prentice hall Englewood Cliffs, 1995.
M. J. Zaki, W. Meira Jr., Data Mining and
Analysis: Fundamental Concepts and Algorithms, Cambridge University Press,
2014.
J. Han, M. Kamber, Data Mining: Concepts and
Techniques, Morgan Kaufmann, 2006.
K. P. Murphy, Machine Learning: A Probabilistic
Perspective, The MIT Press, Cambridge, Massachusetts, London, England.
https://en.wikipedia.org/wiki/Machine_learning
S. Hayken, Neural Networks: A Comprehensive
Foundation, Macmillan College Publishing Company, 1994.
B. R. Jipkate, V. V. Gohokar, A Comparative
Analysis of Fuzzy C-Means Clustering and K Means Clustering Algorithms,
International Journal of Computational Engineering Research, ISSN: 2250-3005.
T. Finley, T. Joachims, Supervised Clustering
with Support Vector Machine, Department of Computer Science, Cornell
University, Ithaca, NY 14853 USA.
Ben-Gal I., Bayesian Networks, in Ruggeri F.,
Faltin F. & Kenett R., Encyclopedia of Statistics in Quality &
Reliability, Wiley & Sons (2007).
S. Muggleton, L. D. Raedt, Inductive Logic
Programming: Theory and Methods, Journal of Logic Programming, 1994: 19, 20:
629-679.
http://niarissabil.blogspot.co.id/2014/11/pengolahan-data.html
http://niarissabil.blogspot.co.id/2014/11/pengolahan-data.html
http://gsbipb.com/?p=821
http://blog.seagatesoft.com/2012/03/18/apa-itu-web-mining/
http://blog.seagatesoft.com/2012/05/28/structured-data-extractor-implementasi-metode-data-extraction-based-on-partial-tree-alignment-depta/
http://analisis-proses-bisnis-koperasi.blogspot.co.id/2013/04/pengertian-data-mining-text-mining-dan.html
https://www.codepolitan.com/mengenal-teknologi-machine-learning-pembelajaran-mesin
https://bidanshop.blogspot.co.id/2010/02/teknik-pengolahan-data.html
http://adnyani.blogspot.co.id/2008/11/tinjauan-pustaka-latar-belakang.html
Tidak ada komentar:
Posting Komentar