Jumat, 05 Mei 2017

METODE PENGOLAHAN DATA

BAB I
PENDAHULUAN
     1.1. Latar Belakang
Data ialah bahan mentah yang perlu diolah sehingga menghasilkan informasi atau keterangan, baik kualitatif maupun kuantitatif yang menunjukkan fakta. Sedangkan perolehan data seyogyanya relevaan artinya data yang ada hubungannya langsung dengan masalah penelitian, mutakhir artinya data yang diperoleh masih hangat dibicarakan, dan diusahakan oleh orang pertama (data primer).
Data yang sudah memenuhi syarat perlu diolah. Pengolahan data merupakan kegiatan terpenting dalam proses dan kegiatan penelitian. Kekeliruan memilih analisis dan perhitungan akan berakibat fatal pada kesimpulan, generalisasi maupun interpretasi. Hal ini perlu dikaji secara mendalam hal-hal yang menyangkut pengolahan data, supaya bisa memilih dan menentukan secara tepat dalam pengolahan data.

1.2 Tujuan
            Tujuan dari penulisan ini adalah untuk mengetahui lebih lanjut tentang teknik atau metode pengolahan data, Data Mining, Web Mining, Machine Learning.

BAB II
ISI
2.1 PENGOLAHAN DATA
2.1.1 Langkah Pengolahan Data
         Langkah-langkah pengolahan data adalah sebagai berikut:
a.      Penyusunan data
Data yang sudah ada perlu dikumpulkan semua agar mudah untuk mengecek apakah semua data yang dibutuhkan sudah terekap semua. Kegiatan ini dimaksudkan untuk menguji hipotesis penelitian. Penyusunan data harus dipilih data yang ada hubungannya dengan penelitian, dan benar-benar otentik. Adapun data yang diambil melalui wawancara harus dipisahkan antara pendapat responden dan pendapat interviwer.
b.     Klasifikasi data
Klasifikasi data merupakan usaha menggolongkan, mengelompokkan, dan memilah data berdasarkan pada klasifikasi tertentu yang telah dibuat dan ditentukan oleh peneliti. Keuntungan klasifikasi data ini adalah untuk memudahkan pengujian hipotesis.
c.      Pengolahan data
Pengolahan data dilakukan untuk menguji hipotesis yang telah dirumuskan. Hipotesis yang akan diuji harus berkaitan dan berhubungan dengan permasalahan yang akan diajukan. Semua jenis penelitian tidak harus berhipotesis akan tetapi semua jenis penelitian wajib merumuskan masalahnya, sedangkan penelitian yang menggunakan hipotesis adalah metode eksperimen. Jenis data akan menentukan apakah peneliti akan menggunakan teknik kualitatif atau kuantitatif. Data kualitatif diolah dengan menggunakan teknik statistika baik statistika non parametrik maupun statistika parametrik. Statistika non parametrik tidak menguji parameter populasi akan tetapi yang diuji adalah distribusi yang menggunakan asumsi bahwa data yang akan dianalisis tidak terikat dengan adanya distribusi normal atau tidak harus berdistribusi normal dan data yang banyak digunakan untuk statistika non parametrik adalah data nominal atau data ordinal.
d.     Interpretasi hasil pengolahan data
Tahap ini menerangkan setelah peneliti menyelesaikan analisis datanya dengan cermat. Kemudian langkah selanjutnya peneliti menginterpretasikan hasil analisis akhirnya peneliti menarik suatu kesimpulan yang berisikan intisari dari seluruh rangkaian kegiatan penelitian dan membuat rekomendasinya. Menginterpretasikan hasil analisis perlu diperhatikan hal-hal antara lain: interpretasi tidak melenceng dari hasil analisis, interpretasi harus masih dalam batas kerangka penelitian, dan secara etis peneliti rela mengemukakan kesulitan dan hambatan-hambatan sewaktu dalam penelitian.

2.2 DATA MINING
2.2.1 Pengertian Data Mining
      Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.
         Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain. Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.
       Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.

2.2.2 Proses Data Mining
1. Pembersihan data dan integritas data (Cleaning & Integration)
Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian dinintegrasikan dalam satu database datawarehouse

2. Seleksi dan transformasi data (selection and transformation)
Data yang ada dalam database datawarehouse kemudian direduksi untuk mendapatkan hasil yang akurat. Beberapa cara seleksi, antara lain :
     a.      Metode seleksi pada data Mining
·        Sampling, adalah seleksi subset representatif dari populasi data yang besar.
·        Denoising, adalah proses menghilangkan noise dari data yang akan ditransformasikan
·        Feature extraction, adalah proses membuka spesifikasi data yang signifikan dalam konteks tertentu    
      b.     Metode transformasi pada Data Mining
·        Centering, mengurangi setiap data dengan rata-rata dari setiap atribut yang ada.
·        Normalisation, membagi setiap data yang dicentering dengan standar deviasi dari  atribut bersangkutan.
·        Scaling, mengubah data sehingga berada dalam skala tertentu.

3.  Penambangan data (data mining)
Data yang telah ditransformasi, kemudian ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunkan fungsi-fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi, dimana pemilihannya bergantung pada tujuan dan proses pencarian pengetahuan secara menyeluruh.

4. Evaluasi pola dan presentasi pengetahuan
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang mudah dipahami pengguna.

2.2.3. Manfaat Data Mining
A. Dari sudut pandang komersial
Pemanfaatan data mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data/informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya :
     1.     Bagaimana mengetahui hilangnya pelanggan karena pesaing
  2. Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan  karakteristik
     3. Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain
     4.Bagaimana memprediski tingkat penjualan
     5.Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item.
     6.Bagaimana memprediksi prilaku bisnis di masa yang akan datang
     B. Dari sudut pandang keilmuan
Data mining dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan sangat besar, misal :
     1. Remote sensor yang ditempatkan pada suatu satelit.
     2.Teleskop yang digunakan untuk memindai langit.
     3.Simulasi saintifik yang membangkitkan data dalam ukuran terabytes.

     2.3 Web Mining
2.3.1 Pengertian Web Mining
Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan data yang relatif besar pada layanan world wide web. Web mining teridiri atas tiga bagian yaitu: web content mining, web structure mining, dan web usage mining.
Web content mining adalah suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video, metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung melakukan mining terhadap data, dan kedua melakukan pencarian serta mengimprove hasil pencarian seperti layaknya search engine.
Web struncture mining dikenal juga  sebagai web log mining adalah teknik yang digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman website dan halaman  web. Salah satu manfaatnya adlah untuk  menentukan pagerank pada suatu halaman web.
Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log. Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage mining adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang sesuai.

2.3.2 Jenis Web Mining
Berdasarkan jenis data primer yang digunakan dalam proses penggalian informasi, web mining dapat dikategorikan menjadi 3 jenis,
yaitu: web structure mining, web content mining, dan web usage mining.
A.   Web Structure Mining
Web structure mining bertujuan untuk menemukan pengetahuan yang bermanfaat dari hyperlinks, di mana hyperlinks tersebut menggambarkan mengenai struktur Web. Hyperlink merupakan sebuah tautan yang terdapat pada suatu halaman web dan merujuk ke bagian lain pada halaman yang sama atau ke halaman lain. Pemanfaatan yang paling populer dari web structure mining adalah untuk menentukan tingkat otoritas suatu halaman web. Mesin pencari Google menggunakan informasi tersebut untuk menentukan urutan hasil pencariannya. Sebuah algoritma web structure mining, PageRank, ditemukan oleh dua pendiri Google: Larry Page dan Sergey Brin. Web structure mining dapat juga diaplikasikan untuk mengkluster atau mengklasifikasikan halaman web (Gomes dan Gong, 2005).

B.    Web Content Mining
Web content mining bertujuan untuk mengekstrak informasi atau pengetahuan yang bermanfaat dari isi halaman web. Terdapat dua kategori dalam web content mining: ekstraksi data terstruktur dan text mining. Ide mengenai ekstraksi data terstruktur berasal dari hasil pengamatan bahwa kebanyakan situs web menampilkan informasi penting yang berasal dari basisdata mereka menggunakan suatu template tertentu. Kita dapat mengidentifikasi template tersebut dengan mencari pola-pola yang berulang dalam halaman web. Selain data terstruktur, halaman web juga mengandung banyak sekali teks yang tidak terstruktur yang ditulis dalam bahasa natural. Penggalian informasi dari teks seperti ini merupakan domain dari text mining. Salah satu hal yang penting untuk dilakukan dalam text mining adalah mengekstrak pendapat atau sentimen orang-orang dalam tinjauan produk, forum, jejaring sosial, dan blog.

C.    Web Usage Mining
Web usage mining bertujuan untuk menangkap dan memodelkan pola perilaku dan profil dari pengunjung web. Pola-pola tersebut dapat digunakan untuk meningkatkan pemahaman mengenai perilaku dari segmen-segmen pengunjung web yang berbeda, untuk memaksimalkan tata letak dan struktur dari situs web, dan untuk memberikan informasi yang sesuai dengan profil pengunjung. Berbeda dengan dua jenis web mining sebelumnya, sumber data primer dari web usage mining adalah log akses web server, bukan halaman web.

      2.4 MACHINE LEARNING
     2.4.1 Pengertian dan Definisi Machine Learning
     Machine Learning, cabang dari kecerdasan buatan, adalah disiplin ilmu yang mencakup perancangan dan pengembangan algoritma yang memungkinkan komputer untuk mengembangkan perilaku yang didasarkan pada data empiris, seperti dari sensor data basis data. Sistem pembelajar dapat memanfaatkan contoh (data) untuk menangkap ciri yang diperlukan dari probabilitas yang mendasarinya (yang tidak diketahui). Data dapat dilihat sebagai contoh yang menggambarkan hubungan antara variabel yang diamati. Fokus besar penelitian pembelajaran mesin adalah bagaimana mengenali secara otomatis pola kompleks dan membuat keputusan cerdas berdasarkan data. Kesukarannya terjadi karena himpunan semua peri laku yang mungkin, dari semua masukan yang dimungkinkan, terlalu besar untuk diliput oleh himpunan contoh pengamatan (data pelatihan). Karena itu pembelajar harus merampatkan (generalisasi) perilaku dari contoh yang ada untuk menghasilkan keluaran yang berguna dalam kasus-kasus baru.

2.4.2 Sejarah dan Perbedaan Machine Learning dengan Data Mining
Pada tahun 1951, John McCarthy yang baru saja mendapatkan gelar PhD meyakinkan Minsky, Claude Shannon, dan Nathaniel Rochester untuk membantunya membawa peneliti Amerika Serikat yang memiliki ketertarikan pada teori automata, jaring syaraf, dan studi mengenai kecerdasan menjadi satu.  Mereka mengorganisir sebuah lokakarya di Dartmouth College di Hanover, New Hampshire pada tahun 1956.  Pada saat itulah dianggap menjadi tahun lahirnya kecerdasan buatan.  Sejak awal, para peneliti kecerdasan buatan tidak segan membuat prediksi mengenai keberhasilan dari kecerdasan buatan ini.
Pada awalnya kecerdasan buatan berkembang cukup pesat, hal ini disebabkan karena ekspektasi yang terlalu tinggi dari para peneliti di bidang ini. Hingga pada tahun 1974, bidang kecerdasan buatan mulai kurang diminati. Sampai pada tahun 1980, ketertarikan terhadap kecerdasan buatan sebagai bidang penelitian mulai bangkit kembali. Salah satu yang mendukung hal ini adalah hasil kerja Yarowsky (1995), ia melakukan percobaan menggunakan pembelajaran mesin dan mendapatkan hasil diatas 96% untuk ke akuratan dari percobaannya. Setelah Yarowsky banyak orang-orang yang melakukan percobaan menggunakan pembelajaran mesin dan mendapatkan hasil yang memuaskan, dari sinilah pembelajaran mesin dapat semakin berkembang hingga hari ini.
Dari definisi yang telah dijelaskan sebelumnya, dapat disimpulkan bahwa pada Machine Learning berkaitan dengan studi, desain dan pengembangan dari suatu algoritma yang dapat memungkinkan sebuah komputer dapat belajar tanpa harus diprogram secara eksplisit. Sedangkan pada data mining dilakukan proses yang dimulai dari data yang tidak terstruktur lalu diekstrak agar mendapatkan suatu pengetahuan ataupun sebuah pola yang belum diketahui. Selama proses data mining itulah algoritma dari Machine learning digunakan

2.4.3 Aplikasi Machine Learning dan Dampaknya pada Masyarakat
A. Aplikasi Machine Learning
Contoh penerapan machine learning dalam kehidupan adalah sebagai berikut.
1. Penerapan di bidang kedoteran contohnya adalah mendeteksi penyakit seseorang dari gejala yang ada. Contoh lainnya adalah mendeteksi penyakit jantung dari rekaman elektrokardiogram.

2. Pada bidang computer vision contohnya adalah penerapan pengenalan wajah dan pelabelan wajah seperti pada facebook. Contoh lainnya adalah penterjemahan tulisan tangan menjadi teks.
3. Pada biang information retrival contohnya adalah penterjemahan bahasa dengan menggunakan komputer, mengubah suara menjadi teks, dan filter email spam.
Salah satu teknik pengaplikasian machine learning adalah supervised learning. Seperti yang dibahas sebelumnya, machine learning tanpa data maka tidak akan bisa bekerja. Oleh karena itu hal yang pertama kali disiapkan adalah data. Data biasanya akan dibagi menjadi 2 kelompok, yaitu data training dan data testing. Data training nantinya akan digunakan untuk melatih algoritma untuk mencari model yang cocok, sementara data testing akan dipakai untuk mengetes dan mengetahui performa model yang didapatkan pada tahapan testing.
Dari model yang didapatkan, kita dapat melakukan prediksi yang dibedakan menjadi dua macam, tergantung tipe keluarannya. Jika hasil prediksi bersifat diskrit, maka dinamakan proses klasifikasi. Contohnya klasifikasi jenis kelamin dilihat dari tulisan tangan (output laki dan perempuan). Sementara jika kelurannya bersifat kontinyu, maka dinamakan proses regresi. Contohnya prediksi kisaran harga rumah di kota Bandung (output berupa harga rumah).
B. Dampak Machine Learning di Masyarakat
Penerapan teknologi machine learning mau tidak mau pasti telah dirasakan sekarang. Setidaknya ada dua dampak yang saling bertolak belakang dari pengembangan teknolgi machine learning. Ya, dampak positif dan dampak negatif.
Salah satu dampak positif dari machine learning adalah menjadi peluang bagi para wirausahawan dan praktisi teknologi untuk terus berkarya dalam mengembangkan teknologi machine learning. Terbantunya aktivitas yang harus dilakukan manusia pun menjadi salah satu dampak positif machine learning. Sebagai contohnya adalah adanya fitur pengecekan ejaan untuk tiap bahasa pada Microsoft Word. Pengecekan secara manual akan memakan waktu berhari-hari dan melibatkan banyak tenaga untuk mendapatkan penulisan yang sempurna. Tapi dengan bantuan fitur pengecekan ejaan tersebut, secara real-time kita bisa melihat kesalahan yang terjadi pada saat pengetikan.
Akan tetapi disamping itu ada dampak negatif yang harus kita waspadai. Adanya pemotongan tenaga kerja karena pekerjaan telah digantikan oleh alat teknologi machine learning adalah suatu permasalahan yang harus dihadapi. Ditambah dengan ketergantungan terhadap teknologi akan semakin terasa. Manusia akan lebih terlena oleh kemampuan gadget-nya sehingga lupa belajar untuk melakukan suatu aktivitas tanpa bantuan teknologi.

BAB III
KESIMPULAN
3. Kesimpulan 
Pengolahan data merupakan salah satu bagian penting dalam penelitian dimana dalam prosesnya terdapat metode pengumpulan data, peringkasan data hingga pengelompokkannya. Dari segenap kegiatan yang dilakukan dalam pengolahan data, semata – mata bertujuan untuk dapat membantu jalannya penelitian agar dapat mencapai tujuannya yaitu melihat, memecahkan dan menjawab persoalan yang tengah dipertanyakan dalam penelitian.
Sumber dari:
a b c d e f g h i j S. J. Russell, P. Norvig, J. F. Canny, J. M. Malik, and D. D. Edwards, Artificial Intelligence: A Modern Approach, vol. 2. Prentice hall Englewood Cliffs, 1995.
M. J. Zaki, W. Meira Jr., Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, 2014.
J. Han, M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006.
K. P. Murphy, Machine Learning: A Probabilistic Perspective, The MIT Press, Cambridge, Massachusetts, London, England.
https://en.wikipedia.org/wiki/Machine_learning
S. Hayken, Neural Networks: A Comprehensive Foundation, Macmillan College Publishing Company, 1994.
B. R. Jipkate, V. V. Gohokar, A Comparative Analysis of Fuzzy C-Means Clustering and K Means Clustering Algorithms, International Journal of Computational Engineering Research, ISSN: 2250-3005.
T. Finley, T. Joachims, Supervised Clustering with Support Vector Machine, Department of Computer Science, Cornell University, Ithaca, NY 14853 USA.
Ben-Gal I., Bayesian Networks, in Ruggeri F., Faltin F. & Kenett R., Encyclopedia of Statistics in Quality & Reliability, Wiley & Sons (2007).
S. Muggleton, L. D. Raedt, Inductive Logic Programming: Theory and Methods, Journal of Logic Programming, 1994: 19, 20: 629-679.
http://niarissabil.blogspot.co.id/2014/11/pengolahan-data.html
http://gsbipb.com/?p=821
http://blog.seagatesoft.com/2012/03/18/apa-itu-web-mining/
http://blog.seagatesoft.com/2012/05/28/structured-data-extractor-implementasi-metode-data-extraction-based-on-partial-tree-alignment-depta/
http://analisis-proses-bisnis-koperasi.blogspot.co.id/2013/04/pengertian-data-mining-text-mining-dan.html
https://www.codepolitan.com/mengenal-teknologi-machine-learning-pembelajaran-mesin
https://bidanshop.blogspot.co.id/2010/02/teknik-pengolahan-data.html
http://adnyani.blogspot.co.id/2008/11/tinjauan-pustaka-latar-belakang.html



Tidak ada komentar:

Posting Komentar

Manchester City