Teknologi Big Data: Kunci Pesatnya Perkembangan Data Science

Oleh: Gede Karya, M.T., CISA, IPM (Dosen Program Studi Teknik Informatika UNPAR)

Pada Industri 4.0 beberapa teknologi berkembang pesat, diantaranya data science, artifisial inteligent (AI), internet of think (IoT), dan big data. Keempat teknologi tersebut saling berhubungan. Data science berkembang pesan karena didukung oleh tidak hanya metode-metode statistik, namun juga metode-metode yang berbasis AI. Metode-metode yang berbasis AI berkembang pesat dan semakin akurat karena didukung oleh tersedianya data yang melimpah (yang sering disebut corpus). Melimpahnya data terjadi karena pemanfaatan IoT di masyarakat kita. Kemampuan untuk mengakuisisi, menyimpan dan memproses data yang melimpah tersebut dimungkinkan dengan adanya teknologi big data.

Pada edisi Midup kali ini, kita akan membahas teknologi big data yang merupakan salah satu teknologi kunci pada era Industri 4.0. Pembahasan diawali dengan menjawab beberapa pertanyaan seputar big data, kemudian teknologi big data dan ekosistemnya. Pembahasan diakhiri dengan dengan mengenal laboratorium big data yang ada di program studik Teknik Informatika UNPAR. Mari kita ikuti uraian berikut ini.

Pertanyaan Seputar Big Data

Apa itu big data?  Dari berbagai pendapat yang dikumpulkan pada penelitian (De Mauro dkk., 2016) big data didefinisikan sebagai aset informasi yang dicirikan oleh karakteristik 3v, yaitu: volume, velocity dan variety yang tinggi, yang memerlukan metode dan teknologi tertentu untuk memprosesnya menjadi pengetahuan (knowledge) yang bernilai (value) dalam pengambilan keputusan. Aset informasi bermakna penting, karena data dianggap memiliki nilai yang tinggi bagi organisasi seperti aset lain (mesin, material, orang, modal, dan metode) dan dapat divaluasi (dinilai dalam satuan uang).

Mengapa fenomena big data berkembang pesat? Konsep hirarki data–information–knowledege–wisdom (DIKW) (Rowley, 2007) atau sering disebut sebagai wisdom hierarchy memberikan alasan yang masuk akal mengapa fenomena big data begitu berkembang. Dengan besarnya potensi data yang ada saat ini dan di masa depan, maka besar juga potensi informasi yang tersedia untuk ditransformasi menjadi pengetahuan (knowledge) sehingga dapat mengoptimalkan pengambilan keputusan (wisdom).

Dengan demikian, jika big data dapat ditangani dengan baik akan memberikan manfaat besar bagi organisasi, khususnya semakin bijaksana dalam mengambil keputusan yang didasarkan atas data (bersifat data driven), sehingga lincah dalam mengambil keputusan dalam perubahan kondisi lingkungan yang cepat berubah.

Big data memiliki karakteristik volume yang tinggi, dari terabytes ke zettabytes. Hal ini berkonsekuensi pada kapasitas penyimpanan dan kapasitas pemrosesan data yang tidak dapat ditangani oleh metode dan teknologi informasi konvensional saat ini. Metode dan teknik penyimpanan yang diterapkan hingga saat ini mengarah pada pemrosesan secara paralel pada lingkungan sistem terdistribusi, baik dari sisi media penyimpanan maupun pemrosesannya.

Karakteristik velocity pada big data mengubah sudut pandang pemrosesan data secara batch, menjadi pemrosesan data secara dinamis. Dengan demikian data tidak lagi dilihat secara statis, namun secara dinamis sebagai stream. Selain sebagai data stream, big data juga berkaitan dengan pergerakan data dalam jumlah besar (high volume movement) seperti data spasial, citra, dan lainnya.

Big data bersumber dari berbagai event. Semua kegiatan kita yang menggunakan komputer, gadget, sensor dan peralatan lainnya (IoT) menghasilkan big data. Selain sumber yang beraneka ragam, dari sisi struktur juga beraneka ragam, mulai dari yang terstruktur, seperti: data transaksi (pasar uang, e-commerce, dll), semi terstruktur, maupun yang tidak terstruktur, seperti: image, text opini pada media sosial maupun halaman web di internet. Untuk itu diperlukan metode dan teknologi untuk mengintegrasikan big data dari berbagai sumber dan dari format yang berbeda-beda tersebut.

Apa masalah utama dari big data? Masalah utama big data dikenal dengan istilah fenomena data deluge, suatu fenomena dimana laju pertumbuhan data lebih tinggi dari pada laju kemampuan memproses dan menganalisis data suatu organisasi. Oleh karena itu dalam memproses dan menganalisis data, kita memerlukan teknologi yang tidak konvensional lagi.

Kita memerlukan teknologi yang dapat mengimbangi laju pertumbuhan data yang meningkat seiring dengan waktu dan peningkatan penggunaan teknologi informasi dan komunikasi.

Teknologi Big Data

Teknologi big data merupakan teknologi khusus yang diperuntukkan untuk menangani masalah big data. Untuk menangani masalah volume, teknologi big data menggunakan teknik penyimpanan dan pemrosesan data terdistribusi. Masalah velocity ditangani dengan menggunakan pemrosesan stream dan terdistribusi. Sedangkan masalah variety ditangani menggunakan teknik integrasi data dan penyimpanan data tidak terstruktur (on write). Penentuan struktur dilakukan pada saat proses pembacaan data tersebut (on read).

Teknologi big data yang populer digunakan saat ini adalah teknologi Hadoop. Hadoop dikembangkan pada awalnya oleh Google (Ghemawat dkk., 2003), kemudian menjadi proyek Apache yang berdiri sendiri. Prinsip utama dari teknologi Hadoop adalah penyimpanan dan pemrosesan terdistribusi pada komputer-komputer komoditas yang terhubung dalam jaringan (sering disebut cluster).  Inti dari teknologi Hadoop adalah Hadoop Distributed File System (HDFS) untuk menangani penyimpanan data terdistribusi  dan Map Reduce untuk pemrosesan data terdistrubusi yang dilakukan pada komputer (node of cluster) tempat data disimpan. Untuk menyelesaikan berbagai persoalan komputasi, Hadoop didukung oleh berbagai teknologi yang secara keseluruhan sering disebut sebagai ekosistem Hadoop (Hadoop ecosystem).

Laboratorium Big Data di Prodi Teknik Informatika UNPAR

Untuk mendukung kegiatan perkuliahan, skripsi dan penelitian di bidang data science, program studi Teknik Informatika telah dilengkapi dengan laboratorium big data. Pada lab ini tersedia fasilitas komputasi dengan prosesor 80 core, memori sebesar 320 GB (Giga Byte) dan storage 32 TB (Tera Byte). Fasilitas tersebut secara fisik dalam bentuk komputer (PC) berspesifikasi tinggi yang terhubung dalam jaringan yang membentuk satu fasilitas komputasi terintegrasi (cluster). Selain itu juga terpasang ekosistem Hadoop dan siap digunakan, seperti: HDFS untuk menangani sistem penyimpanan file sekala besar, Yarn/ Map Reduce untuk pemrosesan sekala besar, dan Spark untuk pemrosesan paralel yang memerlukan memori sekala besar. Juga disediakan software HBase untuk pemrosesan basis data dan Hive untuk data warehouse dan kueri multi dimensi yang dilengkapi dengan software lain baik untuk populasi data (crawling), transfer data antar sistem dan analisis. Untuk publikasi dan antarmuka hasil analisis, disediakan juga software Apache Web Server, PHP dan MySQL.   

Dengan demikian lab Big Data merupakan fasilitas esensial yang mendukung pengembangan program data science di program studik Teknik Informatika khususnya dan UNPAR pada umumnya. Menjadi tempat bagi dosen dan mahasiswa untuk mengembangkan kompetensi dalam bidang data science.

Materi tentang teknologi big data ini juga terdapat pada buku Pengantar Data Science dan Aplikasinya bagi Pemula, yang disusun oleh Program Data Science – Teknik Informatika UNPAR, dan diterbitkan oleh Upar Press dengan nomor  ISBN: 978-623-7879-15-2. Buku ini juga dapat didownload melalui link: http://informatika.unpar.ac.id/wp-content/uploads/sites/19/2020/12/PengantarDataScience_dan_Aplikasinya_bagi_Pemula.pdf.

Daftar Pustaka

Bajaber, F., Elshawi, R., Batarfi, O., Altalhi, A., Barnawi, A., dan Sakr, S. (2016): Big data 2.0 Processing Systems: Taxonomy and Open Challenges, Journal of Grid Computing, 14(3), 379–405, diperoleh melalui situs internet: https://doi.org/10.1007/s10723-016-9371-1.

De Mauro, A., Greco, M., dan Grimaldi, M. (2016): A formal definition of Big data based on its essential features, Library Review, 65(3), 122–135, diperoleh melalui situs internet: https://doi.org/10.1108/LR-06-2015-0061.

Ghemawat, S., Gobioff, H., dan Leung, S.-T. (2003): The Google file system, Proceedings of the nineteenth ACM symposium on Operating systems principles – SOSP ’03, 29, diperoleh melalui situs internet: https://doi.org/10.1145/945449.945450.

Holmes, A. (2012): Hadoop In Practice – MEAP, Hadoop In Practice, diperoleh melalui situs internet: http://dl.acm.org/citation.cfm?id=2543981.

Moore, G. E. (2006): Cramming more components onto integrated circuits, Reprinted from Electronics, volume 38, number 8, April 19, 1965, pp.114 ff., IEEE Solid-State Circuits Newsletter, 20(3), 33–35, diperoleh melalui situs internet: https://doi.org/10.1109/N-SSC.2006.4785860.

Rowley, J. (2007): The wisdom hierarchy: Representations of the DIKW hierarchy, Journal of Information Science, 33(2), 163–180, diperoleh melalui situs internet: https://doi.org/10.1177/0165551506070706.