UNPAR.AC.ID, Bandung – Seminar merupakan salah satu kegiatan yang mustahil untuk dilaksanakan secara langsung saat pandemi covid-19 mewabah ke seluruh Indonesia termasuk Indonesia. Akibatnya, seminar pun dilakukan secara online dan lebih dikenal dengan nama webinar. Di dalamnya, terdapat sesi tanya jawab yang melibatkan pembicara dengan peserta untuk berinteraksi. Pertanyaan dapat disampaikan secara lisan maupun tulisan melalui kolom chat yang tersedia dalam media yang digunakan. Semakin banyak peserta yang mengikuti webinar, semakin banyak juga pertanyaan yang dilontarkan oleh peserta.
Pada kolom komentar atau chat, beragam komentar yang disampaikan oleh para peserta dapat berupa pernyataan maupun pertanyaan. Tidak hanya itu, pertanyaan yang disampaikan pun bisa berupa pertanyaan penting atau pertanyaan yang tidak penting. Dari beragamnya komentar tersebut, moderator dapat mengalami kesulitan untuk mencari pertanyaan penting yang dapat menjadi prioritas untuk dijawab oleh pembicara saat webinar berlangsung.
Hal tersebut mengemuka dalam IF Webinar Series (IFWS) yang diselenggarakan oleh Teknik Informatika Universitas Katolik Parahyangan (UNPAR) pada Jumat (26/5/2023) lalu secara online. Dalam webinar yang bertajuk ‘Identifikasi Pertanyaan Penting pada Webinar dengan Data Science’, tim yang terdiri dari mahasiswa Informatika UNPAR memiliki ide dan solusi untuk mengatasi masalah tersebut.
Natasha Benedicta B. menjelaskan bahwa dirinya bersama kelompok memiliki ide untuk membangun sebuah sistem pendeteksi pertanyaan dalam webinar. Pendeteksi ini kemudian akan memilih pertanyaan penting mana yang dapat menjadi prioritas untuk dijawab dalam webinar. Hal ini dimungkinkan dengan menyaring pertanyaan-pertanyaan penting apa saja yang perlu dijawab oleh pembicara.
“Kami memiliki ide untuk membangun sebuah sistem pertanyaan penting yang menjadi prioritas untuk dijawab dalam webinar,” ujar Natasha.
Dirinya pun menjelaskan bahwa mekanisme sistem pendeteksi pertanyaan penting ini akan menerima masukan berupa list komentar. List komentar ini selanjutnya akan diproses lebih lanjut dalam tahap klasifikasi dan clustering. Tahap ini merupakan tahapan terpenting dalam seluruh rangkaian proses yang berlangsung. Setelah melewati rangkaian proses, sistem akan mengembalikan list kelompok pertanyaan penting untuk dijawab oleh pembicara.
“Kermudian, mekanisme sistem yang akan dibangun ini akan menerima masukan berupa list komentar yang kemudian akan diproses lebih lanjut untuk proses klasifikasi dan clustering. Hasil dari proses ini akan berupa list kelompok pertanyaan penting,” tutur dirinya.
Lebih lanjut, Natasha menjelaskan apa yang dimaksud dengan klasifikasi dan clustering. Secara sederhana, klasifikasi merupakan metode untuk memprediksi suatu data berdasarkan hasil pembelajaran dari ciri-ciri data yang sudah ada sebelumnya. Proses klasifikasi pada sistem ini akan diperiksa dengan cara memeriksa apakah komentar ini merupakan pertanyaan. Jika suatu komentar merupakan pertanyaan, maka akan diperiksa kembali apakah pertanyaan tersebut merupakan pertanyaan penting atau tidak. Pada akhirnya, jika ternyata pertanyaan tersebut adalah pertanyaan penting, pertanyaan akan diprioritaskan dijawab di dalam webinar.
“Proses klasifikasi komentar dalam proyek ini akan diperiksa dengan cara memeriksa apakah komentar ini merupakan pertanyaan atau bukan, kemudian jika suatu komentar ini merupakan pertanyaan, maka akan diperiksa apakah pertanyaan tersebut merupakan pertanyaan penting atau tidak,” ujar Natasha.
Di sisi lain, clustering merupakan metode untuk mengelompokkan data berdasarkan kemiripan karakteristik atau sifat tertentu ke dalam kelompok atau kluster. Clustering sendiri dalam proyek ini akan mengelompokkan pertanyaan yang bertujuan untuk mengetahui pertanyaan seperti apa yang menjadi prioritas untuk dijawab dalam pertanyaan.
“Semakin banyak pertanyaan dalam suatu kelompok pertanyaan/ atau cluster, maka kelompok pertanyaan ini akan semakin menjadi prioritas utama untuk dijawab dalam webinar,” ucap Natasha.
Kemudian, Sharon Kezia F. mengungkap bahwa sebelum memasuki tahap membangun sistem ini, akan dilakukan analisis data terlebih dahulu secara manual. Analisis data ini sendiri merupakan salah satu bagian dari data science di mana mereka harus memikirkan sifat ataupun karakteristik dari data yang akan diolah. Maka dari itu, dirinya bersama kelompok melakukan analisis dengan memeriksa satu per satu data yang dimiliki untuk melihat apakah komentar merupakan pertanyaan atau bukan dan pertanyaan penting atau bukan. Selanjutnya, mereka akan memberikan label dan mengelompokkan pertanyaan yang serupa.
“Berdasarkan analisis ini, kita akan menentukan bagaimana sifat-sifat pertanyaan atau bukan pertanyaan kemudian komentar ini penting atau tidak,” ujar Sharon.
Berdasarkan dari contoh pertanyaan, Sharon menyatakan bahwa dirinya bersama kelompok mendapati bahwa komentar berupa pertanyaan akan mengandung kata tanya seperti apakah, seperti, bagaimana, dan sebagainya. Di sisi lain, komentar bukan pertanyaan umumnya tidak memiliki kata tanya dan cenderung memiliki jumlah kata yang lebih sedikit dibandingkan komentar pertanyaan.
“Kemudian, sifat-sifat yang kami lihat juga kalau komentar berupa pertanyaan itu cenderung jumlah katanya lebih banyak dibandingkan bukan pertanyaan,” tutur dirinya.
Lebih lanjut, analisis pertanyaan penting membawa mereka kepada fakta bahwa pertanyaan penting cenderung disampaikan dengan cara yang lebih formal, menggunakan kata yang baku, jarang menggunakan kata yang disingkat atau singkatan, serta ditulis dengan kata-kata yang baik. Tidak hanya itu, pertanyaan penting umumnya akan mengandung kata-kata yang menjadi kata kunci dalam topik webinar.
Berdasarkan ide tersebut, Sharon bersama kelompoknya melakukan tahap pengumpulan serta persiapan data dari webinar IISMA yang diselenggarakan pada tanggal 18 Maret 2022. Dirinya mengungkap bahwa komentar serta data lainnya seperti waktu dan nama dalam webinar ini diambil menggunakan library chat downloader dalam bahasa pemrograman Python. Persiapan data dilakukan dengan memberikan label pada data yang telah dikumpulkan secara manual untuk kembali digunakan sebagai data awal analisis. Pelabelan data ini dibagi menjadi tiga tahap yakni pelabelan pertanyaan atau bukan pertanyaan, penting atau tidak penting dan yang label spam.
“Pelabelan data ini dibagi menjadi tiga tahap, yang pertama adalah pelabelan pertanyaan atau bukan pertanyaan, kemudian melabeli penting/tidak penting dan yang terakhir membeli label spam,” tutur dirinya.
Sharon menyatakan bahwa dataset yang telah dilabeli berjumlah 1416 komentar di mana sebagian besar bukan merupakan pertanyaan. Hanya 27% dari komentar yang ada merupakan pertanyaan. Di sisi lain, pertanyaan penting dan bukan pertanyaan penting memiliki jumlah yang tidak jauh berbeda.
Tahap selanjutnya adalah model klasifikasi. Klasifikasi ini dibagi menjadi dua tahap yakni klasifikasi pertanyaan atau bukan pertanyaan serta klasifikasi pertanyaan penting atau tidak penting. Klasifikasi pertanyaan atau bukan pertanyaan ini memiliki dua fitur yaitu kata tanya dan jumlah kata sedangkan klasifikasi penting atau tidak penting ini menggunakan dua fitur juga yaitu jumlah kata dan kata baku.
“Data ini akan dibagi menjadi dua yaitu 70% sebagai dataframe yang akan digunakan untuk melatih modelnya, dan 30% sebagai data test untuk menguji seberapa baik suatu model yang telah dibangun sebelumnya,” ucap dirinya.
Berdasarkan hasil observasi, Sharon menyimpulkan bahwa sebagian besar pertanyaan ini mengandung kata tanya. Oleh Karena itu, dirinya bersama kelompok menggunakan kata tanya sebagai fitur untuk membedakan mana komentar yang merupakan pertanyaan dan mana komentar yang bukan pertanyaan. Namun, berdasarkan hasil observasi juga ditemukan penulisan kata tanya yang ditulis dalam singkatan atau terdapat kesalahan ejaan atau typo.
“Kata-kata ini nantinya tidak akan terdeteksi sebagai pertanyaan,” ungkap dirinya
Karena adanya masalah tersebut, Sharon menyatakan bahwa kalimat pertanyaan itu dapat dideteksi dengan dua cara yaitu komentar yang mengandung kata tanya, serta komentar yang memiliki kata yang mirip dengan kata tanya. Kata yang mirip dengan kata tanya ini bisa dideteksi dengan Levenshtein distance.
“Ini merupakan suatu cara yang digunakan untuk hitung jarak kemiripan antar dua buah kata. Nilai levenshtein ini nantinya menunjukkan banyaknya perubahan yang harus dilakukan,” tutur dirinya.
Sebagai informasi, kegiatan IFWS merupakan media untuk berbagai pengetahuan kepada mahasiswa ataupun pihak luar. Pendaftaran dapat dilakukan melalui tiny.cc/ifws-dosen dan informasi lebih lanjut dapat dilihat pada instagram @if.unpar (KTH – Humkoler UNPAR)