Pengaruh Hyperparameter Tuning pada DeepSpeech2

Authors

  • Pande Putu Prana Pratistha Institut Teknologi dan Bisnis STIKOM Bali
  • Roy Rudolf Huizen Institut Teknologi dan Bisnis STIKOM Bali
  • Dadang Hermawan Institut Teknologi dan Bisnis STIKOM Bali

Keywords:

ASR, Deepspeech2, HyperParameter, Deep Learning, Word Error Rate

Abstract

Penelitian ini menginvestigasi efek dari Hyperparameter Tuning pada model Automatic Speech Recognition (ASR) yang dikenal sebagai DeepSpeech2. Fokus dari penelitian adalah pada optimasi parameter spesifik seperti tipe RNN yang digunakan (LSTM dan GRU) serta jumlah layer dalam arsitektur model. Tujuan utama adalah untuk mengidentifikasi konfigurasi yang optimal yang bisa mengurangi Word Error Rate (WER) sambil mengelola kompleksitas komputasi secara efektif. Analisis komprehensif menunjukkan bahwa konfigurasi menggunakan LSTM dengan 5-layer memberikan Word Error Rate terendah, yaitu 71.40%, yang mengindikasikan superioritasnya dibandingkan dengan GRU dalam hal akurasi. Konfigurasi dengan lebih banyak layer cenderung mengarah pada overfitting, yang diindikasikan oleh peningkatan Word Error Rate. Studi ini menggunakan dataset berbahasa inggris yang bersifat terbuka, yaitu LibriSpeech. Temuan dari penelitian ini membantu untuk penerapan dari ASR, menunjukkan bahwa tuning hyperparameter yang tepat untuk mencapai kinerja optimal tanpa menambah beban komputasi yang tidak perlu.

Downloads

Published

2024-06-04

How to Cite

Pande Putu Prana Pratistha, Roy Rudolf Huizen, & Dadang Hermawan. (2024). Pengaruh Hyperparameter Tuning pada DeepSpeech2. Seminar Hasil Penelitian Informatika Dan Komputer (SPINTER) | Institut Teknologi Dan Bisnis STIKOM Bali, 1(2), 824–828. Retrieved from https://spinter.stikom-bali.ac.id/index.php/spinter/article/view/223