Pengaruh Hyperparameter Tuning pada DeepSpeech2

Pande Putu Prana Pratistha; Roy Rudolf Huizen; Dadang Hermawan

Authors

Pande Putu Prana Pratistha Institut Teknologi dan Bisnis STIKOM Bali
Roy Rudolf Huizen Institut Teknologi dan Bisnis STIKOM Bali
Dadang Hermawan Institut Teknologi dan Bisnis STIKOM Bali

Keywords:

ASR, Deepspeech2, HyperParameter, Deep Learning, Word Error Rate

Abstract

Penelitian ini menginvestigasi efek dari Hyperparameter Tuning pada model Automatic Speech Recognition (ASR) yang dikenal sebagai DeepSpeech2. Fokus dari penelitian adalah pada optimasi parameter spesifik seperti tipe RNN yang digunakan (LSTM dan GRU) serta jumlah layer dalam arsitektur model. Tujuan utama adalah untuk mengidentifikasi konfigurasi yang optimal yang bisa mengurangi Word Error Rate (WER) sambil mengelola kompleksitas komputasi secara efektif. Analisis komprehensif menunjukkan bahwa konfigurasi menggunakan LSTM dengan 5-layer memberikan Word Error Rate terendah, yaitu 71.40%, yang mengindikasikan superioritasnya dibandingkan dengan GRU dalam hal akurasi. Konfigurasi dengan lebih banyak layer cenderung mengarah pada overfitting, yang diindikasikan oleh peningkatan Word Error Rate. Studi ini menggunakan dataset berbahasa inggris yang bersifat terbuka, yaitu LibriSpeech. Temuan dari penelitian ini membantu untuk penerapan dari ASR, menunjukkan bahwa tuning hyperparameter yang tepat untuk mencapai kinerja optimal tanpa menambah beban komputasi yang tidak perlu.

Pengaruh Hyperparameter Tuning pada DeepSpeech2

Authors

Keywords:

Abstract

Downloads

Published

How to Cite

Issue

Section

Current Issue

Information