Pengaruh Hyperparameter Tuning pada DeepSpeech2
Keywords:
ASR, Deepspeech2, HyperParameter, Deep Learning, Word Error RateAbstract
Penelitian ini menginvestigasi efek dari Hyperparameter Tuning pada model Automatic Speech Recognition (ASR) yang dikenal sebagai DeepSpeech2. Fokus dari penelitian adalah pada optimasi parameter spesifik seperti tipe RNN yang digunakan (LSTM dan GRU) serta jumlah layer dalam arsitektur model. Tujuan utama adalah untuk mengidentifikasi konfigurasi yang optimal yang bisa mengurangi Word Error Rate (WER) sambil mengelola kompleksitas komputasi secara efektif. Analisis komprehensif menunjukkan bahwa konfigurasi menggunakan LSTM dengan 5-layer memberikan Word Error Rate terendah, yaitu 71.40%, yang mengindikasikan superioritasnya dibandingkan dengan GRU dalam hal akurasi. Konfigurasi dengan lebih banyak layer cenderung mengarah pada overfitting, yang diindikasikan oleh peningkatan Word Error Rate. Studi ini menggunakan dataset berbahasa inggris yang bersifat terbuka, yaitu LibriSpeech. Temuan dari penelitian ini membantu untuk penerapan dari ASR, menunjukkan bahwa tuning hyperparameter yang tepat untuk mencapai kinerja optimal tanpa menambah beban komputasi yang tidak perlu.