Pemanfaatan Teknologi Speech-to-Text untuk Penilaian Diri dalam Pengucapan Bahasa Inggris bagi Pembelajar EFL

Main Article Content

Rini Puspasari
Maharani Nur Khafifah
Ulil Albab

Abstract

Kemajuan terbaru dalam teknologi Automatic Speech Recognition (ASR) telah merevolusi pelatihan pengucapan bagi pembelajar English as a Foreign Language (EFL). Tinjauan pustaka ini menelaah efektivitas alat speech-to-text dalam memfasilitasi penilaian diri terhadap pengucapan dengan meninjau secara sistematis 25 studi terpublikasi dan telah ditelaah sejawat (peer-reviewed) antara tahun 2020 hingga 2025. Studi-studi tersebut dipilih dan dianalisis menggunakan pendekatan mixed methods yang berfokus pada kualitatif dengan panduan PRISMA. Hasil temuan mengungkap tiga poin utama, antara lain: (1) Alat ASR secara signifikan meningkatkan akurasi pengucapan pembelajar, terutama pada bunyi vokal dan akhiran past tense beraturan; (2) Alat-alat ini memberikan umpan balik yang langsung, visual, dan objektif, yang meningkatkan kemandirian serta motivasi belajar; dan (3) Meskipun efektif, sistem ASR saat ini masih menghadapi tantangan dalam mengenali aksen nonstandar serta memerlukan kondisi audio yang optimal untuk kinerja yang andal. Bukti awal juga menunjukkan bahwa latihan ASR yang rutin dan terstruktur mendukung retensi jangka panjang terhadap peningkatan pengucapan, meskipun fitur suprasegmental seperti intonasi dan tekanan masih lebih sulit dikuasai. Artikel ini juga menawarkan rekomendasi praktis untuk mengintegrasikan teknologi tersebut ke dalam kurikulum bahasa, beserta saran untuk penelitian selanjutnya dalam peningkatan pengenalan aksen dan penerapan di dunia nyata. Dengan menjembatani inovasi teknologi dan pedagogi berbasis bukti, studi ini memberikan wawasan praktis bagi guru, perancang kurikulum, dan peneliti yang ingin mengimplementasikan ASR sebagai alat pembelajaran pengucapan yang berkelanjutan dan memotivasi dalam lingkungan EFL yang berbasis digital maupun blended learning.

Article Details

Section
Articles

References

Aljabr, A. (2025). ASR using Speechnotes for EFL Learners: A Study of the Effects on English Pronunciation and Prosody Skills. 4(2), 979–987-979–987. https://doi.org/10.62754/joe.v4i2.6384

Clarke, V., & Braun, V. (2014). Thematic analysis. In Encyclopedia of critical psychology (pp. 1947-1952). Springer. https://doi.org/10.1007/978-1-4614-5583-7_311

Cumbal, R., Moell, B., Lopes, J., & Engwall, O. (2024). You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish. https://doi.org/10.21437/interspeech.2021-2140

Derwing, T. M., & Munro, M. J. (2022). Pronunciation learning and teaching. In The Routledge handbook of Second Language Acquisition and speaking (pp. 147-159). Routledge. https://doi.org/10.4324/9781003022497-14

Guskaroska, A. (2019). ASR as a tool for providing feedback for vowel pronunciation practice Iowa State University].

Hodges, C., Moore, S., Lockee, B., Trust, T., & Bond, A. (2020). The difference between emergency remote teaching and online learning. 27(1), 1-9. https://doi.org/10.1163/9789004702813_021

Inceoglu, S., Chen, W.-H., & Lim, H. (2024). Monitoring student behavior in autonomous automatic speech recognition-based pronunciation practice. 124, 103387. https://doi.org/10.2139/ssrn.4663652

Koenecke, A., Nam, A., Lake, E., Nudell, J., Quartey, M., Mengesha, Z., . . . Goel, S. (2020). Racial disparities in automated speech recognition. 117(14), 7684-7689. https://doi.org/10.1073/pnas.1915768117

Liakin, D., Cardoso, W., & Liakina, N. (2017). Mobilizing instruction in a second-language context: Learners’ perceptions of two speech technologies. 2(3), 11. https://doi.org/10.3390/languages2030011

Ma, Q., Mei, F., & Qian, B. (2024). Exploring EFL students’ pronunciation learning supported by corpus-based language pedagogy. 1-27. https://doi.org/10.1080/09588221.2024.2432965

Ngo, T. T.-N., Chen, H. H.-J., & Lai, K. K.-W. (2024). The effectiveness of automatic speech recognition in ESL/EFL pronunciation: A meta-analysis. 36(1), 4-21. https://doi.org/10.1017/s0958344023000113

Page, M. J., McKenzie, J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C., Mulrow, C. D., . . . Brennan, S. E. (2021). The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. 372. https://doi.org/10.31222/osf.io/v7gm2_v1

Prinos, K., Patwari, N., & Power, C. A. (2024). Speaking of accent: A content analysis of accent misconceptions in ASR research. Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency,

Saadia, K. H. (2023). Assessing the Effectiveness of Text-to-Speech and Automatic Speech Recognition in Improving EFL Learner’s Pronunciation of Regular Past-ed.

Sun, W. (2023). The impact of automatic speech recognition technology on second language pronunciation and speaking skills of EFL learners: a mixed methods investigation. 14, 1210187.