Perbandingan Unjuk Kerja Library Optical Character Recognition (OCR) dalam Pengenalan Teks pada Dokumen Digital

Muhammad Noko Darpito; Kartika Firdausy; Abdul Fadlil

doi:10.33795/jip.v11i3.7025

Authors

Muhammad Noko Darpito Universitas Ahmad Dahlan
Kartika Firdausy Universitas Ahmad Dahlan
Abdul Fadlil Universitas Ahmad Dahlan

DOI:

https://doi.org/10.33795/jip.v11i3.7025

Keywords:

OCR, Tesseract, EasyOCR, digitalisasi

Abstract

Optical Character Recognition (OCR) merupakan teknologi yang digunakan untuk mengubah teks dalam dokumen digital menjadi teks yang dapat dikenali oleh mesin. Pemilihan metode OCR yang tepat sangat bergantung pada efisiensi pemrosesan dan akurasi pengenalan teks, terutama dalam penerapan yang membutuhkan kecepatan tinggi dan tingkat kesalahan minimal. Dalam penelitian ini, dilakukan perbandingan performa antara Tesseract dan EasyOCR melalui metode penelitian yang mencakup tahapan pengumpulan data, ekstraksi teks, implementasi OCR menggunakan kedua library tersebut, dan evaluasi hasil ekstraksi teks kedua library OCR tersebut menggunakan Word Error Rate (WER), Character Error Rate (CER) dan akurasi ekstraksi OCR keseluruhan. Dataset yang digunakan yang terdiri dari 50 dokumen formulir dengan variasi tata letak dan ukuran font, serta 10 dokumen artikel dengan variasi format huruf (standar dan kapital). Hasil penelitian menunjukkan bahwa Tesseract secara konsisten lebih cepat dalam memproses dokumen, dengan waktu rata-rata 0,34 detik per dokumen formulir dibandingkan EasyOCR yang memerlukan 1,81 detik. Namun, EasyOCR memperlihatkan performa yang lebih baik dalam akurasi pengenalan teks, dengan nilai WER rata-rata yang lebih rendah sebesar 25,78% dibandingkan Tesseract sebesar 49,69% pada dokumen formulir. Dengan demikian, Tesseract lebih sesuai untuk pemrosesan cepat dalam jumlah besar, sedangkan EasyOCR lebih direkomendasikan untuk dokumen dengan kompleksitas tinggi yang membutuhkan akurasi lebih baik.

Downloads

Download data is not yet available.

References

Al amin, I. H., & Aprilino, A. (2022). IMPLEMENTASI ALGORITMA YOLO DAN TESSERACT OCR PADA SISTEM DETEKSI PLAT NOMOR OTOMATIS. Jurnal Teknoinfo, 16(1), 54. https://doi.org/10.33365/jti.v16i1.1522

Marshanda, Harijanto, B., & Rahmad, C. (2024). Implementasi Optical Character Recognition (OCR) untuk Meningkatkan Akurasi dan Kecepatan Input Data di Posyandu. Jurnal Informatika Polinema, 11(1), 45–50. https://doi.org/10.33795/jip.v11i1.6025

Apriyanti, K., & Widodo, T. (2016). Implementasi Optical Character Recognition Berbasis Backpropagation untuk Text to Speech Perangkat Android. IJEIS (Indonesian Journal of Electronics and Instrumentation Systems), 6(1), 13. https://doi.org/10.22146/ijeis.10767

Asroni, A., Indrawan, G., & Erawati Dewi, L. J. (2023). Implementasi Hirarki Dataset Dalam Membangun Model Language Aksara Bali Menggunakan Framework Tesseract OCR. Jurnal RESISTOR (Rekayasa Sistem Komputer), 6(1), 20–28. https://doi.org/10.31598/jurnalresistor.v6i1.1345

Banu, K., Andreas, D., Anggoro, W., & Setiawan, A. (2023). OCR: Masa Depan Pengenalan Karakter Optik dan Dampaknya pada Kehidupan Modern. Jurnal Teknologi Informasi, 9(2), 147–156. https://doi.org/10.52643/jti.v9i2.3798

Hamdi, A., Chan, Y. K., & Koo, V. C. (2021). A New Image Enhancement and Super Resolution technique for license plate recognition. Heliyon, 7(11), e08341. https://doi.org/10.1016/j.heliyon.2021.e08341

Hegghammer, T. (2022). OCR with Tesseract, Amazon Textract, and Google Document AI: a benchmarking experiment. Journal of Computational Social Science, 5(1), 861–882. https://doi.org/10.1007/s42001-021-00149-1

Holila, A. R. P. S. A. P. L. J. I. (2024). Introduction National Identification Number and Name on Id Card Using Ocr (Optical Character Recognition) Method. https://doi.org/10.52436/1.jutif.2024.5.4.2242

Maurer, Y., Schneider, P., & Marschall, R. (2023). Nautilus. LIBER Quarterly: The Journal of the Association of European Research Libraries, 33(1), 1–19. https://doi.org/10.53377/lq.13330

Nguyen, T. T. H., Jatowt, A., Coustaty, M., & Doucet, A. (2022). Survey of Post-OCR Processing Approaches. ACM Computing Surveys, 54(6), 1–37. https://doi.org/10.1145/3453476

Patience, O. O., Amaechi, E. M., George, O., & Isaac, O. N. (2024). Enhanced Text Recognition in Images Using Tesseract OCR within the Laravel Framework. Asian Journal of Research in Computer Science, 17(9), 58–69. https://doi.org/10.9734/ajrcos/2024/v17i9499

Raswaty, H. S., & Nuryuliani, N. (2021). Implementation of Optical Character Recognition and Voice Recognition of House of Words (How) Dictionary Application on Android Platform. Engineering, MAthematics and Computer Science (EMACS) Journal, 3(3), 93–101. https://doi.org/10.21512/emacsjournal.v3i3.7418

Salehudin, M. A. M., Basah, S. N., Yazid, H., Basaruddin, K. S., Safar, M. J. A., Som, M. H. M., & Sidek, K. A. (2023). Analysis of Optical Character Recognition using EasyOCR under Image Degradation. Journal of Physics: Conference Series, 2641(1), 012001. https://doi.org/10.1088/1742-6596/2641/1/012001

Setyadi, A. F. I., & Susetyo, Y. A. (2023). Implementasi Algoritma LSTM pada Aplikasi Optical Character Recognition Berbasis Website Menggunakan Tesseract OCR. Jurnal Teknologi Sistem Informasi Dan Aplikasi, 6(2), 63–71. https://doi.org/10.32493/jtsi.v6i2.29235

Sharma, A., Ansari, A. Z., Kakulavarapu, R., Stensen, M. H., Riegler, M. A., & Hammer, H. L. (2023). Predicting Cell Cleavage Timings from Time-Lapse Videos of Human Embryos. Big Data and Cognitive Computing, 7(2), 91. https://doi.org/10.3390/bdcc7020091

Sporici, D., Cușnir, E., & Boiangiu, C.-A. (2020). Improving the Accuracy of Tesseract 4.0 OCR Engine Using Convolution-Based Preprocessing. Symmetry, 12(5), 715. https://doi.org/10.3390/sym12050715