Определение типа сканированного документа методом динамической трансформации временных осей

Обложка

Цитировать

Полный текст

Аннотация

В работе решается задача выбора типа сканированного документа из предопределенного набора, возникающая в области автоматического распознавания изображений документов. Предлагаемый метод сопоставляет параллельные проекции входного изображения с эталонными проекциями образцов из предопределенного набора, для создания которых достаточно всего нескольких примеров. Сопоставление производится алгоритмом динамического выравнивания временных осей. Метод не требует бинаризации, распознавания ключевых слов или поиска геометрических примитивов, но необходима предварительная компенсации наклона документа. Проведенные эксперименты на изображениях деловых документов (8 типов документов) нормализованных вручную и автоматически показали точность типизации 99,79% и 99,76% соответственно. Среднее время обработки на ПК (AMD Ryzen 5 5600X, 64Гб) для изображений с наибольшим средним размером 2479×3589 пикселей составило 12,31±1,53 мс.

Об авторах

Т. Р. Максимова

ООО «Смарт Энджинс Сервис»

Email: t.maksimova@smartengines.com
Программистка. Область научных интересов: распознавание текста, классификация типа документа на изображении, системы распознавания документов. г. Москва, Россия

П. В. Безматерных

ООО «Смарт Энджинс Сервис»; Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Email: bezmaternyh@isa.ru
Программист первой категории. Научный сотрудник-программист. Область научных интересов: обработка изображений документов, распознавание штрихкодов. г. Москва, Россия; г. Москва, Россия

Список литературы

  1. Arlazarov V.V., Andreeva E.I., Bulatov K.B., Nikolaev D.P., Petrova O.O., Savelev B.I., Slavin O.A. Document image analysis and recognition: A survey. // Computer Optics. 2022. 46(4) p. 567–589. doi: 10.18287/2412-6179-CO-1020.
  2. Skoryukina N.S., Arlazarov V.V., Nikolaev D.P., Faradjev I.A. Efficient Location and Identification of Documents in Images. Патент № US11574492В2, 02.09.2020 // United States Patent. С. 1-25.
  3. Awal A.M., Ghanmi N., Sicre R., Furon T. Complex document classification and localization application on identity document images. // In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). 2017. 426–431. IEEE. doi: 10.1109/ICDAR.2017.77.
  4. Gayer A.V., Arlazarov V.V. Muldt: Multilingual ultra-lightweight document text detection for embedded devices. // IEEE Access. 2024. 12. p. 170530–170540. doi: 10.1109/ACCESS.2024.3474616.
  5. Bahi H.E., Zatni A. Text recognition in document images obtained by a smartphone based on deep convolutional and recurrent neural network. // Multimedia Tools and Applications. 2019. 78(18) p. 26453–26481. doi: 10.1007/s11042-019-07855-z.
  6. Славин О.А., Федоров Г.О. Об использовании штрих-кодирования и специализированных устройств в корпоративном электронном документообороте // Труды ИСА РАН. 2003. Т. 4. С. 185-1972.
  7. Shengnan Z., Shanlei Y., Lianqiang N. Automatic recognition method for checkbox in data form image. // In 2014 Sixth International Conference on Measuring Technology and Mechatronics Automation. 2014. page 159–162. IEEE. doi: 10.1109/ICMTMA.2014.42.
  8. Какие документы могут потребовать при устройстве на работу? [Электронный ресурс] // КонсультантПлюс. URL: https://www.consultant.ru/edu/student/consultation/dokumenty_ustroystvo_na_rabotu/ (дата обращения: 01.05.2025)
  9. Seifollahi S., Piccardi M., Jolfaei A. An embedding-based topic model for document classification. // ACM Trans. Asian Low-Resour. Lang. Inf. Process. 20(3). 1–13. doi: 10.1145/3431728.
  10. Xiao Y., Cho K. Efficient character-level document classification by combining convolution and recurrent layers. // arXiv 2016. doi: 10.48550/arXiv.1602.00367.
  11. Постников В.В. Автоматическая идентификация и распознавание структурированных документов: автореферат диссертации на соискание ученой степени кандидата технических наук. // ИСА РАН 2001.
  12. Skoryukina N., Arlazarov V., Nikolaev D. Fast method of ID documents location and type identification for mobile and server application. // In 2019 International Conference on Document Analysis and Recognition (ICDAR) 2019. pages 850–857. IEEE. doi: 10.1109/ICDAR.2019.00141.
  13. Feature detection and description. [Электронный ресурс] // Open Source Computer Vision. – URL:https://docs.opencv.org/4.x/db/d27/tutorial_py_table_of_contents_feature2d.html. (дата обращения: 01.05.2025)
  14. Skoryukina N.S., Tropin D.V., Shemiakina Y.A., Arlazarov V.V. Document localization and classification as stages of a document recognition system. // Pattern Recognit. Image Anal. 2023. 33(4). 699–716. doi: 10.1134/S1054661823040430.
  15. Hu J., Kashi R., Wilfong G. Document classification using layout analysis. // In Proceedings. Tenth International Workshop on Database and Expert Systems Applications. DEXA 99. pages 556–560. IEEE, 1999. doi: 10.1109/DEXA.1999.795245.
  16. Постников В.В. Формальный подход к задаче идентификации графических образов структурированных документов. // ИТиВС. 1999.— (4):280–299.
  17. Rusin˜ol M., Frinken V., Karatzas D., Bagdanov A. D., Llado´s J. Multimodal page classification in administrative document image streams. // International Journal on Document Analysis and Recognition (IJDAR). 2014. 17(4). 331–341. doi: 10.1007/s10032-014-0225-8.
  18. Безматерных П., Николаев Д., Постников В. Метод идентификации типа документа по структуре проекций его изображения на координатные оси. // ИТиС. 2008. с. 498–501. ISBN 978-59-01158-08-0.
  19. Поволоцкий М.А., Кузнецова Е.Г., Уткин Н.В., Николаев Д.П. Сегментация регистрационных номеров автомобилей с применением алгоритма динамической трансформации временной оси. // Сенсорные системы. 2018. 32(1). С. 50–59. doi: 10.7868/S0235009218010080.
  20. Sakoe H., Chiba S. Dynamic programming algorithm optimization for spoken word recognition. // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1(26):43–49. doi: 10.1109/TASSP.1978.1163055.
  21. Hull J.J. Document image skew detection: survey and annotated bibliography. // World Scientific. 1998. p. 40-64. doi: 10.1142/9789812797704_0003.
  22. Безматерных П.В. Нормализация изображения текста с помощью быстрого преобразования Хафа. // ИТиВС. 2024. (4):3–16. doi: 10.14357/20718632240401.
  23. Bezmaternykh P.V., Nikolaev D.P., Arlazarov V.L. High-performance digital image processing. // Pattern Recognit. Image Anal. 2023. 33(4). 743–755. doi: 10.1134/S1054661823040090.
  24. Brady M.L., Yong W. Fast parallel discrete approximation algorithms for the radon transform. // In Proceedings of the fourth annual ACM symposium on Parallel algorithms and architectures. pages 91–99. ACM. doi: 10.1145/140901.140911.
  25. Gonzalez R.C., Woods R. E., Masters B.R. Digital image processing, third edition. 14. 029901.
  26. Алиев М.А., Кунина И.А., Николаев Д.П., Полевой Д.В. О практических аспектах вычисления Хаф-образа алгоритмом Брейди-Ёна. // Информационные процессы. 2023. 23(2). с. 250–273. doi: 10.53921/18195822_2023_23_2_250.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).