Автоматическая лексическая адаптация русскоязычных текстов

Обложка

Цитировать

Полный текст

Аннотация

В статье описан способ лексического упрощения русскоязычных текстов, основанный на обратном использовании словаря синонимов, а именно, на замене синонимов соответствующими доминантами. Поскольку это нельзя делать абсолютно формально, нами были подготовлены специальные базы синонимов, которые снабжены разметкой, необходимой для получения в замененном тексте правильного синтаксиса.

Об авторах

Артём Владимирович Ниценко

Институт проблем искусственного интеллекта

Автор, ответственный за переписку.
Email: nav_box@mail.ru

кандидат технических наук, заведующий отделом распознавания речевых образов

Россия, Донецк

Владислав Юрьевич Шелепов

Институт проблем искусственного интеллекта

Email: vladislav.shelepov2012@yandex.ru

доктор физико-математических наук, профессор, главный научный сотрудник отдела распознавания речевых образов

Россия, Донецк

Светлана Анатольевна Большакова

Институт проблем искусственного интеллекта

Email: svetlako@yandex.com

младший научный сотрудник отдела распознавания речевых образов

Россия, Донецк

Список литературы

  1. Coster W., Kauchak D. Simple English Wikipedia: a new text simplification task // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. Р. 665–669.
  2. Woodsend K., Lapata M. Wikisimple: Automatic simplification of Wikipedia articles // Proceedings of the National Conference on Artificial Intelligence. 2011. P. 927-932.
  3. De Belder J., Deschacht K., Moens M.F. Lexical simplification // Electronic resource. URL: https://www.researchgate.net/ profile/Marie-Francine-Moens/publication/265205638_Lexical_Simplification/links/54872b890cf289302e2ed53b/Lexical-Simplification.pdf (accessed 01.07.2024).
  4. De Belder J., Moens M.F. Text simplification for children // Proceedings of the SIGIR workshop on accessible search systems. ACM. 2010. P. 19-26.
  5. Хафизова Э. И. Адаптация сложности текстов и текстовых заданий // Молодой ученый. 2021. № 12 (354). С. 266-268.
  6. Kim Y.S., Hullman J., Adar E. DeScipher: A Text Simplification Tool for Science Journalism // Electronic resource. URL: https://cond.org/cjdescipher.pdf (accessed 01.07.2024).
  7. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L. et al. Attention is all you need // 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA. P. 5998–6008.
  8. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pretraining of deep bidirectional transformers for language understanding // Proceedings of NAACL-HLT 2019. Minneapolis, Minnesota, Association for Computational Linguistics P. 4171–4186.
  9. Monteiro J., Aguiar M., Araújo S. Using a Pre-trained SimpleT5 Model for Text Simplification in a Limited Corpus // CLEF 2022 – Conference and Labs of the Evaluation Forum, September 5–8, 2022, Bologna, Italy. CEUR Workshop Proceedings. CEUR-WS.org. 2022. P. 2826–2831.
  10. Raffel C., Shazeer N., Roberts A., Lee K., Narang S. et al. Exploring the limits of transfer learning with a unified textto-text transformer // Journal of machine learning research. 2019. V. 21. P. 5485–5551.
  11. Fenogenova, A. Text Simplification with Autoregressive Models // Annual International Conference on Computational Linguistics and Intellectual Technologies, Dialogue. 2021, Труды конференции. Выпуск 20. М: Российский государственный гуманитарный университет. 2021. С. 227-234.
  12. Liu Y., Gu J., Goyal N., Li X., Edunov S. et al. Multilingual denoising pre-training for neural machine translation // Transactions of the Association for Computational Linguistics. 2020. V. 8. P. 726–742.
  13. Lewis M., Liu Y., Goyal N. et al. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension // Proceedings of the 58thAnnual Meeting of the Association for Computational Linguistics. 2020. P. 7871–7880.
  14. Sakhovskiy A., Tutubalina E., Malykh V. et al. RuSimpleSentEval-2021 Shared Task: Evaluating Sentence Simplification for Russian // Annual International Conference on Computational Linguistics and Intellectual Technologies, Dialogue. 2021, Труды конференции. Выпуск 20. М: Российский государственный гуманитарный университет. 2021. С. 607-617.
  15. Shatilov A. A., Rey A. I. Sentence simplification with ruGPT3 // Annual International Conference on Computational Linguistics and Intellectual Technologies, Dialogue. 2021, Труды конференции. Выпуск 20. М: Российский государственный гуманитарный университет. 2021. С. 618-625.
  16. Komleva E. P. Anastasyev D. G. Sentence Simplification for Russian using Transfer Learning // Annual International Conference on Computational Linguistics and Intellectual Technologies, Dialogue. 2021, Труды конференции. Выпуск 20. М: Российский государственный гуманитарный университет. 2021. С. 1075-1080.
  17. Васильев Д.Д., Пятаева А.В. Использование языковых моделей T5 для задачи упрощения текста // Программные продукты и системы. 2023. Т. 36. № 2. С. 228–236. doi: 10.15827/0236-235X.142.228-236.
  18. Burstein J. The automated text adaptation tool // Proceedings of Human Language Technologies. The Annual Conference of the North American Chapter of the Association for Computational Linguistics. Demonstrations. Association for Computational Linguistics. 2007. P. 3-4.
  19. Александрова З.Е. Словарь синонимов русского языка. Практический справочник. Около 11 000 синонимических рядов. 11 изд., перераб. и доп. М.: Русский язык, 2001. 568 с.
  20. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Издательский центр «Азбуковник». 2009. 1090 с.
  21. Национальный корпус русского языка. [Электронный ресурс] // URL: http://ruscorpora.ru/ (дата обращения: 01.07.2024).
  22. EASSE: Easier Automatic Sentence Simplification Evaluation / Fernando Alva-Manchego, Louis Martin, Carolina Scarton, Lucia Specia // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). System Demonstrations. Hong Kong, China: Association for Computational Linguistics, 2019. P. 49–54. Access mode: https://www.aclweb.org/anthology/D19-3009.
  23. Shen L. LexicalRichness: A small module to compute textual lexical richness. 2022. URL: https://github.com/LSYS/lexicalrichness doi: 10.5281/zenodo.6607007.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).