Запуск современных языковых технологий на западноармянском языке
15 мая 2021 года был запущен проект «Treebank» на языке Западной Армении, который теперь доступен на веб-странице консорциума на платформе Universal Dependencies, сообщил Департамент Армянской диаспоры Фонду Галуста Гюльбенкяна.
«Treebank», если обратиться к сайту Высшей Школы Экономики, это проект по созданию универсального алгоритма автоматического поиска и исправления ошибок синтаксического анализа в рамках грамматики зависимостей. Простыми словами, эта платформа помогает развивать лингвистические навыки в мире компьютеров и автоматически оценивает знаки препинания, слова, предложения и т.д. Это лингвистический инструмент, который анализирует и описывает структуру языка, идентифицируя его различные компоненты таким образом, чтобы с ним могли работать компьютерные программы. Платформа «Treebank» совершила революцию в компьютерной лингвистике в начале 1990-х годов с помощью расширения методов машинного обучения и искусственных нейронных сетей в сфере языков.
«Treebank» играет решающую роль в разработке современных систем обработки языков, таких как машинный перевод, синтаксические, семантические анализаторы и так далее. «Проще говоря, для того, чтобы язык можно было переводить с помощью онлайн-инструментов, чтобы у него были собственные программы проверки орфографии и грамматики, а также средства для обработки искусственного интеллекта на этом языке, ему нужен собственный алгоритм „Treebank“. Мы очень рады, что Фонд сыграл ключевую роль в том, чтобы сделать западноармянский язык доступным для всех, кто хочет работать на стыке лингвистики и технологий», — объяснил Размик Паносян, директор департамента.
«Universal Dependencies» — это платформа, разрабатывающая кросс-лингвистически согласованную аннотацию «Treebank» для многих языков, которая в настоящее время включает как восточноармянский, так и западноармянский. Она предоставляет универсальный перечень категорий и рекомендаций, которые помогают согласованно аннотировать аналогичные конструкции на разных языках, позволяя при необходимости расширять их для конкретного.
Новый алгоритм основан в западноармянском разделе «Armenian Dependency Treebank», разработанном командой «ArmTDP» во главе с Маратом Яврумяном (Ереванский государственный университет) и Грантом Хачатряном (исследовательская лаборатория Еревана). Западноармянский является одним из 202 языков в проекте «Treebank».
Западноармянский «Treebank» на данный момент состоит из 1780 предложений, содержащих 7,5 миллионов слов, составленных из 110 произведений более чем 50 авторов с 1895-го по 2010 год в таких жанрах, как художественная литература, личная и официальная переписка, путевые заметки, политические и литературные речи, мемуары и очерки. Он основан на корпусе «Digilib» — электронной библиотеки армянской литературы Американского университета Армении.
Источник и фото обложки: Calouste Gulbenkian Foundation