Редакция

Запуск современных языковых технологий на западноармянском языке

Редакция
Запуск современных языковых технологий на западноармянском языке

15 мая 2021 года был запущен проект «Treebank» на языке Западной Армении, который теперь доступен на веб-странице консорциума на платформе Universal Dependencies, сообщил Департамент Армянской диаспоры Фонду Галуста Гюльбенкяна.

«Treebank», если обратиться к сайту Высшей Школы Экономики, это проект по созданию универсального алгоритма автоматического поиска и исправления ошибок синтаксического анализа в рамках грамматики зависимостей. Простыми словами, эта платформа помогает развивать лингвистические навыки в мире компьютеров и автоматически оценивает знаки препинания, слова, предложения и т.д. Это лингвистический инструмент, который анализирует и описывает структуру языка, идентифицируя его различные компоненты таким образом, чтобы с ним могли работать компьютерные программы. Платформа «Treebank» совершила революцию в компьютерной лингвистике в начале 1990-х годов с помощью расширения методов машинного обучения и искусственных нейронных сетей в сфере языков.

Фото: travelinarmenia.am

Фото: travelinarmenia.am

«Treebank» играет решающую роль в разработке современных систем обработки языков, таких как машинный перевод, синтаксические, семантические анализаторы и так далее. «Проще говоря, для того, чтобы язык можно было переводить с помощью онлайн-инструментов, чтобы у него были собственные программы проверки орфографии и грамматики, а также средства для обработки искусственного интеллекта на этом языке, ему нужен собственный алгоритм „Treebank“. Мы очень рады, что Фонд сыграл ключевую роль в том, чтобы сделать западноармянский язык доступным для всех, кто хочет работать на стыке лингвистики и технологий», — объяснил Размик Паносян, директор департамента.

«Universal Dependencies» — это платформа, разрабатывающая кросс-лингвистически согласованную аннотацию «Treebank» для многих языков, которая в настоящее время включает как восточноармянский, так и западноармянский. Она предоставляет универсальный перечень категорий и рекомендаций, которые помогают согласованно аннотировать аналогичные конструкции на разных языках, позволяя при необходимости расширять их для конкретного.

Новый алгоритм основан в западноармянском разделе «Armenian Dependency Treebank», разработанном командой «ArmTDP» во главе с Маратом Яврумяном (Ереванский государственный университет) и Грантом Хачатряном (исследовательская лаборатория Еревана). Западноармянский является одним из 202 языков в проекте «Treebank».

bh.jpg

Западноармянский «Treebank» на данный момент состоит из 1780 предложений, содержащих 7,5 миллионов слов, составленных из 110 произведений более чем 50 авторов с 1895-го по 2010 год в таких жанрах, как художественная литература, личная и официальная переписка, путевые заметки, политические и литературные речи, мемуары и очерки. Он основан на корпусе «Digilib» — электронной библиотеки армянской литературы Американского университета Армении.

Источник и фото обложки: Calouste Gulbenkian Foundation

Запуск современных языковых технологий на западноармянском языке