http://www.w3.org/1999/xlink http://www.w3.org/1999/xlink http://www.w3.org/1999/xlink

Статус проекта: проект не получил поддержку

Русско-башкирский и башкирско-русский машинный переводчик на базе международной лингвистической платформы Glosbe

  • Конкурс Второй конкурс 2020
  • Грантовое направление Укрепление межнационального и межрелигиозного согласия
  • Номер заявки 20-2-003319
  • Дата подачи 25.03.2020
  • Запрашиваемая сумма 1 259 310,00
  • Cофинансирование 0,00
  • Общая сумма расходов на реализацию проекта  1 259 310,00
  • Сроки реализации 04.07.2020 - 24.07.2021
  • Организация Региональная общественная организация содействия сохранению и развитию культуры народов Республики Башкортостан "Мирас"
  • ИНН 0278991097
  • ОГРН 1120200000580

Краткое описание

В современном мире трудно переоценить актуальность проблемы, связанной с перспективами технологии машинного перевода и важность его практического применения в преодолении языкового барьера и налаживания форм коммуникации.
На сегодняшний день существует только один запущенный проект русско-башкирского машинного (автоматического) переводчика на платформе компании Яндекс (translate.yandex.ru). Однако он не даёт приемлемого качества выходного текста и так и остался в тестовом режиме и не обновляется уже много лет.
Компанией Glosbe совместно с командой нашего проекта ведутся работы по подготовке к запуску бета-версии русско-башкирского переводчика на площадке translate.glosbe.com. В базе памяти переводов Glosbe уже имеется 111 тыс. добавленных нами переведенных словоупотреблений. Для более менее корректной работы переводчика необходимо по меньшей мере 300 тыс. пар переведенных предложений (языковых пар). Для работы на среднем качестве необходим 1 млн., а для хорошего качестве требуется база в 5 млн. переведенных пар эквивалентных сегментов текста (цифра является рекомендацией таких сервисов как Google Translate и Яндекс.Переводчик).
Качество работы автоматизированных переводчиков напрямую зависит от баз данных, содержащих набор ранее переведённых сегментов текста – предложений. Технологии, на которых основаны машинные переводчики (метод статистического перевода, машинное обучение) крайне требовательны к объёму базы параллельных (двуязычных) текстов, на которые опирается алгоритм.
Запрашиваемое финансирование необходимо для формирования и аккумуляции корпуса параллельных текстов для последующего внедрения его в базу данных Glosbe. Итогом станет полноценная работа двунаправленного русско-башкирского переводчика, способного переводить не просто слова и фразы, а также цельно переводить загруженные документы любого объема.

Цель

  1. Целью проекта является накопление корпуса русско-башкирских и башкирско-русских параллельных текстов для запуска машинного переводчика обоих направлений перевода.

Задачи

  1. Полная вычитка отсканированных pdf-файлов на наличие ошибок распознавания.
  2. Разметка по отдельным предложениям и параграфам. Выравнивание сегментов с помощью специализированных программ.
  3. Подгрузка готовых выравненных таблиц в базу данных памяти переводов.
  4. Сканирование книг, имеющихся на башкирском и русском языках из каталога переведенной литературы Национальной библиотеки имени Ахмет-Заки Валиди Республики Башкортостан.
  5. Совместно с главными инженерами компании Glosbe отладка и донастройка работы алгоритмов, устранение багов в работе нейросетевого искусственного интеллекта.

Обоснование социальной значимости

Выполнение Проекта будет способствовать консолидации общества, укреплению межнационального согласия и единства народов, проживающих в Республике Башкортостан за счет улучшения взаимопонимания носителей башкирского и русского языков и интеграции информационного пространства региона.
Разработка русского-башкирского машинного переводчика увеличит продуктивность отношений между башкирским и русскими народами, поможет населению Республики Башкортостан преумножить знания обоих языков.

Реализация предложенного Проекта облегчит выполнение целей и задач Государственной программы «Сохранение и развитие государственных языков Республики Башкортостан и языков народов Республики Башкортостан» на 2019-2024 гг., среди которых значатся такие как:
- реализация языковой политики, обеспечивающей сохранение, изучение и развитие государственных языков Республики Башкортостан и языков народов Республики Башкортостан;
- расширение сферы применения башкирского языка, в том числе как государственного языка Республики Башкортостан;
- обеспечение приобщения населения Республики Башкортостан к мероприятиям, направленным на популяризацию башкирского языка в различных сферах;
- повышение уровня владения башкирским языком, языковой культурой, речевой грамотностью среди детей дошкольного и школьного возраста;
- обеспечение развития потенциала молодежи и его использование в интересах сохранения и развития башкирского языка.

География проекта

Республика Башкортостан и соседние регионы, в которых проживает башкироязычное население.

Целевые группы

  1. Русскоязычное население Республики Башкортостан, не владеющее башкирским языком

Контактная информация

450005, г Уфа, ул Революционная, д 109, кв 33