http://www.w3.org/1999/xlink http://www.w3.org/1999/xlink http://www.w3.org/1999/xlink

Статус проекта: проект не получил поддержку

Нейросетевой переводчик селькупского языка

  • Конкурс Первый конкурс 2024
  • Грантовое направление Укрепление межнационального и межрелигиозного согласия
  • Номер заявки 24-1-000666
  • Дата подачи 16.10.2023
  • Запрашиваемая сумма 1 714 622,54
  • Cофинансирование 716 446,00
  • Общая сумма расходов на реализацию проекта  2 431 068,54
  • Сроки реализации 01.02.2024 - 31.01.2025
  • Организация АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ "МЕЖЭТНИЧЕСКАЯ АССОЦИАЦИЯ "ИЛЬСАТ" ("ДУША")
  • ИНН 7017482796
  • ОГРН 1217000002273

Краткое описание

Проект направлен на создание автоматического переводчика в языковых парах “нарымский селькупский язык – русский язык” и “русский язык – нарымский селькупский язык”. В последние годы динамично развиваются технологии обработки естественного языка (Natural Language Processing) и автоматического нейросетевого перевода, в том числе создаются технические решения для перевода и генерации текстов на языках с текстовыми корпусами малых объёмов (см., например, https://habr.com/ru/post/692168/).
Нарымский селькупский язык – это разновидность южноселькупского языка (https://minlang.iling-ran.ru/lang/yuzhnoselkupskiy), языка коренного малочисленного народа Севера, распространённая в целом ряде муниципальных образований Томской области. Именно нарымский селькупский является наиболее ресурсным среди всех селькупских языков/диалектов: насчитывается наибольший объём текстов, устоялась и развивается литературная норма, не менее 1-2 книг выходят ежегодно, регулярно создаются новые видео и песни (https://www.youtube.com/@selkup_lang/playlists), существует опыт разработки простых IT-инструментов (онлайн-словари) (https://play.google.com/store/apps/details?id=ru.dinarastepina.selkup https://dict.fu-lab.ru/dict?id=1019947). Деятельность АНО МЭА «Ильсат» («Душа») направлена на непосредственное увеличение числа пользователей (новых носителей) языка.
По итогу реализации проекта будет создан нейросетевой переводчик селькупского языка, основанный на машинном обучении, и сопутствующие ему продукты и интерфейсы: онлайн-перевод на сайте (по типу Яндекс или Google переводчиков); перевод в мессенджерах Telegram, Вконтакте, Одноклассники и Яндекс.Мессенджере; в приложениях для платформ Android, iOS и Ubuntu Touch. Нейросетевой переводчик будет запущен под лицензией GPL (Лицензия свободного ПО с возможностью некоммерческого использования и встраивания). Также будет создана электронная библиотека селькупских книг и текстов на собственных платформах и на платформе Wikisource. В целом созданный продукт послужит базой и ключевым компонентом для дальнейшего развития цифровой экосистемы южноселькупского языка с потенциальным масштабированием на родственные и структурно близкие языки. Кроме того, реализация проекта вызовет значительный социальный эффект.
Помимо разработки цифрового продукта также планируется провести 6 «Остяцких хакатонов» (г. Томск, г. Колпашево, г. Кедровый, с. Каргасок, с. Парабель, с. Бакчар). Хакатоны будут реализованы в сотрудничестве с общеобразовательными и средними профессиональными учебными заведениями, учреждениями культуры и науки, и позволят местной молодёжи, в т.ч. с селькупскими корнями, в рамках однодневного проектного мозгового штурма создать собственные креативные продукты с опорой на культуру КМНС и разрабатываемый/поддерживаемый нейросетевой переводчик. Также для широкого круга будет подготовлен видеокурс по селькупскому языку и цифровой экосистеме языка, в т.ч. о технических возможностях нейросетевого переводчика.

Цель

  1. Создать условия для интеграции культуры коренных малочисленных народов Севера в современную цифровую среду

Задачи

  1. Разработать и обеспечить функционирование новых цифровых ресурсов
  2. Реализовать совместные мини-проекты с опорой на разрабатываемые ресурсы совместно с представителями целевых групп
  3. Обеспечить информирование широкого круга в рамках целевых групп

Обоснование социальной значимости

Реализация проекта окажет содействие развитию культурного потенциала Томской области, а также поспособствует созданию качественного и аутентичного продукта, основанного на воплощении самобытной культуры селькупов. Интерес местного и профессионального сообществ к аутентичной культуре коренных народов Западной Сибири в настоящее время высок, что выражается во всевозрастающем количестве новых проектов и инициатив на базе языков и культуры КМНС, как от самих представителей народов, так и от социальных учреждений и частных организаций; в росте внимания к теме со стороны медиа; в постоянном росте тематических групп в социальных сетях. Реализация проекта позволит повысить престиж и значимость местной культуры в глазах местных жителей и тем самым придать стимул культурному и в перспективе социально-экономическому развитию коренных малочисленных народов Севера Томской области.
Создание нейросетевого переводчика является одним из необходимых шагов на пути развития любого языка в современном мире, данный инструмент рано или поздно будет создан для всех функционирующих в обществе языков. Технологии, использующиеся при создании переводчика, и сам IT-продукт являются базой для создания дальнейших инструментов, например, чат-ботов, расширений для перевода сайтов и видео в браузерах, умных колонок, навигаторов.
Нарымский селькупский язык является единственным из селькупских языков/диалектов Томской области, которым на сегодняшний день владеют несколько носителей; число новых носителей растёт. К процессу ревитализации языка посредством языковых практик привлечено внимание СМИ всех уровней (местные: https://ok.ru/group/58395274379322/album/901341639738/901341651258
региональные: https://www.youtube.com/watch?v=8L71UorkjFo федеральные: https://youtu.be/l0zSY8iXxME), блогеров (https://pikabu.ru/story/selkupyi_ikh_yazyik_i_dostizheniya_9391656). Живой отклик данная деятельность находит и в местном сообществе (https://vk.com/wall-183878466_17093), среди потомков селькупов и просто местных жителей. Изучение и развитие южноселькупского языка востребовано значительными организациями и учреждениями, как местными и региональными (книги и курсы регулярно закладываются в грантовые проекты, постоянно поступают приглашения на разовые мероприятия), так и федеральными (https://docs.google.com/presentation/d/1ucdQETAXxacCaQPd6N541VP_K6J1SE2_ZkBzMRNXIdo/). Как показывает практика, селькупский язык и культура могут послужить важной точкой приложения потенциала местной талантливой молодёжи.
В плане быстрых практических результатов нейросетевой переводчик позволит резко увеличить объём текстов на нарымском селькупском. Мы сможем получать черновые переводы целых книг, оставляя себе в качестве филологической работы корректуру и редактуру. Искусственный интеллект придаст импульс развитию селькупской литературы, которая, несмотря на относительно бодрые темпы книгоиздания, остаётся недостаточно развитой даже по сравнению с литературами схожих по численности народов России.
Преподавание и изучение языка станет значительно более удобным для всех сторон процесса. Упростится самостоятельное изучение языка; новые примеры этого явления мы наблюдаем в информационной среде Томской области не реже раза в месяц. Широкий IT-инструментарий позволит быстрее наращивать число владеющих языком.
Созданные продукты кратно и на долгосрочном тренде усилят мотивацию к изучению языка, т.к. по итогу южноселькупский язык перейдёт первый порог малоресурсности и станет гораздо более широко используемым языком. Повысятся общественная значимость и престиж языка и культуры, что позволит остановить и обратить вспять процессы ассимиляции и размывания народа, будет создан важный задел для восстановления естественной передачи языка в семьях. Разработка предлагаемого продукта на текущий момент представляется естественным этапом развития языка, необходимым для эволюции процессов языкового возрождения и перевода их на новый качественный уровень.

География проекта

Томская область

Целевые группы

  1. представители и потомки коренного малочисленного народа — селькупы
  2. сотрудники учреждений образования и культуры Томской области
  3. социально активное население (в т.ч. молодёжь) Колпашевского, Парабельского, Каргасокского, Бакчарского районов Томской области, г. Кедровый
  4. представители научного и IT-сообществ Томской области

Контактная информация

Томская обл, г Томск, пр-кт Мира, д 1, кв 63