Дагестанец спасает от забвения исчезающие языки

Дагестанец спасает от забвения исчезающие языки

Согласно данным ЮНЕСКО, 19 дагестанских языков находятся под угрозой исчезновения, еще 6 внесены в категорию «уязвимых». До недавнего времени словари этих языков существовали только в виде печатных книг, к которым молодежь, привыкшая к гаджетам, обращалась все реже.

Программист Заур Агамов устроил дагестанским языкам «апгрейд», создав некоммерческий проект по сохранению языков «Public dictionary». Это бесплатные приложения-словари для смартфонов, сайты и телеграм-боты. Они помогают совершенствовать свой язык, общаться, а школьники пользуются ими, когда делают домашнюю работу по родному языку.
Заур Агамов родился и вырос в Дагестане. Родной лезгинский язык знает с детства — он всегда звучал и дома в Махачкале, и в селе, где он проводил каникулы. В школе Заур увлекался не только языками программирования, но и просто языками. Выигрывал городские олимпиады по математике и английскому. После второго курса матфака Заур перевелся из дагестанского вуза в питерский Электротехнический университет, окончил его, работал в «Яндексе» и других компаниях.
В 2012-м получил интересное предложение из Дубая. «После холодного Питера южному человеку захотелось побольше солнца, — так он объясняет свой переезд в Эмираты. — Начиналось все как хобби-проект. Первое приложение — «Лезгинский словарь» написал в 2014-м для души».
«Хотя для программиста считается хорошим тоном, когда есть собственные проекты, — рассказывает Заур. — На создание первого приложения ушло много сил. У меня был вордовский файл с лезгинским словарем, который совершенно не выглядел как база данных. Пришлось вручную размечать: тут — слово, тут — перевод. Через две недели тупой однообразной работы шея разболелась так, что я три дня лежал на больничном».
Версию для iOS Зауру помог написать друг-айфонист. А потом пошли просьбы сделать то же самое и для других языков. Просили башкиры, чуваши, ногайцы, даже носители такого редкого языка, как гагаузский. «Я увидел, что приложениями активно пользуются, и мне самому стало интересно, захотелось продолжить», — говорит программист.
Без лишних слов
Сегодня «Лезгинский словарь» установили около 20 тысяч раз на Android и примерно столько же на IPhone. Рейтинг приложения в Play Market — 4,7 из 5, в App Store — 4,5. Помимо него, доступны словари кумыкского, башкирского языков, и карачаево-балкарский, пока только в виде сайта.
Ежедневно ко всем сервисам Заура обращается порядка тысячи человек. В России, по данным ЮНЕСКО, под угрозой исчезновения находятся 90 языков, в том числе 19 дагестанских: андийский, арчинский, ботлихский, ногайский, каратинский, рутульский, тиндинский, цезский и другие. Сейчас проект сосредоточен на дагестанских языках: к маю разработчик планирует создать онлайн-словари аварского, агульского, даргинского, лакского, рутульского и табасаранского языков.
Восемь приложений будет работать на Android, iOS, кроме того, будет 8 сайтов, 8 телеграм- и фейсбук-ботов. Своей очереди ждут исчезающие ногайский и цахурский языки. Впрочем, Заур не собирается ограничиваться Дагестаном. «Public dictionary» нацелен охватить как можно больше российских языков, независимо от того, грозит им исчезновение или нет. Параллельно с этим Заур вместе с питерской командой разработчиков создает анимированные азбуки крупных языков в виде мобильных приложений. Программист пытался найти финансирование на разработку лезгинской азбуки, но безуспешно, — пока есть только демо-ролик на YouTube.
«Скоро выйдет арабская азбука, и мы с депутатом Народного собрания Дагестана Тимуром Гусаевым обсуждаем возможность создания азбук дагестанских языков. Опять же, если найдем финансы, ведь к каждой букве — а их в ряде дагестанских алфавитов больше 40 — нужно нарисовать новые сценки, оплатить работу программистов», — объясняет разработчик.
Сейчас Заур работает в дубайском стартапе Brndstr — делает ботов для фейсбука, твитера, телеграма. В числе последних клиентов стартапа — такие бренды, как Volkswagen, British Airways, Huawei. Фото: Бизнес-инкубатор «Пери Инновации» По словам разработчика, боты — новый тренд. — Это автоматизированный собеседник, который умеет читать входящие сообщения и отвечать на них. В случае с ботом-лезгином он понимает, что вы отправили ему слово на русском и высылает перевод. И наоборот, — объясняет Заур Агамов. Сейчас в телеграме доступны боты аварского, лезгинского, кумыкского, лакского, агульского и даргинского языков. Их аналоги скоро появятся в фейсбуке.
«Ле, Гугл! ВорчIами!»
В переводе с аварского это означает: «Эй, Гугл! Здравствуй!» Но в ближайшие годы голосовые помощники вроде Google Now или Siri вряд ли научатся воспринимать дагестанские языки. Чтобы обучить машину пониманию устной речи, нужен очень большой объем звуковых данных.
«Мы на слух воспринимаем только 70% речи, остальное мозг домысливает по контексту. Поэтому, например, для английского языка одно слово озвучивается 1000−2000 раз. Потом 10−20 лингвистов пишут правила генерации. Такого звукового материала у меня нет, и вряд ли будет. Для дагестанских языков это представляет только академический интерес. В случае с большими языками — английским, русским, где сотни миллионов носителей, в этом есть экономический смысл: можно создать навигаторы, голосовой поиск. Поэтому корпорации вроде Google и Яндекса готовы тратить на это время и деньги, — говорит о технологии Заур. — Для «малых» языков это неактуально. Трудности перевода Каждый дагестанский язык — отдельный космос со своими законами пространства и времени. Например, в табасаранском языке 48 падежей. В аварском и лезгинском считают двадцатками, а не десятками. В языках горцев учитываются не только привычные род и число, но и месторасположение собеседника — под горой он стоит или на горе, и на какой именно высоте. Попробуйте-ка обучить такому робота-переводчика!»
По данным миннаца Дагестана, в республике говорят на 33 языках и более чем 100 диалектах. Заур убежден: создать хороший переводчик, способный переводить целые фразы на языках Дагестана, — нереально. Система машинного перевода учится на огромных корпусах параллельных текстов. Это не просто вордовские файлы с текстами — лингвист должен разметить каждое слово: здесь существительное, здесь глагол; тут корень, тут окончание. Таких объемов контента даже у самых крупных народностей Дагестана попросту нет.
Попытку создать подобный переводчик сделал талантливый программист Омар Ганиев, автор сайта dalang.ru, но система хромает — переводчик не на чем обучать. «Я работал в компании, которая создавала арабский переводчик. В офисе сидели семь лингвистов, в течение двух лет с утра до вечера они писали правила перевода в приложении, типа: «Если предложение начинается так, то окончание у слова будет такое». Это сумасшедший объем работы. Если кто-то и сделает переводчик дагестанских языков, то энтузиасты вроде меня. Но и качество будет соответствующее», — говорит Заур.
Все, кроме денег
Сейчас над «Public dictionary» работают трое: Заур Агамов, iOS-программист Александр Михайлов и дизайнер Олег Данилов. Для всех это хобби. Расходы Заур покрывает из собственного кармана. Сам платит за хостинг сайта, за лицензию в App Store. Разработчик неоднократно обращался в различные фонды в Дагестане, но поддержки не находил. По статистике, на даргинском языке говорят около полумиллиона человек, однако это не один, а более 10 языков, считающихся диалектами. В их числе, например, периферийный кубачинский диалект. Жители аула Кубачи считают его самостоятельным языком. Литературный даргинский, созданный на основе акушинского диалекта, понимают не более половины даргинцев.
«Я знаю, что в Дагестане есть государственные гранты на подобные проекты. Но проблема в том, что я не умею просить. В республике не живу с 18 лет, мне сложно понять местную специфику. В Дагестане, даже если у тебя хороший проект, но ты пришел с улицы и попросишь деньги, тебе их никто не даст», — рассказывает программист про свой опыт.
В этом году он подал заявку в седьмой набор резидентов бизнес-инкубатора «Пери Инновации», реализуемый благотворительным фондом «Пери» предпринимателя Зиявудина Магомедова. «Интересный и очень ценный для дагестанцев проект. Немало людей работают над сохранением языков Кавказа, но у этих ребят есть преимущество — они не просто оцифровывают словари, а используют современные технологии — приложения, боты, сервисы, удобные для пользователей. У проекта есть все, чтобы пройти наш отбор: профессиональная команда, инновационные технологии, первые готовые продукты и большая социальная, культурная и образовательная ценность», — говорит директор бизнес-инкубатора Гаджимурад Алиев.

Оставить комментарий

Рейтинг@Mail.ru
Создание сайтов Создание сайтов в Киеве