В Коми есть уникальный опыт работы с диалектными текстами. Такое мнение высказал заведующий Лабораторией лингвистики и информационных технологий Института истории, языка и литературы Уфимского научного центра Российской академии наук Зиннур Сиразитдинов, прибывший в столицу Коми в качестве участника Международной научной конференции "Электронная письменность народов Российской Федерации: опыт, проблемы и перспективы".
По его мнению, внедрение и полноценное функционирование национальных языков Российской Федерации в современном информационном поле возможно при нескольких условиях. Одним из важных шагов является создание инфраструктуры для функционирования языков в информационных технологиях. В первую очередь, необходимо финансово-организационная поддержка на федеральном и региональном уровнях. Во-вторую - наличие научно-технических решений, включающих внедрение шрифтов, раскладок клавиатуры, кодировок для операционных систем, формирование лингвистических баз данных, в том числе электронных словарей, грамматических справочников. А также наличие научных исследований по формализации национальных языков, алгоритмов реализации приложений.
"В поиске решений этих вопросов, мы работаем в контакте с коллегами из других регионов, обмениваемся данными при помощи современных технологий. Но живое общение ничем не заменить. Предстоящая конференция дает прекрасную возможность обсудить, какие есть наработки у российских и зарубежных коллег, что создано, на каком уровне, поделиться опытом и идеями", - отметил Зиннур Сиразитдинов.
К примеру, уфимская Лаборатория лингвистики и информационных технологий действует с 2002 года. За это время проведены разработки шрифтов, клавиатуры, программных продуктов и приложений, локализованных на башкирский язык, а также онлайн-словарей. Создан "Машинный фонд башкирского языка" - банк данных, включающий 60 терминологических, двуязычных, толковых, орфографических и других словарей, генеральную картотеку, позволяющую получить информацию по значению слова, примерам его употребления, существующим парадигмам и другим характеристикам. Например, определить, является это слово диалектным, литературным, устаревшим или неологизмом, выяснить, как оно произносится и в каких словарях встречается. Здесь же размещен грамматический подфонд, включающий картотеки рукописных и старопечатных книг и позволяющий работать со словами, вошедшими в большой академический словарь башкирского языка, примерами их употребления.
Также лаборатория работает в области создания терминологического банка данных башкирского языка. Терминологическая база функционирует в сети Интернет.
Еще одно направление работы Центра – создание корпусной лингвистики. В настоящий момент корпус прозаических текстов включает 25 миллионов словоупотреблений, публицистических - около 7 миллионов. Продолжается работа по созданию корпуса башкирского фольклора, в который полностью войдут изданные 18-томник и 36-томник фольклора, а также неизданные материалы, хранящиеся в архиве института.
Сегодня лаборатория разрабатывает диалектологический подфонд, который уже насчитывает 52 тысячи диалектных слов. И в этой работе башкирским ученым интересен опыт коллег из Коми.
"Я приехал пораньше, чтобы познакомиться с работой сыктывкарского Центра инновационных языковых технологий, являющегося одним из ведущих в России по работе с диалектными текстами. Даже московский Национальный корпус русского языка не дает таких возможностей работы с видео- и аудиофайлами. Когда речь идет о диалектах, мало видеть, как это слово пишется, надо слышать, как оно произносится, с какой интонацией. Это очень ценный опыт исследования, который бы мы хотели перенять", - поделился Зиннур Сиразитдинов.
Напомним, Международная научная конференция "Электронная письменность народов Российской Федерации: опыт, проблемы и перспективы" пройдет в Сыктывкаре 16-17 марта.
Предстоящий форум будет весьма представительным по составу. Ожидается, что на первую международную конференцию по вопросам электронной письменности соберутся более 100 российских и зарубежных участников.
Участие в пленарных и секционных заседаниях подтвердили представители Норвегии, Финляндии, Германии, Австрии, Испании, Венгрии, Голландии, Великобритании и Беларуси, а также 20 российских регионов: Коми, Удмуртии, Марий ЭЛ, Татарстана, Тывы, Башкортостана, Чувашии, Карелии, Якутии, Дагестана, ЯНАО, ХМАО, НАО, Пермского края, Москвы и Санкт-Петербурга, Белгородской, Кировской, Ивановской и Самарской областей.