Наука и образование
Руководитель портала «Грамота.ру» Константин Деревянко рассказал о нейросетях в лингвистике
Он ответил, сколько новых слов попадает в русский язык каждый год.
Сколько новых слов попадает в русский язык каждый год и какое количество из них остаётся на долгое время? Как искусственный интеллект может способствовать развитию образования? На эти вопросы «Городским новостям» ответил Константин Деревянко, зампредседателя Совета при президенте РФ по поддержке русского языка и языков народов РФ, руководитель портала «Грамота.ру». Побеседовать с Константином Сергеевичем удалось на прошедшем в нашем городе конгрессе РОПРЯЛ — Российского общества преподавателей русского языка и литературы.
Открыли «Учебник»
— Константин Сергеевич, портал «Грамота.ру» — это же популярный справочник по правописанию. Интересно, с какими вопросами чаще всего к нему обращаются пользователи и как быстро удаётся находить ответы?
— Вопросы касаются совершенно разных сфер: значение слов, орфография, пунктуация. В среднем их бывает по 150 тысяч в день. А, например, в период сдачи ЕГЭ это количество возрастает до 250 и даже 300 тысяч. С прошлого года мы отслеживаем статистику поисковых запросов. Видим, как реагируют пользователи на общественно-политическую ситуацию, как ищут новые слова, которые попадают язык.
«Грамота» — одна из старейших цифровых справочных служб, в этом году ей исполняется 24 года. Если сравнивать, то раньше тысячи запросов, которые поступали на портал, обрабатывались со значительной задержкой. На сегодняшний день на ответ уходит не больше месяца.
Сейчас в нашей команде работают 60 человек. Это не только лингвисты, лексикографы, программисты, но и большое число учёных. И к началу следующего года мы хотим прийти к тому, чтобы человек практически мгновенно мог получать ответ на свой вопрос. Планируем делать это с помощью робота, который будет обрабатывать огромный массив собранной за десятилетия информации. Либо будет мгновенно подключать эксперта из нашей разветвлённой сети.
— Кто пользуется материалами портала? Только жители нашей страны?
— Не только. Традиционно более 35 процентов нашей аудитории — пользователи из-за рубежа, более чем из 50 стран мира.
— На Конгрессе РОПРЯЛ вы представили новые сервисы, которые разрабатывает «Грамота». О чём идёт речь?
— Практически каждый месяц у нас появляются обновления. Мы инвестируем большие средства в то, чтобы помочь людям говорить на русском языке грамотно. На портале огромное количество информации, много сервисов, которые предоставляются пользователям бесплатно. Но будут появляться и платные продукты. Это нормально. Такой подход поможет создать ещё больше интересных решений.
Сейчас «Грамота» активно идёт в образование, развивая новые решения как в цифровом, так и в печатном формате, чтобы помочь школьникам и педагогам изучать язык. Мы открыли раздел «Учебник» — образовательный ресурс, рассчитанный на пользователей самого разного возраста. Также в этом году мы запустили программу языковой поддержки детей мигрантов. В конце года будет представлен целый учебно-методический комплекс, который включает и бумажные издания, и цифровой раздел на портале.
И «Яндекс» ошибается
— Но, насколько я знаю, в первую очередь, вы презентуете технологические решения, связанные с так называемым искусственным интеллектом.
— До полноценно мыслящего искусственного интеллекта нам пока ещё далеко. Но мы действительно планируем внедрить на портале машинное обучение, нейросети, работу с большими языковыми моделями, интегрированную с собранной у нас словарно-справочной информацией. Эта система позволит ускорить создание того или иного контента, а также сделать гораздо быстрее реакцию на запросы пользователей. Без таких технологий сейчас невозможно представить какой-либо IT-проект, в том числе в области лингвистики.
В целом это очень большая и сложная задача. Нужно, с одной стороны, обеспечить лингвистической информации, которую выдаёт «Грамота», эталонную точность. А с другой — повысить охват и оперативность. Всего этого можно добиться благодаря работе нейросети. Сейчас над решением данного вопроса трудятся учёные не только у нас в стране, но и за рубежом.
— Это действительно так сложно?
— Что касается орфографических норм, то задача более-менее проста. Но если говорить про пунктуацию… Например, к нам обращается пользователь с вопросом, нужно ли ставить запятую после слова «однако» в начале предложения. Сегодня, нейросеть, обученная на огромном количестве текстов, созданных пользователями интернета, автоматически ошибётся, скажет, что запятая не нужна. При этом лингвисты, словари и справочники дают совершенно другую информацию.В сложных вопросах с пунктуацией языковая модель ошибётся в большинстве случаев. Это можно проверить на всем известных нейросетях «Яндекса», «Сбера» и других компаний.
— Да что там «Алиса» и «Яндекс». Даже «Майкрософт Офис» ошибается...
— «Офис» — это базовый сервис, а нейросети — всё же новый виток технологий. Но и им в вопросах информации о языке нельзя полностью доверять, стопроцентной точности не будет. Могу вам сказать с полной убеждённостью и уверенностью. И если человек не очень хорошо ориентируется в правилах русского языка, а каждый из нас сталкивается с тем или иным затруднением, он не сможет отличить ошибку от достоверной информации.
— Но даже профессионалы ошибаются. У ваших сотрудников такое случается?
— Нет, они практически никогда не ошибаются. Конечно, нельзя исключать человеческий фактор, но для этого мы ввели несколько уровней верификации данных. Хотя, несомненно, проскакивают опечатки, бывают какие-то сбои. И мы благодарны нашим пользователям, которые пишут нам, указывают на ошибки, помогают их максимально быстро устранять.
Высокая точность наших ответов позволила завоевать порталу в сознании миллионов граждан статус эталонного ресурса, истины в последней инстанции. Мы надеемся его сохранить. Ресурс изначально создавался для профессионалов — корректоров, редакторов, учителей, таким он и остаётся.
Звучащие слова
— Какие ещё сервисы планирует запустить «Грамота»?
— Сейчас мы активно развиваем метасловарь. И это бесконечный проект... Метасловарь — единый лексикографический ресурс, система, которая интегрировала все имеющиеся на сегодняшний день словари, отслеживает актуальные тенденции в языке и максимально оперативно пополняется. Она даёт полную информацию о слове, о новой лексике, чего в традиционных справочниках у нас обычно нет.
Нужно отметить, что обычные словари отстают от развития языка на 10–15, а иногда и на 20 лет. «Грамота» намерена этот разрыв нивелировать. Используя свой опыт, а также подключив искусственный интеллект, машинное обучение, в ближайшем будущем мы планируем представить русский язык во всём его многообразии.
Более того, на сегодня мы произвели озвучку всех слов и выражений на «Грамоте». Теперь словарь можно слушать.
— Вы говорите, что язык постоянно развивается. А сколько слов появляется в нём, допустим, каждый год? И сколько из них заносится в словарь — кодифицируется?
— Мы стараемся отслеживать все изменения, которые происходят в языке, однако в таком периоде, как один год, кодификация невозможна. Чтобы что-то закрепилось в речи носителей литературной нормы, необходимо несколько лет. В языке остаются лишь те слова, которые не являются ситуативными, а их не так много — из тысячи лишь сотни заслуживают внимания лингвистов и могут быть отражены в словаре.
Но ведь кроме новых слов, мы фиксируем и новые значения.
— А нужно ли ограничивать количество иностранных заимствований в русском языке?
— Язык — это живой организм. Просто невозможно зажимать его в какие-то рамки, пытаться искусственно ограничивать от вхождения новых слов. Как бы мы ни старались, какими бы документами ни регулировали. Если мы привносим технологии из-за рубежа, то в любом случае берём и лексику. А если мы создаём что-то своё для мира, то наш словарь распространяется в другие страны.
Да, время от времени в СМИ появляются предложения о запрете заимствований. Зачастую их инициаторы вводят в заблуждение общество, предлагая защищать русский язык от иностранных слов, хотя он больше чем на 75 процентов состоит из них. Нужно говорить не о запрете, а о том, что необходимо формировать и развивать речевую культуру, потому что сейчас с ней большие проблемы.
Нюанс
Конгресс РОПРЯЛ — Российского общества преподавателей русского языка и литературы — проходил в Сибирском федеральном университете с 10 по 14 сентября. Учителя из разных регионов России собрались в нашем городе, чтобы обсудить актуальные задачи, которые стоят перед педагогическом сообществом. В частности, это поддержка русского языка в зарубежных странах, применение искусственного интеллекта в преподавании русского языка и литературы.