biomedtec
15 апр 2015

Лингвистический процессор от ОПК анализирует тексты любой сложности

 

Объединенная приборостроительная корпорация и российская компания «Авикомп Сервисез» анонсировали выход на рынок совместного проекта лингвистического процессора Ontosminer, который является основой для построения сложных систем текстового мониторинга и интеллектуального анализа данных. В качестве эксперимента тестовая версия программы открыта для вузов и научно-исследовательских учреждений в бесплатном режиме.

Программный продукт, базирующийся на последних разработках в области машинного обучения и технологиях Big Data, позволяет компьютеру «чувствовать» морфологию, синтаксис языка, «понимать» семантику отдельных слов и текста в целом. 

Как рассказал директор департамента инновационного развития ОПК Александр Калинин, разработка является еще одной ступенью к созданию искусственного интеллекта: машину научили анализировать письменную речь, извлекать из нее факты и смыслы. 

«Сегодня общеизвестно: 85 процентов информации содержится не в базах данных, а в текстах, и задача дня – научиться эту информацию находить. Над созданием подобных систем активно работают крупнейшие зарубежные компании, такие как Google и Facebook. В России это, без преувеличения, первая собственная разработка такого уровня», – отметил Александр Калинин.

Разработка является еще одной ступенью к созданию искусственного интеллекта: машину научили анализировать письменную речь, извлекать из нее факты и смыслы

Александр Калинин, директор департамента инновационного развития ОПК

Сфера возможного применения лингвистического процессора очень широка. Он может осуществлять поиск необходимых сведений, мониторинг СМИ, анализ больших массивов данных, систематизацию документооборота и информации (статистической, научно-технической, правовой, медицинской и т.д.). 

В отличие от традиционных поисковых систем в качестве запроса здесь выступает не отдельное слово, а целый документ (отрывок текста, статья и т.д.), после загрузки которого система выдает все, что есть на заданную тему в информационном пространстве. В ходе выполнения задачи Ontosminer ориентирован именно на смысл текстов, а не механически ищет ключевые слова, что значительно повышает результативность и качество отработки запроса. По итогам анализа всего массива информации комплекс способен автоматически сформулировать краткое резюме, где изложена суть события, ситуации или проблемы. 

Лингвистические процессоры являются центральным компонентом и наиболее охраняемым ноу-хау систем интеллектуального анализа. Ранее их создание требовало усилий больших команд лингвистов, которые вручную составляли правила разбора документов, создавали словари и сложные схемы семантических связей между словами, затем это все переводилось на язык машин. 

Как отмечают разработчики, Ontosminer выводит возможности текстового анализа на новый уровень. Система построена на принципах машинного обучения, когда помощь лингвистов больше не требуется – компьютер, обрабатывая большое количество текстов, «учит» себя сам понимать их смысл. В настоящий момент в «голове» у лингвистического процессора – десятки миллионов документов. В перспективе этот показатель будет увеличен до нескольких сотен миллионов, что сделает его возможности еще более впечатляющими. 

Говоря о возможностях искусственного интеллекта, мы подразумеваем, что компьютер учится сам генерировать программы обработки «больших данных» в соответствии с задачей, которую формулирует человек

Андрей Жулин, проректор ВШЭ

Одним из участников проекта выступает Высшая школа экономики. Ученые вуза – математики и лингвисты – принимали непосредственное участие в создании нового программного продукта.

«Когда мы говорим о возможностях искусственного интеллекта, то подразумеваем, что компьютер учится сам генерировать программы обработки «больших данных» в соответствии с задачей, которую формулирует человек», – пояснил проректор ВШЭ Андрей Жулин. 

«Если раньше традиционное программирование аналитических функций требовало серьезных человеческих, временных и, соответственно, финансовых ресурсов, то теперь мы получаем возможность извлекать информацию дешево, быстро и качественно. Учитывая, что многие современные бизнесы построены на использовании информации, перспективы этого продукта – огромные. Кроме того, технология позволяет решать и большой спектр исследовательских, образовательных задач. Например, проводить лексический анализ литературных произведений, анализировать большие массивы нормативно-правовых актов и т.д.», – отметил проректор ВШЭ.

По мнению Александра Калинина, в новой технологии анализа текста заложены большие возможности. «В этой технологии скрыто будущее робототехники, ведь она может быть применена для анализа изображений и звука, т.е. машина получит возможность «видеть» и «слышать». Причем создать соответствующие продукты будет проще, чем разработать лингвистический процессор, поскольку язык обладает огромной вариативностью: одно и то же слово может менять значение в зависимости от контекста, в речи могут встречаться ошибки. Машина уже сейчас способна понимать все эти нюансы», – сказал он.

С сегодняшнего дня в качестве эксперимента ОПК и «Авикомп Сервисез» открыли доступ к тестовой версии Ontosminer для российских студентов, научных сотрудников и исследовательских коллективов. Разработчики системы уверены, что такой шаг позволит сделать дальнейший прорыв в области отечественных платформ анализа Big Data.