среда, 3 декабря 2014 г.

Лингвистика будущего

Сегодня планировал в Фин.Университете высказать на конференции пару мыслей про возможности лингвистику и как оно вообще связано с ИБ. Но работа не отпустила, а статью для сборника трудов конференции я уже написал.. так что вот она: 
Общеизвестное высказывание основателя династии Ротшильдов – «Кто владеет информацией – тот владеет миром» – в современном информационном обществе мало у кого вызывает сомнения. А ведь все мы владеем гигантским объемом информации, стоит только зайти в Интернет, ввести в поисковой строке запрос и получить огромное количество ссылок по интересующей теме. Мы, правда, в большинстве случаев, получим много «мусора» и «дублей», но поисковые гиганты вкладывают огромные средства в оптимизацию алгоритмов своей работы и в радужной перспективе мы получим только релевантные ссылки.

Вот только несмотря на тщательный автоматический отсев информации все еще останется очень много. За короткое время воспринять и иметь возможность оперировать этой информации нет возможности ни у одного человека. Восприятие информации становится тяжелым и времязатратным трудом, т.е. таким трудом, который человек всегда стремился автоматизировать за счет использования инструментов.

Таким инструментом может стать автоматический лингвистический анализ. В школьные годы на уроках литературы и русского языка нас учили анализировать тексты множеством различных методик – знаки препинания, знание частей речи, выделение ключевых и вспомогательных слов помогали нам в этом. Мы умеем отличать описание природы от рецензии на книгу, умеем отличать научный стиль повествования от публицистического. Некоторые даже способны по тексту – оборотам речи, стилю изложения – определить автора произведения. И под «некоторыми» понимаются не только люди. Тому, чему удается обучить школьников стоит попытаться обучить и компьютер.

И действительно, лингвистический анализ уже сейчас используется в информационных технологиях, в т.ч. в технологиях информационной безопасности, например, в большинстве антиспам систем или систем предотвращения утечек (DLP-систем). В последних заложены правила реагирования, основанные на следующем принципе – словам и ключевым фразам конфиденциальных документов ставятся в соответствие веса (с учетом морфологии и других возможных изменений самих слов и ключевых фраз). При попытке переслать сообщение, в котором сумма весов перекрывает пороговое значение, происходит реагирование. При тонкой настройке можно получить очень точные результаты – без чтения сообщения мы получаем возможность узнать не только, что оно содержит конфиденциальную информацию, но и каков именно характер пересылаемой информации (условно говоря, пересылаются ли клиентские базы, финансовая отчетность или результаты маркетинговых исследований).

Некоторые производители DLP-систем имеют в штате целый отдел лингвистов и это связано с развитием еще одного направления, в котором используется лингвистического анализа. За последние несколько лет ряд компаний анонсировали новые продукты, функционал которых связан с поиском Интернете отзывов и статей о компании-заказчике и сообщает «эмоциональный оттенок» каждого отзыва – был создан инструмент уже не столько для нужд информационной безопасности, сколько для нужд маркетинга.

Давайте посмотрим немножко вперед и попробуем оценить перспективы развития автоматического лингвистического анализа. Двое хороших знакомых автора этой статьи – экономист и программист – получили два года назад в Европе гранд на исследование в области, связанной с лингвистическим анализом.

Им необходимо было разработать продукт, который бы автоматически просматривал информацию на признанных общедоступных информационных площадках и предсказывал падение или рост акций сразу множества компаний. При успешной реализации проекта можно будет разработать торгового робота нового поколения, который принесет своим владельцам огромные доходы.

Необходимо понимать, что после разработки такого продукта изменятся возможности крупных игроков рынка по регулированию экономики, да и других сфер, например, политики, которая. «… есть концентрированное выражение экономики». Теперь, представим себе инструмент, который способен оценивать и прогнозировать расстановку политических сил в стране. В антиутопическом будущем результаты такого анализа будут рассматриваться, как волеизъявления народа, вместо «устаревшего» института выборов.

А если взять под контроль информационные потоки, а не только общедоступную информацию, то можно будет получать информацию о благонадежности, взглядах и предпочтениях отдельных людей и групп людей, при этом абсолютно не нарушая их конституционных прав, ибо автоматизированная система субъектом права ни в одной стране мира не является.

Лингвистический анализ станет мощным инструментом аналитики во многих сферах человеческой деятельности. А значит станут популярны и методы его обмана, что в свою очередь вновь сделает лингвистический анализ объектом интереса специалистов по информационной безопасности.

Комментариев нет:

Отправить комментарий