Пособие по обработке естественного языка для мобильных операторов

12 мин. на чтение

Применение компьютерной поддержки и искусственного интеллекта (ИИ) — набирающий популярность в мире телекоммуникаций тренд. Согласно обзору GSMA The Mobile Economy 2019, ИИ — одна из самых важных новых технологий для мобильных операторов. Она может принимать различные формы, но одним из самых любопытных, и одновременно наименее обсуждаемых ее применений, является защита сетей мобильных операторов. Борясь со спамом и препятствуя доставке A2P-сообщений по «серым» маршрутам трафика, ИИ могут помочь мобильным операторам лучше понять свою сетевую инфраструктуру, улучшить качество доставки SMS и защитить сеть от мошеннических проявлений.

Существуют две любопытные смежные технологии, участвующие в защите сетей операторов: машинное обучение (МО) и обработка естественного языка (NLP). Мы уже рассматривали, какую пользу приносит машинное обучение мобильным операторам. Теперь мы предлагаем рассмотреть пособие по обработке естественного языка для мобильных операторов — то, как машины могут изучать и анализировать естественные языки, чтобы классифицировать и сортировать сообщения, проходящие через сеть оператора. 


Естественные языки

Идея заключается в том, чтобы обучить ИИ анализировать SMS-сообщения и определять тип контента. Впрочем, проблема заключается в том, что ИИ часто испытывают проблемы с распознаванием естественных языков. Естественный язык — язык, используемый людьми для общения и сформировавшийся «естественным» путем в ходе такого общения — прямая противоположность структурированным искусственным языкам, таким, как языки программирования. Большинство языков, находящихся в употреблении (помимо специальных шифров и искусственных языков типа эсперанто), являются естественными языками.

В результате все естественные языки имеют свои особенности и исключения, которые затрудняют распознавание, а более того — понимание контекста программой, что позволило бы нам управлять машинами в виде произвольных устных или письменных команд. Проблемы могут возникать с устойчивыми выражениями и жаргонными словами, определенными терминами, вырванными из контекста, а также порядком слов и прочими грамматическими нюансами. NLP — новая попытка программистов обойти эту проблему и сделать искусственный интеллект полезнее.


Примеры обработки естественного языка

Обработка естественного языка — не новое направление. Хотя технологии и подходы изменились, цель осталась прежней — научить машину «читать» текст или «слышать», то, что ей говорят. И эта цель почти так же стара, как и сама идея ИИ. NLP лежала в основе первых чат-ботов, таких как Eliza (конечной целью NLP было создание диалоговых интерфейсов для взаимодействия с машинами), хотя сама Eliza была разработана для того, чтобы симулировать общение с психотерапевтом. 

Обобщая, можно выделить два типа обработки естественного языка: синтаксический и семантический. Синтаксис определяет грамматический порядок слов в предложении. NLP включает классификацию слова как части речи, определение склонения/формы/спряжения, а также понимание того, как взаимодействуют эти части речи. Это помогает программе интерпретировать значение предложения благодаря пониманию правил, устойчивых выражений и принятых фигур речи. 

Пример команды, задаваемой Amazon Alexa. Источник: Chatbots Magazine
Пример команды, задаваемой Amazon Alexa. Источник: Chatbots Magazine

Семантический анализ сосредотачивается на анализе значения (и приоритетности) слов и целых предложений. В частности, определяются «именованные сущности», обозначающие людей или места; позитивная или негативная окраска предложения, или даже сарказм. Способность к семантическому анализу является обязательным требованием при создании действительно функциональных и полезных чат-ботов, поскольку это позволяет машине делать верные заключения относительно значения полученных вводных данных. (Стоит отметить, что этот конкретный компонент не является столь критичным для мобильных операторов).

Современные «умные дома» и виртуальные помощники типа Siri или Google используют эти техники, чтобы определять, что от них требует пользователь. Впрочем, от помощников в основном требуется способность различать команды и названия сервисов (так называемые «имена вызова» — «invocation name» — как указано на иллюстрации), а не отличать глаголы от существительных.

NLP также помогает сортировать и организовывать информацию из соображений безопасности, отличая угрозы от обычной переписки. Уже в 1990-х команда в американском агентстве национальной безопасности занималась разработкой подходов, основанных на обработке естественного языка, с целю отсеивания входящей информации. Как минимум одна компания в сфере кибербезопасности предлагает эту технологию в качестве решения для борьбы с утечками данных вследствие ошибок персонала или случаев вымогательства. 


Распознавание шаблонов

Для повышения уровня безопасности, мобильным операторам не обязательно использовать все возможности обработки натурального языка, ведь их не интересует возможность инициировать выполнение команд при помощи доставленных на их сеть сообщений, поскольку их роль состоит исключительно в передаче сообщений. 

Также мобильных операторов не интересует способность системы «говорить» с ними. Их интересует способность идентифицировать и классифицировать различные типы сообщений и перенаправлять их по соответствующим маршрутам. Их требования к ИИ заключаются в способности идентифицировать международный A2P SMS-траффик и терминировать его надлежащим образом, избегая «серых» маршрутов, а также — в способности выявлять и блокировать спам. (В нашей предыдущей статье мы рассматривали, как машинное обучение может позволить машине выполнять эти действия проактивно, блокируя или помечая спам для проверки.)

Соответственно, NLP фокусируется на идентификации шаблонных структур в сообщениях; способность ИИ понимать, о чем идет речь в сообщениях является одновременно нарушением тайны переписки и ненужной затратой ресурса. От ИИ мобильного оператора требуется способность сортировать сообщения, основываясь на распознаваемых в тексте шаблонах — содержании сообщений, а не их значении. Следовательно, семантический анализ, как, впрочем, и некоторые формы синтаксического анализа, проводимого во время обработки, такие как парсинг, играют значительно меньшую роль в процессе принятия решения. 


Как это работает

GMS использует обработку естественного языка и машинное обучение для усиления безопасности сети путем сканирования сообщений в двух режимах. Оба режима используют распознавание шаблонов в SMS-сообщениях с различными целями. Это позволяет предоставлять операторам беспрецедентно точные отчеты, в которых тип сообщений определяется независимо от их источника, а также способствует усилению безопасности оператора, поскольку система способна проактивно принимать решения касательно маршрутизации и блокировки сообщений.

Каждое доставляемое сообщение сканируется в так называемом офлайн-режиме. Это детальная проверка сообщения после доставки, которая позволяет понять, какого типа сообщения доставляются на сеть оператора из определенного источника. К примеру, знание того, что сообщение, которое должно быть доставлено как A2P SMS терминируется под видом P2P-сообщения, позволяет оператору присваивать отправителю определенный уровень риска (Risk Rating). Уровень риска — шкала, определяющая, насколько велика вероятность того, что конкретный отправитель будет вовлечен в доставку неавторизованного трафика, сообщений с измененными данными или спама. По результатам такого анализа оператор может принимать меры, к примеру — обсуждать источник проблемы с отправителем или блокировать его, если отправитель замешан в мошенничестве действиях.

Также существует онлайн-режим, когда сообщения от «ненадежных» отправителей сканируются в режиме реального времени до того, как будут доставлены. Это дает более точное понимание маршрутизации и тарификации, и — что возможно важнее — позволяет заблаговременно блокировать сообщения, нарушающие правила и политики сети. Весь процесс занимает доли секунды, в результате чего это не отражается на восприятии скорости доставки сообщения абонентами. 


Индивидуализация

Мобильные операторы могут определять типы категорий, по которым ИИ должен сортировать сообщения. Использование управляемого машинного обучения позволяет системе распознавать шаблоны в тексте, связывать их с заранее заданными категориями и реагировать соответствующим образом. К примеру, спам для ИИ представляет всего-навсего категорию, в которую система определяет такие сообщения, блокируя их или помечая для дальнейшей проверки. То же применимо к мошенническим сообщениям, что дает операторам дополнительный инструмент для защиты своих абонентов. Также оператор может задавать дополнительные правила и категории в соответствии со своими потребностями, а ИИ может быть обучен сортировать соответствующие сообщения.  

Эта гибкость и способность к обучению распространяется на применяемые языки. В контексте защиты сети оператора мы не особо заинтересованы научить машину понимать сообщения, поскольку от нее требуется способность распознавать шаблоны. Это значительно упрощает задачу в сравнении с попыткой научить машину давать связные ответы на запросы пользователей.

В стандартной конфигурации машина обучена английскому и китайскому языкам, но ее возможно обучить практически любому языку. При наличии достаточного количества примеров (приблизительно 50 000 уникальных сообщений для каждой категории, которую хочет выделить оператор), ИИ может быть обучен определять шаблоны, необходимые для «распознавания» любого языка, на котором могут общаться абоненты оператора.

Задачей GMS является поиск новых методов и технологий для повышения эффективности сетей ее партнеров. Искусственный интеллект предоставляет новые возможности для оптимизации и повышения сетевой безопасности. Свяжитесь с нашими экспертами, чтобы узнать, как усилить ваш бизнес с помощью передовых технических решений от GMS. 

Add Your Heading Text Here