Формирование диалогов¶

Wisebot — это полнофункциональная диалоговая платформа с интуитивно понятным интерфейсом для создания контекстно-зависимых виртуальных помощников.

Wisebot глубоко интегрирован с Rasa. Движок диалоговых систем RASA при помощи современных методов глубокого обучения позволяет создавать чат-боты для различных предметных задач.

RASA состоит из двух частей:

NLU (понимание естественного языка)
Core (логика диалогов)

Создание намерений¶

Понятие намерения¶

Чтобы помощник мог распознавать, что говорит пользователь, независимо от того, как пользователь формулирует свое сообщение, необходимо предоставить примеры сообщений, из которых помощник может учиться. Поэтому группируем эти примеры в соответствии с идеей или целью, которую выражает сообщение, что также называется намерением (intent). Примеры намерений могут включать: приветствие, согласие, отказ, вопрос об имени и многое другое.

Для каждого намерения перечисляются его примеры, чтобы система поняла, что от неё требуется. Например, фразы "Доброго времени суток" или "Доброе утро" могут принадлежать одному намерению с названием приветствие. Независимо от формы приветствия, ядро RASA оперирует только именем намерения приветствие.

По возможности, намерения должны быть хорошо различимы. Например, система будет путаться, если в одном намерении "Да" будут примеры "да", "конечно", а во втором намерении "согласие" — примеры "да, согласен", "конечно, буду". В таком случае лучше объединить эти намерения в одно.

Правила внесения намерений в базу чат-бота через интерфейс Wisebot:

Избегайте намерений с крайне низким числом примеров. В противном случае NLU не сможет полноценно понять суть намерения и корректно его определять в ситуациях, когда текст пользователя схож с обучающими примерами.
Избегайте сильного разброса в количестве обучающих примеров среди разных намерений.
Создавайте разнообразные обучающие примеры. Примеры для намерения должны включать не только ключевые слова, но и разнообразный контекст. Например, для намерения "оплатить картой" используйте фразы: "как оплатить", "хочу оплатить картой", "можно ли оплатить", "хотел бы оплатить картой", "оплату картой принимаете", "вы карту принимаете".
Не используйте одинаковые или очень похожие обучающие примеры в разных намерениях. Это приведёт к ошибкам при распознавании намерений, так как NLU будет сложно определить, какое именно намерение имеется в виду.
Прорабатывайте и анализируйте основные паттерны поведения пользователей в темах, проблемах и сценариях, для которых вы обучаете NLU.

2. Наполнение базы намерений¶

Создавать намерения можно не только через файл nlu.yml, но и через интерфейс Wisebot. Чтобы добавить намерение:

Шаг 1. Перейдите в интерфейс Wisebot и в меню слева убедитесь, что настраиваете нужного бота. Должно отображаться его имя (например, Bot1).

Шаг 2. В разделе NLU перейдите в поле «Пользователь говорит…».

Шаг 3. Введите тренировочную фразу в обучающих данных, например, "когда начинается учебный год в МарГУ".

Шаг 4. Нажмите на кнопку ENTER, чтобы добавить или отредактировать пример. Тренировочная фраза добавится в намерения.

Шаг 5. Фразе не присваивается никакое намерение. Чтобы присвоить намерение нажмите на кнопку "никакого намерения", затем на поле "Фильтровать или создать".

Шаг 6. Введите новое намерение «начало учебного года» и нажмите «Создать новое намерение».

Шаг 7. Фраза перешла в намерение «начало учебного года». Нажмите «Создать новое намерение».

Можно наблюдать успешное добавление в общий список намерений.

Так происходит процесс добавления намерений. Например, на данном изображении показана база намерений «начало учебного года». После добавления или создания намерений и сущностей необходимо обучить бота. Для этого нажмите на кнопку «Тренировать», которая находится в правом верхнем углу.

Обучение намерений¶

Для определения фразы пользователя к одному из намерений в NLU-модуле обучается сложная нейронная сеть, для работы которой входные тексты превращаются в векторы (массивы) вещественных чисел, называемых признаками (features).

При построении вектора признаков используются:

метод мешка слов (bag of words);
векторизация слов с помощью embedding (word2vec);
N-граммы букв (отдельные буквы N=1, пары последовательных букв N=2 и т.д.).

Соответствующие настройки в файле config.yml позволяют использовать предобученные для данного языка векторы слов, что позволяет NLU понимать синонимы и близкие по смыслу слова, не описанные в примерах intent. Благодаря N-граммам, RASA достаточно эффективно борется с опечатками в словах.

Чем больше приведено примеров для данного намерения, тем лучше (обычно) обучается система. Однако существует опасность пересечения похожих фраз из различных намерений, что может снизить качество классификации. Поэтому файл data/nlu.yml с намерениями необходимо время от времени тестировать.