ИИ

Осмысленный поиск: как искусственный интеллект учится понимать наши запросы

Искусственный интеллект находит всё более широкое применение и охватывает всё новые сферы человеческой деятельности. Одно из перспективных направлений — умный поиск, который производит обученная на больших данных нейронная сеть. Об этом рассказывает эксперт, ML-инженер AI VK Арсений Расов.

Фото: Пресс-служба МАИ / Личный архив

Здравствуйте, Арсений. Расскажите, пожалуйста, что такое семантический поиск и чем он отличается от классического?

Семантический поиск — это более интеллектуальный подход к поиску, при котором поисковая система понимает запросы пользователя на уровне их смысла, а не просто ищет совпадения ключевых слов. В отличие от классического поиска, который основывается на точном совпадении слов, семантический анализирует контекст, учитывает синонимы и даже может предугадывать намерения пользователя. Например, если человек ищет «маникюр», семантический поиск предложит результаты, связанные с салонами или идеями для маникюра, даже если в тексте упоминается «Nail-art студия». Другой пример. Пользователь хочет найти клуб единоборств, и так и пишет в своём запросе, а какой-нибудь клуб единоборств решил назваться клубом боевых искусств. С использованием классического поиска пользователь его не найдёт, а вот с помощью семантического поиска поисковая машина сможет извлечь суть из текста и попытаться найти по этой сути необходимую страницу, и таким образом улучшить качество выдачи. Система находит релевантные результаты, даже если они формально не совпадают с запросом.

Как искусственный интеллект различает смыслы?

Хотя искусственный интеллект не обладает той же гибкостью и глубиной понимания, что и человеческий мозг, но у него есть особенности, за счёт которых определённые задачи в узко специфической области знаний он может выполнять наравне с человеком. В поиске и в целом в области обработки естественного языка алгоритмы искусственного интеллекта достигли высокого уровня.

AI обучается на больших объёмах данных и может анализировать контекст на уровне предложений и даже небольших текстов. Это позволяет ему понимать, что одно и то же слово может иметь разные значения в разных контекстах. Например, слово «лук» в предложениях «стрелять из лука» и «есть лук» будет воспринято по-разному, поскольку AI учитывает сопутствующие слова и их взаимосвязи. Это значительно улучшает качество поиска по сравнению с более ранними системами, которые не различали такие тонкости.

Как обучается нейронная сеть для поисковой системы?

Современные нейросети обучаются по методике Transfer Learning, что означает «перенос обучения». Он позволяет использовать накопленный при решении одной задачи опыт для решения другой, аналогичной проблемы. Нейросеть сначала обучается на большом объёме данных, затем — на целевом наборе. Этот процесс начинается с предобучения на огромных объёмах данных, таких как статьи из Википедии, новостные сайты и социальные сети. На следующем этапе нейросети дают небольшой текст, в котором часть слов скрыта и она должна их предсказать. Такой подход похож на метод обучения иностранному языку, когда слова скрываются в предложении, и ученик должен догадаться, какие это слова. После предобучения нейросеть уже понимает язык и может быть дообучена для конкретных задач, например, для поиска информации. Это дообучение включает в себя преобразование текста в числовые векторы, где похожие по смыслу тексты располагаются рядом, а непохожие — дальше друг от друга. В результате модель способна эффективно понимать и анализировать запросы пользователей.

Как оценить успех обучения нейросети?

Качество поиска можно оценивать двумя способами: оценивая объективные показатели по типу полноты и точности выдачи, качества самого ранжирования по специальным математическим формулам, либо оценивать бизнес-эффект от внедрения, оценивая целевые бизнес-показатели. Это может быть конверсия в клик, конверсия в целевое действие по типу вступления в сообщество или добавление в друзья. Важным показателем является и количество запросов, по которым пользователи не нашли ничего релевантного. Чем меньше таких случаев, тем лучше работает поисковая система. Семантический поиск помогает минимизировать количество «пустых» запросов, поскольку он способен понимать даже плохо сформулированные запросы и находить подходящие результаты. Таким образом, улучшение этих показателей свидетельствует об эффективности обучения нейросети.

Насколько распространена такая модель поиска?

Семантический поиск становится всё более популярным среди крупнейших компаний по всему миру. Однако внедрение этой технологии не всегда проходит гладко. Бывают случаи, когда качество поиска падает из-за недостаточной адаптации пользователей или сложностей с интеграцией новой технологии. Тем не менее, после некоторого времени на адаптацию, такие системы обычно начинают приносить значительную пользу, так как они предлагают более точные и релевантные результаты. В будущем такие технологии, скорее всего, станут стандартом, так как они предлагают более глубокое понимание запросов пользователей и способны существенно улучшить качество поиска.

Материал подготовлен при поддержке Минобрнауки России