ИИ продолжает учится понимать запросы пользователей

Представлен новый набор данных для ИИ, улучшающий распознавание поисковых запросов пользователей

ИИ продолжает учится понимать запросы пользователей

Датасет позволит научить поисковые системы, ИИ-помощников, чат- и войс-ботов корректно понимать запросы пользователей. 

Компания MTS AI вместе со Сколтехом создали датасет (набор данных) RuPAWS, с помощью которого можно обучать и тестировать модели для индентификации парафразов.

Справка 

Парафраз (или парафраза) — это пересказ исходного предложения другими словами. Их точная идентификация и соответствующие датасеты необходимы для обучения поисковых систем, языковых голосовых помощников, чат- и войс-ботов. Благодаря точному распознаванию парафразов, ИИ-помощники будут корректно отвечать пользователям приложений и веб-сервисов и предоставлять информацию, строго соответствующую их запросам.

Датасет RuPAWS состоит из 17 346 пар парафразов и содержит большое количество предложений, в которых много одинаковых слов, но смысл при этом разный. Это фразы наподобие «Может ли плохой человек стать хорошим?» и «Может ли хороший человек стать плохим?».

Человек легко понимает, что эти предложения не являются парафразами, но ML-модели, обученные на классических датасетах, могут ошибаться.

По словам Никиты Мартынова инженера MTS AI от других русскоязычных датасетов RuPAWS отличается тем, что фокусируется на редких примерах парафразов, которые вызывают особые сложности при классификации – такой подход называют состязательными атаками (adversarial attacks) на системы машинного обучения”.

Первыми идею такого датасета предложили авторы PAWS, аналогичного датасета для английского языка. В его основе лежат тексты из социальных сетей и Википедии, поэтому собранные данные подходят для многих практических задач.

Для русского языка уже существуют датасеты для классификации парафразов, но в них не хватает сложных примеров. Эта проблема теперь может решаться с помощью датасета RuPAWS.

“Эксперименты показали, что модель, обученная на данных из обоих датасетов, практически не теряет в качестве при классификации примеров, но при этом точность работы на сложных примерах возрастает почти в два раза, до 79%”, — сообщила Ирина Кротова, старший разработчик в группе NLP MTS AI.

Прокомментируйте первым!
Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

  • Микрозаймы как двигатель роста экономики: роль и перспективы

    Современная экономика всё больше опирается на малое предпринимательство и гибкие финансовые инструменты. Одним из ключевых элементов этой системы стали микрозаймы — небольшие, краткосрочные кредиты, доступные как населению, так и представителям малого и среднего бизнеса. Однако, с ростом популярности микрозаймов увеличивается и количество предложений на рынке. Важно понимать, что не все микрофинансовые организации работают честно и…

  • Тренды в SEO и цифровом маркетинге: что важно в 2025 году?

    Мир SEO и цифрового маркетинга продолжает стремительно меняться. Алгоритмы поисковых систем, поведение пользователей и технологии требуют от специалистов гибкости и постоянного развития. Ниже — ключевые направления, которые формируют ландшафт SEO и смежных сфер в 2025 году. 1. Семантика важнее ключей Ранжирование больше не зависит от плотности ключевых слов. Современные алгоритмы (включая Google Search Generative Experience)…

  • Образование как ключ к востребованной профессии: кто такой менеджер маркетплейсов и почему он нужен сегодня?

    В условиях стремительных цифровых изменений и развития электронной торговли образование стало важнейшим инструментом адаптации и роста. Сегодня работодатели ценят не только диплом, но и конкретные прикладные навыки, особенно в сферах, где спрос на специалистов превышает предложение. Одной из таких профессий стал менеджер маркетплейсов — человек, который управляет онлайн-продажами на платформах вроде Wildberries, Ozon, AliExpress, Amazon…