Smart Platform — Платформа PR и SEO

Распознавание речи на базе ИИ вступает в новую фазу: полное глобальное понимание

Один из стартапов по распознаванию речи на днях получил 62 миллиона долларов финансирования. Как будут использованы деньги?

Стартап по распознаванию речи пошел по амбициозному пути, чтобы обойти Apple, Google и других технологических гигантов. Может ли ИИ понимать все 7000 языков мира?

Если стремление дать компьютеру возможность понимать каждый голос в мире, не кажется вам чрезвычайно амбициозным проектом, значит вы не пробовали заставить Siri составить текстовое сообщение. Распознавание речи стало огромной проблемой для разработчиков, и за этой задачей пристально следят в самых разных отраслях.

Эта технология имеет значение для человеко-машинных интерфейсов в таких областях, как робототехника, автономные транспортные средства и персональные компьютеры. Им всем нужен машинный интеллект, способный точно интерпретировать естественную речь.

Таким образом, распознавание речи — это своего рода технологическая точка входа, потребность рынка, которая может помочь стимулировать развитие технологий, которые будут иметь широкий резонанс и не факт, что положительные последствия от того, как мы взаимодействуем с машинами.

Неудивительно, что распознавание речи в настоящее время хорошо работает лишь для небольшой части населения мира. Большая часть проблемы — это модель обучения. Большинство обучающих данных необходимо классифицировать вручную, а это означает, что точность достижима только для очень узкого набора говорящих (неудивительно, что этот узкий набор соответствовал именно самым ценным потребителям). Стартап Speechmatics использует иной подход в своем стремлении к более репрезентативному распознаванию речи. Основываясь на наборах данных, использованных в Стэнфордском исследовании «Расовые различия в распознавании речи», Speechmatics зафиксировала общую точность 82,8% для афроамериканских голосов по сравнению с Google (68,6%) и Amazon (68,6%). Такой уровень точности соответствует снижению ошибок распознавания речи на 45 %, что эквивалентно трем словам в среднем предложении. Его движок обрабатывает сотни тысяч отдельных голосов, используя немаркированные, более репрезентативные голосовые данные, не требующие вмешательства человека. Это помогло привлечь внимание не только к англоговорящим. В настоящее время движок понимает 34 языка, что является маленькой каплей в очень большом лингвистическом ведре (во всем мире говорят на более чем 7000 языков). Но платформа добилась впечатляющих успехов в пунктуации, числах, валютах и ​​адресах, которые традиционно блокируют механизмы распознавания речи. Все это вызвало большой интерес у британских компаний. Платформу сейчас используют такие компании, как 3Play Media, Veritone, Deloitte UK и Vonage, а также государственные ведомства по всему миру. В соответствии со своими глобальными целями Speechmatics имеет головной офис в Великобритании, а также офисы в Бостоне (США), Ченнаи (Индия) и Брно (Чешская Республика). Компания будет использовать инвестиции для поддержки глобального расширения в США и Азиатско-Тихоокеанском регионе.

И это только начало.

Подготовлено по материалам ZDNet 

Прокомментируйте первым!
Источник

Exit mobile version