Искусственный интеллект и сжатие звука без потери качества

Искусственный интеллект и сжатие звука без потери качества

Аудиокодек на базе искусственного интеллекта обещает 10-кратное сжатие по сравнению с MP3.

На прошлой неделе группа ученых объявила о новом алгоритме сжатия звука, разработанным с участием искусственного интеллекта. EnCodec сжимает аудио в 10 раз лучше, чем культовый MP3. Утверждается, что сжатие происходит без слышимых потерь качества звука. Этот метод может значительно улучшить качество звука речи при низкоскоростных соединениях, например, при телефонных звонках в районах с нестабильным обслуживанием.

Meta*, а именно в ней работают исследователи, описывает свой метод как систему из трех частей, обученную сжимать звук до желаемого целевого размера.

  • Во-первых, кодировщик преобразует несжатые данные в представление «скрытого пространства» с более низкой частотой кадров.
  • Затем «квантизатор» сжимает представление до целевого размера, сохраняя при этом наиболее важную информацию, которая позже будет использоваться для восстановления исходного сигнала. (Этот сжатый сигнал передается по сети или сохраняется на диск.)
  • Наконец, декодер преобразует сжатые данные обратно в звук в режиме реального времени, используя нейронную сеть на одном процессоре.
  • Использование дискриминаторов (классификаторов) оказывается ключом к созданию метода максимально возможного сжатия звука без потери ключевых элементов сигнала, которые делают его отличительным и узнаваемым.

    «Ключом к сжатию с потерями является идентификация изменений, которые не будут восприняты людьми [человеческим слухом], поскольку идеальная реконструкция невозможна при низких скоростях передачи данных. Для этого мы используем дискриминаторы (классификаторы) для улучшения воспринимаемого качества сгенерированных образцов. Их задача состоит в том, чтобы различать реальные и реконструированные звуковые отрезки. Модель сжатия пытается добиться восстановления звуковых отрезков до изначального состояния».

    Стоит отметить, что использование нейронной сети для сжатия и распаковки звука далеко не ново, особенно для сжатия разговорной речи. Однако, исследователи Meta* утверждают, что они являются первыми, кто применил технологию к стереозвуку с частотой дискретизации 48 кГц – под эту категорию попадают практически все музыкальные CD и большинство музыки в интернете.

    На данный момент новая технология находится на стадии исследования, но есть надежда, что в будущем она позволит использовать сети с малой пропускной способностью для передачи высококачественного звука.

    *признана экстремистской организацией и запрещена в РФ

    Источник

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *

    • Глобальный рост криптовалют: ключевые тренды, которые формируют новую финансовую реальность

      Криптовалютный рынок в 2024–2025 годах окончательно закрепился как полноценный сектор глобальной экономики. Он уже не воспринимается как «эксперимент» или нишевый инструмент гиков. Международные банки, корпорации, платёжные системы и фонды активно интегрируют цифровые активы в свои стратегии. На фоне роста регуляторной ясности, расширения инфраструктуры и появления новых классов инвесторов, роль криптовалют в мировой финансовой системе стремительно…

    • Эволюция брендбуков: как менялись подходы к корпоративной идентичности за последние 20 лет

      За последние два десятилетия роль брендбука в бизнесе претерпела кардинальные изменения. Если раньше он воспринимался как статический набор правил по использованию логотипа и цветовой гаммы, то сегодня это динамичный инструмент, отражающий стратегию, ценности и характер компании. Интересно, что спрос на подобные документы растет: для многих руководителей вопрос разработки брендбука связан не только с визуальной айдентикой,…

    • Хранение данных: почему это важно в современном мире

      В эпоху цифровизации хранение данных стало одной из ключевых задач для компаний и организаций по всему миру. Данные сегодня – это не только информация о клиентах и транзакциях, но и основной ресурс для анализа, прогнозирования, развития искусственного интеллекта и создания инновационных сервисов. Объем данных, создаваемых предприятиями, частными пользователями и устройствами Интернета вещей (IoT), растет с…

    Have no product in the cart!
    0