Искусственный интеллект и сжатие звука без потери качества

Искусственный интеллект и сжатие звука без потери качества

Аудиокодек на базе искусственного интеллекта обещает 10-кратное сжатие по сравнению с MP3.

На прошлой неделе группа ученых объявила о новом алгоритме сжатия звука, разработанным с участием искусственного интеллекта. EnCodec сжимает аудио в 10 раз лучше, чем культовый MP3. Утверждается, что сжатие происходит без слышимых потерь качества звука. Этот метод может значительно улучшить качество звука речи при низкоскоростных соединениях, например, при телефонных звонках в районах с нестабильным обслуживанием.

Meta*, а именно в ней работают исследователи, описывает свой метод как систему из трех частей, обученную сжимать звук до желаемого целевого размера.

  • Во-первых, кодировщик преобразует несжатые данные в представление «скрытого пространства» с более низкой частотой кадров.
  • Затем «квантизатор» сжимает представление до целевого размера, сохраняя при этом наиболее важную информацию, которая позже будет использоваться для восстановления исходного сигнала. (Этот сжатый сигнал передается по сети или сохраняется на диск.)
  • Наконец, декодер преобразует сжатые данные обратно в звук в режиме реального времени, используя нейронную сеть на одном процессоре.
  • Использование дискриминаторов (классификаторов) оказывается ключом к созданию метода максимально возможного сжатия звука без потери ключевых элементов сигнала, которые делают его отличительным и узнаваемым.

    «Ключом к сжатию с потерями является идентификация изменений, которые не будут восприняты людьми [человеческим слухом], поскольку идеальная реконструкция невозможна при низких скоростях передачи данных. Для этого мы используем дискриминаторы (классификаторы) для улучшения воспринимаемого качества сгенерированных образцов. Их задача состоит в том, чтобы различать реальные и реконструированные звуковые отрезки. Модель сжатия пытается добиться восстановления звуковых отрезков до изначального состояния».

    Стоит отметить, что использование нейронной сети для сжатия и распаковки звука далеко не ново, особенно для сжатия разговорной речи. Однако, исследователи Meta* утверждают, что они являются первыми, кто применил технологию к стереозвуку с частотой дискретизации 48 кГц – под эту категорию попадают практически все музыкальные CD и большинство музыки в интернете.

    На данный момент новая технология находится на стадии исследования, но есть надежда, что в будущем она позволит использовать сети с малой пропускной способностью для передачи высококачественного звука.

    *признана экстремистской организацией и запрещена в РФ

    Источник

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *

    • Микрозаймы как двигатель роста экономики: роль и перспективы

      Современная экономика всё больше опирается на малое предпринимательство и гибкие финансовые инструменты. Одним из ключевых элементов этой системы стали микрозаймы — небольшие, краткосрочные кредиты, доступные как населению, так и представителям малого и среднего бизнеса. Однако, с ростом популярности микрозаймов увеличивается и количество предложений на рынке. Важно понимать, что не все микрофинансовые организации работают честно и…

    • Тренды в SEO и цифровом маркетинге: что важно в 2025 году?

      Мир SEO и цифрового маркетинга продолжает стремительно меняться. Алгоритмы поисковых систем, поведение пользователей и технологии требуют от специалистов гибкости и постоянного развития. Ниже — ключевые направления, которые формируют ландшафт SEO и смежных сфер в 2025 году. 1. Семантика важнее ключей Ранжирование больше не зависит от плотности ключевых слов. Современные алгоритмы (включая Google Search Generative Experience)…

    • Образование как ключ к востребованной профессии: кто такой менеджер маркетплейсов и почему он нужен сегодня?

      В условиях стремительных цифровых изменений и развития электронной торговли образование стало важнейшим инструментом адаптации и роста. Сегодня работодатели ценят не только диплом, но и конкретные прикладные навыки, особенно в сферах, где спрос на специалистов превышает предложение. Одной из таких профессий стал менеджер маркетплейсов — человек, который управляет онлайн-продажами на платформах вроде Wildberries, Ozon, AliExpress, Amazon…