E foi lançado o Lyra V2 com maior qualidade e suporte a mais plataformas. Confira as novidades dessa importante atualização.
Lyra é um codec de voz de alta qualidade e baixa taxa de bits que disponibiliza a comunicação de voz mesmo nas redes mais lentas.
Para fazer isso, ele aplica técnicas tradicionais de codec enquanto aproveita os avanços no aprendizado de máquina (ML) com modelos treinados em milhares de horas de dados para criar um novo método para compactar e transmitir sinais de voz.
Agora, o projeto anunciou o lançamento do Lyra V2.
Lyra V2 lançado com maior qualidade e suporte a mais plataformas
Lyra V2 é uma atualização do codec de áudio Lyra de código aberto introduzido no ano passado pelo Google, com uma nova arquitetura que oferece recursos de taxa de bits escaláveis, melhor desempenho, áudio de alta qualidade e funciona em mais plataformas.
Sob o capô, o Lyra V2 é baseado em um codec de áudio neural de ponta a ponta chamado SoundStream com um “quantizador vetorial residual” (RVQ) antes e depois do canal de transmissão, e que pode alterar a taxa de bits de áudio a qualquer momento selecionando o número de quantizadores a serem usados. Três taxas de bits são suportadas: 3,2 kps, 6 kbps e 9,2 kbps.
O Lyra V2 aproveita a inteligência artificial e um modelo TensorFlow Lite permite que ele seja executado em telefones Android, Linux, Mac e Windows, embora o suporte para os dois últimos seja experimental. iOS e outras plataformas incorporadas não são suportadas no momento, mas isso pode mudar no futuro.
Lyra V2 vs OpusFica mais interessante quando começamos a comparar o Lyra V2 com outros codecs de áudio como Lyra (V1) e Opus com o novo codec de áudio oferecendo uma qualidade mais alta (pontuação MUSHRA) do que aqueles em uma determinada taxa de bits, e o gráfico acima mostra que o Lyra V2 @ 9,2 kbps oferece aproximadamente a mesma qualidade que o Opus a 14 kbps.
A latência também foi melhorada de 100 ms para 20 ms, tornando o codec de segunda geração comparável ao Opus para WebRTC, que tem um atraso típico de 26,5 ms, 46,5 ms e 66,5 ms.
O Lyra V2 também codifica e decodifica cinco vezes mais rápido que o Lyra V1 para permitir codificação/decodificação de áudio em tempo real e menor consumo de energia.
Por exemplo, o novo codec de áudio leva 0,57 ms para codificar e decodificar um quadro de áudio de 20 ms em um telefone Pixel 6 Pro, ou cerca de 35 vezes mais rápido que o tempo real.
Embora o LyraV1 seja comparado ao AMR-NB, o Lyra V2 oferece qualidade aprimorada em comparação com os Enhanced Voice Services (EVS, ou Serviços de Voz Avançado) e Adaptive Multi-Rate Wideband (AMR-WB, Banda Larga Adaptativa Multi-Rate), e qualidade semelhante ao Opus, usando apenas cerca de 50% a 60% do largura de banda.
O código-fonte para a implementação do Lyra V1/V2 pode ser encontrado no Github com a API C++ praticamente o mesmo desde o primeiro lançamento, exceto por algumas alterações, como a capacidade de alterar a taxa de bits durante a codificação.
As definições e pesos do modelo também estão incluídos como arquivos .tflite.
Mais detalhes e amostras de áudio podem ser encontrados no Google Open Source Blog.