首页 科技 > 正文

Facebook Research开发用于音乐源分离的AI系统

很多文章的报道都是由微观而宏观,今日小编讲给大家带来的关于Facebook Research开辟用于音乐源分离的AI系统的资讯也不例外,希翼可以在一定的程度上开阔你们的视野!y有对Facebook Research开辟用于音乐源分离的AI系统这篇文章感兴趣的小伙伴可以一起来看看

Facebook Research最近公布了Demucs,这是一种用于音乐源分离的新型深度学习系统。根据人类对分离后声音总体质量的评估,Demucs的性能优于先前报道的结果。 Facebook Research开发用于音乐源分离的AI系统

音乐源分离是经过大量研究的一种应用,称为盲源分离。该过程包括在不借助元信息的情况下从一组混合信号中分离出一组源信号。对于音乐,各个组成部分可能包括人声或其他乐器轨道。当空中交通管制员开始在单个扬声器上听到多个飞行员的混合声音时浮现问题时,源分离领域首先受到了广泛关注。这导致英国科学家科林·切里(Colin Cherry)在1953年将这种效应称为“鸡尾酒会问题”。 Facebook Research开发用于音乐源分离的AI系统

在源分离领域的现有研究的推动下,研究科学家于2000年代初开始使用AI分离音乐中的声音。如今,短时傅立叶变换产生的频谱图(STFT)是最新音乐源分离的核心。这些系统在每个帧和每个源的幅度谱上产生一个掩码,并且通过在掩码频谱图上运行逆STFT的同时重新使用输入混合相位,来生成输出音频。

建立在频谱图分析基础上的系统在诸如中音钢琴或连奏小提琴之类的乐器的源分离方面表现出色,因为它们可以产生一致的频率和振铃。但是,这些系统很难隔离敲击声音,因为敲击乐器所产生的残留噪声会产生更宽的频率范围,并且当与多个乐器的重叠相结合时,信息就会丢失,并且掩盖操作将使信息不再可逆。 Facebook Research开发用于音乐源分离的AI系统

Demucs是一种深度学习模型,可直接对原始输入波形进行操作并为每个源生成一个波形。U-net体系结构使用卷积编码器和解码器,该解码器和解码器基于跨步卷积较大的步幅。波形模型的工作方式与常见的计算机视觉模型相似,因为它们都使用神经网络在判断更高级别的模式之前先检测基本模式。

基于频谱图的模型优于Wave-U-Net,后者是Demucs之前最先进的基于波形的模型。Demucs建立在Wave-U-Net体系结构的基础上,具有可调整的超参数和较长的短期内存,同意 网络处理整个数据序列,而不是单个数据点。

这些改进帮助系统解决了一个声音超过另一个声音的问题,因为解码器足够聪慧,可以填充柔和的音符。

人类在MusDB数据集上评估Demucs,并将其与其他最新的源分离系统的结果进行比较。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。