Ultimate Vocal Remover是一款功能強大的音頻處理工具,軟件可幫助用戶對音頻進行處理,剔除音頻中的人聲,獲取最干凈的伴奏。軟件功能強大,有著豐富多樣的功能和處理模型,可針對不同類型的音樂提取伴奏。軟件支持調用顯卡強大的運算能力,幫助用戶快速的完成伴奏的提取。
安裝方法
(1) CUDA安裝(有英偉達顯卡的可以安裝)
直接雙擊.exe文件運行即可,比如我用的cuda文件是cuda_11.6.0_511.23_windows.exe,直接雙擊運行。
安裝的時候選自定義(高級),安裝所有組件。
對于11.6版本的cuda,我是沒有配置任何環境變量就可以成功的
驗證是否成功的方法:新打開一個cmd窗口,在cmd窗口中輸入nvcc -V,有正確輸出即可
(2) 安裝Python
直接以管理員運行python-3.9.8-amd64.exe即可,選擇"Customize installation",一定要把“Add Python 3.9 to PATH”勾選上,安裝的目標路徑不要選C盤,安裝到其他任何一個盤就可以
為了方便后續的解釋,我們假設Python全部都安裝到D:\Python文件夾中,D:\Python\bin\中有python.exe(python程序)和其他文件。
安裝完之后,打開cmd窗口(Win鍵+R,然后輸入cmd),輸入python之后有相關顯示即可,類似如下顯示
(3) 安裝ffmpeg
直接解壓安裝包,然后將安裝包下的bin的絕對路徑添加至環境變量中的"Path"變量中,
要確保安裝完之后,在cmd窗口中輸入ffmpeg是有輸出的,記得配置完環境變量之后要重新打開cmd窗口再試命令
(4) 安裝主程序
解壓主程序安裝包和模型安裝包,解壓后主程序的文件夾(ultimatevocalremovergui-master)下會有一個文件夾名為models,將模型安裝包中的所有模型文件(后綴名為.pth的文件)都放到models文件夾下的Main Models文件夾中
為了方便后續的解釋,這里我們假設主程序都解壓到D:\ultimatevocalremovergui-master中,ultimatevocalremovergui-master目錄下有VocalRemover.py文件和其他文件;模型文件全部都在"D:\ultimatevocalremovergui-master\models\Main Models"中
(5) 安裝Python依賴包
a.安裝virtualenv
首先在cmd窗口中,輸入"pip install -i https://pypi.tuna.tsinghua.edu.cn/simple virtualenv"
使用cmd切換到在主程序的目錄下(切換命令:cd /d D:\ultimatevocalremovergui-master),輸入"virtualenv -p python.exe的絕對路徑 venv\",比如"virtualenv -p D:\Python\bin\python.exe venv\"
接下來切換到venv\bin目錄下(切換命令:cd /d venv\Scripts),輸入"activate"并回車
完成這步之后,命令前面都會帶著(venv)這個標志,請確保后面的所有的操作(安裝以及運行)都需要在執行這一步之后
b.安裝程序的依賴包
在cmd窗口中,輸入"pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --no-cache-dir -r requirements.txt"并回車
c.安裝pytorch組件
在cmd窗口中,輸入"pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html"并回車
(因為眾所周知的原因,在國內可能是安裝不了的)
或者
如果前面已經下載了Pytorch組件,可以按照如下步驟安裝:
切換到那三個文件目錄下
分別執行如下三個命令:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "torch-1.9.0%2Bcu111-cp39-cp39-win_amd64.whl
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "torchvision-0.10.0%2Bcu111-cp39-cp39-win_amd64.whl"
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "torchaudio-0.9.0-cp39-cp39-win_amd64.whl"
運行程序:
確保目前是(venv)狀態
如果目前沒有這個標志,可重新在cmd窗口中輸入"D:\ultimatevocalremovergui-master\venv\Scripts\activate"并回車
在cmd窗口中切換到VocalRemover.py所在目錄(cd /d D:\ultimatevocalremovergui-master)
執行如下命令
python VocalRemover.py
即可進入主程序
PS:每次執行都需要確保是(venv)狀態
作者:明沙
出處:bilibili
使用說明
Select Input:選擇(多個)文件
Select Output:輸出目錄,希望可以保存消音后的文件的地方
Open Input Folder Button:打開包含選擇的音頻文件的目錄
Open Output Folder Button:打開輸出目錄
Choose Process Method:
選擇消音方法——三種選項。
(1) VR Architecture:使用了強度頻譜(magnitude spectrogram)或源分離(Source Separation)的模型
(2) MDX-Net:使用了混合頻譜/波形(Hybrid Spectrogram/Waveform)用于源分離的模型
(3) Ensemble Mode:融合模式,可以得到多個模型和網絡的最好結果
Help/Info Button:幫助引導(help guide)
Choose MDX-Net:每個消音方法都有自己的一套選項和模型,在這里可以選擇與所選消音方法關聯的模型
Progress Console:顯示處理過程中的信息
Restart Button:重啟應用,會彈出來窗口缺人,所有設定(settings)都會被保存
Save Format:輸出格式選擇(WAV、FLAC、MP3)
GPU Conversion:勾選即可使用GPU加速(有英偉達顯卡并安裝了cuda的人選)
如果不勾選的話,只用CPU處理會很慢
Demucs Model:Demucs是Facebook開源的聲音分離模型,這功能我還沒試過,試用之后修改這部分
Save Vocals Only:只保存人聲(Vocals)文件,即不保存伴奏文件
Save Instrumental Only:只保存伴奏(instrumental)文件,即不保存人聲文件
Save Noisey Vocal:保存噪音,這部分我還沒試過,試用之后修改這部分
Model Test Mode:模型試用模式,選擇了這個模式的時候, 程序會自動在你選擇的文件夾里面生成一個新文件夾。新的自動生成文件夾將以所選模型命名(不再是上述的默認命名)。輸出的音頻文件將保存到自動生成的目錄中。
樂器和人聲輸出的文件名將附加選定的模型名稱,避免了測試多個模型而造成覆蓋的問題。
VR Architecture
Windows Size:
窗口大小越小,轉化效果越好。然而,更小的窗口意味著更長的轉換時間和更重的資源使用。
以下是可選擇的窗口大小值 -
1024 - 轉換質量低,轉換時間最短,資源使用率低
512 - 平均轉換質量、平均轉換時間、正常資源使用情況
320 - 轉換質量更好,轉換時間長,資源使用率高
Aggression Setting:
數值越大,清除人聲的力度就越大,默認的10就可以,已經可以完全消除人聲
范圍是 0-100
較高的值執行更深的提取
樂器和聲樂模型的默認值為 10
超過 10 的值可能會導致抽取伴奏的模型的結果中的樂器部分聽起來渾濁
TTA:測試時數據增強,用于提升分離效果,但是會增加處理時間
Post-Process:此選項可能會識別人聲輸出中剩余的樂器偽影。此選項可能會改善某些歌曲的分離效果。
注意:選擇此選項可能會對轉換過程產生不利影響,具體取決于軌道。因此,僅建議作為最后的手段
Chunks:允許用戶減少 (或增加)RAM(內存)或V-RAM的使用率。
更小的Chunk sizes會使用更少的內存或顯存但是會增加處理時間
更大的Chunk sizes會使用更多的內存或顯存但會減少處理時間
選擇Auto的話程序會自動計算合適的Chunk sizes
選擇Full會直接處理整個軌道,這個選項只推薦用在比較強力的PC上
默認值是Auto
Noise Reduction:該選項允許減少或消除由模型產生的任何噪音
靈敏度的值范圍是0到20,默認是3,選擇None會關閉Noise Reduction這個選項
模型:
UVR-MDX-NET 1:模型分數9.703
UVR-MDX-NET 2:模型分數9.682
UVR-MDX-NET 3:模型分數9.662
UVR-MDX-NET Karaoke:保留和聲模型
PS:模型分數指的是SDR score
MDX-Net/VR Ensemble:
通過UVR_MDXNET_1和2_HP-UVR.pth這兩個模型生成結果并融合
HP Models:
通過1_HP-UVR.pth和2_HP-UVR.pth這兩個模型生成結果并融合
Vocal Models:
通過3_HP-Vocal-UVR.pth和4_HP-Vocal-UVR.pth這兩個模型生成結果并融合
User Ensemble:
允許用戶選擇不同模型的輸出結果并手動將它們融合
HP2 Models:
通過7_HP2-UVR.pth、8_HP2-UVR.pth和9_HP2-UVR.pth這三個模型生成音頻文件并融合
All HP Models:
使用1_HP-UVR.pth、2_HP-UVR.pth、7_HP2-UVR.pth、8_HP2-UVR.pth和9_HP2-UVR.pth這五個模型生成音頻文件并融合
Save All Outputs:輸出所有模型的結果,不選就不會輸出,只會保留融合后的結果
Select input:至少選擇兩個模型生成的消音后的音頻文件
Select output:選擇輸出目錄
Dropdown:選擇算法:
Instrumentals(Min Spec):讀取輸入的音頻文件的頻譜,并且計算每個輸入文件的最小spec值,結果文件中的vocal數據會被清除
生成文件的后綴名:_User_ensembled_(Min Spec).wav
Vocals(Max Spec):讀取輸入的以您文件的頻譜,并且計算每個輸入文件的最大spec值,結果文件中所有的vocal數據都會被保留
生成文件的后綴名:_User_ensembled_(Max Spec).wav
作者:明沙
出處:bilibili
主要模型說明
HP2_3BAND_44100_MSB2.pth - 使用更多數據和更多參數訓練的超強消人聲保留伴奏模型(PS:理論上數據越多訓練出來的模型效果越好)
HP2_4BAND_44100_1.pth - 超強消人聲保留伴奏模型
HP2_4BAND_44100_2.pth - HP2_4BAND_44100_1.pth的微調版本
HP_4BAND_44100_A.pth - 超強消人聲保留伴奏模型
HP_4BAND_44100_B.pth - HP_4BAND_44100_A.pth的微調版本
HP_KAROKEE_4BAND_44100_SN.pth - 可保留和聲的消主聲伴奏模型
HP_Vocal_4BAND_44100.pth - 人聲提取模型,但是提取的伴奏會比較muddy
HP_Vocal_AGG_4BAND_44100.pth - HP_Vocal_4BAND_44100.pth 的加強版,這個強的意思不是效果好,是Aggressive的人聲提取模型
配置要求
建議使用至少8GB 顯存的英偉達(Nvidia)GPU
該程序只與64位平臺兼容
該程序依賴Sox - Sound 交換用于噪音消除
該程序依賴FFmpeg處理非wav格式的音頻文件
該程序會在你關閉程序的時候自動保存你的設置
處理效率極大依賴于你的硬件
如果未安裝 FFmpeg,如果用戶嘗試轉換非 WAV 文件,應用程序將拋出錯誤。
網友評論