NVIDIA最新發(fā)布的RTX 5090和RTX PRO 6000顯卡近日被曝存在嚴(yán)重虛擬化漏洞。據(jù)wccftech報道,該漏洞會導(dǎo)致顯卡完全無響應(yīng),必須物理重啟主機(jī)系統(tǒng)才能恢復(fù)。
GPU云服務(wù)商CloudRift率先在生產(chǎn)環(huán)境中發(fā)現(xiàn)了這一問題。他們在多臺搭載Blackwell芯片的系統(tǒng)上復(fù)現(xiàn)了該故障后,發(fā)布了詳細(xì)的技術(shù)分析報告,并設(shè)立1000美元獎金公開征集解決方案。
技術(shù)分析顯示,該漏洞出現(xiàn)在GPU通過KVM和VFIO傳遞給虛擬機(jī)后。當(dāng)虛擬機(jī)關(guān)閉或GPU重新分配時,主機(jī)系統(tǒng)發(fā)出的PCIe功能級重置(FLR)無法使顯卡恢復(fù)正常狀態(tài)。系統(tǒng)日志顯示"FLR后65535毫秒仍未就緒;放棄"的錯誤提示,此時顯卡完全失去響應(yīng),甚至無法被lspci工具識別。
值得注意的是,AI初創(chuàng)公司Tiny Corp也獨(dú)立驗(yàn)證了這一漏洞,并質(zhì)疑Blackwell架構(gòu)是否存在硬件缺陷。社區(qū)討論中,多位RTX 5090早期用戶報告了類似問題,包括Windows虛擬機(jī)關(guān)閉后導(dǎo)致整個主機(jī)系統(tǒng)掛起等異常情況。
目前測試表明,調(diào)整PCIe ASPM或ACS設(shè)置均無法解決該問題。值得慶幸的是,舊款顯卡如RTX 4090尚未出現(xiàn)類似報告,暗示該漏洞可能僅限于NVIDIA Blackwell系列產(chǎn)品。