據(jù)國內(nèi)媒體報道,深度求索公司計劃在近期推出一款全新的AI大模型——DeepSeek-R2。這款AI大模型在技術(shù)上采用了更先進的混合專家模型(MoE),并結(jié)合了智能門控網(wǎng)絡(luò)層(Gating Network),旨在優(yōu)化高負載推理任務(wù)的性能。
DeepSeek-R2不僅在技術(shù)上有所提升,更在成本上具有顯著優(yōu)勢。據(jù)分析師預測,其定價可能會顯著低于OpenAI的同類產(chǎn)品,預示著AI服務(wù)定價模式或?qū)⒂瓉硪淮晤嵏残宰兏?。同時,有消息透露,相較于GPT-4,DeepSeek-R2的成本有望下降97%。
這款AI大模型在參數(shù)量上也達到了新的高度。據(jù)透露,DeepSeek-R2的總參數(shù)量可能達到1.2萬億,相較于前代產(chǎn)品DeepSeek-R1的6710億參數(shù),幾乎翻倍。這一巨大的參數(shù)量將進一步提升其處理復雜任務(wù)的能力。
值得一提的是,DeepSeek-R2是基于華為昇騰910B芯片集群訓練的。在FP16精度下,其計算能力達到了驚人的512PetaFLOPS,芯片使用效率也高達82%。據(jù)華為實驗室統(tǒng)計,這一性能相當于英偉達上一代A100訓練集群的91%左右,顯示了DeepSeek-R2在性能上的卓越表現(xiàn)。
綜合來看,DeepSeek-R2不僅在技術(shù)上取得了顯著進步,更在成本和性能上實現(xiàn)了雙重突破。隨著其即將推出,我們有理由期待這款AI大模型將在各個領(lǐng)域帶來更加出色的表現(xiàn)和應(yīng)用。