據(jù)國內(nèi)媒體報(bào)道,深度求索公司計(jì)劃在近期推出一款全新的AI大模型——DeepSeek-R2。這款A(yù)I大模型在技術(shù)上采用了更先進(jìn)的混合專家模型(MoE),并結(jié)合了智能門控網(wǎng)絡(luò)層(Gating Network),旨在優(yōu)化高負(fù)載推理任務(wù)的性能。
DeepSeek-R2不僅在技術(shù)上有所提升,更在成本上具有顯著優(yōu)勢。據(jù)分析師預(yù)測,其定價(jià)可能會顯著低于OpenAI的同類產(chǎn)品,預(yù)示著AI服務(wù)定價(jià)模式或?qū)⒂瓉硪淮晤嵏残宰兏?。同時(shí),有消息透露,相較于GPT-4,DeepSeek-R2的成本有望下降97%。
這款A(yù)I大模型在參數(shù)量上也達(dá)到了新的高度。據(jù)透露,DeepSeek-R2的總參數(shù)量可能達(dá)到1.2萬億,相較于前代產(chǎn)品DeepSeek-R1的6710億參數(shù),幾乎翻倍。這一巨大的參數(shù)量將進(jìn)一步提升其處理復(fù)雜任務(wù)的能力。
值得一提的是,DeepSeek-R2是基于華為昇騰910B芯片集群訓(xùn)練的。在FP16精度下,其計(jì)算能力達(dá)到了驚人的512PetaFLOPS,芯片使用效率也高達(dá)82%。據(jù)華為實(shí)驗(yàn)室統(tǒng)計(jì),這一性能相當(dāng)于英偉達(dá)上一代A100訓(xùn)練集群的91%左右,顯示了DeepSeek-R2在性能上的卓越表現(xiàn)。
綜合來看,DeepSeek-R2不僅在技術(shù)上取得了顯著進(jìn)步,更在成本和性能上實(shí)現(xiàn)了雙重突破。隨著其即將推出,我們有理由期待這款A(yù)I大模型將在各個(gè)領(lǐng)域帶來更加出色的表現(xiàn)和應(yīng)用。