案(àn)例簡介
•在(zài)这(zhè)種(zhǒng)情(qíng)況下(xià)使用(yòng)NVIDIAGPU加快(kuài)平台(tái)、騰訊平台(tái)和(hé)內(nèi)容業務(wù)集团(tuán)(PCG)實(shí)現(xiàn)了(le)深度(dù)學(xué)習平台(tái)”無量(liàng)推薦系(xì)統”從模型訓练到(dào)在(zài)線(xiàn)推理(lǐ)的(de)全(quán)过(guò)程GPU加快(kuài),整體(tǐ)效率性(xìng)價比提(tí)高(gāo)1~3倍。
•本(běn)案(àn)主(zhǔ)要(yào)用(yòng)于(yú)NVIDIAA100TensorCoreGPU以及(jí)相關(guān)软(ruǎn)件(jiàn)的(de)加速平台(tái)。
客戶介紹及(jí)應(yìng)用(yòng)背景
無量(liàng)推薦系(xì)統承载(zài)着騰訊平台(tái)和(hé)內(nèi)容業務(wù)群(qún)的(de)推薦场(chǎng)景,包(bāo)括:騰訊亮(liàng)點(diǎn)(浏覽器)QQ看(kàn)點(diǎn),商業化(huà)),騰訊新(xīn)聞,騰訊视頻,騰訊音(yīn)乐(lè),閱读(dú),應(yìng)用(yòng)寶(bǎo)藏,鵝拼写(xiě)等。無限推薦系(xì)統支持(chí)日(rì)活躍用(yòng)戶达(dá)到(dào)數亿(yì),其(qí)中(zhōng)模型數量(liàng)达(dá)到(dào)數千(qiān),日(rì)均呼叫服(fú)務(wù)达(dá)到(dào)1000亿(yì)。
無限推薦系(xì)統可(kě)以在(zài)模型訓练和(hé)推理(lǐ)中(zhōng)進(jìn)行海(hǎi)量(liàng)推薦Embedding和(hé)DNN模型的(de)GPU计算,是(shì)目前(qián)行業領先(xiān)的(de)體(tǐ)系(xì)結構設计。
客戶挑战
傳統的(de)推薦系(xì)統具有(yǒu)以下(xià)特(tè)點(diǎn):培訓是(shì)一(yī)个(gè)基于(yú)參數服(fú)務(wù)器框架的(de)分(fēn)布(bù)式培訓問(wèn)题,用(yòng)于(yú)處(chù)理(lǐ)大(dà)量(liàng)數據(jù)和(hé)稀疏特(tè)征。推理(lǐ)通(tòng)常與(yǔ)大(dà)規模分(fēn)離Embedding和(hé)DNN,只(zhī)能(néng)進(jìn)行DNN的(de)GPU加快(kuài)。
所(suǒ)以,傳統的(de)推薦體(tǐ)系(xì)結構也(yě)有(yǒu)局(jú)限性(xìng):
大(dà)規模的(de)分(fēn)布(bù)式結構有(yǒu)很多(duō)額外(wài)的(de)費用(yòng),比如(rú)网(wǎng)络收(shōu)發(fà)的(de)參數和(hé)梯(tī)度(dù)。
随着DNN進(jìn)一(yī)步提(tí)高(gāo)了(le)模型的(de)複雜性(xìng),CPU處(chù)理(lǐ)速度(dù)開(kāi)始(shǐ)捉襟見(jiàn)肘。
随着業務(wù)的(de)快(kuài)速增长(cháng),日(rì)常客戶的(de)增加,調用(yòng)的(de)數量(liàng)迅速增加,給(gěi)推薦系(xì)統的(de)背景带(dài)来(lái)了(le)新(xīn)的(de)挑战:
1、模型比較複雜,计算量(liàng)比較大(dà),但是(shì)參數服(fú)務(wù)器的(de)分(fēn)布(bù)式架構有(yǒu)效计算比例很低(dī)。
2,海(hǎi)量(liàng)Embedding由(yóu)于(yú)規模大(dà),很难有(yǒu)效利用(yòng)查詢和(hé)聚合计算GPU高(gāo)性(xìng)能(néng)显存和(hé)计算力的(de)優點(diǎn)。
應(yìng)用(yòng)方(fāng)案(àn)
基于(yú)上(shàng)述挑战,騰訊選擇基于(yú)上(shàng)述挑战NVIDIAA100TensorCoreGPU建立無量(liàng)推薦系(xì)統的(de)分(fēn)布(bù)式系(xì)統架構。
1、多(duō)級存儲和(hé)存儲Pipeline提(tí)升(shēng),在(zài)HPC完成(chéng)大(dà)規模推薦模型GPU高(gāo)性(xìng)能(néng)訓练。
2、基于(yú)特(tè)征的(de)浏覽Power-law分(fēn)布(bù)特(tè)征,GPU同(tóng)时(shí)緩存高(gāo)頻特(tè)征參數CPU中(zhōng)动态獲取(qǔ)低(dī)頻特(tè)征參數,實(shí)現(xiàn)完整的(de)大(dà)規模推薦模型GPU端到(dào)端模型推理(lǐ)。
使用(yòng)經(jīng)验(yàn)及(jí)影響
騰訊平台(tái)和(hé)內(nèi)容業務(wù)群(qún)有(yǒu)多(duō)種(zhǒng)类型的(de)推薦業務(wù)场(chǎng)景。例如(rú),信(xìn)息流推薦QQ浏覽器,QQ看(kàn)點(diǎn),新(xīn)聞推薦騰訊新(xīn)聞,视頻推薦騰訊视頻,微视,App推薦的(de)應(yìng)用(yòng)寶(bǎo),以及(jí)騰訊音(yīn)乐(lè)的(de)音(yīn)乐(lè)推薦和(hé)文(wén)學(xué)推薦。
無限推薦系(xì)統为这(zhè)些(xiē)推薦的(de)業務(wù)场(chǎng)景提(tí)供模型培訓和(hé)推理(lǐ)服(fú)務(wù)。基于(yú)傳統的(de)推薦系(xì)統體(tǐ)系(xì)結構,沒(méi)有(yǒu)大(dà)量(liàng)的(de)使用(yòng)CPU資源可(kě)以通(tòng)过(guò)分(fēn)布(bù)式架構擴展(zhǎn)到(dào)TB水平模型的(de)訓练和(hé)部(bù)署(shǔ),取(qǔ)得了(le)巨大(dà)的(de)成(chéng)功。
随着業務(wù)的(de)快(kuài)速增长(cháng),日(rì)常客戶的(de)增加,調用(yòng)的(de)數量(liàng)迅速增加,傳統體(tǐ)系(xì)結構的(de)局(jú)限性(xìng)限制了(le)推薦體(tǐ)系(xì)的(de)體(tǐ)系(xì)結構擴展(zhǎn)和(hé)性(xìng)能(néng)提(tí)升(shēng)。
通(tòng)过(guò)使用(yòng)GPU培訓和(hé)推理(lǐ),單机多(duō)卡GPU算力可(kě)达(dá)幾(jǐ)十(shí)台(tái)CPU机器的(de)计算能(néng)力节(jié)省(shěng)了(le)许多(duō)額外(wài)的(de)分(fēn)布(bù)式費用(yòng)。通(tòng)过(guò)充分(fēn)利用(yòng)A100GPU快(kuài)速訪問(wèn)高(gāo)性(xìng)能(néng)显存Embedding,並(bìng)行算力處(chù)理(lǐ)DNN推理(lǐ),單张(zhāng)A100GPU在(zài)相同(tóng)的(de)延遲下(xià),可(kě)以推理(lǐ)10倍以上(shàng)CPU評分(fēn)樣(yàng)本(běn)。
目前(qián)基于(yú)GPU推薦體(tǐ)系(xì)結構可(kě)以提(tí)高(gāo)模型訓练和(hé)推理(lǐ)比1~3倍。
展(zhǎn)望未来(lái),無量(liàng)推薦系(xì)統将不(bù)斷優化(huà)推薦模型GPU應(yìng)用(yòng),利用(yòng)HPC多(duō)机多(duō)卡、混合精度(dù)等能(néng)力,進(jìn)一(yī)步提(tí)高(gāo)推薦场(chǎng)景的(de)使用(yòng)GPU的(de)性(xìng)價比。
