夜夜撸,91麻豆精品国产91久久久熟女,天天摸天天干,亚洲久久电影,久久久久久久久久久国产,国产怡红院,91免费在线视频,欧美激情亚洲,五月天婷婷基地,嫩BBB槡BBBB搡BBBB视频,怡红院播放器,日本级婬乱片A片AAA毛片动漫,欧美日韩国产中文字幕,国产午夜成人,亚洲AV无码成人精品区,亚洲精品97久久中文字,中国毛片网站,天天影视天天干,久婷婷,九九亚洲精品

NVIDIA助力騰訊PCG加快(kuài)無量(liàng)推薦系(xì)統

行業动态 | 2022-08-23 13:55:07 | 瀝拓

案(àn)例簡介

•在(zài)这(zhè)種(zhǒng)情(qíng)況下(xià)使用(yòng)NVIDIAGPU加快(kuài)平台(tái)、騰訊平台(tái)和(hé)內(nèi)容業務(wù)集团(tuán)(PCG)實(shí)現(xiàn)了(le)深度(dù)學(xué)習平台(tái)”無量(liàng)推薦系(xì)統”從模型訓练到(dào)在(zài)線(xiàn)推理(lǐ)的(de)全(quán)过(guò)程GPU加快(kuài)，整體(tǐ)效率性(xìng)價比提(tí)高(gāo)1~3倍。

•本(běn)案(àn)主(zhǔ)要(yào)用(yòng)于(yú)NVIDIAA100TensorCoreGPU以及(jí)相關(guān)软(ruǎn)件(jiàn)的(de)加速平台(tái)。

客戶介紹及(jí)應(yìng)用(yòng)背景

無量(liàng)推薦系(xì)統承载(zài)着騰訊平台(tái)和(hé)內(nèi)容業務(wù)群(qún)的(de)推薦场(chǎng)景，包(bāo)括:騰訊亮(liàng)點(diǎn)(浏覽器)QQ看(kàn)點(diǎn)，商業化(huà))，騰訊新(xīn)聞，騰訊视頻，騰訊音(yīn)乐(lè)，閱读(dú)，應(yìng)用(yòng)寶(bǎo)藏，鵝拼写(xiě)等。無限推薦系(xì)統支持(chí)日(rì)活躍用(yòng)戶达(dá)到(dào)數亿(yì)，其(qí)中(zhōng)模型數量(liàng)达(dá)到(dào)數千(qiān)，日(rì)均呼叫服(fú)務(wù)达(dá)到(dào)1000亿(yì)。

無限推薦系(xì)統可(kě)以在(zài)模型訓练和(hé)推理(lǐ)中(zhōng)進(jìn)行海(hǎi)量(liàng)推薦Embedding和(hé)DNN模型的(de)GPU计算，是(shì)目前(qián)行業領先(xiān)的(de)體(tǐ)系(xì)結構設计。

客戶挑战

傳統的(de)推薦系(xì)統具有(yǒu)以下(xià)特(tè)點(diǎn)：培訓是(shì)一(yī)个(gè)基于(yú)參數服(fú)務(wù)器框架的(de)分(fēn)布(bù)式培訓問(wèn)题，用(yòng)于(yú)處(chù)理(lǐ)大(dà)量(liàng)數據(jù)和(hé)稀疏特(tè)征。推理(lǐ)通(tòng)常與(yǔ)大(dà)規模分(fēn)離Embedding和(hé)DNN，只(zhī)能(néng)進(jìn)行DNN的(de)GPU加快(kuài)。

所(suǒ)以，傳統的(de)推薦體(tǐ)系(xì)結構也(yě)有(yǒu)局(jú)限性(xìng)：

大(dà)規模的(de)分(fēn)布(bù)式結構有(yǒu)很多(duō)額外(wài)的(de)費用(yòng)，比如(rú)网(wǎng)络收(shōu)發(fà)的(de)參數和(hé)梯(tī)度(dù)。

随着DNN進(jìn)一(yī)步提(tí)高(gāo)了(le)模型的(de)複雜性(xìng)，CPU處(chù)理(lǐ)速度(dù)開(kāi)始(shǐ)捉襟見(jiàn)肘。

随着業務(wù)的(de)快(kuài)速增长(cháng)，日(rì)常客戶的(de)增加，調用(yòng)的(de)數量(liàng)迅速增加，給(gěi)推薦系(xì)統的(de)背景带(dài)来(lái)了(le)新(xīn)的(de)挑战：

1、模型比較複雜，计算量(liàng)比較大(dà)，但是(shì)參數服(fú)務(wù)器的(de)分(fēn)布(bù)式架構有(yǒu)效计算比例很低(dī)。

2,海(hǎi)量(liàng)Embedding由(yóu)于(yú)規模大(dà)，很难有(yǒu)效利用(yòng)查詢和(hé)聚合计算GPU高(gāo)性(xìng)能(néng)显存和(hé)计算力的(de)優點(diǎn)。

應(yìng)用(yòng)方(fāng)案(àn)

基于(yú)上(shàng)述挑战，騰訊選擇基于(yú)上(shàng)述挑战NVIDIAA100TensorCoreGPU建立無量(liàng)推薦系(xì)統的(de)分(fēn)布(bù)式系(xì)統架構。

1、多(duō)級存儲和(hé)存儲Pipeline提(tí)升(shēng)，在(zài)HPC完成(chéng)大(dà)規模推薦模型GPU高(gāo)性(xìng)能(néng)訓练。

2、基于(yú)特(tè)征的(de)浏覽Power-law分(fēn)布(bù)特(tè)征，GPU同(tóng)时(shí)緩存高(gāo)頻特(tè)征參數CPU中(zhōng)动态獲取(qǔ)低(dī)頻特(tè)征參數，實(shí)現(xiàn)完整的(de)大(dà)規模推薦模型GPU端到(dào)端模型推理(lǐ)。

使用(yòng)經(jīng)验(yàn)及(jí)影響

騰訊平台(tái)和(hé)內(nèi)容業務(wù)群(qún)有(yǒu)多(duō)種(zhǒng)类型的(de)推薦業務(wù)场(chǎng)景。例如(rú)，信(xìn)息流推薦QQ浏覽器，QQ看(kàn)點(diǎn)，新(xīn)聞推薦騰訊新(xīn)聞，视頻推薦騰訊视頻，微视，App推薦的(de)應(yìng)用(yòng)寶(bǎo)，以及(jí)騰訊音(yīn)乐(lè)的(de)音(yīn)乐(lè)推薦和(hé)文(wén)學(xué)推薦。

無限推薦系(xì)統为这(zhè)些(xiē)推薦的(de)業務(wù)场(chǎng)景提(tí)供模型培訓和(hé)推理(lǐ)服(fú)務(wù)。基于(yú)傳統的(de)推薦系(xì)統體(tǐ)系(xì)結構，沒(méi)有(yǒu)大(dà)量(liàng)的(de)使用(yòng)CPU資源可(kě)以通(tòng)过(guò)分(fēn)布(bù)式架構擴展(zhǎn)到(dào)TB水平模型的(de)訓练和(hé)部(bù)署(shǔ)，取(qǔ)得了(le)巨大(dà)的(de)成(chéng)功。

随着業務(wù)的(de)快(kuài)速增长(cháng)，日(rì)常客戶的(de)增加，調用(yòng)的(de)數量(liàng)迅速增加，傳統體(tǐ)系(xì)結構的(de)局(jú)限性(xìng)限制了(le)推薦體(tǐ)系(xì)的(de)體(tǐ)系(xì)結構擴展(zhǎn)和(hé)性(xìng)能(néng)提(tí)升(shēng)。

通(tòng)过(guò)使用(yòng)GPU培訓和(hé)推理(lǐ)，單机多(duō)卡GPU算力可(kě)达(dá)幾(jǐ)十(shí)台(tái)CPU机器的(de)计算能(néng)力节(jié)省(shěng)了(le)许多(duō)額外(wài)的(de)分(fēn)布(bù)式費用(yòng)。通(tòng)过(guò)充分(fēn)利用(yòng)A100GPU快(kuài)速訪問(wèn)高(gāo)性(xìng)能(néng)显存Embedding，並(bìng)行算力處(chù)理(lǐ)DNN推理(lǐ)，單张(zhāng)A100GPU在(zài)相同(tóng)的(de)延遲下(xià)，可(kě)以推理(lǐ)10倍以上(shàng)CPU評分(fēn)樣(yàng)本(běn)。

目前(qián)基于(yú)GPU推薦體(tǐ)系(xì)結構可(kě)以提(tí)高(gāo)模型訓练和(hé)推理(lǐ)比1~3倍。

展(zhǎn)望未来(lái)，無量(liàng)推薦系(xì)統将不(bù)斷優化(huà)推薦模型GPU應(yìng)用(yòng)，利用(yòng)HPC多(duō)机多(duō)卡、混合精度(dù)等能(néng)力，進(jìn)一(yī)步提(tí)高(gāo)推薦场(chǎng)景的(de)使用(yòng)GPU的(de)性(xìng)價比。

上(shàng)一(yī)篇(piān) : NVIDIA集成(chéng)開(kāi)放(fàng)定(dìng)制芯片NVLink
下(xià)一(yī)篇(piān) : NVIDIAA加快(kuài)醫學(xué)图(tú)像處(chù)理(lǐ)深度(dù)研究

NVIDIA助力騰訊PCG加快(kuài)無量(liàng)推薦系(xì)統

在(zài)線(xiàn)咨詢