網(wǎng)站建設(shè)流程機構(gòu)互聯(lián)網(wǎng)廣告聯(lián)盟
上篇重點介紹了互聯(lián)網(wǎng)APP在搜索交互場景下的通用邏輯,讓大眾對每天離不開的搜索進行了一個普遍介紹。這一篇,我們來聊聊抖音、頭條等APP劃一劃這個動作背后,是怎么做推薦的。

推薦的背后,離不開每個用戶的數(shù)據(jù),而且這個用戶要規(guī)模非常大,這個就叫用戶流量,當(dāng)然,每個用戶的個人行為以及普遍習(xí)慣的收集,才是后臺算法能做準(zhǔn)確猜想和推薦的核心邏輯,這個就叫大數(shù)據(jù)。那么每天APP收集到的你得數(shù)據(jù)到底有那些?
什么叫做用戶行為數(shù)據(jù)?
?用戶行為也叫做用戶特征,專業(yè)術(shù)語叫做用戶埋點。是很多大廠APP背后進行收集的用戶第一首資料。而事實上這是APP系統(tǒng)能夠推薦起到的關(guān)鍵作用。用戶特征具體分為:視頻特征、用戶特征。對于用戶來講,抖音會實時的記錄用戶對某個視頻的點擊、播放、停留、關(guān)注、評論、點贊、轉(zhuǎn)發(fā)等行為,并根據(jù)這些特征離線或?qū)崟r的進行計算。

抖音之所以能夠讓用戶“越刷越上頭”還在于其對推薦的改進,如圖所示:

(1)當(dāng)一個新用戶上傳一個視頻時,首先由設(shè)計好的系統(tǒng)對視頻進行自動打標(biāo)簽,獲取視頻的顯式特征信息;
(2)其次將該視頻先隨機推薦給1萬個用戶(又稱流量池);
(3)這些被推薦的用戶根據(jù)其對這個新上傳的視頻進行相關(guān)交互(點擊、播放、停留、關(guān)注、評論、點贊、轉(zhuǎn)發(fā)等),根據(jù)交互的用戶行為數(shù)據(jù),來判斷當(dāng)前的視頻質(zhì)量如何(尤其是該視頻的完播率如何, 完播率意指整個視頻完整的被觀看的次數(shù)占比),當(dāng)然這里的算法很復(fù)雜,通用的有機器學(xué)習(xí)的監(jiān)督分類算法。通過機器學(xué)習(xí)后的結(jié)果,就普遍對該視頻的質(zhì)量有一個打分,再通過打分來判斷,是否進一步擴大推薦的范圍;
(4)更優(yōu)秀的視頻會被推薦到更大的流量池,以獲得更多的用戶瀏覽量。
??因此這套機制可以避免資源傾斜問題,即便是一些新用戶(或使用小號),在上傳的視頻中,如果質(zhì)量好,都有機會獲得更多的瀏覽量,該推薦機制避免了系統(tǒng)偏向大號大V的問題。
??另外,抖音推薦還會涉及到對社交網(wǎng)絡(luò)的挖掘。在基于內(nèi)容給的推薦時,根據(jù)用戶關(guān)注的主播,或已查看相關(guān)主播的多個視頻時,可根據(jù)該主播的其他粉絲的興趣來進行推薦,這一部分則可以涉及到社交關(guān)系知識圖譜,以此發(fā)現(xiàn)更多新的視頻。這也就是說,當(dāng)你在持續(xù)刷抖音時,總會發(fā)現(xiàn)一些新的感興趣的視頻。
對于算法,要結(jié)合實際的應(yīng)用場景,例如對于抖音推薦,目標(biāo)是為了使得推薦的視頻能夠更加符合用戶的興趣,因此其優(yōu)化目標(biāo)是完播率;而對于一些廣告服務(wù)的平臺,例如愛奇藝視頻附帶的廣告,其優(yōu)化目標(biāo)則是最大化廣告的點擊率(CTR),從而獲得更多的廣告服務(wù)費;而對于淘寶天貓等電商,其優(yōu)化目標(biāo)則是兼顧用戶是否查看某個商品的點擊率(CTR),以及是否會產(chǎn)生購買行為的轉(zhuǎn)化率(CVR)。因此對于算法的設(shè)計,需要結(jié)合實際的優(yōu)化目標(biāo)。常用的推薦算法有:
(1)基于協(xié)同過濾的推薦,包括基于用戶和基于內(nèi)容兩個部分;
(2)基于矩陣分解或因子分解機的推薦;
(3)基于邏輯回歸、集成學(xué)習(xí)等機器學(xué)習(xí)方法;
(4)基于Embedding和相似度匹配的推薦;
(5)基于深度學(xué)習(xí)的推薦
現(xiàn)如今常部署在大數(shù)據(jù)底層系統(tǒng)上的算法以機器學(xué)習(xí)或簡單的深度學(xué)習(xí)模型為主,因此大多數(shù)領(lǐng)域內(nèi),推薦系統(tǒng)不僅在乎準(zhǔn)確率,更在乎其實時性,因此部署的模型參數(shù)不宜過多。
??用戶的交互數(shù)據(jù)通常是支撐大數(shù)據(jù)和推薦的關(guān)鍵,沒有用戶交互行為數(shù)據(jù),無法談得上推薦,因此如何構(gòu)建并提取用戶行為在學(xué)術(shù)界和工業(yè)界非常關(guān)心的問題,通常對用戶的數(shù)據(jù)采集可以包括一些顯式交互數(shù)據(jù)(包括點擊、轉(zhuǎn)發(fā)、購買等)和隱式交互數(shù)據(jù)(包括播放時長,停留時長、社交關(guān)系等)。可以通過客戶端session對數(shù)據(jù)的實時獲取并保存在數(shù)據(jù)庫中。
推薦系統(tǒng)的未來趨勢
??現(xiàn)如今各大平臺之間數(shù)據(jù)不流通的問題,是制約推薦系統(tǒng)的發(fā)展。例如一個用戶間斷性的在抖音和微視上看視頻,使得兩個平臺的用戶行為是間斷性的,然而多個平臺之間的數(shù)據(jù)通常由于商業(yè)競爭原因而無法公開,從而影響推薦的性能,使得對用戶畫像的構(gòu)建不完善,因此突破此屏障的最新方法是基于數(shù)據(jù)中臺和基于聯(lián)邦學(xué)習(xí)的框架體系:
(1)數(shù)據(jù)中臺:緩解數(shù)據(jù)孤島,將多個平臺的數(shù)據(jù)匯總在一起,并可實現(xiàn)數(shù)據(jù)復(fù)用與共享;但這通常需要多個公司之間滿足一定的協(xié)議。在數(shù)據(jù)中臺的基礎(chǔ)上,實現(xiàn)大數(shù)據(jù)挖掘和推薦,可以進一步提高收益;
(2)聯(lián)邦學(xué)習(xí):聯(lián)邦學(xué)習(xí)是近兩年比較火的概念,其主要解決的就是各大企業(yè)之間不愿意公開數(shù)據(jù),而使得模型無法充分學(xué)習(xí)到用戶的行為特征的問題。如果利用聯(lián)邦學(xué)習(xí),各個公司的數(shù)據(jù)無須匯總到一個中心結(jié)點,而只需要一定的聯(lián)邦算法,讓模型分布式地進行學(xué)習(xí),既可以充分利用各個平臺的數(shù)據(jù),又可以保證數(shù)據(jù)的隱私性和安全性。