【威海seo】在網(wǎng)站中的用戶標(biāo)簽有什么作用?

閱讀 ?·? 發(fā)布日期 2018-07-26 14:52 ?·? admin
【威海seo】在網(wǎng)站中的用戶標(biāo)簽有什么作用?
  在網(wǎng)站中的推薦系統(tǒng)有兩大基石他們分別是用戶標(biāo)簽和內(nèi)容分析。在內(nèi)容分析中會(huì)涉及到一些有關(guān)機(jī)器學(xué)習(xí)的方面,兩者相較而言,用戶標(biāo)簽這一項(xiàng)目的難度更大。
 
  在今日頭條的網(wǎng)站中我們常用到的用戶標(biāo)簽主要有用戶比較想知道的主題亦或是極為重要的關(guān)鍵詞等等。對(duì)于用戶的性別信息我們可以從第三方社交賬號(hào)中得到。而用戶的年齡信息主要是從模型中預(yù)測(cè),主要是根據(jù)用戶閱讀的時(shí)間和機(jī)型來(lái)預(yù)測(cè)。經(jīng)常訪問(wèn)的地點(diǎn)主要是由用戶自己授權(quán)網(wǎng)站訪問(wèn)得到的
 
  當(dāng)然在網(wǎng)站中最簡(jiǎn)單最基礎(chǔ)的用戶標(biāo)簽就是用戶瀏覽過(guò)后的內(nèi)容標(biāo)簽。主要分為三個(gè)方面:第一方面就是能夠過(guò)濾噪音,網(wǎng)站通過(guò)用戶停留的時(shí)間的長(zhǎng)短來(lái)過(guò)濾標(biāo)題黨。第二方面就是熱點(diǎn)懲罰,對(duì)于網(wǎng)站中一些極受用戶歡迎的文章,用戶會(huì)在上面留言,但不乏一些不好的留言,而這樣就會(huì)遭到懲罰。譬如降權(quán)處理等等。第三方面就是時(shí)間衰減,隨著年齡的增長(zhǎng),用戶的興趣也會(huì)發(fā)生一些改變,所以網(wǎng)站的策略就更偏向于新的用戶?,F(xiàn)在隨著用戶動(dòng)作的增加時(shí)間久的一些權(quán)重影響力就會(huì)降低。第四方面就是懲罰展現(xiàn),如果有那么一篇文章是推薦給用戶的但卻沒(méi)有人點(diǎn)擊,那么與之相關(guān)的權(quán)重就會(huì)遭受懲罰。
 
  要知道用戶標(biāo)簽找出的大都是一些簡(jiǎn)單的關(guān)鍵詞,例如今日頭條它的用戶標(biāo)簽第一版就是批量計(jì)算框架,在這個(gè)系統(tǒng)中它的流程相較其他而言就更簡(jiǎn)單些。
 
  但問(wèn)題在于,隨著用戶高速增長(zhǎng),興趣模型種類和其他批量處理任務(wù)都在增加,涉及到的計(jì)算量太大。2014年,批量處理任務(wù)幾百萬(wàn)用戶標(biāo)簽更新的Hadoop任務(wù),當(dāng)天完成已經(jīng)開(kāi)始勉強(qiáng)。集群計(jì)算資源緊張很容易影響其它工作,集中寫(xiě)入分布式存儲(chǔ)系統(tǒng)的壓力也開(kāi)始增大,并且用戶興趣標(biāo)簽更新延遲越來(lái)越高。
 
  面對(duì)這些挑戰(zhàn)。2014年底今日頭條上線了用戶標(biāo)簽Storm集群流式計(jì)算系統(tǒng)。改成流式之后,只要有用戶動(dòng)作更新就更新標(biāo)簽,CPU代價(jià)比較小,可以節(jié)省80%的CPU時(shí)間,大大降低了計(jì)算資源開(kāi)銷。同時(shí),只需幾十臺(tái)機(jī)器就可以支撐每天數(shù)千萬(wàn)用戶的興趣模型更新,并且特征更新速度非??欤究梢宰龅綔?zhǔn)實(shí)時(shí)。這套系統(tǒng)從上線一直使用至今。
 
  當(dāng)然,我們也發(fā)現(xiàn)并非所有用戶標(biāo)簽都需要流式系統(tǒng)。像用戶的性別、年齡、常駐地點(diǎn)這些信息,不需要實(shí)時(shí)重復(fù)計(jì)算,就仍然保留daily更新。
 
  四、評(píng)估分析
 
  上面介紹了推薦系統(tǒng)的整體架構(gòu),那么如何評(píng)估推薦效果好不好?
 
  有一句我認(rèn)為非常有智慧的話,“一個(gè)事情沒(méi)法評(píng)估就沒(méi)法優(yōu)化”。對(duì)推薦系統(tǒng)也是一樣。
 
  事實(shí)上,很多因素都會(huì)影響推薦效果。比如侯選集合變化,召回模塊的改進(jìn)或增加,推薦特征的增加,模型架構(gòu)的改進(jìn)在,算法參數(shù)的優(yōu)化等等,不一一舉例。評(píng)估的意義就在于,很多優(yōu)化最終可能是負(fù)向效果,并不是優(yōu)化上線后效果就會(huì)改進(jìn)。
 
  全面的評(píng)估推薦系統(tǒng),需要完備的評(píng)估體系、強(qiáng)大的實(shí)驗(yàn)平臺(tái)以及易用的經(jīng)驗(yàn)分析工具。所謂完備的體系就是并非單一指標(biāo)衡量,不能只看點(diǎn)擊率或者停留時(shí)長(zhǎng)等,需要綜合評(píng)估。過(guò)去幾年我們一直在嘗試,能不能綜合盡可能多的指標(biāo)合成唯一的評(píng)估指標(biāo),但仍在探索中。目前,我們上線還是要由各業(yè)務(wù)比較資深的同學(xué)組成評(píng)審委員會(huì)深入討論后決定。
 
  很多公司算法做的不好,并非是工程師能力不夠,而是需要一個(gè)強(qiáng)大的實(shí)驗(yàn)平臺(tái),還有便捷的實(shí)驗(yàn)分析工具,可以智能分析數(shù)據(jù)指標(biāo)的置信度。
 
  一個(gè)良好的評(píng)估體系建立需要遵循幾個(gè)原則,首先是兼顧短期指標(biāo)與長(zhǎng)期指標(biāo)。我在之前公司負(fù)責(zé)電商方向的時(shí)候觀察到,很多策略調(diào)整短期內(nèi)用戶覺(jué)得新鮮,但是長(zhǎng)期看其實(shí)沒(méi)有任何助益。
 
  其次,要兼顧用戶指標(biāo)和生態(tài)指標(biāo)。今日頭條作為內(nèi)容分創(chuàng)作平臺(tái),既要為內(nèi)容創(chuàng)作者提供價(jià)值,讓他更有尊嚴(yán)的創(chuàng)作,也有義務(wù)滿足用戶,這兩者要平衡。還有廣告主利益也要考慮,這是多方博弈和平衡的過(guò)程。
 
  另外,要注意協(xié)同效應(yīng)的影響。實(shí)驗(yàn)中嚴(yán)格的流量隔離很難做到,要注意外部效應(yīng)。
 
  強(qiáng)大的實(shí)驗(yàn)平臺(tái)非常直接的優(yōu)點(diǎn)是,當(dāng)同時(shí)在線的實(shí)驗(yàn)比較多時(shí),可以由平臺(tái)自動(dòng)分配流量,無(wú)需人工溝通,并且實(shí)驗(yàn)結(jié)束流量立即回收,提高管理效率。這能幫助公司降低分析成本,加快算法迭代效應(yīng),使整個(gè)系統(tǒng)的算法優(yōu)化工作能夠快速往前推進(jìn)。
 
  這是頭條A/BTest實(shí)驗(yàn)系統(tǒng)的基本原理。首先我們會(huì)做在離線狀態(tài)下做好用戶分桶,然后線上分配實(shí)驗(yàn)流量,將桶里用戶打上標(biāo)簽,分給實(shí)驗(yàn)組。舉個(gè)例子,開(kāi)一個(gè)10%流量的實(shí)驗(yàn),兩個(gè)實(shí)驗(yàn)組各5%,一個(gè)5%是基線,策略和線上大盤(pán)一樣,另外一個(gè)是新的策略。
 
  實(shí)驗(yàn)過(guò)程中用戶動(dòng)作會(huì)被搜集,基本上是準(zhǔn)實(shí)時(shí),每小時(shí)都可以看到。但因?yàn)樾r(shí)數(shù)據(jù)有波動(dòng),通常是以天為時(shí)間節(jié)點(diǎn)來(lái)看。動(dòng)作搜集后會(huì)有日志處理、分布式統(tǒng)計(jì)、寫(xiě)入數(shù)據(jù)庫(kù),非常便捷。
 
  在這個(gè)系統(tǒng)下工程師只需要設(shè)置流量需求、實(shí)驗(yàn)時(shí)間、定義特殊過(guò)濾條件,自定義實(shí)驗(yàn)組ID。系統(tǒng)可以自動(dòng)生成:實(shí)驗(yàn)數(shù)據(jù)對(duì)比、實(shí)驗(yàn)數(shù)據(jù)置信度、實(shí)驗(yàn)結(jié)論總結(jié)以及實(shí)驗(yàn)優(yōu)化建議。
 
  當(dāng)然,只有實(shí)驗(yàn)平臺(tái)是遠(yuǎn)遠(yuǎn)不夠的。線上實(shí)驗(yàn)平臺(tái)只能通過(guò)數(shù)據(jù)指標(biāo)變化推測(cè)用戶體驗(yàn)的變化,但數(shù)據(jù)指標(biāo)和用戶體驗(yàn)存在差異,很多指標(biāo)不能完全量化。很多改進(jìn)仍然要通過(guò)人工分析,重大改進(jìn)需要人工評(píng)估二次確認(rèn)。
 
  五、內(nèi)容安全
 
  最后要介紹今日頭條在內(nèi)容安全上的一些舉措。頭條現(xiàn)在已經(jīng)是國(guó)內(nèi)最大的內(nèi)容創(chuàng)作與分發(fā)憑條,必須越來(lái)越重視社會(huì)責(zé)任和行業(yè)領(lǐng)導(dǎo)者的責(zé)任。如果1%的推薦內(nèi)容出現(xiàn)問(wèn)題,就會(huì)產(chǎn)生較大的影響。
 
  因此頭條從創(chuàng)立伊始就把內(nèi)容安全放在公司最高優(yōu)先級(jí)隊(duì)列。成立之初,已經(jīng)專門(mén)設(shè)有審核團(tuán)隊(duì)負(fù)責(zé)內(nèi)容安全。當(dāng)時(shí)研發(fā)所有客戶端、后端、算法的同學(xué)一共才不到40人,頭條非常重視內(nèi)容審核。
 
  現(xiàn)在,今日頭條的內(nèi)容主要來(lái)源于兩部分,一是具有成熟內(nèi)容生產(chǎn)能力的PGC平臺(tái)
 
  一是UGC用戶內(nèi)容,如問(wèn)答、用戶評(píng)論、微頭條。這兩部分內(nèi)容需要通過(guò)統(tǒng)一的審核機(jī)制。如果是數(shù)量相對(duì)少的PGC內(nèi)容,會(huì)直接進(jìn)行風(fēng)險(xiǎn)審核,沒(méi)有問(wèn)題會(huì)大范圍推薦。UGC內(nèi)容需要經(jīng)過(guò)一個(gè)風(fēng)險(xiǎn)模型的過(guò)濾,有問(wèn)題的會(huì)進(jìn)入二次風(fēng)險(xiǎn)審核。審核通過(guò)后,內(nèi)容會(huì)被真正進(jìn)行推薦。這時(shí)如果收到一定量以上的評(píng)論或者舉報(bào)負(fù)向反饋,還會(huì)再回到復(fù)審環(huán)節(jié),有問(wèn)題直接下架。整個(gè)機(jī)制相對(duì)而言比較健全,作為行業(yè)領(lǐng)先者,在內(nèi)容安全上,今日頭條一直用最高的標(biāo)準(zhǔn)要求自己。
 
  分享內(nèi)容識(shí)別技術(shù)主要鑒黃模型,謾罵模型以及低俗模型。今日頭條的低俗模型通過(guò)深度學(xué)習(xí)算法訓(xùn)練,樣本庫(kù)非常大,圖片、文本同時(shí)分析。這部分模型更注重召回率,準(zhǔn)確率甚至可以犧牲一些。謾罵模型的樣本庫(kù)同樣超過(guò)百萬(wàn),召回率高達(dá)95%+,準(zhǔn)確率80%+。如果用戶經(jīng)常出言不諱或者不當(dāng)?shù)脑u(píng)論,我們有一些懲罰機(jī)制。
 
  泛低質(zhì)識(shí)別涉及的情況非常多,像假新聞、黑稿、題文不符、標(biāo)題黨、內(nèi)容質(zhì)量低等等,這部分內(nèi)容由機(jī)器理解是非常難的,需要大量反饋信息,包括其他樣本信息比對(duì)。目前低質(zhì)模型的準(zhǔn)確率和召回率都不是特別高,還需要結(jié)合人工復(fù)審,將閾值提高。目前最終的召回已達(dá)到95%,這部分其實(shí)還有非常多的工作可以做。頭條人工智能實(shí)驗(yàn)室李航老師目前也在和密歇根大學(xué)共建科研項(xiàng)目,設(shè)立謠言識(shí)別平臺(tái)。