九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
圣誕福利到!2015中國(guó)大數(shù)據(jù)技術(shù)大會(huì)演講干貨分享


(圖片來(lái)源于網(wǎng)絡(luò))


在12月舉辦的2015中國(guó)大數(shù)據(jù)技術(shù)大會(huì),李旸受邀做了一場(chǎng)題為FreeWheel基于大數(shù)據(jù)的新興視頻廣告測(cè)量實(shí)踐技術(shù)分享。本來(lái)小編這幾日一直琢磨著怎么跟大家say剩蛋快樂(lè),后來(lái)還是覺(jué)得整點(diǎn)兒實(shí)在的……小編把他的演講稿一頁(yè)一頁(yè)梳理了一下盡量原汁原味呈現(xiàn)大家眼前!如果看完后你也很歡喜,記得右下角留下個(gè)哈哈~~

大家好,我是來(lái)自FreeWheel公司的李旸,今天我跟大家分享的內(nèi)容是我們基于大數(shù)據(jù)在支持視頻廣告測(cè)量標(biāo)準(zhǔn)方面的一些實(shí)踐。



提到FreeWheel,在座的朋友可能比較陌生,我先簡(jiǎn)單介紹一下我們的業(yè)務(wù)。我們的主要業(yè)務(wù)是提供一套端到端的視頻廣告解決方案,幫助視頻媒體公司更有效地運(yùn)營(yíng)他們的廣告業(yè)務(wù),包括前期的廣告銷(xiāo)售管理、預(yù)測(cè),中間的廣告投放、執(zhí)行,到后期的廣告測(cè)量、結(jié)算以及數(shù)據(jù)分析等等。我們的客戶目前主要在美國(guó)和歐洲,我們廣告平臺(tái)單日廣告投放量接近10億次,產(chǎn)生超過(guò)2TB的廣告投放數(shù)據(jù),這個(gè)數(shù)據(jù)主要包含了終端用戶在不同媒體和設(shè)備上的視頻和廣告觀看信息。如何挖掘這些數(shù)據(jù)的價(jià)值,讓我們的廣告平臺(tái)更好地為客戶服務(wù),是我們需要考慮的問(wèn)題。提到大數(shù)據(jù)在廣告行業(yè)的應(yīng)用,包括很多的方向,比如庫(kù)存預(yù)測(cè)、用戶畫(huà)像、受眾定向等等。我今天介紹的主要是我們?cè)趶V告測(cè)量這個(gè)方向的一些工作。



這是我今天想分享的主要內(nèi)容,包括三個(gè)方面,首先介紹一下在視頻廣告領(lǐng)域一些新興的廣告測(cè)量方式,接下來(lái)介紹一下我們的廣告平臺(tái)在支持其中幾種測(cè)量方式的時(shí)候做的一些工作,包括用戶的年齡性別預(yù)測(cè)和廣告完成率預(yù)測(cè)。



提到廣告測(cè)量,做廣告的朋友可能聽(tīng)說(shuō)過(guò)句話,它出自一位19世紀(jì)后期的美國(guó)商人,翻譯成中文的大概意思就是我知道我所花的廣告費(fèi)中有一半被浪費(fèi)掉了,但是我不知道是哪一半。這句很有意思,大家可以體會(huì)一下。它實(shí)際反應(yīng)了困擾廣告行業(yè)很長(zhǎng)時(shí)間的一個(gè)問(wèn)題,就是廣告投放的實(shí)際效果是很難測(cè)量的。當(dāng)然隨著互聯(lián)網(wǎng)廣告的發(fā)展,有越來(lái)越多的廣告選擇基于用戶反饋來(lái)測(cè)量和付費(fèi),大家比較熟悉的計(jì)費(fèi)方式包括CPC、CPACPS等等,用戶必須對(duì)投放給他的一個(gè)廣告做出一些進(jìn)一步反應(yīng),可能是一次點(diǎn)擊,可能是在廣告主網(wǎng)站上填一個(gè)表格,甚至必須產(chǎn)生一次購(gòu)買(mǎi),廣告主才認(rèn)為這個(gè)廣告是有效的,才愿意為這次廣告投放買(mǎi)單。但是這些計(jì)費(fèi)方式在視頻廣告領(lǐng)域非常少見(jiàn),主要原因是視頻廣告中大多投放的是品牌廣告。從廣告的目的來(lái)看,品牌廣告希望建立起來(lái)廣告受眾對(duì)自己產(chǎn)品或者品牌的印象,它實(shí)際上并不太關(guān)心用戶對(duì)單次廣告投放的反饋,所以基于用戶反饋的測(cè)量方式在這里其實(shí)不太適用。而目前絕大多數(shù)視頻廣告還是采用CPM也就是千次展示的方式來(lái)測(cè)量的。



但是這種簡(jiǎn)單的基于展示的測(cè)量方式顯然不能滿足絕大多數(shù)廣告主的要求這里面有一個(gè)數(shù)字用來(lái)比較電視廣告和視頻廣告的市場(chǎng)規(guī)模,之所以拿它們相比是因?yàn)橐曨l廣告通常被看做電視廣告的延伸,而且在兩個(gè)市場(chǎng)中做投放大多都是品牌廣告。在美國(guó),這兩個(gè)廣告市場(chǎng)規(guī)模大概是10:1,今年電視廣告市場(chǎng)規(guī)模是700億美金,而數(shù)字視頻廣告只有70億美金。為什么在在線視頻、移動(dòng)視頻和智能電視已經(jīng)非常普及的今天,兩個(gè)廣告市場(chǎng)規(guī)模仍然有如此大的差異呢?這里面一個(gè)主要原因就是目前視頻廣告市場(chǎng)還缺乏一種行之有效的為廣告主和媒體都認(rèn)可的廣告測(cè)量方式,因此廣告主仍然不愿意把主要的廣告預(yù)算投入到這個(gè)市場(chǎng)。



當(dāng)然目前業(yè)界也意識(shí)到這樣一個(gè)問(wèn)題并且開(kāi)始著手去解決。很多公司和組織包括NielsencomScore、IAB、MRC等等都在嘗試推出一些新的視頻廣告測(cè)量方式,目前主要討論的有這樣幾種方式。首先是數(shù)字收視率,這個(gè)思路來(lái)自于電視廣告,就是我只對(duì)面向特定年齡性別用戶群體的廣告投放付費(fèi)。比如我一個(gè)化妝品廣告,面向2030歲的女性,如果投給一個(gè)男性用戶就沒(méi)什么作用了。第二個(gè)是廣告完成,我們知道在IAB的標(biāo)準(zhǔn)里面,只要廣告一開(kāi)始播放就可以認(rèn)為展示已經(jīng)發(fā)生了,而一個(gè)30秒的廣告,如果用戶只看了一兩秒,實(shí)際上也是沒(méi)什么效果的,所以廣告完成要求用戶必須看完一定比例的廣告才有效。最后一個(gè)是可見(jiàn)曝光,如果播放廣告的時(shí)候我把瀏覽器最小化了或者被其他窗口遮擋,這個(gè)其實(shí)也是沒(méi)效果的,所以可見(jiàn)曝光要求一定比例的廣告創(chuàng)意持續(xù)被用戶可見(jiàn)一段時(shí)間,這樣的曝光才是有效的。所以我們看到,這些新的測(cè)量方式,實(shí)際上是對(duì)廣告展示提出了更高的要求,而廣告平臺(tái)為了支持這些測(cè)量方式,需要使廣告投放盡可能滿足這些要求,避免投放的浪費(fèi),下面就來(lái)介紹一下我們?cè)谶@方面做的一些工作。



首先是數(shù)字收視率,這張圖是數(shù)字收視率的一個(gè)大致的測(cè)量流程。當(dāng)一個(gè)廣告訂單被創(chuàng)建的時(shí)候,會(huì)對(duì)應(yīng)地在測(cè)量服務(wù)提供商——這個(gè)例子里面是Nielsen——的系統(tǒng)里面注冊(cè)一個(gè)對(duì)應(yīng)的用于廣告tracking的對(duì)象,然后Nielsen會(huì)返回給廣告系統(tǒng)一個(gè)tracking URL。當(dāng)廣告被播放的時(shí)候,客戶端就會(huì)call這個(gè)tracking URL,這樣Nielsen就知道這個(gè)廣告被播放了一次,之后Nielsen再跟一些第三方的數(shù)據(jù)提供商做一些數(shù)據(jù)交換,跟Nielsen合作的主要是Facebook,當(dāng)然出于用戶隱私的考慮,Facebook不會(huì)把每個(gè)用戶的年齡性別告訴Nielsen,他們之間數(shù)據(jù)交換的結(jié)果是Nielsen拿到一個(gè)廣告每天在不同年齡性別用戶群體上的廣告投放量比如昨天某個(gè)廣告一共投放了100萬(wàn)次,其中男性用戶被投放了10萬(wàn)次、女性用戶被投放了90萬(wàn)次,類(lèi)似這樣一個(gè)結(jié)果。Nielsen在把這個(gè)結(jié)果返回給廣告系統(tǒng)作為后續(xù)測(cè)量和計(jì)費(fèi)的參考。在這樣一個(gè)場(chǎng)景下,廣告系統(tǒng)為了支持這種測(cè)量方式,必須在收到廣告請(qǐng)求的時(shí)候去預(yù)測(cè)請(qǐng)求背后用戶的年齡和性別,進(jìn)而投放面向該類(lèi)用戶群體的廣告,避免浪費(fèi)。



這樣一個(gè)預(yù)測(cè)問(wèn)題概括起來(lái)就是如果我知道用戶的觀看歷史,以及當(dāng)前請(qǐng)求的一些靜態(tài)信息,如何預(yù)測(cè)用戶的年齡和性別?后面的介紹為了簡(jiǎn)單起見(jiàn),以性別預(yù)測(cè)為例,年齡預(yù)測(cè)實(shí)際上是完全類(lèi)似的。這里舉了一個(gè)例子,假設(shè)我知道一個(gè)用戶最近看過(guò)《肖申克的救贖》、美劇《黑名單》、超級(jí)碗比賽和《教父》,同時(shí)他當(dāng)前的請(qǐng)求來(lái)自mountain view,在中午的時(shí)間通過(guò)Ubuntu系統(tǒng)上的Chrome瀏覽器觀看一場(chǎng)歐冠的比賽,當(dāng)這些信息擺在我們面前的時(shí)候,我們會(huì)大概率猜測(cè)這是一個(gè)男性用戶,進(jìn)而我們還可能進(jìn)一步猜測(cè)這可能是一位來(lái)自Google工程師,這樣他的年齡、職業(yè)和收入范圍也就大概都清楚了。這樣一種推理在人看來(lái)是很正常的,但是怎么通過(guò)機(jī)器自動(dòng)做這件事呢?一個(gè)直觀思路是把它當(dāng)成一個(gè)有監(jiān)督的分類(lèi)問(wèn)題,把用戶的觀看歷史和靜態(tài)信息當(dāng)成特征,訓(xùn)練一個(gè)分類(lèi)模型。但這里面的一個(gè)主要問(wèn)題是缺少有效的訓(xùn)練樣本標(biāo)注手段,因?yàn)槲覀兺耆恢烙脩羰悄惺桥?。我們?cè)?jīng)嘗試過(guò)采用其他DMP平臺(tái)的數(shù)據(jù)作為標(biāo)注,比如BlueKai的數(shù)據(jù)。但是我們把BlueKai標(biāo)注的用戶性別用Nielsen的反饋?zhàn)鲵?yàn)證,發(fā)現(xiàn)準(zhǔn)確率只有60%。當(dāng)然我們并不確定是BlueKai不準(zhǔn)還是Nielsen不準(zhǔn),但因?yàn)?span>Nielsen是測(cè)量標(biāo)準(zhǔn),所以我們的目標(biāo)必須是跟Nielsen判斷結(jié)果的一樣。在這個(gè)前提下,用BlueKai標(biāo)注的數(shù)據(jù)做訓(xùn)練就不太靠譜了。



那怎么解決這個(gè)問(wèn)題呢,我們借鑒了一篇論文里面的思路。假設(shè)我們知道一些頁(yè)面或者視頻的觀看用戶性別分布,然后對(duì)任意一個(gè)用戶,如果我知道這個(gè)用戶在這些頁(yè)面上面的瀏覽歷史,同時(shí)假設(shè)用戶在不同頁(yè)面上的瀏覽是獨(dú)立的,這樣根據(jù)貝葉斯公式,我就可以對(duì)這個(gè)用戶是男性的可能性和是女性的可能性分別打一個(gè)分?jǐn)?shù),然后再把這兩個(gè)分?jǐn)?shù)通過(guò)某種歸一化的方法得到這個(gè)用戶是男性和女性的概率。這個(gè)方法在原始論文里被用來(lái)做性別分類(lèi),但我們把它用于樣本標(biāo)注。那么怎么得到頁(yè)面或視頻的觀看用戶性別分布呢?論文里面的方法還是根據(jù)一批已知性別用戶的瀏覽歷史做一個(gè)極大似然估計(jì),但是因?yàn)槲覀儫o(wú)法拿到已知性別的用戶,所以我們采用了另外一種方法。



我們的方法也比較簡(jiǎn)單,我們選取了流量比較大的2000個(gè)頁(yè)面,然后對(duì)來(lái)自這2000個(gè)頁(yè)面的請(qǐng)求,按照一定比例采樣向Nielsen發(fā)送tracking請(qǐng)求,然后根據(jù)Nielsen的反饋去得到在這2000個(gè)頁(yè)面上的瀏覽用戶性別分布。這個(gè)表格是我們根據(jù)Nielsen的反饋挑選出的一些比較受男性用戶和女性用戶歡迎的網(wǎng)頁(yè),我們可以看到區(qū)分還是非常明顯的。男性用戶關(guān)注的包括各種體育賽事、還包括像哥譚市這種類(lèi)型的電視劇,新聞方面則是比較關(guān)注科技和政治類(lèi)新聞。而女性用戶則更關(guān)注家庭、健康、生活方式和娛樂(lè)類(lèi)的內(nèi)容,還包括masterchef這類(lèi)的廚藝比賽節(jié)目等等。接下來(lái)我們選擇了在這2000個(gè)頁(yè)面上瀏覽較多的600W用戶,根據(jù)前面提到的方法去計(jì)算這600W用戶的屬于男女的概率,并把這600W按照概率排序,選取其中最可能是男性和最可能是女性的各100W用戶作為我們的訓(xùn)練樣本。我們分別對(duì)兩組100W的訓(xùn)練樣本的準(zhǔn)確率根據(jù)Nielsen的反饋進(jìn)行了測(cè)試,測(cè)試結(jié)果男性100W用戶的準(zhǔn)確率為90%,女性100W用戶的準(zhǔn)確率是82%。我們也分析了一下女性訓(xùn)練樣本準(zhǔn)確率相對(duì)較低的原因,主要是在我們選取的2000個(gè)頁(yè)面中,男性偏好頁(yè)面的男性比例會(huì)比較高,比如像這些體育賽事,男性用戶比例能達(dá)到90%,而女性偏好頁(yè)面的女性比例相對(duì)沒(méi)那么高,大概在70%80%之間。當(dāng)然這個(gè)訓(xùn)練樣本的準(zhǔn)確率已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)BlueKai數(shù)據(jù)的準(zhǔn)確率并可以拿來(lái)訓(xùn)練預(yù)測(cè)模型了。



確定了訓(xùn)練樣本以后,下面一個(gè)問(wèn)題是特征的選取,這里面的主要特征是用戶觀看歷史,那么如何提取視頻和網(wǎng)頁(yè)的特征呢?我們的做法是基于視頻和網(wǎng)頁(yè)的名稱和簡(jiǎn)短描述,從短文本里提取了GenreTopic兩類(lèi)特征。對(duì)于Genre,我們定義了一系列內(nèi)容類(lèi)型,包括動(dòng)畫(huà)、商業(yè)、喜劇、娛樂(lè)、新聞、體育等等。然后對(duì)每個(gè)Genre訓(xùn)練一個(gè)LR的回歸模型,去預(yù)測(cè)頁(yè)面或視頻屬于這個(gè)Genre的概率,LR的特征是2-gram詞表在正負(fù)樣本中出現(xiàn)次數(shù)的比值。這里面用2-gram的原因是可以cover一些人名和專(zhuān)有名詞,比如tiger woods、world cup、super bowl、all start等等。由于是短文本,所以2-gram詞表的大小也不算太大,大概30多萬(wàn)。另外一類(lèi)特征我們采用了topic model,基于LDA提取了100個(gè)topic。



我們簡(jiǎn)單分析了一下LDA的結(jié)果。左邊這張圖是100個(gè)topic的可視化表示,他是把topic到單詞的轉(zhuǎn)移概率向量通過(guò)PCA降維,然后投影到二維空間的結(jié)果,而圓圈的大小表示了topic的先驗(yàn)概率。右邊我們挑選了幾個(gè)topic,以及topic下面轉(zhuǎn)化概率比較高的一些詞,比如有的topic下面包含NFLNHL,分別是美國(guó)職業(yè)橄欖球聯(lián)盟和冰球聯(lián)盟,還有star這樣的詞,我們認(rèn)為這個(gè)topic刻畫(huà)了體育內(nèi)容下面的某個(gè)細(xì)分語(yǔ)義。再比如第二個(gè)topic下面的Vegas、show還有hot,我們認(rèn)為這個(gè)topic應(yīng)該刻畫(huà)了娛樂(lè)內(nèi)容下面的某個(gè)細(xì)分語(yǔ)義。所以我們看到,topic特征實(shí)際上可以作為Genre特征的一個(gè)有效補(bǔ)充,Genre更多去刻畫(huà)high level的內(nèi)容類(lèi)別,而topic可以去刻畫(huà)某些更細(xì)分的語(yǔ)義。



有了訓(xùn)練樣本和特征,我們就可以進(jìn)行預(yù)測(cè)了。我們嘗試了不同的模型,包括LRGBDT,結(jié)果差不太多,我們最終選擇了GBDT模型。但是我們發(fā)現(xiàn)直接的分類(lèi)結(jié)果有的時(shí)候并不是特別準(zhǔn)確,我們猜測(cè)這里面可能有兩方面的原因首先訓(xùn)練樣本畢竟不是100%準(zhǔn)確,其次當(dāng)某些用戶的觀看歷史比較少的時(shí)候,直接用模型預(yù)測(cè)可能也不太準(zhǔn)確。為此我們做了進(jìn)一步優(yōu)化,稱為相似用戶的平滑。這里面的思想是如果兩個(gè)用戶的觀看歷史相似,那么他們的性別也很有可能是相似的。具體的方法借鑒了LSI里面的SVD分解,我們把前面提到的600W用戶在2000個(gè)頁(yè)面上的瀏覽歷史排成一個(gè)矩陣,然后對(duì)這個(gè)矩陣做一個(gè)SVD分解。之后我們提取對(duì)角陣?yán)锩孀畲蟮?/span>200個(gè)特征值,這樣就把600W個(gè)用戶映射到了200維空間中的一個(gè)向量。對(duì)于一個(gè)新用戶,我們同樣可以基于他在2000個(gè)頁(yè)面上的瀏覽歷史把它映射到200維空間中。接下來(lái)我們基于向量的余弦距離找出與新用戶最相似的T個(gè)用戶,然后把這T個(gè)相似用戶的平均性別概率與預(yù)測(cè)模型計(jì)算出來(lái)的性別概率做一個(gè)加權(quán)平均,得到最終的預(yù)測(cè)性別概率。實(shí)驗(yàn)發(fā)現(xiàn)通過(guò)這種平滑可以使不同用戶群體上面的預(yù)測(cè)準(zhǔn)確率提升510個(gè)百分點(diǎn)。



這張圖反應(yīng)了我們的預(yù)測(cè)模型上線后投放效果的提升。其中綠色的柱子表示我們的廣告系統(tǒng)每個(gè)月對(duì)所有基于數(shù)字收視率測(cè)量的廣告的總的投放量,而藍(lán)色的柱子表示實(shí)際投放給廣告主面向的用戶群體的投放量,在預(yù)測(cè)模型上線之前,這個(gè)投放準(zhǔn)確率只有百分之五十多一點(diǎn)。換句話說(shuō),有將近一半的投放是被浪費(fèi)掉的,廣告主不會(huì)為這一半的投放買(mǎi)單。而預(yù)測(cè)模型上線之后,投放的準(zhǔn)確率提升到77%。即便如此,還是有超過(guò)20%的投放浪費(fèi),在這一塊我們也還有繼續(xù)提升的空間。



前面介紹了用戶的年齡性別預(yù)測(cè),下面介紹一下廣告完成率的預(yù)測(cè),這個(gè)工作是為了支持另外一種廣告測(cè)量方式——廣告完成。上面這張圖是一個(gè)典型的視頻廣告播放時(shí)序??蛻舳嗽谝曨l播放開(kāi)始之前會(huì)向我們的廣告服務(wù)器發(fā)送廣告請(qǐng)求,并得到所有廣告位的廣告投放結(jié)果。然后隨著視頻的播放和廣告的播放,客戶端會(huì)不斷向廣告服務(wù)器發(fā)送廣告事件,比如廣告開(kāi)始播放的時(shí)候會(huì)發(fā)送曝光(impression)事件,而廣告播放結(jié)束的時(shí)候會(huì)發(fā)送完成(complete)事件。我們對(duì)廣告完成率的定義是廣告完成次數(shù)除以廣告被投放的次數(shù),按照我們統(tǒng)計(jì)的結(jié)果,廣告的整體完成率是很低的,前貼片廣告只有31%,中插廣告22%,而后貼片廣告只有4%。當(dāng)然這個(gè)結(jié)果跟我們的直覺(jué)也并不矛盾,比如后貼片廣告,我們很少會(huì)在視頻播放結(jié)束以后還堅(jiān)持把后面的廣告看完,所以這個(gè)完成率很低也是正常的。同時(shí)我們還發(fā)現(xiàn)廣告完成率在不同類(lèi)型的內(nèi)容之間有很大差異,對(duì)于熱門(mén)內(nèi)容,比如熱門(mén)美劇和體育比賽,廣告完成率通常會(huì)高一些。對(duì)于按照廣告完成計(jì)費(fèi)的廣告,在投放時(shí)需要預(yù)測(cè)投放后廣告完成的概率,并把它作為廣告決策的一個(gè)因素。通常的做法把廣告完成價(jià)格乘上廣告完成率得到一個(gè)eCPM,然后大體根據(jù)這個(gè)eCPM做廣告排序。



廣告完成率的預(yù)測(cè)是在給定廣告、用戶和當(dāng)前請(qǐng)求context的前提下預(yù)測(cè)廣告完成的條件概率,這是一個(gè)典型的回歸問(wèn)題,而回歸的特征主要來(lái)自廣告、用戶和當(dāng)前請(qǐng)求的context三個(gè)維度。廣告維度下面的信息可能包括廣告、廣告類(lèi)型、品牌、廣告主和廣告代理,用戶維度下面的信息包括用戶、地理位置和設(shè)備,而context維度下面的信息包括當(dāng)前觀看的視頻、來(lái)自于哪個(gè)頁(yè)面廣告位以及廣告在廣告位中的順序等等。特征可以分為兩大類(lèi),靜態(tài)特征和歷史特征,靜態(tài)特征就是指上面提到的這些信息,而歷史特征則是指在這些維度以及不同維度組合下面的一些歷史統(tǒng)計(jì)信息,比如該用戶在該網(wǎng)站的某個(gè)頻道下面過(guò)去一段時(shí)間所投放的廣告數(shù)量和完成的廣告數(shù)量。有很多研究表明,歷史特征對(duì)概率的預(yù)測(cè)更加重要,一個(gè)直觀的解釋就是如果如果一個(gè)客戶歷史上在某頻道下看完廣告的概率比較高,說(shuō)明他對(duì)這類(lèi)內(nèi)容比較感興趣,那么在未來(lái)他仍然會(huì)以一個(gè)較大的概率看完這些內(nèi)容上的廣告。而靜態(tài)特征則可以解決冷啟動(dòng)的問(wèn)題,對(duì)于一個(gè)新用戶,歷史特征不足,仍然可以通過(guò)靜態(tài)特征做出預(yù)測(cè)。歷史特征加上靜態(tài)特征,特征的維度往往是比較高的,我們的原始特征超過(guò)了500維。那么接下來(lái)的問(wèn)題就是,對(duì)于概率預(yù)測(cè),哪些特征是最有效的?



關(guān)于特征的自動(dòng)選擇在業(yè)界有很多討論,我們采用的方法是Facebook的一篇論文中介紹的GBDT LR的方法。其中原始特征首先經(jīng)過(guò)GBDT做一次特征轉(zhuǎn)化,然后把轉(zhuǎn)化后的特征帶入LR做最終的概率預(yù)測(cè)。這張圖來(lái)自Facebook的論文,我們知道GBDT會(huì)訓(xùn)練多棵回歸樹(shù),對(duì)每個(gè)樣本,經(jīng)過(guò)GBDT轉(zhuǎn)化后會(huì)落到每棵樹(shù)的一個(gè)葉子節(jié)點(diǎn)上。以這張圖為例,里面有兩個(gè)樹(shù),假設(shè)一個(gè)樣本經(jīng)過(guò)轉(zhuǎn)化后落到第一顆樹(shù)的第三個(gè)葉子節(jié)點(diǎn)和第二顆樹(shù)的第二個(gè)葉子節(jié)點(diǎn),那么轉(zhuǎn)化后的特征就是00101,通過(guò)這樣的轉(zhuǎn)化,原始特征就變成了一個(gè)01特征。之后再把這個(gè)01特征帶入LR模型得到最終的概率預(yù)測(cè)。Facebook的論文里指出,這種GBDT LR的混合模型比單一的LR模型能得到更高的預(yù)測(cè)準(zhǔn)確率。



我們的實(shí)驗(yàn)也得到了類(lèi)似的結(jié)果。由于我們這部分工作還沒(méi)有上線,目前這還只是離線測(cè)試的結(jié)果。我們分別對(duì)前貼片、中插和后貼片廣告訓(xùn)練了三類(lèi)預(yù)測(cè)模型,每種類(lèi)別下分別采用GBDT LR模型和單一的LR模型,然后以AUC作為評(píng)判指標(biāo)。我們發(fā)現(xiàn)GDBT LR的模型得到的AUC普遍高于單一LR模型的AUC



最后介紹一下我們數(shù)據(jù)平臺(tái)的整體架構(gòu)。我們的主要數(shù)據(jù)來(lái)自廣告服務(wù)器的投放日志,日志主要包括兩類(lèi),廣告請(qǐng)求context和廣告事件廣告事件包括前面提到的廣告曝光、廣告完成等等。我們的廣告服務(wù)器分布在全球六個(gè)數(shù)據(jù)中心,美國(guó)四個(gè),歐洲兩個(gè)。日志首先被收集到每個(gè)DClocal Kafka集群,然后再通過(guò)Kafka mirroring同步到一個(gè)global Kafka集群。后面接一個(gè)Storm集群,一方面計(jì)算實(shí)時(shí)報(bào)表,另一方面把數(shù)據(jù)存到Hbase,后面是一個(gè)定期的M/R jobHbase中廣告請(qǐng)求context和它對(duì)應(yīng)的廣告事件做匹配,把匹配之后的結(jié)果以parquet的格式存儲(chǔ)到HDFS上,這個(gè)結(jié)果會(huì)作為后續(xù)數(shù)據(jù)處理的主要input。HDFS之上,根據(jù)不同的業(yè)務(wù)需求,我們會(huì)利用不同的計(jì)算框架處理這些數(shù)據(jù)。包括Map Reduce job,Presto——這是Facebook開(kāi)源的一個(gè)SQL on Hadoop解決方案,主要支持ad hoc的數(shù)據(jù)分析,還有Spark——我們前面介紹的預(yù)測(cè)模型大多跑在Spark上。在Map Reduce、PrestoSpark之下,我們通過(guò)Yarn做統(tǒng)一的集群資源調(diào)度和管理。處理之后的數(shù)據(jù)結(jié)果根據(jù)應(yīng)用場(chǎng)景的不同被存在不同類(lèi)型的數(shù)據(jù)倉(cāng)庫(kù)中。我們采用的包括Infobright,這是基于MySQL的一個(gè)列存儲(chǔ)數(shù)據(jù)庫(kù),在我們的應(yīng)用場(chǎng)景下它可以在兼容MySQL接口的同時(shí)達(dá)到很高的數(shù)據(jù)壓縮比。還有Redis,這個(gè)大家都比較熟悉了。以及AerospikeAerospike是一個(gè)高性能的NoSQL數(shù)據(jù)庫(kù),我們用它存放用戶畫(huà)像的結(jié)果,它很好地支持跨數(shù)據(jù)中心的數(shù)據(jù)同步,以及在高并發(fā)場(chǎng)景下達(dá)到很低的請(qǐng)求延時(shí),這個(gè)很適合我們的廣告投放場(chǎng)景。數(shù)據(jù)倉(cāng)庫(kù)上面就是各種類(lèi)型的數(shù)據(jù)應(yīng)用,包括各種Dashboard、BI及數(shù)據(jù)分析的工具。

以上就是我今天想分享的內(nèi)容,謝謝大家。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
Logistic Regression 模型簡(jiǎn)介
機(jī)器學(xué)習(xí)中的邏輯回歸模型簡(jiǎn)介 - 博客 - 伯樂(lè)在線
Nielsen:聯(lián)網(wǎng)成為生活方式,但仍只有35﹪的智能手機(jī)用戶能回憶看過(guò)的廣告
商業(yè)周刊:Facebook商業(yè)模式落后 應(yīng)當(dāng)收費(fèi)
新華5G視頻彩鈴|“通信+媒體”的雙重特征讓視頻彩鈴更出眾。
短視頻程序源代碼該如何選擇?用戶特征需求才是關(guān)鍵
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服