美女视频全是黄的,mm116美女视频,在线美女视频一区

用XGB learning to rank

520jefferson >《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

2021.07.06

作者：時(shí)晴

說(shuō)到learning to rank,大家應(yīng)該都比較熟悉,但是說(shuō)到用XGB做learning to rank,很少有人實(shí)現(xiàn)過(guò).舉個(gè)例子,比方說(shuō)賽馬,我們可以基于馬的個(gè)頭,體重,歷史戰(zhàn)績(jī)等信息,建立XGB模型,進(jìn)行二分類,最后選擇贏的概率最高的馬.這樣做并沒(méi)有問(wèn)題,但是考慮到馬是否能跑贏,和對(duì)手緊密相關(guān),不管我選的馬能力如何,只要他能跑贏同場(chǎng)比賽其他馬即可,這就是排序.

Learning To Rank

學(xué)習(xí)排序其實(shí)也是有監(jiān)督學(xué)習(xí)的一部分,和多分類和回歸模型相比,我們并不是要預(yù)估一條樣本的概率,而是預(yù)估很多個(gè)樣本點(diǎn)的順序.排序經(jīng)常被用于搜索引擎,還有一些購(gòu)物建議.在搜索框里搜任何一條query,top 3展示的一定是最相關(guān)的,越往后翻頁(yè)相關(guān)度越低.

回到XGBoost,有3個(gè)目標(biāo)函數(shù),Point Wise,Pairwise和Listwise,這3種方法都可以用來(lái)排序,每個(gè)方法都有其優(yōu)缺點(diǎn).對(duì)于pointwise而言,每次僅僅考慮一個(gè)樣本,預(yù)估的是每一條和query的相關(guān)性,基于此進(jìn)行排序.Pairwise是每次取一對(duì)樣本,預(yù)估這一對(duì)樣本的先后順序,不斷重復(fù)預(yù)估一對(duì)對(duì)樣本,從而得到某條query下完整的排序.Listwise同時(shí)考慮多個(gè)樣本,找到最優(yōu)順序.

Point Wise雖然簡(jiǎn)單,但是存在不少問(wèn)題.比如說(shuō)賽馬場(chǎng)景,馬的輸贏取決于對(duì)手.再比如搜索場(chǎng)景,我們確實(shí)可以預(yù)估每個(gè)query到每個(gè)document的點(diǎn)擊率做為排序依據(jù),但是點(diǎn)擊率要考慮rank,例如排的越靠前的document點(diǎn)擊率上占據(jù)優(yōu)勢(shì),這些point-wise模型很難考慮進(jìn)去.基于此,我們需要做learning to rank的模型.

建模

首先要明確的是訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)必須包含一列query id,該id下指明哪些樣本要放到一起進(jìn)行排序.同時(shí)特別需要注意的是,在訓(xùn)練集和測(cè)試集進(jìn)行拆分時(shí),需要按query id進(jìn)行分割,如果直接隨機(jī)拆分,同一個(gè)query id下的數(shù)據(jù)就會(huì)被分開(kāi),這樣會(huì)導(dǎo)致模型出問(wèn)題.我們可以用如下代碼進(jìn)行拆分.

from sklearn.model_selection import GroupShuffleSplitgss = GroupShuffleSplit(test_size=.40, n_splits=1, random_state = 7) .split(df, groups=df['query_id'])X_train_inds, X_test_inds = next(gss)

train_data= df.iloc[X_train_inds]X_train = train_data.loc[:, ~train_data.columns.isin(['id','rank'])]y_train = train_data.loc[:, train_data.columns.isin(['rank'])]

# 模型需要輸入按query_id排序后的樣本# 并且需要給定每個(gè)query_id下樣本的數(shù)量groups = train_data.groupby('id').size().to_frame('size')['size'].to_numpy()

test_data= df.iloc[X_test_inds]

#We need to keep the id for later predictionsX_test = test_data.loc[:, ~test_data.columns.isin(['rank'])]y_test = test_data.loc[:, test_data.columns.isin(['rank'])]

我們的數(shù)據(jù)格式應(yīng)該如下所示,如果數(shù)據(jù)長(zhǎng)這樣,那么我們上述代碼中的groups就是[3, 4]:

然后我們就可以建模了,可以用XGBRanker訓(xùn)練排序模型,在這個(gè)場(chǎng)景下,我們無(wú)法自定義objective,也無(wú)法自定義mertic了.

import xgboost as xgb
model = xgb.XGBRanker(      tree_method='gpu_hist',    booster='gbtree',    objective='rank:pairwise',    random_state=42,     learning_rate=0.1,    colsample_bytree=0.9,     eta=0.05,     max_depth=6,     n_estimators=110,     subsample=0.75     )
model.fit(X_train, y_train, group=groups, verbose=True)

訓(xùn)練完后我們就可以進(jìn)行預(yù)估,因?yàn)轭A(yù)估方法并不會(huì)輸入groups,所以我們需要做一些特殊處理:

def predict(model, df): return model.predict(df.loc[:, ~df.columns.isin(['id'])])

predictions = (data.groupby('id') .apply(lambda x: predict(model, x)))

這里選擇了'rank:pairwise'作為loss,看官方文檔還有其他rank loss可供嘗試:

pair wise 方法相比pointwise有優(yōu)勢(shì)，可以學(xué)習(xí)到一些順序。但是pairwise也有缺點(diǎn)：

1.只能給出排序,并不能給出有多好,好多少.比如在搜索場(chǎng)景下,可能一條與query相關(guān)的doc都沒(méi),pointwise可以通過(guò)卡閾值得到這個(gè)信息,但是rank方式就不能區(qū)分.

2.當(dāng)一個(gè)query下有很多doc，會(huì)產(chǎn)生大量的pairs。

3.對(duì)噪聲的label 非常敏感。

感興趣的趕緊嘗試起來(lái)吧!

AINLP

一個(gè)有趣有AI的自然語(yǔ)言處理公眾號(hào)：關(guān)注AI、NLP、機(jī)器學(xué)習(xí)、推薦系統(tǒng)、計(jì)算廣告等相關(guān)技術(shù)。公眾號(hào)可直接對(duì)話雙語(yǔ)聊天機(jī)器人，嘗試自動(dòng)對(duì)聯(lián)、作詩(shī)機(jī)、藏頭詩(shī)生成器，調(diào)戲夸夸機(jī)器人、彩虹屁生成器，使用中英翻譯，查詢相似詞，測(cè)試NLP相關(guān)工具包。

331篇原創(chuàng)內(nèi)容

公眾號(hào)

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

pandas騷操作：8個(gè) 快速篩選數(shù)據(jù)的騷操作

使用pandas篩選出指定列值所對(duì)應(yīng)的行

Pandas 數(shù)據(jù)框增、刪、改、查、去重、抽樣基本操作

利用Python處理Excel數(shù)據(jù)

如何正確使用Pandas庫(kù)提升項(xiàng)目的運(yùn)行速度？

python數(shù)據(jù)分析 | pandas.DataFrame基本數(shù)據(jù)提煉與處理

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频