搜索引擎每天處理著數(shù)以億計(jì)的查詢請(qǐng)求,每個(gè)查詢請(qǐng)求都代表了一個(gè)用戶對(duì)于某種資源的特定需求。多數(shù)時(shí)候,通過查詢返回的網(wǎng)頁結(jié)果,這些需求被滿足了,我們可以認(rèn)為結(jié)果中的某些頁面對(duì)特定用戶的特定需求產(chǎn)生了價(jià)值。那么對(duì)于搜索引擎而言,頁面的價(jià)值是指什么,我們?yōu)槭裁匆芯宽撁鎯r(jià)值?帶著這些疑問我們一起來看下下面的文章:
首先,互聯(lián)網(wǎng)上的頁面是無窮盡的,而搜索引擎的硬件資源是有限的,想用有限的資源去覆蓋無窮盡的互聯(lián)網(wǎng),我們就需要對(duì)頁面價(jià)值做出判斷,不收錄那些無檢索價(jià)值的頁面,少收錄那些檢索價(jià)值低的頁面。這是頁面價(jià)值在收錄控制方面的應(yīng)用。
二,搜索引擎spider的抓取能力是有限的,出于訪問友好性的考慮,對(duì)于一個(gè)網(wǎng)站或一個(gè)IP抓取速率需要有一個(gè)抓取速率的上限。在這一限制下,抓取或頁面更新就需要有一個(gè)先后順序,而這一排序的主要參考依據(jù)就是頁面價(jià)值,或者說對(duì)頁面價(jià)值的預(yù)測(未抓取時(shí))。這是頁面價(jià)值在spider調(diào)度方面的應(yīng)用。
三,對(duì)于某些頁面,頁面內(nèi)容發(fā)生變化,導(dǎo)致它的檢索價(jià)值從有到無,典型的就是變?yōu)椤八梨湣保蛘摺氨缓凇。?duì)于這些頁面,好的搜索引擎會(huì)在一時(shí)間將其排除出索引,或在檢索時(shí)對(duì)其進(jìn)行屏蔽,以保證返回給用戶的結(jié)果是更多檢索價(jià)值高的“好頁面”。對(duì)于另一些頁面,它不僅具有很高的檢索價(jià)值,而且有很強(qiáng)的“時(shí)效性”,能夠一時(shí)間讓用戶檢索到這些頁面對(duì)搜索體驗(yàn)有很大的提升。對(duì)搜索引擎而言,越快的收錄和索引頁面意味著越多的額外資源開銷,以多快的速度收錄和以多短的周期更新索引,需要通過頁面價(jià)值的分析來指導(dǎo)。這兩方面是頁面價(jià)值在死鏈率和時(shí)效性兩大搜索引擎指標(biāo)提升上的應(yīng)用。
后,普遍意義上的頁面價(jià)值高低對(duì)搜索引擎返回給用戶的結(jié)果排序上也存在著指導(dǎo)意義。理想情況下搜索引擎的結(jié)果是按照與查詢請(qǐng)求的相關(guān)性進(jìn)行排序的,在相關(guān)性大體相當(dāng)?shù)那闆r下,用戶更傾向與瀏覽普遍意義上頁面價(jià)值高的網(wǎng)頁。這是頁面價(jià)值在ranking方面的應(yīng)用。
可以說,頁面檢索價(jià)值的研究是搜索引擎中的一項(xiàng)較為基礎(chǔ)的工作,對(duì)頁面價(jià)值的認(rèn)識(shí)和判斷的準(zhǔn)確程度直接影響著搜索引擎的覆蓋率、死鏈率、時(shí)效性等幾大主要指標(biāo)。
上面已經(jīng)介紹了頁面價(jià)值的含義,研究的意義與價(jià)值判斷的方法。后我們?cè)倏匆幌,從技術(shù)角度上,這一方向的研究中的方向。對(duì)頁面價(jià)值的研究工作主要致力于三方面:
對(duì)頁面價(jià)值體系的認(rèn)識(shí)。我們目前對(duì)頁面價(jià)值的認(rèn)識(shí)是來源于前文所述的四個(gè)維度,這個(gè)認(rèn)識(shí)是否全,對(duì)于不斷變化的互聯(lián)網(wǎng)環(huán)境與用戶需求,這些維度應(yīng)該如何擴(kuò)展與變化才能更好的服務(wù)于整體的搜索體驗(yàn)提升,是一個(gè)很重要問題。
對(duì)于反映頁面價(jià)值的頁面特征提取。巧婦難為無米之炊,挖掘更多的頁面特征,更準(zhǔn)確合理的特征提取是頁面價(jià)值判定準(zhǔn)確率提升的基礎(chǔ)。對(duì)各種頁面特征的組合策略(機(jī)器學(xué)習(xí))。針對(duì)不用的應(yīng)用方向,需要利用相應(yīng)的特征通過合理的策略擬合出頁面價(jià)值的終評(píng)價(jià)結(jié)果。
魯公網(wǎng)安備 37090202000024號(hào)
魯ICP備09081715號(hào)-4 Copyright © 2009-2019 Feixun.cc All Rights Reserved 版權(quán)所有:泰安飛訊網(wǎng)絡(luò)科技有限公司