承接搜索引擎判斷網(wǎng)站是否作弊的原理分析(一)
廣州SEO陳永繼續(xù)為大家分析信任傳播模型、不信任傳播模型及異常發(fā)現(xiàn)模型3個(gè)代表算法,它們分別是TrustRank算法、BadRank算法和SpamRank算法。
我們先詳細(xì)介紹TrustRank算法
TrustRank算法屬于信任傳播模型,基本遵循信任傳播模型的流程,即算法流程如下兩個(gè)步驟組成。
步驟一:確定值得信任的網(wǎng)頁集合
TrustRank算法需要靠人工審核來判斷某個(gè)網(wǎng)頁應(yīng)該被放入網(wǎng)頁集合,考慮到人工審核工作量大,所以提出了兩種初選信任網(wǎng)頁集合的策略,在初選集合基礎(chǔ)上再由人工審核。
*初選策略1:高PR分值網(wǎng)頁,即認(rèn)為高PR得分的網(wǎng)頁是可信賴的,所以可以對網(wǎng)頁計(jì)算PR值后,提取少量高分值網(wǎng)頁作為初選頁面集合。
*初選策略2:逆PR(Inverse PR),在pr計(jì)算過程中,是根據(jù)網(wǎng)頁入鏈傳入權(quán)值計(jì)算的,逆PR與此相反,根據(jù)網(wǎng)頁的出鏈傳出的權(quán)值計(jì)算,即先將網(wǎng)頁之間的鏈接指向關(guān)系反轉(zhuǎn),選取的分較高的一部分子集作為初選頁面。
步驟二:將信任分值從白名單網(wǎng)頁按照一定方式傳播到其他網(wǎng)頁
在這個(gè)步驟,TrustRank算法的信任傳播方式基于以下兩個(gè)假設(shè)。
假設(shè)1:距離可信網(wǎng)頁越近越值得信任,這里的距離指的是通過多少步鏈接轉(zhuǎn)可以通達(dá)。
假設(shè)2:一個(gè)高質(zhì)量網(wǎng)頁包含的出鏈少,那么被指向的網(wǎng)頁的是高質(zhì)量網(wǎng)頁的可能性越小。
所謂信任衰減,即距離可信網(wǎng)頁越遠(yuǎn)的網(wǎng)頁,通過傳播得到的信任分值越小。
所謂信任值均分策略,即將網(wǎng)頁獲得的信任值按照出鏈個(gè)數(shù)平均分配,如果一個(gè)網(wǎng)頁有K個(gè)出鏈,則每個(gè)出鏈分配到1/k的信任分值,并將分值傳遞給出鏈。
通過結(jié)合以上兩個(gè)傳播策略可以再頁面節(jié)點(diǎn)圖之間傳播信任分值,在最后的計(jì)算結(jié)果中,低于一定信任度的頁面會被認(rèn)為是作弊網(wǎng)頁。
先分析這里,搜索引擎判斷網(wǎng)站是否作弊的原理分析(三)將為大家講解BadRank算法,具體可以到我的博客(http://www.30ly.com)了解。
本文原創(chuàng)于廣州SEO陳永博客http://www.30ly.com/?p=205
轉(zhuǎn)載請加上轉(zhuǎn)載地址