阻尼指数是什么意思?Pagerank算法原理
日期:2024-03-01 作者:攻硬营销
PageRank 基本思想:如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/C(T) 其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。 PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn)) A代表页面A PR(A)则代表页面A的PR值 d为阻尼指数。通常认为d=0.85 t1…tn 代表链接向页面A的页面t1到tn C代表页面上的到外链接数目。C(t1)即为页面t1上的到外链接数目 从计算公式可以看到,计算PR值必须使用迭代计算才能得到。
优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。
不足:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。
主题性页面级别技术(Topic-Sensitive PageRank) 。主题敏感的网页排名(PageRank) 基本思想:针对网页排名(PageRank)对主题的忽略而提出。
核心思想:通过离线计算出一个网页排名(PageRank)向量集合,该集合中的每一个向量与某一主题相关,即计算某个页面关于不同主题的得分。
主要分为两个阶段:主题相关的网页排名(PageRank)向量集合的计算和在线查询时主题的确定。
优点:根据用户的查询请求和相关上下文判断用户查询相关的主题(用户的兴趣)返回查询结果准确性高。
不足:没有利用主题的相关性来提高链接得分的准确性。
Hilltop 基本思想:与网页排名(PageRank)的不同之处:仅考虑专家页面的链接。
主要包括两个步骤:专家页面搜索和目标页面排序。
优点:相关性强,结果准确。
不足:专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性,而专家页面的质量和公平性难以保证;忽略了大量非专家页面的影响,不能反应整个(Internet)互联网的民意;当没有足够的专家页面存在时,返回空,所以Hilltop适合对于查询排序进行求精。
网页排名(pagerank)算法原理:
PageRank,又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。
假设一个由4个网页组成的群体:A,B,C和D。如果所有页面都只链接至A,那么A的PR(PageRank)值将是B,C及D的Pagerank总和。
PR(A)=PR(B)+PR(C)+PR(D)
重新假设B链接到A和C,C只链接到A,并且D链接到全部其他的3个页面。一个页面总共只有一票。所以B给A和C每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
对于一个页面A,那么它的PR值为:
PR(A) 是页面A的PR值
PR(Ti)是页面Ti的PR值,在这里,页面Ti是指向A的所有页面中的某个页面
C(Ti)是页面Ti的出度,也就是Ti指向其他页面的边的个数
d 为阻尼系数,其意义是,在任意时刻,用户到达某页面后并继续向后浏览的概率,该数值是根据上网者使用浏览器书签的平均频率估算而得,通常d=0.85
还有一个版本的公式:
N为页面的总数
为了便于计算,我们假设每个页面的PR初始值为1,d为0.5。
页面A的PR值计算如下:
PR(A)=0.5+0.5XPR(C)=0.5+0.5X1=1
页面B的PR值计算如下:
PR(B)=0.5+0.5X(PR(A)/2)=0.5+0.5X(1/2)=0.75
页面C的PR值计算如下:
PR(C)=0.5+0.5X(PR(A)/2+PR(B))=0.5+0.5X(1/2+0.75)=1.125
下面是迭代计算12轮之后,各个页面的PR值:
那么什么时候,迭代结束呢?一般要设置收敛条件:比如上次迭代结果与本次迭代结果小于某个误差,我们结束程序运行;比如还可以设置最大循环次数。
Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。