PageRank,马尔科夫链及个人推荐

Google之所以能如此高效搜索主要是基于其创始人Larry PageSergey BrinStanford读研究生期间提出的PageRank算法。PageRank完全由WWW的超链接结构所决定,它大约没隔一个月重新计算一次,而与任何网页的实际内容或搜索请求无关。当用户发出搜索请求时,Google找出符合请求的网页,并把他们按PageRank值的大小依次列出。从这个意义上讲,这正是Google公司值得尊敬的地方,做过数值计算的人都知道这么大的矩阵运算实在是非常困难。但是这也是其欺骗了用户的地方,在Google的工具条上有一个查看PageRank值的地方,这个值并不是现在的Rank值。

我们在网络上闲逛的时候,每次都从当前网页随机选择一个超链接进入下一个网页,可以想象这个网页最终将中止于一个没有网页链接出口的网页,或者进入一个由相互链接组成的死循环。这种随机游走在数学上称为马尔科夫链(Markov Chain)或马尔科夫过程(Markov Process)。当这样的随机浏览过程无限进行下去时,某个网页被访问的概率就是它的PageRank值。概率越大,PageRank值就越大。

对于Google公司而言,可以设某个根网页开始,沿一系列超级链接到达的所有网页组成了一个集合,而且这个集合不断的变大。这个集合构成一个矩阵,解这个矩阵特征值就得到了每个网页的PageRank值。比如Sina网的PageRank值是7,俺们学院的PR值是2,本博的PR值为1,本博母校PR值为6等。到目前为止,这个集合已经超过60亿了。这么庞大的计算量对任何人来讲都实在是很夸张。

然而,对于经常使用Google的人来讲,可以发现今年Google搜索的准确度明显不如04年了。我们要找到自己所需要的信息越来越难了,比如刚才我搜索本博的名字得到424项搜索结果,到底那些项是我自己呢?好在跟我同名的人不是很多,搜索我一个朋友恰恰同学得到的信息条数是152000条,很明显要找到我那个朋友的信息还是有点难的。经常光顾本博的Princess Lin同学,在Google上能搜到126000条,要在网上找到她绝对叫大海捞针,我要找到她本来直接到她办公室就好了,当然前提是我知道她的办公室在哪儿。所以我们可以得到这样的结论,信息过载等于没有信息。

要解决这个问题怎么办呢?目前Web 2.0技术似乎为解决这个问题打开了一扇门。但是个性怎么体现呢?比如在化妆品网站上面,网站通常根据销量大小和其他的商业目的给出推荐产品。但是通常每个人的喜好都不一样,怎样调和大众口味和个人喜好,这也是一个需要解决的问题。所以当我们从解决好这个问题之后,给出合适的推荐算法,这绝对具有重要的商业前景。在这方面恰恰同学已经灌了篇水了(Phys.Rev.E, 76, 046115(2007)).

ps. Google的另一个创始人也结婚了,新娘很漂亮!

贴素描美女一张。
sumiao1.jpg

2 Responses to “PageRank,马尔科夫链及个人推荐”

  1. xiaoya Says:

    GOOGLE还是个很不错的公司,听说可以带狗上班

  2. deng Says:

    带狗上班多不好玩儿阿,哈哈

Leave a Reply

Powered by WP Hashcash