[Hadoop in China 2011] 人人网:基于Hadoop的SNS统计和聚类推荐「建议收藏」

[Hadoop in China 2011] 人人网:基于Hadoop的SNS统计和聚类推荐「建议收藏」http://storage.it168.com/a2011/1203/1283/000001283190.shtml据人人网的工程师介绍,人人网现在一共2.2亿用户,平均每个用户有大约190个好友,月均40亿的照片访问量。尽管相比于中国最大的即时通讯公司腾讯,其用户量还有一定差距,但人人网却具有举足轻重的优势。例如有一成的付费用户,平均每天有五成用户使用人人网,并且八成用户在人人网留…

大家好,欢迎来到IT知识分享网。

http://storage.it168.com/a2011/1203/1283/000001283190.shtml

 

据人人网的工程师介绍,人人网现在一共2.2亿用户,平均每个用户有大约190个好友,月均40亿的照片访问量。尽管相比于中国最大的即时通讯公司 腾讯,其用户量还有一定差距,但人人网却具有举足轻重的优势。例如有一成的付费用户,平均每天有五成用户使用人人网,并且八成用户在人人网留下了真实资 料。

人人网:基于Hadoop的SNS统计和聚类推荐
人人网高级技术经理白伯纯

   人人网的白伯纯工程师认为,现在的互联网已经发展到了web 2.0时代,其与web 1.0相比,最大不同在于,每个用户都具有唯一标识,而这将给人人网带来巨大的机遇。用户每天都在产生内容,如果能够对其内容进行分析处理,并推送相应的 内容给他,那么就能对用户产生黏性。

人人网:基于Hadoop的SNS统计和聚类推荐

  上图显示的是人人网结构化数据产生的拓扑图,其中的每个点代表一个用户,用户与用户之间通过内容联系起来。

人人网:基于Hadoop的SNS统计和聚类推荐

  用户产生的内容会通过用户的转发而维系起来,而在这些用户中,通常有一些用户的内容会受到其他大量用户的肯定。而人人网要做的就是通过对内容的分析计算,找出这个“意见领袖”。上图中所示的红点即为“意见领袖”。

人人网:基于Hadoop的SNS统计和聚类推荐

  不同群体的用户可以通过内容维系起来。

人人网:基于Hadoop的SNS统计和聚类推荐

  最后,人人网的工程师给我们分析了人人网统计平台和聚类推荐的架构图,这跟我们介绍了Facebook公司的实时海量数据处理平台有共通之处。据透露,人人网的这个平台一共有200台服务器,采用的是Hadoop 0.21.0版本,每天大概要处理4000以上的任务,经常使用的数据量为700TB,其总共的数据量约为1.2PB,其中涉及的工具包括Hive、HBase以及Streaming。在另外的一个30台服务器组成的集群中,采用的是Hadoop 0.20.3版本,在这个集群中,只使用了HBase。

人人网:基于Hadoop的SNS统计和聚类推荐

  人人网整个统计平台的体系架构如上图所示。因为各个部门工程师对于各种技术的熟练程度不一,所以形成了以BI、Hive和M/R三种统计图形的统计效果,而人人网的各个子平台也呈现出以一种离散状态,但这些都通过Hadoop这个平台又集中地整合到一起。

转载于:https://www.cnblogs.com/licheng/archive/2011/12/05/2276400.html

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/25565.html

(0)
上一篇 2023-03-20 22:00
下一篇 2023-05-04 17:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信