客服热线:15817233119

知乎热榜相当于微博热搜,带你揭秘知乎热榜机制

作者:admin来源:网络
文章附图


今天分享下这两天入门级的爬取知乎热榜和微博热门数据的代码和思路。首先明确下爬虫、知乎热榜和微博热门这些概念。网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

——百度百科,“网络爬虫”


微博的热度值是根据该篇微博被转发、点赞数和微博发布时间等各项因素,来算出热度基数,再与热度权重相加,得出最终的热度值,微博热门即话题热度排行榜。知乎热榜中的内容热度值,是根据该条内容近24小时内的浏览量、互动量、专业加权、创作时间及在榜时间等维度,综合计算得出的。知乎热榜即根据内容热度值制定的排行榜。


知乎热榜相当于微博热搜,知乎的热榜是短时间内热度很大的话题所聚集的地方并且根据热度高低来进行排名。知乎热榜的优化技术思路是如何做的呢?今天小编带你揭秘一下。

QQ浏览器截图20200210230226.png

一、基本情况

热榜是知乎这两年才推出的新板块,由50个问题组成,知乎会根据问题的热度定时更新这50个问题,每个问题在热榜停留的时间基本上在24个小时上下。这是大概情况。

二、流量分布

区别于知乎的推荐曝光机制,热榜的曝光形式和流量分布其实非常的简单粗暴,无论是问题本身,还是你的回答,都是排名靠前的知乎内容才能拿到流量。这是用户习惯决定的,你自己平时看热榜的时候基本都是会去看排在前10的问题比较多,再往下基本上就没什么兴趣看了。

大数据就是排在热榜前10的回答几乎就拿走了热榜60% — 70%的流量,热榜的流量呈漏斗的形式,越往后流量就会越小,所以如果一个回答能在热榜拿到高赞必定这个问题本身排名需要上到前10。

三、挑选问题

知乎热榜的问题并非每一种都适合去写,其实多数是不合适我们写的,要想做好首先需要先甄别,筛选有价值的问题。

先讲一个真实情况,在知乎热榜获得流量的前提,是你的答案一定要在前排,基本上如果排在5名以后都是拿不到什么流量的,所以最重要的是答案要能够排名靠前。

1、首先有三个筛选标准:

(1)前排回答超过24小时以上的不建议写
(2)话题受众范围小的不建议写
(3)娱乐八卦,无价值问题不建议写

2、接下来就是三个挑选标准:

(1)知乎问题回答数量低于100的问题,一个热榜的回答如果回答的人数越多,就越难排在前面,但是并不是指超过了一百个人回答就不能写,而是说回答人数如果低于100是**选择。

(2)话题受众人群大,话题受众人群大,热度自然就会高,那么这个问题就有很大可能性会上热榜前10。所以我们在一开始就要挑选好。这个需要我们自己去稍做判断,我可以给大家一个标准,就是你要去思考这个问题本身是否和多数人相关?

比如:2020年你最想完成的目标是什么?有那些对成长有帮助的人生建议?这类问题都和大多数人相关,热度很容易起来,是优先考虑的选择。

(3)前5排的回答在24个小时以内,且赞数不多。如果一个新的问题刚上热榜,基本上关注会是在1000以内,且回答数并未超过100,同时前排的回答赞数都比较少。这个时候你去回答这个问题,你的知乎内容排名就很容易靠前,等问题的热度逐渐往上走,你的回答曝光也会越来越大。


我们可以这样去理解,找到这类问题就等于提前占到了一个曝光大的位置,然后等着这个问题升值就是这样。以上的几点加起来其实就是一个综合的筛选标准,知识点要记下来,这对我们运作热榜很重要。只要根据这个标准去挑选问题,绝对可以提高很多的效率,避免做太多无用功。知乎月活跃付费用户数已超过250万,总内容数超过300万,年访问人次超过30亿。这也是品牌方都非常想在知乎推广,做自己的品牌营销策划,出自己的特色内容。


随规模扩大而使得自身定义丰富了无数倍的知乎,仍保有明显的早期“社区氛围”,平台也试图去平衡和满足不同用户的需求。但具体到每个用户个体的预期来说情况则更为复杂——这既是产品功能的技术局限,也是知乎一直在试图改善的地方。分区、圈子能达到一部分目的,但要完美服务用户知乎显然还在路上,需要在推荐算法、内容排列等等方面长期持续优化。但话说回来,在当下“内容水化”的,其实是整体的互联网信息环境。这样的背景下,知乎的“观点源泉”基因反而更显得弥足珍贵了。