人人都是产品经理网站数据分析实战——上篇(平台视角)

起因

看了几年的人人都是产品经理(以下本文中简称人人),从来只是个看客和学习者。最近因为比较闲,也在总结这几年来的工作心得。近一个月前终于有了第一次投稿,如何通过小程序和微信社群来构建产品运营体系? 。上过人人的微信头条,每天都能有几个新的订阅用户,这些都在告诉在我这一点付出还是能够帮助到其他人的。但我一直很好奇它具体在人人的过往文章中到底是个什么水平,我心里没有底。所以出于好奇,就有了这次数据分析的探索之旅。

内容安排

学过数据分析的同学肯定在最开始都有这样的体会,手中有了锤子,看什么都像钉子。所以好久没做数据分析,手痒一下子抓取并分析了一大堆数据,远远超过了最初的目的。所以开始构思如何写这篇文章的时候,做了如下思考:

  1. 人人是由哪些角色构成?
  2. 这些角色都想知道些什么?
  3. 能否通过现有的数据给出这些答案?

综合考虑以上问题和文章篇幅后,大致拟出如下图所示框架:

woshipmSt

  • 左边为人人官方平台角度。换位思考,如果我是运营,首先会比较关系平台的内容循环体系是否正常,其次内容是否带来足够的收益;
  • 右边为用户角度,就是普通的网站访问者,同时根据身份又分为读者和作者,读者想的是能够找到自己想要的内容,作者是想的是自己的作品是否受到大家的关注;

这是两个角度,三种角色的基本思考,而本篇则会由左边开始,下篇会讲右边。

数据介绍

开发环境

基本的数据分析工具就如下图所示:

项目 详情
操作系统 Mac OS
分析语言 python3.6.6
分析框架 pandas, numpy, seaborn, matplotlib, XGBoost
开发环境 jupyter notebook
数据格式 json, csv
服务支持 腾讯AI开放平台情感分析、基础文本分析,
哈工大云语言API的语义依存分析

数据获取

因为不是写教程,而且过程也很简单,这里只是简单的提一下。使用Python写一个For循环请求网站的一个分页加载接口就能够获得所有的网站文章数据(Json格式),再将所有的Json数据合并整理成相应的列表。

其中接口返回的原始数据项比较丰富,选取其中比较有价值和便于分析的,如下表示:

原始数据属性 名称 说明
id 文章唯一编号 应该从1开始的整数,随着发表时间单调增加,不连续
date 文章发布时间 这里只有日期,没有具体时间
permalink 文章链接 主站+文章分类代码+id的路径组合
便于一些结果输出就保留了
title 文章标题 会有麻烦的特殊编码需要处理
category 文章分类 纯文本,部分文章未分类
view 浏览次数 为了前端显示方便,上万后并没有返回具体数值
仅有字符串【X万】,需要做舍入处理
like 点赞量 整数,似乎有负数的情况
comment 评论量 有删除的评论数量未必和点击进入后的文章显示量一致
bookmark 收藏量 整数,似乎有负数的情况
authorID 用户编号 从1开始自然数,单调增加,但并不连续
authorName 用户昵称 字符串,不为空
authorRole 用户在站内身份 字符串,普通用户没有身份,所以会赋值普通用户

数据总览

在获得数据后,第一时间就先看看整体的数据情况。时间有限就不去做些漂亮可视画展示啦,总览数据就如下表所示:

运营项目 总量 均值 标准差
网站运营时长 2287天
文章数量 45213篇 19.7篇/日 47.9
同上 同上 7215.9篇/年 1718.0
作者数量 4138名 11.9篇/人 91.7
阅读 5100万次 11377.8次/篇 19669.4
点赞 62万 14次/篇 36
收藏 245.6万 54次/篇 116
评论 14.5万 3次/篇 11.0
文章分类 23个 详见后文
作者分类 23个 详见后文 -

只看以上数据,我上一篇的数据无论是5K的阅读量还是收藏点赞都还没有达到平均值,离好文章都还有一些距离,这组数据能解决我的基本困惑。但对于整体的运营情况和前文提出的一些分析目标来说还远远不够,所以还需要后文的深入分析。

正式开始分析前对数据的一点说明

  1. 数据仅采集自首页文章列表展示数据,仅用于学习和投稿人人的写作,不做何商业用途;
  2. 本文数据采集自2018年8月16号,一切记录数据以当天为准;
  3. 文章数据并不能保证严格正确和全面,比如9月2号再次采集时,文章数量比8月16号的还少,应该是下架了一些文章,但对于本次分析人人的网站大体情况应该是没有问题的。
  4. 为了不给人人主站造成不必要的网络负担,如果有需要原始数据的同学可以在后面留言邮箱,或者在我的个人网站中寻找。

了解以上,让我们正式开始。

平台运营分析

初步分析人人主站的主要业务逻辑如下图所示。①由作者发表文章,②吸引用户产生流量,⓷部分读者会转化成作者、生产独家内容,以此来构成一个能够长期稳定的内容发布体系。在此之后的,通过流量发布广告,读者带来的口碑换取第三方合作、课程转化等,都是在这之上的业务逻辑,分支太多,不可能面面俱到,所以点到即止。

Artboard 2

再根据实际的数据情况,并没有直接的读者UV数据,所以仅对以下两条业务线进行分析:

  • 业务线1. 多少作者产生了多少投稿
  • 业务线2. 投稿的文章带来了多少阅读量进行分析

投稿作者

相信大家在看数据总览中能看到,投稿作者的身份多达23种,依次是:站长、运营小编、官方、专栏作家、运营小哥、运营小妹、普通用户、设计小妹、运营、合作媒体、编辑、作者、萌妹子、主编、女神、男神2、临时工、特邀作者、运营哥、美少女、CV工程师、合作出版社、小编妹妹。

是不是眼花缭乱,群魔乱舞?这里我根据后面的实际情况对相应的身份进行了些合并。

原角色名称 合并 理由
站长 站长 站长牛逼
运营小编、官方、运营哥、运营小哥、运营小妹、设计小妹
运营、编辑、作者、主编、
萌妹子、女神、男神2、临时工、美少女、 CV工程师、小编妹妹
平台运营
Nan 普通用户 数据上返回为空,为了便于分析加了个title
专栏作家 专栏作家 加了V的普通用户
合作媒体、特邀作者、合作出版社 第三方合作 只将人人做为文章的发布渠道之一

所以这里需要吐槽和需要改进的自然就是平台运营小编们对自己的角色定位了,只从命名上看得出来应该是后台的管理有些混乱,最初来一个新人就想当然的给了自己一个title。或者说人人当初有自己的培养明细写手的打算,所以预留了一些特殊的职位和身份?

Q1.各阶段的投稿主力是谁?

OK,吐槽完作者身份后,进入到第一个问题。那就是人人上面的文章都是从哪儿来的,或者说是谁投的稿?在对作者身份进行合并后,如下图所示的是2012~2018年,投稿数量分布热力图:

download-1

这里不仅对各时期的投稿主力看得很清楚,甚至可以清晰看到人人的主业务搭建过程:

  1. 最初是由站长在2012年完成了大量的投稿(转载),构建了网站的基本内容(可能是有一些网站的改版,因为人人实际从2010年就开始运营了);
  2. 在2013年开始,大量团队成员的加入后,转为团队运营的方式,而站长由此开始退居隐退,并且在网站上投稿的用户明显增多;
  3. 之后一年团队应该过得挺辛苦的,平均每天团队成员需要投稿15.3篇,只算工作日251天的话,大约27篇,虽然不知道团队成员多少,但至少在2014.11月拿到融资之前团队成员应该不会太多。即便转载,也会有相当的二次编辑工作量;
  4. 2015年大约是通过对普通作者的发掘,将部分投稿用户转为了专栏作家,激发了用户的投稿积极性,使专栏作家的投稿量有了质的飞跃。当然,这里有个问题可能在于用户在最初投稿时为普通用户,但在之后转为专栏作者,将部分原应该归到普通作者的数据分到了专栏作家中;
  5. 之后的两年就相当平衡了,更多的普通用户投稿说明对平台的品牌认可,且源源不断的提供更多的专栏作者,以维持稳定的内容输出;

整体来看,之前说的主业务体系目前应该是比较稳定且完整的。2018年的数据目前还不好说,但专栏作家的流失的趋势有点明显,可能需要一些激励计划。

Q2. 用户的投稿次数分布

从内容生产的角度来说,普通用户和专栏作家投稿属于UGC内容,平台运营内容属于PGC内容。PGC内容可以根据团队运营的情况来调整,而UGC内容则需要通过适当的激励手段来保持。而且之前在数据总览中能看到这样一组数据:

  • 作者总数4138名
  • 人均投递11.9篇/人
  • 投递偏差值为91.7

如此大的偏差值,能够多次投稿的用户数量并不多,而实际的情况也如下图所示(仅普通用户和专栏作家):

download-2

那么在普通的吃瓜群从中,加了V的专栏作家是否真的有做出比普通用户更多的投稿呢?为了接下来的分析和数据展示,将对用户的投稿数量做了出以下分组:

标签 L1 L2 L6 L20
投稿数量 n=1 n=[2,6) n=[6,20) n=[20,+∞)

再加上投稿作者的身份,结果如下图所示:

  1. 绝大部分的的专栏作家完成了至少5篇以上的投稿,且L20的专家用户完成了相当的投稿量;
  2. 从普通用户L20中可以看到人人确实把相当一部分用户转成了专栏作家,而且通过具体数据查看,此类剩余未转化的用户大部分只是转载;
  3. 普通用户L2到L6之间有道坎,这个我现在自己写作也深有体会,对于用户来说一时兴起写一两篇没有问题,但难的是如何坚持;
  4. 从此数据中无法直接得出普通作者转成专栏作家后,能够持续投稿,缺乏用户身份转变的时间,故不再做进一步分析。

虽然有些不完美,但确实是20%的用户解决了80%的问题。

Q3.用户的投稿偏好

最后我们来看一看用户喜欢投哪些类型的稿件。普通用户的投稿一般是兴趣始然,或者是来自自己的工作内容的总结、经验分享。所以这个分析将将可能得出产品经理们的能力变化和工作变化。


从左往右按年份来看:

  1. 2012~2015可能还是产品经理在行业内刚开始冒头的时候,所以产品经理的主要工作:产品设计产品运营产品经理大家都还不太敢写,或者说能写的人还很少。主要就是分析行业和转载报道当前的行业趋势;
  2. 2016开始才品类丰富起来,应该算是产品经理行业开始变得成熟的一个分界点;在这之后,产品设计产品运营产品经理的投稿才变得丰富起来,毕竟有经验的开始多了起来;
  3. 营销推广文案策划新零售AI人工智能直到今年才有投稿,应该是最初没有分类造成的,也应该是相应的内容开始集中出现的结果。

不过这个分类是人人运营自己做的,很明显还是有些问题。分类来得有些晚,至少热点已经过了,或者因为没有分类可以选就在一些大项里凑合一下,将会造成文章索引困难,值得优化一下。

投稿收益

网站上有了内容,那就需要看看这些内容所能够带来的收益。与很多实时类的新闻不同点在于,人人是个比较专业又垂直的网站,里面的内容是会沉淀的,即使是几年前的文章也会被用户找出来进行查阅,而且有相当多的引导和内容聚合,可以将新用户直接导入到有价值的老文章上来。

所以需要注意,在接下来的文章收益里的几个数据:阅读、点赞、收藏和评论都是一个累积量,不能当做PV和UV来进行参考。

Q4. 各时期的文章对用户吸引力

有了之前对数据的说明和理解,这里将要计算的是各时间点下,不同分类的文章对阅读量的收益是如何分布的。对于网站来说,历史内容也是可以增加点击量的。而不时间的最终阅读量均值如下图所示:

download-3

  1. 2018年,除了招聘信息,所有类型的文章的阅读量都比之前低,有以下几种可能:

    • 有经验的产品经理越来越多,所以大家挑着看;
    • 产品经理的人数和热度在减少;
    • 产品经理的岗位也在也在减少;
    • 优质的内容不如之前的多,所以新用户会导入到老文章上来,新文章反而快速的沉没;
      具体是哪种,可能还需要直接从管理后台查看日活,月活比较说明问题。
  2. 对于平台来说,只要能吸引到用户和点击量就是好内容,从上图中显而易见的:干货下载原型设计这两个入门级的分类文章始终是最能吸引用户点击的,这种历史内容实际只能通过搜索来反馈,可以更突出一点;

  3. AI人工智能区块链这些新技术的阅读量都出现了大量的下滑,说明大家对这些新领域并不看好。而还有很多新的发展趋势却没有体现出来,有点可惜,这一点之前已经提过了。

Q5. 各时期的投稿质量如何

刚刚Q4的分析中,仅是从阅读量均值来查看。但有经验的同学肯定知道,很多标题党也可以直接收获不错的点击。所以接下来这里我们需要更严格一点,将阅读点赞收藏评论都放在一起进行考量。这里再具体看一下相关的统计数据:

屏幕快照 2018-09-13 下午5.44.47

数值上的差距还是相当大。所以这里我们为了统计和展示方便,做了以下数据处理:

  1. 将四项属性按低于25%的值评定为Low,高于75%的评定为High,其余为Mid进行分组。反过来说,如果一篇文章的某一项属性评定为High,意味着它的这一项属性是超过75%的文章的;
  2. 然后逐月计算将相应月份里,分别计算四个属性中为High的比例,比如2017年1月份投稿100篇,得出有20篇阅读量为High,10篇点赞量为High,那么只记录相应的高阅读高点赞比例分别为0.2和0.1。

结果如下图所示,其中四条线是取值为[0,1]之间的比例,为了不与下方的投稿量过于干扰进行了放大处理。下面的bars则是当月的投稿数量。需要解释一下的是因为高质量的文章并没有统一标准,所以这里并没有对数据进行合并,而采取的是人工观察和感性分析:

  1. 最左边的一条并不是数据出错了,而是早期站长批量导入。然后之前一直没提的就是整体投稿量一直呈现上升趋势;
  2. 高阅读量却没有相应的点赞和收藏,所以这里从2015年3月和4月取几个标题,大家感受一下:
    • 从汪涵救场看产品经理的危机处理
    • 滴滴拉屎App,估值100亿美金!
    • 快滴拉屎PK滴滴拉屎,拉屎App的爱恨情仇
    • 在网易实习是种什么体验?
  3. 2016年1~3月则是有大量读者需要的部分,大致逻辑为首页或者近期没有用户需要的,特别是新入门的产品经理,会比较急于想要找到自己想要的,所以会使用到搜索功能,然后小白的大量相似需求会推高相应的结果,而且为了之后的阅读查找,优先点击收藏;
  4. 2016年10月的投稿量不多,但似乎文章质量普遍很好,如果是取四个值的均值来看也是全期最高的;
  5. 之后新文章的数据会受到时间的影响,但整体文章质量趋于稳定,高阅读量的文章会带来高赞和收藏,而新读者从评论的角度上来说更活跃一些。

Q6. 作者带来的收益

根据之前的两条业务线的分析,1由作者与投稿,2投稿与收益之间还能建立一条分析,就是3.作者与收益。这里限于篇幅就只做一下整体的统计,来查看核心业务逻辑是否稳定。与之前图上的单位不同的是,下方的热力图的单位是万。

首先,可以看到,到现在2018年的时候,UGC内容带来的用户点击已经远远超过PGC内容,而且历年所有的UGC内容也已经超过PGC内容,这对内容生产的稳定发展有了基础;
其次,虽然此页面上的内容并不能直接代表网站流量,但根据2016~2018年的整体数据,可以给出以下两种解释:

  1. 2018年,相比于用户水平的普遍上升,文章质量是相对下降了。或者是大家想看的内容都已经在之前都写完了。但如果结合Q4表中的业务动态也下降了,这种每个人都可能看一看的情况来说,可能性不大;
  2. 2018年用户访问量下降。根据我自己一篇的投稿经验,文章发出去之后七天内阅读量的增长就会衰减至一个极小值。所以这里我假定得更严格一点,目前的新文章在发表30天之后就不会增长。 我之后的一些筛选和统计也是选择超过30天的文章来进行评判。这里可以初步得出如此解释。

总结

结论

结论1:最初假设的人人内容体系是存在且正常运行的,而且带流量的主体已经由平台运营方在向用户内容生产的方向转化;

结论2:如果只看今年的数据来说,文章的质量对比往年在下降,对读者的吸引力也在下降;

结论3:产品经理没有过去两年那么热门了,平台可能需要寻找一些新的业务和内容进行填充。

建议

文章编辑推荐:首先这是对投稿用户最直接的反馈和正面鼓励,其次被编辑推荐的文章可以让读者过滤掉大量标题党内容,提升内容品质。现在经常在首页翻了一圈并没有什么好内容,所谓的热门推荐,有些比较慢热,内容比较长容易扫一眼就直接关掉了,这个时候需要有编辑帮助引导一下;

用户投稿等级:可以看到用户的投稿数量和质量还是有很大的差距的,应该还是需要更复杂一点的体系和等级,而不仅仅只有一个title。另外成为专栏作者后,完成投稿目标是否有什么奖励呢?

文章可以打标签:就目前来看,这个文章分类是不够细致的,而且文章分类开得会比较不及时。比较好的流程是,作者在上传时可以自己选择多个文章标签,管理员再可以根据某一些标签快速的增长再将期转为分类。这样不仅对新趋势能够有所把握,而且之后建立索引也会更方便。

下篇预告

以上便是本次分析的上半场,那么在之后将会是读者篇和作者篇,请大家敬请期待。

如果有数据分析大神希望可以给一些指点和建议,非常感谢。