几个数据平台的“世界观”,你知道几个?
![](http://www.onekao.net/templets/default/images/content_ad.gif)
、神策、诸葛IO、、友盟、for是数据剖析领域广为人知的几家综合性平台,它们在用户行为研究与驱动业务下降等多个方面,都提供了丰富的剖析工具和技术支持,成为许多著名企业的数据平台首选。 #
另一个优点是,我们都将联通场景下的用户行为剖析作为重点之一,而非Web时代的行为剖析(这只是for上榜了,而没有选择360的缘由)。 #
在数据剖析领域,“巧妇难为无米之炊”这句俗语常被提起,拿来形容没有高品质的数据,就难以进列宽品质的剖析、得出高品质的推论。而这6家平台与单纯的数据可视化平台相比,其服务都覆盖了数据采集的部份,也就是从源头开始支撑整个数据剖析。
然而,这个系列就从一个不太常见又非常重要的视角发力——数据模型,也就是讲解一些著名的数据剖析平台到底搜集了这些数据,以及为何要搜集他们。我将这类内容称为:数据剖析平台的世界观。
至于数据剖析“出彩”部分,各家也都有自己的优缺——有侧重用户行为与画像的、有侧重广告与商业变现的、也有侧重营销工具的,各不相似。这么屁话不多说,加出来我们就来阐述这几个数据平台的“世界观”。 #
本文中介绍的所有内容,都来自于这几家平台的帮助文档整理,链接如下:
#
假如你对其他平台感兴趣,也欢迎在评论里告诉我,它会加入我的to-dolist。
一、这个世界是如何的for数据剖析平台
这是一个根本性的问题,直接决定了后续的所有内容。如同俺们美国古人,觉得世界的基本就是阴和阳而已。阴阳的组合与生化,形成了世界万物。对于数据剖析平台来说,也会有一些构成世界的基本元素。这种元素之间互相影响、相互作用,演变出了千变万化的数据剖析。
首先,要对、神策和诸葛IO这三位老师加粗标红地提出赞扬!!! #
是由于它们仨都很贴心地在文档中提供了一个称作“数据模型”的部份,极大的提高了爬API文档了解逻辑的时间。文档地址如下: #
另外三家就提供的比较含蓄了,不过多多少少还是能找到相关信息的——这6家平台都选用了“事件模型”来搜集数据。(部份数据是手动搜集的,没有非常明晰的数据模型,中间会具体列出。)
#
在这几家平台看来,这个世界就是一大堆纷繁复杂“事件”(Event)而已。用户是丑闻的施动者,而每位丑闻有自己的一些独有的信息。用一句话概括:有人搞了一些事情,我们来剖析一下吧。
#
这三层之间的关系,是这么定义的:
#
其中丑闻和用户,我们可以称之为两个“实体”()。它们之间的关系可以用E-R表示为:
二、事件(Event) #
对于风波模型,理解丑闻(Event)这个概念其实是最重要的。这么哪些叫一个丑闻呢? #
这些在数据剖析中耳熟能详的用户行为,都可以称作一个丑闻。例如,启动App、注册、登陆、浏览、转化(争创订单、完成支付、发布内容等)、留存、分享、订阅、收藏等等。
其实,这就存在一个问题了——不同的业务型态,会形成不同的用户行为。有的关注交易,有的关注UGC内容,有的则仅仅看用户的点点划划。这么对于这几家第三方平台来说,怎么给出一套模型能覆盖所有风波呢? #
虽然每家平台会把那些丑闻分为两类:这些早已确定的、不管何种业务类别就会还要的丑闻,当作了“预留丑闻”(每家的别称略有区别,例如:在指的就是“灵动剖析”部分的数据)。诸如:打开App、注册、登陆、浏览(PV/UV)等。也就是说,只要接入了这个平台(并将SDK进行了正确的初始化),就可以搜集到很多丑闻的数据,进行监控和剖析。
#
另一类,就是“自定义丑闻”(同样每家的别称略有区别)。这一类囊括的就是与不同的业务类别高度相关的这些丑闻了,例如:单纯的UGC内容平台,就没有订单和支付那些丑闻;而对于纯粹的电商平台,其关注的核心也不会是超大篇幅的内容产出。很多就应该作为自定义风波。 #
其中自定义风波是须要在搜集之前,先在平台上“注册”这些丑闻的,这只是为了便于对丑闻进行管理。 #
但不管是预留风波还是自定义风波,都保留了基本的丑闻数据结构,一个丑闻主要包含四部份信息,俗称风波的属性(E-R图中与丑闻连线的抛物线形): #
至此,我们可以简略的理解,何谓“事件”,然而可以就按表面意思理解,就是发生了一些事的概念。而后续在进行剖析的时侯,就得按照剖析的还要,再次整理风波的数据。 #
三、用户模型 #
用户模型是第二大概念,只是最爱剖析的第二大主题。上一段说到在数据搜集然后,进行剖析的时侯,还要再次对数据进行整理,面向用户的数据汇总就是主要模式之一。通过那样的汇总,我们得到的是用户画像、用户喜好等很多初步的推论,再进行深入剖析。
下边先厘清楚两类用户:访问用户与登入用户。
在用户模型中,用户分为两类:登入用户与访问用户。
#
何谓登入用户,就是早已注册并取得了注册账户的用户,例如:我们注册了QQ就有QQ号,注册了网店有网店帐户等等。对于那样的用户,正由于它们已然有了一个几乎不或许改变的账户,然后所有的行为和属性信息,还会尽或许地与这个不变的帐户关联上去。
这引出一个正题——账户机制的重要性。在互联网社交刚崛起的阶段,有这些平台旨在于做统一帐户。关键在于这个跨平台的帐户ID关联了用户的所有行为,这些方法对于渴求增加CAC、实现交叉引流的平台有巨大帮助。
#
但对于这些大平台,就是流量的“净输出”方,但是这些早期还要引流的平台,一定是把第三方账户关联到自己的帐户机制上,这就展现了同一帐号的信息中介作用。在大厂开始外推自己的帐户机制、信息渐渐开始“对称”起来的时侯,统一帐户就没有存在空间了。 #
说到用户注册和登陆,这就形成了另一个问题:当用户没有登录,并且还未注册,那如何办呢?
#
这个时侯,ta就是一位访问用户了。 #
这么访问用户又是谁呢?
问题就在这——我们不晓得TA是谁,TA没有登录,我们早已把握的历史数据却都是与注册帐号相关的。也就是说,这种数据都未能跟这个访问用户对应上。 #
在应用中主要是这两方面详细问题: #
历史数据关联问题,非常是与业务有关的数据(例如:订单),通常都是与注册帐号ID关联的,而这个访问用户的ID很不稳定,会经常变动。 #
访问用户ID的形成依赖于平台。也就是说,用户使用同一家的App,在没登陆的状况下,在iOS、和其他平台上上会被当成是两个人,这对于数据剖析其实是个灾难。
#
这就好似,我们用身分证买了一张机票,假如你不出具身分证,人家自然不会给你补办手续,即使用证件或则其他护照也不行。(惨痛的真实经历…) #
其实,在互联网的领域中从不会“坐以待毙”。对于那样的“无名氏”用户,许多平台早已开始支持记录和管理历史访问设备,也就是你用的相机、平板笔记本等设备有自己的ID(例如网卡的MAC地址)。若果某位访问用户使用同一部相机打开了App,我们也可以通过相机的设备号近似的关联到登陆用户头上。
这些从设备到人的映射关系,有些是在帐户机制中“强管理”的——关联设备人数有限制,但是还要明晰授权。例如:AppleID。还有“弱管理”的,也是在App中展示一下。更低效的做法,是把关联的工作放在数据剖析阶段,再花费大量估算资源做这个层次的关联。 #
至此,简略理解,登陆用户=认识,访问用户=不认识。
用户也会有自己的属性,这种是人们喜闻乐见,喜欢剖析的内容。对于一位用户,属性包括以下两种: #
基本固定不变的属性,典型是人口统计学属性,如性别、年龄段、地理位置等。
#
通过一定的业务含意加工下来的用户属性,典型是用户分群、用户标签属性。 #
四、分析
#
上面还剩一个“端”的实体,而且其自身的剖析价值更偏向技术层面,我们暂时忽视。
剖析这部份或许是每篇文章比较吸引人的地方,但显然,说完了后面几方面的内容,才可以开始将剖析。这个时侯,能剖析哪些、怎么剖析这类问题,才会落到详细的东西上。
#
我们回到上面的这张E-R图:
图中的实体(用方形表示)和实体关系(用连线表示)概括了我们要剖析的内容。这张图里有三个主体:端、用户和丑闻。这也就意味着,我们的剖析过程有三个发力点:产品(内容)自身、用户自身以及用户行为。 #
其实,我们最常剖析的,还是产品与用户关系,以及用户自身的行为这两个大主题。而这两个行为的数据,主要来始于“用户触发风波”这个过程。(下面这些就不是正统的E-R图了哈,能传达含意就行。)
1.统计剖析
统计剖析是最基本的剖析手法了。
要做的基本就是指定一些属性的值,于是对实体进行计数。诸如:我们要求用户的性别=女性,于是对满足要求的实体计数。再或则,我们要求风波类别=新增,于是统计风波实体的数目,算下来的就是明日的新增用户数DNU(蕴涵一个去重的过程)。
#
另一类统计剖析是剖析用户的行为路径,例如:用户从打开App,到最终支付成功,经历了如何的路径呢?
#
这就是通过关联风波实体,并对丑闻进行统计而得出的,例如右图这个关系: #
2.归因剖析
#
归因剖析还要给发生的事情找到病因,通常的最终目的是通过这些挖掘下来的因果关系,对未来进行预测。例如:假如我们发觉了女人用户更或许订购我们的产品,这么在资源有限的状况下,我们就必须注重向平台上的女人用户推广我们的产品。 #
另一类举例,就是关于丑闻和丑闻之间的,例如精典的“魔法数字”案例——1周内降低5个社交好友的用户更容易存留。
针对第一类案例,我们实际上是通过关联风波实体和用户实体来实现的: #
而对于第二类行为之间的归因剖析大数据分析产品,使用过行为之间的交叉来过滤用户,最终仍然是通过统计用户数目来得出推论的: #
假如你经手过大数据量,或许早已想起了,那样的丑闻统计估算量会特别特别大!在实操中,更多状况是将这些行为的数目当作用户的一种属性,这也就是上面提及的第二类用户属性。 #
更改以后的逻辑如右图:
#
但不管哪种剖析,就会面临一个问题——用户属性很不稳定,会改变的。诸如:用户的年纪段。在用户第一次加好友的时侯,其年纪段属性为“21-25岁”,真实年纪为25岁,正处在年纪段交替的时间点;当再度加好友的时侯,真实年纪早已弄成了26岁,其年纪段属性也逐渐弄成了“26-30岁”。 #
这就形成问题了:当用户完成了5次社交好友以后,这5次的社交好友必须归因到“21-25岁”呢?还是归因到“26-30岁”年龄段呢?
这会直接对我们的剖析推论形成影响。
#
类似的问题也出现在一些其他剖析上,例如:用户的浏览行为。当用户启动App以后,或许在所有内容之间穿梭许久,最终才决定订购或则其他转换。
#
这么,此次转换到底应柴胡属于这些页面或按键呢?
为了防止这些问题,有些平台(如:)在配置自定义丑闻时提供了显著的配置项(称为“埋点风波”的“归因形式”);还有的平台讲这件事的决定权还给了使用者,可以在代码或则风波定义的过程中给出;更有如for那样的平台,会提供一套专门的“归因模型”,来处理这类转换归因的问题。
#
关于归因的问题会单独整理一部份内容。这部份整理都会衍生出一些其它的探讨,例如:你的业务下降,真的应当归因给社群裂变吗?
——–[2022-11-21]——– #
经评论的朋友告诫,关于平台的归因,这儿补充一些具体信息: #
登陆用户的归因模型: #
【归因目的】随着用户行为的形成,用户自身的属性也会跟著改变(例如年纪、地域等),两个时间段是难以严苛对齐的,造成一个行为或许对应了多个属性值(随时间沿袭而形成),因此才须要用归因模型来约定,每位行为详细对应那个属性值。官方实例是用户从金卡升级为普卡,这么从今天看,用户在金卡阶段的交易必须归属金卡阶段还是普卡阶段呢?
【备选方案】两种方案:近期(只时间间隔最小,归金卡);最终(归普卡); #
【参考文档】#gui-yin-mo-xing
转换归因形式:
【归因目的】当用户实际转换以后,我们会溯源促使转换的缘由。在这个剖析过程中,用户或许历经了多个活动、多个按键和页面、反复搜索了多个商品等。应该怎么认定是那个事物促使了用户转换呢?所以这儿也有归因的逻辑。一个重要的差别在于,“转化”与单纯的“事件”不同,“转化”通常会对应价值的形成,例如用户支付。因此这些归因,不只是是确立关系,需要将这些形成的价值,根据一定的分配方法分给所有相关方。
【备选方案】最近(仍然是时间间隔最小的含意)、最终和线性(平均分)归因。同时,官方给出了三种备选方案的应用场景: #
【参考文档】#gui-yin-fang-shi
#
广告检测中的归因逻辑:
#
【归因目的】广告投放与利益绑定的更密切,但同样面临如前所说的“1对多”的窘境,并且同样须要有一定的规则来分配形成的价值。从平台提供归因方法判断大数据分析产品,更侧重于比较独立的纯粹广告,而不适用于与业务步骤或产品型态深度结合的类推荐步骤。若果是深度结合的步骤,可以想像LastClick会直接忽视在转换路径上的其他影响诱因,把转换归功于“立即支付”这样的按键。 #
【备选方案】LastClick(近期点击)规则+反作弊+15天时间窗 #
【参考文档】#4-gui-yin-luo-ji