环球网校课程

建筑工程
财会考试
外语考试
- 职称英语
- 四六级
- 商务英语
- 公共英语
- 口译笔译
- 专四专八
- 托福
- 雅思
- GRE
- 英语三级
- 金融英语
学历考试
- 高考
- 成考
- 自考
- 考研
- 中小学
- 国家公务员
职业资格
医药考试
- 执业药师
- 医师实践技能
- 护师
- 主治医师
- 临床
- 中医
- 中西医
- 口腔
- 公卫

您现在的位置在： > 财会考试 > 注册会计师 > 考试动态 >

几个数据平台的“世界观”，你知道几个？

2023-03-09 来源：网络作者：佚名

、神策、诸葛IO、、友盟、for是数据剖析领域广为人知的几家综合性平台，它们在用户行为研究与驱动业务下降等多个方面，都提供了丰富的剖析工具和技术支持，成为许多著名企业的数据平台首选。 #

另一个优点是，我们都将联通场景下的用户行为剖析作为重点之一，而非Web时代的行为剖析（这只是for上榜了，而没有选择360的缘由）。 #

在数据剖析领域，“巧妇难为无米之炊”这句俗语常被提起，拿来形容没有高品质的数据，就难以进列宽品质的剖析、得出高品质的推论。而这6家平台与单纯的数据可视化平台相比，其服务都覆盖了数据采集的部份，也就是从源头开始支撑整个数据剖析。

然而，这个系列就从一个不太常见又非常重要的视角发力——数据模型，也就是讲解一些著名的数据剖析平台到底搜集了这些数据，以及为何要搜集他们。我将这类内容称为：数据剖析平台的世界观。

至于数据剖析“出彩”部分，各家也都有自己的优缺——有侧重用户行为与画像的、有侧重广告与商业变现的、也有侧重营销工具的，各不相似。这么屁话不多说，加出来我们就来阐述这几个数据平台的“世界观”。 #

本文中介绍的所有内容，都来自于这几家平台的帮助文档整理，链接如下：

假如你对其他平台感兴趣，也欢迎在评论里告诉我，它会加入我的to-dolist。

一、这个世界是如何的for数据剖析平台

这是一个根本性的问题，直接决定了后续的所有内容。如同俺们美国古人，觉得世界的基本就是阴和阳而已。阴阳的组合与生化，形成了世界万物。对于数据剖析平台来说，也会有一些构成世界的基本元素。这种元素之间互相影响、相互作用，演变出了千变万化的数据剖析。

首先，要对、神策和诸葛IO这三位老师加粗标红地提出赞扬！！！ #

是由于它们仨都很贴心地在文档中提供了一个称作“数据模型”的部份，极大的提高了爬API文档了解逻辑的时间。文档地址如下： #

另外三家就提供的比较含蓄了，不过多多少少还是能找到相关信息的——这6家平台都选用了“事件模型”来搜集数据。（部份数据是手动搜集的，没有非常明晰的数据模型，中间会具体列出。）

在这几家平台看来，这个世界就是一大堆纷繁复杂“事件”（Event）而已。用户是丑闻的施动者，而每位丑闻有自己的一些独有的信息。用一句话概括：有人搞了一些事情，我们来剖析一下吧。

这三层之间的关系，是这么定义的：

其中丑闻和用户，我们可以称之为两个“实体”（）。它们之间的关系可以用E-R表示为：

二、事件（Event） #

对于风波模型，理解丑闻（Event）这个概念其实是最重要的。这么哪些叫一个丑闻呢？ #

这些在数据剖析中耳熟能详的用户行为，都可以称作一个丑闻。例如，启动App、注册、登陆、浏览、转化（争创订单、完成支付、发布内容等）、留存、分享、订阅、收藏等等。

其实，这就存在一个问题了——不同的业务型态，会形成不同的用户行为。有的关注交易，有的关注UGC内容，有的则仅仅看用户的点点划划。这么对于这几家第三方平台来说，怎么给出一套模型能覆盖所有风波呢？ #

虽然每家平台会把那些丑闻分为两类：这些早已确定的、不管何种业务类别就会还要的丑闻，当作了“预留丑闻”（每家的别称略有区别，例如：在指的就是“灵动剖析”部分的数据）。诸如：打开App、注册、登陆、浏览（PV/UV）等。也就是说，只要接入了这个平台（并将SDK进行了正确的初始化），就可以搜集到很多丑闻的数据，进行监控和剖析。

另一类，就是“自定义丑闻”（同样每家的别称略有区别）。这一类囊括的就是与不同的业务类别高度相关的这些丑闻了，例如：单纯的UGC内容平台，就没有订单和支付那些丑闻；而对于纯粹的电商平台，其关注的核心也不会是超大篇幅的内容产出。很多就应该作为自定义风波。 #

其中自定义风波是须要在搜集之前，先在平台上“注册”这些丑闻的，这只是为了便于对丑闻进行管理。 #

但不管是预留风波还是自定义风波，都保留了基本的丑闻数据结构，一个丑闻主要包含四部份信息，俗称风波的属性（E-R图中与丑闻连线的抛物线形）： #

至此，我们可以简略的理解，何谓“事件”，然而可以就按表面意思理解，就是发生了一些事的概念。而后续在进行剖析的时侯，就得按照剖析的还要，再次整理风波的数据。 #

三、用户模型 #

用户模型是第二大概念，只是最爱剖析的第二大主题。上一段说到在数据搜集然后，进行剖析的时侯，还要再次对数据进行整理，面向用户的数据汇总就是主要模式之一。通过那样的汇总，我们得到的是用户画像、用户喜好等很多初步的推论，再进行深入剖析。

下边先厘清楚两类用户：访问用户与登入用户。

在用户模型中，用户分为两类：登入用户与访问用户。

何谓登入用户，就是早已注册并取得了注册账户的用户，例如：我们注册了QQ就有QQ号，注册了网店有网店帐户等等。对于那样的用户，正由于它们已然有了一个几乎不或许改变的账户，然后所有的行为和属性信息，还会尽或许地与这个不变的帐户关联上去。

这引出一个正题——账户机制的重要性。在互联网社交刚崛起的阶段，有这些平台旨在于做统一帐户。关键在于这个跨平台的帐户ID关联了用户的所有行为，这些方法对于渴求增加CAC、实现交叉引流的平台有巨大帮助。

但对于这些大平台，就是流量的“净输出”方，但是这些早期还要引流的平台，一定是把第三方账户关联到自己的帐户机制上，这就展现了同一帐号的信息中介作用。在大厂开始外推自己的帐户机制、信息渐渐开始“对称”起来的时侯，统一帐户就没有存在空间了。 #

说到用户注册和登陆，这就形成了另一个问题：当用户没有登录，并且还未注册，那如何办呢？

这个时侯，ta就是一位访问用户了。 #

这么访问用户又是谁呢？

问题就在这——我们不晓得TA是谁，TA没有登录，我们早已把握的历史数据却都是与注册帐号相关的。也就是说，这种数据都未能跟这个访问用户对应上。 #

在应用中主要是这两方面详细问题： #

历史数据关联问题，非常是与业务有关的数据（例如：订单），通常都是与注册帐号ID关联的，而这个访问用户的ID很不稳定，会经常变动。 #

访问用户ID的形成依赖于平台。也就是说，用户使用同一家的App，在没登陆的状况下，在iOS、和其他平台上上会被当成是两个人，这对于数据剖析其实是个灾难。

这就好似，我们用身分证买了一张机票，假如你不出具身分证，人家自然不会给你补办手续，即使用证件或则其他护照也不行。（惨痛的真实经历…） #

其实，在互联网的领域中从不会“坐以待毙”。对于那样的“无名氏”用户，许多平台早已开始支持记录和管理历史访问设备，也就是你用的相机、平板笔记本等设备有自己的ID（例如网卡的MAC地址）。若果某位访问用户使用同一部相机打开了App，我们也可以通过相机的设备号近似的关联到登陆用户头上。

这些从设备到人的映射关系，有些是在帐户机制中“强管理”的——关联设备人数有限制，但是还要明晰授权。例如：AppleID。还有“弱管理”的，也是在App中展示一下。更低效的做法，是把关联的工作放在数据剖析阶段，再花费大量估算资源做这个层次的关联。 #

至此，简略理解，登陆用户=认识，访问用户=不认识。

用户也会有自己的属性，这种是人们喜闻乐见，喜欢剖析的内容。对于一位用户，属性包括以下两种： #

基本固定不变的属性，典型是人口统计学属性，如性别、年龄段、地理位置等。

通过一定的业务含意加工下来的用户属性，典型是用户分群、用户标签属性。 #

四、分析

上面还剩一个“端”的实体，而且其自身的剖析价值更偏向技术层面，我们暂时忽视。

剖析这部份或许是每篇文章比较吸引人的地方，但显然，说完了后面几方面的内容，才可以开始将剖析。这个时侯，能剖析哪些、怎么剖析这类问题，才会落到详细的东西上。

我们回到上面的这张E-R图：

图中的实体（用方形表示）和实体关系（用连线表示）概括了我们要剖析的内容。这张图里有三个主体：端、用户和丑闻。这也就意味着，我们的剖析过程有三个发力点：产品（内容）自身、用户自身以及用户行为。 #

其实，我们最常剖析的，还是产品与用户关系，以及用户自身的行为这两个大主题。而这两个行为的数据，主要来始于“用户触发风波”这个过程。（下面这些就不是正统的E-R图了哈，能传达含意就行。）

1.统计剖析

统计剖析是最基本的剖析手法了。

要做的基本就是指定一些属性的值，于是对实体进行计数。诸如：我们要求用户的性别=女性，于是对满足要求的实体计数。再或则，我们要求风波类别=新增，于是统计风波实体的数目，算下来的就是明日的新增用户数DNU（蕴涵一个去重的过程）。

另一类统计剖析是剖析用户的行为路径，例如：用户从打开App，到最终支付成功，经历了如何的路径呢？

这就是通过关联风波实体，并对丑闻进行统计而得出的，例如右图这个关系： #

2.归因剖析

归因剖析还要给发生的事情找到病因，通常的最终目的是通过这些挖掘下来的因果关系，对未来进行预测。例如：假如我们发觉了女人用户更或许订购我们的产品，这么在资源有限的状况下，我们就必须注重向平台上的女人用户推广我们的产品。 #

另一类举例，就是关于丑闻和丑闻之间的，例如精典的“魔法数字”案例——1周内降低5个社交好友的用户更容易存留。

针对第一类案例，我们实际上是通过关联风波实体和用户实体来实现的： #

而对于第二类行为之间的归因剖析大数据分析产品，使用过行为之间的交叉来过滤用户，最终仍然是通过统计用户数目来得出推论的： #

假如你经手过大数据量，或许早已想起了，那样的丑闻统计估算量会特别特别大！在实操中，更多状况是将这些行为的数目当作用户的一种属性，这也就是上面提及的第二类用户属性。 #

更改以后的逻辑如右图：

但不管哪种剖析，就会面临一个问题——用户属性很不稳定，会改变的。诸如：用户的年纪段。在用户第一次加好友的时侯，其年纪段属性为“21-25岁”，真实年纪为25岁，正处在年纪段交替的时间点；当再度加好友的时侯，真实年纪早已弄成了26岁，其年纪段属性也逐渐弄成了“26-30岁”。 #

这就形成问题了：当用户完成了5次社交好友以后，这5次的社交好友必须归因到“21-25岁”呢？还是归因到“26-30岁”年龄段呢？

这会直接对我们的剖析推论形成影响。

类似的问题也出现在一些其他剖析上，例如：用户的浏览行为。当用户启动App以后，或许在所有内容之间穿梭许久，最终才决定订购或则其他转换。

这么，此次转换到底应柴胡属于这些页面或按键呢？

为了防止这些问题，有些平台（如：）在配置自定义丑闻时提供了显著的配置项（称为“埋点风波”的“归因形式”）；还有的平台讲这件事的决定权还给了使用者，可以在代码或则风波定义的过程中给出；更有如for那样的平台，会提供一套专门的“归因模型”，来处理这类转换归因的问题。

关于归因的问题会单独整理一部份内容。这部份整理都会衍生出一些其它的探讨，例如：你的业务下降，真的应当归因给社群裂变吗？

——–[2022-11-21]——– #

经评论的朋友告诫，关于平台的归因，这儿补充一些具体信息： #

登陆用户的归因模型： #

【归因目的】随着用户行为的形成，用户自身的属性也会跟著改变（例如年纪、地域等），两个时间段是难以严苛对齐的，造成一个行为或许对应了多个属性值（随时间沿袭而形成），因此才须要用归因模型来约定，每位行为详细对应那个属性值。官方实例是用户从金卡升级为普卡，这么从今天看，用户在金卡阶段的交易必须归属金卡阶段还是普卡阶段呢？

【备选方案】两种方案：近期（只时间间隔最小，归金卡）；最终（归普卡）； #

【参考文档】#gui-yin-mo-xing

转换归因形式：

【归因目的】当用户实际转换以后，我们会溯源促使转换的缘由。在这个剖析过程中，用户或许历经了多个活动、多个按键和页面、反复搜索了多个商品等。应该怎么认定是那个事物促使了用户转换呢？所以这儿也有归因的逻辑。一个重要的差别在于，“转化”与单纯的“事件”不同，“转化”通常会对应价值的形成，例如用户支付。因此这些归因，不只是是确立关系，需要将这些形成的价值，根据一定的分配方法分给所有相关方。

【备选方案】最近（仍然是时间间隔最小的含意）、最终和线性（平均分）归因。同时，官方给出了三种备选方案的应用场景： #

【参考文档】#gui-yin-fang-shi

广告检测中的归因逻辑：

【归因目的】广告投放与利益绑定的更密切，但同样面临如前所说的“1对多”的窘境，并且同样须要有一定的规则来分配形成的价值。从平台提供归因方法判断大数据分析产品，更侧重于比较独立的纯粹广告，而不适用于与业务步骤或产品型态深度结合的类推荐步骤。若果是深度结合的步骤，可以想像LastClick会直接忽视在转换路径上的其他影响诱因，把转换归功于“立即支付”这样的按键。 #

【备选方案】LastClick（近期点击）规则+反作弊+15天时间窗 #

【参考文档】#4-gui-yin-luo-ji

责编：admin 返回顶部打印