不知道说些什么

前言

这是我对上一份工作的一个记录,不一定能提供到一些有效的增量信息,请随缘观看。

注意:从实习到离职的完整时间仅有一年半,对整个行业的了解还是偏片面的,所以下面的描述在客观事实上不一定是完全准确的,仅保证主观上没有刻意误导,有误导的地方也写出来了。

背景介绍

前司是一家在广州市的一家科技相关的公司,我在里面的 title 是数据分析师,我所在的部门可以简单的分为两个组,一个是 DPI,一个是 DMP,我在 DPI,都是与运营商数据有关的。

先说背景,前司和某运营商有合作,可以从那边合法的拿到基站、家庭带宽的上网行为日志等数据

上网行为日志:可以简单的理解为手机等设备请求了什么网站,访问了什么图片、视频的一个记录,从 开始 DNS 解析到建立 TCP 连接 到响应 HTTP 请求到断开连接。

对我们来说,有用的其实只有 HTTP 请求的数据,别的数据没多大意义,或者说用处不大。

HTTP 协议的请求,可以获取到域名 (Host) 和 Uri、User Agent。

HTTPS 协议的请求,只能通过别的方式推算出 Host(不一定准确)

HTTPS 确实是会比 HTTP 安全,下图这个例子不太准确,但是用来理解倒是挺方便的。

那会做的事情就是先进行测试(抓包),然后总结出口径,提单拿数据回来。如果发现数据/口径不对,那就得重来。

  1. 举一个简单例子,比如想知道拼多多的日活,我们对拼多多这个 app 进行测试(抓包),测试出 *.pinduoduo.com、*.yangkeduo.com 这样的 host 是拼多多的,访问了这些 host 就是访问了拼多多。那么从某运营商那边可以拿到访问了符合这些特征的数据(数据包括但不限于 uv、pv、用户画像、用户年龄层次、设备型号、性别)。

上面这种是针对于整个应用的,可以获取到某一个或者某一类app的数据,或者用某一个或者某一类app的用户的数据(网购用户、手游用户、传奇类游戏用户、看车的用户),找到买房意向、买车意向、氪金意向的用户。

  1. 某些情况下 (http),我们能够做到监测用户在应用里面的某种行为,比如说付费、点赞、评论、搜索之类的。
  2. 我们还可以拿到栅格人流的数据 (基站),就是说某一个小区/广场/园区的数据。先画个格子,然后拿相关的数据。

下面是关于前司 DPI、DMP 的描述。

DPI

DPI (Deep Packet Inspection), 是一种基于数据包的深度检测技术,针对不同的网络应用层载荷(例如 HTTP、DNS 等)进行深度检测。

举个例子,假如微信这个应用使用的域名是:wx.qq.com,且只有微信在用,那么就可以统计出微信的日活跃用户数、月活跃用户数。 如果加上位置、时间等数据,那就可以统计出什么时候、什么地方用微信的人有多少。

这就是运营商数据,所谓的上帝视角能做的事情,但我仍认为这个上帝有点残废。

难点

  1. 以字节系的应用举例,只凭借一个 host 很难区分哪些是抖音的流量包,哪些是抖音火山版的流量包,哪些是今日头条、西瓜视频的流量包。
  2. 一些应用/小程序,本身使用的就是 SDK/现成的服务,没有自己的域名、服务器,无法检测。
  3. http 转 https 的趋势是大势。而 https 的话,DPI 玩不来,而且很难玩出新花样。
  4. 数据的可信度,对结果的解释。

案例

总体来说,不外乎是想知道自身的数据,想知道竞对的数据,想知道行业/行业 Top 几的数据,数据采购。

  1. 大公司事业部/部门之间的数据不互通,要起来麻烦,于是找第三方。
  2. 某应用想知道某某应用上全部功能菜单的打开率;
  3. 某研究院想知道整个行业 Top5 的应用关于某一个类别的观看、跳转数据;某投资机构想知道新能源车对应的 App 的数据。
  4. 某数据公司采购运营商数据做补充。

以上的案例,人工添加了一些误导性的描述,但总体意思是对的。

尝试过的方向

  1. 小程序榜单,对标阿拉丁,结果是阿拉丁热度下降。
  2. 直播数据平台,对标胖球数据、飞瓜数据等,结果是胖球数据团队被抓进去了(21年9月份的事情)。
  3. 物联网设备的统计/榜单,没有下文。
  4. 长视频的统计/榜单,没有下文。
  5. 广告平台的监测,没有下文。

DMP

DMP (Data Management Platform),数据管理平台,用于收集分析大数据,并将其连接到营销手段的平台。

根据某些方式 / 算法来打标签、画用户画像,从而划分人群(孕妇/宝妈/氪金大佬),然后对合适的用户进行营销(发短信/推送广告)

个人认为,这算是大数据营销,不算是精准营销。好的营销是把合适的商品/信息在合适的时间推给了合适的用户。

案例:某传奇类应用的短信推广;教培的短信推广。

难点:谁还看短信啊;政策风险。

数据源

除了运营商数据之外,还有爬虫数据、卫星数据、GPS数据、电力数据、SDK数据、手机厂商数据、内部数据、路由器数据、信用卡数据、邮件数据等数据,具体请看下图。

数据源

这里补充描述一下 SDK 数据的细节

SDK 数据:主要是为开发者/企业提供现成的服务,类似数据统计、数据分析、消息推送等。

在安卓手机上能看见某些应用疯狂的拉起/唤醒别的应用,主观上可能不是开发者/企业想这么做的,而是使用到的 SDK 为了某些目的做的。

相关补充

思维导图:

播客:

国内的另类数据行业,(节目的 host 在国外,懂的都懂)

对话行业资深从业者:金融另类数据究竟为何另类

文章:

如何通过“先行数据”辅助投资决策

大数据及相关技术在投资研究中的应用——另类数据的发展

网站:

https://alternativedata.org/alternative-data/

图片:

alternativedata.org 整理的Alternative Data Stack

Alternative Data Stack

书:

The Book of Alternative Data