- 标签类目体系:面向业务的数据资产设计方法论
- 任寅姿 季乐乐
- 8042字
- 2021-06-09 15:03:38
2.1 数据资产发展的4个阶段
标签类目体系是笔者从多年的数据资产构建经验中总结提炼出的一套方法论,因此要了解标签类目体系方法论的由来,必须先了解笔者实践参与的数据资产构建的诞生、生长、延伸等过程,这些过程具体可以分为4个阶段,如图2-1所示。
图2-1 数据资产构建的4个阶段
2.1.1 数据资产1.0:构建消费者信息库
1. 数据侧与业务侧的初次接触
作者在初入职场时加入了一家大型电商平台公司,恰逢公司将传统B2B业务的数据部门与新兴C2C业务的数据部门合二为一,统称为数据事业部,部门主管直接向CEO汇报,享有全集团数据的管理使用权限。
虽然数据事业部是由CEO背书的全集团数据管理中心,但是数据部门依然处于前文中提到的各种窘境之中。在成立初期单凭行政命令向其他部门伸手要数据,以建设全集团统一的数据池,是不可能成功的,因此数据部门要做的第一件事是把B2B和C2C两块核心业务的数据用起来。
电商平台公司自然重视消费者数据。每个数据产品经理都会先研读完《消费者心理学》和《消费者行为学》这两本书,再去找业务部门的业务人员、运营专员学习业务知识,调研业务需求。
在数据价值尚未探明时期,数据部门的姿态往往是很低的:数据人员到业务现场,在业务人员眼里有时纯属占用时间。这时数据人员就要用交朋友的心态或者以协助者的身份去接近、帮助业务人员,“偷学”业务知识。业务人员在工作辛苦之余,也偶尔会发出“哎,要是有人能提供××××数据就好了,我就可以早点下班了”或者“有××××信息,我们就能推测出消费者真实需求,去触动他”之类的感叹。这时候数据人员的“天线”就需要马上支起来快速运转,将业务诉求转化为数据解决方案,找到合适的时机就一遍遍讲解给业务人员听。
数据侧为业务侧打造的第一个数据解决方案一定要成功,必须在首次合作中为业务人员把数据项、数据加工逻辑、数据使用方式、数据赋能效果等全链路内容设计到位,保障业务人员低门槛地使用数据方案。得到业务的初步认可后,数据合作的第一步就完成了。
深入业务一线的数据产品经理们会持续将业务部门的数据需求回传给数据部门,数据部门根据这些数据需求就可以构建起数据资产的0.1版本。
2. 激发业务人员使用数据的兴趣
营销业内一般将个体的属性特征统称为“标签”。一开始,为业务人员设计的标签大多为原始类标签,即现有数据库表中的字段经过清洗登记后即可提供给业务人员使用。例如消费者注册会员时登记有基本信息项,如“性别”“年龄”“手机号”“所在城市”等标签,除此之外,交易类标签也可以通过从已有的消费者交易明细表中直接查找相关字段获得。
慢慢地,数据产品经理开始给业务人员设计一些更具有业务气息的统计类标签,例如“最常上网时间段”“购买周期”“最近一次搜索商品品类”“平均消费客单价”等标签,这些标签可以通过统计函数加工运算实现,而“品牌偏好”“消费力等级”等标签也可以通过简单的规则逻辑进行加工运算得到。
在业务人员逐渐熟悉标签,对标签的兴趣被大大激发之后,业务侧会主动提出一些算法类标签的要求,例如“预测性别”“预测年龄”“人生阶段”等需要通过大量行为预测的基本状况属性标签,或“RFM价值”“电商指数”“兴趣爱好”“购物习惯”等价值、爱好类标签,如图2-2所示。这些属性标签逐渐深入到人的核心本质层面,也更贴近业务端对消费者画像洞察的要求。数据侧提供的标签信息带动和激发了业务侧的数据场景想象力。
图2-2 兴趣爱好类标签取值示例
3. 实现数据资产商业价值闭环
在一边支持业务人员使用,一边收集整理标签的数据工作线之外,必须紧密围绕另一条标签使用价值的主线。只有价值线和数据线同频共振,互相迭代,企业的数据资产体系才能真正构建起来。
数据事业部选择和广告部门合作,将广告业务场景作为数据资产商业价值的重要试验田。广告业务在经过十几年的流量粗暴使用后,尝试探索精准营销模式。数据事业部派出了由几十人组成的精锐力量,在广告部门驻场超半年,全力配合广告端数据赋能。其中标签小组持续不断地与广告部门同事梳理已有可用标签,制定新标签的开发计划,保质保量完成标签生产上线,并以第一优先级的资源供给保障广告核心引擎使用数据资源的通畅性。
半年后,通过黑白盒测试、A/B测试、性能压测等一系列的测验要求,广告部门的精准营销产品Beta版上线,开放给试用意愿强烈的30家品牌商内测。在试用初期,数据能量就强烈地爆发了出来:后台回流数据表明,对数据敏感的品牌运营团队可以将ROI(投入产出比)提高到4,乃至8以上,而同时段普通通投广告的平均ROI一般在1.4~1.8。
试用期后,广告部门逐渐让更大的流量进入精准营销产品中,并向外部广告主品牌商陆续开放。数据价值在广告业务中得到了显著而直观的体现:精准营销模式下的广告流量收益是原有流量价值的数倍,消费者体验更好。精准营销的广告收入超出无差异广告投放的部分就可以简单视为数据资产的价值增益。
在当年的部门绩效考核中,数据事业部凭借对广告业务的数据支撑一项工作,就获得了高业绩评定。同时,在公司内部,陆续有其他部门主动关注和咨询标签。数据事业部花了1~2年时间,在支撑业务的同时逐步收集整理了100多个消费者标签集合,并通过标签资产门户的形式对外展示和宣传这一数据产品。这个版本的标签体系成果可以视为数据资产1.0版本。
2.1.2 数据资产2.0:ID-Mapping打通数据
1. PC向无线转型是ID打通的历史契机
2013~2014年是中国互联网时代从PC向无线的转型时期,很多大型集团树立了主营业务由传统PC端向手机端转型的战略目标,笔者所在的电商平台公司也不例外。对于这个生死重任,公司CEO要求全体员工从上到下严格执行,如果有人不认同或无法按规配合,可以立刻找HR办理离职手续。因此全公司从上到下迅速统一了认知,资源调动顺畅,目标拆解层层落地。
为了响应和配合集团战略,数据事业部设定了数据目标并制定了行动计划:在数据层面全力支撑集团“All In无线”的战略计划,优先保障无线新业务的数据供给和场景赋能。
工作初期,标签小组梳理了无线端的行为日志数据、联网设备数据和无线端交易记录。通过这些基础数据可以梳理出无线端设备信息、行为动作、偏好习惯等新增标签。但标签小组很快发现,由于无线业务刚起步,无线端行为数据处于原始积累阶段,且无线端访客并没有关联原有PC端用户账号的习惯,导致很多无线端用户没有标签取值,数据一片空白。此时,无线广告部门主动找上了数据部门。
广告业务中,对营销对象的识别非常重要。在PC端广告业务中,对每个访客都会用Cookie来进行临时标记,当该访客再次出现时,通过过去已经标识的Cookie就能找到该访客以往的营销记录和营销特征,进而实现广告重定向和营销数据回流计算。因此在传统广告业务中,很多标签特征是围绕Cookie这一ID进行关联和运算的。无线端兴起后,Cookie技术不再适用,在无线日志中能获取到的是无线设备码Device-ID,例如IMEI、IMSI、IDFA、MAC等。
无线广告部门面临着与数据事业部一样无处发力的困局:无线端用户的ID识别率不到30%,即无法识别大量无线端用户以往的行为数据,更不用提精准营销了。如果重复PC端积累数据的模式,则至少需要一年时间进行无线端数据积累。
2. 为无线广告部门提升ID识别率
基于以上分析可知,要快速实现无线端访客的精准识别和洞察,就需要完成PC端Cookie与无线端Device-ID之间的关联打通。通过无线设备ID,识别到该用户的PC账号ID,进而关联使用PC端丰富的标签信息。借助ID识别技术和PC端数据资产积累,可以实现无线端广告业务的快捷发展,无须再重复PC端经年累月的数据累积过程。
同时,只有完成了多渠道ID的识别打通,才能实现跨屏联动、多屏影响的广告策略。例如某消费者在PC端搜索并浏览了风衣外套,但始终没有发现合意的款式,在下班回家路上,他用手机看新闻的时候,广告栏适时推送了几款符合其心意的风衣外套。他点开广告链接,发现价格、评价等要素也满足诉求,于是很快完成了下单交易。这样,一次精准的跨屏营销过程就迅速完成了。
在明确目标、研讨可行性、制定方案并达成共识后,数据部门和广告部门再次成立联合项目组:由多名资深算法工程师、数据开发工程师、产品经理等组成的精锐研发力量。他们封闭式地讨论、研发出了一项能识别多个核心ID间关联关系的ID-Mapping技术。通过该项技术成果,对无线端用户的识别率可从30%提升到70%。
ID-Mapping技术在广告领域中的另一个里程碑意义在于:从此精准营销确立了从数据接入→客户识别→人群圈选→透视分析→定向投放→回流优化的完整闭环链路(见图2-3);同时这种营销链路具备了与外部数据资源对接、共享数据资源的能力;从数据层面论证了广告联盟生态的可行性,对广告生态系统产生了重要的推动作用和影响。
图2-3 精准营销的完整闭环
3. ID-Mapping技术实现各源数据打通
通过ID-Mapping技术,消费者标签库首先突破无线数据瓶颈问题,实现无线端与PC端数据的共享互补,并且支撑或创新了20多种无线业务场景。数据资产2.0版本形成了。可以说,无线新业务在诞生的那一刻就被注入了数据基因,数据服务支撑一直伴随着它的成长和自我更新。这是数据观注入、数据架构深度参与的最好模式,无线端业务部门在往后的多年中都是消费者标签库的重要合作伙伴。
随着数据战略部署的深入,集团也在逐步考虑数据板块上的战略投资和并购。通过消费者标签库对数据价值的不断验证以及ID-Mapping技术持续打通不同板块间的数据,数据合作和收购的进程不断加快。在往后数年,公司通过ID-Mapping技术实现了消费端、资讯端、社交端、支付端、广告营销端、娱乐端等多业务板块间的用户账号打通,如图2-4所示。在这一基础上,各端数据信息有效融合打通,促进了消费者线上线下,工作、生活、娱乐等各方面标签的完整设计,真正做到了对消费者全维度的“肖像”刻画。
图2-4 ID-Mapping技术打通各账号ID
2.1.3 数据资产3.0:全集团数据共享共荣
数据事业部从最初依赖于B2B和C2C的数据资源梳理起家,到绑定广告部门进行战略合作,同时回流营销端数据资源,已经搭上PC向无线转型的高速列车,并见招拆招,沉淀出ID-Mapping技术,向业务注入数据应用的基因。最终数据业务蔓延到各细分领域,生态板块业务方纷纷主动问询,向数据事业部寻求数据赋能。
经过几年的业务飞速发展,公司成为生态型集团企业,数据事业部也通过深耕积累,成为事实上的数据中心:数据生态联盟伙伴超过20家,涉及100多条业务线的数据服务;真正实现了全集团数据的统一汇聚和统一服务输出。同时,部门也开始重新审视自身定位,尝试采用一种全新的数据价值评估模式,以从成本中心的职能设定转型为利润中心。
其中有几个具有代表意义的事件,下面将其拆解出来详细剖析。
1. B2C业务板块的融入
B2C业务板块的数据源接入与数据服务输出是一个有重要意义的里程碑。B2B、C2C、B2C、广告四大业务板块是公司营收的四大重点,也是数据资源原始分布的四大核心。完成B2C业务板块的数据源接入与数据服务输出,数据事业部才真正统一了集团分散在各部门的核心数据资源,成为事实上的数据中心。此时,数据事业部开始制定数据资产使用的共享原则:加入数据联盟的生态伙伴在获得其他伙伴数据资源的同时,需要贡献其自身业务板块的数据资源,即“用给同频”的合作模式。
B2C业务板块中有非常多的行业频道,数据部门与行业频道的数据合作和对接都顺畅到超乎想象。例如与汽车频道对接的时候,对方主动提出要将业务不断收集的车主信息直接存储到数据中心,并要求数据中心保障数据服务的调用性能,双方各司其职:数据部门做好数据资源的统一管理和调用性能的稳定保障,而业务部门则可以专注于业务场景优化和打磨数据创新应用。
数据融合必须达到1+1>2的效果。正是由于深耕不辍、一点一滴地收集着数据资源,同时坚持不懈地为业务提供有价值、有保障的数据服务,数据团队才能把数据资产逐渐做大。随着消费者标签库的数据来源越来越多,数据体量越来越大,标签的完备率和准确率也随之提高。当“在数据中心之外,找不到比这更好更全的数据资产”这句话变成事实时,客户就会将自己的数据后背交给你。而你要做的事情越来越纯粹,就是一定要把数据资产做得更好!
2. O2O数据接入
对于数据中心的运营者来说,每个业务板块的数据都有其独特性和重要性,因为每个业务板块都可以折射出消费者身上某一段的光谱信息。只有将一个人的光谱带全部补充完毕,才算完成对他的完整刻画。因此在数据资产3.0阶段,我们一直致力于打造数据联盟生态圈。
各业务板块负责人在是否加入数据联盟的选择上持有不同的态度。中小板块的业务伙伴为了能使用已见成效的集团核心业务的数据资产,拿自己的“小”数据作为进场门票,换取“大”数据的共享权利,意愿强烈。而对大业务板块或新兴业务板块的伙伴来说,存在一方面想用数据中心的数据资产,另一方面不愿意割让自身数据的纠结心态。那么怎么样才能将这些纠结的心态转变为明确的合作结果?对于不同的场景对象可以采用不同的方法。
某次梳理数据生态地图时,标签小组发现缺少了当下最热门的O2O数据,因此主动找到O2O数据负责人,洽谈数据合作。但对方表现得比较冷淡:“O2O业务刚刚起步,当前部门内的数据已经足够使用。”面临这一僵局,我们选择的对策是:向O2O部门开放所有可用标签,让对方业务人员可以自由查看、使用消费者标签库中的标签资产,并安排数据产品经理向对方业务人员提供数据使用上的贴身服务。
当对方业务人员开始熟悉并逐渐使用标签,提出需要定制加工的标签需求时,就可以适时地向其业务部门提出数据共建的合作意向:将O2O数据资源注入,为业务部门加工所需的定制标签。在这次带有解决方案属性的数据合作倡议下,O2O业务部门内部进行了充分交流。最终业务人员给我们带来了好消息:O2O业务成为数据联盟生态中的新成员。
3. 金融数据合作
如果说与O2O业务合作的模式是一种“软”模式,那么在与金融业务合作的过程中,数据部门采用了一种“硬”模式。
与其他部门在数据使用上高举高打的风格不同,金融部门“安静”地使用着标签资产。等到双方进行数据合作洽谈时,金融业务对标签资产的调用量已经非常大。
初次沟通时,业务方表示金融数据高度敏感,无法分享给集团内其他部门使用,但是部分金融业务已经非常依赖由集团内其他部门数据所形成的消费者标签库,必须继续使用。
此时,数据部门采用了一种强硬的合作方式:金融部门如果不作为数据生态联盟伙伴提供脱敏的数据资源,就无法获得准入门票,数据即将对其断供。双方关于数据合作的谈判又进行了好几次,愈演愈烈,惊动了集团高层。最终金融部门与数据部门就数据共享签订了数据备忘录,奠定了今后合作的整体基调和安全规范:金融数据在安全脱敏后进入数据中心,数据资产保障金融业务平稳使用。现在看来,这是一场以数据价值为武器的逆袭。
4. 数据化运营
在数据资产不断服务各业务部门的同时,集团又加置了一枚重量级的砝码:各部门年终考核项中都需要考核其数据化运营程度,最基本的判断方式为接入使用标签资产库的程度。
从此数据联盟生态形成了稳定的自主循环:各业务数据系统都插有数据回流的接口,数据源按周期调度并与数据中心同步,实现数据资源更新和数据资产的自动化加工,按需配置的数据服务被各业务系统平稳有序地调用和运行。各业务部门不再费心维护数据,养成了遇到业务难题找数据办法解决的思维习惯。由于各端数据源源不断地汇入,全集团数据的共享共荣时代真正到来了。
数据资产建设在联盟生态阶段发展到3.0版本:消费者标签体系已经基本储备完整(见图2-5)。
图2-5 消费者标签库所包含的主要属性维度
5. 职能定位的变化
数据事业部多年以来一直在探索数据价值的衡量与“变现”,尝试将数据应用的价值采用记账的方式在一定的账单周期内进行结算和划拨。
由于和广告部门合作密切,数据事业部首先在精准营销中探讨数据价值的计量方法:采用多日多轮A/B测试的方式测验在相同流量相同广告内容下,使用数据的精准营销与不使用数据的通投广告的广告收益差别。经过大规模校验测试并扣除成本后得出使用数据的精准广告比通投广告收益增加的系数X,将其作为数据部分的价值衡量。此后所有的精准营销广告收益乘以X系数后的收益部分就可以作为广告部门向数据中心采购数据服务的“费用”。
与广告部门实现数据价值核算说明了数据“变现”的可行性。之后数据事业部一对一地与其他业务部门就数据价值的衡量方法或可承受的数据服务费用进行了持续讨论和确认。在每个结算周期,由财务部门牵头,各业务部门计算自身业务产值的同时,按约将一部分收益“划拨”到数据事业部的结算清单中。扣除设备运行费用、人员薪酬支出、部门管理成本等费用后,可以测算得到数据产值与利润。数据部门终于摆脱了说不清道不明的尴尬位置,从成本中心转型为利润中心。
2.1.4 数据资产4.0:更广泛领域的数据实践
在对全集团数据进行完整汇聚,开放给企业内各业务条线使用后,数据工作者们又给自己设定了新的目标:将这种数据使用的能力、经验带给外部企业,特别是传统企业,他们更需要数据的唤醒与赋能。
数据人员按工作室划分组织,就像一个个小型作战单元。每个工作室人不多,一个产品经理、一个数据开发、一个应用开发就组成了一个创始团队。
这段经历将笔者原有局限于电商生态的视角一下子打开,扩展到更广泛的领域—制造业、地产业、金融业、医疗业等传统纵深板块。笔者白天不断学习各行业领域知识,深夜就将行业知识映射到数据世界进行重组。在这一阶段,数据资产体系逐渐从对现象的归纳转变为对方法思路的思考,主要在以下两方面产生了重要的发散扩展,如图2-6所示。
1. 对象扩展
在原有的电商环境中,很容易将视角局限在消费者身上;当视野放在更广泛的社会领域时,才会发现有太多的事物都需要标签化:商品需要有商品标签库,楼盘需要有楼盘标签库,员工需要有员工标签库,乃至于生产、运营、导购等过程都会有流程记录和相应的属性标记。
图2-6 两个重要扩展方面
因此数据资产的构建内容从消费者扩展到了某行业或某企业下所有核心对象的标签梳理。例如在保险行业内,不是所有的业务都围绕客户(保险人),也有专门的保险产品设计部门,该部门需要查询、分析、研究的工作都是围绕保险产品展开的,因此需要专门构建“保险产品”标签库。而财务审计部门关心的是交易流水记录,需要能根据任意条件查询或按一定条件规则生成统计报表,因此也需要对“购买”构建标签库。
在对保险行业进行全面的业务梳理后发现,至少需要构建“保险人”“代理人”“保险产品”“保单”“购买”“回访”“理赔”“保全”8个对象的标签库,如图2-7所示。只有将各种对象进行标签梳理后,才能灵活地对各类对象进行数据分析和智能应用。
图2-7 保险行业所涉及的对象
2. 标签场景化
跳脱出单一行业或单一领域,才会发现原来对人的刻画过于片面。也许一个在电商场景中消费力很高的人在实际生活中消费力反而很低,因为他看中电商场景价廉物美的消费优势,所以偏好电商购物。可见通过电商数据预测出的“消费力”标签不能直接平移到现实生活或线下购物场景。因此不能用单一领域数据推测其某一通用维度的标签取值,而需要将标签按照场景拆细,尽量客观地反映场景情况。
在实际生活中,不少人会有非常多个形象/角色,以满足其在不同场合下的心理所需。例如一个生理性别为【男】的人在电商场景中采购一些男性生活用品,因此其购物性别为【男】;但是其在社交游戏中又以女性身份自居或自我设定,因此其社交性别为【女】。我们需要将“性别”这个标签拆分出“生理性别”“购物性别”“社交性别”等细分标签,以实现对复杂个体的精准刻画。
连“性别”“年龄”这种静态属性都有不同的细分属性,就更不用说兴趣、能力、价值等综合类标签在不同场景中的差异性了。人是一种很复杂的动物,在不同的环境中,人的心境、喜好、自我认定都会主动或被动地发生改变,每个人都是复杂特性的集合体。在一个特征维度上,同一个人会有相互矛盾的取值表征,这种情况并不少见。
不管是偏理性的科研工作者还是偏感性的人文工作者,都强调尊重事实,不要将人简单地视为纸片人。标签设计工作也一样,应该仔细推敲,增加标签的场景、时空维度,使标签能真实还原出任意场景中的立体对象,或该对象身上任意切片的全光谱信息。
通过更广泛领域中的数据实践,数据资产版本更新到了4.0,在这一版本中,对象概念有了初步的提炼和扩展,并且在标签的颗粒度处理上有了思维认知的提升。