- 数据应用工程:方法论与实践
- 钟大伟 高铎 王鹏 宋超
- 13378字
- 2022-06-28 16:17:36
1.3 数字化变革中的不确定性与挑战
在风起云涌的数字化大潮中,组织面对从外部环境到内部发展的多重不确定性和挑战,在组织的各级决策中迫切需要理论与方法的借鉴与指引。
科技的突破不时会产生破坏性创新,数字平台对数据的垄断性将会阻碍企业建立自己的一方营销数据资产,无法实现产销数据的全域打通,全球隐私与数据保护立法加快,监管加强,这些因素都使得企业需要不断调整自己的数据治理策略。同时数据权属在国内外立法上仍未达成共识,存在很大的不确定性,数据的资产化与流通存在障碍。
企业数字化升级常常遇到以下问题:不知如何开展数字化工作,如何找准数据应用的切入方向;投入很大但效果不佳;缺少数据;数据不可存、不可见、不可流、不可用、不合规等。企业需要在数据应用(产品)、数据治理、数据工程与技术方面提高自身的能力。
1.3.1 环境不确定性
当前的科技、经济、社会、国际环境中具有很多不确定性的因素。科技大量革新,但变革速度不易预测和把握。数据经济领域内的竞争很不平衡,平台经济的数据“围墙花园”会阻碍企业一方营销数据资产的建立。近年来,国内外都加快了数据相关立法和政策监管,企业需要持续跟踪法规的变化,及时调整企业数据治理措施,避免合规风险。各国都鼓励数字经济,鼓励数据的流动和数据市场建立,但数据的流通存在很多不易清除的障碍。
1. 科技变革与应用创新
当前数据智能科技仍然在大数据、云计算、5G应用、人工智能等方面日新月异地快速创新发展。由于科技变革既具有渐近性又具有不连续性,且这种不连续的发生不易准确预测,给企业带来很多的不确定和挑战。企业需要有应对科技革新的系统化方法和能力,包括基础技术创新、新技术采用、应用创新尝试、供应商选择的投入决策,即使对某个基础组件版本的选择也需要系统的分析与慎重的决定。
1)当前大数据的先进开源框架仍然层出不穷,在文件系统、容器化技术、缓存技术、分布式数据库、资源调度、协调框架、流式数据处理框架、分析系统、消息中间件、可视化、数据治理等方面不断迭代,在处理效率、实时性、分析性能、功能丰富、云兼容、跨机房、异构部署、集群规模、硬件加速、稳定性、易开发性、易运维性、安全性等方面不断增强。
2)前十年云计算从0发展到千亿元,接下来将迎接云计算发展的下一个黄金十年。这几年云计算保持着高速的年复合增长率,也在不断扩展行业解决方案,逐渐深入产业,与产业进行融合。云计算在资源管理精细度、安全自动化水平、数据迁移效率、云边协同架构、云原生产品、云原生安全、SaaS产品丰富方面快速发展,云计算领域的分工也开始细化。
3)当前人工智能在自动学习、AI芯片、AI计算框架、人机交互、语义分析、自然语言处理、联邦学习、边缘学习、安全多方计算、零知识证明等方面不断地研究推进,也在算法效率、可解释性方面有所提升。
2020年是5G的商用元年,在智慧城市、智慧生活、智慧工厂、智慧矿山、智慧港口、智慧医疗、智能电网、智能交通、智慧安防等领域,结合5G的智能应用正在大量开展,获得很多可喜的成果,也带来一些挑战。
科技的快速发展给企业带来数字升级的机遇与挑战,使得企业需要有效地评估技术的进步,持续关注关键技术的突破与应用的创新发展,判断对自身业务的影响与机会。
2. 数字平台经济与数据的“围墙花园”
进入21世纪以来,技术创新和经济领域最令人振奋的消息就是数字平台经济的强势崛起,数字平台市场具有赢家通吃的特性,具有一定的“垄断”特征,一个赛道中第一名会占有绝大部分市场份额,排在后面的竞争者的市场份额之和也可能仅是第一名的一个零头。这一特性的形成,部分是由于数字双边市场的统一性和马太效应,更是由于数字平台企业天然的巨量数据获取和垄断特征。
这些企业普遍都建立了自己的数据“围墙花园”,利用独有的高价值数据资源建立起强大的竞争优势。典型的例子如,谷歌通过其全球最大搜索引擎的绝对优势地位,获取巨量的用户兴趣数据,并利用这些数据挖掘出优秀的广告效果,建立了广告网络的垄断地位,进而进一步增强了它的数据“围墙花园”效应,控制在线广告供应链的各个环节。当前,全球数字广告的绝大部分份额都被几个领先的数字平台企业建立的广告网络垄断了,独立的广告平台的市场占有量很少。据报道,2019年、2020年仅谷歌、Facebook和亚马逊三家在美国的数字广告市场中就占据三分之二左右。另据媒体计算,在2018年的全球在线广告市场中,投入在谷歌和Facebook之外的广告支出下降7.2%。
随着隐私合规监管的增强与数据安全要求的提高,当前各大数字平台进一步加强了数据的“花园围墙”,但更为根本的原因是增长红利的逐渐减弱、竞争的加剧,具有平台优势的企业已把数据的“围墙花园”作为一种常规竞争手段,将数据锁在生态系统内以获得垄断性的竞争优势,甚至利用数据捆绑库存或排他条款,以控制用户、产业链、客户、广告主,并压制潜在的竞争对手。当前国内外都形成了少数的寡头数字平台及联盟,品牌厂商、服务提供商的话语权都非常弱。以数字广告来说,当广告或服务数据流转到数字平台的生态系统后,反馈路径即被切断,任何厂商或第三方都难以实现从营销到销售转换的全面营销闭环分析与数据的再利用,除非全链条都是使用该数字平台生态系统的产品和服务,并基于该平台生态系统提供的分析工具才能获得分析结果。
近年来,数据争议和不正当竞争纠纷不断。据媒体报道,2017年6月顺丰与阿里系平台发生数据接口的传输内容与范围之争,后在邮政局的官方调解下恢复正常;2017年美国法院裁定LinkedIn不得采取法律或技术措施阻碍hiQ爬取其网站上的公开信息;其他案例还有百度诉360、微博诉脉脉、华为与腾讯的微信数据利用争议、淘宝诉美景等。
当前关于确认数据权属的法律基础还不明确,我们很难确认数据是属于平台还是个人用户。不正当竞争的行为边界比较模糊,哪些行为是数字平台在滥用数据垄断权,哪些行为是竞争者在“搭便车”,哪些行为有利于市场竞争,哪些行为不利于市场竞争,还不容易辨析清楚,所以不同时期和场景下的监管与法院裁定的把握尺度与判罚逻辑也在不断迁移变化。
数据封锁是当前反垄断监管的讨论焦点。近年来,在大型数字平台的收购中,除了技术、产品、用户,数据资产也是一个非常重要的因素,例如Facebook收购WhatsApp,Google收购DoubleClick、AdMob、Waze、Fitbit,LinkedIn收购Drawbridge,阿里巴巴收购高德、友盟,等等。数据驱动型并购导致了大量数据的积累,从而在并购后取得他人无法逾越的竞争优势。在Microsoft收购LinkedIn案中,欧盟委员会重点就并购引发的数据集中效果进行了评估,判断其是否会对市场其他竞争者形成数据封锁。
数据的开放共享与隐私保护、数据安全、商业垄断形成了冲突,仅靠商业竞争将无法打破数据的“围墙花园”,亟待政策法规的完善与技术的突破来解决。数字营销是企业数字化升级最直接的切入起点,而开展数字化营销,首先需要建立企业的一方营销数据资产,并结合一方消费数据,开展公域流量效果营销与私域流量运营,通过闭环的全域数字营销,建立企业对目标用户的连接、减少对非目标用户的骚扰、高效运用营销预算,后续可以继续吸引用户参与到产品设计、品牌运营中,逐步深入地推进数字化升级与转型。因此,很多企业都已启动了各类CDP项目建设,但数据资产培养要比想象得困难很多。数字平台的“围墙花园”策略成为企业建立自己的营销数据资产的阻碍,这方面大广告主与大型数字平台之间一直在博弈。企业需要监管部门和行业组织的协调才能解决当前的困境,释放企业数字化升级的第一步动力。目前一些互联网企业依托自身业务资源及平台优势搭建了数据资源开放平台(如阿里巴巴开放平台、腾讯开放平台等)。
3. 国内外的数据政策与立法
在欧盟的引领下,全球都在不断地加强数据相关的立法和执法细则的完善,使得企业在数字化过程中的合规风险大幅度上升,特别国际化企业。
(1)欧盟的数据政策与立法
由于欧盟在数据立法上的强势引领,全球主要国家或主动或被动地加快了其在数据保护、数据经济反垄断方面的立法与政策完善。目前,数据保护的立法趋势是既属地又属人原则、加强数据主权。这些政策的快速变化与相互交叉将极大地影响所有企业的数字化业务。数字平台将受到多重规则制约,竞争政策与隐私保护政策、平台透明化规则、数据流通规则、知识产权规则、内容审查规则乃至国家安全审查规则的交叉日趋显著。
欧盟于2016年发布了全球史上最严的《通用数据保护条例》,简称GDPR,经过两年过渡期后,该条例在2018年正式生效,数字科技企业一时风声鹤唳,全球科技公司都开始紧急调整策略,中国科技企业直接放弃了在欧运营的一些在线服务。当前欧盟仍在不断完善GDPR的细则,包括《同意的解释指南》《设计和默认的数据保护指南》《适用地域范围指南》《合同必要性指南》《关于匿名化技术的意见》等,也在不断调整GDPR的执法尺度。
2018年欧盟发布了《非个人数据自由流动条例》。
2019年欧盟《网络安全法》正式实施。
2020年,欧委会公布了《数字服务法案》和《数字市场法案》的草案,2021年11月《数字市场法案》建议稿由欧洲议会的内部委员通过,旨在加强大型数字平台的责任,加强对数字经济不正当竞争的规范与监管,而此立法将引起美国科技企业和美国政府的反对,较快的监管步伐和明显的针对性可能会引起美国政府在其他领域的反制。
(2)美国的数据政策与立法
美国于2015年通过了《网络安全法》,包括信息系统安全和网络数据安全。
2018年,美国快速通过了《澄清境外数据合法使用法案》,简称CLOUD。该法案采用“数据控制者标准”,而不是“数据存储地标准”,数据控制者需配合执法者提供存储于境外的数据,也允许“符合资格的外国政府”,在与美国政府签订行政协定后,直接向美国境内的组织发出调取数据的要求。
《加州消费者隐私法》在2020年生效,简称CCPA,该法案影响全美,甚至全球。CCPA的要求相对GDPR较为宽松,设定了企业规模门槛,豁免了中小企业的责任。
2020年11月,《加州隐私权法》(简称CPRA)通过,将于2023年1月生效,用于完善CCPA,规定设置了一个独立的隐私保护机构来实施加州隐私法并起诉违规行为,可以认为是CCPA2.0。
美国其他州也在加紧制定相关立法。2020年华盛顿州通过了《人脸识别法案》。联邦层面的个人信息保护与数据保护立法提案也在讨论中。
2021年7月,美国统一法律委员会(ULC)投票通过了《统一个人数据保护法》(UPDPA),这是一项旨在统一州隐私立法的示范法案。
(3)中国的数据政策与立法
当前我国在个人信息保护、数据安全、网络安全方面,通过法律、行政法规和部门规章、国家标准、行业标准等方式共同进行约束和指导,同时强调主权、保护和价值开发。
中国在2009年的《刑法修正案(t)》中增加了侵犯公民个人信息罪的相关内容,2015年修订,两高(最高人民法院和最高人民检察院)在2017年发布对侵犯个人信息罪的司法解释,对个人信息内容与定性做了进一步明确。
2017年实施的《网络安全法》对网络主权、数据安全、个人信息保护都做了规定。
2021年1月1日生效的《民法典》规定了个人信息主体的查阅权、复制权、更正权、删除权,扩大了个人信息范围,并规定未经权利人明确同意,不得以电话、短信、即时通信工具、电子邮件、传单等方式侵扰他人的私人生活安宁。
2021年9月,《数据安全法》正式施行,11月《个人信息保护法》正式施行。《数据安全法》涵盖境外数据控制者,提出在国家层面建立数据分级分类保护制度,重要数据的处理者应当设立数据安全负责人和管理机构,数据交易中介服务机构具有数据来源核查的义务。
《个人信息保护法》立足于数据市场发展和个人信息保护的需求,对个人信息保护做了全面规定,细化“告知-同意”要求,强化个人权利,增强处理者义务,处罚力度大,并具有域外效力。
标准方面,全国信安标委在全面制定大数据安全和个人信息保护的标准体系,这两年已发布的重点标准有《信息安全技术 大数据安全管理指南》《个人信息安全规范》《信息安全技术 个人信息去标识化指南》《信息安全技术 个人信息安全影响评估指南》;在行业标准方面,中国人民银行在2020年发布了《个人金融信息保护技术规范》和《金融数据安全 数据安全分级指南》,在2021年发布了《人工智能算法金融应用评价规范》。
在行政法规和部门规章方面,网信办在2019年5月和6月分别发布了《数据安全管理办法(征求意见稿)》与《个人信息出境安全评估办法(征求意见稿)》,2019年11月网信办等四部门联合发布《App违法违规收集使用个人信息行为认定方法》,并开展App违法违规收集使用个人信息专项治理,2021年12月网信办等13部门联合发布《网络安全审查办法》,2021年3月网信办发布《常见类型移动互联网应用程序必要个人信息范围规定》。中国银保监会在2020年4月发布了《商业银行互联网贷款管理暂行办法》,其中对数据使用、数据保管、风险模型开发、业务与技术外包都做了规定。2020年9月中国人民银行发布了《中国人民银行金融消费者权益保护实施办法》,详细规定了对消费者金融信息的全生命周期保护。
当前个人信息保护、数据安全的立法和监管,还需要区分不同的行业、不同的场景,避免因“一刀切”式的要求,对产业和经济发展产生不利影响。例如,在广告营销中,不同的目标受众触达方式,对个人的影响完全不同。在线的广告方式,用户是主动的一方,越精准越会提高用户体验,对个人、企业、媒体以及整个生态总体都是有益的,应该在数据监管政策上给予鼓励,只需要求企业给予个人对精准跟踪的“退出权”,而电话和短信的方式,用户是被动的一方,对个人生活的骚扰太大,需要严格限制和打击。
4. 数据资产化与数据流通
当前,数据资产化与数据流通的障碍主要是数据确权、价值评估、交易合法性、数据的不易验真性、买卖双方缺乏透明度、流通模式、个人信息保护等方面的问题。数据确权是数据资产化的前提,由于数据具有采集多源性、可复制性、可衍生性,在数据的采集、加工、流通、使用过程中涉及个人、企业多方,不易确定数据价值增益。数据不像实体商品易于检验和持续地跟踪质量,除非具有多于一个采集源,否则难以验证真实性。
国内外立法尚未达成有关数据权属的共识。数据权属涉及人格权、物权、知识产权以及多种权利的交叉。人格权无法覆盖数据权范围,物权具有明确的排他性,知识产权中的著作权强调表现形式的独创性、专利权强调发明创造,因此数据权属无法与其他权属契合或划定明确界限。由于数据权属不明,个人与企业、企业与企业间数据收益分配规则无法确定。实践中出现的数据权属争议主要依靠司法审判个案处理,我国不同阶段的判例体现了不同倾向,早期鼓励产业发展,中期强化对大企业权益的保护,近期判决思路又转向促进数据流通。
2020年的“微信数据权益案”判例对数据权益归属做了区分,企业所掌握的数据区分为单一用户数据和数据资源整体,单一用户数据权益并非谁控制谁享有,依法经用户同意即可使用,而企业对于整体数据资源投入了人力、物力,应当享有竞争权益。此案对于促进数据流通具有重要的指导意义。司法能动性导致对数据权属的判断具有不确定性,而且随着技术产业发展变化,法院对数据权属的判断也在动态变化。
虽然当前立法原则中都包含鼓励数据流通原则,但可交易的数据类型与范围还没有明确界定。数据交易缺乏监管,亟需建立官方数据质量监管制度、第三方数据质量认证机制。由于数据的多源性,数据交易经常发生恶意竞争,伤害数据企业合理经营,也缺乏有效的法律武器进行惩戒,最终造成市场劣币驱逐良币,供需双方无法建立信任。同时,除银行等少数行业,公共数据、行业数据的标准与质量要求仍未统一,阻碍了数据企业的成长和数据的规模化流通应用,致使无法形成健康、规模化的数据交易市场。
在数据交易的立法方面,美国相对成熟,它在立法中明确了数据交易的合法性。数据经纪商(Data Broker)是美国数据交易服务的主要提供者,目前数据经纪商收集和分析的数据几乎覆盖全美消费者。CCPA规定数据经纪商是指明确知悉并从与其没有直接关系的消费者处收集个人信息并向第三方销售的经营者。美国的相关立法中也对数据交易者的权利义务进行了规定。
1.3.2 数字化变革的挑战
虽然数字经济风起云涌,但当前企业的数字化升级与转型并非一帆风顺,仍然面临巨大挑战。据信通院的调查,工业企业数据资产管理的难点主要集中在以下3个方面:
·数据涉及多部门,难以统筹;
·缺乏方法论,不知道怎么做;
·投入太多,短期内看不到明显的效果。
数字化升级与转型常常遇到以下问题:数据应用找不到合适的方向和场景、缺少数据或者数据价值不高、数据开发利用存在很多阻碍、投入很大但效果不佳、不知道如何选择和规划转型目标与路径。以上问题的原因可以总结为两点:数字化发展规律认知不足;数据应用、数据治理、数据技术与工程等数据能力的不足。
数字化升级与转型的目标是实现企业的业务数字化和数据资产化,能够用数据来高效地探索和转化商业价值。而要实现这一目标,企业需要建立数据驱动的文化、先进的数据系统、出色的数据能力,这里的能力包括统一的数据治理能力、数据技术运用的工程能力和端到端的数据综合应用能力。
1. 数据应用找不到适宜的方向或场景
数字化升级的数据应用切入点如何找,是先做BI,还是从数字营销开始?核心业务是否能数字化转型,如何转?在开展数字化升级时,企业对于数据价值的挖掘常常觉得无从下手,或者眉毛胡子一把抓,或者目标不太现实,或者眼高手低,结果就是常常无法取得很好的数据应用效果。
数据应用的发展是一个从初级到高级、由浅入深的渐进的发展过程,也是能力和经验的一个逐步积累过程,因此数据应用探索可以分步、分阶段逐步实现。数字化本质也是一个数据驱动方式逐步升级的过程,基于到目前为止的数据应用发展历史,可以观察到以下的发展规律和发展特点。
·应用层次:从数据驱动流程,数据驱动支持宏观决策,数据驱动支持微观决策,数据驱动创造业务,到数据驱动自动智能微决策。
·应用场景:从驱动决策到驱动产品,从业务分析到数据产品开发。
·问题类型:从描述历史到预测未来,从What到Why到How。
·数据内容:从主数据与关系数据管理到全域数据管理。
·信息层次:从统计级分析到微数据应用。
所以在数据应用时,也可以由易而难,逐步积累能力、经验和思维习惯,可以从以下的数据应用层次中分步实现数据应用价值,探索应用场景。
·数据驱动流程:信息化,通过系统化来固化流程以提高效率与保障执行质量。
·数据驱动支持宏观决策:基于统计汇总数据支持各级管理者进行战略和管理决策,减少对经验、直觉的依赖,是真正的数据驱动企业运营的开始;另外,让各级决策者掌握的信息一致、全面、真实,避免人工信息传递的失真、错误与延迟。
·数据驱动支持微观决策:大数据分析与传统BI的区别就是,传统BI是对业务的汇总统计,适合用于做宏观决策和一些中观运营决策,而大数据分析让我们可以基于数据分析发现的规律进行科学决策,更需要我们主动地设计实验、收集数据,通过大量的A/B测试等手段做大量的微观决策,如软件产品上一个按钮的样式设计或者实体货架上产品摆放的位置设计。大型的互联网平台上每天都有几百、几千的测试同时进行,并可以自动基于收集的数据和统计假设检验方法直接判断优劣,而有了这样直接和业务结合的数据分析与实验系统,就可以赋能每个员工,让组织每个人员的决策都是基于数据的、科学化的。
·数据驱动创造业务:在进行了有效的数据收集后,我们可以创造出新的业务,例如电商聚合小众需求、设计新的产品、提高交易匹配效率等,再如整合或参与数字化供应链,实现柔性化生产、物流供应。
·数据驱动自动智能微决策:基于单条数据的“微决策”,即使基于数据分析使决策精度的微小增加,但通过大规模的重复执行,也可以带来非常可观的收益,例如单次RTB广告是否竞价、单笔小额贷款是否通过、个性化推荐,再如通过大量针对门店或品类的销售预测,可以在减少浪费的同时避免错失销售机会。
在数据应用层次的升级过程中,需要使用的技术也不断增加,从系统开发技术,统计分析和数据挖掘技术,大数据技术,到机器学习、深度学习等数据智能技术。
2. 缺少数据或者数据价值不高
在数据收集上投入不足,特别以获得数据为目标设计业务形式和产品。通常数据的采集都是在已有的信息系统中进行抽取或埋点。但为了实现创新的业务模式,有时需要为收集数据进行主动投入,建立数据资产,可称为“养数据”。
典型的例子如,利用数据科学针对不同人群进行差别信贷服务,但基于数据设计新的产品就需要数据来建立盈利模型,而信贷产品需要投放市场后才会有数据,这是一个“先有蛋还是先有鸡的问题”。20世纪90年代末,美国一家小银行Signet就干了这个事情,通过亏钱来积累数据,当Signet开始向客户随机提供不同条款的产品后,坏账率大幅度上升,损失持续了几年,最终数据科学家基于收集的数据建立模型,扭转了这一局势。很多人可能没有听过Signet,但该业务分拆成立的新公司Capital One,对于金融界从业人士一定如雷贯耳,成立三十年即跻身美国前十大银行。Capital One不认为自己一个金融公司,而自认为是一个数据科技公司。
对于头条和抖音崛起,字节跳动的自我评价是技术、产品、运营的综合应用能力比较好,但其中最关键的一点是“算法友好型设计”,或者叫“数据友好型设计”。字节跳动在产品和运营中做了很多有利于快速收集算法效果反馈数据的设计,让反馈的路径尽量短、实时、信号直接,从而可以让机器智能算法以极快的速度学习和迭代。
企业原先信息化大量建立的信息系统都不是面向数据设计的,极大地影响了高价值数据的收集和利用。因此在数据治理的数据资产化方面,企业需要转变思路,进行有意识的专门设计和先期投入,只要业务目标明确,符合数据科学应用的规律即可。
3. 数据开发利用存在很多障碍
当前,很多企业同时面临两种相反的现象,一是大量的有价值数据没有被有效采集和利用,二是数据的量级和维度在快速增加,但企业无法对数据进行有效的洞察和利用。有行业报告称,即使信息化程度很高的金融企业,其数据利用率也不足三成。大量的数据如果没有资产化,不能被有效利用,没有产生价值,则对企业来说不是资产反而是巨大的成本和负债。
很多企业已经历过信息化阶段,存在很多历史包袱,原来的系统设计和建设不是以数据为核心,因此信息系统烟囱林立,数据固化在各个系统中,同时信息化过程也形成了组织权利固化、组织的“数据隔离墙”。数据开发利用的障碍的形式可以总结为以下几类:数据不可存、数据不可见、数据不可流、数据不可用、数据不合规等。
(1)数据不可存
越来越多的企业倾向于将尽量多的数据长期保存,但存储成本依然很高。当前大多数服务器都是标准的设计,用于存储的服务器,CPU利用率不高,用于计算的服务器,存储常常不够用。这是由于企业对数据系统缺乏规划,同时对数据资源缺乏价值分析及成本核算、分类分级、热温冷的生命周期管理,导致有采集价值的数据因缺乏规划和设计而没有被采集和利用。
(2)数据不可见
数据的元数据信息未采集,或分布在不同的系统中,掌握在各个部门不同人的手中。由于没有集中、统一的管理目录或视图,组织无法掌握自身数据资源的全貌,内部相互之间看不到他人管理的数据内容,而且很多组织数据类型众多、数据规模庞大,如果没有良好设计的数据模型、数据分类体系、数据检索方法,寻找特定数据与发现有价值数据,就有如大海捞针。
(3)数据不可流
面向数据的系统设计,需要综合考虑各个方面的因素,否则在数据流动时就会产生各类阻力。系统和应用层面存在系统分割、管理分割,可以形象地称为系统墙、管理墙。基础设施层面包括存储介质IO性能、网络传输的性能瓶颈(包括地理分隔和协议兼容)、内存和CPU的算力瓶颈,可以形象地称为介质墙、网络墙、算力墙。不拆掉这些墙或建立有效的流通管道,数据就无法被获取,或无法被及时获取,达不到数据应用的时效性要求。
(4)数据不可用
缺乏统一有效治理,将导致很多数据质量问题,不同系统中的数据定义会存在很多不一致和冲突。例如,同一类型数据命名不同、数值单位不同、枚举值标准定义不同,或者同一类型数据但含义却不同。比如性别,有的系统可能是真实的自然性别,有的系统中可能是行为倾向预测值,再比如地址,可以是居住地址、通信地址、邮寄地址。
(5)数据不合规
数据价值开发存在很多数据风险,随着个人信息保护和数据安全要求越来越高,规定越来越细,数据合规已经成为数据利用非常重要的工作。在这方面组织容易走两个极端,要么就是“裸奔”,不管不顾;要么就因为当前法规仅做出了原则性规定、细则不具体,一刀切地把数据通通关起来,不敢开发;导致企业间的数据纠纷常发,企业不愿开放共享,也不敢利用其他企业的数据。
以上问题错综复杂且技术挑战很大,只有解决所有的问题,才能形成完整的数据价值链条。而问题的产生归根结底是因为数据的治理能力和工程能力的不足。数据工作,不论是数据治理还是数据工程,都属于“脏活累活”,企业数据能力建设不能叶公好龙,想要进行数字化升级与转型,又不愿意打牢基础。
4. 投入很大但效果不佳
企业在开始数字化升级与转型后,就开始大规模投入和建设,但常常应用效果不佳,是数据问题、方向问题、场景问题、能力问题,还是投入不到位?
(1)大数据与人工智能认知的误区
“大数据”一词给大家带来两个潜在认知误区,一是大数据是解决“大问题的”,二是大数据的价值很大:
·大数据其实并不是解决“大问题”的,而是解决大量的“小问题”的;
·大数据就价值密度而言很低,只是因为规模大,可以积累起总体比较高的价值,但也是因为量大,处理的成本总体也很高,所以会摊薄收益。
数据常常被比作数字经济的“石油”,其实被比作数字经济的“矿石”更贴切,因为数据挖掘相当于“炼矿”,成本是比较高昂的,若遇上质量不佳的“矿石”,可能并不“经济”。
对人工智能的认知误区也有两个,一是认为人工智能什么都可以干,能做到真正的“智能”,二是忽略快速的数据闭环:
·其实现在流行的人工智能技术,其本质是运用大规模的算力对大量数据的统计,相当于使用一种“蛮力”方法实现一些对人来说相对比较“简单的智能”,所以选择应用场景时,需要判断其是否匹配当前数据智能技术擅长的解决问题方式。
·数据智能技术应用,不但需要大量的数据,而且需要快速的数据反馈闭环,才能快速地优化“学习”的效果。没有规模意味着难以具有可观的商业价值,而不能快速迭代意味着数据智能产品的指标不容易达到具有商业价值的可用要求,即使可用也不易提高回报率。数据智能对数据量和数据质量的要求很高,所以数据科学从业者常讲“垃圾进,垃圾出”,对于监督学习来说,如果真值样本的准确度很低或特征的信号量很弱,那么“学”出来的结果肯定乱七八糟。另外如果数据的质量不稳定,即使优秀的算法也难以保证效果,而数据的一项特点,也像矿石,可以越“炼”越“纯”。
(2)传统领域数据应用的成效比较慢
传统领域的应用场景,不像在线数字服务产品易于快速迭代、量化评估,所以数字化的成效会是一个相对缓慢的长期过程,缺乏纯互联网应用的快速爆发力。由于一些传统领域数据应用场景的效益难以量化分析,不易判断数据积累和迭代效果,因此需要尝试寻找合适的办法。
由于当前仍处于数字化、智慧化建设初期,投入较为集中,成本投入的数据应用边际递减效应还相对不明显。企业在设定目标时,常常会有急功近利的倾向,而缺乏对数据领域长期投入的准备,设置过快的实现速度要求和过高的收益目标,当实现出现不足时,就会影响企业后续对技术和转型的信心,过早放弃,而且这往往会导致企业在很长时间内都不再愿意采用新技术、尝试业务创新。数据科学不是万能灵药,不是一蹴而就会产生很好的效果,大多数时候需要持续地投入,通过数据收集、整理、分析和行动等各个数据工程环节的特征工程优化、算法调参和模型迭代,逐步改善效果。
(3)低估总拥有成本
企业在数据系统立项时,常常存在乐观估计的倾向,低估数据项目的复杂度和实施周期,从而低估总拥有成本,特别是升级成本。大数据引入企业是一项变革因素,将严重影响IT基础设施与数据中心的设计,涉及硬件、软件、人员和运维等相关的投入成本,特别是随着数据量增长带来的挑战,若初始设计系统无法通过水平扩容支持,则迁移与并行运行的成本会非常高昂。在大数据量背景下,数据错误修正和数据处理逻辑优化时,常常需要回溯处理历史数据,需要的计算成本很高。而以上问题的时间成本将更高,造成实施者在还没有看到项目达到预期的结果时就失去了信心。
(4)不重视数据人才的投入和低估培养周期
从数据中挖掘价值的数据能力,应该和数据一样,被视为组织的关键战略资产。构建一流的数据团队是一项非常重要、值得的工作,能够为企业带来更大收益。
大多组织,在展开数字化业务转型时,往往没有仔细考虑组织是否拥有适用的数据人才,没有对数据人才需求做认真的分析、规划和投入,要么寄希望于现有人员快速转型,要么四处挖人,但现有人员的意识、思维与能力提升常常太慢,业务等不及,而空降的人才对企业的业务又缺乏了解。
对能够基于数据决策的人才的培养周期比较长,组织常常难以坚持,因为基于数据决策也是一个习惯培养问题。对于已经习惯于拍脑袋决策的人,基于数据驱动决策太麻烦,既耗精力周期又很长,而最终结论也常常与直觉一致,很容易让人感觉既浪费人力又浪费时间,人的惯性、组织的惯性让组织推行数据驱动的工作方式、用数据说话的工作最终变成了一场“运动”,最后大多都不了了之。
很多组织都低估了所需数据技能的程度,数据人才需要掌握的基础知识范围很广,技能要求也很综合,包括数据库、概率与统计、数据处理编程语言、数据模型设计理论、数据分析方法、数据可视化等,但更重要的是对数据的敏感度和意识,而这项能力却不易培养和识别。当前数据的量级、维度在增大,数据的来源、类型、格式、场景都十分多样和丰富,数据处理的实时性需求也越来越高,例如实时反欺诈,这对数据治理、数据分析、数据工程处理的人才要求越来越高,既掌握先进技术又有丰富经验的人才缺口很大,而既懂数据又懂业务的复合型综合数据人才更是十分稀缺,甚至没有。企业需要有针对性地自主培养,或者对数据团队的人才配置做合适的规划。
(5)组织设计
数据的价值发挥涉及方方面面,它符合“木桶原理”,只要有一项短板,数据的价值就无法发挥。就像前面提到的字节跳动的自我评价是各方面能力比较均衡,技术虽然不是全球最好的,但没有显著的短板。
数据从收到用,链条冗长,而上游处理环节对下游常常是黑盒,不利于数据问题的分析,常常需要经过多部门间协调、沟通、核实才能定位和解决,效率十分低下。
因此在团队人才组成设计上,需要注意各方面人才技能的互补,特别是需要引入综合性人才。同时,跨团队协同上要想尽一切办法,打破部门墙和增强知识传导,建议如下:轮岗机制、跨部门虚拟团队、知识的记录和充分分享、双向汇报等。统一集中的数据部门有利于数据的汇总、打通、统一治理,分散的数据人员安排,有利于业务小步快跑,可以在不同的发展阶段、不同的场景采用合适的方式。
5. 数字化路径与目标如何选择和规划
当前,相当多的企业已经认识到数字化、智能化转型的战略意义,但对于具体如何开展,莫衷一是,仍然在探索对数字化规律的认知。
数字经济的热潮,也催生了层出不穷的解决方案方法论和各显神通的数字转型解决方案供应商:
·有大型互联网企业依托其丰富的数据应用经验和强大的技术实力,向B端市场拓展,给各类企业和政府提供数字化解决方案;
·传统IT领域的软硬件企业,结合自身优势,进军数字化解决方案市场;
·传统产业领域的某些头部企业,在自身积累了丰富的数字化经验后,向其所在行业输出解决方案;
·传统的系统集成商,从信息化解决方案转到数字化解决方案;
·数字化解决方案的一些创业企业,其中有些企业的创始人是在大型互联网平台积累了丰富的数据经验。
在这些供应商中,有的供应商的商业目标是推广其云计算服务或其他基础设施,有的是销售数据软件产品,有的是卖咨询服务,有的是提供定制开发。企业选择的难度很大,而这些供应商都很难解决企业面临的最大难题“传统业务模式难以转变”,越是核心环节、越是企业核心竞争力所在,智慧化变革的难度和阻力就越大,风险就越高。
对于数字化升级与转型来说,“拿来主义”是不可行的。一个仅引进系统和工具的企业,难以建立自己掌握的数据能力和数据认知,难以解决自己的核心业务问题,也就无法形成自己的竞争优势。很多企业仍沿用信息化的经验,重点是“建设系统”,认为软件可以解决所有问题,只要建成系统,自然可实现目标。
信息化是固化,数字化是创造,二者的目标性质完全不同。有价值的数据是“活数据”,数据处理、分析、价值开发也是“活过程”。数据系统作为一种工具,它的作用大小要取决于其使用者的能力和思路,因此企业自身必须掌握数据运用的能力。小企业也许不需要自建数据系统,但必须建立运用数据的能力。
数字化升级与转型的设计,可以是自上而下的,也可以是自下而上。自上而下的方法可以做到宏观系统化的设计,快速建立统一的数据资产和发展基础数据能力,但投入比较大,短期看不到应用效果;自下而上的方式可以快速试错,寻找数据应用的突破口,最后再基于应用需求,汇总设计整体的数据资产,但很可能由于数据问题和支持能力不足而无法成功。也可以同时进行自上而下和自下而上,这对组织的人力配置、资本投入、执行要求更高。
数字科技和数字经济是一个动态发展的事物,企业外部环境具有非常多的不确定性,因此企业的转型路径规划需要具有一定的开放性,能随时吸收最新的创新和行业生态发展趋势进行动态调整。所以转型路径的设计方法需要包含发展视角。