安信证券王环:安信证券数据中台建设历程
-
2020-11-05
神策数据
2020 年 10 月 13 日,在以“数字化 正当潮”为主题的「神策 2020 数据驱动用户大会」现场,安信证券信息技术中心数据平台团队负责人王环发表了《安信证券数据中台建设历程》的主题演讲。(文末附 PPT 下载地址)
本文根据其现场演讲整理所得,主要内容如下:
数据中台一词现阶段很热,金融行业、互联网行业、制造行业等等都在讨论数据中台的建设,但数据中台到底是什么,大家对此是没有共识的。我相信,在未来 2-3 年,关于数据中台的讨论越来越少、行动越来越多的时候,数据中台的共识才会形成。
数据中台建设背景
1.我们为什么要建设数据中台?
从业务角度看,数据中台在发展过程中,面临着以下挑战:
第一,烟囱建设。虽然券商和银行的体量差距较大,但日常运营系统规模却相差无几,从安信证券来看,我们现有系统大概 200 多套,功能俱全。但从数据角度看,缺少共享数据模型和规范,包括指标、口径等,数据重复存储,导致资源浪费。
第二,数据孤岛。这个问题和烟囱建设密切相关,因为数据分散在各个系统内,无法有效整合打通,数据割裂严重,很难做统一的分析与统计,难以发挥全域数据的价值。
第三,需求响应慢。为满足业务场景需求,需要从多个系统里进行数据采集,再做复杂的转换加工,缺乏底层工具和平台方面的支撑,疲于应付临时性提数分析需求,无暇顾及平台级建设和数据治理,恶性循环。
第四,缺乏沉淀积累。大数据开源组件众多,更新迭代快,安装部署维护使用的技术门槛高,证券场景复杂,无法做到技术、业务、人才的积累。
2.从数据技术架构的演变历程来看,数据的发展有着清晰的脉络。
关系数据库建立初始仅是底层数据库存储计算最基础的一个部件,不管是数据分析还是报表功能,都是作为业务系统的附属功能或者一部分而存在;九十年代数据仓库概念提出之后,业务系统与管理系统逐渐分离,并陆续出现了专门为 OLAP 场景打造的专用数据库产品。
自 2005 年,互联网海量数据处理加工引发技术革命,以 Hadoop 开源生态为基础的大数据技术栈兴起,数据湖成为数据存储加工的主要方式;直至近两年,数据逐渐从业务过程的“副产品”转变为“本身即业务,本身即服务”, 厚中台、薄前端的理念才开始被业界认可。
3.数据中台是将业务系统的数据存储和计算能力抽离,由单独的数据处理平台提供存储和计算能力,抽象业务共性需求,提供共享复用的数据服务。
在我的理解中,数据中台包括 4 个部分的内容:
第一,方法论。涉及大中台、小前台、业务数据化、数据业务化等一些概念,也包括现在常用的建模的理论等。
第二,组织。建设数据中台需要有专业的数据团队,若单纯依附于业务团队是不靠谱的,如果一个企业没有专业的数据中台的团队,那么这个数据中台一定是建不成的。
第三,工具链。如果只讲方法论是没有办法落地的,因此,所有的方法论都需要有对应的工具平台做支撑推动其落地,这里面包括最基础的底层大数据平台,包括任务调度工具、数据服务、自助查询分析工具等。
第四,运营。也就是数据的运营,偏向于数据治理、从源头做全生命周期的数据治理。
数据中台发展历史
安信证券是 2006 年 3 家券商合并组建的,相对于老品牌的证券公司历史还是比较短的。在这 14 年间,经历了数据中心建设规划到建设启动,到数据仓库的建成、升级扩容,再到大数据平台、数据中台的建设,我们见证也被见证着数据平台在安信证券的发展。
在 2018 年以前,我们的系统架构还较为简单,采集工具包括商用的、开源的等,每个项目自行做技术选型,用各自的工具从业务系统采集数据,然后存储在我们的大数据平台、数仓或资讯类的数据库。
数据中台建设内容
1.在安信证券整个数据中台的建设过程中,遵循着以下六大基本原则:
第一,业务数据化。数字化这个问题相对比较复杂,我们很多时候连信息化的过程都还没有完成,线下业务很难记录到线上系统中,因此,要汇聚全域、全部业务过程和结果数据,统一存储,建设企业级数据仓库。
第二,数据标准化。通过规范化的加工处理,统一数据标准,完成全流程数据治理。
第三,数据可视化。在建设系统的过程中,我们希望能够把数据采集、开发、探索、分析、查询全流程可视化,降低数据开发使用门槛,不仅可以支持数据团队和 IT 团队使用,还能直接赋能业务团队。
第四,数据资产化。这里我们的主要工作是规范完善元数据信息,提供数据地图、数据目录等,帮助各部门高效便捷获取数据信息,使得数据可见、可懂、可用。
第五,数据服务化。数据怎样变成服务?怎样降低数据使用成本?这就要求我们能够提供统一标准化数据服务 API。
第六,数据业务化。数据作为产品和数据服务的一部分,提升客户体验和业务价值是重要内容。
2.从建设维度上来看,安信证券主要从技术体系、数据体系、数据治理与运营体系、数据应用四方面入手。
目前,安信证券的系统架构在 2018 年版本的基础之上做了具体组件的替换和补充,对内外部数据源的同步采集做了统一规整:通过自研的批量同步工具(类似阿里的 DataX),轻松对接各类型数据源,实现可插拔的适配;通过 AR、OGG 等商业化工具做实时同步;通过神策数据埋点功能进行 APP 行为数据的采集;通过 Flume 进行服务端日志采集。以上数据在采集之后统一汇入到 CDH 集群里面,在此基础之上,安信自研了任务调度系统,包括所有采集和计算的任务的调度、任务的依赖等。
在数据平台端,安信证券将其分为三类,分别是:数据服务平台、AI 服务平台、数据资产平台。
关于数据仓库模型,安信在原来数仓模型基础之上做了重构与标准化分层,参考证券行业模型做了拆解和增补,以此来适配安信证券的业务发展。
3.安信证券的数据治理和数据运营。
在数据治理上,安信证券针对专项任务和日常事件(包括用户和业务的问题反馈)对数据质量做系统性地梳理和排查,也会结合公司监管和战略层面的一些重大任务来推动,通过这两个抓手推动数据质量的提升和标准化。整体上来说,数据治理要从源头做起,然后再渗透到全生命周期。
另外,传统证券公司的数据团队更多承担着经营分析、统计等脱离实际业务流程的、偏管理性质的工作,因此在企业内部培养数据文化,强化公司、部门、员工的数据意识,利用数据做决策、运营,才能保证数据治理和运营达到预期效果。
在此过程中,安信重视数据团队对业务系统建设的参与度,抽象共性场景提炼数据服务,支撑业务部门对数据的需求,以实现数据业务化的目标。
4.通过实时资产、投研云、用户画像三个实际应用场景介绍安信证券的数据平台落地实践:
第一个,实时资产,它重度依赖大数据平台能力,特别是大数据的处理能力和流计算模式,是 APP 上用户重度依赖的功能,DAU 可达数千万。
第二个,投研云平台,最初建立是基于量化部门的需求,他们在用单体服务器做研发时面临着数据和算力的挑战,基于这两个痛点,安信证券通过 Spark 改写量化策略,在大数据平台做运行与训练,并逐渐探索深度学习的模型,以此提升部门和企业的研发效率。
第三个,用户画像,它完全构建在大数据平台之上,对用户的基本特征、资产收益、投资能力、投资风格等进行体系化画像,是在应用端所做的展示。
现阶段,大数据平台特别是 Hadoop 这个生态体系已经完善和成熟;在未来,其基础设施会逐渐云原生化,实时数仓和流批融合驱动业务时效性增强,数据和智能渐趋融合,数据治理等朝着更加智能化的方向发展。
-
本文作者:神策数据
责任编辑:马亚蒙
本文来源:牛透社
-
分享到: