湖南论坛网

搜索

【技术分享】大众点评数据平台架构变迁

[复制链接]
honghu 发表于 2021-9-24 23:08:25 | 显示全部楼层 |阅读模式
honghu 2021-9-24 23:08:25 17 0 显示全部楼层
【技术分享】大众点评数据平台架构变迁

最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。

以下从 数据&架构&a章鱼直播mp;应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结,希望对还处在数据平台发展初期的同学有一些帮助,欢迎线下沟通。
1.0(2012.07)

1.1 数据:
以支持用户报表需求为主初步沉淀出了一些底层模型模型计算程序以python为主
1.2 架构:
存储和计算都在GreenPlumGreenPlum采用双集群热备,一大一小,部分关键报表数据同时在两个集群存储、计算。传输:公司的DBA同学将数据从Mysql、SQLServer拉出来,落地成文件。传输程序每天凌晨解析落地的文件,然后将数据load到greenplum调度:使用Quartz框架,依赖关系存放到表中,将依赖检查做成一个脚本,下游job 调用方法check上游任务是否完成监控:用户程序自主判断异常,邮件、手机报警。
1.3 数据应用:
报表数据以邮件的形式发送给用户用户可以使用自定义sql的web查询工具主动查询数据2.0(2013.04)

2.1 数据:
1. 有了明确的模型分层:
ODS:存放从原系统采集来的原始数据DW:保存经过清洗,转换和重新组织的历史数据,数据将保留较长时间,满足系统最细粒度的查询需要DM: 数据集市。基于部门或某一特定分析主题需要RPT:直接面向用户的报表
2. 形成了流量、团购、信息三大基础模型及构建于三大基础模型之上的数据集市

3. 基于volocity开发了canaan计算框架。

4. 开发了一些自定义的UDF
2.2 架构:
1. 存储和计算都基于HIVE

2. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储。

3. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖。

4. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互。

5. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等。

6. 传输:
参考阿里DataX的设计,实现了点评的异构数据离线传输工具wormhole可视化界面,用户通过界面操作,方便的将数据导入导出数据和调度、主数据等系统打通
7. 监控:由于任务数量增长较快(2000+),运维已经是个问题此外,因此,我们花了较大精力做了可视化的工作:


2.3 数据应用运营工具:用户自定义SQL,存储基于HIVE指标(KPI):用户自定义SQL,计算基于HIVE,结果放到GREENPLUM中,用户可以根据指标通过时间拼接成报表HIVE WEB:非常便捷的HIVE WEB工具,可用性可以甩hive原生的web界面HWI几条街了3.0(2013.12)


3.1 数据:
有了明确的上层数据集市,各层数据集市打通,例如团购数据和流量数据打通形成了用户集市、商户集市两大主题和算法团队合作建设推荐系统提供框架和工具支持,引入外部数据开发者
3.2 架构:
引入mysql、hbase,支持线上服务数据访问接口支持:API、Query Engine、RPC Service引入shark支持临时查询,出于稳定性考虑,牺牲性能,shark/spark集群和hadoop/hive集群物理隔离数据质量:用户指定以条件,对计算结果做检查
3.3 数据产品:

支持DashBoard
4.0(2014.12)


4.1 数据:
持续扩充/完善数据模型数据规范化,主要包括:APP日志、渠道完善数据开发平台,其他部门数据开发者100+
4.2 架构:
建设Redis Cluster,支持实时推荐、用户画像等服务Hadoop升级到YARN引入Storm支持实时计算推出类Kafka的分布式消息系统,结合日志框架,支持日志数据的快速/低成本接入建设元数据中心
蜜桃交友4.3 数据产品:

推出专有数据产品,包括:运营效果评估、流量分析产品等。

来源:IT瘾

本链接由肥猫SEO论坛提供SEO优化技术支持。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 返回列表 发新帖

honghu当前离线
论坛会员

查看:17 | 回复:0

快速回复 返回顶部 返回列表