分享好友 最新动态首页 最新动态分类 切换频道
阿里巴巴大数据之路——数据模型篇
2024-12-02 04:29
阿里巴巴大数据之路——数据模型篇 阿里巴巴

  1.什么是数据模型

    数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。

  2.典型数据仓库建模方法论

    ER模型

    纬度模型(建模四步曲:确定业务流程->确定粒度->确定纬度->确定事实表

   1.体系架构

    核心内容包括规范定义、模型设计等

     2.模型分层

      主要分为三大层(4小层:操作数据层(ODS,公共纬度模型层(CDM,应用数据层(ADS,其中,CDM又分为明细数据层(DWD)和汇总数据层(DWS

      操作层数据ODS:贴源设计,几乎无处理地存放操作系统数据

              结构化数据增量或全量同步到MaxComputer

         非结构化数据(日志)结构化处理同步到MaxComputer

         累积并保存清洗数据

       公共纬度模型层:存放明细数据、维表数据以及公共指标汇总数据,比较多的采用纬度退化的手段,将纬度退化到事实表中,减少关联

          组合相关和相似数据,采用明细宽表,减少数据扫描

          公共指标统一加工,统一口径,建立逻辑汇总宽表

          建立一致性纬度

      应用数据层ADS:存放数据产品个性化的指标数据

          个性化指标加工,无公用性

          基于应用的数据组装,大宽表集市、横表转纵表...

      整个模型如下图所示

 

          

          //数据调用服务一般优先使用CDM层,然后ODS,ADS作为应用数据一般不对外提供服务

    3.基本原则

         高内聚低耦合:将业务相近的放在一起,将高概率使用的放一起,遵循软件设计开发的高内聚低耦合原则

      核心模型与拓展模型分离:核心模型只包含常用核心业务字段,保证核心模型的简洁性

      一致性:相同含义的字段在不同表中必须使用相同的命名,表名等命名必须清晰一致,见名知意

      ...

   4.实施工作流

    (1) 数据调研

      包含业务调研和需求调研

       (2) 架构设计

      数据域划分    

    【数据域设计】(就是给出数据的大分类,数据所属的域

 

 

 

      构建总线矩阵

    【总线结构】(就是列出纬度与主题,进行存在的纬度画✔

      后续包括规范定义、模型设计与总结

     规范定义

      命名规范统一:表名、字段名等规范统一

      字段类型统一:相同与相似字段类型统一

      公共代码与代码值统一:代码与标志性字段应统一

最新文章
鄭欽文奪冠“點燃”成都網球熱情
當地時間8月3日,鄭欽文在巴黎奧運會網球女單決賽中直落兩盤擊敗克羅地亞選手維基奇,拿到中國和亞洲首枚奧運會網球單打金牌,創造了歷史。鄭欽文奪冠后,不僅網球的討論熱度飆升,相關消費與產品的搜索也直線上漲。在某社交平台上,標注“
资本市场助力撬动循环经济,深企格林美“变废为宝”跃升创新优势企业,重金投向研发增强核心竞争力
开栏语:数据显示,深市公司2022年实现营业总收入20万亿元,同比增长7%,近六成公司收入正增长,其中研发投入超6600亿元,同比增长15%,近七成研发资金投向先进制造、数字经济、绿色低碳领域,成为企业保持长期增长的稳定动力。积极投入技
精灵SEO统计,网站优化利器,揭秘搜索引擎排名提升秘籍
精灵SEO统计,一款专为网站优化设计的高效工具,助您快速提升搜索引擎排名,成为网站优化的秘密武器。在互联网时代,搜索引擎优化(SEO)已经成为和不可或缺的一部分,为了帮助广大网站管理者更高效地进行SEO工作,众多SEO工具应运而生,我
推荐三款小说生成工具:一键生成故事与的软件,轻松创作独特作品
在如今这个信息爆炸的时代文学创作不再是少数人的专利。无论是小说家、家还是业余创作者都可借助科技的力量轻松打造出属于本人的独到作品。小说生成工具的出现为广大创作者提供了无限的可能性,只需一键操作,就能生成故事大纲、人物关系甚
ChatGPT中文版网页
ChatGPT中文版网页是一款十分好用的ai聊天软件,在ChatGPT中文版网页中,软件涵盖了多种智能聊天功能,多元化的服务,满足各用户不同需求,用户可以随意提问题,流畅回复,感受智能的对话服务。软件内存很小,不会占用手机太多的内存空间,
开服即被挤爆,AI新拐点来临!
昨日,OpenAI视频生成模型Sora正式版终于发布!此次发布的Sora Turbo,为原始Sora模型的全新高端加速版本,用户不仅可以通过文字提示生成视频,还能将静态图片转化为动态视频,甚至可以对现有视频进行创意改编。作为OpenAI“王炸”产品,So
【经验分享】含多酚多糖植物材料RNA的提取方法
观察与问题笔者在2023年10月至2024年6月跟随师兄对番茄中某转录因子进行研究,研究过程中笔者提取了模式番茄(Solanum lycopersicum)多个生长阶段中各器官RNA超60组。在使用TIANGEN公司RNAprep Pure多糖多酚植物总RNA提取试剂盒(离心柱型
生成式AI新时代:OpenAI、DeepMind与端侧智能的巨变
随着生成式AI技术的不断演进,我们见证了多个重量级产品和平台的重大进展。从OpenAI发布的新模型到DeepMind的视觉语言模型,再到国内端侧智能公司的融资动态,AI领域正迎来一场竞争与创新的热潮。OpenAI的猎户座模型泄露最新消息显示,Open
SEO网站关键词排名优化,提升网站流量与转化率的秘籍解析,揭秘SEO,关键词优化秘籍,助你网站流量与转化率双提升
SEO网站关键词排名优化秘籍解析:通过深入分析关键词策略、优化网站结构和内容质量,有效提升网站在搜索引擎中的排名,从而增加流量和转化率。 *** 包括合理布局关键词、优化页面加载速度、增强用户体验等。掌握这些技巧,助力网站在竞争中
成品网站1.1.719:全流程智能建站工具,让网站优化和流量提升一步到位!
网站制作总是让人望而却步?技术门槛、设计难度、时间成本,这些问题让许多人迟迟未能实现自己的建站计划。然而,一款名为成品网站1.1.719的工具正在悄然改变这一切。它通过简洁的设计和强大的功能,为用户带来了全新的建站体验。不同于传统
相关文章
推荐文章
发表评论
0评