admin admin 1 月,3 周 之前

【Hadoop】MapReduce 原理剖析(Map、Shuffle、Reduce 三阶段)

MapReduce 是一种分布式计算模型,是 Google 提出来的,主要用于搜索领域,解决海量数据的计算问题。

MapReduce 是一种分布式计算模型,是 Google 提出来的,主要用于搜索领域,解决海量数据的计算问题。

admin admin 1 月,3 周 之前

大数据SQL-查询最新有效订单记录

现有订单操作记录表 t_order_log,包含用户 ID,订单 ID,操作状态,操作时间。该表中操作状态包含下单、取消、改单,三种状态,用户取消订单后,则该订单不能再做修改。

现有订单操作记录表 t_order_log,包含用户 ID,订单 ID,操作状态,操作时间。该表中操作状态包含下单、取消、...

admin admin 2 月,2 周 之前

MaxCompute SQL 调优之 Join Hint

在 MaxCompute SQL 中处理大数据量表时,数据倾斜是一个常见的性能瓶颈。当两张大表进行 JOIN 操作时,如果关联键分布不均,某些节点可能会承担过多的数据处理任务,导致任务执行效率低下。为了解决这一问题,需要从 JOIN 键的选择、技术手段的...

在 MaxCompute SQL 中处理大数据量表时,数据倾斜是一个常见的性能瓶颈。当两张大表进行 JOIN 操作时,如果...

admin admin 4 月,1 周 之前

数据仓库事实表设计

数据仓库中的事实表是用于存储业务事实数据的核心组件,是数据仓库架构中的关键部分。

数据仓库中的事实表是用于存储业务事实数据的核心组件,是数据仓库架构中的关键部分。

admin admin 4 月,2 周 之前

数仓拉链表原理、设计以及在 ODPS 中的实现

数据仓库拉链表是一种特殊的表结构,用于记录数据的历史变化、支持数据版本管理、提供数据追溯功能。其中,数据版本管理是数据仓库拉链表的一个关键功能。数据版本管理使得每一条记录都带有其生效和失效的时间戳,这样可以追踪到每条记录在某个时间点的状态。通过这种方式,...

数据仓库拉链表是一种特殊的表结构,用于记录数据的历史变化、支持数据版本管理、提供数据追溯功能。其中,数据版本管理是数据仓库...

admin admin 5 月 之前

数据仓库维度设计

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。在数据仓库中,维表是其中一个关键的组成部分。维表设计的好坏直接影响到数据仓库中数据的可用性和可靠性。

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。在数据仓库中,维表是其中一个关键的...

admin admin 5 月 之前

数据仓库一致性维度和一致性事实

在 Kimball 的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概念: 总线架构(Bus Architecture), 一致性维度(Conformed Dimension) , 一致性事实(Conformed Fact) 。

在 Kimball 的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概念: 总线架构(Bus Architec...