MaxCompute_文章标签

admin 1 日，18 小时之前

【Hadoop】MapReduce 原理剖析（Map、Shuffle、Reduce 三阶段）

MapReduce 是一种分布式计算模型，是 Google 提出来的，主要用于搜索领域，解决海量数据的计算问题。

DataWorks/MaxCompute 14 0

admin 2 日，20 小时之前

现有订单操作记录表 t_order_log，包含用户 ID，订单 ID，操作状态，操作时间。该表中操作状态包含下单、取消、改单，三种状态，用户取消订单后，则该订单不能再做修改。

现有订单操作记录表 t_order_log，包含用户 ID，订单 ID，操作状态，操作时间。该表中操作状态包含下单、取消、...

DataWorks/MaxCompute 12 0

admin 1 年之前

有学生成绩表，包含学生姓名、学科、成绩三个字段，请用一条 SQL 查询出每个学科排名第三名的学生，他的学科成绩、总成绩、以及总排名。

有学生成绩表，包含学生姓名、学科、成绩三个字段，请用一条 SQL 查询出每个学科排名第三名的学生，他的学科成绩、总成绩、以...

DataWorks/MaxCompute 785 0

admin 2 周，5 日之前

在 MaxCompute SQL 中处理大数据量表时，数据倾斜是一个常见的性能瓶颈。当两张大表进行 JOIN 操作时，如果关联键分布不均，某些节点可能会承担过多的数据处理任务，导致任务执行效率低下。为了解决这一问题，需要从 JOIN 键的选择、技术手段的...

在 MaxCompute SQL 中处理大数据量表时，数据倾斜是一个常见的性能瓶颈。当两张大表进行 JOIN 操作时，如果...

DataWorks/MaxCompute 82 0

admin 2 月，3 周之前

数据仓库拉链表是一种特殊的表结构，用于记录数据的历史变化、支持数据版本管理、提供数据追溯功能。其中，数据版本管理是数据仓库拉链表的一个关键功能。数据版本管理使得每一条记录都带有其生效和失效的时间戳，这样可以追踪到每条记录在某个时间点的状态。通过这种方式，...

数据仓库拉链表是一种特殊的表结构，用于记录数据的历史变化、支持数据版本管理、提供数据追溯功能。其中，数据版本管理是数据仓库...

数据湖仓 153 0

admin 4 月，2 周之前

在 MaxCompute 中，有多种格式化相关的函数，下面详细介绍一些常用的格式化函数及其使用方法。

DataWorks/MaxCompute 371 0

admin 4 月，2 周之前

所谓谓词下推，就是将尽可能多的判断更贴近数据源，以使查询时能跳过无关的数据。用在 SQL 优化上来说，就是先过滤再做聚合等操作。

DataWorks/MaxCompute 163 0