共18篇
文章标签:MaxCompute
MaxCompute(ODPS)是适用于数据分析场景的企业级 SaaS(Software as a Service)模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

【Hadoop】MapReduce 原理剖析(Map、Shuffle、Reduce 三阶段)
MapReduce 是一种分布式计算模型,是 Google 提出来的,主要用于搜索领域,解决海量数据的计算问题。
MapReduce 是一种分布式计算模型,是 Google 提出来的,主要用于搜索领域,解决海量数据的计算问题。

大数据SQL-查询最新有效订单记录
现有订单操作记录表 t_order_log,包含用户 ID,订单 ID,操作状态,操作时间。该表中操作状态包含下单、取消、改单,三种状态,用户取消订单后,则该订单不能再做修改。
现有订单操作记录表 t_order_log,包含用户 ID,订单 ID,操作状态,操作时间。该表中操作状态包含下单、取消、...

大数据SQL-查询每个学科第三名的学生的学科成绩总成绩
有学生成绩表,包含学生姓名、学科、成绩三个字段,请用一条 SQL 查询出每个学科排名第三名的学生,他的学科成绩、总成绩、以及总排名。
有学生成绩表,包含学生姓名、学科、成绩三个字段,请用一条 SQL 查询出每个学科排名第三名的学生,他的学科成绩、总成绩、以...

MaxCompute SQL 调优之 Join Hint
在 MaxCompute SQL 中处理大数据量表时,数据倾斜是一个常见的性能瓶颈。当两张大表进行 JOIN 操作时,如果关联键分布不均,某些节点可能会承担过多的数据处理任务,导致任务执行效率低下。为了解决这一问题,需要从 JOIN 键的选择、技术手段的...
在 MaxCompute SQL 中处理大数据量表时,数据倾斜是一个常见的性能瓶颈。当两张大表进行 JOIN 操作时,如果...

数仓拉链表原理、设计以及在 ODPS 中的实现
数据仓库拉链表是一种特殊的表结构,用于记录数据的历史变化、支持数据版本管理、提供数据追溯功能。其中,数据版本管理是数据仓库拉链表的一个关键功能。数据版本管理使得每一条记录都带有其生效和失效的时间戳,这样可以追踪到每条记录在某个时间点的状态。通过这种方式,...
数据仓库拉链表是一种特殊的表结构,用于记录数据的历史变化、支持数据版本管理、提供数据追溯功能。其中,数据版本管理是数据仓库...

MaxCompute 格式化函数
在 MaxCompute 中,有多种格式化相关的函数,下面详细介绍一些常用的格式化函数及其使用方法。
在 MaxCompute 中,有多种格式化相关的函数,下面详细介绍一些常用的格式化函数及其使用方法。

SQL 优化之谓词下推
所谓谓词下推,就是将尽可能多的判断更贴近数据源,以使查询时能跳过无关的数据。用在 SQL 优化上来说,就是先过滤再做聚合等操作。
所谓谓词下推,就是将尽可能多的判断更贴近数据源,以使查询时能跳过无关的数据。用在 SQL 优化上来说,就是先过滤再做聚合等操作。
- Django Web 开发 4
- Oracle 数据库开发 9
- Oracle 性能优化 12
- Python 基础知识 8
- 开发工具配置 5
- Oracle 数据库管理 2
- Oracle 索引技术 2
- Python 数据分析 6
- Hive 1
- DataWorks/MaxCompute 18
- MySQL 5
- Greenplum/AnalyticDB 8
- PyODPS 3
- 数据湖仓 10