admin admin 11 月 之前

PyODPS基本操作之DataFrame

PyODPS 提供了 DataFrame API,它提供了类似 Pandas 的接口,但是能充分利用 MaxCompute 的计算能力。同时能在本地使用同样的接口,用 Pandas 进行计算。

PyODPS 提供了 DataFrame API,它提供了类似 Pandas 的接口,但是能充分利用 MaxCompute...

admin admin 11 月 之前

PyODPS基本操作之表管理

PyODPS 支持对 MaxCompute 表的基本操作,包括创建表、创建表的 Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为 DataFrame 对象。

PyODPS 支持对 MaxCompute 表的基本操作,包括创建表、创建表的 Schema、同步表更新、获取表数据、删除...

admin admin 11 月,2 周 之前

基于 MaxCompute 实现拉链表

拉链表是数据仓库设计中用来处理数据变化的一种技术,它允许保存历史数据,记录一个事物从开始到当前状态的所有变化信息,可以反映任意时间点数据的状态。本文将为您介绍基于 MaxCompute 引擎在 DataWorks 上实现拉链表 ETL 的案例。

拉链表是数据仓库设计中用来处理数据变化的一种技术,它允许保存历史数据,记录一个事物从开始到当前状态的所有变化信息,可以反映...

admin admin 1 年 之前

AnalyticDB PostgreSQL 空间回收

表中的数据被删除或更新后(UPDATE/DELETE),物理存储层面并不会直接删除数据,而是标记这些数据不可见,所以会在数据页中留下很多“空洞”,在读取数据时,这些“空洞”会随数据页一起加载,拖慢数据扫描速度,需要定期回收删除的空间。

表中的数据被删除或更新后(UPDATE/DELETE),物理存储层面并不会直接删除数据,而是标记这些数据不可见,所以会在数...

admin admin 1 年,7 月 之前

Greenplum 架构介绍

Greenplum 是一款基于分布式架构的开源数据库;采用无共享(Shared-Nothing)的 MPP 架构(每个数据节点拥有独立的 CPU、IO 和内存等资源);其具有良好的线性扩展能力,具有高效的并行运算、并行存储特性。拥有独特的高效的 ORCA...

Greenplum 是一款基于分布式架构的开源数据库;采用无共享(Shared-Nothing)的 MPP 架构(每个数据...

admin admin 2 年,2 月 之前

MaxCompute 分区操作

分区表是指拥有分区空间的表,即在创建表时指定表内的一个或者某几个字段作为分区列。分区表实际就是对应分布式文件系统上的独立的文件夹,一个分区对应一个文件夹,文件夹下是对应分区所有的数据文件。

分区表是指拥有分区空间的表,即在创建表时指定表内的一个或者某几个字段作为分区列。分区表实际就是对应分布式文件系统上的独立的...

admin admin 2 年,5 月 之前

Greenplum 开发小知识

在 Greenplum 数据库开发中,经常会遇到诸如行转列、单行变多行等需求,熟练使用 Greenplum 自带的函数,实现这些功能会变得得心应手。

在 Greenplum 数据库开发中,经常会遇到诸如行转列、单行变多行等需求,熟练使用 Greenplum 自带的函数,实...