数据倾斜:修订历史

跳到导航 跳到搜索

差异选择:选中要对比的版本的单选按钮,按Enter键或下方的按钮。
说明:(当前)=与最后版本之间的差异,(之前)=与上一版本之间的差异,=小编辑。

2024年12月26日 (星期四)

  • 当前之前 11:012024年12月26日 (四) 11:01阿奔 讨论 贡献 2,292字节 +2,292 创建页面,内容为“数据倾斜:在并行进行数据处理的时候,由于单个 partition 的数据显著多余其他部分,分布不均匀,导致大量数据集中分布到少数计算节点上,使得该部分的处理速度远低于平均计算速度,成为整个数据集处理的瓶颈,从而影响整体计算性能。 === 原因 === # 对于 join 过程来说,如果出项较多的 key 值为空或异常的记录,或 key 值分布不均匀,就容易出…”