jtLiBrain

任何伟大的事都不会一蹴而就，三分智慧，七分韧性

0%

Hadoop MapReduce：编程

Posted on 2021-03-14 Edited on 2021-10-20 In hadoop

Hive优化系列2：Join

Posted on 2021-03-11 Edited on 2021-04-09 In hive

Spark SQL：Join详解

Posted on 2021-03-10 Edited on 2021-04-10 In spark

Hive优化系列1：MR&Hive如何控制map和reduce任务数量

Posted on 2021-03-09 Edited on 2021-12-13 In hive

Spark SQL：自适应查询执行(Adaptive Query Execution)

Posted on 2021-03-09 Edited on 2022-07-05 In spark

合并shuffle后的分区

配置项	默认值	描述	版本
spark.sql.adaptive.enabled	true		3.0.0
spark.sql.adaptive.coalescePartitions.enabled			3.0.0
spark.sql.adaptive.coalescePartitions.initialPartitionNum		当shuffle后分区数超过该值时，启动合并。默认等于spark.sql.shuffle.partitions。该设置是为了保证下游分区并行度水平不至于过低。	3.0.0

spark.sql.adaptive.advisoryPartitionSizeInBytes	64MB	合并后的目标分区的建议大小	3.0.0

spark.sql.adaptive.coalescePartitions.parallelismFirst	true	合并分区时采用并行度优先的原则 1.该配置项为true时，会遵循spark.sql.adaptive.coalescePartitions.minPartitionSize设置的最小目标分区大小，以最大化并行度；而忽略spark.sql.adaptive.advisoryPartitionSizeInBytes所配置的目标分区建议大小。 2.推荐将该配置项设置为false，遵循spark.sql.adaptive.advisoryPartitionSizeInBytes所配置的目标分区建议大小。	3.2.0
spark.sql.adaptive.coalescePartitions.minPartitionSize	1MB	合并后的目标分区需要满足的最小值，该配置项最高设置为spark.sql.adaptive.advisoryPartitionSizeInBytes的20%。	3.2.0

将SortMergeJoin转换为BroadcastJoin/ShuffleHashJoin

配置项	默认值	描述	版本
spark.sql.adaptive.enabled	true		3.0.0

spark.sql.adaptive.autoBroadcastJoinThreshold		将SortMergeJoin转换为BroadcastJoin时表大小的最大值。默认等于spark.sql.autoBroadcastJoinThreshold	3.2.0
spark.sql.adaptive.localShuffleReader.enabled	true		3.2.0

spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold	0	当所有分区都小于或等于该阈值时，不管spark.sql.join.preferSortMergeJoin是如何配置的，Spark都会优先选择ShuffleHashJoin，而不是SortMergeJoin。	3.2.0

优化倾斜Join

配置项	默认值	描述	版本
spark.sql.adaptive.enabled	true		3.0.0
spark.sql.adaptive.skewJoin.enabled	true		3.0.0

spark.sql.adaptive.skewJoin.skewedPartitionFactor	5	当分区大小同时满足如下两个条件则被认为是倾斜的： 1. 大于 skewedPartitionFactor * 分区大小中位数； 2. 大于 skewedPartitionThresholdInBytes；	3.0.0
spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes	256MB		3.0.0

参考

Spark Steaming原理

Posted on 2021-03-01 Edited on 2021-04-10 In spark

Flink：执行模式（译）

Posted on 2021-02-18 Edited on 2021-02-20 In flink

Flink入门系列2：作业提交

Posted on 2021-01-22 In flink

NexT 主题使用

Posted on 2021-01-21 In blog

Flink入门系列1：架构与部署

Posted on 2021-01-17 Edited on 2021-01-22 In flink