ShardingStage2_Zero2

分为GroupShardedOptimizerStage2与GroupShardedStage2，前者会服务于后者

1.GroupShardedOptimizerStage2

segment_params

可以看到，这里切分param采用和ShardingV1同样的方式，会按照负载均衡的思想给每个rank上分别分配参数。

dtype_rank_param

根据dtype再将每个rank上的params再做一次划分。

rank_buffer_size

保存每个rank上对应dtype的所有param经过padding后的大小。

integration_params

根据rank_buffer_size来创建每个rank不同dtype的params组对应的storage。这里创建的storage是一个ParamStorage的实例，即创建一个buffer_size大小的实例，这个实例包含来当前rank某种dtype的所有param经过padding后的大小之和，根据这个size创建后，得到一个连续的内存空间。可以调用add_rank_params来将每个param连续地放到这个存储空间。

add_rank_params

这里会将param给放到对应的buffer组中，从而将一组离散的param视图，转换成一个连续空间上的param视图

_add_param_as_view

这里会调用param.flatten_()把参数展平，然后将对应的数据复制到当前buffer的对应位置，padding部分无需复制。这里展平是为了和buffer的size对齐。这里会记录param.shape，将param的值拷贝到buffer上后，会立即恢复param的shpae，通过param.get_tensor()._set_dims(p_shape)

param.flatten_()

这是flatten的kernel，其实是组一个reshape的操作，即将param的shape转换成一维的，这里虽然会调用Alloc，但是这个reshape操作不会改变param的shape大小，所以一般不会新分配内存，这里要返回的是out，Copy即会将out指向和x指向的同一片区域，并且此时out的dims设置成一维大小。这里的out->dims就是调用flatten过程中，会遍历x_dims，做乘积，从而将多维展成一维。

broadcast_params