ó
    Î‘®i-  ã                  ó^  • S SK Jr  S SKrS SKrS SKJrJr  S SKrS SKJ	r	  S SK
Jr  S SKJr  S SKJr  S SKJr  S S	KJr  S S
KJr  \(       a  S SKJr  S SKJr  S SKJr  S SKJr  \" \R<                  5      r         S                         SS jjr  S       SS jjr!g)é    )ÚannotationsN)ÚTYPE_CHECKINGÚLiteral)ÚGroupShardedOptimizerStage2)ÚGroupShardedStage2)ÚGroupShardedStage3)ÚGroupShardedScaler)ÚMixPrecisionOptimizer)Ú
get_logger)Ú	Optimizer)ÚSequence)Ú
GradScaler)ÚGroup)ÚLayerc                ó  • [         R                  " 5       R                  S5      S   nUS;   d)  U[         R                  R	                  5       ;   d   S5       e[        U [         R                  R                  5      (       d   S5       e[        U[        [        45      (       d   S5       eUS;   d   S5       eS	 n[        [        XÐR                  5       5      5      nUc$  [        U5      S:”  a  [        R                  S
5        US;   ag  [        R!                  S5        [        R!                  S5        [        R!                  S5        [#        UR$                  UUUU
US9n['        U UUUUU
US9n O$US:X  a  [)        U UUUUUU	U
UUS9
n O[+        S5      e[        U[         R,                  R.                  5      (       a  [1        U5      n[        R!                  S5        [        R!                  S5        [        R!                  S5        XU4$ )a/  
Use group_sharded_parallel can perform group shared configuration on the model, optimizer and GradScaler. Level has three string options, 'os', 'os_g' and 'p_g_os' corresponds to three different usage scenarios: optimizer state segmentation, optimizer state + gradient segmentation, and parameter + gradient + optimizer state segmentation.
Usually, optimizer state + gradient segmentation is actually a re optimization of optimizer state segmentation, so optimizer state + gradient segmentation can be used to realize optimizer state segmentation.

Args:
    model (Layer): The layer to be wrapped with group_sharded_parallel.
    optimizer (Optimizer): The optimizer to be wrapped with group_sharded_parallel.
    level (str): The different level of the group sharded. Such as `os`, `os_g`, `p_g_os`.
    scaler (GradScaler|None, optional): If AMP is used, you need to pass GradScaler. Defaults to None, indicating that GradScaler is not used.
    group (Group|None, optional): The group instance. Defaults to None, indicating that the default environment group is used.
    offload (bool, optional): Whether to use the offload function. Defaults to False, which means that the offload function is not used.
    sync_buffers (bool, optional): Whether to broadcast model buffers. It is generally used when there are registered model buffers. Defaults to False, indicating that model buffers are not used.
    buffer_max_size (int, optional): The max size of the buffer used to integrate gradient in `os_g`. The larger the size, the more GPU memory will be used. Defaults to 2**23, which means that the dimension of the buffer is 2**23.
    segment_size (int, optional): The smallest size of parameter to be sharded in `p_g_os`. Defaults to 2**20, indicating that the dimension of the minimum segmented parameter is 2**20.
    sync_comm (bool, optional): Whether to use synchronous communication, only in `p_g_os` used. Defaults to False, indicating that asynchronous communication is used.
    dp_group(Group|None, optional): dp communication group, support to combine stage2 or stage3 with dp hybrid communication.
    exclude_layer(list|None, optional): exclude some layers for slicing for sharding stage3, for example, exclude_layer=["GroupNorm", id(model.gpt.linear)], exclude_layer must contain the layers' name or one layer's id.

Returns:
    model: A wrapper for group sharded given model.
    optimizer: A wrapper for group sharded given optimizer.
    scaler: A wrapper for group sharded given scaler.

Examples:
    .. code-block:: python

        >>> # type: ignore
        >>> # doctest: +REQUIRES(env:DISTRIBUTED)
        >>> import paddle
        >>> from paddle.nn import Linear
        >>> from paddle.distributed import fleet
        >>> from paddle.distributed.sharding import group_sharded_parallel

        >>> fleet.init(is_collective=True)
        >>> group = paddle.distributed.new_group([0, 1])
        >>> model = Linear(1000, 1000)

        >>> clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=1.0)
        >>> optimizer = paddle.optimizer.AdamW(learning_rate=0.001, parameters=model.parameters(), weight_decay=0.00001, grad_clip=clip)

        >>> # wrap sharding model, optimizer and scaler
        >>> model, optimizer, scaler = group_sharded_parallel(model, optimizer, "p_g", scaler=scaler)

        >>> img, label = data
        >>> label.stop_gradient = True
        >>> img.stop_gradient = True

        >>> out = model(img)
        >>> loss = paddle.nn.functional.cross_entropy(input=out, label=label)

        >>> loss.backward()
        >>> optimizer.step()
        >>> optimizer.clear_grad()

Ú:r   )ÚgpuÚxpuzBgroup_sharded_parallel only support gpu, xpu and custom_device nowz2The model must be the instance of paddle.nn.Layer.zhThe optimizer must be the instance of paddle.optimizer.Optimizer or MixPrecisionOptimizer for main grad.)ÚosÚos_gÚp_g_osz%The level must be os, os_g or p_g_os.c                ó<   • U R                   [        R                  :H  $ ©N)ÚdtypeÚpaddleÚfloat16)Úparams    Úi/var/www/html/banglarbhumi/venv/lib/python3.13/site-packages/paddle/distributed/sharding/group_sharded.pyÚcheck_dtypeÚ+group_sharded_parallel.<locals>.check_dtype   s   € Ø{‰{œfŸn™nÑ,Ð,ó    zjthe input of scaler is None, please ensure the logic of your scaler outside is same as GroupShardedScaler.)r   r   z******************************z6Sharded level os uses sharded level os_g achieved now.)ÚparamsÚoptimÚgroupÚoffloadÚdp_groupÚdevice)r$   Úsync_buffersÚbuffer_max_sizer&   r'   r   )	Ú	optimizerr$   r(   Úsegment_sizer%   Ú	sync_commr&   r'   Úexclude_layerzPlease enter the correct level.z„If there is a communication hang using group sharded, please check whether the communication operations of each process are unified.)r   Ú
get_deviceÚsplitr'   Úget_all_custom_device_typeÚ
isinstanceÚnnr   r
   r   ÚlistÚfilterÚ
parametersÚlenÚlogger_ÚwarningÚinfor   Ú_parameter_listr   r   Ú
ValueErrorÚampr   r	   )Úmodelr*   ÚlevelÚscalerr$   r%   r(   r)   r+   r,   r&   r-   r'   r   Úparams_fp16s                  r   Úgroup_sharded_parallelrA   2   s  € ôL ×ÒÓ ×&Ñ& sÓ+¨AÑ.€Fàð
ó	
ð
 ”V—]‘]×=Ñ=Ó?Ó?ðLð LóLð	@ô eœVŸY™YŸ_™_×-Ñ-ð Ø<óÐ-ô iÔ"7¼Ð!C×DÑDð ð	2óÐDð ð ó ð /ð /ó	/ð ò-ô ”v˜k×+;Ñ+;Ó+=Ó>Ó?€KØ~œ#˜kÓ*¨QÓ.Ü‰Øxô	
ð ÓÜ‰XÔÜ‰ÐMÔNÜ‰XÔÜ/Ø×,Ñ,ØØØØØñ
ˆ	ô #ØØØØ%Ø+ØØñ
‰ð 
(Ó	Ü"ØØØØ%Ø%ØØØØØ'ñ
‰ô Ð:Ó;Ð;Ü&œ&Ÿ*™*×/Ñ/×0Ñ0Ü# FÓ+ˆÜ‡LLÔÜ‡LLð 	Oôô ‡LLÔà˜VÐ#Ð#r!   c                óf  • [         R                  S5        [        R                  R	                  U5      (       a   SU S35       e[        R
                  " USS9  [        R                  R                  US5      n[        U [        5      (       a0  [        R                  " U R                  R                  5       U5        Ot[        U [        5      (       aT  U R                  (       a  SOSnU R                  US9  [        R                  " U R                  R                  5       U5        O[!        S	5      eUbg  [#        US5      (       d   S5       e[        R                  R                  US5      n[        R                  " UR$                  R                  5       U5        [         R                  S5        g
)aÒ  
Group sharded encapsulated model and optimizer state saving module.

Note:
    If using save_group_sharded_model saves the model. When loading again, you need to set the model or optimizer state before using group_sharded_parallel.

Args:
    model (Layer): A wrapper for group sharded given model.
    output (str): Save directory.
    optimizer (Optimizer, optional): Group sharded encapsulated optimizer. Defaults to None, indicating that the optimizer state is not saved.

Examples:
    .. code-block:: python

        >>> # type: ignore
        >>> # doctest: +REQUIRES(env:DISTRIBUTED)
        >>> import paddle
        >>> from paddle.nn import Linear
        >>> from paddle.distributed import fleet
        >>> from paddle.distributed.sharding import group_sharded_parallel, save_group_sharded_model

        >>> fleet.init(is_collective=True)
        >>> group = paddle.distributed.new_group([0, 1])
        >>> model = Linear(1000, 1000)

        >>> clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=1.0)
        >>> optimizer = paddle.optimizer.AdamW(learning_rate=0.001, parameters=model.parameters(), weight_decay=0.00001, grad_clip=clip)

        >>> # wrap sharding model, optimizer and scaler
        >>> model, optimizer, scaler = group_sharded_parallel(model, optimizer, "p_g", scaler=scaler)

        >>> img, label = data
        >>> label.stop_gradient = True
        >>> img.stop_gradient = True

        >>> out = model(img)
        >>> loss = paddle.nn.functional.cross_entropy(input=out, label=label)

        >>> loss.backward()
        >>> optimizer.step()
        >>> optimizer.clear_grad()

        >>> # save model and optimizer state_dict
        >>> save_group_sharded_model(model, optimizer, output=output_dir)

zC==========Begin to save group sharded model and optimizer==========zSaving directory (z#) should be a directory, not a fileT)Úexist_okzmodel.pdmodelF)Úconvert2cpuzBPlease use the layer which is wrapped with group_sharded_parallel.NÚ_optimzFPlease use the optimizer which is wrapped with group_sharded_parallel.zmodel.pdoptzA==========End to save group sharded model and optimizer==========)r7   r9   r   ÚpathÚisfileÚmakedirsÚjoinr1   r   r   ÚsaveÚ_layerÚ
state_dictr   Ú_offloadÚget_all_parametersr;   ÚhasattrrE   )r=   Úoutputr*   Úoutput_modelrD   Ú
output_opts         r   Úsave_group_sharded_modelrS   Ç   sN  € ôb ‡LLØMôô w‰w~‰~˜f×%Ñ%ð Ø
˜V˜HÐ$GÐHóÐ%ô ‡K‚K Ò&Ü—7‘7—<‘< ¨Ó8€LÜ%Ô+×,Ñ,ÜŠE—L‘L×+Ñ+Ó-¨|Õ<Ü	EÔ-×	.Ñ	.Ø#ŸnŸn‘d°%ˆØ× Ñ ¨[Ð Ñ9ÜŠE—L‘L×+Ñ+Ó-¨|Õ<äØPó
ð 	
ð ÑÜy (×+Ñ+ð 	
ØTó	
Ð+ô —W‘W—\‘\ &¨-Ó8ˆ
ÜŠI×$Ñ$×/Ñ/Ó1°:Ô>Ü‡LLØKõr!   )	NNFFi  € i   FNN)r=   r   r*   r   r>   zLiteral['os', 'os_g', 'p_g_os']r?   zGradScaler | Noner$   úGroup | Noner%   Úboolr(   rU   r)   Úintr+   rV   r,   rU   r&   rT   r-   zSequence[str | int] | NoneÚreturnz#tuple[Layer, Optimizer, GradScaler]r   )r=   r   rP   Ústrr*   zOptimizer | NonerW   ÚNone)"Ú
__future__r   Úloggingr   Útypingr   r   r   ÚNpaddle.distributed.fleet.meta_parallel.sharding.group_sharded_optimizer_stage2r   ÚDpaddle.distributed.fleet.meta_parallel.sharding.group_sharded_stage2r   ÚDpaddle.distributed.fleet.meta_parallel.sharding.group_sharded_stage3r   ÚCpaddle.distributed.fleet.meta_parallel.sharding.group_sharded_utilsr	   Ú2paddle.distributed.fleet.utils.mix_precision_utilsr
   Ú"paddle.distributed.utils.log_utilsr   Úpaddle.optimizerr   Úcollections.abcr   Ú
paddle.ampr   Ú&paddle.distributed.communication.groupr   Ú	paddle.nnr   ÚWARNINGr7   rA   rS   © r!   r   Ú<module>rj      s3  ðõ #ã Û 	ß )ã õõõõõõ :Ý &æÝ(å%Ý<Ýá
W—_‘_Ó
%€ð !%ØØØØ ØØØ!Ø04ðR$ØðR$àðR$ð +ðR$ð ð	R$ð
 ðR$ð ðR$ð ðR$ð ðR$ð ðR$ð ðR$ð ðR$ð .ðR$ð )õR$ðl >BðLØðLØðLØ*:ðLà	öLr!   