§
    x-j<4  ã                  óÆ   — d dl mZ d dlmZ d dlZd dlmZmZ d dlm	Z
 d dlmZ d dlmZ d dlmZ d d	lmZ d d
lmZ erd dlmZ d dlmZ d dlmZ g Z G d„ de¦  «        ZdS )é    )Úannotations)ÚTYPE_CHECKINGN)Ú	frameworkÚunique_name)Úbase)ÚVariable)ÚLayerHelper)Úin_pir_mode)Ú	Optimizer)Úcreate_parameter)ÚTensor)ÚOperator)ÚProgramc                  óæ   ‡ — e Zd ZU dZded<   ded<   ded<   ded	<   d
ed<   dZ	 	 	 d$d%ˆ fd„Zˆ fd„Zej	        e
j        d&d„¦   «         ¦   «         Zd„ Zd„ Zd„ Ze
j        	 	 	 d'd(d#„¦   «         Zˆ xZS ))Ú	LookAheada  
    This implements the Lookahead optimizer of the
    paper : https://arxiv.org/abs/1907.08610.

    Lookahead keeps two sets of params: the fast_params and
    the slow_params. inner_optimizer update fast_params every
    training step. Lookahead updates the slow_params and fast_params
    every k training steps as follows:

    .. math::

        slow\_param_t &= slow\_param_{t-1} + \\alpha * (fast\_param_{t-1} - slow\_param_{t-1})

        fast\_param_t &=  slow\_param_t

    Args:
        inner_optimizer (Optimizer): The optimizer that update fast params step by step.
        alpha (float, optional): The learning rate of Lookahead. The default value is 0.5.
        k (int, optional): The slow params is updated every k steps. The default value is 5.
        name (str, optional): Normally there is no need for user to set this property.
            For more information, please refer to :ref:`api_guide_Name`.
            The default value is None.

    Examples:

        .. code-block:: python

            >>> import numpy as np
            >>> import paddle
            >>> import paddle.nn as nn

            >>> BATCH_SIZE = 16
            >>> BATCH_NUM = 4
            >>> EPOCH_NUM = 4

            >>> IMAGE_SIZE = 784
            >>> CLASS_NUM = 10
            >>> # define a random dataset
            >>> class RandomDataset(paddle.io.Dataset): # type: ignore[type-arg]
            ...     def __init__(self, num_samples):
            ...         self.num_samples = num_samples
            ...     def __getitem__(self, idx):
            ...         image = np.random.random([IMAGE_SIZE]).astype('float32')
            ...         label = np.random.randint(0, CLASS_NUM - 1,
            ...                                 (1, )).astype('int64')
            ...         return image, label
            ...     def __len__(self):
            ...         return self.num_samples

            >>> class LinearNet(nn.Layer):
            ...     def __init__(self):
            ...         super().__init__()
            ...         self._linear = nn.Linear(IMAGE_SIZE, CLASS_NUM)
            ...         self.bias = self._linear.bias
            ...     @paddle.jit.to_static
            ...     def forward(self, x):
            ...         return self._linear(x)

            >>> def train(layer, loader, loss_fn, opt):
            ...     for epoch_id in range(EPOCH_NUM):
            ...         for batch_id, (image, label) in enumerate(loader()):
            ...             out = layer(image)
            ...             loss = loss_fn(out, label)
            ...             loss.backward()
            ...             opt.step()
            ...             opt.clear_grad()
            ...             print("Train Epoch {} batch {}: loss = {}".format(
            ...                 epoch_id, batch_id, np.mean(loss.numpy())))
            >>> layer = LinearNet()
            >>> loss_fn = nn.CrossEntropyLoss()
            >>> optimizer = paddle.optimizer.SGD(learning_rate=0.1, parameters=layer.parameters())
            >>> lookahead = paddle.incubate.LookAhead(optimizer, alpha=0.2, k=5)

            >>> # create data loader
            >>> dataset = RandomDataset(BATCH_NUM * BATCH_SIZE)
            >>> loader = paddle.io.DataLoader(
            ...     dataset,
            ...     batch_size=BATCH_SIZE,
            ...     shuffle=True,
            ...     drop_last=True,
            ...     num_workers=2)

            >>> # doctest: +SKIP('The run time is too long to pass the CI check.')
            >>> train(layer, loader, loss_fn, lookahead)

    r   Úinner_optimizerÚfloatÚalphaÚintÚkÚstrÚtyper	   ÚhelperÚslowç      à?é   NÚnameú
str | NoneÚreturnÚNonec                ó.  •— |€
J d¦   «         ‚d|cxk    rdk    sn J d¦   «         ‚t          |t          ¦  «        r|dk    s
J d¦   «         ‚|| _        | j        j        €Ct          j                             ¦   «                              ¦   «                              ¦   «         }n| j        j        }t          ¦   «          
                    ||d d |¬¦  «         || _        || _        d| _        t          | j        j        ¦  «        | _        d | _        d | _        d S )	Nzinner optimizer can not be Noneç        ç      ð?zBalpha should be larger or equal to 0.0, and less or equal than 1.0r   zk should be a positive integer)Úlearning_rateÚ
parametersÚweight_decayÚ	grad_clipr   Ú	lookahead)Ú
isinstancer   r   Ú_parameter_listÚpaddleÚstaticÚdefault_main_programÚglobal_blockÚall_parametersÚsuperÚ__init__r   r   r   r	   Ú	__class__Ú__name__r   Ú_global_step_varÚ_k_var)Úselfr   r   r   r   r%   r2   s         €úc/var/www/html/banglarbhumi/venv/lib/python3.11/site-packages/paddle/incubate/optimizer/lookahead.pyr1   zLookAhead.__init__„   s+  ø€ ð Ð*Ð*Ð,MÑ*Ô*Ð*ØeÐ"Ð"Ò"Ð"˜sÒ"Ð"Ð"Ð"Ð"ØPñ #Ô"Ð"õ ˜!SÑ!Ô!ÐM a¨!¢e e eÐ-M¡e¤eÐ+à.ˆÔØÔÔ/Ð7å”×2Ò2Ñ4Ô4ß’‘”ß’Ñ!Ô!ð ˆJð Ô-Ô=ˆJå‰Œ×ÒØØ!ØØØð 	ñ 	
ô 	
ð 	
ð ˆŒ
ØˆŒØˆŒ	Ý! $¤.Ô"9Ñ:Ô:ˆŒØ $ˆÔØˆŒˆˆó    c                ó‚   •— t          ¦   «                              ||¦  «         | j                             ||¦  «         d S ©N)r0   Ú_set_auxiliary_varr   )r6   ÚkeyÚvalr2   s      €r7   r;   zLookAhead._set_auxiliary_varª   s<   ø€ Ý‰Œ×"Ò" 3¨Ñ,Ô,Ð,ØÔ×/Ò/°°SÑ9Ô9Ð9Ð9Ð9r8   c                ó6  — | j                              ¦   «          |                      ¦   «          g }| j        D ]I}|j        sŒ
|                     ¦   «         +|                     ¦   «         }|                     ||f¦  «         ŒJ|                      dd|¬¦  «         dS )a«  
        Execute the optimizer and update parameters once.

        Returns:
            None

        Examples:

            .. code-block:: python

                >>> import paddle
                >>> inp = paddle.rand([1,10], dtype="float32")
                >>> linear = paddle.nn.Linear(10, 1)
                >>> out = linear(inp)
                >>> loss = paddle.mean(out)
                >>> sgd = paddle.optimizer.SGD(learning_rate=0.1,parameters=linear.parameters())
                >>> lookahead = paddle.incubate.LookAhead(sgd, alpha=0.2, k=5)
                >>> loss.backward()
                >>> lookahead.step()
                >>> lookahead.clear_grad()

        N)ÚlossÚstartup_programÚparams_grads)r   ÚstepÚ_increment_global_varr*   Ú	trainableÚ
_grad_ivarÚappendÚ_apply_optimize)r6   rA   ÚparamÚgrad_vars       r7   rB   zLookAhead.step®   sº   € ð2 	Ô×!Ò!Ñ#Ô#Ð#à×"Ò"Ñ$Ô$Ð$ØˆØÔ)ð 	7ð 	7ˆEØ”?ð ØØ×ÒÑ!Ô!Ð-Ø ×+Ò+Ñ-Ô-Ø×#Ò# U¨HÐ$5Ñ6Ô6Ð6øà×ÒØ t¸,ð 	ñ 	
ô 	
ð 	
ð 	
ð 	
r8   c                ó    — t          |t          j        t          j        j        f¦  «        sJ ‚|D ]}|                      | j        |¦  «         Œd S r:   )r)   r   ÚBlockr+   ÚpirÚ_add_accumulatorÚ	_slow_str)r6   Úblockr%   Úps       r7   Ú_create_accumulatorszLookAhead._create_accumulatorsÖ   sX   € Ý˜%¥)¤/µ6´:Ô3CÐ!DÑEÔEÐEÐEÐEàð 	5ð 	5ˆAØ×!Ò! $¤.°!Ñ4Ô4Ð4Ð4ð	5ð 	5r8   c           
     óø  — t          ¦   «         rx| j        €Pt          ddgt          j        d¦  «        dt
          j        j                             dd¬¦  «        ¬¦  «        | _        t          j	        | j        d¦  «        | _        d S | j        €<t
          j
                             t          j        d¦  «        dgd	dd
¬¦  «        | _        | j                             dd| j        gid| j        giddi¬¦  «         d S )NÚint32é   Úlookahead_stepFr"   ©ÚvalueÚ	force_cpu©ÚdtypeÚshaper   rD   Úinitializerr#   r   T©r   r[   rW   rZ   ÚpersistableÚ	incrementÚXÚOutrB   )r   ÚinputsÚoutputsÚattrs)r
   r4   r   r   Úgenerater+   Únnr\   ÚConstantInitializerr_   r,   Úcreate_global_varr   Ú	append_op)r6   s    r7   rC   zLookAhead._increment_global_varÜ   s"  € Ý‰=Œ=ð 	ØÔ$Ð,Ý(8Ø!Ø˜#Ý$Ô-Ð.>Ñ?Ô?Ø#Ý &¤	Ô 5× IÒ IØ!¨Uð !Jñ !ô !ð)ñ )ô )Ô%õ %+Ô$4°TÔ5JÈCÑ$PÔ$PˆDÔ!Ð!Ð!àÔ$Ð,Ý(.¬×(GÒ(GÝ$Ô-Ð.>Ñ?Ô?Ø˜#ØØ!Ø $ð )Hñ )ô )Ô%ð ŒK×!Ò!Ø Ø˜dÔ3Ð4Ð5Ø Ô!6Ð 7Ð8Ø˜smð	 "ñ ô ð ð ð r8   c                ó  — t          j        dgdd¬¦  «        }t          j        dgdd¬¦  «        }t          ¦   «         r^t	          ddgt          j        d¦  «        dt           j        j         	                    t          | j        ¦  «        d¬¦  «        ¬	¦  «        }n<t           j                             t          j        d¦  «        dg| j        dd
¬¦  «        }t          j        | j        |¦  «        }t          j        | j        |¦  «        }t          j        |d¬¦  «        }t          j        ||¦  «        }t          j        |d¬¦  «        }|                      | j        |d         ¦  «        }	||d         z  d|z
  |	z  z   }
t          j        |
|	¦  «         | j        |d         z  d| j        z
  |	z  z   }
||
z  d|z
  |d         z  z   }t          j        ||d         ¦  «         ||
z  d|z
  |	z  z   }t          j        ||	¦  «         d S )NrT   rS   Úlookahead_ones)r[   rZ   r   Úlookahead_zerosÚlookahead_kFrV   rY   Tr]   Úfloat32)rZ   r   r#   )r+   ÚonesÚzerosr
   r   r   re   rf   r\   rg   r   r   r,   rh   Ú	remainderr4   ÚequalÚcastÚ_get_accumulatorrN   Úassignr   )r6   rO   Úparam_and_gradÚone_varÚzero_varÚk_varÚmodÚcond_1Úcond_2Úslow_varÚtmp_varÚ	tmp_var_1s               r7   Ú_append_optimize_opzLookAhead._append_optimize_opú   s  € Ý”+ Q C¨wÐ=MÐNÑNÔNˆÝ”<Ø#˜WÐ+<ð
ñ 
ô 
ˆõ ‰=Œ=ð 	Ý$ØØcÝ Ô)¨-Ñ8Ô8ØÝ"œIÔ1×EÒEÝ ¤™-œ-°5ð Fñ ô ðñ ô ˆEˆEõ ”M×3Ò3Ý Ô)¨-Ñ8Ô8ØcØ”fØØ ð 4ñ ô ˆEõ Ô˜tÔ4°eÑ<Ô<ˆå”˜dÔ3°WÑ=Ô=ˆÝ”˜V¨9Ð5Ñ5Ô5ˆå”˜c 8Ñ,Ô,ˆÝ”˜V¨9Ð5Ñ5Ô5ˆà×(Ò(¨¬¸ÈÔ9JÑKÔKˆà˜>¨!Ô,Ñ,°°F±
¸hÑ/FÑFˆÝŒg˜xÑ(Ô(Ð(à”*˜~¨aÔ0Ñ0°C¸$¼*Ñ4DÈÑ3PÑPˆØ˜WÑ$¨¨F©
°nÀQÔ6GÑ'GÑGˆ	ÝŒi °Ô!2Ñ3Ô3Ð3à˜WÑ$¨¨F©
°hÑ'>Ñ>ˆ	ÝŒi Ñ*Ô*Ð*Ð*Ð*r8   r?   r   r@   úProgram | Noner%   úlist[Tensor] | list[str] | NoneÚno_grad_setúset[Tensor] | set[str] | Noneú2tuple[list[Operator], list[tuple[Tensor, Tensor]]]c                ó  — t          |t          t          j        j        f¦  «        s
J d¦   «         ‚| j                             ||||¬¦  «        \  }}|                      ¦   «          |                      |||¬¦  «        }||fS )a‚  
        Add operations to minimize ``loss`` by updating ``parameters``.

        Args:
            loss (Tensor): A ``Tensor`` containing the value to minimize.
            startup_program (Program, optional): :ref:`api_paddle_static_Program` for
                initializing parameters in ``parameters``. The default value
                is None, at this time :ref:`api_paddle_static_default_startup_program` will be used.
            parameters (list, optional): List of ``Tensor`` or ``Tensor.name`` to update
                to minimize ``loss``. The default value is None, at this time all parameters
                will be updated.
            no_grad_set (set, optional): Set of ``Tensor``  or ``Tensor.name`` that don't need
                to be updated. The default value is None.

        Returns:
            tuple: tuple (optimize_ops, params_grads), A list of operators appended
            by minimize and a list of (param, grad) tensor pairs, param is
            ``Parameter``, grad is the gradient value corresponding to the parameter.
            In static graph mode, the returned tuple can be passed to ``fetch_list`` in ``Executor.run()`` to
            indicate program pruning. If so, the program will be pruned by ``feed`` and
            ``fetch_list`` before run, see details in ``Executor``.

        Examples:

            .. code-block:: python

                >>> import paddle

                >>> inp = paddle.rand([1, 10], dtype="float32")
                >>> linear = paddle.nn.Linear(10, 1)
                >>> out = linear(inp)
                >>> loss = paddle.mean(out)
                >>> sgd = paddle.optimizer.SGD(learning_rate=0.1,parameters=linear.parameters())
                >>> lookahead = paddle.incubate.LookAhead(sgd, alpha=0.2, k=5)
                >>> loss.backward()
                >>> lookahead.minimize(loss)
                >>> lookahead.clear_grad()

        zThe loss should be an Tensor.)r@   r%   rƒ   )r@   rA   )	r)   r   r+   rL   ÚValuer   ÚminimizerC   rG   )r6   r?   r@   r%   rƒ   Úoptimize_opsrA   Ú_s           r7   rˆ   zLookAhead.minimize&  s©   € õ^ ˜$¥­6¬:Ô+;Ð <Ñ=Ô=ð 	
ð 	
Ø+ñ	
ô 	
Ð=ð
 &*Ô%9×%BÒ%BØØ+Ø!Ø#ð	 &Cñ &
ô &
Ñ"ˆlð 	×"Ò"Ñ$Ô$Ð$à× Ò Ø /Àð !ñ 
ô 
ˆð ˜\Ð)Ð)r8   )r   r   N)
r   r   r   r   r   r   r   r   r   r    )r   r    )NNN)
r?   r   r@   r   r%   r‚   rƒ   r„   r   r…   )r3   Ú
__module__Ú__qualname__Ú__doc__Ú__annotations__rN   r1   r;   r   Údygraph_onlyÚimperative_baseÚno_gradrB   rQ   rC   r€   rˆ   Ú__classcell__)r2   s   @r7   r   r   $   sN  ø€ € € € € € ðUð Uðn ÐÐÑØ€L€LLØ
€F€FFØ€I€IIØÐÐÑà€Ið
 ØØð$ð $ð $ð $ð $ð $ð $ðL:ð :ð :ð :ð :ð ÔØÔð$
ð $
ð $
ñ Ôñ Ôð$
ðL5ð 5ð 5ðð ð ð<*+ð *+ð *+ðX Ôð +/Ø6:Ø59ð@*ð @*ð @*ð @*ñ Ôð@*ð @*ð @*ð @*ð @*r8   r   )Ú
__future__r   Útypingr   r+   Úpaddle.baser   r   Úpaddle.base.dygraphr   r   Úpaddle.base.frameworkr   Úpaddle.base.layer_helperr	   Úpaddle.frameworkr
   Úpaddle.optimizerr   Úpaddle.pir.corer   r   r   Úpaddle.staticr   Ú__all__r   © r8   r7   ú<module>rŸ      s;  ðð #Ð "Ð "Ð "Ð "Ð "à  Ð  Ð  Ð  Ð  Ð  à €€€Ø .Ð .Ð .Ð .Ð .Ð .Ð .Ð .Ø 7Ð 7Ð 7Ð 7Ð 7Ð 7Ø *Ð *Ð *Ð *Ð *Ð *Ø 0Ð 0Ð 0Ð 0Ð 0Ð 0Ø (Ð (Ð (Ð (Ð (Ð (Ø &Ð &Ð &Ð &Ð &Ð &Ø ,Ð ,Ð ,Ð ,Ð ,Ð ,àð &ØÐÐÐÐÐØ.Ð.Ð.Ð.Ð.Ð.Ø%Ð%Ð%Ð%Ð%Ð%ð €ðC*ð C*ð C*ð C*ð C*	ñ C*ô C*ð C*ð C*ð C*r8   