PyPI - pyRDDLGym-jax - Versions diffs - 2.0__py3-none-any.whl → 2.2__py3-none-any.whl - Mend

pyRDDLGym-jax 2.0py3-none-any.whl → 2.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

pyRDDLGym_jax/__init__.py +1 -1
pyRDDLGym_jax/core/compiler.py +85 -190
pyRDDLGym_jax/core/logic.py +313 -56
pyRDDLGym_jax/core/planner.py +274 -200
pyRDDLGym_jax/core/visualization.py +7 -8
pyRDDLGym_jax/examples/run_tune.py +10 -6
{pyRDDLGym_jax-2.0.dist-info → pyrddlgym_jax-2.2.dist-info}/METADATA +43 -30
{pyRDDLGym_jax-2.0.dist-info → pyrddlgym_jax-2.2.dist-info}/RECORD +12 -12
{pyRDDLGym_jax-2.0.dist-info → pyrddlgym_jax-2.2.dist-info}/WHEEL +1 -1
{pyRDDLGym_jax-2.0.dist-info → pyrddlgym_jax-2.2.dist-info}/LICENSE +0 -0
{pyRDDLGym_jax-2.0.dist-info → pyrddlgym_jax-2.2.dist-info}/entry_points.txt +0 -0
{pyRDDLGym_jax-2.0.dist-info → pyrddlgym_jax-2.2.dist-info}/top_level.txt +0 -0

pyRDDLGym_jax/core/planner.py CHANGED Viewed

@@ -47,7 +47,9 @@ import jax.random as random
 import numpy as np
 import optax
 import termcolor
-from tqdm import tqdm
+from tqdm import tqdm, TqdmWarning
+import warnings
+warnings.filterwarnings("ignore", category=TqdmWarning)
 from pyRDDLGym.core.compiler.model import RDDLPlanningModel, RDDLLiftedModel
 from pyRDDLGym.core.debug.logger import Logger
@@ -69,8 +71,7 @@ try:
     from pyRDDLGym_jax.core.visualization import JaxPlannerDashboard
 except Exception:
     raise_warning('Failed to load the dashboard visualization tool: '
-                  'please make sure you have installed the required packages.',
-                  'red')
+                  'please make sure you have installed the required packages.', 'red')
     traceback.print_exc()
     JaxPlannerDashboard = None
@@ -133,7 +134,7 @@ def _load_config(config, args):
         comp_kwargs = model_args.get('complement_kwargs', {})
         compare_name = model_args.get('comparison', 'SigmoidComparison')
         compare_kwargs = model_args.get('comparison_kwargs', {})
-        sampling_name = model_args.get('sampling', 'GumbelSoftmax')
+        sampling_name = model_args.get('sampling', 'SoftRandomSampling')
         sampling_kwargs = model_args.get('sampling_kwargs', {})
         rounding_name = model_args.get('rounding', 'SoftRounding')
         rounding_kwargs = model_args.get('rounding_kwargs', {})
@@ -156,8 +157,7 @@ def _load_config(config, args):
         initializer = _getattr_any(
             packages=[initializers, hk.initializers], item=plan_initializer)
         if initializer is None:
-            raise_warning(
-                f'Ignoring invalid initializer <{plan_initializer}>.', 'red')
+            raise_warning(f'Ignoring invalid initializer <{plan_initializer}>.', 'red')
             del plan_kwargs['initializer']
         else:
             init_kwargs = plan_kwargs.pop('initializer_kwargs', {})
@@ -174,8 +174,7 @@ def _load_config(config, args):
         activation = _getattr_any(
             packages=[jax.nn, jax.numpy], item=plan_activation)
         if activation is None:
-            raise_warning(
-                f'Ignoring invalid activation <{plan_activation}>.', 'red')
+            raise_warning(f'Ignoring invalid activation <{plan_activation}>.', 'red')
             del plan_kwargs['activation']
         else:
             plan_kwargs['activation'] = activation
@@ -189,8 +188,7 @@ def _load_config(config, args):
     if planner_optimizer is not None:
         optimizer = _getattr_any(packages=[optax], item=planner_optimizer)
         if optimizer is None:
-            raise_warning(
-                f'Ignoring invalid optimizer <{planner_optimizer}>.', 'red')
+            raise_warning(f'Ignoring invalid optimizer <{planner_optimizer}>.', 'red')
             del planner_args['optimizer']
         else:
             planner_args['optimizer'] = optimizer
@@ -285,48 +283,14 @@ class JaxRDDLCompilerWithGrad(JaxRDDLCompiler):
         pvars_cast = set()
         for (var, values) in self.init_values.items():
             self.init_values[var] = np.asarray(values, dtype=self.REAL)
-            if not np.issubdtype(np.atleast_1d(values).dtype, np.floating):
+            if not np.issubdtype(np.result_type(values), np.floating):
                 pvars_cast.add(var)
         if pvars_cast:
             raise_warning(f'JAX gradient compiler requires that initial values '
                           f'of p-variables {pvars_cast} be cast to float.')
         # overwrite basic operations with fuzzy ones
-        self.RELATIONAL_OPS = {
-            '>=': logic.greater_equal,
-            '<=': logic.less_equal,
-            '<': logic.less,
-            '>': logic.greater,
-            '==': logic.equal,
-            '~=': logic.not_equal
-        }
-        self.LOGICAL_NOT = logic.logical_not
-        self.LOGICAL_OPS = {
-            '^': logic.logical_and,
-            '&': logic.logical_and,
-            '|': logic.logical_or,
-            '~': logic.xor,
-            '=>': logic.implies,
-            '<=>': logic.equiv
-        }
-        self.AGGREGATION_OPS['forall'] = logic.forall
-        self.AGGREGATION_OPS['exists'] = logic.exists
-        self.AGGREGATION_OPS['argmin'] = logic.argmin
-        self.AGGREGATION_OPS['argmax'] = logic.argmax
-        self.KNOWN_UNARY['sgn'] = logic.sgn
-        self.KNOWN_UNARY['floor'] = logic.floor
-        self.KNOWN_UNARY['ceil'] = logic.ceil
-        self.KNOWN_UNARY['round'] = logic.round
-        self.KNOWN_UNARY['sqrt'] = logic.sqrt
-        self.KNOWN_BINARY['div'] = logic.div
-        self.KNOWN_BINARY['mod'] = logic.mod
-        self.KNOWN_BINARY['fmod'] = logic.mod
-        self.IF_HELPER = logic.control_if
-        self.SWITCH_HELPER = logic.control_switch
-        self.BERNOULLI_HELPER = logic.bernoulli
-        self.DISCRETE_HELPER = logic.discrete
-        self.POISSON_HELPER = logic.poisson
-        self.GEOMETRIC_HELPER = logic.geometric
+        self.OPS = logic.get_operator_dicts()
     def _jax_stop_grad(self, jax_expr):
         def _jax_wrapped_stop_grad(x, params, key):
@@ -575,7 +539,7 @@ class JaxStraightLinePlan(JaxPlan):
         def _jax_non_bool_param_to_action(var, param, hyperparams):
             if wrap_non_bool:
                 lower, upper = bounds_safe[var]
-                mb, ml, mu, mn = [mask.astype(compiled.REAL)
+                mb, ml, mu, mn = [jnp.asarray(mask, dtype=compiled.REAL)
                                   for mask in cond_lists[var]]
                 action = (
                     mb * (lower + (upper - lower) * jax.nn.sigmoid(param)) +
@@ -660,7 +624,7 @@ class JaxStraightLinePlan(JaxPlan):
                     action = _jax_non_bool_param_to_action(var, action, hyperparams)
                     action = jnp.clip(action, *bounds[var])
                     if ranges[var] == 'int':
-                        action = jnp.round(action).astype(compiled.INT)
+                        action = jnp.asarray(jnp.round(action), dtype=compiled.INT)
                     actions[var] = action
             return actions
@@ -961,12 +925,11 @@ class JaxDeepReactivePolicy(JaxPlan):
             non_bool_dims = 0
             for (var, values) in observed_vars.items():
                 if ranges[var] != 'bool':
-                    value_size = np.atleast_1d(values).size
+                    value_size = np.size(values)
                     if normalize_per_layer and value_size == 1:
                         raise_warning(
                             f'Cannot apply layer norm to state-fluent <{var}> '
-                            f'of size 1: setting normalize_per_layer = False.',
-                            'red')
+                            f'of size 1: setting normalize_per_layer = False.', 'red')
                         normalize_per_layer = False
                     non_bool_dims += value_size
             if not normalize_per_layer and non_bool_dims == 1:
@@ -990,9 +953,11 @@ class JaxDeepReactivePolicy(JaxPlan):
                     else:
                         if normalize and normalize_per_layer:
                             normalizer = hk.LayerNorm(
-                                axis=-1, param_axis=-1,
+                                axis=-1,
+                                param_axis=-1,
                                 name=f'input_norm_{input_names[var]}',
-                                **self._normalizer_kwargs)
+                                **self._normalizer_kwargs
+                            )
                             state = normalizer(state)
                         states_non_bool.append(state)
                         non_bool_dims += state.size
@@ -1001,8 +966,11 @@ class JaxDeepReactivePolicy(JaxPlan):
             # optionally perform layer normalization on the non-bool inputs
             if normalize and not normalize_per_layer and non_bool_dims:
                 normalizer = hk.LayerNorm(
-                    axis=-1, param_axis=-1, name='input_norm',
-                    **self._normalizer_kwargs)
+                    axis=-1,
+                    param_axis=-1,
+                    name='input_norm',
+                    **self._normalizer_kwargs
+                )
                 normalized = normalizer(state[:non_bool_dims])
                 state = state.at[:non_bool_dims].set(normalized)
             return state
@@ -1021,7 +989,8 @@ class JaxDeepReactivePolicy(JaxPlan):
             actions = {}
             for (var, size) in layer_sizes.items():
                 linear = hk.Linear(size, name=layer_names[var], w_init=init)
-                reshape = hk.Reshape(output_shape=shapes[var], preserve_dims=-1,
+                reshape = hk.Reshape(output_shape=shapes[var],
+                                     preserve_dims=-1,
                                      name=f'reshape_{layer_names[var]}')
                 output = reshape(linear(hidden))
                 if not shapes[var]:
@@ -1034,7 +1003,7 @@ class JaxDeepReactivePolicy(JaxPlan):
                 else:
                     if wrap_non_bool:
                         lower, upper = bounds_safe[var]
-                        mb, ml, mu, mn = [mask.astype(compiled.REAL)
+                        mb, ml, mu, mn = [jnp.asarray(mask, dtype=compiled.REAL)
                                           for mask in cond_lists[var]]
                         action = (
                             mb * (lower + (upper - lower) * jax.nn.sigmoid(output)) +
@@ -1048,8 +1017,7 @@ class JaxDeepReactivePolicy(JaxPlan):
             # for constraint satisfaction wrap bool actions with softmax
             if use_constraint_satisfaction:
-                linear = hk.Linear(
-                    bool_action_count, name='output_bool', w_init=init)
+                linear = hk.Linear(bool_action_count, name='output_bool', w_init=init)
                 output = jax.nn.softmax(linear(hidden))
                 actions[bool_key] = output
@@ -1087,8 +1055,7 @@ class JaxDeepReactivePolicy(JaxPlan):
         # test action prediction
         def _jax_wrapped_drp_predict_test(key, params, hyperparams, step, subs):
-            actions = _jax_wrapped_drp_predict_train(
-                key, params, hyperparams, step, subs)
+            actions = _jax_wrapped_drp_predict_train(key, params, hyperparams, step, subs)
             new_actions = {}
             for (var, action) in actions.items():
                 prange = ranges[var]
@@ -1096,7 +1063,7 @@ class JaxDeepReactivePolicy(JaxPlan):
                     new_action = action > 0.5
                 elif prange == 'int':
                     action = jnp.clip(action, *bounds[var])
-                    new_action = jnp.round(action).astype(compiled.INT)
+                    new_action = jnp.asarray(jnp.round(action), dtype=compiled.INT)
                 else:
                     new_action = jnp.clip(action, *bounds[var])
                 new_actions[var] = new_action
@@ -1247,17 +1214,22 @@ class GaussianPGPE(PGPE):
                  init_sigma: float=1.0,
                  sigma_range: Tuple[float, float]=(1e-5, 1e5),
                  scale_reward: bool=True,
+                 min_reward_scale: float=1e-5,
                  super_symmetric: bool=True,
                  super_symmetric_accurate: bool=True,
                  optimizer: Callable[..., optax.GradientTransformation]=optax.adam,
                  optimizer_kwargs_mu: Optional[Kwargs]=None,
-                 optimizer_kwargs_sigma: Optional[Kwargs]=None) -> None:
+                 optimizer_kwargs_sigma: Optional[Kwargs]=None,
+                 start_entropy_coeff: float=1e-3,
+                 end_entropy_coeff: float=1e-8,
+                 max_kl_update: Optional[float]=None) -> None:
         '''Creates a new Gaussian PGPE planner.
         :param batch_size: how many policy parameters to sample per optimization step
         :param init_sigma: initial standard deviation of Gaussian
         :param sigma_range: bounds to constrain standard deviation
         :param scale_reward: whether to apply reward scaling as in the paper
+        :param min_reward_scale: minimum reward scaling to avoid underflow
         :param super_symmetric: whether to use super-symmetric sampling as in the paper
         :param super_symmetric_accurate: whether to use the accurate formula for super-
         symmetric sampling or the simplified but biased formula
@@ -1266,6 +1238,9 @@ class GaussianPGPE(PGPE):
         factory for the mean optimizer
         :param optimizer_kwargs_sigma: a dictionary of parameters to pass to the SGD
         factory for the standard deviation optimizer
+        :param start_entropy_coeff: starting entropy regularization coeffient for Gaussian
+        :param end_entropy_coeff: ending entropy regularization coeffient for Gaussian
+        :param max_kl_update: bound on kl-divergence between parameter updates
         '''
         super().__init__()
@@ -1273,8 +1248,13 @@ class GaussianPGPE(PGPE):
         self.init_sigma = init_sigma
         self.sigma_range = sigma_range
         self.scale_reward = scale_reward
+        self.min_reward_scale = min_reward_scale
         self.super_symmetric = super_symmetric
         self.super_symmetric_accurate = super_symmetric_accurate
+        # entropy regularization penalty is decayed exponentially between these values
+        self.start_entropy_coeff = start_entropy_coeff
+        self.end_entropy_coeff = end_entropy_coeff
         # set optimizers
         if optimizer_kwargs_mu is None:
@@ -1284,36 +1264,62 @@ class GaussianPGPE(PGPE):
             optimizer_kwargs_sigma = {'learning_rate': 0.1}
         self.optimizer_kwargs_sigma = optimizer_kwargs_sigma
         self.optimizer_name = optimizer
-        mu_optimizer = optimizer(**optimizer_kwargs_mu)
-        sigma_optimizer = optimizer(**optimizer_kwargs_sigma)
+        try:
+            mu_optimizer = optax.inject_hyperparams(optimizer)(**optimizer_kwargs_mu)
+            sigma_optimizer = optax.inject_hyperparams(optimizer)(**optimizer_kwargs_sigma)
+        except Exception as _:
+            raise_warning(
+                f'Failed to inject hyperparameters into optax optimizer for PGPE, '
+                'rolling back to safer method: please note that kl-divergence '
+                'constraints will be disabled.', 'red')
+            mu_optimizer = optimizer(**optimizer_kwargs_mu)
+            sigma_optimizer = optimizer(**optimizer_kwargs_sigma)
+            max_kl_update = None
         self.optimizers = (mu_optimizer, sigma_optimizer)
+        self.max_kl = max_kl_update
     def __str__(self) -> str:
         return (f'PGPE hyper-parameters:\n'
-                f'    method         ={self.__class__.__name__}\n'
-                f'    batch_size     ={self.batch_size}\n'
-                f'    init_sigma     ={self.init_sigma}\n'
-                f'    sigma_range    ={self.sigma_range}\n'
-                f'    scale_reward   ={self.scale_reward}\n'
-                f'    super_symmetric={self.super_symmetric}\n'
-                f'        accurate   ={self.super_symmetric_accurate}\n'
-                f'    optimizer      ={self.optimizer_name}\n'
+                f'    method             ={self.__class__.__name__}\n'
+                f'    batch_size         ={self.batch_size}\n'
+                f'    init_sigma         ={self.init_sigma}\n'
+                f'    sigma_range        ={self.sigma_range}\n'
+                f'    scale_reward       ={self.scale_reward}\n'
+                f'    min_reward_scale   ={self.min_reward_scale}\n'
+                f'    super_symmetric    ={self.super_symmetric}\n'
+                f'        accurate       ={self.super_symmetric_accurate}\n'
+                f'    optimizer          ={self.optimizer_name}\n'
                 f'    optimizer_kwargs:\n'
                 f'        mu   ={self.optimizer_kwargs_mu}\n'
                 f'        sigma={self.optimizer_kwargs_sigma}\n'
+                f'    start_entropy_coeff={self.start_entropy_coeff}\n'
+                f'    end_entropy_coeff  ={self.end_entropy_coeff}\n'
+                f'    max_kl_update      ={self.max_kl}\n'
         )
     def compile(self, loss_fn: Callable, projection: Callable, real_dtype: Type) -> None:
-        MIN_NORM = 1e-5
         sigma0 = self.init_sigma
         sigma_range = self.sigma_range
         scale_reward = self.scale_reward
+        min_reward_scale = self.min_reward_scale
         super_symmetric = self.super_symmetric
         super_symmetric_accurate = self.super_symmetric_accurate
         batch_size = self.batch_size
         optimizers = (mu_optimizer, sigma_optimizer) = self.optimizers
-        # initializer
+        max_kl = self.max_kl
+        # entropy regularization penalty is decayed exponentially by elapsed budget
+        start_entropy_coeff = self.start_entropy_coeff
+        if start_entropy_coeff == 0:
+            entropy_coeff_decay = 0
+        else:
+            entropy_coeff_decay = (self.end_entropy_coeff / start_entropy_coeff) ** 0.01
+        # ***********************************************************************
+        # INITIALIZATION OF POLICY
+        #
+        # ***********************************************************************
         def _jax_wrapped_pgpe_init(key, policy_params):
             mu = policy_params
             sigma = jax.tree_map(lambda x: sigma0 * jnp.ones_like(x), mu)
@@ -1324,7 +1330,11 @@ class GaussianPGPE(PGPE):
         self._initializer = jax.jit(_jax_wrapped_pgpe_init)
-        # parameter sampling functions
+        # ***********************************************************************
+        # PARAMETER SAMPLING FUNCTIONS
+        #
+        # ***********************************************************************
         def _jax_wrapped_mu_noise(key, sigma):
             return sigma * random.normal(key, shape=jnp.shape(sigma), dtype=real_dtype)
@@ -1334,19 +1344,20 @@ class GaussianPGPE(PGPE):
             a = (sigma - jnp.abs(epsilon)) / sigma
             if super_symmetric_accurate:
                 aa = jnp.abs(a)
+                aa3 = jnp.power(aa, 3)
                 epsilon_star = jnp.sign(epsilon) * phi * jnp.where(
                     a <= 0,
-                    jnp.exp(c1 * aa * (aa * aa - 1) / jnp.log(aa + 1e-10) + c2 * aa),
-                    jnp.exp(aa - c3 * aa * jnp.log(1.0 - jnp.power(aa, 3) + 1e-10))
+                    jnp.exp(c1 * (aa3 - aa) / jnp.log(aa + 1e-10) + c2 * aa),
+                    jnp.exp(aa - c3 * aa * jnp.log(1.0 - aa3 + 1e-10))
                 )
             else:
                 epsilon_star = jnp.sign(epsilon) * phi * jnp.exp(a)
             return epsilon_star
         def _jax_wrapped_sample_params(key, mu, sigma):
-            keys = random.split(key, num=len(jax.tree_util.tree_leaves(mu)))
-            keys_pytree = jax.tree_util.tree_unflatten(
-                treedef=jax.tree_util.tree_structure(mu), leaves=keys)
+            treedef = jax.tree_util.tree_structure(sigma)
+            keys = random.split(key, num=treedef.num_leaves)
+            keys_pytree = jax.tree_util.tree_unflatten(treedef=treedef, leaves=keys)
             epsilon = jax.tree_map(_jax_wrapped_mu_noise, keys_pytree, sigma)
             p1 = jax.tree_map(jnp.add, mu, epsilon)
             p2 = jax.tree_map(jnp.subtract, mu, epsilon)
@@ -1356,14 +1367,18 @@ class GaussianPGPE(PGPE):
                 p4 = jax.tree_map(jnp.subtract, mu, epsilon_star)
             else:
                 epsilon_star, p3, p4 = epsilon, p1, p2
-            return (p1, p2, p3, p4), (epsilon, epsilon_star)
+            return p1, p2, p3, p4, epsilon, epsilon_star
-        # policy gradient update functions
+        # ***********************************************************************
+        # POLICY GRADIENT CALCULATION
+        #
+        # ***********************************************************************
         def _jax_wrapped_mu_grad(epsilon, epsilon_star, r1, r2, r3, r4, m):
             if super_symmetric:
                 if scale_reward:
-                    scale1 = jnp.maximum(MIN_NORM, m - (r1 + r2) / 2)
-                    scale2 = jnp.maximum(MIN_NORM, m - (r3 + r4) / 2)
+                    scale1 = jnp.maximum(min_reward_scale, m - (r1 + r2) / 2)
+                    scale2 = jnp.maximum(min_reward_scale, m - (r3 + r4) / 2)
                 else:
                     scale1 = scale2 = 1.0
                 r_mu1 = (r1 - r2) / (2 * scale1)
@@ -1371,37 +1386,37 @@ class GaussianPGPE(PGPE):
                 grad = -(r_mu1 * epsilon + r_mu2 * epsilon_star)
             else:
                 if scale_reward:
-                    scale = jnp.maximum(MIN_NORM, m - (r1 + r2) / 2)
+                    scale = jnp.maximum(min_reward_scale, m - (r1 + r2) / 2)
                 else:
                     scale = 1.0
                 r_mu = (r1 - r2) / (2 * scale)
                 grad = -r_mu * epsilon
             return grad
-        def _jax_wrapped_sigma_grad(epsilon, epsilon_star, sigma, r1, r2, r3, r4, m):
+        def _jax_wrapped_sigma_grad(epsilon, epsilon_star, sigma, r1, r2, r3, r4, m, ent):
             if super_symmetric:
                 mask = r1 + r2 >= r3 + r4
                 epsilon_tau = mask * epsilon + (1 - mask) * epsilon_star
-                s = epsilon_tau * epsilon_tau / sigma - sigma
+                s = jnp.square(epsilon_tau) / sigma - sigma
                 if scale_reward:
-                    scale = jnp.maximum(MIN_NORM, m - (r1 + r2 + r3 + r4) / 4)
+                    scale = jnp.maximum(min_reward_scale, m - (r1 + r2 + r3 + r4) / 4)
                 else:
                     scale = 1.0
                 r_sigma = ((r1 + r2) - (r3 + r4)) / (4 * scale)
             else:
-                s = epsilon * epsilon / sigma - sigma
+                s = jnp.square(epsilon) / sigma - sigma
                 if scale_reward:
-                    scale = jnp.maximum(MIN_NORM, jnp.abs(m))
+                    scale = jnp.maximum(min_reward_scale, jnp.abs(m))
                 else:
                     scale = 1.0
                 r_sigma = (r1 + r2) / (2 * scale)
-            grad = -r_sigma * s
+            grad = -(r_sigma * s + ent / sigma)
             return grad
-        def _jax_wrapped_pgpe_grad(key, mu, sigma, r_max,
+        def _jax_wrapped_pgpe_grad(key, mu, sigma, r_max, ent,
                                    policy_hyperparams, subs, model_params):
             key, subkey = random.split(key)
-            (p1, p2, p3, p4), (epsilon, epsilon_star) = _jax_wrapped_sample_params(
+            p1, p2, p3, p4, epsilon, epsilon_star = _jax_wrapped_sample_params(
                 key, mu, sigma)
             r1 = -loss_fn(subkey, p1, policy_hyperparams, subs, model_params)[0]
             r2 = -loss_fn(subkey, p2, policy_hyperparams, subs, model_params)[0]
@@ -1419,42 +1434,76 @@ class GaussianPGPE(PGPE):
                 epsilon, epsilon_star
             )
             grad_sigma = jax.tree_map(
-                partial(_jax_wrapped_sigma_grad, r1=r1, r2=r2, r3=r3, r4=r4, m=r_max),
+                partial(_jax_wrapped_sigma_grad,
+                        r1=r1, r2=r2, r3=r3, r4=r4, m=r_max, ent=ent),
                 epsilon, epsilon_star, sigma
             )
             return grad_mu, grad_sigma, r_max
-        def _jax_wrapped_pgpe_grad_batched(key, pgpe_params, r_max,
+        def _jax_wrapped_pgpe_grad_batched(key, pgpe_params, r_max, ent,
                                            policy_hyperparams, subs, model_params):
             mu, sigma = pgpe_params
             if batch_size == 1:
                 mu_grad, sigma_grad, new_r_max = _jax_wrapped_pgpe_grad(
-                    key, mu, sigma, r_max, policy_hyperparams, subs, model_params)
+                    key, mu, sigma, r_max, ent, policy_hyperparams, subs, model_params)
             else:
                 keys = random.split(key, num=batch_size)
                 mu_grads, sigma_grads, r_maxs = jax.vmap(
                     _jax_wrapped_pgpe_grad,
-                    in_axes=(0, None, None, None, None, None, None)
-                )(keys, mu, sigma, r_max, policy_hyperparams, subs, model_params)
-                mu_grad = jax.tree_map(partial(jnp.mean, axis=0), mu_grads)
-                sigma_grad = jax.tree_map(partial(jnp.mean, axis=0), sigma_grads)
+                    in_axes=(0, None, None, None, None, None, None, None)
+                )(keys, mu, sigma, r_max, ent, policy_hyperparams, subs, model_params)
+                mu_grad, sigma_grad = jax.tree_map(
+                    partial(jnp.mean, axis=0), (mu_grads, sigma_grads))
                 new_r_max = jnp.max(r_maxs)
             return mu_grad, sigma_grad, new_r_max
+        # ***********************************************************************
+        # PARAMETER UPDATE
+        #
+        # ***********************************************************************
-        def _jax_wrapped_pgpe_update(key, pgpe_params, r_max,
+        def _jax_wrapped_pgpe_kl_term(mu, sigma, old_mu, old_sigma):
+            return 0.5 * jnp.sum(2 * jnp.log(sigma / old_sigma) +
+                                 jnp.square(old_sigma / sigma) +
+                                 jnp.square((mu - old_mu) / sigma) - 1)
+        def _jax_wrapped_pgpe_update(key, pgpe_params, r_max, progress,
                                      policy_hyperparams, subs, model_params,
                                      pgpe_opt_state):
+            # regular update
             mu, sigma = pgpe_params
             mu_state, sigma_state = pgpe_opt_state
+            ent = start_entropy_coeff * jnp.power(entropy_coeff_decay, progress)
             mu_grad, sigma_grad, new_r_max = _jax_wrapped_pgpe_grad_batched(
-                key, pgpe_params, r_max, policy_hyperparams, subs, model_params)
+                key, pgpe_params, r_max, ent, policy_hyperparams, subs, model_params)
             mu_updates, new_mu_state = mu_optimizer.update(mu_grad, mu_state, params=mu)
             sigma_updates, new_sigma_state = sigma_optimizer.update(
                 sigma_grad, sigma_state, params=sigma)
             new_mu = optax.apply_updates(mu, mu_updates)
-            new_mu, converged = projection(new_mu, policy_hyperparams)
             new_sigma = optax.apply_updates(sigma, sigma_updates)
             new_sigma = jax.tree_map(lambda x: jnp.clip(x, *sigma_range), new_sigma)
+            # respect KL divergence contraint with old parameters
+            if max_kl is not None:
+                old_mu_lr = new_mu_state.hyperparams['learning_rate']
+                old_sigma_lr = new_sigma_state.hyperparams['learning_rate']
+                kl_terms = jax.tree_map(
+                    _jax_wrapped_pgpe_kl_term, new_mu, new_sigma, mu, sigma)
+                total_kl = jax.tree_util.tree_reduce(jnp.add, kl_terms)
+                kl_reduction = jnp.minimum(1.0, jnp.sqrt(max_kl / total_kl))
+                mu_state.hyperparams['learning_rate'] = old_mu_lr * kl_reduction
+                sigma_state.hyperparams['learning_rate'] = old_sigma_lr * kl_reduction
+                mu_updates, new_mu_state = mu_optimizer.update(mu_grad, mu_state, params=mu)
+                sigma_updates, new_sigma_state = sigma_optimizer.update(
+                    sigma_grad, sigma_state, params=sigma)
+                new_mu = optax.apply_updates(mu, mu_updates)
+                new_sigma = optax.apply_updates(sigma, sigma_updates)
+                new_sigma = jax.tree_map(lambda x: jnp.clip(x, *sigma_range), new_sigma)
+                new_mu_state.hyperparams['learning_rate'] = old_mu_lr
+                new_sigma_state.hyperparams['learning_rate'] = old_sigma_lr
+            # apply projection step and finalize results
+            new_mu, converged = projection(new_mu, policy_hyperparams)
             new_pgpe_params = (new_mu, new_sigma)
             new_pgpe_opt_state = (new_mu_state, new_sigma_state)
             policy_params = new_mu
@@ -1463,6 +1512,71 @@ class GaussianPGPE(PGPE):
         self._update = jax.jit(_jax_wrapped_pgpe_update)
+# ***********************************************************************
+# ALL VERSIONS OF RISK FUNCTIONS
+#
+# Based on the original paper "A Distributional Framework for Risk-Sensitive
+# End-to-End Planning in Continuous MDPs" by Patton et al., AAAI 2022.
+#
+# Original risk functions:
+# - entropic utility
+# - mean-variance
+# - mean-semideviation
+# - conditional value at risk with straight-through gradient trick
+#
+# ***********************************************************************
+@jax.jit
+def entropic_utility(returns: jnp.ndarray, beta: float) -> float:
+    return (-1.0 / beta) * jax.scipy.special.logsumexp(
+        -beta * returns, b=1.0 / returns.size)
+@jax.jit
+def mean_variance_utility(returns: jnp.ndarray, beta: float) -> float:
+    return jnp.mean(returns) - 0.5 * beta * jnp.var(returns)
+@jax.jit
+def mean_deviation_utility(returns: jnp.ndarray, beta: float) -> float:
+    return jnp.mean(returns) - 0.5 * beta * jnp.std(returns)
+@jax.jit
+def mean_semideviation_utility(returns: jnp.ndarray, beta: float) -> float:
+    mu = jnp.mean(returns)
+    msd = jnp.sqrt(jnp.mean(jnp.square(jnp.minimum(0.0, returns - mu))))
+    return mu - 0.5 * beta * msd
+@jax.jit
+def mean_semivariance_utility(returns: jnp.ndarray, beta: float) -> float:
+    mu = jnp.mean(returns)
+    msv = jnp.mean(jnp.square(jnp.minimum(0.0, returns - mu)))
+    return mu - 0.5 * beta * msv
+@jax.jit
+def cvar_utility(returns: jnp.ndarray, alpha: float) -> float:
+    var = jnp.percentile(returns, q=100 * alpha)
+    mask = returns <= var
+    weights = mask / jnp.maximum(1, jnp.sum(mask))
+    return jnp.sum(returns * weights)
+UTILITY_LOOKUP = {
+    'mean': jnp.mean,
+    'mean_var': mean_variance_utility,
+    'mean_std': mean_deviation_utility,
+    'mean_semivar': mean_semivariance_utility,
+    'mean_semidev': mean_semideviation_utility,
+    'entropic': entropic_utility,
+    'exponential': entropic_utility,
+    'cvar': cvar_utility
+}
 # ***********************************************************************
 # ALL VERSIONS OF JAX PLANNER
 #
@@ -1525,8 +1639,7 @@ class JaxBackpropPlanner:
         reward as a form of normalization
         :param utility: how to aggregate return observations to compute utility
         of a policy or plan; must be either a function mapping jax array to a
-        scalar, or a a string identifying the utility function by name
-        ("mean", "mean_var", "entropic", or "cvar" are currently supported)
+        scalar, or a a string identifying the utility function by name
         :param utility_kwargs: additional keyword arguments to pass hyper-
         parameters to the utility function call
         :param cpfs_without_grad: which CPFs do not have gradients (use straight
@@ -1584,18 +1697,11 @@ class JaxBackpropPlanner:
         # set utility
         if isinstance(utility, str):
             utility = utility.lower()
-            if utility == 'mean':
-                utility_fn = jnp.mean
-            elif utility == 'mean_var':
-                utility_fn = mean_variance_utility
-            elif utility == 'entropic':
-                utility_fn = entropic_utility
-            elif utility == 'cvar':
-                utility_fn = cvar_utility
-            else:
+            utility_fn = UTILITY_LOOKUP.get(utility, None)
+            if utility_fn is None:
                 raise RDDLNotImplementedError(
-                    f'Utility function <{utility}> is not supported: '
-                    'must be one of ["mean", "mean_var", "entropic", "cvar"].')
+                    f'Utility <{utility}> is not supported, '
+                    f'must be one of {list(UTILITY_LOOKUP.keys())}.')
         else:
             utility_fn = utility
         self.utility = utility_fn
@@ -1746,7 +1852,6 @@ r"""
         # optimization
         self.update = self._jax_update(train_loss)
-        self.check_zero_grad = self._jax_check_zero_gradients()
         # pgpe option
         if self.use_pgpe:
@@ -1809,6 +1914,12 @@ r"""
         projection = self.plan.projection
         use_ls = self.line_search_kwargs is not None
+        # check if the gradients are all zeros
+        def _jax_wrapped_zero_gradients(grad):
+            leaves, _ = jax.tree_util.tree_flatten(
+                jax.tree_map(lambda g: jnp.allclose(g, 0), grad))
+            return jnp.all(jnp.asarray(leaves))
         # calculate the plan gradient w.r.t. return loss and update optimizer
         # also perform a projection step to satisfy constraints on actions
         def _jax_wrapped_loss_swapped(policy_params, key, policy_hyperparams,
@@ -1833,23 +1944,12 @@ r"""
             policy_params, converged = projection(policy_params, policy_hyperparams)
             log['grad'] = grad
             log['updates'] = updates
+            zero_grads = _jax_wrapped_zero_gradients(grad)
             return policy_params, converged, opt_state, opt_aux, \
-                loss_val, log, model_params
+                loss_val, log, model_params, zero_grads
         return jax.jit(_jax_wrapped_plan_update)
-    def _jax_check_zero_gradients(self):
-        def _jax_wrapped_zero_gradient(grad):
-            return jnp.allclose(grad, 0)
-        def _jax_wrapped_zero_gradients(grad):
-            leaves, _ = jax.tree_util.tree_flatten(
-                jax.tree_map(_jax_wrapped_zero_gradient, grad))
-            return jnp.all(jnp.asarray(leaves))
-        return jax.jit(_jax_wrapped_zero_gradients)
     def _batched_init_subs(self, subs):
         rddl = self.rddl
         n_train, n_test = self.batch_size_train, self.batch_size_test
@@ -1865,7 +1965,7 @@ r"""
                     f'{set(self.test_compiled.init_values.keys())}.')
             value = np.reshape(value, newshape=np.shape(init_value))[np.newaxis, ...]
             train_value = np.repeat(value, repeats=n_train, axis=0)
-            train_value = train_value.astype(self.compiled.REAL)
+            train_value = np.asarray(train_value, dtype=self.compiled.REAL)
             init_train[name] = train_value
             init_test[name] = np.repeat(value, repeats=n_test, axis=0)
@@ -2153,11 +2253,12 @@ r"""
         # ======================================================================
         # initialize running statistics
-        best_params, best_loss, best_grad = policy_params, jnp.inf, jnp.inf
+        best_params, best_loss, best_grad = policy_params, jnp.inf, None
         last_iter_improve = 0
         rolling_test_loss = RollingMean(test_rolling_window)
         log = {}
         status = JaxPlannerStatus.NORMAL
+        progress_percent = 0
         # initialize stopping criterion
         if stopping_rule is not None:
@@ -2169,16 +2270,19 @@ r"""
                 dashboard_id, dashboard.get_planner_info(self),
                 key=dash_key, viz=self.dashboard_viz)
+        # progress bar
+        if print_progress:
+            progress_bar = tqdm(None, total=100, position=tqdm_position,
+                                bar_format='{l_bar}{bar}| {elapsed} {postfix}')
+        else:
+            progress_bar = None
+        position_str = '' if tqdm_position is None else f'[{tqdm_position}]'
         # ======================================================================
         # MAIN TRAINING LOOP BEGINS
         # ======================================================================
-        iters = range(epochs)
-        if print_progress:
-            iters = tqdm(iters, total=100, position=tqdm_position)
-        position_str = '' if tqdm_position is None else f'[{tqdm_position}]'
-        for it in iters:
+        for it in range(epochs):
             # ==================================================================
             # NEXT GRADIENT DESCENT STEP
@@ -2189,8 +2293,9 @@ r"""
             # update the parameters of the plan
             key, subkey = random.split(key)
             (policy_params, converged, opt_state, opt_aux, train_loss, train_log,
-             model_params) = self.update(subkey, policy_params, policy_hyperparams,
-                                         train_subs, model_params, opt_state, opt_aux)
+             model_params, zero_grads) = self.update(
+                 subkey, policy_params, policy_hyperparams, train_subs, model_params,
+                 opt_state, opt_aux)
             test_loss, (test_log, model_params_test) = self.test_loss(
                 subkey, policy_params, policy_hyperparams, test_subs, model_params_test)
             test_loss_smooth = rolling_test_loss.update(test_loss)
@@ -2200,8 +2305,9 @@ r"""
             if self.use_pgpe:
                 key, subkey = random.split(key)
                 pgpe_params, r_max, pgpe_opt_state, pgpe_param, pgpe_converged = \
-                    self.pgpe.update(subkey, pgpe_params, r_max, policy_hyperparams,
-                                     test_subs, model_params, pgpe_opt_state)
+                    self.pgpe.update(subkey, pgpe_params, r_max, progress_percent,
+                                     policy_hyperparams, test_subs, model_params_test,
+                                     pgpe_opt_state)
                 pgpe_loss, _ = self.test_loss(
                     subkey, pgpe_param, policy_hyperparams, test_subs, model_params_test)
                 pgpe_loss_smooth = rolling_pgpe_loss.update(pgpe_loss)
@@ -2228,7 +2334,7 @@ r"""
             # ==================================================================
             # no progress
-            if (not pgpe_improve) and self.check_zero_grad(train_log['grad']):
+            if (not pgpe_improve) and zero_grads:
                 status = JaxPlannerStatus.NO_PROGRESS
             # constraint satisfaction problem
@@ -2256,7 +2362,8 @@ r"""
                 status = JaxPlannerStatus.ITER_BUDGET_REACHED
             # build a callback
-            progress_percent = int(100 * min(1, max(elapsed / train_seconds, it / epochs)))
+            progress_percent = 100 * min(
+                1, max(0, elapsed / train_seconds, it / (epochs - 1)))
             callback = {
                 'status': status,
                 'iteration': it,
@@ -2279,19 +2386,22 @@ r"""
                 'train_log': train_log,
                 **test_log
             }
             # stopping condition reached
             if stopping_rule is not None and stopping_rule.monitor(callback):
                 callback['status'] = status = JaxPlannerStatus.STOPPING_RULE_REACHED
             # if the progress bar is used
             if print_progress:
-                iters.n = progress_percent
-                iters.set_description(
+                progress_bar.set_description(
                     f'{position_str} {it:6} it / {-train_loss:14.5f} train / '
                     f'{-test_loss_smooth:14.5f} test / {-best_loss:14.5f} best / '
-                    f'{status.value} status / {total_pgpe_it:6} pgpe'
+                    f'{status.value} status / {total_pgpe_it:6} pgpe',
+                    refresh=False
                 )
+                progress_bar.set_postfix_str(
+                    f"{(it + 1) / (elapsed + 1e-6):.2f}it/s", refresh=False)
+                progress_bar.update(progress_percent - progress_bar.n)
             # dash-board
             if dashboard is not None:
@@ -2312,7 +2422,7 @@ r"""
         # release resources
         if print_progress:
-            iters.close()
+            progress_bar.close()
         # validate the test return
         if log:
@@ -2332,7 +2442,7 @@ r"""
                 last_iter_improve, -train_loss, -test_loss_smooth, -best_loss, grad_norm)
             print(f'summary of optimization:\n'
                   f'    status        ={status}\n'
-                  f'    time          ={elapsed:.6f} sec.\n'
+                  f'    time          ={elapsed:.3f} sec.\n'
                   f'    iterations    ={it}\n'
                   f'    best objective={-best_loss:.6f}\n'
                   f'    best grad norm={grad_norm}\n'
@@ -2358,12 +2468,12 @@ r"""
                 return termcolor.colored(
                     '[FAILURE] no progress was made '
                     f'and max grad norm {max_grad_norm:.6f} was zero: '
-                    'the solver was likely stuck in a plateau.', 'red')
+                    'solver likely stuck in a plateau.', 'red')
             else:
                 return termcolor.colored(
                     '[FAILURE] no progress was made '
                     f'but max grad norm {max_grad_norm:.6f} was non-zero: '
-                    'the learning rate or other hyper-parameters were likely suboptimal.',
+                    'learning rate or other hyper-parameters likely suboptimal.',
                     'red')
         # model is likely poor IF:
@@ -2372,8 +2482,8 @@ r"""
             return termcolor.colored(
                 '[WARNING] progress was made '
                 f'but relative train-test error {validation_error:.6f} was high: '
-                'model relaxation around the solution was poor '
-                'or the batch size was too small.', 'yellow')
+                'poor model relaxation around solution or batch size too small.',
+                'yellow')
         # model likely did not converge IF:
         # 1. the max grad relative to the return is high
@@ -2383,9 +2493,9 @@ r"""
                 return termcolor.colored(
                     '[WARNING] progress was made '
                     f'but max grad norm {max_grad_norm:.6f} was high: '
-                    'the solution was likely locally suboptimal, '
-                    'or the relaxed model was not smooth around the solution, '
-                    'or the batch size was too small.', 'yellow')
+                    'solution locally suboptimal '
+                    'or relaxed model not smooth around solution '
+                    'or batch size too small.', 'yellow')
         # likely successful
         return termcolor.colored(
@@ -2412,8 +2522,7 @@ r"""
         for (var, values) in subs.items():
             # must not be grounded
-            if RDDLPlanningModel.FLUENT_SEP in var \
-            or RDDLPlanningModel.OBJECT_SEP in var:
+            if RDDLPlanningModel.FLUENT_SEP in var or RDDLPlanningModel.OBJECT_SEP in var:
                 raise ValueError(f'State dictionary passed to the JAX policy is '
                                  f'grounded, since it contains the key <{var}>, '
                                  f'but a vectorized environment is required: '
@@ -2421,9 +2530,8 @@ r"""
             # must be numeric array
             # exception is for POMDPs at 1st epoch when observ-fluents are None
-            dtype = np.atleast_1d(values).dtype
-            if not np.issubdtype(dtype, np.number) \
-            and not np.issubdtype(dtype, np.bool_):
+            dtype = np.result_type(values)
+            if not np.issubdtype(dtype, np.number) and not np.issubdtype(dtype, np.bool_):
                 if step == 0 and var in self.rddl.observ_fluents:
                     subs[var] = self.test_compiled.init_values[var]
                 else:
@@ -2435,40 +2543,7 @@ r"""
         actions = self.test_policy(key, params, policy_hyperparams, step, subs)
         actions = jax.tree_map(np.asarray, actions)
         return actions
-# ***********************************************************************
-# ALL VERSIONS OF RISK FUNCTIONS
-#
-# Based on the original paper "A Distributional Framework for Risk-Sensitive
-# End-to-End Planning in Continuous MDPs" by Patton et al., AAAI 2022.
-#
-# Original risk functions:
-# - entropic utility
-# - mean-variance approximation
-# - conditional value at risk with straight-through gradient trick
-#
-# ***********************************************************************
-@jax.jit
-def entropic_utility(returns: jnp.ndarray, beta: float) -> float:
-    return (-1.0 / beta) * jax.scipy.special.logsumexp(
-        -beta * returns, b=1.0 / returns.size)
-@jax.jit
-def mean_variance_utility(returns: jnp.ndarray, beta: float) -> float:
-    return jnp.mean(returns) - 0.5 * beta * jnp.var(returns)
-@jax.jit
-def cvar_utility(returns: jnp.ndarray, alpha: float) -> float:
-    var = jnp.percentile(returns, q=100 * alpha)
-    mask = returns <= var
-    weights = mask / jnp.maximum(1, jnp.sum(mask))
-    return jnp.sum(returns * weights)
 # ***********************************************************************
 # ALL VERSIONS OF CONTROLLERS
@@ -2580,8 +2655,7 @@ class JaxOnlineController(BaseAgent):
         self.callback = callback
         params = callback['best_params']
         self.key, subkey = random.split(self.key)
-        actions = planner.get_action(
-            subkey, params, 0, state, self.eval_hyperparams)
+        actions = planner.get_action(subkey, params, 0, state, self.eval_hyperparams)
         if self.warm_start:
             self.guess = planner.plan.guess_next_epoch(params)
         return actions

pyRDDLGym-jax 2.0__py3-none-any.whl → 2.2__py3-none-any.whl

pyRDDLGym-jax 2.0py3-none-any.whl → 2.2py3-none-any.whl