PyPI - pyRDDLGym-jax - Versions diffs - 0.5__py3-none-any.whl → 1.0__py3-none-any.whl - Mend

pyRDDLGym-jax 0.5py3-none-any.whl → 1.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (43) hide show

pyRDDLGym_jax/examples/configs/Cartpole_Continuous_gym_drp.cfg CHANGED Viewed

@@ -1,12 +1,12 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 20}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 20}
+rounding_kwargs={'weight': 20}
+control_kwargs={'weight': 20}
 [Optimizer]
 method='JaxDeepReactivePolicy'
-method_kwargs={'topology': [32, 32]}
+method_kwargs={'topology': [32, 16]}
 optimizer='rmsprop'
 optimizer_kwargs={'learning_rate': 0.005}
 batch_size_train=1
@@ -14,5 +14,4 @@ batch_size_test=1
 [Training]
 key=42
-epochs=2000
-train_seconds=30
+epochs=1000

pyRDDLGym_jax/examples/configs/Cartpole_Continuous_gym_replan.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 100}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 50}
+rounding_kwargs={'weight': 50}
+control_kwargs={'weight': 50}
 [Optimizer]
 method='JaxStraightLinePlan'
@@ -15,6 +15,5 @@ rollout_horizon=30
 [Training]
 key=42
-epochs=1000
-train_seconds=1
+train_seconds=0.5
 print_summary=False

pyRDDLGym_jax/examples/configs/Cartpole_Continuous_gym_slp.cfg CHANGED Viewed

@@ -1,19 +1,18 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 20}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 30}
+rounding_kwargs={'weight': 30}
+control_kwargs={'weight': 30}
 [Optimizer]
 method='JaxStraightLinePlan'
 method_kwargs={}
 optimizer='rmsprop'
-optimizer_kwargs={'learning_rate': 0.001}
+optimizer_kwargs={'learning_rate': 0.002}
 batch_size_train=1
 batch_size_test=1
 clip_grad=1.0
 [Training]
 key=42
-epochs=5000
-train_seconds=30
+epochs=5000

pyRDDLGym_jax/examples/configs/HVAC_ippc2023_drp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 5}
+rounding_kwargs={'weight': 5}
+control_kwargs={'weight': 5}
 [Optimizer]
 method='JaxDeepReactivePolicy'

pyRDDLGym_jax/examples/configs/HVAC_ippc2023_slp.cfg CHANGED Viewed

@@ -1,14 +1,14 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 5}
+rounding_kwargs={'weight': 5}
+control_kwargs={'weight': 5}
 [Optimizer]
 method='JaxStraightLinePlan'
 method_kwargs={}
 optimizer='rmsprop'
-optimizer_kwargs={'learning_rate': 0.01}
+optimizer_kwargs={'learning_rate': 0.02}
 batch_size_train=1
 batch_size_test=1

pyRDDLGym_jax/examples/configs/MountainCar_Continuous_gym_slp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/MountainCar_ippc2023_slp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/PowerGen_Continuous_drp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxDeepReactivePolicy'

pyRDDLGym_jax/examples/configs/PowerGen_Continuous_replan.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/PowerGen_Continuous_slp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/Quadcopter_drp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 100}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxDeepReactivePolicy'

pyRDDLGym_jax/examples/configs/Quadcopter_slp.cfg CHANGED Viewed

@@ -1,14 +1,14 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 500}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 50}
+rounding_kwargs={'weight': 50}
+control_kwargs={'weight': 50}
 [Optimizer]
 method='JaxStraightLinePlan'
 method_kwargs={}
 optimizer='rmsprop'
-optimizer_kwargs={'learning_rate': 0.01}
+optimizer_kwargs={'learning_rate': 0.03}
 batch_size_train=1
 batch_size_test=1

pyRDDLGym_jax/examples/configs/Reservoir_Continuous_drp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxDeepReactivePolicy'

pyRDDLGym_jax/examples/configs/Reservoir_Continuous_replan.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 20}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/Reservoir_Continuous_slp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 10}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 10}
+rounding_kwargs={'weight': 10}
+control_kwargs={'weight': 10}
 [Optimizer]
 method='JaxStraightLinePlan'
@@ -14,5 +14,5 @@ batch_size_test=32
 [Training]
 key=42
-epochs=5000
-train_seconds=60
+epochs=2000
+train_seconds=30

pyRDDLGym_jax/examples/configs/UAV_Continuous_slp.cfg CHANGED Viewed

@@ -1,14 +1,14 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 1.0}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 1}
+rounding_kwargs={'weight': 1}
+control_kwargs={'weight': 1}
 [Optimizer]
 method='JaxStraightLinePlan'
 method_kwargs={}
 optimizer='rmsprop'
-optimizer_kwargs={'learning_rate': 0.0005}
+optimizer_kwargs={'learning_rate': 0.0003}
 batch_size_train=1
 batch_size_test=1

pyRDDLGym_jax/examples/configs/Wildfire_MDP_ippc2014_drp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 100}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 100}
+rounding_kwargs={'weight': 100}
+control_kwargs={'weight': 100}
 [Optimizer]
 method='JaxDeepReactivePolicy'

pyRDDLGym_jax/examples/configs/Wildfire_MDP_ippc2014_replan.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 100}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 100}
+rounding_kwargs={'weight': 100}
+control_kwargs={'weight': 100}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/Wildfire_MDP_ippc2014_slp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 100}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 100}
+rounding_kwargs={'weight': 100}
+control_kwargs={'weight': 100}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/default_drp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 20}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 20}
+rounding_kwargs={'weight': 20}
+control_kwargs={'weight': 20}
 [Optimizer]
 method='JaxDeepReactivePolicy'

pyRDDLGym_jax/examples/configs/default_replan.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 20}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 20}
+rounding_kwargs={'weight': 20}
+control_kwargs={'weight': 20}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/default_slp.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [Model]
 logic='FuzzyLogic'
-logic_kwargs={'weight': 20}
-tnorm='ProductTNorm'
-tnorm_kwargs={}
+comparison_kwargs={'weight': 20}
+rounding_kwargs={'weight': 20}
+control_kwargs={'weight': 20}
 [Optimizer]
 method='JaxStraightLinePlan'

pyRDDLGym_jax/examples/configs/tuning_drp.cfg ADDED Viewed

@@ -0,0 +1,19 @@
+[Model]
+logic='FuzzyLogic'
+comparison_kwargs={'weight': MODEL_WEIGHT_TUNE}
+rounding_kwargs={'weight': MODEL_WEIGHT_TUNE}
+control_kwargs={'weight': MODEL_WEIGHT_TUNE}
+[Optimizer]
+method='JaxDeepReactivePolicy'
+method_kwargs={'topology': [LAYER1_TUNE, LAYER2_TUNE]}
+optimizer='rmsprop'
+optimizer_kwargs={'learning_rate': LEARNING_RATE_TUNE}
+batch_size_train=32
+batch_size_test=32
+[Training]
+train_seconds=30
+policy_hyperparams=POLICY_WEIGHT_TUNE
+print_summary=False
+print_progress=False

pyRDDLGym_jax/examples/configs/tuning_replan.cfg ADDED Viewed

@@ -0,0 +1,20 @@
+[Model]
+logic='FuzzyLogic'
+comparison_kwargs={'weight': MODEL_WEIGHT_TUNE}
+rounding_kwargs={'weight': MODEL_WEIGHT_TUNE}
+control_kwargs={'weight': MODEL_WEIGHT_TUNE}
+[Optimizer]
+method='JaxStraightLinePlan'
+method_kwargs={}
+optimizer='rmsprop'
+optimizer_kwargs={'learning_rate': LEARNING_RATE_TUNE}
+batch_size_train=32
+batch_size_test=32
+rollout_horizon=ROLLOUT_HORIZON_TUNE
+[Training]
+train_seconds=1
+policy_hyperparams=POLICY_WEIGHT_TUNE
+print_summary=False
+print_progress=False

pyRDDLGym_jax/examples/configs/tuning_slp.cfg ADDED Viewed

@@ -0,0 +1,19 @@
+[Model]
+logic='FuzzyLogic'
+comparison_kwargs={'weight': MODEL_WEIGHT_TUNE}
+rounding_kwargs={'weight': MODEL_WEIGHT_TUNE}
+control_kwargs={'weight': MODEL_WEIGHT_TUNE}
+[Optimizer]
+method='JaxStraightLinePlan'
+method_kwargs={}
+optimizer='rmsprop'
+optimizer_kwargs={'learning_rate': LEARNING_RATE_TUNE}
+batch_size_train=32
+batch_size_test=32
+[Training]
+train_seconds=30
+policy_hyperparams=POLICY_WEIGHT_TUNE
+print_summary=False
+print_progress=False

pyRDDLGym_jax/examples/run_plan.py CHANGED Viewed

@@ -39,9 +39,12 @@ def main(domain, instance, method, episodes=1):
                       f'using default_{method}.cfg.', 'red')
         config_path = os.path.join(abs_path, 'configs', f'default_{method}.cfg')
     planner_args, _, train_args = load_config(config_path)
+    if 'dashboard' in train_args:
+        train_args['dashboard'].launch()
     # create the planning algorithm
-    planner = JaxBackpropPlanner(rddl=env.model, **planner_args)
+    planner = JaxBackpropPlanner(
+        rddl=env.model, dashboard_viz=env._visualizer, **planner_args)
     # evaluate the controller
     if method == 'replan':

pyRDDLGym_jax/examples/run_tune.py CHANGED Viewed

@@ -20,12 +20,19 @@ import os
 import sys
 import pyRDDLGym
-from pyRDDLGym.core.debug.exception import raise_warning
-from pyRDDLGym_jax.core.tuning import (
-    JaxParameterTuningDRP, JaxParameterTuningSLP, JaxParameterTuningSLPReplan
+from pyRDDLGym_jax.core.tuning import JaxParameterTuning, Hyperparameter
+from pyRDDLGym_jax.core.planner import (
+    load_config_from_string, JaxBackpropPlanner,
+    JaxOfflineController, JaxOnlineController
 )
-from pyRDDLGym_jax.core.planner import load_config
+def power_2(x):
+    return int(2 ** x)
+def power_10(x):
+    return 10.0 ** x
 def main(domain, instance, method, trials=5, iters=20, workers=4):
@@ -35,31 +42,37 @@ def main(domain, instance, method, trials=5, iters=20, workers=4):
     # load the config file with planner settings
     abs_path = os.path.dirname(os.path.abspath(__file__))
-    config_path = os.path.join(abs_path, 'configs', f'{domain}_{method}.cfg')
-    if not os.path.isfile(config_path):
-        raise_warning(f'Config file {config_path} was not found, '
-                      f'using default_{method}.cfg.', 'red')
-        config_path = os.path.join(abs_path, 'configs', f'default_{method}.cfg')
-    planner_args, plan_args, train_args = load_config(config_path)
+    config_path = os.path.join(abs_path, 'configs', f'tuning_{method}.cfg')
+    with open(config_path, 'r') as file:
+        config_template = file.read()
+    # map parameters in the config that will be tuned
+    hyperparams = [
+        Hyperparameter('MODEL_WEIGHT_TUNE', -1., 5., power_10),
+        Hyperparameter('POLICY_WEIGHT_TUNE', -2., 2., power_10),
+        Hyperparameter('LEARNING_RATE_TUNE', -5., 1., power_10),
+        Hyperparameter('LAYER1_TUNE', 1, 8, power_2),
+        Hyperparameter('LAYER2_TUNE', 1, 8, power_2),
+        Hyperparameter('ROLLOUT_HORIZON_TUNE', 1, min(env.horizon, 100), int)
+    ]
-    # define algorithm to perform tuning
-    if method == 'slp':
-        tuning_class = JaxParameterTuningSLP
-    elif method == 'drp':
-        tuning_class = JaxParameterTuningDRP
-    elif method == 'replan':
-        tuning_class = JaxParameterTuningSLPReplan
-    tuning = tuning_class(env=env,
-                          train_epochs=train_args['epochs'],
-                          timeout_training=train_args['train_seconds'],
-                          eval_trials=trials,
-                          planner_kwargs=planner_args,
-                          plan_kwargs=plan_args,
-                          num_workers=workers,
-                          gp_iters=iters)
+    # build the tuner and tune
+    tuning = JaxParameterTuning(env=env,
+                                config_template=config_template,
+                                hyperparams=hyperparams,
+                                online=method == 'replan',
+                                eval_trials=trials,
+                                num_workers=workers,
+                                gp_iters=iters)
+    tuning.tune(key=42, log_file=f'gp_{method}_{domain}_{instance}.csv')
-    # perform tuning and report best parameters
-    tuning.tune(key=train_args['key'], filename=f'gp_{method}', save_plot=True)
+    # evaluate the agent on the best parameters
+    planner_args, _, train_args = load_config_from_string(tuning.best_config)
+    planner = JaxBackpropPlanner(rddl=env.model, **planner_args)
+    klass = JaxOnlineController if method == 'replan' else JaxOfflineController
+    controller = klass(planner, **train_args)
+    controller.evaluate(env, episodes=1, verbose=True, render=True)
+    env.close()
 if __name__ == "__main__":

pyRDDLGym-jax 0.5__py3-none-any.whl → 1.0__py3-none-any.whl

pyRDDLGym-jax 0.5py3-none-any.whl → 1.0py3-none-any.whl