PyPI - nvidia-cudnn-cu12 - Versions diffs - 8.9.7.29__py3-none-win_amd64.whl → 9.1.0.70__py3-none-win_amd64.whl - Mend

nvidia-cudnn-cu12 8.9.7.29__py3-none-win_amd64.whl → 9.1.0.70__py3-none-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

nvidia/cudnn/bin/cudnn64_9.dll +0 -0
nvidia/cudnn/bin/{cudnn_adv_infer64_8.dll → cudnn_adv64_9.dll} +0 -0
nvidia/cudnn/bin/cudnn_cnn64_9.dll +0 -0
nvidia/cudnn/bin/{cudnn_cnn_infer64_8.dll → cudnn_engines_precompiled64_9.dll} +0 -0
nvidia/cudnn/bin/cudnn_engines_runtime_compiled64_9.dll +0 -0
nvidia/cudnn/bin/cudnn_graph64_9.dll +0 -0
nvidia/cudnn/bin/{cudnn_ops_infer64_8.dll → cudnn_heuristic64_9.dll} +0 -0
nvidia/cudnn/bin/{cudnn_adv_train64_8.dll → cudnn_ops64_9.dll} +0 -0
nvidia/cudnn/include/cudnn.h +8 -18
nvidia/cudnn/include/{cudnn_adv_infer.h → cudnn_adv.h} +265 -252
nvidia/cudnn/include/cudnn_backend.h +3 -558
nvidia/cudnn/include/{cudnn_cnn_infer.h → cudnn_cnn.h} +187 -65
nvidia/cudnn/include/cudnn_graph.h +909 -0
nvidia/cudnn/include/{cudnn_ops_infer.h → cudnn_ops.h} +469 -336
nvidia/cudnn/include/cudnn_version.h +4 -43
nvidia/cudnn/lib/x64/cudnn.lib +0 -0
nvidia/cudnn/lib/x64/cudnn64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_engines_precompiled.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_engines_precompiled64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_engines_runtime_compiled.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_engines_runtime_compiled64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_graph.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_graph64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_heuristic.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_heuristic64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops64_9.lib +0 -0
{nvidia_cudnn_cu12-8.9.7.29.dist-info → nvidia_cudnn_cu12-9.1.0.70.dist-info}/METADATA +1 -1
nvidia_cudnn_cu12-9.1.0.70.dist-info/RECORD +41 -0
nvidia/cudnn/bin/cudnn64_8.dll +0 -0
nvidia/cudnn/bin/cudnn_cnn_train64_8.dll +0 -0
nvidia/cudnn/bin/cudnn_ops_train64_8.dll +0 -0
nvidia/cudnn/include/cudnn_adv_train.h +0 -540
nvidia/cudnn/include/cudnn_cnn_train.h +0 -219
nvidia/cudnn/include/cudnn_ops_train.h +0 -501
nvidia/cudnn/lib/x64/cudnn64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv_infer.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv_infer64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv_train.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv_train64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn_infer.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn_infer64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn_train.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn_train64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops_infer.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops_infer64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops_train.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops_train64_8.lib +0 -0
nvidia_cudnn_cu12-8.9.7.29.dist-info/RECORD +0 -40
{nvidia_cudnn_cu12-8.9.7.29.dist-info → nvidia_cudnn_cu12-9.1.0.70.dist-info}/License.txt +0 -0
{nvidia_cudnn_cu12-8.9.7.29.dist-info → nvidia_cudnn_cu12-9.1.0.70.dist-info}/WHEEL +0 -0
{nvidia_cudnn_cu12-8.9.7.29.dist-info → nvidia_cudnn_cu12-9.1.0.70.dist-info}/top_level.txt +0 -0

nvidia/cudnn/include/{cudnn_ops_infer.h → cudnn_ops.h} RENAMED Viewed

@@ -48,172 +48,41 @@
  */
 /*
- *  cudnn_ops_infer : cuDNN's basic definitions and inference operations.
+ *  cudnn_ops : cuDNN's basic definitions and basic operations.
  */
-#if !defined(CUDNN_OPS_INFER_H_)
-#define CUDNN_OPS_INFER_H_
+#if !defined(CUDNN_OPS_H_)
+#define CUDNN_OPS_H_
-#include <cuda_runtime.h>
 #include <stdint.h>
 #include "cudnn_version.h"
+#include "cudnn_graph.h"
 /* These version numbers are autogenerated, do not edit manually. */
-#define CUDNN_OPS_INFER_MAJOR 8
-#define CUDNN_OPS_INFER_MINOR 9
-#define CUDNN_OPS_INFER_PATCH 7
+#define CUDNN_OPS_MAJOR 9
+#define CUDNN_OPS_MINOR 1
+#define CUDNN_OPS_PATCH 0
-#if (CUDNN_OPS_INFER_MAJOR != CUDNN_MAJOR) || (CUDNN_OPS_INFER_MINOR != CUDNN_MINOR) || \
-    (CUDNN_OPS_INFER_PATCH != CUDNN_PATCHLEVEL)
+#if (CUDNN_OPS_MAJOR != CUDNN_MAJOR) || (CUDNN_OPS_MINOR != CUDNN_MINOR) || (CUDNN_OPS_PATCH != CUDNN_PATCHLEVEL)
 #error Version mismatch in cuDNN OPS INFER!!!
 #endif
-#ifndef CUDNNWINAPI
-#ifdef _WIN32
-#define CUDNNWINAPI __stdcall
-#else
-#define CUDNNWINAPI
-#endif
-#endif
-/* Warnings for deprecated API-s are enabled using the CUDNN_WARN_DEPRECATED macro */
-#if defined(CUDNN_WARN_DEPRECATED) && (defined(__GNUC__) || defined(__clang__))
-/* GCC, Intel C/C++, Cray C/C++, CLANG, IBM XL C/C++ little endian */
-#define CUDNN_DEPRECATED __attribute__((deprecated))
-#elif defined(CUDNN_WARN_DEPRECATED) && defined(_MSC_VER)
-/* Microsoft Visual C++ */
-#define CUDNN_DEPRECATED __declspec(deprecated)
-#elif defined(CUDNN_WARN_DEPRECATED) && (__cplusplus >= 201402L)
-/* C++14 compilers */
-#define CUDNN_DEPRECATED [[deprecated]]
-#else
-/* No support for the deprecated attribute */
-#define CUDNN_DEPRECATED
-#endif
 #if defined(__cplusplus)
 extern "C" {
 #endif
-struct cudnnContext;
-typedef struct cudnnContext *cudnnHandle_t;
-size_t CUDNNWINAPI
-cudnnGetVersion(void);
-size_t CUDNNWINAPI
-cudnnGetMaxDeviceVersion(void);
-/* Returns CUDA Runtime version statically linked against cudnn */
-size_t CUDNNWINAPI
-cudnnGetCudartVersion(void);
-/*
- * CUDNN return codes
- */
-typedef enum {
-    CUDNN_STATUS_SUCCESS                      = 0,
-    CUDNN_STATUS_NOT_INITIALIZED              = 1,
-    CUDNN_STATUS_ALLOC_FAILED                 = 2,
-    CUDNN_STATUS_BAD_PARAM                    = 3,
-    CUDNN_STATUS_INTERNAL_ERROR               = 4,
-    CUDNN_STATUS_INVALID_VALUE                = 5,
-    CUDNN_STATUS_ARCH_MISMATCH                = 6,
-    CUDNN_STATUS_MAPPING_ERROR                = 7,
-    CUDNN_STATUS_EXECUTION_FAILED             = 8,
-    CUDNN_STATUS_NOT_SUPPORTED                = 9,
-    CUDNN_STATUS_LICENSE_ERROR                = 10,
-    CUDNN_STATUS_RUNTIME_PREREQUISITE_MISSING = 11,
-    CUDNN_STATUS_RUNTIME_IN_PROGRESS          = 12,
-    CUDNN_STATUS_RUNTIME_FP_OVERFLOW          = 13,
-    CUDNN_STATUS_VERSION_MISMATCH             = 14,
-} cudnnStatus_t;
-/* human-readable error messages */
-const char *CUDNNWINAPI
-cudnnGetErrorString(cudnnStatus_t status);
-/* Forward definition in this version only */
-typedef struct cudnnRuntimeTag_t cudnnRuntimeTag_t;
-typedef enum {
-    CUDNN_ERRQUERY_RAWCODE     = 0,
-    CUDNN_ERRQUERY_NONBLOCKING = 1,
-    CUDNN_ERRQUERY_BLOCKING    = 2,
-} cudnnErrQueryMode_t;
-cudnnStatus_t CUDNNWINAPI
-cudnnQueryRuntimeError(cudnnHandle_t handle, cudnnStatus_t *rstatus, cudnnErrQueryMode_t mode, cudnnRuntimeTag_t *tag);
-#ifndef __LIBRARY_TYPES_H__
-typedef enum libraryPropertyType_t { MAJOR_VERSION, MINOR_VERSION, PATCH_LEVEL } libraryPropertyType;
-#endif
-cudnnStatus_t CUDNNWINAPI
-cudnnGetProperty(libraryPropertyType type, int *value);
-cudnnStatus_t CUDNNWINAPI
-cudnnCreate(cudnnHandle_t *handle);
-cudnnStatus_t CUDNNWINAPI
-cudnnDestroy(cudnnHandle_t handle);
-cudnnStatus_t CUDNNWINAPI
-cudnnSetStream(cudnnHandle_t handle, cudaStream_t streamId);
-cudnnStatus_t CUDNNWINAPI
-cudnnGetStream(cudnnHandle_t handle, cudaStream_t *streamId);
 /* Data structures to represent Image/Filter and the Neural Network Layer */
 typedef struct cudnnTensorStruct *cudnnTensorDescriptor_t;
-typedef struct cudnnPoolingStruct *cudnnPoolingDescriptor_t;
-typedef struct cudnnFilterStruct *cudnnFilterDescriptor_t;
+typedef struct cudnnPoolingStruct *cudnnPoolingDescriptor_t CUDNN_DEPRECATED;
+typedef struct cudnnFilterStruct *cudnnFilterDescriptor_t CUDNN_DEPRECATED;
 typedef struct cudnnLRNStruct *cudnnLRNDescriptor_t;
-typedef struct cudnnActivationStruct *cudnnActivationDescriptor_t;
+typedef struct cudnnActivationStruct *cudnnActivationDescriptor_t CUDNN_DEPRECATED;
 typedef struct cudnnSpatialTransformerStruct *cudnnSpatialTransformerDescriptor_t;
-typedef struct cudnnOpTensorStruct *cudnnOpTensorDescriptor_t;
-typedef struct cudnnReduceTensorStruct *cudnnReduceTensorDescriptor_t;
+typedef struct cudnnOpTensorStruct *cudnnOpTensorDescriptor_t CUDNN_DEPRECATED;
+typedef struct cudnnReduceTensorStruct *cudnnReduceTensorDescriptor_t CUDNN_DEPRECATED;
 typedef struct cudnnCTCLossStruct *cudnnCTCLossDescriptor_t;
-typedef struct cudnnTensorTransformStruct *cudnnTensorTransformDescriptor_t;
-/*
- * CUDNN data type
- */
-typedef enum {
-    CUDNN_DATA_FLOAT              = 0,
-    CUDNN_DATA_DOUBLE             = 1,
-    CUDNN_DATA_HALF               = 2,
-    CUDNN_DATA_INT8               = 3,
-    CUDNN_DATA_INT32              = 4,
-    CUDNN_DATA_INT8x4             = 5,
-    CUDNN_DATA_UINT8              = 6,
-    CUDNN_DATA_UINT8x4            = 7,
-    CUDNN_DATA_INT8x32            = 8,
-    CUDNN_DATA_BFLOAT16           = 9,
-    CUDNN_DATA_INT64              = 10,
-    CUDNN_DATA_BOOLEAN            = 11,
-    CUDNN_DATA_FP8_E4M3           = 12,
-    CUDNN_DATA_FP8_E5M2           = 13,
-    CUDNN_DATA_FAST_FLOAT_FOR_FP8 = 14,
-} cudnnDataType_t;
-/*
- * CUDNN math type
- */
-typedef enum {
-    CUDNN_DEFAULT_MATH                    = 0,
-    CUDNN_TENSOR_OP_MATH                  = 1,
-    CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION = 2,
-    CUDNN_FMA_MATH                        = 3,
-} cudnnMathType_t;
-/*
- * CUDNN propagate Nan
- */
-typedef enum {
-    CUDNN_NOT_PROPAGATE_NAN = 0,
-    CUDNN_PROPAGATE_NAN     = 1,
-} cudnnNanPropagation_t;
+typedef struct cudnnTensorTransformStruct *cudnnTensorTransformDescriptor_t CUDNN_DEPRECATED;
 /*
  * CUDNN Determinism
  */
@@ -222,19 +91,10 @@ typedef enum {
     CUDNN_DETERMINISTIC     = 1,
 } cudnnDeterminism_t;
-/* Maximum supported number of tensor dimensions */
-#define CUDNN_DIM_MAX 8
 /* Create an instance of a generic Tensor descriptor */
 cudnnStatus_t CUDNNWINAPI
 cudnnCreateTensorDescriptor(cudnnTensorDescriptor_t *tensorDesc);
-typedef enum {
-    CUDNN_TENSOR_NCHW        = 0, /* row major (wStride = 1, hStride = w) */
-    CUDNN_TENSOR_NHWC        = 1, /* feature maps interleaved ( cStride = 1 )*/
-    CUDNN_TENSOR_NCHW_VECT_C = 2, /* each image point is vector of element of C, vector length in data type */
-} cudnnTensorFormat_t;
 cudnnStatus_t CUDNNWINAPI
 cudnnSetTensor4dDescriptor(cudnnTensorDescriptor_t tensorDesc,
                            cudnnTensorFormat_t format,
@@ -327,18 +187,18 @@ typedef enum {
 } cudnnFoldingDirection_t;
 /** Create a destination descriptor for cudnnTransformTensor */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnInitTransformDest(const cudnnTensorTransformDescriptor_t transformDesc,
                        const cudnnTensorDescriptor_t srcDesc,
                        cudnnTensorDescriptor_t destDesc,
                        size_t *destSizeInBytes);
 /** Create an empty tensor transform descriptor */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnCreateTensorTransformDescriptor(cudnnTensorTransformDescriptor_t *transformDesc);
 /** Initialize a previously created tensor transform descriptor. */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetTensorTransformDescriptor(cudnnTensorTransformDescriptor_t transformDesc,
                                   const uint32_t nbDims,
                                   const cudnnTensorFormat_t destFormat,
@@ -351,7 +211,7 @@ cudnnSetTensorTransformDescriptor(cudnnTensorTransformDescriptor_t transformDesc
  * Retrieves the values stored in a previously initialized tensor transform
  * descriptor.
  */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetTensorTransformDescriptor(cudnnTensorTransformDescriptor_t transformDesc,
                                   uint32_t nbDimsRequested,
                                   cudnnTensorFormat_t *destFormat,
@@ -363,11 +223,11 @@ cudnnGetTensorTransformDescriptor(cudnnTensorTransformDescriptor_t transformDesc
 /**
  * Destroys a previously created tensor transform descriptor.
  */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDestroyTensorTransformDescriptor(cudnnTensorTransformDescriptor_t transformDesc);
 /* Tensor layout conversion helper (y = alpha * x + beta * y) */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnTransformTensor(cudnnHandle_t handle,
                      const void *alpha,
                      const cudnnTensorDescriptor_t xDesc,
@@ -376,7 +236,7 @@ cudnnTransformTensor(cudnnHandle_t handle,
                      const cudnnTensorDescriptor_t yDesc,
                      void *y);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnTransformTensorEx(cudnnHandle_t handle,
                        const cudnnTensorTransformDescriptor_t transDesc,
                        const void *alpha,
@@ -387,7 +247,7 @@ cudnnTransformTensorEx(cudnnHandle_t handle,
                        void *destData);
 /* Tensor Bias addition : C = alpha * A + beta * C  */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnAddTensor(cudnnHandle_t handle,
                const void *alpha,
                const cudnnTensorDescriptor_t aDesc,
@@ -408,27 +268,27 @@ typedef enum {
     CUDNN_OP_TENSOR_NOT  = 5,
 } cudnnOpTensorOp_t;
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnCreateOpTensorDescriptor(cudnnOpTensorDescriptor_t *opTensorDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetOpTensorDescriptor(cudnnOpTensorDescriptor_t opTensorDesc,
                            cudnnOpTensorOp_t opTensorOp,
                            cudnnDataType_t opTensorCompType,
                            cudnnNanPropagation_t opTensorNanOpt);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetOpTensorDescriptor(const cudnnOpTensorDescriptor_t opTensorDesc,
                            cudnnOpTensorOp_t *opTensorOp,
                            cudnnDataType_t *opTensorCompType,
                            cudnnNanPropagation_t *opTensorNanOpt);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDestroyOpTensorDescriptor(cudnnOpTensorDescriptor_t opTensorDesc);
 /* Tensor operation : C = op( alpha1 * A, alpha2 * B ) + beta * C */
 /* B tensor is ignored for CUDNN_OP_TENSOR_SQRT, CUDNN_OP_TENSOR_NOT. */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnOpTensor(cudnnHandle_t handle,
               const cudnnOpTensorDescriptor_t opTensorDesc,
               const void *alpha1,
@@ -441,28 +301,13 @@ cudnnOpTensor(cudnnHandle_t handle,
               const cudnnTensorDescriptor_t cDesc,
               void *C);
-/*
- * CUDNN ReduceTensor op type
- */
-typedef enum {
-    CUDNN_REDUCE_TENSOR_ADD          = 0,
-    CUDNN_REDUCE_TENSOR_MUL          = 1,
-    CUDNN_REDUCE_TENSOR_MIN          = 2,
-    CUDNN_REDUCE_TENSOR_MAX          = 3,
-    CUDNN_REDUCE_TENSOR_AMAX         = 4,
-    CUDNN_REDUCE_TENSOR_AVG          = 5,
-    CUDNN_REDUCE_TENSOR_NORM1        = 6,
-    CUDNN_REDUCE_TENSOR_NORM2        = 7,
-    CUDNN_REDUCE_TENSOR_MUL_NO_ZEROS = 8,
-} cudnnReduceTensorOp_t;
 /*
  * CUDNN ReduceTensor indices type
  */
 typedef enum {
     CUDNN_REDUCE_TENSOR_NO_INDICES        = 0,
     CUDNN_REDUCE_TENSOR_FLATTENED_INDICES = 1,
-} cudnnReduceTensorIndices_t;
+} cudnnReduceTensorIndices_t CUDNN_DEPRECATED;
 /*
  * CUDNN tensor indices type size (all unsigned)
@@ -473,12 +318,12 @@ typedef enum {
     CUDNN_64BIT_INDICES = 1,
     CUDNN_16BIT_INDICES = 2,
     CUDNN_8BIT_INDICES  = 3,
-} cudnnIndicesType_t;
+} cudnnIndicesType_t CUDNN_DEPRECATED;
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnCreateReduceTensorDescriptor(cudnnReduceTensorDescriptor_t *reduceTensorDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetReduceTensorDescriptor(cudnnReduceTensorDescriptor_t reduceTensorDesc,
                                cudnnReduceTensorOp_t reduceTensorOp,
                                cudnnDataType_t reduceTensorCompType,
@@ -486,7 +331,7 @@ cudnnSetReduceTensorDescriptor(cudnnReduceTensorDescriptor_t reduceTensorDesc,
                                cudnnReduceTensorIndices_t reduceTensorIndices,
                                cudnnIndicesType_t reduceTensorIndicesType);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetReduceTensorDescriptor(const cudnnReduceTensorDescriptor_t reduceTensorDesc,
                                cudnnReduceTensorOp_t *reduceTensorOp,
                                cudnnDataType_t *reduceTensorCompType,
@@ -494,12 +339,12 @@ cudnnGetReduceTensorDescriptor(const cudnnReduceTensorDescriptor_t reduceTensorD
                                cudnnReduceTensorIndices_t *reduceTensorIndices,
                                cudnnIndicesType_t *reduceTensorIndicesType);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDestroyReduceTensorDescriptor(cudnnReduceTensorDescriptor_t reduceTensorDesc);
 /* Helper function to return the minimum size of the index space to be passed to the reduction given the input and
  * output tensors */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetReductionIndicesSize(cudnnHandle_t handle,
                              const cudnnReduceTensorDescriptor_t reduceTensorDesc,
                              const cudnnTensorDescriptor_t aDesc,
@@ -508,7 +353,7 @@ cudnnGetReductionIndicesSize(cudnnHandle_t handle,
 /* Helper function to return the minimum size of the workspace to be passed to the reduction given the input and output
  * tensors */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetReductionWorkspaceSize(cudnnHandle_t handle,
                                const cudnnReduceTensorDescriptor_t reduceTensorDesc,
                                const cudnnTensorDescriptor_t aDesc,
@@ -518,7 +363,7 @@ cudnnGetReductionWorkspaceSize(cudnnHandle_t handle,
 /* Tensor operation : C = reduce op( alpha * A ) + beta * C */
 /* The NaN propagation enum applies to only the min and max reduce ops; the other reduce ops propagate NaN as usual. */
 /* The indices space is ignored for reduce ops other than min or max. */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnReduceTensor(cudnnHandle_t handle,
                   const cudnnReduceTensorDescriptor_t reduceTensorDesc,
                   void *indices,
@@ -537,14 +382,14 @@ cudnnStatus_t CUDNNWINAPI
 cudnnSetTensor(cudnnHandle_t handle, const cudnnTensorDescriptor_t yDesc, void *y, const void *valuePtr);
 /* Scale all values of a tensor by a given factor : y[i] = alpha * y[i] */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnScaleTensor(cudnnHandle_t handle, const cudnnTensorDescriptor_t yDesc, void *y, const void *alpha);
 /* Create an instance of FilterStruct */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnCreateFilterDescriptor(cudnnFilterDescriptor_t *filterDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetFilter4dDescriptor(cudnnFilterDescriptor_t filterDesc,
                            cudnnDataType_t dataType, /* image data type */
                            cudnnTensorFormat_t format,
@@ -553,7 +398,7 @@ cudnnSetFilter4dDescriptor(cudnnFilterDescriptor_t filterDesc,
                            int h,  /* height of each input filter */
                            int w); /* width of  each input filter */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetFilter4dDescriptor(const cudnnFilterDescriptor_t filterDesc,
                            cudnnDataType_t *dataType, /* image data type */
                            cudnnTensorFormat_t *format,
@@ -562,24 +407,24 @@ cudnnGetFilter4dDescriptor(const cudnnFilterDescriptor_t filterDesc,
                            int *h,  /* height of each input filter */
                            int *w); /* width of  each input filter */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetFilterNdDescriptor(cudnnFilterDescriptor_t filterDesc,
                            cudnnDataType_t dataType, /* image data type */
                            cudnnTensorFormat_t format,
                            int nbDims,
                            const int filterDimA[]);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetFilterNdDescriptor(const cudnnFilterDescriptor_t filterDesc,
                            int nbDimsRequested,
                            cudnnDataType_t *dataType, /* image data type */
                            cudnnTensorFormat_t *format,
                            int *nbDims,
                            int filterDimA[]);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetFilterSizeInBytes(const cudnnFilterDescriptor_t filterDesc, size_t *size);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnTransformFilter(cudnnHandle_t handle,
                      const cudnnTensorTransformDescriptor_t transDesc,
                      const void *alpha,
@@ -589,7 +434,7 @@ cudnnTransformFilter(cudnnHandle_t handle,
                      const cudnnFilterDescriptor_t destDesc,
                      void *destData);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDestroyFilterDescriptor(cudnnFilterDescriptor_t filterDesc);
 /*
@@ -628,13 +473,13 @@ typedef enum {
     CUDNN_POOLING_AVERAGE_COUNT_INCLUDE_PADDING = 1, /* count for average includes padded values */
     CUDNN_POOLING_AVERAGE_COUNT_EXCLUDE_PADDING = 2, /* count for average does not include padded values */
     CUDNN_POOLING_MAX_DETERMINISTIC             = 3
-} cudnnPoolingMode_t;
+} cudnnPoolingMode_t CUDNN_DEPRECATED;
 /* Create an instance of pooling descriptor */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnCreatePoolingDescriptor(cudnnPoolingDescriptor_t *poolingDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetPooling2dDescriptor(cudnnPoolingDescriptor_t poolingDesc,
                             cudnnPoolingMode_t mode,
                             cudnnNanPropagation_t maxpoolingNanOpt,
@@ -645,7 +490,7 @@ cudnnSetPooling2dDescriptor(cudnnPoolingDescriptor_t poolingDesc,
                             int verticalStride,
                             int horizontalStride);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetPooling2dDescriptor(const cudnnPoolingDescriptor_t poolingDesc,
                             cudnnPoolingMode_t *mode,
                             cudnnNanPropagation_t *maxpoolingNanOpt,
@@ -656,7 +501,7 @@ cudnnGetPooling2dDescriptor(const cudnnPoolingDescriptor_t poolingDesc,
                             int *verticalStride,
                             int *horizontalStride);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetPoolingNdDescriptor(cudnnPoolingDescriptor_t poolingDesc,
                             const cudnnPoolingMode_t mode,
                             const cudnnNanPropagation_t maxpoolingNanOpt,
@@ -665,7 +510,7 @@ cudnnSetPoolingNdDescriptor(cudnnPoolingDescriptor_t poolingDesc,
                             const int paddingA[],
                             const int strideA[]);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetPoolingNdDescriptor(const cudnnPoolingDescriptor_t poolingDesc,
                             int nbDimsRequested,
                             cudnnPoolingMode_t *mode,
@@ -675,13 +520,13 @@ cudnnGetPoolingNdDescriptor(const cudnnPoolingDescriptor_t poolingDesc,
                             int paddingA[],
                             int strideA[]);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetPoolingNdForwardOutputDim(const cudnnPoolingDescriptor_t poolingDesc,
                                   const cudnnTensorDescriptor_t inputTensorDesc,
                                   int nbDims,
                                   int outputTensorDimA[]);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetPooling2dForwardOutputDim(const cudnnPoolingDescriptor_t poolingDesc,
                                   const cudnnTensorDescriptor_t inputTensorDesc,
                                   int *n,
@@ -690,13 +535,13 @@ cudnnGetPooling2dForwardOutputDim(const cudnnPoolingDescriptor_t poolingDesc,
                                   int *w);
 /* Destroy an instance of pooling descriptor */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDestroyPoolingDescriptor(cudnnPoolingDescriptor_t poolingDesc);
 /* Pooling functions: All of the form "output = alpha * Op(inputs) + beta * output" */
 /* Function to perform forward pooling */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnPoolingForward(cudnnHandle_t handle,
                     const cudnnPoolingDescriptor_t poolingDesc,
                     const void *alpha,
@@ -706,46 +551,33 @@ cudnnPoolingForward(cudnnHandle_t handle,
                     const cudnnTensorDescriptor_t yDesc,
                     void *y);
-/*
- * activation mode
- */
-typedef enum {
-    CUDNN_ACTIVATION_SIGMOID      = 0,
-    CUDNN_ACTIVATION_RELU         = 1,
-    CUDNN_ACTIVATION_TANH         = 2,
-    CUDNN_ACTIVATION_CLIPPED_RELU = 3,
-    CUDNN_ACTIVATION_ELU          = 4,
-    CUDNN_ACTIVATION_IDENTITY     = 5,
-    CUDNN_ACTIVATION_SWISH        = 6
-} cudnnActivationMode_t;
 /* Activation functions: All of the form "output = alpha * Op(inputs) + beta * output" */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnCreateActivationDescriptor(cudnnActivationDescriptor_t *activationDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetActivationDescriptor(cudnnActivationDescriptor_t activationDesc,
                              cudnnActivationMode_t mode,
                              cudnnNanPropagation_t reluNanOpt,
                              double coef); /* ceiling for clipped RELU, alpha for ELU */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetActivationDescriptor(const cudnnActivationDescriptor_t activationDesc,
                              cudnnActivationMode_t *mode,
                              cudnnNanPropagation_t *reluNanOpt,
                              double *coef); /* ceiling for clipped RELU, alpha for ELU */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetActivationDescriptorSwishBeta(cudnnActivationDescriptor_t activationDesc, double swish_beta);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetActivationDescriptorSwishBeta(cudnnActivationDescriptor_t activationDesc, double *swish_beta);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDestroyActivationDescriptor(cudnnActivationDescriptor_t activationDesc);
 /* Function to perform forward activation  */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnActivationForward(cudnnHandle_t handle,
                        cudnnActivationDescriptor_t activationDesc,
                        const void *alpha,
@@ -835,7 +667,7 @@ typedef enum {
      * May be faster than CUDNN_BATCHNORM_SPATIAL but imposes some limits on the range of values
      */
     CUDNN_BATCHNORM_SPATIAL_PERSISTENT = 2,
-} cudnnBatchNormMode_t;
+} cudnnBatchNormMode_t CUDNN_DEPRECATED;
 #define CUDNN_BN_MIN_EPSILON 0.0 /* Minimum epsilon allowed to be used in the Batch Normalization formula */
@@ -844,7 +676,7 @@ typedef enum {
  * scale, invVariance, bnBias, bnScale tensors. Use this tensor desc for
  * bnScaleBiasMeanVarDesc and bnScaleBiasDiffDesc in Batch Normalization forward and backward functions.
  */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDeriveBNTensorDescriptor(cudnnTensorDescriptor_t derivedBnDesc,
                               const cudnnTensorDescriptor_t xDesc,
                               cudnnBatchNormMode_t mode);
@@ -853,7 +685,7 @@ typedef enum {
     CUDNN_BATCHNORM_OPS_BN                = 0, /* do batch normalization only */
     CUDNN_BATCHNORM_OPS_BN_ACTIVATION     = 1, /* do batchNorm, then activation */
     CUDNN_BATCHNORM_OPS_BN_ADD_ACTIVATION = 2, /* do batchNorm, then elemWiseAdd, then activation */
-} cudnnBatchNormOps_t;
+} cudnnBatchNormOps_t CUDNN_DEPRECATED;
 /*
  * Performs Batch Normalization during Inference:
@@ -862,7 +694,7 @@ typedef enum {
  * according to spatial or per-activation mode. Refer to cudnnBatchNormalizationForwardTraining
  * above for notes on function arguments.
  */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnBatchNormalizationForwardInference(cudnnHandle_t handle,
                                         cudnnBatchNormMode_t mode,
                                         const void *alpha, /* alpha[0] = result blend factor */
@@ -884,16 +716,16 @@ typedef enum {
     /* bnScale, bnBias tensor dims are 1xCx1x1 (one value per C-dim normalized over Nx1xHxW subtensors) */
     CUDNN_NORM_PER_CHANNEL = 1,
-} cudnnNormMode_t;
+} cudnnNormMode_t CUDNN_DEPRECATED;
-typedef enum { CUDNN_NORM_ALGO_STANDARD = 0, CUDNN_NORM_ALGO_PERSIST = 1 } cudnnNormAlgo_t;
+typedef enum { CUDNN_NORM_ALGO_STANDARD = 0, CUDNN_NORM_ALGO_PERSIST = 1 } cudnnNormAlgo_t CUDNN_DEPRECATED;
 /*
  * Derives a tensor descriptor from layer data descriptor for Normalization
  * scale, invVariance, bnBias, bnScale tensors. Use this tensor desc for
  * normScaleBiasMeanVarDesc and normScaleBiasDiffDesc in Normalization forward and backward functions.
  */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDeriveNormTensorDescriptor(cudnnTensorDescriptor_t derivedNormScaleBiasDesc,
                                 cudnnTensorDescriptor_t derivedNormMeanVarDesc,
                                 const cudnnTensorDescriptor_t xDesc,
@@ -904,7 +736,7 @@ typedef enum {
     CUDNN_NORM_OPS_NORM                = 0, /* do normalization only */
     CUDNN_NORM_OPS_NORM_ACTIVATION     = 1, /* do Norm, then activation */
     CUDNN_NORM_OPS_NORM_ADD_ACTIVATION = 2, /* do Norm, then elemWiseAdd, then activation */
-} cudnnNormOps_t;
+} cudnnNormOps_t CUDNN_DEPRECATED;
 /*
  * Performs Normalization during Inference:
@@ -913,7 +745,7 @@ typedef enum {
  * according to per-channel or per-activation mode. Refer to cudnnNormalizationForwardTraining
  * above for notes on function arguments.
  */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnNormalizationForwardInference(cudnnHandle_t handle,
                                    cudnnNormMode_t mode,
                                    cudnnNormOps_t normOps,
@@ -1021,11 +853,6 @@ cudnnDropoutForward(cudnnHandle_t handle,
                     void *reserveSpace,
                     size_t reserveSpaceSizeInBytes);
-/* TODO: remove */
-typedef struct cudnnAlgorithmStruct *cudnnAlgorithmDescriptor_t;
-typedef struct cudnnAlgorithmPerformanceStruct *cudnnAlgorithmPerformance_t;
 /* TODO: move these enums out to the appropriate submodule */
 typedef enum {
     CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM         = 0,
@@ -1060,124 +887,430 @@ typedef enum {
     CUDNN_CONVOLUTION_BWD_DATA_ALGO_COUNT             = 6
 } cudnnConvolutionBwdDataAlgo_t;
-typedef enum {
-    CUDNN_RNN_ALGO_STANDARD               = 0,
-    CUDNN_RNN_ALGO_PERSIST_STATIC         = 1,
-    CUDNN_RNN_ALGO_PERSIST_DYNAMIC        = 2,
-    CUDNN_RNN_ALGO_PERSIST_STATIC_SMALL_H = 3,
-    CUDNN_RNN_ALGO_COUNT                  = 4,
-} cudnnRNNAlgo_t;
 typedef enum { CUDNN_CTC_LOSS_ALGO_DETERMINISTIC = 0, CUDNN_CTC_LOSS_ALGO_NON_DETERMINISTIC = 1 } cudnnCTCLossAlgo_t;
-/* TODO: remove */
-typedef struct cudnnAlgorithmUnionStruct {
-    union Algorithm {
-        cudnnConvolutionFwdAlgo_t convFwdAlgo;
-        cudnnConvolutionBwdFilterAlgo_t convBwdFilterAlgo;
-        cudnnConvolutionBwdDataAlgo_t convBwdDataAlgo;
-        cudnnRNNAlgo_t RNNAlgo;
-        cudnnCTCLossAlgo_t CTCLossAlgo;
-    } algo;
-} cudnnAlgorithm_t;
+/*
+ * \brief Cross-library version checker.
+ * This function is implemented differently in each sub-library. Each sublib
+ * checks whether its own version matches that of its dependencies.
+ * \returns CUDNN_STATUS_SUCCESS if the version check passes,
+ *          CUDNN_STATUS_SUBLIBRARY_VERSION_MISMATCH if the versions are inconsistent.
+ */
+cudnnStatus_t CUDNNWINAPI
+cudnnOpsVersionCheck(void);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnCreateAlgorithmDescriptor(cudnnAlgorithmDescriptor_t *algoDesc);
+/* Function to perform backward softmax */
+cudnnStatus_t CUDNNWINAPI
+cudnnSoftmaxBackward(cudnnHandle_t handle,
+                     cudnnSoftmaxAlgorithm_t algo,
+                     cudnnSoftmaxMode_t mode,
+                     const void *alpha,
+                     const cudnnTensorDescriptor_t yDesc,
+                     const void *y,
+                     const cudnnTensorDescriptor_t dyDesc,
+                     const void *dy,
+                     const void *beta,
+                     const cudnnTensorDescriptor_t dxDesc,
+                     void *dx);
+/* Function to perform backward pooling */
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetAlgorithmDescriptor(cudnnAlgorithmDescriptor_t algoDesc, cudnnAlgorithm_t algorithm);
+cudnnPoolingBackward(cudnnHandle_t handle,
+                     const cudnnPoolingDescriptor_t poolingDesc,
+                     const void *alpha,
+                     const cudnnTensorDescriptor_t yDesc,
+                     const void *y,
+                     const cudnnTensorDescriptor_t dyDesc,
+                     const void *dy,
+                     const cudnnTensorDescriptor_t xDesc,
+                     const void *x,
+                     const void *beta,
+                     const cudnnTensorDescriptor_t dxDesc,
+                     void *dx);
+/* Function to perform backward activation  */
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetAlgorithmDescriptor(const cudnnAlgorithmDescriptor_t algoDesc, cudnnAlgorithm_t *algorithm);
+cudnnActivationBackward(cudnnHandle_t handle,
+                        cudnnActivationDescriptor_t activationDesc,
+                        const void *alpha,
+                        const cudnnTensorDescriptor_t yDesc,
+                        const void *y,
+                        const cudnnTensorDescriptor_t dyDesc,
+                        const void *dy,
+                        const cudnnTensorDescriptor_t xDesc,
+                        const void *x,
+                        const void *beta,
+                        const cudnnTensorDescriptor_t dxDesc,
+                        void *dx);
+/* LRN cross-channel backward computation. Double parameters cast to tensor data type */
+cudnnStatus_t CUDNNWINAPI
+cudnnLRNCrossChannelBackward(cudnnHandle_t handle,
+                             cudnnLRNDescriptor_t normDesc,
+                             cudnnLRNMode_t lrnMode,
+                             const void *alpha,
+                             const cudnnTensorDescriptor_t yDesc,
+                             const void *y,
+                             const cudnnTensorDescriptor_t dyDesc,
+                             const void *dy,
+                             const cudnnTensorDescriptor_t xDesc,
+                             const void *x,
+                             const void *beta,
+                             const cudnnTensorDescriptor_t dxDesc,
+                             void *dx);
+cudnnStatus_t CUDNNWINAPI
+cudnnDivisiveNormalizationBackward(cudnnHandle_t handle,
+                                   cudnnLRNDescriptor_t normDesc,
+                                   cudnnDivNormMode_t mode,
+                                   const void *alpha,
+                                   const cudnnTensorDescriptor_t xDesc, /* same desc for x, means, dy, temp, temp2 */
+                                   const void *x,
+                                   const void *means, /* if NULL, means are assumed to be zero */
+                                   const void *dy,
+                                   void *temp,
+                                   void *temp2,
+                                   const void *beta,
+                                   const cudnnTensorDescriptor_t dXdMeansDesc, /* same desc for dx, dMeans */
+                                   void *dx,                                   /* output x differential */
+                                   void *dMeans); /* output means differential, can be NULL */
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnCopyAlgorithmDescriptor(const cudnnAlgorithmDescriptor_t src, cudnnAlgorithmDescriptor_t dest);
+cudnnGetBatchNormalizationForwardTrainingExWorkspaceSize(cudnnHandle_t handle,
+                                                         cudnnBatchNormMode_t mode,
+                                                         cudnnBatchNormOps_t bnOps,
+                                                         const cudnnTensorDescriptor_t xDesc,
+                                                         const cudnnTensorDescriptor_t zDesc,
+                                                         const cudnnTensorDescriptor_t yDesc,
+                                                         const cudnnTensorDescriptor_t bnScaleBiasMeanVarDesc,
+                                                         const cudnnActivationDescriptor_t activationDesc,
+                                                         size_t *sizeInBytes);
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnDestroyAlgorithmDescriptor(cudnnAlgorithmDescriptor_t algoDesc);
+cudnnGetBatchNormalizationBackwardExWorkspaceSize(cudnnHandle_t handle,
+                                                  cudnnBatchNormMode_t mode,
+                                                  cudnnBatchNormOps_t bnOps,
+                                                  const cudnnTensorDescriptor_t xDesc,
+                                                  const cudnnTensorDescriptor_t yDesc,
+                                                  const cudnnTensorDescriptor_t dyDesc,
+                                                  const cudnnTensorDescriptor_t dzDesc,
+                                                  const cudnnTensorDescriptor_t dxDesc,
+                                                  const cudnnTensorDescriptor_t dBnScaleBiasDesc,
+                                                  const cudnnActivationDescriptor_t activationDesc,
+                                                  size_t *sizeInBytes);
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnCreateAlgorithmPerformance(cudnnAlgorithmPerformance_t *algoPerf, int numberToCreate);
+cudnnGetBatchNormalizationTrainingExReserveSpaceSize(cudnnHandle_t handle,
+                                                     cudnnBatchNormMode_t mode,
+                                                     cudnnBatchNormOps_t bnOps,
+                                                     const cudnnActivationDescriptor_t activationDesc,
+                                                     const cudnnTensorDescriptor_t xDesc,
+                                                     size_t *sizeInBytes);
+/* Computes y = BN(x). Also accumulates moving averages of mean and inverse variances */
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetAlgorithmPerformance(cudnnAlgorithmPerformance_t algoPerf,
-                             cudnnAlgorithmDescriptor_t algoDesc,
-                             cudnnStatus_t status,
-                             float time,
-                             size_t memory);
+cudnnBatchNormalizationForwardTraining(
+    cudnnHandle_t handle,
+    cudnnBatchNormMode_t mode,
+    const void *alpha, /* alpha[0] = result blend factor */
+    const void *beta,  /* beta[0] = dest layer blend factor */
+    const cudnnTensorDescriptor_t xDesc,
+    const void *x, /* NxCxHxW */
+    const cudnnTensorDescriptor_t yDesc,
+    void *y, /* NxCxHxW */
+    /* Shared desc for the next 6 tensors in the argument list.
+       Data type to be set as follows:
+       type = (typeOf(x) == double) ? double : float
+       Dimensions for this descriptor depend on normalization mode
+       - Spatial Normalization : tensors are expected to have dims 1xCx1x1
+        (normalization is performed across NxHxW)
+       - Per-Activation Normalization : tensors are expected to have dims of 1xCxHxW
+        (normalization is performed across N) */
+    const cudnnTensorDescriptor_t bnScaleBiasMeanVarDesc,
+    /* 'Gamma' and 'Beta' respectively in Ioffe and Szegedy's paper's notation */
+    const void *bnScale,
+    const void *bnBias,
+    /* MUST use factor=1 in the very first call of a complete training cycle.
+       Use a factor=1/(1+n) at N-th call to the function to get
+       Cumulative Moving Average (CMA) behavior
+       CMA[n] = (x[1]+...+x[n])/n
+       Since CMA[n+1] = (n*CMA[n]+x[n+1])/(n+1) =
+       ((n+1)*CMA[n]-CMA[n])/(n+1) + x[n+1]/(n+1) =
+       CMA[n]*(1-1/(n+1)) + x[n+1]*1/(n+1) */
+    double exponentialAverageFactor,
+    /* Used in Training phase only.
+       runningMean = newMean*factor + runningMean*(1-factor) */
+    void *resultRunningMean,
+    /* Output in training mode, input in inference. Is the moving average
+       of  variance[x] (factor is applied in the same way as for runningMean) */
+    void *resultRunningVariance,
+    /* Has to be >= CUDNN_BN_MIN_EPSILON. Should be the same in forward and backward functions. */
+    double epsilon,
+    /* Optionally save intermediate results from the forward pass here
+       - can be reused to speed up backward pass. NULL if unused */
+    void *resultSaveMean,
+    void *resultSaveInvVariance);
+/* Computes y = relu(BN(x) + z). Also accumulates moving averages of mean and inverse variances */
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetAlgorithmPerformance(const cudnnAlgorithmPerformance_t algoPerf,
-                             cudnnAlgorithmDescriptor_t *algoDesc,
-                             cudnnStatus_t *status,
-                             float *time,
-                             size_t *memory);
+cudnnBatchNormalizationForwardTrainingEx(
+    cudnnHandle_t handle,
+    cudnnBatchNormMode_t mode,
+    cudnnBatchNormOps_t bnOps,
+    const void *alpha, /* alpha[0] = result blend factor */
+    const void *beta,  /* beta[0] = dest layer blend factor */
+    const cudnnTensorDescriptor_t xDesc,
+    const void *xData,
+    const cudnnTensorDescriptor_t zDesc,
+    const void *zData,
+    const cudnnTensorDescriptor_t yDesc,
+    void *yData,
+    const cudnnTensorDescriptor_t bnScaleBiasMeanVarDesc,
+    const void *bnScale,
+    const void *bnBias,
+    double exponentialAverageFactor,
+    void *resultRunningMean,
+    void *resultRunningVariance,
+    /* Has to be >= CUDNN_BN_MIN_EPSILON. Should be the same in forward and backward functions. */
+    double epsilon,
+    /* Optionally save intermediate results from the forward pass here
+       - can be reused to speed up backward pass. NULL if unused */
+    void *resultSaveMean,
+    void *resultSaveInvVariance,
+    cudnnActivationDescriptor_t activationDesc,
+    void *workspace,
+    size_t workSpaceSizeInBytes,
+    void *reserveSpace,
+    size_t reserveSpaceSizeInBytes);
+/* Performs backward pass of Batch Normalization layer. Returns x gradient,
+* bnScale gradient and bnBias gradient */
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnDestroyAlgorithmPerformance(cudnnAlgorithmPerformance_t *algoPerf, int numberToDestroy);
+cudnnBatchNormalizationBackward(cudnnHandle_t handle,
+                                cudnnBatchNormMode_t mode,
+                                const void *alphaDataDiff,
+                                const void *betaDataDiff,
+                                const void *alphaParamDiff,
+                                const void *betaParamDiff,
+                                const cudnnTensorDescriptor_t xDesc, /* same desc for x, dx, dy */
+                                const void *x,
+                                const cudnnTensorDescriptor_t dyDesc,
+                                const void *dy,
+                                const cudnnTensorDescriptor_t dxDesc,
+                                void *dx,
+                                /* Shared tensor desc for the 4 tensors below */
+                                const cudnnTensorDescriptor_t dBnScaleBiasDesc,
+                                const void *bnScale, /* bnBias doesn't affect backpropagation */
+                                /* scale and bias diff are not backpropagated below this layer */
+                                void *dBnScaleResult,
+                                void *dBnBiasResult,
+                                /* Same epsilon as forward pass */
+                                double epsilon,
+                                /* Optionally cached intermediate results from
+                                   forward pass */
+                                const void *savedMean,
+                                const void *savedInvVariance);
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetAlgorithmSpaceSize(cudnnHandle_t handle, cudnnAlgorithmDescriptor_t algoDesc, size_t *algoSpaceSizeInBytes);
+cudnnBatchNormalizationBackwardEx(cudnnHandle_t handle,
+                                  cudnnBatchNormMode_t mode,
+                                  cudnnBatchNormOps_t bnOps,
+                                  const void *alphaDataDiff,
+                                  const void *betaDataDiff,
+                                  const void *alphaParamDiff,
+                                  const void *betaParamDiff,
+                                  const cudnnTensorDescriptor_t xDesc,
+                                  const void *xData,
+                                  const cudnnTensorDescriptor_t yDesc,
+                                  const void *yData,
+                                  const cudnnTensorDescriptor_t dyDesc,
+                                  const void *dyData,
+                                  const cudnnTensorDescriptor_t dzDesc,
+                                  void *dzData,
+                                  const cudnnTensorDescriptor_t dxDesc,
+                                  void *dxData,
+                                  /* Shared tensor desc for the 4 tensors below */
+                                  const cudnnTensorDescriptor_t dBnScaleBiasDesc,
+                                  const void *bnScaleData,
+                                  const void *bnBiasData, /* needed if there is activation */
+                                  void *dBnScaleData,
+                                  void *dBnBiasData,
+                                  double epsilon, /* Same epsilon as forward pass */
+                                  /* Optionally cached intermediate results from
+                                     forward pass */
+                                  const void *savedMean,
+                                  const void *savedInvVariance,
+                                  cudnnActivationDescriptor_t activationDesc,
+                                  void *workSpace,
+                                  size_t workSpaceSizeInBytes,
+                                  void *reserveSpace,
+                                  size_t reserveSpaceSizeInBytes);
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSaveAlgorithm(cudnnHandle_t handle,
-                   cudnnAlgorithmDescriptor_t algoDesc,
-                   void *algoSpace,
-                   size_t algoSpaceSizeInBytes);
+cudnnGetNormalizationForwardTrainingWorkspaceSize(cudnnHandle_t handle,
+                                                  cudnnNormMode_t mode,
+                                                  cudnnNormOps_t normOps,
+                                                  cudnnNormAlgo_t algo,
+                                                  const cudnnTensorDescriptor_t xDesc,
+                                                  const cudnnTensorDescriptor_t zDesc,
+                                                  const cudnnTensorDescriptor_t yDesc,
+                                                  const cudnnTensorDescriptor_t normScaleBiasDesc,
+                                                  const cudnnActivationDescriptor_t activationDesc,
+                                                  const cudnnTensorDescriptor_t normMeanVarDesc,
+                                                  size_t *sizeInBytes,
+                                                  int groupCnt); /* Place hold for future work, should be set to 1 now*/
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnRestoreAlgorithm(cudnnHandle_t handle,
-                      void *algoSpace,
-                      size_t algoSpaceSizeInBytes,
-                      cudnnAlgorithmDescriptor_t algoDesc);
-typedef enum {
-    CUDNN_SEV_FATAL   = 0,
-    CUDNN_SEV_ERROR   = 1,
-    CUDNN_SEV_WARNING = 2,
-    CUDNN_SEV_INFO    = 3,
-} cudnnSeverity_t;
-/* Message masks to be used with cudnnSetCallback() */
-#define CUDNN_SEV_ERROR_EN (1U << CUDNN_SEV_ERROR)
-#define CUDNN_SEV_WARNING_EN (1U << CUDNN_SEV_WARNING)
-#define CUDNN_SEV_INFO_EN (1U << CUDNN_SEV_INFO)
-/* struct containing useful informaiton for each API call */
-typedef struct cudnnDebugStruct {
-    unsigned cudnn_version;
-    cudnnStatus_t cudnnStatus;
-    unsigned time_sec;      /* epoch time in seconds */
-    unsigned time_usec;     /* microseconds part of epoch time */
-    unsigned time_delta;    /* time since start in seconds */
-    cudnnHandle_t handle;   /* cudnn handle */
-    cudaStream_t stream;    /* cuda stream ID */
-    unsigned long long pid; /* process ID */
-    unsigned long long tid; /* thread ID */
-    int cudaDeviceId;       /* CUDA device ID */
-    int reserved[15];       /* reserved for future use */
-} cudnnDebug_t;
-typedef void (*cudnnCallback_t)(cudnnSeverity_t sev, void *udata, const cudnnDebug_t *dbg, const char *msg);
+cudnnGetNormalizationBackwardWorkspaceSize(cudnnHandle_t handle,
+                                           cudnnNormMode_t mode,
+                                           cudnnNormOps_t normOps,
+                                           cudnnNormAlgo_t algo,
+                                           const cudnnTensorDescriptor_t xDesc,
+                                           const cudnnTensorDescriptor_t yDesc,
+                                           const cudnnTensorDescriptor_t dyDesc,
+                                           const cudnnTensorDescriptor_t dzDesc,
+                                           const cudnnTensorDescriptor_t dxDesc,
+                                           const cudnnTensorDescriptor_t dNormScaleBiasDesc,
+                                           const cudnnActivationDescriptor_t activationDesc,
+                                           const cudnnTensorDescriptor_t normMeanVarDesc,
+                                           size_t *sizeInBytes,
+                                           int groupCnt); /* Place hold for future work, should be set to 1 now*/
-cudnnStatus_t CUDNNWINAPI
-cudnnSetCallback(unsigned mask, void *udata, cudnnCallback_t fptr);
-cudnnStatus_t CUDNNWINAPI
-cudnnGetCallback(unsigned *mask, void **udata, cudnnCallback_t *fptr);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnGetNormalizationTrainingReserveSpaceSize(cudnnHandle_t handle,
+                                              cudnnNormMode_t mode,
+                                              cudnnNormOps_t normOps,
+                                              cudnnNormAlgo_t algo,
+                                              const cudnnActivationDescriptor_t activationDesc,
+                                              const cudnnTensorDescriptor_t xDesc,
+                                              size_t *sizeInBytes,
+                                              int groupCnt); /* Place hold for future work, should be set to 1 now*/
+/* Computes y = relu(Norm(x) + z). Also accumulates moving averages of mean and inverse variances */
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnNormalizationForwardTraining(cudnnHandle_t handle,
+                                  cudnnNormMode_t mode,
+                                  cudnnNormOps_t normOps,
+                                  cudnnNormAlgo_t algo,
+                                  const void *alpha, /* alpha[0] = result blend factor */
+                                  const void *beta,  /* beta[0] = dest layer blend factor */
+                                  const cudnnTensorDescriptor_t xDesc,
+                                  const void *xData,
+                                  const cudnnTensorDescriptor_t normScaleBiasDesc,
+                                  const void *normScale,
+                                  const void *normBias,
+                                  double exponentialAverageFactor,
+                                  const cudnnTensorDescriptor_t normMeanVarDesc,
+                                  void *resultRunningMean,
+                                  void *resultRunningVariance,
+                                  /* Has to be >= 0. Should be the same in forward and backward functions. */
+                                  double epsilon,
+                                  /* Optionally save intermediate results from the forward pass here
+                                     - can be reused to speed up backward pass. NULL if unused */
+                                  void *resultSaveMean,
+                                  void *resultSaveInvVariance,
+                                  cudnnActivationDescriptor_t activationDesc,
+                                  const cudnnTensorDescriptor_t zDesc,
+                                  const void *zData,
+                                  const cudnnTensorDescriptor_t yDesc,
+                                  void *yData,
+                                  void *workspace,
+                                  size_t workSpaceSizeInBytes,
+                                  void *reserveSpace,
+                                  size_t reserveSpaceSizeInBytes,
+                                  int groupCnt); /* Place hold for future work, should be set to 1 now*/
-/*
- * \brief Cross-library version checker.
- * This function is implemented differently in each sub-library. Each sublib
- * checks whether its own version matches that of its dependencies.
- * \returns CUDNN_STATUS_SUCCESS if the version check passes,
- *          CUDNN_STATUS_VERSION_MISMATCH if the versions are inconsistent.
- */
-cudnnStatus_t CUDNNWINAPI
-cudnnOpsInferVersionCheck(void);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnNormalizationBackward(cudnnHandle_t handle,
+                           cudnnNormMode_t mode,
+                           cudnnNormOps_t normOps,
+                           cudnnNormAlgo_t algo,
+                           const void *alphaDataDiff,
+                           const void *betaDataDiff,
+                           const void *alphaParamDiff,
+                           const void *betaParamDiff,
+                           const cudnnTensorDescriptor_t xDesc,
+                           const void *xData,
+                           const cudnnTensorDescriptor_t yDesc,
+                           const void *yData,
+                           const cudnnTensorDescriptor_t dyDesc,
+                           const void *dyData,
+                           const cudnnTensorDescriptor_t dzDesc,
+                           void *dzData,
+                           const cudnnTensorDescriptor_t dxDesc,
+                           void *dxData,
+                           /* Shared tensor desc for the 4 tensors below */
+                           const cudnnTensorDescriptor_t dNormScaleBiasDesc,
+                           const void *normScaleData,
+                           const void *normBiasData, /* needed if there is activation */
+                           void *dNormScaleData,
+                           void *dNormBiasData,
+                           double epsilon, /* Same epsilon as forward pass */
+                           const cudnnTensorDescriptor_t normMeanVarDesc,
+                           /* Optionally cached intermediate results from
+                              forward pass */
+                           const void *savedMean,
+                           const void *savedInvVariance,
+                           cudnnActivationDescriptor_t activationDesc,
+                           void *workSpace,
+                           size_t workSpaceSizeInBytes,
+                           void *reserveSpace,
+                           size_t reserveSpaceSizeInBytes,
+                           int groupCnt); /* Place hold for future work, should be set to 1 now*/
+cudnnStatus_t CUDNNWINAPI
+cudnnSpatialTfGridGeneratorBackward(cudnnHandle_t handle,
+                                    const cudnnSpatialTransformerDescriptor_t stDesc,
+                                    const void *dgrid,
+                                    void *dtheta);
+cudnnStatus_t CUDNNWINAPI
+cudnnSpatialTfSamplerBackward(cudnnHandle_t handle,
+                              cudnnSpatialTransformerDescriptor_t stDesc,
+                              const void *alpha,
+                              const cudnnTensorDescriptor_t xDesc,
+                              const void *x,
+                              const void *beta,
+                              const cudnnTensorDescriptor_t dxDesc,
+                              void *dx,
+                              const void *alphaDgrid,
+                              const cudnnTensorDescriptor_t dyDesc,
+                              const void *dy,
+                              const void *grid,
+                              const void *betaDgrid,
+                              void *dgrid);
+cudnnStatus_t CUDNNWINAPI
+cudnnDropoutBackward(cudnnHandle_t handle,
+                     const cudnnDropoutDescriptor_t dropoutDesc,
+                     const cudnnTensorDescriptor_t dydesc,
+                     const void *dy,
+                     const cudnnTensorDescriptor_t dxdesc,
+                     void *dx,
+                     void *reserveSpace,
+                     size_t reserveSpaceSizeInBytes);
 #if defined(__cplusplus)
 }
 #endif
-#endif /* CUDNN_OPS_INFER_H_ */
+#endif /* CUDNN_OPS_H_ */