PyPI - nvidia-cudnn-cu12 - Versions diffs - 8.9.6.50__py3-none-win_amd64.whl → 9.0.0.312__py3-none-win_amd64.whl - Mend

nvidia-cudnn-cu12 8.9.6.50__py3-none-win_amd64.whl → 9.0.0.312__py3-none-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

nvidia/cudnn/bin/cudnn64_9.dll +0 -0
nvidia/cudnn/bin/{cudnn_adv_infer64_8.dll → cudnn_adv64_9.dll} +0 -0
nvidia/cudnn/bin/cudnn_cnn64_9.dll +0 -0
nvidia/cudnn/bin/{cudnn_cnn_infer64_8.dll → cudnn_engines_precompiled64_9.dll} +0 -0
nvidia/cudnn/bin/cudnn_engines_runtime_compiled64_9.dll +0 -0
nvidia/cudnn/bin/cudnn_graph64_9.dll +0 -0
nvidia/cudnn/bin/{cudnn_ops_infer64_8.dll → cudnn_heuristic64_9.dll} +0 -0
nvidia/cudnn/bin/{cudnn_adv_train64_8.dll → cudnn_ops64_9.dll} +0 -0
nvidia/cudnn/include/cudnn.h +8 -18
nvidia/cudnn/include/{cudnn_adv_infer.h → cudnn_adv.h} +265 -252
nvidia/cudnn/include/cudnn_backend.h +3 -558
nvidia/cudnn/include/{cudnn_cnn_infer.h → cudnn_cnn.h} +187 -65
nvidia/cudnn/include/cudnn_graph.h +908 -0
nvidia/cudnn/include/{cudnn_ops_infer.h → cudnn_ops.h} +469 -336
nvidia/cudnn/include/cudnn_version.h +4 -43
nvidia/cudnn/lib/x64/cudnn.lib +0 -0
nvidia/cudnn/lib/x64/cudnn64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_engines_precompiled.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_engines_precompiled64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_engines_runtime_compiled.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_engines_runtime_compiled64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_graph.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_graph64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_heuristic.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_heuristic64_9.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops64_9.lib +0 -0
{nvidia_cudnn_cu12-8.9.6.50.dist-info → nvidia_cudnn_cu12-9.0.0.312.dist-info}/METADATA +1 -1
nvidia_cudnn_cu12-9.0.0.312.dist-info/RECORD +41 -0
nvidia/cudnn/bin/cudnn64_8.dll +0 -0
nvidia/cudnn/bin/cudnn_cnn_train64_8.dll +0 -0
nvidia/cudnn/bin/cudnn_ops_train64_8.dll +0 -0
nvidia/cudnn/include/cudnn_adv_train.h +0 -540
nvidia/cudnn/include/cudnn_cnn_train.h +0 -219
nvidia/cudnn/include/cudnn_ops_train.h +0 -501
nvidia/cudnn/lib/x64/cudnn64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv_infer.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv_infer64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv_train.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_adv_train64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn_infer.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn_infer64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn_train.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_cnn_train64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops_infer.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops_infer64_8.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops_train.lib +0 -0
nvidia/cudnn/lib/x64/cudnn_ops_train64_8.lib +0 -0
nvidia_cudnn_cu12-8.9.6.50.dist-info/RECORD +0 -40
{nvidia_cudnn_cu12-8.9.6.50.dist-info → nvidia_cudnn_cu12-9.0.0.312.dist-info}/License.txt +0 -0
{nvidia_cudnn_cu12-8.9.6.50.dist-info → nvidia_cudnn_cu12-9.0.0.312.dist-info}/WHEEL +0 -0
{nvidia_cudnn_cu12-8.9.6.50.dist-info → nvidia_cudnn_cu12-9.0.0.312.dist-info}/top_level.txt +0 -0

nvidia/cudnn/include/{cudnn_adv_infer.h → cudnn_adv.h} RENAMED Viewed

@@ -47,26 +47,24 @@
  * Users Notice.
  */
-/*   cudnn_adv_infer : cuDNN's advanced and experimental features.
+/*   cudnn_adv : cuDNN's advanced and experimental features.
 */
-#if !defined(CUDNN_ADV_INFER_H_)
-#define CUDNN_ADV_INFER_H_
+#if !defined(CUDNN_ADV_H_)
+#define CUDNN_ADV_H_
-#include <cuda_runtime.h>
 #include <stdint.h>
 #include "cudnn_version.h"
-#include "cudnn_ops_infer.h"
+#include "cudnn_ops.h"
 /* These version numbers are autogenerated, do not edit manually. */
-#define CUDNN_ADV_INFER_MAJOR 8
-#define CUDNN_ADV_INFER_MINOR 9
-#define CUDNN_ADV_INFER_PATCH 6
+#define CUDNN_ADV_MAJOR 9
+#define CUDNN_ADV_MINOR 0
+#define CUDNN_ADV_PATCH 0
-#if (CUDNN_ADV_INFER_MAJOR != CUDNN_MAJOR) || (CUDNN_ADV_INFER_MINOR != CUDNN_MINOR) || \
-    (CUDNN_ADV_INFER_PATCH != CUDNN_PATCHLEVEL)
+#if (CUDNN_ADV_MAJOR != CUDNN_MAJOR) || (CUDNN_ADV_MINOR != CUDNN_MINOR) || (CUDNN_ADV_PATCH != CUDNN_PATCHLEVEL)
 #error Version mismatch in cuDNN ADV INFER!!!
 #endif
@@ -76,6 +74,14 @@ extern "C" {
 /* BASIC RNN API */
+typedef enum {
+    CUDNN_RNN_ALGO_STANDARD               = 0,
+    CUDNN_RNN_ALGO_PERSIST_STATIC         = 1,
+    CUDNN_RNN_ALGO_PERSIST_DYNAMIC        = 2,
+    CUDNN_RNN_ALGO_PERSIST_STATIC_SMALL_H = 3,
+    CUDNN_RNN_ALGO_COUNT                  = 4,
+} cudnnRNNAlgo_t;
 typedef enum {
     CUDNN_FWD_MODE_INFERENCE = 0,
     CUDNN_FWD_MODE_TRAINING  = 1,
@@ -116,19 +122,13 @@ typedef enum {
     CUDNN_RNN_DATA_LAYOUT_BATCH_MAJOR_UNPACKED = 2, /* padded, outer stride from one batch to the next */
 } cudnnRNNDataLayout_t;
-/* Legacy type for backward compatibility */
-typedef unsigned cudnnRNNPaddingMode_t;
-/* For auxFlags in cudnnSetRNNDescriptor_v8() and cudnnSetRNNPaddingMode() */
+/* For auxFlags in cudnnSetRNNDescriptor_v8() */
 #define CUDNN_RNN_PADDED_IO_DISABLED 0
 #define CUDNN_RNN_PADDED_IO_ENABLED (1U << 0)
 struct cudnnRNNStruct;
 typedef struct cudnnRNNStruct *cudnnRNNDescriptor_t;
-struct cudnnPersistentRNNPlan;
-typedef struct cudnnPersistentRNNPlan *cudnnPersistentRNNPlan_t;
 struct cudnnRNNDataStruct;
 typedef struct cudnnRNNDataStruct *cudnnRNNDataDescriptor_t;
@@ -138,6 +138,13 @@ cudnnCreateRNNDescriptor(cudnnRNNDescriptor_t *rnnDesc);
 cudnnStatus_t CUDNNWINAPI
 cudnnDestroyRNNDescriptor(cudnnRNNDescriptor_t rnnDesc);
+/*
+ * mathPrec in cudnnSetRNNDescriptor_v8() specifies compute precision.
+ * Compute precision is further modified by mathType that sets the
+ * preferred option for using NVIDIA Tensor Cores.  dataType specify
+ * input/output data type and weight/bias type.
+ */
 cudnnStatus_t CUDNNWINAPI
 cudnnSetRNNDescriptor_v8(cudnnRNNDescriptor_t rnnDesc,
                          cudnnRNNAlgo_t algo,
@@ -172,49 +179,7 @@ cudnnGetRNNDescriptor_v8(cudnnRNNDescriptor_t rnnDesc,
                          cudnnDropoutDescriptor_t *dropoutDesc,
                          uint32_t *auxFlags);
-/*
- * mathPrec in cudnnSetRNNDescriptor_v6() specifies compute precision
- * compute precision is further modified by cudnnSetRNNMatrixMathType()
- * dataType in cudnnGetRNNParamsSize() and wDesc specify weight storage
- * dropout is between RNN layers, not between recurrent steps
- */
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetRNNDescriptor_v6(cudnnHandle_t handle,
-                         cudnnRNNDescriptor_t rnnDesc,
-                         const int hiddenSize,
-                         const int numLayers,
-                         cudnnDropoutDescriptor_t dropoutDesc,
-                         cudnnRNNInputMode_t inputMode,
-                         cudnnDirectionMode_t direction,
-                         cudnnRNNMode_t cellMode,
-                         cudnnRNNAlgo_t algo,
-                         cudnnDataType_t mathPrec);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNDescriptor_v6(cudnnHandle_t handle,
-                         cudnnRNNDescriptor_t rnnDesc,
-                         int *hiddenSize,
-                         int *numLayers,
-                         cudnnDropoutDescriptor_t *dropoutDesc,
-                         cudnnRNNInputMode_t *inputMode,
-                         cudnnDirectionMode_t *direction,
-                         cudnnRNNMode_t *cellMode,
-                         cudnnRNNAlgo_t *algo,
-                         cudnnDataType_t *mathPrec);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetRNNMatrixMathType(cudnnRNNDescriptor_t rnnDesc, cudnnMathType_t mType);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNMatrixMathType(cudnnRNNDescriptor_t rnnDesc, cudnnMathType_t *mType);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetRNNBiasMode(cudnnRNNDescriptor_t rnnDesc, cudnnRNNBiasMode_t biasMode);
 CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNBiasMode(cudnnRNNDescriptor_t rnnDesc, cudnnRNNBiasMode_t *biasMode);
-cudnnStatus_t CUDNNWINAPI
 cudnnRNNSetClip_v8(cudnnRNNDescriptor_t rnnDesc,
                    cudnnRNNClipMode_t clipMode,
                    cudnnNanPropagation_t clipNanOpt,
@@ -222,71 +187,21 @@ cudnnRNNSetClip_v8(cudnnRNNDescriptor_t rnnDesc,
                    double rclip);
 cudnnStatus_t CUDNNWINAPI
+cudnnRNNSetClip_v9(cudnnRNNDescriptor_t rnnDesc, cudnnRNNClipMode_t clipMode, double lclip, double rclip);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnRNNGetClip_v8(cudnnRNNDescriptor_t rnnDesc,
                    cudnnRNNClipMode_t *clipMode,
                    cudnnNanPropagation_t *clipNanOpt,
                    double *lclip,
                    double *rclip);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnRNNSetClip(cudnnHandle_t handle,
-                cudnnRNNDescriptor_t rnnDesc,
-                cudnnRNNClipMode_t clipMode,
-                cudnnNanPropagation_t clipNanOpt,
-                double lclip,
-                double rclip);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnRNNGetClip(cudnnHandle_t handle,
-                cudnnRNNDescriptor_t rnnDesc,
-                cudnnRNNClipMode_t *clipMode,
-                cudnnNanPropagation_t *clipNanOpt,
-                double *lclip,
-                double *rclip);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetRNNProjectionLayers(cudnnHandle_t handle,
-                            cudnnRNNDescriptor_t rnnDesc,
-                            const int recProjSize,
-                            const int outProjSize);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNProjectionLayers(cudnnHandle_t handle,
-                            const cudnnRNNDescriptor_t rnnDesc,
-                            int *recProjSize,
-                            int *outProjSize);
-/* Expensive. Creates the plan for the specific settings. */
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnCreatePersistentRNNPlan(cudnnRNNDescriptor_t rnnDesc,
-                             const int minibatch,
-                             const cudnnDataType_t dataType,
-                             cudnnPersistentRNNPlan_t *plan);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnDestroyPersistentRNNPlan(cudnnPersistentRNNPlan_t plan);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetPersistentRNNPlan(cudnnRNNDescriptor_t rnnDesc, cudnnPersistentRNNPlan_t plan);
+cudnnStatus_t CUDNNWINAPI
+cudnnRNNGetClip_v9(cudnnRNNDescriptor_t rnnDesc, cudnnRNNClipMode_t *clipMode, double *lclip, double *rclip);
 cudnnStatus_t CUDNNWINAPI
 cudnnBuildRNNDynamic(cudnnHandle_t handle, cudnnRNNDescriptor_t rnnDesc, int miniBatch);
-/* dataType in weight descriptors and input descriptors is used to describe storage */
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNWorkspaceSize(cudnnHandle_t handle,
-                         const cudnnRNNDescriptor_t rnnDesc,
-                         const int seqLength,
-                         const cudnnTensorDescriptor_t *xDesc,
-                         size_t *sizeInBytes);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNTrainingReserveSize(cudnnHandle_t handle,
-                               const cudnnRNNDescriptor_t rnnDesc,
-                               const int seqLength,
-                               const cudnnTensorDescriptor_t *xDesc,
-                               size_t *sizeInBytes);
 cudnnStatus_t CUDNNWINAPI
 cudnnGetRNNTempSpaceSizes(cudnnHandle_t handle,
                           cudnnRNNDescriptor_t rnnDesc,
@@ -295,38 +210,9 @@ cudnnGetRNNTempSpaceSizes(cudnnHandle_t handle,
                           size_t *workSpaceSize,
                           size_t *reserveSpaceSize);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNParamsSize(cudnnHandle_t handle,
-                      const cudnnRNNDescriptor_t rnnDesc,
-                      const cudnnTensorDescriptor_t xDesc,
-                      size_t *sizeInBytes,
-                      cudnnDataType_t dataType);
 cudnnStatus_t CUDNNWINAPI
 cudnnGetRNNWeightSpaceSize(cudnnHandle_t handle, cudnnRNNDescriptor_t rnnDesc, size_t *weightSpaceSize);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNLinLayerMatrixParams(cudnnHandle_t handle,
-                                const cudnnRNNDescriptor_t rnnDesc,
-                                const int pseudoLayer,
-                                const cudnnTensorDescriptor_t xDesc,
-                                const cudnnFilterDescriptor_t wDesc,
-                                const void *w,
-                                const int linLayerID,
-                                cudnnFilterDescriptor_t linLayerMatDesc,
-                                void **linLayerMat);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNLinLayerBiasParams(cudnnHandle_t handle,
-                              const cudnnRNNDescriptor_t rnnDesc,
-                              const int pseudoLayer,
-                              const cudnnTensorDescriptor_t xDesc,
-                              const cudnnFilterDescriptor_t wDesc,
-                              const void *w,
-                              const int linLayerID,
-                              cudnnFilterDescriptor_t linLayerBiasDesc,
-                              void **linLayerBias);
 cudnnStatus_t CUDNNWINAPI
 cudnnGetRNNWeightParams(cudnnHandle_t handle,
                         cudnnRNNDescriptor_t rnnDesc,
@@ -339,35 +225,6 @@ cudnnGetRNNWeightParams(cudnnHandle_t handle,
                         cudnnTensorDescriptor_t bDesc,
                         void **bAddr);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnRNNForwardInference(cudnnHandle_t handle,
-                         const cudnnRNNDescriptor_t rnnDesc,
-                         const int seqLength,
-                         const cudnnTensorDescriptor_t *xDesc,
-                         const void *x,
-                         const cudnnTensorDescriptor_t hxDesc,
-                         const void *hx,
-                         const cudnnTensorDescriptor_t cxDesc,
-                         const void *cx,
-                         const cudnnFilterDescriptor_t wDesc,
-                         const void *w,
-                         const cudnnTensorDescriptor_t *yDesc,
-                         void *y,
-                         const cudnnTensorDescriptor_t hyDesc,
-                         void *hy,
-                         const cudnnTensorDescriptor_t cyDesc,
-                         void *cy,
-                         void *workSpace,
-                         size_t workSpaceSizeInBytes);
-/* RNN EX API */
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetRNNPaddingMode(cudnnRNNDescriptor_t rnnDesc, unsigned paddingMode);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNPaddingMode(cudnnRNNDescriptor_t rnnDesc, unsigned *paddingMode);
 cudnnStatus_t CUDNNWINAPI
 cudnnCreateRNNDataDescriptor(cudnnRNNDataDescriptor_t *rnnDataDesc);
@@ -395,34 +252,6 @@ cudnnGetRNNDataDescriptor(cudnnRNNDataDescriptor_t rnnDataDesc,
                           int seqLengthArray[],
                           void *paddingFill);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnRNNForwardInferenceEx(cudnnHandle_t handle,
-                           const cudnnRNNDescriptor_t rnnDesc,
-                           const cudnnRNNDataDescriptor_t xDesc,
-                           const void *x,
-                           const cudnnTensorDescriptor_t hxDesc,
-                           const void *hx,
-                           const cudnnTensorDescriptor_t cxDesc,
-                           const void *cx,
-                           const cudnnFilterDescriptor_t wDesc,
-                           const void *w,
-                           const cudnnRNNDataDescriptor_t yDesc,
-                           void *y,
-                           const cudnnTensorDescriptor_t hyDesc,
-                           void *hy,
-                           const cudnnTensorDescriptor_t cyDesc,
-                           void *cy,
-                           const cudnnRNNDataDescriptor_t kDesc, /* reserved, should pass NULL */
-                           const void *keys,                     /* reserved, should pass NULL */
-                           const cudnnRNNDataDescriptor_t cDesc, /* reserved, should pass NULL */
-                           void *cAttn,                          /* reserved, should pass NULL */
-                           const cudnnRNNDataDescriptor_t iDesc, /* reserved, should pass NULL */
-                           void *iAttn,                          /* reserved, should pass NULL */
-                           const cudnnRNNDataDescriptor_t qDesc, /* reserved, should pass NULL */
-                           void *queries,                        /* reserved, should pass NULL */
-                           void *workSpace,
-                           size_t workSpaceSizeInBytes);
 cudnnStatus_t CUDNNWINAPI
 cudnnRNNForward(cudnnHandle_t handle,
                 cudnnRNNDescriptor_t rnnDesc,
@@ -445,39 +274,6 @@ cudnnRNNForward(cudnnHandle_t handle,
                 size_t reserveSpaceSize,
                 void *reserveSpace);
-/* RNN FIND API */
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnSetRNNAlgorithmDescriptor(cudnnHandle_t handle, cudnnRNNDescriptor_t rnnDesc, cudnnAlgorithmDescriptor_t algoDesc);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnGetRNNForwardInferenceAlgorithmMaxCount(cudnnHandle_t handle, const cudnnRNNDescriptor_t rnnDesc, int *count);
-CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
-cudnnFindRNNForwardInferenceAlgorithmEx(cudnnHandle_t handle,
-                                        const cudnnRNNDescriptor_t rnnDesc,
-                                        const int seqLength,
-                                        const cudnnTensorDescriptor_t *xDesc,
-                                        const void *x,
-                                        const cudnnTensorDescriptor_t hxDesc,
-                                        const void *hx,
-                                        const cudnnTensorDescriptor_t cxDesc,
-                                        const void *cx,
-                                        const cudnnFilterDescriptor_t wDesc,
-                                        const void *w,
-                                        const cudnnTensorDescriptor_t *yDesc,
-                                        void *y,
-                                        const cudnnTensorDescriptor_t hyDesc,
-                                        void *hy,
-                                        const cudnnTensorDescriptor_t cyDesc,
-                                        void *cy,
-                                        const float findIntensity,
-                                        const int requestedAlgoCount,
-                                        int *returnedAlgoCount,
-                                        cudnnAlgorithmPerformance_t *perfResults,
-                                        void *workspace,
-                                        size_t workSpaceSizeInBytes);
 /* Sequence data descriptor */
 typedef enum {
@@ -488,17 +284,17 @@ typedef enum {
 } cudnnSeqDataAxis_t;
 struct cudnnSeqDataStruct;
-typedef struct cudnnSeqDataStruct *cudnnSeqDataDescriptor_t;
+typedef struct cudnnSeqDataStruct *cudnnSeqDataDescriptor_t CUDNN_DEPRECATED;
 #define CUDNN_SEQDATA_DIM_COUNT 4 /* dimension count */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnCreateSeqDataDescriptor(cudnnSeqDataDescriptor_t *seqDataDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDestroySeqDataDescriptor(cudnnSeqDataDescriptor_t seqDataDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetSeqDataDescriptor(cudnnSeqDataDescriptor_t seqDataDesc,
                           cudnnDataType_t dataType,
                           int nbDims,
@@ -508,7 +304,7 @@ cudnnSetSeqDataDescriptor(cudnnSeqDataDescriptor_t seqDataDesc,
                           const int seqLengthArray[],
                           void *paddingFill);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetSeqDataDescriptor(const cudnnSeqDataDescriptor_t seqDataDesc,
                           cudnnDataType_t *dataType,
                           int *nbDims,
@@ -522,9 +318,6 @@ cudnnGetSeqDataDescriptor(const cudnnSeqDataDescriptor_t seqDataDesc,
 /* Multihead Attention */
-/* Legacy type for backward compatibility */
-typedef unsigned cudnnAttnQueryMap_t;
 /*
  * Multi-head attention options passed via 'attnMode' in cudnnSetAttnDescriptor().
  * Use the bitwise OR operator to combine several settings listed below.  Additional
@@ -536,15 +329,15 @@ typedef unsigned cudnnAttnQueryMap_t;
 #define CUDNN_ATTN_ENABLE_PROJ_BIASES (1U << 1)  /* use biases in attention input and output projections */
 struct cudnnAttnStruct;
-typedef struct cudnnAttnStruct *cudnnAttnDescriptor_t;
+typedef struct cudnnAttnStruct *cudnnAttnDescriptor_t CUDNN_DEPRECATED;
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnCreateAttnDescriptor(cudnnAttnDescriptor_t *attnDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnDestroyAttnDescriptor(cudnnAttnDescriptor_t attnDesc);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnSetAttnDescriptor(cudnnAttnDescriptor_t attnDesc,
                        unsigned attnMode,
                        int nHeads,
@@ -566,7 +359,7 @@ cudnnSetAttnDescriptor(cudnnAttnDescriptor_t attnDesc,
                        int maxBatchSize,
                        int maxBeamSize);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetAttnDescriptor(cudnnAttnDescriptor_t attnDesc,
                        unsigned *attnMode,
                        int *nHeads,
@@ -588,7 +381,7 @@ cudnnGetAttnDescriptor(cudnnAttnDescriptor_t attnDesc,
                        int *maxBatchSize,
                        int *maxBeamSize);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetMultiHeadAttnBuffers(cudnnHandle_t handle,
                              const cudnnAttnDescriptor_t attnDesc,
                              size_t *weightSizeInBytes,
@@ -608,7 +401,7 @@ typedef enum {
 #define CUDNN_ATTN_WKIND_COUNT 8 /* Number of attention weight/bias tensors */
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnGetMultiHeadAttnWeights(cudnnHandle_t handle,
                              const cudnnAttnDescriptor_t attnDesc,
                              cudnnMultiHeadAttnWeightKind_t wKind,
@@ -617,7 +410,7 @@ cudnnGetMultiHeadAttnWeights(cudnnHandle_t handle,
                              cudnnTensorDescriptor_t wDesc,
                              void **wAddr);
-cudnnStatus_t CUDNNWINAPI
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
 cudnnMultiHeadAttnForward(cudnnHandle_t handle,
                           const cudnnAttnDescriptor_t attnDesc,
                           int currIdx,
@@ -646,13 +439,233 @@ cudnnMultiHeadAttnForward(cudnnHandle_t handle,
  * This function is implemented differently in each sub-library. Each sublib
  * checks whether its own version matches that of its dependencies.
  * \returns CUDNN_STATUS_SUCCESS if the version check passes,
- *          CUDNN_STATUS_VERSION_MISMATCH if the versions are inconsistent.
+ *          CUDNN_STATUS_SUBLIBRARY_VERSION_MISMATCH if the versions are inconsistent.
  */
 cudnnStatus_t CUDNNWINAPI
-cudnnAdvInferVersionCheck(void);
+cudnnAdvVersionCheck(void);
+typedef enum {
+    CUDNN_WGRAD_MODE_ADD = 0, /* add partial gradients to wgrad output buffers */
+    CUDNN_WGRAD_MODE_SET = 1, /* write partial gradients to wgrad output buffers */
+} cudnnWgradMode_t;
+cudnnStatus_t CUDNNWINAPI
+cudnnRNNBackwardData_v8(cudnnHandle_t handle,
+                        cudnnRNNDescriptor_t rnnDesc,
+                        const int32_t devSeqLengths[],
+                        cudnnRNNDataDescriptor_t yDesc,
+                        const void *y,
+                        const void *dy,
+                        cudnnRNNDataDescriptor_t xDesc,
+                        void *dx,
+                        cudnnTensorDescriptor_t hDesc,
+                        const void *hx,
+                        const void *dhy,
+                        void *dhx,
+                        cudnnTensorDescriptor_t cDesc,
+                        const void *cx,
+                        const void *dcy,
+                        void *dcx,
+                        size_t weightSpaceSize,
+                        const void *weightSpace,
+                        size_t workSpaceSize,
+                        void *workSpace,
+                        size_t reserveSpaceSize,
+                        void *reserveSpace);
+cudnnStatus_t CUDNNWINAPI
+cudnnRNNBackwardWeights_v8(cudnnHandle_t handle,
+                           cudnnRNNDescriptor_t rnnDesc,
+                           cudnnWgradMode_t addGrad,
+                           const int32_t devSeqLengths[],
+                           cudnnRNNDataDescriptor_t xDesc,
+                           const void *x,
+                           cudnnTensorDescriptor_t hDesc,
+                           const void *hx,
+                           cudnnRNNDataDescriptor_t yDesc,
+                           const void *y,
+                           size_t weightSpaceSize,
+                           void *dweightSpace,
+                           size_t workSpaceSize,
+                           void *workSpace,
+                           size_t reserveSpaceSize,
+                           void *reserveSpace);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnMultiHeadAttnBackwardData(cudnnHandle_t handle,
+                               const cudnnAttnDescriptor_t attnDesc,
+                               const int loWinIdx[],
+                               const int hiWinIdx[],
+                               const int devSeqLengthsDQDO[],
+                               const int devSeqLengthsDKDV[],
+                               const cudnnSeqDataDescriptor_t doDesc,
+                               const void *dout,
+                               const cudnnSeqDataDescriptor_t dqDesc,
+                               void *dqueries,
+                               const void *queries,
+                               const cudnnSeqDataDescriptor_t dkDesc,
+                               void *dkeys,
+                               const void *keys,
+                               const cudnnSeqDataDescriptor_t dvDesc,
+                               void *dvalues,
+                               const void *values,
+                               size_t weightSizeInBytes,
+                               const void *weights,
+                               size_t workSpaceSizeInBytes,
+                               void *workSpace,
+                               size_t reserveSpaceSizeInBytes,
+                               void *reserveSpace);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnMultiHeadAttnBackwardWeights(cudnnHandle_t handle,
+                                  const cudnnAttnDescriptor_t attnDesc,
+                                  cudnnWgradMode_t addGrad,
+                                  const cudnnSeqDataDescriptor_t qDesc,
+                                  const void *queries,
+                                  const cudnnSeqDataDescriptor_t kDesc,
+                                  const void *keys,
+                                  const cudnnSeqDataDescriptor_t vDesc,
+                                  const void *values,
+                                  const cudnnSeqDataDescriptor_t doDesc,
+                                  const void *dout,
+                                  size_t weightSizeInBytes,
+                                  const void *weights,
+                                  void *dweights,
+                                  size_t workSpaceSizeInBytes,
+                                  void *workSpace,
+                                  size_t reserveSpaceSizeInBytes,
+                                  void *reserveSpace);
+/*
+* CTC (Connectionist Temporal Classification) loss descriptor create/destory/set/get functions
+*/
+/* Input normalization mode for loss function */
+typedef enum {
+    CUDNN_LOSS_NORMALIZATION_NONE    = 0,
+    CUDNN_LOSS_NORMALIZATION_SOFTMAX = 1,
+} cudnnLossNormalizationMode_t;
+cudnnStatus_t CUDNNWINAPI
+cudnnCreateCTCLossDescriptor(cudnnCTCLossDescriptor_t *ctcLossDesc);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnSetCTCLossDescriptor(cudnnCTCLossDescriptor_t ctcLossDesc, cudnnDataType_t compType);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnSetCTCLossDescriptorEx(cudnnCTCLossDescriptor_t ctcLossDesc,
+                            cudnnDataType_t compType,
+                            cudnnLossNormalizationMode_t normMode,
+                            cudnnNanPropagation_t gradMode);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnSetCTCLossDescriptor_v8(cudnnCTCLossDescriptor_t ctcLossDesc,
+                             cudnnDataType_t compType,
+                             cudnnLossNormalizationMode_t normMode,
+                             cudnnNanPropagation_t gradMode,
+                             int maxLabelLength);
+cudnnStatus_t CUDNNWINAPI
+cudnnSetCTCLossDescriptor_v9(cudnnCTCLossDescriptor_t ctcLossDesc,
+                             cudnnDataType_t compType,
+                             cudnnLossNormalizationMode_t normMode,
+                             cudnnCTCGradMode_t ctcGradMode,
+                             int maxLabelLength);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnGetCTCLossDescriptor(cudnnCTCLossDescriptor_t ctcLossDesc, cudnnDataType_t *compType);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnGetCTCLossDescriptorEx(cudnnCTCLossDescriptor_t ctcLossDesc,
+                            cudnnDataType_t *compType,
+                            cudnnLossNormalizationMode_t *normMode,
+                            cudnnNanPropagation_t *gradMode);
+CUDNN_DEPRECATED cudnnStatus_t CUDNNWINAPI
+cudnnGetCTCLossDescriptor_v8(cudnnCTCLossDescriptor_t ctcLossDesc,
+                             cudnnDataType_t *compType,
+                             cudnnLossNormalizationMode_t *normMode,
+                             cudnnNanPropagation_t *gradMode,
+                             int *maxLabelLength);
+cudnnStatus_t CUDNNWINAPI
+cudnnGetCTCLossDescriptor_v9(cudnnCTCLossDescriptor_t ctcLossDesc,
+                             cudnnDataType_t *compType,
+                             cudnnLossNormalizationMode_t *normMode,
+                             cudnnCTCGradMode_t *ctcGradMode,
+                             int *maxLabelLength);
+cudnnStatus_t CUDNNWINAPI
+cudnnDestroyCTCLossDescriptor(cudnnCTCLossDescriptor_t ctcLossDesc);
+/* return the ctc costs and gradients, given the probabilities and labels */
+cudnnStatus_t CUDNNWINAPI
+cudnnCTCLoss(
+    cudnnHandle_t handle,
+    const cudnnTensorDescriptor_t
+        probsDesc,     /* Tensor descriptor for probabilities, the dimensions are T,N,A (T is the timing steps, N is the
+                          mini batch size, A is the alphabet size)  */
+    const void *probs, /* probabilities after softmax, in GPU memory */
+    const int hostLabels[],                      /* labels, in CPU memory */
+    const int hostLabelLengths[],                /* the length of each label, in CPU memory */
+    const int hostInputLengths[],                /* the lengths of timing steps in each batch, in CPU memory */
+    void *costs,                                 /* the returned costs of CTC, in GPU memory */
+    const cudnnTensorDescriptor_t gradientsDesc, /* Tensor descriptor for gradients, the dimensions are T,N,A */
+    void *gradients,         /* the returned CTC gradients, in GPU memory, to compute costs only, set it to NULL */
+    cudnnCTCLossAlgo_t algo, /* algorithm selected, supported now 0 and 1 */
+    cudnnCTCLossDescriptor_t ctcLossDesc,
+    void *workspace,              /* pointer to the workspace, in GPU memory */
+    size_t workSpaceSizeInBytes); /* size of the workspace */
+/* return the ctc costs and gradients, given the probabilities and labels */
+cudnnStatus_t CUDNNWINAPI
+cudnnCTCLoss_v8(
+    cudnnHandle_t handle,
+    cudnnCTCLossAlgo_t algo, /* algorithm selected, supported now 0 and 1 */
+    cudnnCTCLossDescriptor_t ctcLossDesc,
+    const cudnnTensorDescriptor_t
+        probsDesc,     /* Tensor descriptor for probabilities, the dimensions are T,N,A (T is the timing steps, N is the
+                          mini batch size, A is the alphabet size)  */
+    const void *probs, /* probabilities after softmax, in GPU memory */
+    const int labels[],                          /* labels, in GPU memory */
+    const int labelLengths[],                    /* the length of each label, in GPU memory */
+    const int inputLengths[],                    /* the lengths of timing steps in each batch, in GPU memory */
+    void *costs,                                 /* the returned costs of CTC, in GPU memory */
+    const cudnnTensorDescriptor_t gradientsDesc, /* Tensor descriptor for gradients, the dimensions are T,N,A */
+    void *gradients,             /* the returned CTC gradients, in GPU memory, to compute costs only, set it to NULL */
+    size_t workSpaceSizeInBytes, /* size of the workspace */
+    void *workspace);            /* pointer to the workspace, in GPU memory */
+/* return the workspace size needed for ctc */
+cudnnStatus_t CUDNNWINAPI
+cudnnGetCTCLossWorkspaceSize(
+    cudnnHandle_t handle,
+    const cudnnTensorDescriptor_t probsDesc, /* Tensor descriptor for probabilities, the dimensions are T,N,A (T is the
+                                                timing steps, N is the mini batch size, A is the alphabet size) */
+    const cudnnTensorDescriptor_t gradientsDesc, /* Tensor descriptor for gradients, the
+                                                    dimensions are T,N,A. To compute costs
+                                                    only, set it to NULL */
+    const int *labels,                           /* labels, in CPU memory */
+    const int *labelLengths,                     /* the length of each label, in CPU memory */
+    const int *inputLengths,                     /* the lengths of timing steps in each batch, in CPU memory */
+    cudnnCTCLossAlgo_t algo,                     /* algorithm selected, supported now 0 and 1 */
+    cudnnCTCLossDescriptor_t ctcLossDesc,
+    size_t *sizeInBytes); /* pointer to the returned workspace size */
+/* return the workspace size needed for ctc */
+cudnnStatus_t CUDNNWINAPI
+cudnnGetCTCLossWorkspaceSize_v8(
+    cudnnHandle_t handle,
+    cudnnCTCLossAlgo_t algo, /* algorithm selected, supported now 0 and 1 */
+    cudnnCTCLossDescriptor_t ctcLossDesc,
+    const cudnnTensorDescriptor_t probsDesc, /* Tensor descriptor for probabilities, the dimensions are T,N,A (T is the
+                                                timing steps, N is the mini batch size, A is the alphabet size) */
+    const cudnnTensorDescriptor_t gradientsDesc, /* Tensor descriptor for gradients, the
+                                                    dimensions are T,N,A. To compute costs
+                                                    only, set it to NULL */
+    size_t *sizeInBytes);                        /* pointer to the returned workspace size */
 #if defined(__cplusplus)
 }
 #endif
-#endif /* CUDNN_ADV_INFER_H_ */
+#endif /* CUDNN_ADV_H_ */