PyPI - casadi - Versions diffs - 3.6.7__cp37-none-manylinux2014_aarch64.whl → 3.7.0__cp37-none-manylinux2014_aarch64.whl - Mend

casadi 3.6.7__cp37-none-manylinux2014_aarch64.whl → 3.7.0__cp37-none-manylinux2014_aarch64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (210) hide show

casadi/_casadi.so +0 -0
casadi/casadi-cli +0 -0
casadi/casadi.py +6070 -3038
casadi/cmake/casadi-config-version.cmake +1 -1
casadi/cmake/casadi-targets-release.cmake +5 -5
casadi/cmake/casadi-targets.cmake +5 -5
casadi/{lib/cmake/tinyxml2/tinyxml2-config-version.cmake → cmake/ghc_filesystem/ghc_filesystem-config-version.cmake} +30 -10
casadi/cmake/ghc_filesystem/ghc_filesystem-config.cmake +30 -0
casadi/cmake/ghc_filesystem/ghc_filesystem-targets.cmake +107 -0
casadi/cmake/libzip/libzip-config-version.cmake +43 -0
casadi/cmake/libzip/libzip-config.cmake +69 -0
casadi/cmake/libzip/libzip-targets-release.cmake +19 -0
casadi/{lib/cmake/tinyxml2/tinyxml2-static-targets.cmake → cmake/libzip/libzip-targets.cmake} +11 -7
casadi/cmake/libzip/modules/FindMbedTLS.cmake +141 -0
casadi/cmake/libzip/modules/FindNettle.cmake +141 -0
casadi/cmake/libzip/modules/Findzstd.cmake +186 -0
casadi/include/casadi/casadi.i +194 -44
casadi/include/casadi/config.h +11 -11
casadi/include/casadi/core/archiver.hpp +58 -0
casadi/include/casadi/core/blazing_spline.hpp +47 -0
casadi/include/casadi/core/calculus.hpp +57 -2
casadi/include/casadi/core/casadi_common.hpp +37 -0
casadi/include/casadi/core/casadi_meta.hpp +15 -0
casadi/include/casadi/core/casadi_misc.hpp +7 -0
casadi/include/casadi/core/code_generator.hpp +95 -17
casadi/include/casadi/core/core.hpp +5 -0
casadi/include/casadi/core/dae_builder.hpp +283 -141
casadi/include/casadi/core/dm.hpp +3 -0
casadi/include/casadi/core/filesystem.hpp +58 -0
casadi/include/casadi/core/fmu.hpp +51 -16
casadi/include/casadi/core/function.hpp +19 -0
casadi/include/casadi/core/generic_matrix.hpp +214 -7
casadi/include/casadi/core/generic_shared.hpp +318 -0
casadi/include/casadi/core/generic_shared_impl.hpp +214 -0
casadi/include/casadi/core/generic_shared_internal.hpp +215 -0
casadi/include/casadi/core/generic_type.hpp +3 -0
casadi/include/casadi/core/global_options.hpp +10 -0
casadi/include/casadi/core/integrator.hpp +41 -7
casadi/include/casadi/core/matrix_decl.hpp +67 -0
casadi/include/casadi/core/mx.hpp +63 -2
casadi/include/casadi/core/options.hpp +6 -3
casadi/include/casadi/core/optistack.hpp +43 -9
casadi/include/casadi/core/printable.hpp +8 -0
casadi/include/casadi/core/resource.hpp +107 -0
casadi/include/casadi/core/runtime/casadi_blazing_1d_boor_eval.hpp +112 -0
casadi/include/casadi/core/runtime/casadi_blazing_2d_boor_eval.hpp +311 -0
casadi/include/casadi/core/runtime/casadi_blazing_3d_boor_eval.hpp +645 -0
casadi/include/casadi/core/runtime/casadi_blazing_de_boor.hpp +101 -0
casadi/include/casadi/core/runtime/casadi_nlp.hpp +8 -2
casadi/include/casadi/core/runtime/casadi_printme.hpp +25 -0
casadi/include/casadi/core/serializer.hpp +12 -4
casadi/include/casadi/core/serializing_stream.hpp +3 -0
casadi/include/casadi/core/shared_object.hpp +73 -161
casadi/include/casadi/core/sparsity.hpp +13 -1
casadi/include/casadi/core/sparsity_interface.hpp +19 -1
casadi/include/casadi/core/sx.hpp +41 -0
casadi/include/casadi/core/sx_elem.hpp +25 -0
casadi/include/casadi/core/xml_node.hpp +5 -0
casadi/include/casadi/doc.i +9703 -6539
casadi/include/casadi/doc_merged.i +6483 -4447
casadi/include/casadi/valgrind-casadi.supp +138 -0
casadi/include/casadi/valgrind-python.supp +2470 -0
casadi/include/fatrop/blasfeo_wrapper/LinearAlgebraBlasfeo.hpp +4 -1
casadi/include/ghc/filesystem.hpp +6083 -0
casadi/include/ghc/fs_fwd.hpp +38 -0
casadi/include/ghc/fs_impl.hpp +35 -0
casadi/include/ghc/fs_std.hpp +60 -0
casadi/include/ghc/fs_std_fwd.hpp +63 -0
casadi/include/ghc/fs_std_impl.hpp +46 -0
casadi/include/licenses/ghc-external/LICENSE +19 -0
casadi/include/licenses/libz-external/LICENSE +22 -0
casadi/include/licenses/libz-external/contrib/dotzlib/LICENSE_1_0.txt +23 -0
casadi/include/licenses/libzip-external/LICENSE +31 -0
casadi/include/zconf.h +545 -0
casadi/include/zip.h +528 -0
casadi/include/zipconf.h +48 -0
casadi/include/zlib.h +1938 -0
casadi/libcasadi.so +0 -0
casadi/libcasadi.so.3.7 +0 -0
casadi/libcasadi_archiver_libzip.so +0 -0
casadi/libcasadi_archiver_libzip.so.3.7 +0 -0
casadi/libcasadi_conic_cplex.so +0 -0
casadi/libcasadi_conic_cplex.so.3.7 +0 -0
casadi/libcasadi_conic_daqp.so +0 -0
casadi/libcasadi_conic_daqp.so.3.7 +0 -0
casadi/libcasadi_conic_fatrop.so +0 -0
casadi/libcasadi_conic_fatrop.so.3.7 +0 -0
casadi/libcasadi_conic_gurobi.so +0 -0
casadi/libcasadi_conic_gurobi.so.3.7 +0 -0
casadi/libcasadi_conic_hpipm.so +0 -0
casadi/libcasadi_conic_hpipm.so.3.7 +0 -0
casadi/libcasadi_conic_ipqp.so +0 -0
casadi/libcasadi_conic_ipqp.so.3.7 +0 -0
casadi/libcasadi_conic_nlpsol.so +0 -0
casadi/libcasadi_conic_nlpsol.so.3.7 +0 -0
casadi/libcasadi_conic_osqp.so +0 -0
casadi/libcasadi_conic_osqp.so.3.7 +0 -0
casadi/libcasadi_conic_proxqp.so +0 -0
casadi/libcasadi_conic_proxqp.so.3.7 +0 -0
casadi/libcasadi_conic_qpoases.so +0 -0
casadi/libcasadi_conic_qpoases.so.3.7 +0 -0
casadi/libcasadi_conic_qrqp.so +0 -0
casadi/libcasadi_conic_qrqp.so.3.7 +0 -0
casadi/libcasadi_conic_superscs.so +0 -0
casadi/libcasadi_conic_superscs.so.3.7 +0 -0
casadi/libcasadi_filesystem_ghc.so +0 -0
casadi/libcasadi_filesystem_ghc.so.3.7 +0 -0
casadi/libcasadi_importer_shell.so +0 -0
casadi/libcasadi_importer_shell.so.3.7 +0 -0
casadi/libcasadi_integrator_collocation.so +0 -0
casadi/libcasadi_integrator_collocation.so.3.7 +0 -0
casadi/libcasadi_integrator_cvodes.so +0 -0
casadi/libcasadi_integrator_cvodes.so.3.7 +0 -0
casadi/libcasadi_integrator_idas.so +0 -0
casadi/libcasadi_integrator_idas.so.3.7 +0 -0
casadi/libcasadi_integrator_rk.so +0 -0
casadi/libcasadi_integrator_rk.so.3.7 +0 -0
casadi/libcasadi_interpolant_bspline.so +0 -0
casadi/libcasadi_interpolant_bspline.so.3.7 +0 -0
casadi/libcasadi_interpolant_linear.so +0 -0
casadi/libcasadi_interpolant_linear.so.3.7 +0 -0
casadi/libcasadi_linsol_csparse.so +0 -0
casadi/libcasadi_linsol_csparse.so.3.7 +0 -0
casadi/libcasadi_linsol_csparsecholesky.so +0 -0
casadi/libcasadi_linsol_csparsecholesky.so.3.7 +0 -0
casadi/libcasadi_linsol_lapacklu.so +0 -0
casadi/libcasadi_linsol_lapacklu.so.3.7 +0 -0
casadi/libcasadi_linsol_lapackqr.so +0 -0
casadi/libcasadi_linsol_lapackqr.so.3.7 +0 -0
casadi/libcasadi_linsol_ldl.so +0 -0
casadi/libcasadi_linsol_ldl.so.3.7 +0 -0
casadi/libcasadi_linsol_lsqr.so +0 -0
casadi/libcasadi_linsol_lsqr.so.3.7 +0 -0
casadi/libcasadi_linsol_ma27.so +0 -0
casadi/libcasadi_linsol_ma27.so.3.7 +0 -0
casadi/libcasadi_linsol_mumps.so +0 -0
casadi/libcasadi_linsol_mumps.so.3.7 +0 -0
casadi/libcasadi_linsol_qr.so +0 -0
casadi/libcasadi_linsol_qr.so.3.7 +0 -0
casadi/libcasadi_linsol_symbolicqr.so +0 -0
casadi/libcasadi_linsol_symbolicqr.so.3.7 +0 -0
casadi/libcasadi_linsol_tridiag.so +0 -0
casadi/libcasadi_linsol_tridiag.so.3.7 +0 -0
casadi/libcasadi_nlpsol_alpaqa.so +0 -0
casadi/libcasadi_nlpsol_alpaqa.so.3.7 +0 -0
casadi/libcasadi_nlpsol_ampl.so +0 -0
casadi/libcasadi_nlpsol_ampl.so.3.7 +0 -0
casadi/libcasadi_nlpsol_blocksqp.so +0 -0
casadi/libcasadi_nlpsol_blocksqp.so.3.7 +0 -0
casadi/libcasadi_nlpsol_fatrop.so +0 -0
casadi/libcasadi_nlpsol_fatrop.so.3.7 +0 -0
casadi/libcasadi_nlpsol_feasiblesqpmethod.so +0 -0
casadi/libcasadi_nlpsol_feasiblesqpmethod.so.3.7 +0 -0
casadi/libcasadi_nlpsol_ipopt.so +0 -0
casadi/libcasadi_nlpsol_ipopt.so.3.7 +0 -0
casadi/libcasadi_nlpsol_knitro.so +0 -0
casadi/libcasadi_nlpsol_knitro.so.3.7 +0 -0
casadi/libcasadi_nlpsol_madnlp.so +0 -0
casadi/libcasadi_nlpsol_madnlp.so.3.7 +0 -0
casadi/libcasadi_nlpsol_qrsqp.so +0 -0
casadi/libcasadi_nlpsol_qrsqp.so.3.7 +0 -0
casadi/libcasadi_nlpsol_scpgen.so +0 -0
casadi/libcasadi_nlpsol_scpgen.so.3.7 +0 -0
casadi/libcasadi_nlpsol_snopt.so +0 -0
casadi/libcasadi_nlpsol_snopt.so.3.7 +0 -0
casadi/libcasadi_nlpsol_sqpmethod.so +0 -0
casadi/libcasadi_nlpsol_sqpmethod.so.3.7 +0 -0
casadi/libcasadi_nlpsol_worhp.so +0 -0
casadi/libcasadi_nlpsol_worhp.so.3.7 +0 -0
casadi/libcasadi_rootfinder_fast_newton.so +0 -0
casadi/libcasadi_rootfinder_fast_newton.so.3.7 +0 -0
casadi/libcasadi_rootfinder_kinsol.so +0 -0
casadi/libcasadi_rootfinder_kinsol.so.3.7 +0 -0
casadi/libcasadi_rootfinder_newton.so +0 -0
casadi/libcasadi_rootfinder_newton.so.3.7 +0 -0
casadi/libcasadi_rootfinder_nlpsol.so +0 -0
casadi/libcasadi_rootfinder_nlpsol.so.3.7 +0 -0
casadi/libcasadi_sundials_common.so +0 -0
casadi/libcasadi_sundials_common.so.3.7 +0 -0
casadi/libcasadi_xmlfile_tinyxml.so +0 -0
casadi/libcasadi_xmlfile_tinyxml.so.3.7 +0 -0
casadi/libcoinmumps.so +0 -0
casadi/libcoinmumps.so.3 +0 -0
casadi/libcoinmumps.so.3.0.1 +0 -0
casadi/libfatrop.so +0 -0
casadi/libipopt.so +0 -0
casadi/libipopt.so.3 +0 -0
casadi/libipopt.so.3.14.11 +0 -0
casadi/libsipopt.so +0 -0
casadi/libsipopt.so.3 +0 -0
casadi/libsipopt.so.3.14.11 +0 -0
casadi/libz.a +0 -0
casadi/libz.so +0 -0
casadi/libz.so.1 +0 -0
casadi/libz.so.1.3.1 +0 -0
casadi/libzip.a +0 -0
casadi/pkgconfig/casadi.pc +1 -1
casadi/pkgconfig/libzip.pc +14 -0
casadi/tools/__init__.py +3 -1
casadi/tools/graph/graph.py +1 -1
casadi/tools/structure3.py +2 -2
{casadi-3.6.7.dist-info → casadi-3.7.0.dist-info}/METADATA +1 -1
{casadi-3.6.7.dist-info → casadi-3.7.0.dist-info}/RECORD +204 -166
casadi/include/tinyxml2.h +0 -2380
casadi/lib/cmake/tinyxml2/tinyxml2-config.cmake +0 -57
casadi/lib/cmake/tinyxml2/tinyxml2-static-targets-release.cmake +0 -19
casadi/lib/libtinyxml2.a +0 -0
casadi/lib/pkgconfig/tinyxml2.pc +0 -10
casadi/tools/structure.py +0 -1446
{casadi-3.6.7.dist-info → casadi-3.7.0.dist-info}/WHEEL +0 -0

casadi/include/casadi/core/runtime/casadi_blazing_3d_boor_eval.hpp ADDED Viewed

@@ -0,0 +1,645 @@
+//
+//    MIT No Attribution
+//
+//    Copyright (C) 2010-2023 Joel Andersson, Joris Gillis, Moritz Diehl, KU Leuven.
+//
+//    Permission is hereby granted, free of charge, to any person obtaining a copy of this
+//    software and associated documentation files (the "Software"), to deal in the Software
+//    without restriction, including without limitation the rights to use, copy, modify,
+//    merge, publish, distribute, sublicense, and/or sell copies of the Software, and to
+//    permit persons to whom the Software is furnished to do so.
+//
+//    THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED,
+//    INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A
+//    PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT
+//    HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
+//    OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
+//    SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
+//
+// SYMBOL "blazing_3d_boor_eval"
+template<typename T1>
+void casadi_blazing_3d_boor_eval(T1* f, T1* J, T1* H, const T1* all_knots, const casadi_int* offset, const T1* c, const T1* dc, const T1* ddc, const T1* all_x, const casadi_int* lookup_mode, casadi_int* iw, T1* w) { // NOLINT(whitespace/line_length)
+  casadi_int n_dims = 3;
+  casadi_int m = 1;
+  casadi_int n_iter, k, i, pivot;
+  casadi_int *boor_offset, *starts, *index, *coeff_offset;
+  T1 *cumprod;
+  boor_offset = iw; iw+=n_dims+1;
+  starts = iw; iw+=n_dims;
+  index = iw; iw+=n_dims;
+  coeff_offset = iw;
+  cumprod = w; w+= n_dims+1;
+  boor_offset[0] = 0;
+  cumprod[n_dims] = 1;
+  coeff_offset[n_dims] = 0;
+  casadi_int stride1 = offset[1]-offset[0]-4;
+  casadi_int stride2 = (offset[2]-offset[1]-4)*stride1;
+  simde__m256d zero = simde_mm256_set1_pd(0.0);
+  simde__m256d boor_start_0000 = zero;
+  simde__m256d boor_start_1111 = simde_mm256_set1_pd(1.0);
+  simde__m256d boor_start_0001 = simde_mm256_set_pd(1.0, 0.0, 0.0, 0.0);
+  simde__m256d boor_start_0010 = simde_mm256_set_pd(0.0, 1.0, 0.0, 0.0);
+  simde__m256d boor0_d3;
+  simde__m256d boor0_d2;
+  simde__m256d boor0_d1;
+  simde__m256d boor0_d0;
+  simde__m256d boor1_d3;
+  simde__m256d boor1_d2;
+  simde__m256d boor1_d1;
+  simde__m256d boor1_d0;
+  simde__m256d boor2_d3;
+  simde__m256d boor2_d2;
+  simde__m256d boor2_d1;
+  simde__m256d boor2_d0;
+    const T1* knots;
+    T1 x;
+    casadi_int degree, n_knots, n_b, L, start;
+    degree = 3;
+    knots = all_knots + offset[0];
+    n_knots = offset[0+1]-offset[0];
+    n_b = n_knots-degree-1;
+    x = all_x[0];
+    L = casadi_low(x, knots+degree, n_knots-2*degree, lookup_mode[0]);
+    start = L;
+    if (start>n_b-degree-1) start = n_b-degree-1;
+    starts[0] = start;
+    boor0_d3 = boor_start_0000;
+    if (x>=knots[0] && x<=knots[n_knots-1]) {
+      if (x==knots[1]) {
+        boor0_d3 = boor_start_1111;
+      } else if (x==knots[n_knots-1]) {
+        boor0_d3 = boor_start_0001;
+      } else if (knots[L+degree]==x) {
+        boor0_d3 = boor_start_0010;
+      } else {
+        boor0_d3 = boor_start_0001;
+      }
+    }
+    casadi_blazing_de_boor(x, knots+start, &boor0_d0, &boor0_d1, &boor0_d2, &boor0_d3);
+    knots = all_knots + offset[1];
+    n_knots = offset[1+1]-offset[1];
+    n_b = n_knots-degree-1;
+    x = all_x[1];
+    L = casadi_low(x, knots+degree, n_knots-2*degree, lookup_mode[1]);
+    start = L;
+    if (start>n_b-degree-1) start = n_b-degree-1;
+    starts[1] = start;
+    boor1_d3 = boor_start_0000;
+    if (x>=knots[0] && x<=knots[n_knots-1]) {
+      if (x==knots[1]) {
+        boor1_d3 = boor_start_1111;
+      } else if (x==knots[n_knots-1]) {
+        boor1_d3 = boor_start_0001;
+      } else if (knots[L+degree]==x) {
+        boor1_d3 = boor_start_0010;
+      } else {
+        boor1_d3 = boor_start_0001;
+      }
+    }
+    casadi_blazing_de_boor(x, knots+start, &boor1_d0, &boor1_d1, &boor1_d2, &boor1_d3);
+    knots = all_knots + offset[2];
+    n_knots = offset[2+1]-offset[2];
+    n_b = n_knots-degree-1;
+    x = all_x[2];
+    L = casadi_low(x, knots+degree, n_knots-2*degree, lookup_mode[2]);
+    start = L;
+    if (start>n_b-degree-1) start = n_b-degree-1;
+    starts[2] = start;
+    boor2_d3 = boor_start_0000;
+    if (x>=knots[0] && x<=knots[n_knots-1]) {
+      if (x==knots[1]) {
+        boor2_d3 = boor_start_1111;
+      } else if (x==knots[n_knots-1]) {
+        boor2_d3 = boor_start_0001;
+      } else if (knots[L+degree]==x) {
+        boor2_d3 = boor_start_0010;
+      } else {
+        boor2_d3 = boor_start_0001;
+      }
+    }
+    casadi_blazing_de_boor(x, knots+start, &boor2_d0, &boor2_d1, &boor2_d2, &boor2_d3);
+  simde__m256d C[16];
+  for (int j=0;j<4;++j) {
+      for (int k=0;k<4;++k) {
+          C[j+4*k] = simde_mm256_loadu_pd(c+(starts[1]+j)*stride1+(starts[2]+k)*stride2+starts[0]);
+      }
+  }
+  simde__m256d a, b0, b1, b2, b3, c0, c1, c2, c3, r;
+  simde__m256d ab[4], cab[4];
+  simde__m128d r0, r1;
+  a = boor0_d0;
+  b0 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+  b1 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+  b2 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+  b3 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+  c0 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+  c1 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+  c2 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+  c3 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+  // Need to compute sum_abc C_abc A_a B_b C_c
+  // Step 1: Outer product a b: A_a B_b
+  ab[0] = simde_mm256_mul_pd(a, b0);
+  ab[1] = simde_mm256_mul_pd(a, b1);
+  ab[2] = simde_mm256_mul_pd(a, b2);
+  ab[3] = simde_mm256_mul_pd(a, b3);
+  // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+  // cab <- cab + ab[i]*C[i]
+  for (int i=0;i<4;++i) {
+    cab[i] = simde_mm256_set1_pd(0);
+    cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+    cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+    cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+    cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+  }
+  if (f) {
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    f[0] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+  }
+  // First derivative
+  if (dc && J) {
+    stride1 = offset[1]-offset[0]-4-1;
+    stride2 = (offset[2]-offset[1]-4)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        dc+(starts[1]+j)*stride1+(starts[2]+k)*stride2+starts[0]-1);
+        }
+    }
+    dc += stride2*(offset[3]-offset[2]-4);
+    a = boor0_d1;
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    J[0] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+    stride1 = offset[1]-offset[0]-4;
+    stride2 = (offset[2]-offset[1]-4-1)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+          if (j==0) {
+            C[j+4*k] = zero;
+          } else {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        dc+(starts[1]+j-1)*stride1+(starts[2]+k)*stride2+starts[0]);
+          }
+        }
+    }
+    dc += stride2*(offset[3]-offset[2]-4);
+    a = boor0_d0;
+    b0 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    b1 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    b2 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    b3 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    J[1] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+    stride1 = offset[1]-offset[0]-4;
+    stride2 = (offset[2]-offset[1]-4)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+          if (k==0) {
+            C[j+4*k] = zero;
+          } else {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        dc+(starts[1]+j)*stride1+(starts[2]+k-1)*stride2+starts[0]);
+          }
+        }
+    }
+    b0 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    b1 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    b2 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    b3 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    c0 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    c1 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    c2 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    c3 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    J[2] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+  }
+  if (ddc && H) {
+    stride1 = offset[1]-offset[0]-4-2;
+    stride2 = (offset[2]-offset[1]-4)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        ddc+(starts[1]+j)*stride1+(starts[2]+k)*stride2+starts[0]-2);
+        }
+    }
+    ddc += stride2*(offset[3]-offset[2]-4);
+    a = boor0_d2;
+    b0 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    b1 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    b2 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    b3 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    c0 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    c1 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    c2 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    c3 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    H[0] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+    stride1 = offset[1]-offset[0]-4;
+    stride2 = (offset[2]-offset[1]-4-2)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+          if (j<=1) {
+            C[j+4*k] = zero;
+          } else {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        ddc+(starts[1]+j-2)*stride1+(starts[2]+k)*stride2+starts[0]);
+          }
+        }
+    }
+    ddc += stride2*(offset[3]-offset[2]-4);
+    a = boor0_d0;
+    b0 = simde_mm256_permute4x64_pd(boor1_d2, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    b1 = simde_mm256_permute4x64_pd(boor1_d2, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    b2 = simde_mm256_permute4x64_pd(boor1_d2, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    b3 = simde_mm256_permute4x64_pd(boor1_d2, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    c0 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    c1 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    c2 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    c3 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    H[4] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+    stride1 = offset[1]-offset[0]-4;
+    stride2 = (offset[2]-offset[1]-4)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+          if (k<=1) {
+            C[j+4*k] = zero;
+          } else {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        ddc+(starts[1]+j)*stride1+(starts[2]+k-2)*stride2+starts[0]);
+          }
+        }
+    }
+    ddc += stride2*(offset[3]-offset[2]-4-2);
+    a = boor0_d0;
+    b0 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    b1 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    b2 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    b3 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    c0 = simde_mm256_permute4x64_pd(boor2_d2, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    c1 = simde_mm256_permute4x64_pd(boor2_d2, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    c2 = simde_mm256_permute4x64_pd(boor2_d2, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    c3 = simde_mm256_permute4x64_pd(boor2_d2, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    H[8] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+    stride1 = offset[1]-offset[0]-5;
+    stride2 = (offset[2]-offset[1]-5)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+          if (j==0) {
+            C[j+4*k] = zero;
+          } else {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        ddc+(starts[1]+j-1)*stride1+(starts[2]+k)*stride2+starts[0]-1);
+          }
+        }
+    }
+    ddc += stride2*(offset[3]-offset[2]-4);
+    a = boor0_d1;
+    b0 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    b1 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    b2 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    b3 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    c0 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    c1 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    c2 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    c3 = simde_mm256_permute4x64_pd(boor2_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    H[1] = H[3] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+    stride1 = offset[1]-offset[0]-4;
+    stride2 = (offset[2]-offset[1]-5)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+          if (k==0) {
+            C[j+4*k] = zero;
+          } else {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        ddc+(starts[1]+j-1)*stride1+(starts[2]+k-1)*stride2+starts[0]);
+          }
+        }
+    }
+    ddc += stride2*(offset[3]-offset[2]-5);
+    a = boor0_d0;
+    b0 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    b1 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    b2 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    b3 = simde_mm256_permute4x64_pd(boor1_d1, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    c0 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    c1 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    c2 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    c3 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    H[5] = H[7] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+    stride1 = offset[1]-offset[0]-5;
+    stride2 = (offset[2]-offset[1]-4)*stride1;
+    for (int j=0;j<4;++j) {
+        for (int k=0;k<4;++k) {
+          if (k==0) {
+            C[j+4*k] = zero;
+          } else {
+            C[j+4*k] = simde_mm256_loadu_pd(
+                        ddc+(starts[1]+j)*stride1+(starts[2]+k-1)*stride2+starts[0]-1);
+          }
+        }
+    }
+    ddc += stride2*(offset[3]-offset[2]-5);
+    a = boor0_d1;
+    b0 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    b1 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    b2 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    b3 = simde_mm256_permute4x64_pd(boor1_d0, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    c0 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(0, 0, 0, 0));
+    c1 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(1, 1, 1, 1));
+    c2 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(2, 2, 2, 2));
+    c3 = simde_mm256_permute4x64_pd(boor2_d1, SIMDE_MM_SHUFFLE(3, 3, 3, 3));
+    ab[0] = simde_mm256_mul_pd(a, b0);
+    ab[1] = simde_mm256_mul_pd(a, b1);
+    ab[2] = simde_mm256_mul_pd(a, b2);
+    ab[3] = simde_mm256_mul_pd(a, b3);
+    // Sum over b axis: sum_b C_abc * (A_a B_b)_b
+    // cab <- cab + ab[i]*C[i]
+    for (int i=0;i<4;++i) {
+      cab[i] = simde_mm256_set1_pd(0);
+      cab[i] = simde_mm256_fmadd_pd(ab[0], C[4*i+0], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[1], C[4*i+1], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[2], C[4*i+2], cab[i]);
+      cab[i] = simde_mm256_fmadd_pd(ab[3], C[4*i+3], cab[i]);
+    }
+    // Reduce over the c direction
+    r = simde_mm256_set1_pd(0);
+    r = simde_mm256_fmadd_pd(cab[0], c0, r);
+    r = simde_mm256_fmadd_pd(cab[1], c1, r);
+    r = simde_mm256_fmadd_pd(cab[2], c2, r);
+    r = simde_mm256_fmadd_pd(cab[3], c3, r);
+    // Sum all r entries
+    r0  = simde_mm256_castpd256_pd128(r);
+    r1 = simde_mm256_extractf128_pd(r, 1);
+    r0  = simde_mm_add_pd(r0, r1);
+    H[2] = H[6] = simde_mm_cvtsd_f64(simde_mm_add_sd(r0, simde_mm_unpackhi_pd(r0, r0)));
+  }
+}