pq_crypto 0.6.1 → 0.6.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (141) hide show
  1. checksums.yaml +4 -4
  2. data/CHANGELOG.md +5 -0
  3. data/SECURITY.md +7 -0
  4. data/ext/pqcrypto/pqcrypto_version.h +1 -1
  5. data/ext/pqcrypto/vendor/.vendored +4 -4
  6. data/ext/pqcrypto/vendor/mldsa-native/README.md +23 -10
  7. data/ext/pqcrypto/vendor/mldsa-native/mldsa/README.md +23 -0
  8. data/ext/pqcrypto/vendor/mldsa-native/mldsa/mldsa_native.c +114 -58
  9. data/ext/pqcrypto/vendor/mldsa-native/mldsa/mldsa_native.h +498 -461
  10. data/ext/pqcrypto/vendor/mldsa-native/mldsa/mldsa_native_asm.S +145 -85
  11. data/ext/pqcrypto/vendor/mldsa-native/mldsa/mldsa_native_config.h +456 -422
  12. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/cbmc.h +47 -25
  13. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/common.h +26 -14
  14. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/ct.h +56 -81
  15. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/debug.h +17 -24
  16. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/fips202.c +33 -40
  17. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/fips202.h +67 -87
  18. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/fips202x4.c +19 -14
  19. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/fips202x4.h +13 -5
  20. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/keccakf1600.c +84 -10
  21. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/keccakf1600.h +10 -5
  22. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/auto.h +6 -0
  23. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/fips202_native_aarch64.h +22 -15
  24. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x1_scalar_aarch64_asm.S +376 -0
  25. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x1_v84a_aarch64_asm.S +204 -0
  26. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x2_v84a_aarch64_asm.S +259 -0
  27. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x4_v8a_scalar_hybrid_aarch64_asm.S +1077 -0
  28. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x4_v8a_v84a_scalar_hybrid_aarch64_asm.S +987 -0
  29. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccakf1600_round_constants.c +16 -10
  30. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/x1_scalar.h +2 -1
  31. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/x1_v84a.h +1 -1
  32. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/x2_v84a.h +4 -2
  33. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/x4_v8a_scalar.h +2 -2
  34. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/x4_v8a_v84a_scalar.h +1 -1
  35. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/api.h +60 -0
  36. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/armv81m/mve.h +48 -0
  37. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/armv81m/src/fips202_native_armv81m.h +18 -1
  38. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/armv81m/src/keccak_f1600_x4_mve.S +658 -582
  39. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/armv81m/src/keccak_f1600_x4_mve.c +5 -100
  40. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/armv81m/src/keccakf1600_round_constants.c +26 -25
  41. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/armv81m/src/state_extract_bytes_x4_mve.S +334 -0
  42. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/armv81m/src/state_xor_bytes_x4_mve.S +355 -0
  43. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/auto.h +8 -3
  44. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/x86_64/{xkcp.h → keccak_f1600_x4_avx2.h} +11 -8
  45. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/x86_64/src/fips202_native_x86_64.h +44 -0
  46. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/x86_64/src/keccak_f1600_x4_avx2_asm.S +454 -0
  47. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/x86_64/src/keccakf1600_constants.c +52 -0
  48. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/meta.h +37 -28
  49. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/aarch64_zetas.c +213 -196
  50. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/arith_native_aarch64.h +248 -64
  51. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/intt_aarch64_asm.S +753 -0
  52. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/mld_polyvecl_pointwise_acc_montgomery_l4_aarch64_asm.S +129 -0
  53. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/mld_polyvecl_pointwise_acc_montgomery_l5_aarch64_asm.S +145 -0
  54. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/mld_polyvecl_pointwise_acc_montgomery_l7_aarch64_asm.S +177 -0
  55. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/ntt_aarch64_asm.S +653 -0
  56. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/pointwise_montgomery_aarch64_asm.S +84 -0
  57. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_caddq_aarch64_asm.S +53 -0
  58. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_chknorm_aarch64_asm.S +55 -0
  59. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_decompose_32_aarch64_asm.S +86 -0
  60. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_decompose_88_aarch64_asm.S +86 -0
  61. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_use_hint_32_aarch64_asm.S +103 -0
  62. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_use_hint_88_aarch64_asm.S +111 -0
  63. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/polyz_unpack_17_aarch64_asm.S +75 -0
  64. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/polyz_unpack_19_aarch64_asm.S +72 -0
  65. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/polyz_unpack_table.c +23 -11
  66. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/rej_uniform_aarch64_asm.S +189 -0
  67. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/rej_uniform_eta2_aarch64_asm.S +137 -0
  68. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/rej_uniform_eta4_aarch64_asm.S +130 -0
  69. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/rej_uniform_eta_table.c +520 -516
  70. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/rej_uniform_table.c +34 -33
  71. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/api.h +202 -242
  72. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/meta.h +25 -17
  73. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/arith_native_x86_64.h +112 -28
  74. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/consts.c +1 -1
  75. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/consts.h +1 -1
  76. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/intt_avx2_asm.S +2311 -0
  77. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/ntt_avx2_asm.S +2383 -0
  78. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/nttunpack_avx2_asm.S +238 -0
  79. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/pointwise_acc_l4_avx2_asm.S +139 -0
  80. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/pointwise_acc_l5_avx2_asm.S +155 -0
  81. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/pointwise_acc_l7_avx2_asm.S +187 -0
  82. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/pointwise_avx2_asm.S +130 -0
  83. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/poly_caddq_avx2_asm.S +190 -0
  84. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/poly_decompose_32_avx2.c +6 -4
  85. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/poly_decompose_88_avx2.c +6 -4
  86. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/poly_use_hint_32_avx2.c +9 -8
  87. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/poly_use_hint_88_avx2.c +10 -9
  88. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/polyz_unpack_17_avx2.c +8 -5
  89. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/polyz_unpack_19_avx2.c +8 -5
  90. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/rej_uniform_eta2_avx2.c +6 -4
  91. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/rej_uniform_eta4_avx2.c +6 -4
  92. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/rej_uniform_table.c +130 -129
  93. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/packing.c +109 -180
  94. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/packing.h +169 -150
  95. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/poly.c +56 -40
  96. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/poly.h +149 -164
  97. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/poly_kl.c +52 -57
  98. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/poly_kl.h +132 -167
  99. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/polyvec.c +57 -424
  100. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/polyvec.h +167 -474
  101. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/polyvec_lazy.c +308 -0
  102. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/polyvec_lazy.h +653 -0
  103. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/reduce.h +22 -29
  104. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/rounding.h +37 -43
  105. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/sign.c +511 -367
  106. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/sign.h +456 -417
  107. data/lib/pq_crypto/version.rb +1 -1
  108. data/script/vendor_libs.rb +3 -3
  109. metadata +41 -35
  110. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x1_scalar_asm.S +0 -376
  111. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x1_v84a_asm.S +0 -204
  112. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x2_v84a_asm.S +0 -259
  113. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x4_v8a_scalar_hybrid_asm.S +0 -1077
  114. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/aarch64/src/keccak_f1600_x4_v8a_v84a_scalar_hybrid_asm.S +0 -987
  115. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/x86_64/src/KeccakP_1600_times4_SIMD256.c +0 -488
  116. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/fips202/native/x86_64/src/KeccakP_1600_times4_SIMD256.h +0 -16
  117. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/intt.S +0 -753
  118. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/mld_polyvecl_pointwise_acc_montgomery_l4.S +0 -129
  119. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/mld_polyvecl_pointwise_acc_montgomery_l5.S +0 -145
  120. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/mld_polyvecl_pointwise_acc_montgomery_l7.S +0 -177
  121. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/ntt.S +0 -653
  122. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/pointwise_montgomery.S +0 -79
  123. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_caddq_asm.S +0 -53
  124. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_chknorm_asm.S +0 -55
  125. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_decompose_32_asm.S +0 -85
  126. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_decompose_88_asm.S +0 -85
  127. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_use_hint_32_asm.S +0 -102
  128. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/poly_use_hint_88_asm.S +0 -110
  129. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/polyz_unpack_17_asm.S +0 -72
  130. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/polyz_unpack_19_asm.S +0 -69
  131. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/rej_uniform_asm.S +0 -189
  132. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/rej_uniform_eta2_asm.S +0 -135
  133. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/aarch64/src/rej_uniform_eta4_asm.S +0 -128
  134. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/intt.S +0 -2311
  135. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/ntt.S +0 -2383
  136. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/nttunpack.S +0 -239
  137. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/pointwise.S +0 -131
  138. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/pointwise_acc_l4.S +0 -139
  139. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/pointwise_acc_l5.S +0 -155
  140. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/pointwise_acc_l7.S +0 -187
  141. data/ext/pqcrypto/vendor/mldsa-native/mldsa/src/native/x86_64/src/poly_caddq_avx2.c +0 -61
@@ -0,0 +1,2383 @@
1
+ /*
2
+ * Copyright (c) The mlkem-native project authors
3
+ * Copyright (c) The mldsa-native project authors
4
+ * SPDX-License-Identifier: Apache-2.0 OR ISC OR MIT
5
+ */
6
+
7
+ /* References
8
+ * ==========
9
+ *
10
+ * - [REF_AVX2]
11
+ * CRYSTALS-Dilithium optimized AVX2 implementation
12
+ * Bai, Ducas, Kiltz, Lepoint, Lyubashevsky, Schwabe, Seiler, Stehlé
13
+ * https://github.com/pq-crystals/dilithium/tree/master/avx2
14
+ */
15
+
16
+ /*
17
+ * This file is derived from the public domain
18
+ * AVX2 Dilithium implementation @[REF_AVX2].
19
+ */
20
+
21
+ #include "../../../common.h"
22
+ #if defined(MLD_ARITH_BACKEND_X86_64_DEFAULT) && \
23
+ !defined(MLD_CONFIG_MULTILEVEL_NO_SHARED)
24
+
25
+ /*
26
+ * WARNING: This file is auto-derived from the mldsa-native source file
27
+ * dev/x86_64/src/ntt_avx2_asm.S using scripts/simpasm. Do not modify it directly.
28
+ */
29
+
30
+ .text
31
+ .balign 4
32
+ .global MLD_ASM_NAMESPACE(ntt_avx2_asm)
33
+ MLD_ASM_FN_SYMBOL(ntt_avx2_asm)
34
+
35
+ .cfi_startproc
36
+ vmovdqa (%rsi), %ymm0
37
+ vpbroadcastd 0x84(%rsi), %ymm1
38
+ vpbroadcastd 0x524(%rsi), %ymm2
39
+ vmovdqa (%rdi), %ymm4
40
+ vmovdqa 0x80(%rdi), %ymm5
41
+ vmovdqa 0x100(%rdi), %ymm6
42
+ vmovdqa 0x180(%rdi), %ymm7
43
+ vmovdqa 0x200(%rdi), %ymm8
44
+ vmovdqa 0x280(%rdi), %ymm9
45
+ vmovdqa 0x300(%rdi), %ymm10
46
+ vmovdqa 0x380(%rdi), %ymm11
47
+ vpmuldq %ymm1, %ymm8, %ymm13
48
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
49
+ vpmuldq %ymm1, %ymm12, %ymm14
50
+ vpmuldq %ymm2, %ymm8, %ymm8
51
+ vpmuldq %ymm2, %ymm12, %ymm12
52
+ vpmuldq %ymm0, %ymm13, %ymm13
53
+ vpmuldq %ymm0, %ymm14, %ymm14
54
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
55
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
56
+ vpsubd %ymm8, %ymm4, %ymm12
57
+ vpaddd %ymm4, %ymm8, %ymm4
58
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
59
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
60
+ vpaddd %ymm13, %ymm12, %ymm8
61
+ vpsubd %ymm13, %ymm4, %ymm4
62
+ vpmuldq %ymm1, %ymm9, %ymm13
63
+ vmovshdup %ymm9, %ymm12 # ymm12 = ymm9[1,1,3,3,5,5,7,7]
64
+ vpmuldq %ymm1, %ymm12, %ymm14
65
+ vpmuldq %ymm2, %ymm9, %ymm9
66
+ vpmuldq %ymm2, %ymm12, %ymm12
67
+ vpmuldq %ymm0, %ymm13, %ymm13
68
+ vpmuldq %ymm0, %ymm14, %ymm14
69
+ vmovshdup %ymm9, %ymm9 # ymm9 = ymm9[1,1,3,3,5,5,7,7]
70
+ vpblendd $0xaa, %ymm12, %ymm9, %ymm9 # ymm9 = ymm9[0],ymm12[1],ymm9[2],ymm12[3],ymm9[4],ymm12[5],ymm9[6],ymm12[7]
71
+ vpsubd %ymm9, %ymm5, %ymm12
72
+ vpaddd %ymm5, %ymm9, %ymm5
73
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
74
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
75
+ vpaddd %ymm13, %ymm12, %ymm9
76
+ vpsubd %ymm13, %ymm5, %ymm5
77
+ vpmuldq %ymm1, %ymm10, %ymm13
78
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
79
+ vpmuldq %ymm1, %ymm12, %ymm14
80
+ vpmuldq %ymm2, %ymm10, %ymm10
81
+ vpmuldq %ymm2, %ymm12, %ymm12
82
+ vpmuldq %ymm0, %ymm13, %ymm13
83
+ vpmuldq %ymm0, %ymm14, %ymm14
84
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
85
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
86
+ vpsubd %ymm10, %ymm6, %ymm12
87
+ vpaddd %ymm6, %ymm10, %ymm6
88
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
89
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
90
+ vpaddd %ymm13, %ymm12, %ymm10
91
+ vpsubd %ymm13, %ymm6, %ymm6
92
+ vpmuldq %ymm1, %ymm11, %ymm13
93
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
94
+ vpmuldq %ymm1, %ymm12, %ymm14
95
+ vpmuldq %ymm2, %ymm11, %ymm11
96
+ vpmuldq %ymm2, %ymm12, %ymm12
97
+ vpmuldq %ymm0, %ymm13, %ymm13
98
+ vpmuldq %ymm0, %ymm14, %ymm14
99
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
100
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
101
+ vpsubd %ymm11, %ymm7, %ymm12
102
+ vpaddd %ymm7, %ymm11, %ymm7
103
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
104
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
105
+ vpaddd %ymm13, %ymm12, %ymm11
106
+ vpsubd %ymm13, %ymm7, %ymm7
107
+ vpbroadcastd 0x88(%rsi), %ymm1
108
+ vpbroadcastd 0x528(%rsi), %ymm2
109
+ vpmuldq %ymm1, %ymm6, %ymm13
110
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
111
+ vpmuldq %ymm1, %ymm12, %ymm14
112
+ vpmuldq %ymm2, %ymm6, %ymm6
113
+ vpmuldq %ymm2, %ymm12, %ymm12
114
+ vpmuldq %ymm0, %ymm13, %ymm13
115
+ vpmuldq %ymm0, %ymm14, %ymm14
116
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
117
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
118
+ vpsubd %ymm6, %ymm4, %ymm12
119
+ vpaddd %ymm6, %ymm4, %ymm4
120
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
121
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
122
+ vpaddd %ymm13, %ymm12, %ymm6
123
+ vpsubd %ymm13, %ymm4, %ymm4
124
+ vpmuldq %ymm1, %ymm7, %ymm13
125
+ vmovshdup %ymm7, %ymm12 # ymm12 = ymm7[1,1,3,3,5,5,7,7]
126
+ vpmuldq %ymm1, %ymm12, %ymm14
127
+ vpmuldq %ymm2, %ymm7, %ymm7
128
+ vpmuldq %ymm2, %ymm12, %ymm12
129
+ vpmuldq %ymm0, %ymm13, %ymm13
130
+ vpmuldq %ymm0, %ymm14, %ymm14
131
+ vmovshdup %ymm7, %ymm7 # ymm7 = ymm7[1,1,3,3,5,5,7,7]
132
+ vpblendd $0xaa, %ymm12, %ymm7, %ymm7 # ymm7 = ymm7[0],ymm12[1],ymm7[2],ymm12[3],ymm7[4],ymm12[5],ymm7[6],ymm12[7]
133
+ vpsubd %ymm7, %ymm5, %ymm12
134
+ vpaddd %ymm7, %ymm5, %ymm5
135
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
136
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
137
+ vpaddd %ymm13, %ymm12, %ymm7
138
+ vpsubd %ymm13, %ymm5, %ymm5
139
+ vpbroadcastd 0x8c(%rsi), %ymm1
140
+ vpbroadcastd 0x52c(%rsi), %ymm2
141
+ vpmuldq %ymm1, %ymm10, %ymm13
142
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
143
+ vpmuldq %ymm1, %ymm12, %ymm14
144
+ vpmuldq %ymm2, %ymm10, %ymm10
145
+ vpmuldq %ymm2, %ymm12, %ymm12
146
+ vpmuldq %ymm0, %ymm13, %ymm13
147
+ vpmuldq %ymm0, %ymm14, %ymm14
148
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
149
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
150
+ vpsubd %ymm10, %ymm8, %ymm12
151
+ vpaddd %ymm10, %ymm8, %ymm8
152
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
153
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
154
+ vpaddd %ymm13, %ymm12, %ymm10
155
+ vpsubd %ymm13, %ymm8, %ymm8
156
+ vpmuldq %ymm1, %ymm11, %ymm13
157
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
158
+ vpmuldq %ymm1, %ymm12, %ymm14
159
+ vpmuldq %ymm2, %ymm11, %ymm11
160
+ vpmuldq %ymm2, %ymm12, %ymm12
161
+ vpmuldq %ymm0, %ymm13, %ymm13
162
+ vpmuldq %ymm0, %ymm14, %ymm14
163
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
164
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
165
+ vpsubd %ymm11, %ymm9, %ymm12
166
+ vpaddd %ymm11, %ymm9, %ymm9
167
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
168
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
169
+ vpaddd %ymm13, %ymm12, %ymm11
170
+ vpsubd %ymm13, %ymm9, %ymm9
171
+ vmovdqa %ymm4, (%rdi)
172
+ vmovdqa %ymm5, 0x80(%rdi)
173
+ vmovdqa %ymm6, 0x100(%rdi)
174
+ vmovdqa %ymm7, 0x180(%rdi)
175
+ vmovdqa %ymm8, 0x200(%rdi)
176
+ vmovdqa %ymm9, 0x280(%rdi)
177
+ vmovdqa %ymm10, 0x300(%rdi)
178
+ vmovdqa %ymm11, 0x380(%rdi)
179
+ vpbroadcastd 0x84(%rsi), %ymm1
180
+ vpbroadcastd 0x524(%rsi), %ymm2
181
+ vmovdqa 0x20(%rdi), %ymm4
182
+ vmovdqa 0xa0(%rdi), %ymm5
183
+ vmovdqa 0x120(%rdi), %ymm6
184
+ vmovdqa 0x1a0(%rdi), %ymm7
185
+ vmovdqa 0x220(%rdi), %ymm8
186
+ vmovdqa 0x2a0(%rdi), %ymm9
187
+ vmovdqa 0x320(%rdi), %ymm10
188
+ vmovdqa 0x3a0(%rdi), %ymm11
189
+ vpmuldq %ymm1, %ymm8, %ymm13
190
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
191
+ vpmuldq %ymm1, %ymm12, %ymm14
192
+ vpmuldq %ymm2, %ymm8, %ymm8
193
+ vpmuldq %ymm2, %ymm12, %ymm12
194
+ vpmuldq %ymm0, %ymm13, %ymm13
195
+ vpmuldq %ymm0, %ymm14, %ymm14
196
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
197
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
198
+ vpsubd %ymm8, %ymm4, %ymm12
199
+ vpaddd %ymm4, %ymm8, %ymm4
200
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
201
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
202
+ vpaddd %ymm13, %ymm12, %ymm8
203
+ vpsubd %ymm13, %ymm4, %ymm4
204
+ vpmuldq %ymm1, %ymm9, %ymm13
205
+ vmovshdup %ymm9, %ymm12 # ymm12 = ymm9[1,1,3,3,5,5,7,7]
206
+ vpmuldq %ymm1, %ymm12, %ymm14
207
+ vpmuldq %ymm2, %ymm9, %ymm9
208
+ vpmuldq %ymm2, %ymm12, %ymm12
209
+ vpmuldq %ymm0, %ymm13, %ymm13
210
+ vpmuldq %ymm0, %ymm14, %ymm14
211
+ vmovshdup %ymm9, %ymm9 # ymm9 = ymm9[1,1,3,3,5,5,7,7]
212
+ vpblendd $0xaa, %ymm12, %ymm9, %ymm9 # ymm9 = ymm9[0],ymm12[1],ymm9[2],ymm12[3],ymm9[4],ymm12[5],ymm9[6],ymm12[7]
213
+ vpsubd %ymm9, %ymm5, %ymm12
214
+ vpaddd %ymm5, %ymm9, %ymm5
215
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
216
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
217
+ vpaddd %ymm13, %ymm12, %ymm9
218
+ vpsubd %ymm13, %ymm5, %ymm5
219
+ vpmuldq %ymm1, %ymm10, %ymm13
220
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
221
+ vpmuldq %ymm1, %ymm12, %ymm14
222
+ vpmuldq %ymm2, %ymm10, %ymm10
223
+ vpmuldq %ymm2, %ymm12, %ymm12
224
+ vpmuldq %ymm0, %ymm13, %ymm13
225
+ vpmuldq %ymm0, %ymm14, %ymm14
226
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
227
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
228
+ vpsubd %ymm10, %ymm6, %ymm12
229
+ vpaddd %ymm6, %ymm10, %ymm6
230
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
231
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
232
+ vpaddd %ymm13, %ymm12, %ymm10
233
+ vpsubd %ymm13, %ymm6, %ymm6
234
+ vpmuldq %ymm1, %ymm11, %ymm13
235
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
236
+ vpmuldq %ymm1, %ymm12, %ymm14
237
+ vpmuldq %ymm2, %ymm11, %ymm11
238
+ vpmuldq %ymm2, %ymm12, %ymm12
239
+ vpmuldq %ymm0, %ymm13, %ymm13
240
+ vpmuldq %ymm0, %ymm14, %ymm14
241
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
242
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
243
+ vpsubd %ymm11, %ymm7, %ymm12
244
+ vpaddd %ymm7, %ymm11, %ymm7
245
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
246
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
247
+ vpaddd %ymm13, %ymm12, %ymm11
248
+ vpsubd %ymm13, %ymm7, %ymm7
249
+ vpbroadcastd 0x88(%rsi), %ymm1
250
+ vpbroadcastd 0x528(%rsi), %ymm2
251
+ vpmuldq %ymm1, %ymm6, %ymm13
252
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
253
+ vpmuldq %ymm1, %ymm12, %ymm14
254
+ vpmuldq %ymm2, %ymm6, %ymm6
255
+ vpmuldq %ymm2, %ymm12, %ymm12
256
+ vpmuldq %ymm0, %ymm13, %ymm13
257
+ vpmuldq %ymm0, %ymm14, %ymm14
258
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
259
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
260
+ vpsubd %ymm6, %ymm4, %ymm12
261
+ vpaddd %ymm6, %ymm4, %ymm4
262
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
263
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
264
+ vpaddd %ymm13, %ymm12, %ymm6
265
+ vpsubd %ymm13, %ymm4, %ymm4
266
+ vpmuldq %ymm1, %ymm7, %ymm13
267
+ vmovshdup %ymm7, %ymm12 # ymm12 = ymm7[1,1,3,3,5,5,7,7]
268
+ vpmuldq %ymm1, %ymm12, %ymm14
269
+ vpmuldq %ymm2, %ymm7, %ymm7
270
+ vpmuldq %ymm2, %ymm12, %ymm12
271
+ vpmuldq %ymm0, %ymm13, %ymm13
272
+ vpmuldq %ymm0, %ymm14, %ymm14
273
+ vmovshdup %ymm7, %ymm7 # ymm7 = ymm7[1,1,3,3,5,5,7,7]
274
+ vpblendd $0xaa, %ymm12, %ymm7, %ymm7 # ymm7 = ymm7[0],ymm12[1],ymm7[2],ymm12[3],ymm7[4],ymm12[5],ymm7[6],ymm12[7]
275
+ vpsubd %ymm7, %ymm5, %ymm12
276
+ vpaddd %ymm7, %ymm5, %ymm5
277
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
278
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
279
+ vpaddd %ymm13, %ymm12, %ymm7
280
+ vpsubd %ymm13, %ymm5, %ymm5
281
+ vpbroadcastd 0x8c(%rsi), %ymm1
282
+ vpbroadcastd 0x52c(%rsi), %ymm2
283
+ vpmuldq %ymm1, %ymm10, %ymm13
284
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
285
+ vpmuldq %ymm1, %ymm12, %ymm14
286
+ vpmuldq %ymm2, %ymm10, %ymm10
287
+ vpmuldq %ymm2, %ymm12, %ymm12
288
+ vpmuldq %ymm0, %ymm13, %ymm13
289
+ vpmuldq %ymm0, %ymm14, %ymm14
290
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
291
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
292
+ vpsubd %ymm10, %ymm8, %ymm12
293
+ vpaddd %ymm10, %ymm8, %ymm8
294
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
295
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
296
+ vpaddd %ymm13, %ymm12, %ymm10
297
+ vpsubd %ymm13, %ymm8, %ymm8
298
+ vpmuldq %ymm1, %ymm11, %ymm13
299
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
300
+ vpmuldq %ymm1, %ymm12, %ymm14
301
+ vpmuldq %ymm2, %ymm11, %ymm11
302
+ vpmuldq %ymm2, %ymm12, %ymm12
303
+ vpmuldq %ymm0, %ymm13, %ymm13
304
+ vpmuldq %ymm0, %ymm14, %ymm14
305
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
306
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
307
+ vpsubd %ymm11, %ymm9, %ymm12
308
+ vpaddd %ymm11, %ymm9, %ymm9
309
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
310
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
311
+ vpaddd %ymm13, %ymm12, %ymm11
312
+ vpsubd %ymm13, %ymm9, %ymm9
313
+ vmovdqa %ymm4, 0x20(%rdi)
314
+ vmovdqa %ymm5, 0xa0(%rdi)
315
+ vmovdqa %ymm6, 0x120(%rdi)
316
+ vmovdqa %ymm7, 0x1a0(%rdi)
317
+ vmovdqa %ymm8, 0x220(%rdi)
318
+ vmovdqa %ymm9, 0x2a0(%rdi)
319
+ vmovdqa %ymm10, 0x320(%rdi)
320
+ vmovdqa %ymm11, 0x3a0(%rdi)
321
+ vpbroadcastd 0x84(%rsi), %ymm1
322
+ vpbroadcastd 0x524(%rsi), %ymm2
323
+ vmovdqa 0x40(%rdi), %ymm4
324
+ vmovdqa 0xc0(%rdi), %ymm5
325
+ vmovdqa 0x140(%rdi), %ymm6
326
+ vmovdqa 0x1c0(%rdi), %ymm7
327
+ vmovdqa 0x240(%rdi), %ymm8
328
+ vmovdqa 0x2c0(%rdi), %ymm9
329
+ vmovdqa 0x340(%rdi), %ymm10
330
+ vmovdqa 0x3c0(%rdi), %ymm11
331
+ vpmuldq %ymm1, %ymm8, %ymm13
332
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
333
+ vpmuldq %ymm1, %ymm12, %ymm14
334
+ vpmuldq %ymm2, %ymm8, %ymm8
335
+ vpmuldq %ymm2, %ymm12, %ymm12
336
+ vpmuldq %ymm0, %ymm13, %ymm13
337
+ vpmuldq %ymm0, %ymm14, %ymm14
338
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
339
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
340
+ vpsubd %ymm8, %ymm4, %ymm12
341
+ vpaddd %ymm4, %ymm8, %ymm4
342
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
343
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
344
+ vpaddd %ymm13, %ymm12, %ymm8
345
+ vpsubd %ymm13, %ymm4, %ymm4
346
+ vpmuldq %ymm1, %ymm9, %ymm13
347
+ vmovshdup %ymm9, %ymm12 # ymm12 = ymm9[1,1,3,3,5,5,7,7]
348
+ vpmuldq %ymm1, %ymm12, %ymm14
349
+ vpmuldq %ymm2, %ymm9, %ymm9
350
+ vpmuldq %ymm2, %ymm12, %ymm12
351
+ vpmuldq %ymm0, %ymm13, %ymm13
352
+ vpmuldq %ymm0, %ymm14, %ymm14
353
+ vmovshdup %ymm9, %ymm9 # ymm9 = ymm9[1,1,3,3,5,5,7,7]
354
+ vpblendd $0xaa, %ymm12, %ymm9, %ymm9 # ymm9 = ymm9[0],ymm12[1],ymm9[2],ymm12[3],ymm9[4],ymm12[5],ymm9[6],ymm12[7]
355
+ vpsubd %ymm9, %ymm5, %ymm12
356
+ vpaddd %ymm5, %ymm9, %ymm5
357
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
358
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
359
+ vpaddd %ymm13, %ymm12, %ymm9
360
+ vpsubd %ymm13, %ymm5, %ymm5
361
+ vpmuldq %ymm1, %ymm10, %ymm13
362
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
363
+ vpmuldq %ymm1, %ymm12, %ymm14
364
+ vpmuldq %ymm2, %ymm10, %ymm10
365
+ vpmuldq %ymm2, %ymm12, %ymm12
366
+ vpmuldq %ymm0, %ymm13, %ymm13
367
+ vpmuldq %ymm0, %ymm14, %ymm14
368
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
369
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
370
+ vpsubd %ymm10, %ymm6, %ymm12
371
+ vpaddd %ymm6, %ymm10, %ymm6
372
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
373
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
374
+ vpaddd %ymm13, %ymm12, %ymm10
375
+ vpsubd %ymm13, %ymm6, %ymm6
376
+ vpmuldq %ymm1, %ymm11, %ymm13
377
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
378
+ vpmuldq %ymm1, %ymm12, %ymm14
379
+ vpmuldq %ymm2, %ymm11, %ymm11
380
+ vpmuldq %ymm2, %ymm12, %ymm12
381
+ vpmuldq %ymm0, %ymm13, %ymm13
382
+ vpmuldq %ymm0, %ymm14, %ymm14
383
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
384
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
385
+ vpsubd %ymm11, %ymm7, %ymm12
386
+ vpaddd %ymm7, %ymm11, %ymm7
387
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
388
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
389
+ vpaddd %ymm13, %ymm12, %ymm11
390
+ vpsubd %ymm13, %ymm7, %ymm7
391
+ vpbroadcastd 0x88(%rsi), %ymm1
392
+ vpbroadcastd 0x528(%rsi), %ymm2
393
+ vpmuldq %ymm1, %ymm6, %ymm13
394
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
395
+ vpmuldq %ymm1, %ymm12, %ymm14
396
+ vpmuldq %ymm2, %ymm6, %ymm6
397
+ vpmuldq %ymm2, %ymm12, %ymm12
398
+ vpmuldq %ymm0, %ymm13, %ymm13
399
+ vpmuldq %ymm0, %ymm14, %ymm14
400
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
401
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
402
+ vpsubd %ymm6, %ymm4, %ymm12
403
+ vpaddd %ymm6, %ymm4, %ymm4
404
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
405
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
406
+ vpaddd %ymm13, %ymm12, %ymm6
407
+ vpsubd %ymm13, %ymm4, %ymm4
408
+ vpmuldq %ymm1, %ymm7, %ymm13
409
+ vmovshdup %ymm7, %ymm12 # ymm12 = ymm7[1,1,3,3,5,5,7,7]
410
+ vpmuldq %ymm1, %ymm12, %ymm14
411
+ vpmuldq %ymm2, %ymm7, %ymm7
412
+ vpmuldq %ymm2, %ymm12, %ymm12
413
+ vpmuldq %ymm0, %ymm13, %ymm13
414
+ vpmuldq %ymm0, %ymm14, %ymm14
415
+ vmovshdup %ymm7, %ymm7 # ymm7 = ymm7[1,1,3,3,5,5,7,7]
416
+ vpblendd $0xaa, %ymm12, %ymm7, %ymm7 # ymm7 = ymm7[0],ymm12[1],ymm7[2],ymm12[3],ymm7[4],ymm12[5],ymm7[6],ymm12[7]
417
+ vpsubd %ymm7, %ymm5, %ymm12
418
+ vpaddd %ymm7, %ymm5, %ymm5
419
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
420
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
421
+ vpaddd %ymm13, %ymm12, %ymm7
422
+ vpsubd %ymm13, %ymm5, %ymm5
423
+ vpbroadcastd 0x8c(%rsi), %ymm1
424
+ vpbroadcastd 0x52c(%rsi), %ymm2
425
+ vpmuldq %ymm1, %ymm10, %ymm13
426
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
427
+ vpmuldq %ymm1, %ymm12, %ymm14
428
+ vpmuldq %ymm2, %ymm10, %ymm10
429
+ vpmuldq %ymm2, %ymm12, %ymm12
430
+ vpmuldq %ymm0, %ymm13, %ymm13
431
+ vpmuldq %ymm0, %ymm14, %ymm14
432
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
433
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
434
+ vpsubd %ymm10, %ymm8, %ymm12
435
+ vpaddd %ymm10, %ymm8, %ymm8
436
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
437
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
438
+ vpaddd %ymm13, %ymm12, %ymm10
439
+ vpsubd %ymm13, %ymm8, %ymm8
440
+ vpmuldq %ymm1, %ymm11, %ymm13
441
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
442
+ vpmuldq %ymm1, %ymm12, %ymm14
443
+ vpmuldq %ymm2, %ymm11, %ymm11
444
+ vpmuldq %ymm2, %ymm12, %ymm12
445
+ vpmuldq %ymm0, %ymm13, %ymm13
446
+ vpmuldq %ymm0, %ymm14, %ymm14
447
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
448
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
449
+ vpsubd %ymm11, %ymm9, %ymm12
450
+ vpaddd %ymm11, %ymm9, %ymm9
451
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
452
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
453
+ vpaddd %ymm13, %ymm12, %ymm11
454
+ vpsubd %ymm13, %ymm9, %ymm9
455
+ vmovdqa %ymm4, 0x40(%rdi)
456
+ vmovdqa %ymm5, 0xc0(%rdi)
457
+ vmovdqa %ymm6, 0x140(%rdi)
458
+ vmovdqa %ymm7, 0x1c0(%rdi)
459
+ vmovdqa %ymm8, 0x240(%rdi)
460
+ vmovdqa %ymm9, 0x2c0(%rdi)
461
+ vmovdqa %ymm10, 0x340(%rdi)
462
+ vmovdqa %ymm11, 0x3c0(%rdi)
463
+ vpbroadcastd 0x84(%rsi), %ymm1
464
+ vpbroadcastd 0x524(%rsi), %ymm2
465
+ vmovdqa 0x60(%rdi), %ymm4
466
+ vmovdqa 0xe0(%rdi), %ymm5
467
+ vmovdqa 0x160(%rdi), %ymm6
468
+ vmovdqa 0x1e0(%rdi), %ymm7
469
+ vmovdqa 0x260(%rdi), %ymm8
470
+ vmovdqa 0x2e0(%rdi), %ymm9
471
+ vmovdqa 0x360(%rdi), %ymm10
472
+ vmovdqa 0x3e0(%rdi), %ymm11
473
+ vpmuldq %ymm1, %ymm8, %ymm13
474
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
475
+ vpmuldq %ymm1, %ymm12, %ymm14
476
+ vpmuldq %ymm2, %ymm8, %ymm8
477
+ vpmuldq %ymm2, %ymm12, %ymm12
478
+ vpmuldq %ymm0, %ymm13, %ymm13
479
+ vpmuldq %ymm0, %ymm14, %ymm14
480
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
481
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
482
+ vpsubd %ymm8, %ymm4, %ymm12
483
+ vpaddd %ymm4, %ymm8, %ymm4
484
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
485
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
486
+ vpaddd %ymm13, %ymm12, %ymm8
487
+ vpsubd %ymm13, %ymm4, %ymm4
488
+ vpmuldq %ymm1, %ymm9, %ymm13
489
+ vmovshdup %ymm9, %ymm12 # ymm12 = ymm9[1,1,3,3,5,5,7,7]
490
+ vpmuldq %ymm1, %ymm12, %ymm14
491
+ vpmuldq %ymm2, %ymm9, %ymm9
492
+ vpmuldq %ymm2, %ymm12, %ymm12
493
+ vpmuldq %ymm0, %ymm13, %ymm13
494
+ vpmuldq %ymm0, %ymm14, %ymm14
495
+ vmovshdup %ymm9, %ymm9 # ymm9 = ymm9[1,1,3,3,5,5,7,7]
496
+ vpblendd $0xaa, %ymm12, %ymm9, %ymm9 # ymm9 = ymm9[0],ymm12[1],ymm9[2],ymm12[3],ymm9[4],ymm12[5],ymm9[6],ymm12[7]
497
+ vpsubd %ymm9, %ymm5, %ymm12
498
+ vpaddd %ymm5, %ymm9, %ymm5
499
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
500
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
501
+ vpaddd %ymm13, %ymm12, %ymm9
502
+ vpsubd %ymm13, %ymm5, %ymm5
503
+ vpmuldq %ymm1, %ymm10, %ymm13
504
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
505
+ vpmuldq %ymm1, %ymm12, %ymm14
506
+ vpmuldq %ymm2, %ymm10, %ymm10
507
+ vpmuldq %ymm2, %ymm12, %ymm12
508
+ vpmuldq %ymm0, %ymm13, %ymm13
509
+ vpmuldq %ymm0, %ymm14, %ymm14
510
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
511
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
512
+ vpsubd %ymm10, %ymm6, %ymm12
513
+ vpaddd %ymm6, %ymm10, %ymm6
514
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
515
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
516
+ vpaddd %ymm13, %ymm12, %ymm10
517
+ vpsubd %ymm13, %ymm6, %ymm6
518
+ vpmuldq %ymm1, %ymm11, %ymm13
519
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
520
+ vpmuldq %ymm1, %ymm12, %ymm14
521
+ vpmuldq %ymm2, %ymm11, %ymm11
522
+ vpmuldq %ymm2, %ymm12, %ymm12
523
+ vpmuldq %ymm0, %ymm13, %ymm13
524
+ vpmuldq %ymm0, %ymm14, %ymm14
525
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
526
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
527
+ vpsubd %ymm11, %ymm7, %ymm12
528
+ vpaddd %ymm7, %ymm11, %ymm7
529
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
530
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
531
+ vpaddd %ymm13, %ymm12, %ymm11
532
+ vpsubd %ymm13, %ymm7, %ymm7
533
+ vpbroadcastd 0x88(%rsi), %ymm1
534
+ vpbroadcastd 0x528(%rsi), %ymm2
535
+ vpmuldq %ymm1, %ymm6, %ymm13
536
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
537
+ vpmuldq %ymm1, %ymm12, %ymm14
538
+ vpmuldq %ymm2, %ymm6, %ymm6
539
+ vpmuldq %ymm2, %ymm12, %ymm12
540
+ vpmuldq %ymm0, %ymm13, %ymm13
541
+ vpmuldq %ymm0, %ymm14, %ymm14
542
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
543
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
544
+ vpsubd %ymm6, %ymm4, %ymm12
545
+ vpaddd %ymm6, %ymm4, %ymm4
546
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
547
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
548
+ vpaddd %ymm13, %ymm12, %ymm6
549
+ vpsubd %ymm13, %ymm4, %ymm4
550
+ vpmuldq %ymm1, %ymm7, %ymm13
551
+ vmovshdup %ymm7, %ymm12 # ymm12 = ymm7[1,1,3,3,5,5,7,7]
552
+ vpmuldq %ymm1, %ymm12, %ymm14
553
+ vpmuldq %ymm2, %ymm7, %ymm7
554
+ vpmuldq %ymm2, %ymm12, %ymm12
555
+ vpmuldq %ymm0, %ymm13, %ymm13
556
+ vpmuldq %ymm0, %ymm14, %ymm14
557
+ vmovshdup %ymm7, %ymm7 # ymm7 = ymm7[1,1,3,3,5,5,7,7]
558
+ vpblendd $0xaa, %ymm12, %ymm7, %ymm7 # ymm7 = ymm7[0],ymm12[1],ymm7[2],ymm12[3],ymm7[4],ymm12[5],ymm7[6],ymm12[7]
559
+ vpsubd %ymm7, %ymm5, %ymm12
560
+ vpaddd %ymm7, %ymm5, %ymm5
561
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
562
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
563
+ vpaddd %ymm13, %ymm12, %ymm7
564
+ vpsubd %ymm13, %ymm5, %ymm5
565
+ vpbroadcastd 0x8c(%rsi), %ymm1
566
+ vpbroadcastd 0x52c(%rsi), %ymm2
567
+ vpmuldq %ymm1, %ymm10, %ymm13
568
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
569
+ vpmuldq %ymm1, %ymm12, %ymm14
570
+ vpmuldq %ymm2, %ymm10, %ymm10
571
+ vpmuldq %ymm2, %ymm12, %ymm12
572
+ vpmuldq %ymm0, %ymm13, %ymm13
573
+ vpmuldq %ymm0, %ymm14, %ymm14
574
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
575
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
576
+ vpsubd %ymm10, %ymm8, %ymm12
577
+ vpaddd %ymm10, %ymm8, %ymm8
578
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
579
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
580
+ vpaddd %ymm13, %ymm12, %ymm10
581
+ vpsubd %ymm13, %ymm8, %ymm8
582
+ vpmuldq %ymm1, %ymm11, %ymm13
583
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
584
+ vpmuldq %ymm1, %ymm12, %ymm14
585
+ vpmuldq %ymm2, %ymm11, %ymm11
586
+ vpmuldq %ymm2, %ymm12, %ymm12
587
+ vpmuldq %ymm0, %ymm13, %ymm13
588
+ vpmuldq %ymm0, %ymm14, %ymm14
589
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
590
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
591
+ vpsubd %ymm11, %ymm9, %ymm12
592
+ vpaddd %ymm11, %ymm9, %ymm9
593
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
594
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
595
+ vpaddd %ymm13, %ymm12, %ymm11
596
+ vpsubd %ymm13, %ymm9, %ymm9
597
+ vmovdqa %ymm4, 0x60(%rdi)
598
+ vmovdqa %ymm5, 0xe0(%rdi)
599
+ vmovdqa %ymm6, 0x160(%rdi)
600
+ vmovdqa %ymm7, 0x1e0(%rdi)
601
+ vmovdqa %ymm8, 0x260(%rdi)
602
+ vmovdqa %ymm9, 0x2e0(%rdi)
603
+ vmovdqa %ymm10, 0x360(%rdi)
604
+ vmovdqa %ymm11, 0x3e0(%rdi)
605
+ vmovdqa (%rdi), %ymm4
606
+ vmovdqa 0x20(%rdi), %ymm5
607
+ vmovdqa 0x40(%rdi), %ymm6
608
+ vmovdqa 0x60(%rdi), %ymm7
609
+ vmovdqa 0x80(%rdi), %ymm8
610
+ vmovdqa 0xa0(%rdi), %ymm9
611
+ vmovdqa 0xc0(%rdi), %ymm10
612
+ vmovdqa 0xe0(%rdi), %ymm11
613
+ vpbroadcastd 0x90(%rsi), %ymm1
614
+ vpbroadcastd 0x530(%rsi), %ymm2
615
+ vpmuldq %ymm1, %ymm8, %ymm13
616
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
617
+ vpmuldq %ymm1, %ymm12, %ymm14
618
+ vpmuldq %ymm2, %ymm8, %ymm8
619
+ vpmuldq %ymm2, %ymm12, %ymm12
620
+ vpmuldq %ymm0, %ymm13, %ymm13
621
+ vpmuldq %ymm0, %ymm14, %ymm14
622
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
623
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
624
+ vpsubd %ymm8, %ymm4, %ymm12
625
+ vpaddd %ymm4, %ymm8, %ymm4
626
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
627
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
628
+ vpaddd %ymm13, %ymm12, %ymm8
629
+ vpsubd %ymm13, %ymm4, %ymm4
630
+ vpmuldq %ymm1, %ymm9, %ymm13
631
+ vmovshdup %ymm9, %ymm12 # ymm12 = ymm9[1,1,3,3,5,5,7,7]
632
+ vpmuldq %ymm1, %ymm12, %ymm14
633
+ vpmuldq %ymm2, %ymm9, %ymm9
634
+ vpmuldq %ymm2, %ymm12, %ymm12
635
+ vpmuldq %ymm0, %ymm13, %ymm13
636
+ vpmuldq %ymm0, %ymm14, %ymm14
637
+ vmovshdup %ymm9, %ymm9 # ymm9 = ymm9[1,1,3,3,5,5,7,7]
638
+ vpblendd $0xaa, %ymm12, %ymm9, %ymm9 # ymm9 = ymm9[0],ymm12[1],ymm9[2],ymm12[3],ymm9[4],ymm12[5],ymm9[6],ymm12[7]
639
+ vpsubd %ymm9, %ymm5, %ymm12
640
+ vpaddd %ymm5, %ymm9, %ymm5
641
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
642
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
643
+ vpaddd %ymm13, %ymm12, %ymm9
644
+ vpsubd %ymm13, %ymm5, %ymm5
645
+ vpmuldq %ymm1, %ymm10, %ymm13
646
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
647
+ vpmuldq %ymm1, %ymm12, %ymm14
648
+ vpmuldq %ymm2, %ymm10, %ymm10
649
+ vpmuldq %ymm2, %ymm12, %ymm12
650
+ vpmuldq %ymm0, %ymm13, %ymm13
651
+ vpmuldq %ymm0, %ymm14, %ymm14
652
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
653
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
654
+ vpsubd %ymm10, %ymm6, %ymm12
655
+ vpaddd %ymm6, %ymm10, %ymm6
656
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
657
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
658
+ vpaddd %ymm13, %ymm12, %ymm10
659
+ vpsubd %ymm13, %ymm6, %ymm6
660
+ vpmuldq %ymm1, %ymm11, %ymm13
661
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
662
+ vpmuldq %ymm1, %ymm12, %ymm14
663
+ vpmuldq %ymm2, %ymm11, %ymm11
664
+ vpmuldq %ymm2, %ymm12, %ymm12
665
+ vpmuldq %ymm0, %ymm13, %ymm13
666
+ vpmuldq %ymm0, %ymm14, %ymm14
667
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
668
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
669
+ vpsubd %ymm11, %ymm7, %ymm12
670
+ vpaddd %ymm7, %ymm11, %ymm7
671
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
672
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
673
+ vpaddd %ymm13, %ymm12, %ymm11
674
+ vpsubd %ymm13, %ymm7, %ymm7
675
+ vperm2i128 $0x20, %ymm8, %ymm4, %ymm3 # ymm3 = ymm4[0,1],ymm8[0,1]
676
+ vperm2i128 $0x31, %ymm8, %ymm4, %ymm8 # ymm8 = ymm4[2,3],ymm8[2,3]
677
+ vperm2i128 $0x20, %ymm9, %ymm5, %ymm4 # ymm4 = ymm5[0,1],ymm9[0,1]
678
+ vperm2i128 $0x31, %ymm9, %ymm5, %ymm9 # ymm9 = ymm5[2,3],ymm9[2,3]
679
+ vperm2i128 $0x20, %ymm10, %ymm6, %ymm5 # ymm5 = ymm6[0,1],ymm10[0,1]
680
+ vperm2i128 $0x31, %ymm10, %ymm6, %ymm10 # ymm10 = ymm6[2,3],ymm10[2,3]
681
+ vperm2i128 $0x20, %ymm11, %ymm7, %ymm6 # ymm6 = ymm7[0,1],ymm11[0,1]
682
+ vperm2i128 $0x31, %ymm11, %ymm7, %ymm11 # ymm11 = ymm7[2,3],ymm11[2,3]
683
+ vmovdqa 0xa0(%rsi), %ymm1
684
+ vmovdqa 0x540(%rsi), %ymm2
685
+ vpmuldq %ymm1, %ymm5, %ymm13
686
+ vmovshdup %ymm5, %ymm12 # ymm12 = ymm5[1,1,3,3,5,5,7,7]
687
+ vpmuldq %ymm1, %ymm12, %ymm14
688
+ vpmuldq %ymm2, %ymm5, %ymm5
689
+ vpmuldq %ymm2, %ymm12, %ymm12
690
+ vpmuldq %ymm0, %ymm13, %ymm13
691
+ vpmuldq %ymm0, %ymm14, %ymm14
692
+ vmovshdup %ymm5, %ymm5 # ymm5 = ymm5[1,1,3,3,5,5,7,7]
693
+ vpblendd $0xaa, %ymm12, %ymm5, %ymm5 # ymm5 = ymm5[0],ymm12[1],ymm5[2],ymm12[3],ymm5[4],ymm12[5],ymm5[6],ymm12[7]
694
+ vpsubd %ymm5, %ymm3, %ymm12
695
+ vpaddd %ymm5, %ymm3, %ymm3
696
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
697
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
698
+ vpaddd %ymm13, %ymm12, %ymm5
699
+ vpsubd %ymm13, %ymm3, %ymm3
700
+ vpmuldq %ymm1, %ymm10, %ymm13
701
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
702
+ vpmuldq %ymm1, %ymm12, %ymm14
703
+ vpmuldq %ymm2, %ymm10, %ymm10
704
+ vpmuldq %ymm2, %ymm12, %ymm12
705
+ vpmuldq %ymm0, %ymm13, %ymm13
706
+ vpmuldq %ymm0, %ymm14, %ymm14
707
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
708
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
709
+ vpsubd %ymm10, %ymm8, %ymm12
710
+ vpaddd %ymm10, %ymm8, %ymm8
711
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
712
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
713
+ vpaddd %ymm13, %ymm12, %ymm10
714
+ vpsubd %ymm13, %ymm8, %ymm8
715
+ vpmuldq %ymm1, %ymm6, %ymm13
716
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
717
+ vpmuldq %ymm1, %ymm12, %ymm14
718
+ vpmuldq %ymm2, %ymm6, %ymm6
719
+ vpmuldq %ymm2, %ymm12, %ymm12
720
+ vpmuldq %ymm0, %ymm13, %ymm13
721
+ vpmuldq %ymm0, %ymm14, %ymm14
722
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
723
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
724
+ vpsubd %ymm6, %ymm4, %ymm12
725
+ vpaddd %ymm6, %ymm4, %ymm4
726
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
727
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
728
+ vpaddd %ymm13, %ymm12, %ymm6
729
+ vpsubd %ymm13, %ymm4, %ymm4
730
+ vpmuldq %ymm1, %ymm11, %ymm13
731
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
732
+ vpmuldq %ymm1, %ymm12, %ymm14
733
+ vpmuldq %ymm2, %ymm11, %ymm11
734
+ vpmuldq %ymm2, %ymm12, %ymm12
735
+ vpmuldq %ymm0, %ymm13, %ymm13
736
+ vpmuldq %ymm0, %ymm14, %ymm14
737
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
738
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
739
+ vpsubd %ymm11, %ymm9, %ymm12
740
+ vpaddd %ymm11, %ymm9, %ymm9
741
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
742
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
743
+ vpaddd %ymm13, %ymm12, %ymm11
744
+ vpsubd %ymm13, %ymm9, %ymm9
745
+ vpunpcklqdq %ymm5, %ymm3, %ymm7 # ymm7 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
746
+ vpunpckhqdq %ymm5, %ymm3, %ymm5 # ymm5 = ymm3[1],ymm5[1],ymm3[3],ymm5[3]
747
+ vpunpcklqdq %ymm10, %ymm8, %ymm3 # ymm3 = ymm8[0],ymm10[0],ymm8[2],ymm10[2]
748
+ vpunpckhqdq %ymm10, %ymm8, %ymm10 # ymm10 = ymm8[1],ymm10[1],ymm8[3],ymm10[3]
749
+ vpunpcklqdq %ymm6, %ymm4, %ymm8 # ymm8 = ymm4[0],ymm6[0],ymm4[2],ymm6[2]
750
+ vpunpckhqdq %ymm6, %ymm4, %ymm6 # ymm6 = ymm4[1],ymm6[1],ymm4[3],ymm6[3]
751
+ vpunpcklqdq %ymm11, %ymm9, %ymm4 # ymm4 = ymm9[0],ymm11[0],ymm9[2],ymm11[2]
752
+ vpunpckhqdq %ymm11, %ymm9, %ymm11 # ymm11 = ymm9[1],ymm11[1],ymm9[3],ymm11[3]
753
+ vmovdqa 0x120(%rsi), %ymm1
754
+ vmovdqa 0x5c0(%rsi), %ymm2
755
+ vpmuldq %ymm1, %ymm8, %ymm13
756
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
757
+ vpmuldq %ymm1, %ymm12, %ymm14
758
+ vpmuldq %ymm2, %ymm8, %ymm8
759
+ vpmuldq %ymm2, %ymm12, %ymm12
760
+ vpmuldq %ymm0, %ymm13, %ymm13
761
+ vpmuldq %ymm0, %ymm14, %ymm14
762
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
763
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
764
+ vpsubd %ymm8, %ymm7, %ymm12
765
+ vpaddd %ymm7, %ymm8, %ymm7
766
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
767
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
768
+ vpaddd %ymm13, %ymm12, %ymm8
769
+ vpsubd %ymm13, %ymm7, %ymm7
770
+ vpmuldq %ymm1, %ymm6, %ymm13
771
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
772
+ vpmuldq %ymm1, %ymm12, %ymm14
773
+ vpmuldq %ymm2, %ymm6, %ymm6
774
+ vpmuldq %ymm2, %ymm12, %ymm12
775
+ vpmuldq %ymm0, %ymm13, %ymm13
776
+ vpmuldq %ymm0, %ymm14, %ymm14
777
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
778
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
779
+ vpsubd %ymm6, %ymm5, %ymm12
780
+ vpaddd %ymm6, %ymm5, %ymm5
781
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
782
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
783
+ vpaddd %ymm13, %ymm12, %ymm6
784
+ vpsubd %ymm13, %ymm5, %ymm5
785
+ vpmuldq %ymm1, %ymm4, %ymm13
786
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
787
+ vpmuldq %ymm1, %ymm12, %ymm14
788
+ vpmuldq %ymm2, %ymm4, %ymm4
789
+ vpmuldq %ymm2, %ymm12, %ymm12
790
+ vpmuldq %ymm0, %ymm13, %ymm13
791
+ vpmuldq %ymm0, %ymm14, %ymm14
792
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
793
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
794
+ vpsubd %ymm4, %ymm3, %ymm12
795
+ vpaddd %ymm4, %ymm3, %ymm3
796
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
797
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
798
+ vpaddd %ymm13, %ymm12, %ymm4
799
+ vpsubd %ymm13, %ymm3, %ymm3
800
+ vpmuldq %ymm1, %ymm11, %ymm13
801
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
802
+ vpmuldq %ymm1, %ymm12, %ymm14
803
+ vpmuldq %ymm2, %ymm11, %ymm11
804
+ vpmuldq %ymm2, %ymm12, %ymm12
805
+ vpmuldq %ymm0, %ymm13, %ymm13
806
+ vpmuldq %ymm0, %ymm14, %ymm14
807
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
808
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
809
+ vpsubd %ymm11, %ymm10, %ymm12
810
+ vpaddd %ymm11, %ymm10, %ymm10
811
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
812
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
813
+ vpaddd %ymm13, %ymm12, %ymm11
814
+ vpsubd %ymm13, %ymm10, %ymm10
815
+ vmovsldup %ymm8, %ymm9 # ymm9 = ymm8[0,0,2,2,4,4,6,6]
816
+ vpblendd $0xaa, %ymm9, %ymm7, %ymm9 # ymm9 = ymm7[0],ymm9[1],ymm7[2],ymm9[3],ymm7[4],ymm9[5],ymm7[6],ymm9[7]
817
+ vpsrlq $0x20, %ymm7, %ymm7
818
+ vpblendd $0xaa, %ymm8, %ymm7, %ymm8 # ymm8 = ymm7[0],ymm8[1],ymm7[2],ymm8[3],ymm7[4],ymm8[5],ymm7[6],ymm8[7]
819
+ vmovsldup %ymm6, %ymm7 # ymm7 = ymm6[0,0,2,2,4,4,6,6]
820
+ vpblendd $0xaa, %ymm7, %ymm5, %ymm7 # ymm7 = ymm5[0],ymm7[1],ymm5[2],ymm7[3],ymm5[4],ymm7[5],ymm5[6],ymm7[7]
821
+ vpsrlq $0x20, %ymm5, %ymm5
822
+ vpblendd $0xaa, %ymm6, %ymm5, %ymm6 # ymm6 = ymm5[0],ymm6[1],ymm5[2],ymm6[3],ymm5[4],ymm6[5],ymm5[6],ymm6[7]
823
+ vmovsldup %ymm4, %ymm5 # ymm5 = ymm4[0,0,2,2,4,4,6,6]
824
+ vpblendd $0xaa, %ymm5, %ymm3, %ymm5 # ymm5 = ymm3[0],ymm5[1],ymm3[2],ymm5[3],ymm3[4],ymm5[5],ymm3[6],ymm5[7]
825
+ vpsrlq $0x20, %ymm3, %ymm3
826
+ vpblendd $0xaa, %ymm4, %ymm3, %ymm4 # ymm4 = ymm3[0],ymm4[1],ymm3[2],ymm4[3],ymm3[4],ymm4[5],ymm3[6],ymm4[7]
827
+ vmovsldup %ymm11, %ymm3 # ymm3 = ymm11[0,0,2,2,4,4,6,6]
828
+ vpblendd $0xaa, %ymm3, %ymm10, %ymm3 # ymm3 = ymm10[0],ymm3[1],ymm10[2],ymm3[3],ymm10[4],ymm3[5],ymm10[6],ymm3[7]
829
+ vpsrlq $0x20, %ymm10, %ymm10
830
+ vpblendd $0xaa, %ymm11, %ymm10, %ymm11 # ymm11 = ymm10[0],ymm11[1],ymm10[2],ymm11[3],ymm10[4],ymm11[5],ymm10[6],ymm11[7]
831
+ vmovdqa 0x1a0(%rsi), %ymm1
832
+ vmovdqa 0x640(%rsi), %ymm2
833
+ vpsrlq $0x20, %ymm1, %ymm10
834
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
835
+ vpmuldq %ymm1, %ymm5, %ymm13
836
+ vmovshdup %ymm5, %ymm12 # ymm12 = ymm5[1,1,3,3,5,5,7,7]
837
+ vpmuldq %ymm10, %ymm12, %ymm14
838
+ vpmuldq %ymm2, %ymm5, %ymm5
839
+ vpmuldq %ymm15, %ymm12, %ymm12
840
+ vpmuldq %ymm0, %ymm13, %ymm13
841
+ vpmuldq %ymm0, %ymm14, %ymm14
842
+ vmovshdup %ymm5, %ymm5 # ymm5 = ymm5[1,1,3,3,5,5,7,7]
843
+ vpblendd $0xaa, %ymm12, %ymm5, %ymm5 # ymm5 = ymm5[0],ymm12[1],ymm5[2],ymm12[3],ymm5[4],ymm12[5],ymm5[6],ymm12[7]
844
+ vpsubd %ymm5, %ymm9, %ymm12
845
+ vpaddd %ymm5, %ymm9, %ymm9
846
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
847
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
848
+ vpaddd %ymm13, %ymm12, %ymm5
849
+ vpsubd %ymm13, %ymm9, %ymm9
850
+ vpmuldq %ymm1, %ymm4, %ymm13
851
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
852
+ vpmuldq %ymm10, %ymm12, %ymm14
853
+ vpmuldq %ymm2, %ymm4, %ymm4
854
+ vpmuldq %ymm15, %ymm12, %ymm12
855
+ vpmuldq %ymm0, %ymm13, %ymm13
856
+ vpmuldq %ymm0, %ymm14, %ymm14
857
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
858
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
859
+ vpsubd %ymm4, %ymm8, %ymm12
860
+ vpaddd %ymm4, %ymm8, %ymm8
861
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
862
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
863
+ vpaddd %ymm13, %ymm12, %ymm4
864
+ vpsubd %ymm13, %ymm8, %ymm8
865
+ vpmuldq %ymm1, %ymm3, %ymm13
866
+ vmovshdup %ymm3, %ymm12 # ymm12 = ymm3[1,1,3,3,5,5,7,7]
867
+ vpmuldq %ymm10, %ymm12, %ymm14
868
+ vpmuldq %ymm2, %ymm3, %ymm3
869
+ vpmuldq %ymm15, %ymm12, %ymm12
870
+ vpmuldq %ymm0, %ymm13, %ymm13
871
+ vpmuldq %ymm0, %ymm14, %ymm14
872
+ vmovshdup %ymm3, %ymm3 # ymm3 = ymm3[1,1,3,3,5,5,7,7]
873
+ vpblendd $0xaa, %ymm12, %ymm3, %ymm3 # ymm3 = ymm3[0],ymm12[1],ymm3[2],ymm12[3],ymm3[4],ymm12[5],ymm3[6],ymm12[7]
874
+ vpsubd %ymm3, %ymm7, %ymm12
875
+ vpaddd %ymm3, %ymm7, %ymm7
876
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
877
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
878
+ vpaddd %ymm13, %ymm12, %ymm3
879
+ vpsubd %ymm13, %ymm7, %ymm7
880
+ vpmuldq %ymm1, %ymm11, %ymm13
881
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
882
+ vpmuldq %ymm10, %ymm12, %ymm14
883
+ vpmuldq %ymm2, %ymm11, %ymm11
884
+ vpmuldq %ymm15, %ymm12, %ymm12
885
+ vpmuldq %ymm0, %ymm13, %ymm13
886
+ vpmuldq %ymm0, %ymm14, %ymm14
887
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
888
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
889
+ vpsubd %ymm11, %ymm6, %ymm12
890
+ vpaddd %ymm6, %ymm11, %ymm6
891
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
892
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
893
+ vpaddd %ymm13, %ymm12, %ymm11
894
+ vpsubd %ymm13, %ymm6, %ymm6
895
+ vmovdqa 0x220(%rsi), %ymm1
896
+ vmovdqa 0x6c0(%rsi), %ymm2
897
+ vpsrlq $0x20, %ymm1, %ymm10
898
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
899
+ vpmuldq %ymm1, %ymm7, %ymm13
900
+ vmovshdup %ymm7, %ymm12 # ymm12 = ymm7[1,1,3,3,5,5,7,7]
901
+ vpmuldq %ymm10, %ymm12, %ymm14
902
+ vpmuldq %ymm2, %ymm7, %ymm7
903
+ vpmuldq %ymm15, %ymm12, %ymm12
904
+ vpmuldq %ymm0, %ymm13, %ymm13
905
+ vpmuldq %ymm0, %ymm14, %ymm14
906
+ vmovshdup %ymm7, %ymm7 # ymm7 = ymm7[1,1,3,3,5,5,7,7]
907
+ vpblendd $0xaa, %ymm12, %ymm7, %ymm7 # ymm7 = ymm7[0],ymm12[1],ymm7[2],ymm12[3],ymm7[4],ymm12[5],ymm7[6],ymm12[7]
908
+ vpsubd %ymm7, %ymm9, %ymm12
909
+ vpaddd %ymm7, %ymm9, %ymm9
910
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
911
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
912
+ vpaddd %ymm13, %ymm12, %ymm7
913
+ vpsubd %ymm13, %ymm9, %ymm9
914
+ vpmuldq %ymm1, %ymm6, %ymm13
915
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
916
+ vpmuldq %ymm10, %ymm12, %ymm14
917
+ vpmuldq %ymm2, %ymm6, %ymm6
918
+ vpmuldq %ymm15, %ymm12, %ymm12
919
+ vpmuldq %ymm0, %ymm13, %ymm13
920
+ vpmuldq %ymm0, %ymm14, %ymm14
921
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
922
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
923
+ vpsubd %ymm6, %ymm8, %ymm12
924
+ vpaddd %ymm6, %ymm8, %ymm8
925
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
926
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
927
+ vpaddd %ymm13, %ymm12, %ymm6
928
+ vpsubd %ymm13, %ymm8, %ymm8
929
+ vmovdqa 0x2a0(%rsi), %ymm1
930
+ vmovdqa 0x740(%rsi), %ymm2
931
+ vpsrlq $0x20, %ymm1, %ymm10
932
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
933
+ vpmuldq %ymm1, %ymm3, %ymm13
934
+ vmovshdup %ymm3, %ymm12 # ymm12 = ymm3[1,1,3,3,5,5,7,7]
935
+ vpmuldq %ymm10, %ymm12, %ymm14
936
+ vpmuldq %ymm2, %ymm3, %ymm3
937
+ vpmuldq %ymm15, %ymm12, %ymm12
938
+ vpmuldq %ymm0, %ymm13, %ymm13
939
+ vpmuldq %ymm0, %ymm14, %ymm14
940
+ vmovshdup %ymm3, %ymm3 # ymm3 = ymm3[1,1,3,3,5,5,7,7]
941
+ vpblendd $0xaa, %ymm12, %ymm3, %ymm3 # ymm3 = ymm3[0],ymm12[1],ymm3[2],ymm12[3],ymm3[4],ymm12[5],ymm3[6],ymm12[7]
942
+ vpsubd %ymm3, %ymm5, %ymm12
943
+ vpaddd %ymm3, %ymm5, %ymm5
944
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
945
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
946
+ vpaddd %ymm13, %ymm12, %ymm3
947
+ vpsubd %ymm13, %ymm5, %ymm5
948
+ vpmuldq %ymm1, %ymm11, %ymm13
949
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
950
+ vpmuldq %ymm10, %ymm12, %ymm14
951
+ vpmuldq %ymm2, %ymm11, %ymm11
952
+ vpmuldq %ymm15, %ymm12, %ymm12
953
+ vpmuldq %ymm0, %ymm13, %ymm13
954
+ vpmuldq %ymm0, %ymm14, %ymm14
955
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
956
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
957
+ vpsubd %ymm11, %ymm4, %ymm12
958
+ vpaddd %ymm4, %ymm11, %ymm4
959
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
960
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
961
+ vpaddd %ymm13, %ymm12, %ymm11
962
+ vpsubd %ymm13, %ymm4, %ymm4
963
+ vmovdqa 0x320(%rsi), %ymm1
964
+ vmovdqa 0x7c0(%rsi), %ymm2
965
+ vpsrlq $0x20, %ymm1, %ymm10
966
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
967
+ vpmuldq %ymm1, %ymm8, %ymm13
968
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
969
+ vpmuldq %ymm10, %ymm12, %ymm14
970
+ vpmuldq %ymm2, %ymm8, %ymm8
971
+ vpmuldq %ymm15, %ymm12, %ymm12
972
+ vpmuldq %ymm0, %ymm13, %ymm13
973
+ vpmuldq %ymm0, %ymm14, %ymm14
974
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
975
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
976
+ vpsubd %ymm8, %ymm9, %ymm12
977
+ vpaddd %ymm8, %ymm9, %ymm9
978
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
979
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
980
+ vpaddd %ymm13, %ymm12, %ymm8
981
+ vpsubd %ymm13, %ymm9, %ymm9
982
+ vmovdqa 0x3a0(%rsi), %ymm1
983
+ vmovdqa 0x840(%rsi), %ymm2
984
+ vpsrlq $0x20, %ymm1, %ymm10
985
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
986
+ vpmuldq %ymm1, %ymm6, %ymm13
987
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
988
+ vpmuldq %ymm10, %ymm12, %ymm14
989
+ vpmuldq %ymm2, %ymm6, %ymm6
990
+ vpmuldq %ymm15, %ymm12, %ymm12
991
+ vpmuldq %ymm0, %ymm13, %ymm13
992
+ vpmuldq %ymm0, %ymm14, %ymm14
993
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
994
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
995
+ vpsubd %ymm6, %ymm7, %ymm12
996
+ vpaddd %ymm6, %ymm7, %ymm7
997
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
998
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
999
+ vpaddd %ymm13, %ymm12, %ymm6
1000
+ vpsubd %ymm13, %ymm7, %ymm7
1001
+ vmovdqa 0x420(%rsi), %ymm1
1002
+ vmovdqa 0x8c0(%rsi), %ymm2
1003
+ vpsrlq $0x20, %ymm1, %ymm10
1004
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1005
+ vpmuldq %ymm1, %ymm4, %ymm13
1006
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
1007
+ vpmuldq %ymm10, %ymm12, %ymm14
1008
+ vpmuldq %ymm2, %ymm4, %ymm4
1009
+ vpmuldq %ymm15, %ymm12, %ymm12
1010
+ vpmuldq %ymm0, %ymm13, %ymm13
1011
+ vpmuldq %ymm0, %ymm14, %ymm14
1012
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
1013
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
1014
+ vpsubd %ymm4, %ymm5, %ymm12
1015
+ vpaddd %ymm4, %ymm5, %ymm5
1016
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1017
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1018
+ vpaddd %ymm13, %ymm12, %ymm4
1019
+ vpsubd %ymm13, %ymm5, %ymm5
1020
+ vmovdqa 0x4a0(%rsi), %ymm1
1021
+ vmovdqa 0x940(%rsi), %ymm2
1022
+ vpsrlq $0x20, %ymm1, %ymm10
1023
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1024
+ vpmuldq %ymm1, %ymm11, %ymm13
1025
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1026
+ vpmuldq %ymm10, %ymm12, %ymm14
1027
+ vpmuldq %ymm2, %ymm11, %ymm11
1028
+ vpmuldq %ymm15, %ymm12, %ymm12
1029
+ vpmuldq %ymm0, %ymm13, %ymm13
1030
+ vpmuldq %ymm0, %ymm14, %ymm14
1031
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1032
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1033
+ vpsubd %ymm11, %ymm3, %ymm12
1034
+ vpaddd %ymm3, %ymm11, %ymm3
1035
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1036
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1037
+ vpaddd %ymm13, %ymm12, %ymm11
1038
+ vpsubd %ymm13, %ymm3, %ymm3
1039
+ vmovdqa %ymm9, (%rdi)
1040
+ vmovdqa %ymm8, 0x20(%rdi)
1041
+ vmovdqa %ymm7, 0x40(%rdi)
1042
+ vmovdqa %ymm6, 0x60(%rdi)
1043
+ vmovdqa %ymm5, 0x80(%rdi)
1044
+ vmovdqa %ymm4, 0xa0(%rdi)
1045
+ vmovdqa %ymm3, 0xc0(%rdi)
1046
+ vmovdqa %ymm11, 0xe0(%rdi)
1047
+ vmovdqa 0x100(%rdi), %ymm4
1048
+ vmovdqa 0x120(%rdi), %ymm5
1049
+ vmovdqa 0x140(%rdi), %ymm6
1050
+ vmovdqa 0x160(%rdi), %ymm7
1051
+ vmovdqa 0x180(%rdi), %ymm8
1052
+ vmovdqa 0x1a0(%rdi), %ymm9
1053
+ vmovdqa 0x1c0(%rdi), %ymm10
1054
+ vmovdqa 0x1e0(%rdi), %ymm11
1055
+ vpbroadcastd 0x94(%rsi), %ymm1
1056
+ vpbroadcastd 0x534(%rsi), %ymm2
1057
+ vpmuldq %ymm1, %ymm8, %ymm13
1058
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
1059
+ vpmuldq %ymm1, %ymm12, %ymm14
1060
+ vpmuldq %ymm2, %ymm8, %ymm8
1061
+ vpmuldq %ymm2, %ymm12, %ymm12
1062
+ vpmuldq %ymm0, %ymm13, %ymm13
1063
+ vpmuldq %ymm0, %ymm14, %ymm14
1064
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
1065
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
1066
+ vpsubd %ymm8, %ymm4, %ymm12
1067
+ vpaddd %ymm4, %ymm8, %ymm4
1068
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1069
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1070
+ vpaddd %ymm13, %ymm12, %ymm8
1071
+ vpsubd %ymm13, %ymm4, %ymm4
1072
+ vpmuldq %ymm1, %ymm9, %ymm13
1073
+ vmovshdup %ymm9, %ymm12 # ymm12 = ymm9[1,1,3,3,5,5,7,7]
1074
+ vpmuldq %ymm1, %ymm12, %ymm14
1075
+ vpmuldq %ymm2, %ymm9, %ymm9
1076
+ vpmuldq %ymm2, %ymm12, %ymm12
1077
+ vpmuldq %ymm0, %ymm13, %ymm13
1078
+ vpmuldq %ymm0, %ymm14, %ymm14
1079
+ vmovshdup %ymm9, %ymm9 # ymm9 = ymm9[1,1,3,3,5,5,7,7]
1080
+ vpblendd $0xaa, %ymm12, %ymm9, %ymm9 # ymm9 = ymm9[0],ymm12[1],ymm9[2],ymm12[3],ymm9[4],ymm12[5],ymm9[6],ymm12[7]
1081
+ vpsubd %ymm9, %ymm5, %ymm12
1082
+ vpaddd %ymm5, %ymm9, %ymm5
1083
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1084
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1085
+ vpaddd %ymm13, %ymm12, %ymm9
1086
+ vpsubd %ymm13, %ymm5, %ymm5
1087
+ vpmuldq %ymm1, %ymm10, %ymm13
1088
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
1089
+ vpmuldq %ymm1, %ymm12, %ymm14
1090
+ vpmuldq %ymm2, %ymm10, %ymm10
1091
+ vpmuldq %ymm2, %ymm12, %ymm12
1092
+ vpmuldq %ymm0, %ymm13, %ymm13
1093
+ vpmuldq %ymm0, %ymm14, %ymm14
1094
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
1095
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
1096
+ vpsubd %ymm10, %ymm6, %ymm12
1097
+ vpaddd %ymm6, %ymm10, %ymm6
1098
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1099
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1100
+ vpaddd %ymm13, %ymm12, %ymm10
1101
+ vpsubd %ymm13, %ymm6, %ymm6
1102
+ vpmuldq %ymm1, %ymm11, %ymm13
1103
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1104
+ vpmuldq %ymm1, %ymm12, %ymm14
1105
+ vpmuldq %ymm2, %ymm11, %ymm11
1106
+ vpmuldq %ymm2, %ymm12, %ymm12
1107
+ vpmuldq %ymm0, %ymm13, %ymm13
1108
+ vpmuldq %ymm0, %ymm14, %ymm14
1109
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1110
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1111
+ vpsubd %ymm11, %ymm7, %ymm12
1112
+ vpaddd %ymm7, %ymm11, %ymm7
1113
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1114
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1115
+ vpaddd %ymm13, %ymm12, %ymm11
1116
+ vpsubd %ymm13, %ymm7, %ymm7
1117
+ vperm2i128 $0x20, %ymm8, %ymm4, %ymm3 # ymm3 = ymm4[0,1],ymm8[0,1]
1118
+ vperm2i128 $0x31, %ymm8, %ymm4, %ymm8 # ymm8 = ymm4[2,3],ymm8[2,3]
1119
+ vperm2i128 $0x20, %ymm9, %ymm5, %ymm4 # ymm4 = ymm5[0,1],ymm9[0,1]
1120
+ vperm2i128 $0x31, %ymm9, %ymm5, %ymm9 # ymm9 = ymm5[2,3],ymm9[2,3]
1121
+ vperm2i128 $0x20, %ymm10, %ymm6, %ymm5 # ymm5 = ymm6[0,1],ymm10[0,1]
1122
+ vperm2i128 $0x31, %ymm10, %ymm6, %ymm10 # ymm10 = ymm6[2,3],ymm10[2,3]
1123
+ vperm2i128 $0x20, %ymm11, %ymm7, %ymm6 # ymm6 = ymm7[0,1],ymm11[0,1]
1124
+ vperm2i128 $0x31, %ymm11, %ymm7, %ymm11 # ymm11 = ymm7[2,3],ymm11[2,3]
1125
+ vmovdqa 0xc0(%rsi), %ymm1
1126
+ vmovdqa 0x560(%rsi), %ymm2
1127
+ vpmuldq %ymm1, %ymm5, %ymm13
1128
+ vmovshdup %ymm5, %ymm12 # ymm12 = ymm5[1,1,3,3,5,5,7,7]
1129
+ vpmuldq %ymm1, %ymm12, %ymm14
1130
+ vpmuldq %ymm2, %ymm5, %ymm5
1131
+ vpmuldq %ymm2, %ymm12, %ymm12
1132
+ vpmuldq %ymm0, %ymm13, %ymm13
1133
+ vpmuldq %ymm0, %ymm14, %ymm14
1134
+ vmovshdup %ymm5, %ymm5 # ymm5 = ymm5[1,1,3,3,5,5,7,7]
1135
+ vpblendd $0xaa, %ymm12, %ymm5, %ymm5 # ymm5 = ymm5[0],ymm12[1],ymm5[2],ymm12[3],ymm5[4],ymm12[5],ymm5[6],ymm12[7]
1136
+ vpsubd %ymm5, %ymm3, %ymm12
1137
+ vpaddd %ymm5, %ymm3, %ymm3
1138
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1139
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1140
+ vpaddd %ymm13, %ymm12, %ymm5
1141
+ vpsubd %ymm13, %ymm3, %ymm3
1142
+ vpmuldq %ymm1, %ymm10, %ymm13
1143
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
1144
+ vpmuldq %ymm1, %ymm12, %ymm14
1145
+ vpmuldq %ymm2, %ymm10, %ymm10
1146
+ vpmuldq %ymm2, %ymm12, %ymm12
1147
+ vpmuldq %ymm0, %ymm13, %ymm13
1148
+ vpmuldq %ymm0, %ymm14, %ymm14
1149
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
1150
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
1151
+ vpsubd %ymm10, %ymm8, %ymm12
1152
+ vpaddd %ymm10, %ymm8, %ymm8
1153
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1154
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1155
+ vpaddd %ymm13, %ymm12, %ymm10
1156
+ vpsubd %ymm13, %ymm8, %ymm8
1157
+ vpmuldq %ymm1, %ymm6, %ymm13
1158
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
1159
+ vpmuldq %ymm1, %ymm12, %ymm14
1160
+ vpmuldq %ymm2, %ymm6, %ymm6
1161
+ vpmuldq %ymm2, %ymm12, %ymm12
1162
+ vpmuldq %ymm0, %ymm13, %ymm13
1163
+ vpmuldq %ymm0, %ymm14, %ymm14
1164
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
1165
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
1166
+ vpsubd %ymm6, %ymm4, %ymm12
1167
+ vpaddd %ymm6, %ymm4, %ymm4
1168
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1169
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1170
+ vpaddd %ymm13, %ymm12, %ymm6
1171
+ vpsubd %ymm13, %ymm4, %ymm4
1172
+ vpmuldq %ymm1, %ymm11, %ymm13
1173
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1174
+ vpmuldq %ymm1, %ymm12, %ymm14
1175
+ vpmuldq %ymm2, %ymm11, %ymm11
1176
+ vpmuldq %ymm2, %ymm12, %ymm12
1177
+ vpmuldq %ymm0, %ymm13, %ymm13
1178
+ vpmuldq %ymm0, %ymm14, %ymm14
1179
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1180
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1181
+ vpsubd %ymm11, %ymm9, %ymm12
1182
+ vpaddd %ymm11, %ymm9, %ymm9
1183
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1184
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1185
+ vpaddd %ymm13, %ymm12, %ymm11
1186
+ vpsubd %ymm13, %ymm9, %ymm9
1187
+ vpunpcklqdq %ymm5, %ymm3, %ymm7 # ymm7 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
1188
+ vpunpckhqdq %ymm5, %ymm3, %ymm5 # ymm5 = ymm3[1],ymm5[1],ymm3[3],ymm5[3]
1189
+ vpunpcklqdq %ymm10, %ymm8, %ymm3 # ymm3 = ymm8[0],ymm10[0],ymm8[2],ymm10[2]
1190
+ vpunpckhqdq %ymm10, %ymm8, %ymm10 # ymm10 = ymm8[1],ymm10[1],ymm8[3],ymm10[3]
1191
+ vpunpcklqdq %ymm6, %ymm4, %ymm8 # ymm8 = ymm4[0],ymm6[0],ymm4[2],ymm6[2]
1192
+ vpunpckhqdq %ymm6, %ymm4, %ymm6 # ymm6 = ymm4[1],ymm6[1],ymm4[3],ymm6[3]
1193
+ vpunpcklqdq %ymm11, %ymm9, %ymm4 # ymm4 = ymm9[0],ymm11[0],ymm9[2],ymm11[2]
1194
+ vpunpckhqdq %ymm11, %ymm9, %ymm11 # ymm11 = ymm9[1],ymm11[1],ymm9[3],ymm11[3]
1195
+ vmovdqa 0x140(%rsi), %ymm1
1196
+ vmovdqa 0x5e0(%rsi), %ymm2
1197
+ vpmuldq %ymm1, %ymm8, %ymm13
1198
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
1199
+ vpmuldq %ymm1, %ymm12, %ymm14
1200
+ vpmuldq %ymm2, %ymm8, %ymm8
1201
+ vpmuldq %ymm2, %ymm12, %ymm12
1202
+ vpmuldq %ymm0, %ymm13, %ymm13
1203
+ vpmuldq %ymm0, %ymm14, %ymm14
1204
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
1205
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
1206
+ vpsubd %ymm8, %ymm7, %ymm12
1207
+ vpaddd %ymm7, %ymm8, %ymm7
1208
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1209
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1210
+ vpaddd %ymm13, %ymm12, %ymm8
1211
+ vpsubd %ymm13, %ymm7, %ymm7
1212
+ vpmuldq %ymm1, %ymm6, %ymm13
1213
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
1214
+ vpmuldq %ymm1, %ymm12, %ymm14
1215
+ vpmuldq %ymm2, %ymm6, %ymm6
1216
+ vpmuldq %ymm2, %ymm12, %ymm12
1217
+ vpmuldq %ymm0, %ymm13, %ymm13
1218
+ vpmuldq %ymm0, %ymm14, %ymm14
1219
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
1220
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
1221
+ vpsubd %ymm6, %ymm5, %ymm12
1222
+ vpaddd %ymm6, %ymm5, %ymm5
1223
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1224
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1225
+ vpaddd %ymm13, %ymm12, %ymm6
1226
+ vpsubd %ymm13, %ymm5, %ymm5
1227
+ vpmuldq %ymm1, %ymm4, %ymm13
1228
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
1229
+ vpmuldq %ymm1, %ymm12, %ymm14
1230
+ vpmuldq %ymm2, %ymm4, %ymm4
1231
+ vpmuldq %ymm2, %ymm12, %ymm12
1232
+ vpmuldq %ymm0, %ymm13, %ymm13
1233
+ vpmuldq %ymm0, %ymm14, %ymm14
1234
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
1235
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
1236
+ vpsubd %ymm4, %ymm3, %ymm12
1237
+ vpaddd %ymm4, %ymm3, %ymm3
1238
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1239
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1240
+ vpaddd %ymm13, %ymm12, %ymm4
1241
+ vpsubd %ymm13, %ymm3, %ymm3
1242
+ vpmuldq %ymm1, %ymm11, %ymm13
1243
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1244
+ vpmuldq %ymm1, %ymm12, %ymm14
1245
+ vpmuldq %ymm2, %ymm11, %ymm11
1246
+ vpmuldq %ymm2, %ymm12, %ymm12
1247
+ vpmuldq %ymm0, %ymm13, %ymm13
1248
+ vpmuldq %ymm0, %ymm14, %ymm14
1249
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1250
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1251
+ vpsubd %ymm11, %ymm10, %ymm12
1252
+ vpaddd %ymm11, %ymm10, %ymm10
1253
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1254
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1255
+ vpaddd %ymm13, %ymm12, %ymm11
1256
+ vpsubd %ymm13, %ymm10, %ymm10
1257
+ vmovsldup %ymm8, %ymm9 # ymm9 = ymm8[0,0,2,2,4,4,6,6]
1258
+ vpblendd $0xaa, %ymm9, %ymm7, %ymm9 # ymm9 = ymm7[0],ymm9[1],ymm7[2],ymm9[3],ymm7[4],ymm9[5],ymm7[6],ymm9[7]
1259
+ vpsrlq $0x20, %ymm7, %ymm7
1260
+ vpblendd $0xaa, %ymm8, %ymm7, %ymm8 # ymm8 = ymm7[0],ymm8[1],ymm7[2],ymm8[3],ymm7[4],ymm8[5],ymm7[6],ymm8[7]
1261
+ vmovsldup %ymm6, %ymm7 # ymm7 = ymm6[0,0,2,2,4,4,6,6]
1262
+ vpblendd $0xaa, %ymm7, %ymm5, %ymm7 # ymm7 = ymm5[0],ymm7[1],ymm5[2],ymm7[3],ymm5[4],ymm7[5],ymm5[6],ymm7[7]
1263
+ vpsrlq $0x20, %ymm5, %ymm5
1264
+ vpblendd $0xaa, %ymm6, %ymm5, %ymm6 # ymm6 = ymm5[0],ymm6[1],ymm5[2],ymm6[3],ymm5[4],ymm6[5],ymm5[6],ymm6[7]
1265
+ vmovsldup %ymm4, %ymm5 # ymm5 = ymm4[0,0,2,2,4,4,6,6]
1266
+ vpblendd $0xaa, %ymm5, %ymm3, %ymm5 # ymm5 = ymm3[0],ymm5[1],ymm3[2],ymm5[3],ymm3[4],ymm5[5],ymm3[6],ymm5[7]
1267
+ vpsrlq $0x20, %ymm3, %ymm3
1268
+ vpblendd $0xaa, %ymm4, %ymm3, %ymm4 # ymm4 = ymm3[0],ymm4[1],ymm3[2],ymm4[3],ymm3[4],ymm4[5],ymm3[6],ymm4[7]
1269
+ vmovsldup %ymm11, %ymm3 # ymm3 = ymm11[0,0,2,2,4,4,6,6]
1270
+ vpblendd $0xaa, %ymm3, %ymm10, %ymm3 # ymm3 = ymm10[0],ymm3[1],ymm10[2],ymm3[3],ymm10[4],ymm3[5],ymm10[6],ymm3[7]
1271
+ vpsrlq $0x20, %ymm10, %ymm10
1272
+ vpblendd $0xaa, %ymm11, %ymm10, %ymm11 # ymm11 = ymm10[0],ymm11[1],ymm10[2],ymm11[3],ymm10[4],ymm11[5],ymm10[6],ymm11[7]
1273
+ vmovdqa 0x1c0(%rsi), %ymm1
1274
+ vmovdqa 0x660(%rsi), %ymm2
1275
+ vpsrlq $0x20, %ymm1, %ymm10
1276
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1277
+ vpmuldq %ymm1, %ymm5, %ymm13
1278
+ vmovshdup %ymm5, %ymm12 # ymm12 = ymm5[1,1,3,3,5,5,7,7]
1279
+ vpmuldq %ymm10, %ymm12, %ymm14
1280
+ vpmuldq %ymm2, %ymm5, %ymm5
1281
+ vpmuldq %ymm15, %ymm12, %ymm12
1282
+ vpmuldq %ymm0, %ymm13, %ymm13
1283
+ vpmuldq %ymm0, %ymm14, %ymm14
1284
+ vmovshdup %ymm5, %ymm5 # ymm5 = ymm5[1,1,3,3,5,5,7,7]
1285
+ vpblendd $0xaa, %ymm12, %ymm5, %ymm5 # ymm5 = ymm5[0],ymm12[1],ymm5[2],ymm12[3],ymm5[4],ymm12[5],ymm5[6],ymm12[7]
1286
+ vpsubd %ymm5, %ymm9, %ymm12
1287
+ vpaddd %ymm5, %ymm9, %ymm9
1288
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1289
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1290
+ vpaddd %ymm13, %ymm12, %ymm5
1291
+ vpsubd %ymm13, %ymm9, %ymm9
1292
+ vpmuldq %ymm1, %ymm4, %ymm13
1293
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
1294
+ vpmuldq %ymm10, %ymm12, %ymm14
1295
+ vpmuldq %ymm2, %ymm4, %ymm4
1296
+ vpmuldq %ymm15, %ymm12, %ymm12
1297
+ vpmuldq %ymm0, %ymm13, %ymm13
1298
+ vpmuldq %ymm0, %ymm14, %ymm14
1299
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
1300
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
1301
+ vpsubd %ymm4, %ymm8, %ymm12
1302
+ vpaddd %ymm4, %ymm8, %ymm8
1303
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1304
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1305
+ vpaddd %ymm13, %ymm12, %ymm4
1306
+ vpsubd %ymm13, %ymm8, %ymm8
1307
+ vpmuldq %ymm1, %ymm3, %ymm13
1308
+ vmovshdup %ymm3, %ymm12 # ymm12 = ymm3[1,1,3,3,5,5,7,7]
1309
+ vpmuldq %ymm10, %ymm12, %ymm14
1310
+ vpmuldq %ymm2, %ymm3, %ymm3
1311
+ vpmuldq %ymm15, %ymm12, %ymm12
1312
+ vpmuldq %ymm0, %ymm13, %ymm13
1313
+ vpmuldq %ymm0, %ymm14, %ymm14
1314
+ vmovshdup %ymm3, %ymm3 # ymm3 = ymm3[1,1,3,3,5,5,7,7]
1315
+ vpblendd $0xaa, %ymm12, %ymm3, %ymm3 # ymm3 = ymm3[0],ymm12[1],ymm3[2],ymm12[3],ymm3[4],ymm12[5],ymm3[6],ymm12[7]
1316
+ vpsubd %ymm3, %ymm7, %ymm12
1317
+ vpaddd %ymm3, %ymm7, %ymm7
1318
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1319
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1320
+ vpaddd %ymm13, %ymm12, %ymm3
1321
+ vpsubd %ymm13, %ymm7, %ymm7
1322
+ vpmuldq %ymm1, %ymm11, %ymm13
1323
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1324
+ vpmuldq %ymm10, %ymm12, %ymm14
1325
+ vpmuldq %ymm2, %ymm11, %ymm11
1326
+ vpmuldq %ymm15, %ymm12, %ymm12
1327
+ vpmuldq %ymm0, %ymm13, %ymm13
1328
+ vpmuldq %ymm0, %ymm14, %ymm14
1329
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1330
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1331
+ vpsubd %ymm11, %ymm6, %ymm12
1332
+ vpaddd %ymm6, %ymm11, %ymm6
1333
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1334
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1335
+ vpaddd %ymm13, %ymm12, %ymm11
1336
+ vpsubd %ymm13, %ymm6, %ymm6
1337
+ vmovdqa 0x240(%rsi), %ymm1
1338
+ vmovdqa 0x6e0(%rsi), %ymm2
1339
+ vpsrlq $0x20, %ymm1, %ymm10
1340
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1341
+ vpmuldq %ymm1, %ymm7, %ymm13
1342
+ vmovshdup %ymm7, %ymm12 # ymm12 = ymm7[1,1,3,3,5,5,7,7]
1343
+ vpmuldq %ymm10, %ymm12, %ymm14
1344
+ vpmuldq %ymm2, %ymm7, %ymm7
1345
+ vpmuldq %ymm15, %ymm12, %ymm12
1346
+ vpmuldq %ymm0, %ymm13, %ymm13
1347
+ vpmuldq %ymm0, %ymm14, %ymm14
1348
+ vmovshdup %ymm7, %ymm7 # ymm7 = ymm7[1,1,3,3,5,5,7,7]
1349
+ vpblendd $0xaa, %ymm12, %ymm7, %ymm7 # ymm7 = ymm7[0],ymm12[1],ymm7[2],ymm12[3],ymm7[4],ymm12[5],ymm7[6],ymm12[7]
1350
+ vpsubd %ymm7, %ymm9, %ymm12
1351
+ vpaddd %ymm7, %ymm9, %ymm9
1352
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1353
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1354
+ vpaddd %ymm13, %ymm12, %ymm7
1355
+ vpsubd %ymm13, %ymm9, %ymm9
1356
+ vpmuldq %ymm1, %ymm6, %ymm13
1357
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
1358
+ vpmuldq %ymm10, %ymm12, %ymm14
1359
+ vpmuldq %ymm2, %ymm6, %ymm6
1360
+ vpmuldq %ymm15, %ymm12, %ymm12
1361
+ vpmuldq %ymm0, %ymm13, %ymm13
1362
+ vpmuldq %ymm0, %ymm14, %ymm14
1363
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
1364
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
1365
+ vpsubd %ymm6, %ymm8, %ymm12
1366
+ vpaddd %ymm6, %ymm8, %ymm8
1367
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1368
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1369
+ vpaddd %ymm13, %ymm12, %ymm6
1370
+ vpsubd %ymm13, %ymm8, %ymm8
1371
+ vmovdqa 0x2c0(%rsi), %ymm1
1372
+ vmovdqa 0x760(%rsi), %ymm2
1373
+ vpsrlq $0x20, %ymm1, %ymm10
1374
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1375
+ vpmuldq %ymm1, %ymm3, %ymm13
1376
+ vmovshdup %ymm3, %ymm12 # ymm12 = ymm3[1,1,3,3,5,5,7,7]
1377
+ vpmuldq %ymm10, %ymm12, %ymm14
1378
+ vpmuldq %ymm2, %ymm3, %ymm3
1379
+ vpmuldq %ymm15, %ymm12, %ymm12
1380
+ vpmuldq %ymm0, %ymm13, %ymm13
1381
+ vpmuldq %ymm0, %ymm14, %ymm14
1382
+ vmovshdup %ymm3, %ymm3 # ymm3 = ymm3[1,1,3,3,5,5,7,7]
1383
+ vpblendd $0xaa, %ymm12, %ymm3, %ymm3 # ymm3 = ymm3[0],ymm12[1],ymm3[2],ymm12[3],ymm3[4],ymm12[5],ymm3[6],ymm12[7]
1384
+ vpsubd %ymm3, %ymm5, %ymm12
1385
+ vpaddd %ymm3, %ymm5, %ymm5
1386
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1387
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1388
+ vpaddd %ymm13, %ymm12, %ymm3
1389
+ vpsubd %ymm13, %ymm5, %ymm5
1390
+ vpmuldq %ymm1, %ymm11, %ymm13
1391
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1392
+ vpmuldq %ymm10, %ymm12, %ymm14
1393
+ vpmuldq %ymm2, %ymm11, %ymm11
1394
+ vpmuldq %ymm15, %ymm12, %ymm12
1395
+ vpmuldq %ymm0, %ymm13, %ymm13
1396
+ vpmuldq %ymm0, %ymm14, %ymm14
1397
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1398
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1399
+ vpsubd %ymm11, %ymm4, %ymm12
1400
+ vpaddd %ymm4, %ymm11, %ymm4
1401
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1402
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1403
+ vpaddd %ymm13, %ymm12, %ymm11
1404
+ vpsubd %ymm13, %ymm4, %ymm4
1405
+ vmovdqa 0x340(%rsi), %ymm1
1406
+ vmovdqa 0x7e0(%rsi), %ymm2
1407
+ vpsrlq $0x20, %ymm1, %ymm10
1408
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1409
+ vpmuldq %ymm1, %ymm8, %ymm13
1410
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
1411
+ vpmuldq %ymm10, %ymm12, %ymm14
1412
+ vpmuldq %ymm2, %ymm8, %ymm8
1413
+ vpmuldq %ymm15, %ymm12, %ymm12
1414
+ vpmuldq %ymm0, %ymm13, %ymm13
1415
+ vpmuldq %ymm0, %ymm14, %ymm14
1416
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
1417
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
1418
+ vpsubd %ymm8, %ymm9, %ymm12
1419
+ vpaddd %ymm8, %ymm9, %ymm9
1420
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1421
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1422
+ vpaddd %ymm13, %ymm12, %ymm8
1423
+ vpsubd %ymm13, %ymm9, %ymm9
1424
+ vmovdqa 0x3c0(%rsi), %ymm1
1425
+ vmovdqa 0x860(%rsi), %ymm2
1426
+ vpsrlq $0x20, %ymm1, %ymm10
1427
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1428
+ vpmuldq %ymm1, %ymm6, %ymm13
1429
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
1430
+ vpmuldq %ymm10, %ymm12, %ymm14
1431
+ vpmuldq %ymm2, %ymm6, %ymm6
1432
+ vpmuldq %ymm15, %ymm12, %ymm12
1433
+ vpmuldq %ymm0, %ymm13, %ymm13
1434
+ vpmuldq %ymm0, %ymm14, %ymm14
1435
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
1436
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
1437
+ vpsubd %ymm6, %ymm7, %ymm12
1438
+ vpaddd %ymm6, %ymm7, %ymm7
1439
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1440
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1441
+ vpaddd %ymm13, %ymm12, %ymm6
1442
+ vpsubd %ymm13, %ymm7, %ymm7
1443
+ vmovdqa 0x440(%rsi), %ymm1
1444
+ vmovdqa 0x8e0(%rsi), %ymm2
1445
+ vpsrlq $0x20, %ymm1, %ymm10
1446
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1447
+ vpmuldq %ymm1, %ymm4, %ymm13
1448
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
1449
+ vpmuldq %ymm10, %ymm12, %ymm14
1450
+ vpmuldq %ymm2, %ymm4, %ymm4
1451
+ vpmuldq %ymm15, %ymm12, %ymm12
1452
+ vpmuldq %ymm0, %ymm13, %ymm13
1453
+ vpmuldq %ymm0, %ymm14, %ymm14
1454
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
1455
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
1456
+ vpsubd %ymm4, %ymm5, %ymm12
1457
+ vpaddd %ymm4, %ymm5, %ymm5
1458
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1459
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1460
+ vpaddd %ymm13, %ymm12, %ymm4
1461
+ vpsubd %ymm13, %ymm5, %ymm5
1462
+ vmovdqa 0x4c0(%rsi), %ymm1
1463
+ vmovdqa 0x960(%rsi), %ymm2
1464
+ vpsrlq $0x20, %ymm1, %ymm10
1465
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1466
+ vpmuldq %ymm1, %ymm11, %ymm13
1467
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1468
+ vpmuldq %ymm10, %ymm12, %ymm14
1469
+ vpmuldq %ymm2, %ymm11, %ymm11
1470
+ vpmuldq %ymm15, %ymm12, %ymm12
1471
+ vpmuldq %ymm0, %ymm13, %ymm13
1472
+ vpmuldq %ymm0, %ymm14, %ymm14
1473
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1474
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1475
+ vpsubd %ymm11, %ymm3, %ymm12
1476
+ vpaddd %ymm3, %ymm11, %ymm3
1477
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1478
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1479
+ vpaddd %ymm13, %ymm12, %ymm11
1480
+ vpsubd %ymm13, %ymm3, %ymm3
1481
+ vmovdqa %ymm9, 0x100(%rdi)
1482
+ vmovdqa %ymm8, 0x120(%rdi)
1483
+ vmovdqa %ymm7, 0x140(%rdi)
1484
+ vmovdqa %ymm6, 0x160(%rdi)
1485
+ vmovdqa %ymm5, 0x180(%rdi)
1486
+ vmovdqa %ymm4, 0x1a0(%rdi)
1487
+ vmovdqa %ymm3, 0x1c0(%rdi)
1488
+ vmovdqa %ymm11, 0x1e0(%rdi)
1489
+ vmovdqa 0x200(%rdi), %ymm4
1490
+ vmovdqa 0x220(%rdi), %ymm5
1491
+ vmovdqa 0x240(%rdi), %ymm6
1492
+ vmovdqa 0x260(%rdi), %ymm7
1493
+ vmovdqa 0x280(%rdi), %ymm8
1494
+ vmovdqa 0x2a0(%rdi), %ymm9
1495
+ vmovdqa 0x2c0(%rdi), %ymm10
1496
+ vmovdqa 0x2e0(%rdi), %ymm11
1497
+ vpbroadcastd 0x98(%rsi), %ymm1
1498
+ vpbroadcastd 0x538(%rsi), %ymm2
1499
+ vpmuldq %ymm1, %ymm8, %ymm13
1500
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
1501
+ vpmuldq %ymm1, %ymm12, %ymm14
1502
+ vpmuldq %ymm2, %ymm8, %ymm8
1503
+ vpmuldq %ymm2, %ymm12, %ymm12
1504
+ vpmuldq %ymm0, %ymm13, %ymm13
1505
+ vpmuldq %ymm0, %ymm14, %ymm14
1506
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
1507
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
1508
+ vpsubd %ymm8, %ymm4, %ymm12
1509
+ vpaddd %ymm4, %ymm8, %ymm4
1510
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1511
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1512
+ vpaddd %ymm13, %ymm12, %ymm8
1513
+ vpsubd %ymm13, %ymm4, %ymm4
1514
+ vpmuldq %ymm1, %ymm9, %ymm13
1515
+ vmovshdup %ymm9, %ymm12 # ymm12 = ymm9[1,1,3,3,5,5,7,7]
1516
+ vpmuldq %ymm1, %ymm12, %ymm14
1517
+ vpmuldq %ymm2, %ymm9, %ymm9
1518
+ vpmuldq %ymm2, %ymm12, %ymm12
1519
+ vpmuldq %ymm0, %ymm13, %ymm13
1520
+ vpmuldq %ymm0, %ymm14, %ymm14
1521
+ vmovshdup %ymm9, %ymm9 # ymm9 = ymm9[1,1,3,3,5,5,7,7]
1522
+ vpblendd $0xaa, %ymm12, %ymm9, %ymm9 # ymm9 = ymm9[0],ymm12[1],ymm9[2],ymm12[3],ymm9[4],ymm12[5],ymm9[6],ymm12[7]
1523
+ vpsubd %ymm9, %ymm5, %ymm12
1524
+ vpaddd %ymm5, %ymm9, %ymm5
1525
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1526
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1527
+ vpaddd %ymm13, %ymm12, %ymm9
1528
+ vpsubd %ymm13, %ymm5, %ymm5
1529
+ vpmuldq %ymm1, %ymm10, %ymm13
1530
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
1531
+ vpmuldq %ymm1, %ymm12, %ymm14
1532
+ vpmuldq %ymm2, %ymm10, %ymm10
1533
+ vpmuldq %ymm2, %ymm12, %ymm12
1534
+ vpmuldq %ymm0, %ymm13, %ymm13
1535
+ vpmuldq %ymm0, %ymm14, %ymm14
1536
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
1537
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
1538
+ vpsubd %ymm10, %ymm6, %ymm12
1539
+ vpaddd %ymm6, %ymm10, %ymm6
1540
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1541
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1542
+ vpaddd %ymm13, %ymm12, %ymm10
1543
+ vpsubd %ymm13, %ymm6, %ymm6
1544
+ vpmuldq %ymm1, %ymm11, %ymm13
1545
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1546
+ vpmuldq %ymm1, %ymm12, %ymm14
1547
+ vpmuldq %ymm2, %ymm11, %ymm11
1548
+ vpmuldq %ymm2, %ymm12, %ymm12
1549
+ vpmuldq %ymm0, %ymm13, %ymm13
1550
+ vpmuldq %ymm0, %ymm14, %ymm14
1551
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1552
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1553
+ vpsubd %ymm11, %ymm7, %ymm12
1554
+ vpaddd %ymm7, %ymm11, %ymm7
1555
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1556
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1557
+ vpaddd %ymm13, %ymm12, %ymm11
1558
+ vpsubd %ymm13, %ymm7, %ymm7
1559
+ vperm2i128 $0x20, %ymm8, %ymm4, %ymm3 # ymm3 = ymm4[0,1],ymm8[0,1]
1560
+ vperm2i128 $0x31, %ymm8, %ymm4, %ymm8 # ymm8 = ymm4[2,3],ymm8[2,3]
1561
+ vperm2i128 $0x20, %ymm9, %ymm5, %ymm4 # ymm4 = ymm5[0,1],ymm9[0,1]
1562
+ vperm2i128 $0x31, %ymm9, %ymm5, %ymm9 # ymm9 = ymm5[2,3],ymm9[2,3]
1563
+ vperm2i128 $0x20, %ymm10, %ymm6, %ymm5 # ymm5 = ymm6[0,1],ymm10[0,1]
1564
+ vperm2i128 $0x31, %ymm10, %ymm6, %ymm10 # ymm10 = ymm6[2,3],ymm10[2,3]
1565
+ vperm2i128 $0x20, %ymm11, %ymm7, %ymm6 # ymm6 = ymm7[0,1],ymm11[0,1]
1566
+ vperm2i128 $0x31, %ymm11, %ymm7, %ymm11 # ymm11 = ymm7[2,3],ymm11[2,3]
1567
+ vmovdqa 0xe0(%rsi), %ymm1
1568
+ vmovdqa 0x580(%rsi), %ymm2
1569
+ vpmuldq %ymm1, %ymm5, %ymm13
1570
+ vmovshdup %ymm5, %ymm12 # ymm12 = ymm5[1,1,3,3,5,5,7,7]
1571
+ vpmuldq %ymm1, %ymm12, %ymm14
1572
+ vpmuldq %ymm2, %ymm5, %ymm5
1573
+ vpmuldq %ymm2, %ymm12, %ymm12
1574
+ vpmuldq %ymm0, %ymm13, %ymm13
1575
+ vpmuldq %ymm0, %ymm14, %ymm14
1576
+ vmovshdup %ymm5, %ymm5 # ymm5 = ymm5[1,1,3,3,5,5,7,7]
1577
+ vpblendd $0xaa, %ymm12, %ymm5, %ymm5 # ymm5 = ymm5[0],ymm12[1],ymm5[2],ymm12[3],ymm5[4],ymm12[5],ymm5[6],ymm12[7]
1578
+ vpsubd %ymm5, %ymm3, %ymm12
1579
+ vpaddd %ymm5, %ymm3, %ymm3
1580
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1581
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1582
+ vpaddd %ymm13, %ymm12, %ymm5
1583
+ vpsubd %ymm13, %ymm3, %ymm3
1584
+ vpmuldq %ymm1, %ymm10, %ymm13
1585
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
1586
+ vpmuldq %ymm1, %ymm12, %ymm14
1587
+ vpmuldq %ymm2, %ymm10, %ymm10
1588
+ vpmuldq %ymm2, %ymm12, %ymm12
1589
+ vpmuldq %ymm0, %ymm13, %ymm13
1590
+ vpmuldq %ymm0, %ymm14, %ymm14
1591
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
1592
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
1593
+ vpsubd %ymm10, %ymm8, %ymm12
1594
+ vpaddd %ymm10, %ymm8, %ymm8
1595
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1596
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1597
+ vpaddd %ymm13, %ymm12, %ymm10
1598
+ vpsubd %ymm13, %ymm8, %ymm8
1599
+ vpmuldq %ymm1, %ymm6, %ymm13
1600
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
1601
+ vpmuldq %ymm1, %ymm12, %ymm14
1602
+ vpmuldq %ymm2, %ymm6, %ymm6
1603
+ vpmuldq %ymm2, %ymm12, %ymm12
1604
+ vpmuldq %ymm0, %ymm13, %ymm13
1605
+ vpmuldq %ymm0, %ymm14, %ymm14
1606
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
1607
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
1608
+ vpsubd %ymm6, %ymm4, %ymm12
1609
+ vpaddd %ymm6, %ymm4, %ymm4
1610
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1611
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1612
+ vpaddd %ymm13, %ymm12, %ymm6
1613
+ vpsubd %ymm13, %ymm4, %ymm4
1614
+ vpmuldq %ymm1, %ymm11, %ymm13
1615
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1616
+ vpmuldq %ymm1, %ymm12, %ymm14
1617
+ vpmuldq %ymm2, %ymm11, %ymm11
1618
+ vpmuldq %ymm2, %ymm12, %ymm12
1619
+ vpmuldq %ymm0, %ymm13, %ymm13
1620
+ vpmuldq %ymm0, %ymm14, %ymm14
1621
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1622
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1623
+ vpsubd %ymm11, %ymm9, %ymm12
1624
+ vpaddd %ymm11, %ymm9, %ymm9
1625
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1626
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1627
+ vpaddd %ymm13, %ymm12, %ymm11
1628
+ vpsubd %ymm13, %ymm9, %ymm9
1629
+ vpunpcklqdq %ymm5, %ymm3, %ymm7 # ymm7 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
1630
+ vpunpckhqdq %ymm5, %ymm3, %ymm5 # ymm5 = ymm3[1],ymm5[1],ymm3[3],ymm5[3]
1631
+ vpunpcklqdq %ymm10, %ymm8, %ymm3 # ymm3 = ymm8[0],ymm10[0],ymm8[2],ymm10[2]
1632
+ vpunpckhqdq %ymm10, %ymm8, %ymm10 # ymm10 = ymm8[1],ymm10[1],ymm8[3],ymm10[3]
1633
+ vpunpcklqdq %ymm6, %ymm4, %ymm8 # ymm8 = ymm4[0],ymm6[0],ymm4[2],ymm6[2]
1634
+ vpunpckhqdq %ymm6, %ymm4, %ymm6 # ymm6 = ymm4[1],ymm6[1],ymm4[3],ymm6[3]
1635
+ vpunpcklqdq %ymm11, %ymm9, %ymm4 # ymm4 = ymm9[0],ymm11[0],ymm9[2],ymm11[2]
1636
+ vpunpckhqdq %ymm11, %ymm9, %ymm11 # ymm11 = ymm9[1],ymm11[1],ymm9[3],ymm11[3]
1637
+ vmovdqa 0x160(%rsi), %ymm1
1638
+ vmovdqa 0x600(%rsi), %ymm2
1639
+ vpmuldq %ymm1, %ymm8, %ymm13
1640
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
1641
+ vpmuldq %ymm1, %ymm12, %ymm14
1642
+ vpmuldq %ymm2, %ymm8, %ymm8
1643
+ vpmuldq %ymm2, %ymm12, %ymm12
1644
+ vpmuldq %ymm0, %ymm13, %ymm13
1645
+ vpmuldq %ymm0, %ymm14, %ymm14
1646
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
1647
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
1648
+ vpsubd %ymm8, %ymm7, %ymm12
1649
+ vpaddd %ymm7, %ymm8, %ymm7
1650
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1651
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1652
+ vpaddd %ymm13, %ymm12, %ymm8
1653
+ vpsubd %ymm13, %ymm7, %ymm7
1654
+ vpmuldq %ymm1, %ymm6, %ymm13
1655
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
1656
+ vpmuldq %ymm1, %ymm12, %ymm14
1657
+ vpmuldq %ymm2, %ymm6, %ymm6
1658
+ vpmuldq %ymm2, %ymm12, %ymm12
1659
+ vpmuldq %ymm0, %ymm13, %ymm13
1660
+ vpmuldq %ymm0, %ymm14, %ymm14
1661
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
1662
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
1663
+ vpsubd %ymm6, %ymm5, %ymm12
1664
+ vpaddd %ymm6, %ymm5, %ymm5
1665
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1666
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1667
+ vpaddd %ymm13, %ymm12, %ymm6
1668
+ vpsubd %ymm13, %ymm5, %ymm5
1669
+ vpmuldq %ymm1, %ymm4, %ymm13
1670
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
1671
+ vpmuldq %ymm1, %ymm12, %ymm14
1672
+ vpmuldq %ymm2, %ymm4, %ymm4
1673
+ vpmuldq %ymm2, %ymm12, %ymm12
1674
+ vpmuldq %ymm0, %ymm13, %ymm13
1675
+ vpmuldq %ymm0, %ymm14, %ymm14
1676
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
1677
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
1678
+ vpsubd %ymm4, %ymm3, %ymm12
1679
+ vpaddd %ymm4, %ymm3, %ymm3
1680
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1681
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1682
+ vpaddd %ymm13, %ymm12, %ymm4
1683
+ vpsubd %ymm13, %ymm3, %ymm3
1684
+ vpmuldq %ymm1, %ymm11, %ymm13
1685
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1686
+ vpmuldq %ymm1, %ymm12, %ymm14
1687
+ vpmuldq %ymm2, %ymm11, %ymm11
1688
+ vpmuldq %ymm2, %ymm12, %ymm12
1689
+ vpmuldq %ymm0, %ymm13, %ymm13
1690
+ vpmuldq %ymm0, %ymm14, %ymm14
1691
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1692
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1693
+ vpsubd %ymm11, %ymm10, %ymm12
1694
+ vpaddd %ymm11, %ymm10, %ymm10
1695
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1696
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1697
+ vpaddd %ymm13, %ymm12, %ymm11
1698
+ vpsubd %ymm13, %ymm10, %ymm10
1699
+ vmovsldup %ymm8, %ymm9 # ymm9 = ymm8[0,0,2,2,4,4,6,6]
1700
+ vpblendd $0xaa, %ymm9, %ymm7, %ymm9 # ymm9 = ymm7[0],ymm9[1],ymm7[2],ymm9[3],ymm7[4],ymm9[5],ymm7[6],ymm9[7]
1701
+ vpsrlq $0x20, %ymm7, %ymm7
1702
+ vpblendd $0xaa, %ymm8, %ymm7, %ymm8 # ymm8 = ymm7[0],ymm8[1],ymm7[2],ymm8[3],ymm7[4],ymm8[5],ymm7[6],ymm8[7]
1703
+ vmovsldup %ymm6, %ymm7 # ymm7 = ymm6[0,0,2,2,4,4,6,6]
1704
+ vpblendd $0xaa, %ymm7, %ymm5, %ymm7 # ymm7 = ymm5[0],ymm7[1],ymm5[2],ymm7[3],ymm5[4],ymm7[5],ymm5[6],ymm7[7]
1705
+ vpsrlq $0x20, %ymm5, %ymm5
1706
+ vpblendd $0xaa, %ymm6, %ymm5, %ymm6 # ymm6 = ymm5[0],ymm6[1],ymm5[2],ymm6[3],ymm5[4],ymm6[5],ymm5[6],ymm6[7]
1707
+ vmovsldup %ymm4, %ymm5 # ymm5 = ymm4[0,0,2,2,4,4,6,6]
1708
+ vpblendd $0xaa, %ymm5, %ymm3, %ymm5 # ymm5 = ymm3[0],ymm5[1],ymm3[2],ymm5[3],ymm3[4],ymm5[5],ymm3[6],ymm5[7]
1709
+ vpsrlq $0x20, %ymm3, %ymm3
1710
+ vpblendd $0xaa, %ymm4, %ymm3, %ymm4 # ymm4 = ymm3[0],ymm4[1],ymm3[2],ymm4[3],ymm3[4],ymm4[5],ymm3[6],ymm4[7]
1711
+ vmovsldup %ymm11, %ymm3 # ymm3 = ymm11[0,0,2,2,4,4,6,6]
1712
+ vpblendd $0xaa, %ymm3, %ymm10, %ymm3 # ymm3 = ymm10[0],ymm3[1],ymm10[2],ymm3[3],ymm10[4],ymm3[5],ymm10[6],ymm3[7]
1713
+ vpsrlq $0x20, %ymm10, %ymm10
1714
+ vpblendd $0xaa, %ymm11, %ymm10, %ymm11 # ymm11 = ymm10[0],ymm11[1],ymm10[2],ymm11[3],ymm10[4],ymm11[5],ymm10[6],ymm11[7]
1715
+ vmovdqa 0x1e0(%rsi), %ymm1
1716
+ vmovdqa 0x680(%rsi), %ymm2
1717
+ vpsrlq $0x20, %ymm1, %ymm10
1718
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1719
+ vpmuldq %ymm1, %ymm5, %ymm13
1720
+ vmovshdup %ymm5, %ymm12 # ymm12 = ymm5[1,1,3,3,5,5,7,7]
1721
+ vpmuldq %ymm10, %ymm12, %ymm14
1722
+ vpmuldq %ymm2, %ymm5, %ymm5
1723
+ vpmuldq %ymm15, %ymm12, %ymm12
1724
+ vpmuldq %ymm0, %ymm13, %ymm13
1725
+ vpmuldq %ymm0, %ymm14, %ymm14
1726
+ vmovshdup %ymm5, %ymm5 # ymm5 = ymm5[1,1,3,3,5,5,7,7]
1727
+ vpblendd $0xaa, %ymm12, %ymm5, %ymm5 # ymm5 = ymm5[0],ymm12[1],ymm5[2],ymm12[3],ymm5[4],ymm12[5],ymm5[6],ymm12[7]
1728
+ vpsubd %ymm5, %ymm9, %ymm12
1729
+ vpaddd %ymm5, %ymm9, %ymm9
1730
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1731
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1732
+ vpaddd %ymm13, %ymm12, %ymm5
1733
+ vpsubd %ymm13, %ymm9, %ymm9
1734
+ vpmuldq %ymm1, %ymm4, %ymm13
1735
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
1736
+ vpmuldq %ymm10, %ymm12, %ymm14
1737
+ vpmuldq %ymm2, %ymm4, %ymm4
1738
+ vpmuldq %ymm15, %ymm12, %ymm12
1739
+ vpmuldq %ymm0, %ymm13, %ymm13
1740
+ vpmuldq %ymm0, %ymm14, %ymm14
1741
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
1742
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
1743
+ vpsubd %ymm4, %ymm8, %ymm12
1744
+ vpaddd %ymm4, %ymm8, %ymm8
1745
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1746
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1747
+ vpaddd %ymm13, %ymm12, %ymm4
1748
+ vpsubd %ymm13, %ymm8, %ymm8
1749
+ vpmuldq %ymm1, %ymm3, %ymm13
1750
+ vmovshdup %ymm3, %ymm12 # ymm12 = ymm3[1,1,3,3,5,5,7,7]
1751
+ vpmuldq %ymm10, %ymm12, %ymm14
1752
+ vpmuldq %ymm2, %ymm3, %ymm3
1753
+ vpmuldq %ymm15, %ymm12, %ymm12
1754
+ vpmuldq %ymm0, %ymm13, %ymm13
1755
+ vpmuldq %ymm0, %ymm14, %ymm14
1756
+ vmovshdup %ymm3, %ymm3 # ymm3 = ymm3[1,1,3,3,5,5,7,7]
1757
+ vpblendd $0xaa, %ymm12, %ymm3, %ymm3 # ymm3 = ymm3[0],ymm12[1],ymm3[2],ymm12[3],ymm3[4],ymm12[5],ymm3[6],ymm12[7]
1758
+ vpsubd %ymm3, %ymm7, %ymm12
1759
+ vpaddd %ymm3, %ymm7, %ymm7
1760
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1761
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1762
+ vpaddd %ymm13, %ymm12, %ymm3
1763
+ vpsubd %ymm13, %ymm7, %ymm7
1764
+ vpmuldq %ymm1, %ymm11, %ymm13
1765
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1766
+ vpmuldq %ymm10, %ymm12, %ymm14
1767
+ vpmuldq %ymm2, %ymm11, %ymm11
1768
+ vpmuldq %ymm15, %ymm12, %ymm12
1769
+ vpmuldq %ymm0, %ymm13, %ymm13
1770
+ vpmuldq %ymm0, %ymm14, %ymm14
1771
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1772
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1773
+ vpsubd %ymm11, %ymm6, %ymm12
1774
+ vpaddd %ymm6, %ymm11, %ymm6
1775
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1776
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1777
+ vpaddd %ymm13, %ymm12, %ymm11
1778
+ vpsubd %ymm13, %ymm6, %ymm6
1779
+ vmovdqa 0x260(%rsi), %ymm1
1780
+ vmovdqa 0x700(%rsi), %ymm2
1781
+ vpsrlq $0x20, %ymm1, %ymm10
1782
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1783
+ vpmuldq %ymm1, %ymm7, %ymm13
1784
+ vmovshdup %ymm7, %ymm12 # ymm12 = ymm7[1,1,3,3,5,5,7,7]
1785
+ vpmuldq %ymm10, %ymm12, %ymm14
1786
+ vpmuldq %ymm2, %ymm7, %ymm7
1787
+ vpmuldq %ymm15, %ymm12, %ymm12
1788
+ vpmuldq %ymm0, %ymm13, %ymm13
1789
+ vpmuldq %ymm0, %ymm14, %ymm14
1790
+ vmovshdup %ymm7, %ymm7 # ymm7 = ymm7[1,1,3,3,5,5,7,7]
1791
+ vpblendd $0xaa, %ymm12, %ymm7, %ymm7 # ymm7 = ymm7[0],ymm12[1],ymm7[2],ymm12[3],ymm7[4],ymm12[5],ymm7[6],ymm12[7]
1792
+ vpsubd %ymm7, %ymm9, %ymm12
1793
+ vpaddd %ymm7, %ymm9, %ymm9
1794
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1795
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1796
+ vpaddd %ymm13, %ymm12, %ymm7
1797
+ vpsubd %ymm13, %ymm9, %ymm9
1798
+ vpmuldq %ymm1, %ymm6, %ymm13
1799
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
1800
+ vpmuldq %ymm10, %ymm12, %ymm14
1801
+ vpmuldq %ymm2, %ymm6, %ymm6
1802
+ vpmuldq %ymm15, %ymm12, %ymm12
1803
+ vpmuldq %ymm0, %ymm13, %ymm13
1804
+ vpmuldq %ymm0, %ymm14, %ymm14
1805
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
1806
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
1807
+ vpsubd %ymm6, %ymm8, %ymm12
1808
+ vpaddd %ymm6, %ymm8, %ymm8
1809
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1810
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1811
+ vpaddd %ymm13, %ymm12, %ymm6
1812
+ vpsubd %ymm13, %ymm8, %ymm8
1813
+ vmovdqa 0x2e0(%rsi), %ymm1
1814
+ vmovdqa 0x780(%rsi), %ymm2
1815
+ vpsrlq $0x20, %ymm1, %ymm10
1816
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1817
+ vpmuldq %ymm1, %ymm3, %ymm13
1818
+ vmovshdup %ymm3, %ymm12 # ymm12 = ymm3[1,1,3,3,5,5,7,7]
1819
+ vpmuldq %ymm10, %ymm12, %ymm14
1820
+ vpmuldq %ymm2, %ymm3, %ymm3
1821
+ vpmuldq %ymm15, %ymm12, %ymm12
1822
+ vpmuldq %ymm0, %ymm13, %ymm13
1823
+ vpmuldq %ymm0, %ymm14, %ymm14
1824
+ vmovshdup %ymm3, %ymm3 # ymm3 = ymm3[1,1,3,3,5,5,7,7]
1825
+ vpblendd $0xaa, %ymm12, %ymm3, %ymm3 # ymm3 = ymm3[0],ymm12[1],ymm3[2],ymm12[3],ymm3[4],ymm12[5],ymm3[6],ymm12[7]
1826
+ vpsubd %ymm3, %ymm5, %ymm12
1827
+ vpaddd %ymm3, %ymm5, %ymm5
1828
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1829
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1830
+ vpaddd %ymm13, %ymm12, %ymm3
1831
+ vpsubd %ymm13, %ymm5, %ymm5
1832
+ vpmuldq %ymm1, %ymm11, %ymm13
1833
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1834
+ vpmuldq %ymm10, %ymm12, %ymm14
1835
+ vpmuldq %ymm2, %ymm11, %ymm11
1836
+ vpmuldq %ymm15, %ymm12, %ymm12
1837
+ vpmuldq %ymm0, %ymm13, %ymm13
1838
+ vpmuldq %ymm0, %ymm14, %ymm14
1839
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1840
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1841
+ vpsubd %ymm11, %ymm4, %ymm12
1842
+ vpaddd %ymm4, %ymm11, %ymm4
1843
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1844
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1845
+ vpaddd %ymm13, %ymm12, %ymm11
1846
+ vpsubd %ymm13, %ymm4, %ymm4
1847
+ vmovdqa 0x360(%rsi), %ymm1
1848
+ vmovdqa 0x800(%rsi), %ymm2
1849
+ vpsrlq $0x20, %ymm1, %ymm10
1850
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1851
+ vpmuldq %ymm1, %ymm8, %ymm13
1852
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
1853
+ vpmuldq %ymm10, %ymm12, %ymm14
1854
+ vpmuldq %ymm2, %ymm8, %ymm8
1855
+ vpmuldq %ymm15, %ymm12, %ymm12
1856
+ vpmuldq %ymm0, %ymm13, %ymm13
1857
+ vpmuldq %ymm0, %ymm14, %ymm14
1858
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
1859
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
1860
+ vpsubd %ymm8, %ymm9, %ymm12
1861
+ vpaddd %ymm8, %ymm9, %ymm9
1862
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1863
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1864
+ vpaddd %ymm13, %ymm12, %ymm8
1865
+ vpsubd %ymm13, %ymm9, %ymm9
1866
+ vmovdqa 0x3e0(%rsi), %ymm1
1867
+ vmovdqa 0x880(%rsi), %ymm2
1868
+ vpsrlq $0x20, %ymm1, %ymm10
1869
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1870
+ vpmuldq %ymm1, %ymm6, %ymm13
1871
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
1872
+ vpmuldq %ymm10, %ymm12, %ymm14
1873
+ vpmuldq %ymm2, %ymm6, %ymm6
1874
+ vpmuldq %ymm15, %ymm12, %ymm12
1875
+ vpmuldq %ymm0, %ymm13, %ymm13
1876
+ vpmuldq %ymm0, %ymm14, %ymm14
1877
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
1878
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
1879
+ vpsubd %ymm6, %ymm7, %ymm12
1880
+ vpaddd %ymm6, %ymm7, %ymm7
1881
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1882
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1883
+ vpaddd %ymm13, %ymm12, %ymm6
1884
+ vpsubd %ymm13, %ymm7, %ymm7
1885
+ vmovdqa 0x460(%rsi), %ymm1
1886
+ vmovdqa 0x900(%rsi), %ymm2
1887
+ vpsrlq $0x20, %ymm1, %ymm10
1888
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1889
+ vpmuldq %ymm1, %ymm4, %ymm13
1890
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
1891
+ vpmuldq %ymm10, %ymm12, %ymm14
1892
+ vpmuldq %ymm2, %ymm4, %ymm4
1893
+ vpmuldq %ymm15, %ymm12, %ymm12
1894
+ vpmuldq %ymm0, %ymm13, %ymm13
1895
+ vpmuldq %ymm0, %ymm14, %ymm14
1896
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
1897
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
1898
+ vpsubd %ymm4, %ymm5, %ymm12
1899
+ vpaddd %ymm4, %ymm5, %ymm5
1900
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1901
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1902
+ vpaddd %ymm13, %ymm12, %ymm4
1903
+ vpsubd %ymm13, %ymm5, %ymm5
1904
+ vmovdqa 0x4e0(%rsi), %ymm1
1905
+ vmovdqa 0x980(%rsi), %ymm2
1906
+ vpsrlq $0x20, %ymm1, %ymm10
1907
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
1908
+ vpmuldq %ymm1, %ymm11, %ymm13
1909
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1910
+ vpmuldq %ymm10, %ymm12, %ymm14
1911
+ vpmuldq %ymm2, %ymm11, %ymm11
1912
+ vpmuldq %ymm15, %ymm12, %ymm12
1913
+ vpmuldq %ymm0, %ymm13, %ymm13
1914
+ vpmuldq %ymm0, %ymm14, %ymm14
1915
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1916
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1917
+ vpsubd %ymm11, %ymm3, %ymm12
1918
+ vpaddd %ymm3, %ymm11, %ymm3
1919
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1920
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1921
+ vpaddd %ymm13, %ymm12, %ymm11
1922
+ vpsubd %ymm13, %ymm3, %ymm3
1923
+ vmovdqa %ymm9, 0x200(%rdi)
1924
+ vmovdqa %ymm8, 0x220(%rdi)
1925
+ vmovdqa %ymm7, 0x240(%rdi)
1926
+ vmovdqa %ymm6, 0x260(%rdi)
1927
+ vmovdqa %ymm5, 0x280(%rdi)
1928
+ vmovdqa %ymm4, 0x2a0(%rdi)
1929
+ vmovdqa %ymm3, 0x2c0(%rdi)
1930
+ vmovdqa %ymm11, 0x2e0(%rdi)
1931
+ vmovdqa 0x300(%rdi), %ymm4
1932
+ vmovdqa 0x320(%rdi), %ymm5
1933
+ vmovdqa 0x340(%rdi), %ymm6
1934
+ vmovdqa 0x360(%rdi), %ymm7
1935
+ vmovdqa 0x380(%rdi), %ymm8
1936
+ vmovdqa 0x3a0(%rdi), %ymm9
1937
+ vmovdqa 0x3c0(%rdi), %ymm10
1938
+ vmovdqa 0x3e0(%rdi), %ymm11
1939
+ vpbroadcastd 0x9c(%rsi), %ymm1
1940
+ vpbroadcastd 0x53c(%rsi), %ymm2
1941
+ vpmuldq %ymm1, %ymm8, %ymm13
1942
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
1943
+ vpmuldq %ymm1, %ymm12, %ymm14
1944
+ vpmuldq %ymm2, %ymm8, %ymm8
1945
+ vpmuldq %ymm2, %ymm12, %ymm12
1946
+ vpmuldq %ymm0, %ymm13, %ymm13
1947
+ vpmuldq %ymm0, %ymm14, %ymm14
1948
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
1949
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
1950
+ vpsubd %ymm8, %ymm4, %ymm12
1951
+ vpaddd %ymm4, %ymm8, %ymm4
1952
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1953
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1954
+ vpaddd %ymm13, %ymm12, %ymm8
1955
+ vpsubd %ymm13, %ymm4, %ymm4
1956
+ vpmuldq %ymm1, %ymm9, %ymm13
1957
+ vmovshdup %ymm9, %ymm12 # ymm12 = ymm9[1,1,3,3,5,5,7,7]
1958
+ vpmuldq %ymm1, %ymm12, %ymm14
1959
+ vpmuldq %ymm2, %ymm9, %ymm9
1960
+ vpmuldq %ymm2, %ymm12, %ymm12
1961
+ vpmuldq %ymm0, %ymm13, %ymm13
1962
+ vpmuldq %ymm0, %ymm14, %ymm14
1963
+ vmovshdup %ymm9, %ymm9 # ymm9 = ymm9[1,1,3,3,5,5,7,7]
1964
+ vpblendd $0xaa, %ymm12, %ymm9, %ymm9 # ymm9 = ymm9[0],ymm12[1],ymm9[2],ymm12[3],ymm9[4],ymm12[5],ymm9[6],ymm12[7]
1965
+ vpsubd %ymm9, %ymm5, %ymm12
1966
+ vpaddd %ymm5, %ymm9, %ymm5
1967
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1968
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1969
+ vpaddd %ymm13, %ymm12, %ymm9
1970
+ vpsubd %ymm13, %ymm5, %ymm5
1971
+ vpmuldq %ymm1, %ymm10, %ymm13
1972
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
1973
+ vpmuldq %ymm1, %ymm12, %ymm14
1974
+ vpmuldq %ymm2, %ymm10, %ymm10
1975
+ vpmuldq %ymm2, %ymm12, %ymm12
1976
+ vpmuldq %ymm0, %ymm13, %ymm13
1977
+ vpmuldq %ymm0, %ymm14, %ymm14
1978
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
1979
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
1980
+ vpsubd %ymm10, %ymm6, %ymm12
1981
+ vpaddd %ymm6, %ymm10, %ymm6
1982
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1983
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1984
+ vpaddd %ymm13, %ymm12, %ymm10
1985
+ vpsubd %ymm13, %ymm6, %ymm6
1986
+ vpmuldq %ymm1, %ymm11, %ymm13
1987
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
1988
+ vpmuldq %ymm1, %ymm12, %ymm14
1989
+ vpmuldq %ymm2, %ymm11, %ymm11
1990
+ vpmuldq %ymm2, %ymm12, %ymm12
1991
+ vpmuldq %ymm0, %ymm13, %ymm13
1992
+ vpmuldq %ymm0, %ymm14, %ymm14
1993
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
1994
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
1995
+ vpsubd %ymm11, %ymm7, %ymm12
1996
+ vpaddd %ymm7, %ymm11, %ymm7
1997
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
1998
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
1999
+ vpaddd %ymm13, %ymm12, %ymm11
2000
+ vpsubd %ymm13, %ymm7, %ymm7
2001
+ vperm2i128 $0x20, %ymm8, %ymm4, %ymm3 # ymm3 = ymm4[0,1],ymm8[0,1]
2002
+ vperm2i128 $0x31, %ymm8, %ymm4, %ymm8 # ymm8 = ymm4[2,3],ymm8[2,3]
2003
+ vperm2i128 $0x20, %ymm9, %ymm5, %ymm4 # ymm4 = ymm5[0,1],ymm9[0,1]
2004
+ vperm2i128 $0x31, %ymm9, %ymm5, %ymm9 # ymm9 = ymm5[2,3],ymm9[2,3]
2005
+ vperm2i128 $0x20, %ymm10, %ymm6, %ymm5 # ymm5 = ymm6[0,1],ymm10[0,1]
2006
+ vperm2i128 $0x31, %ymm10, %ymm6, %ymm10 # ymm10 = ymm6[2,3],ymm10[2,3]
2007
+ vperm2i128 $0x20, %ymm11, %ymm7, %ymm6 # ymm6 = ymm7[0,1],ymm11[0,1]
2008
+ vperm2i128 $0x31, %ymm11, %ymm7, %ymm11 # ymm11 = ymm7[2,3],ymm11[2,3]
2009
+ vmovdqa 0x100(%rsi), %ymm1
2010
+ vmovdqa 0x5a0(%rsi), %ymm2
2011
+ vpmuldq %ymm1, %ymm5, %ymm13
2012
+ vmovshdup %ymm5, %ymm12 # ymm12 = ymm5[1,1,3,3,5,5,7,7]
2013
+ vpmuldq %ymm1, %ymm12, %ymm14
2014
+ vpmuldq %ymm2, %ymm5, %ymm5
2015
+ vpmuldq %ymm2, %ymm12, %ymm12
2016
+ vpmuldq %ymm0, %ymm13, %ymm13
2017
+ vpmuldq %ymm0, %ymm14, %ymm14
2018
+ vmovshdup %ymm5, %ymm5 # ymm5 = ymm5[1,1,3,3,5,5,7,7]
2019
+ vpblendd $0xaa, %ymm12, %ymm5, %ymm5 # ymm5 = ymm5[0],ymm12[1],ymm5[2],ymm12[3],ymm5[4],ymm12[5],ymm5[6],ymm12[7]
2020
+ vpsubd %ymm5, %ymm3, %ymm12
2021
+ vpaddd %ymm5, %ymm3, %ymm3
2022
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2023
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2024
+ vpaddd %ymm13, %ymm12, %ymm5
2025
+ vpsubd %ymm13, %ymm3, %ymm3
2026
+ vpmuldq %ymm1, %ymm10, %ymm13
2027
+ vmovshdup %ymm10, %ymm12 # ymm12 = ymm10[1,1,3,3,5,5,7,7]
2028
+ vpmuldq %ymm1, %ymm12, %ymm14
2029
+ vpmuldq %ymm2, %ymm10, %ymm10
2030
+ vpmuldq %ymm2, %ymm12, %ymm12
2031
+ vpmuldq %ymm0, %ymm13, %ymm13
2032
+ vpmuldq %ymm0, %ymm14, %ymm14
2033
+ vmovshdup %ymm10, %ymm10 # ymm10 = ymm10[1,1,3,3,5,5,7,7]
2034
+ vpblendd $0xaa, %ymm12, %ymm10, %ymm10 # ymm10 = ymm10[0],ymm12[1],ymm10[2],ymm12[3],ymm10[4],ymm12[5],ymm10[6],ymm12[7]
2035
+ vpsubd %ymm10, %ymm8, %ymm12
2036
+ vpaddd %ymm10, %ymm8, %ymm8
2037
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2038
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2039
+ vpaddd %ymm13, %ymm12, %ymm10
2040
+ vpsubd %ymm13, %ymm8, %ymm8
2041
+ vpmuldq %ymm1, %ymm6, %ymm13
2042
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
2043
+ vpmuldq %ymm1, %ymm12, %ymm14
2044
+ vpmuldq %ymm2, %ymm6, %ymm6
2045
+ vpmuldq %ymm2, %ymm12, %ymm12
2046
+ vpmuldq %ymm0, %ymm13, %ymm13
2047
+ vpmuldq %ymm0, %ymm14, %ymm14
2048
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
2049
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
2050
+ vpsubd %ymm6, %ymm4, %ymm12
2051
+ vpaddd %ymm6, %ymm4, %ymm4
2052
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2053
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2054
+ vpaddd %ymm13, %ymm12, %ymm6
2055
+ vpsubd %ymm13, %ymm4, %ymm4
2056
+ vpmuldq %ymm1, %ymm11, %ymm13
2057
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
2058
+ vpmuldq %ymm1, %ymm12, %ymm14
2059
+ vpmuldq %ymm2, %ymm11, %ymm11
2060
+ vpmuldq %ymm2, %ymm12, %ymm12
2061
+ vpmuldq %ymm0, %ymm13, %ymm13
2062
+ vpmuldq %ymm0, %ymm14, %ymm14
2063
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
2064
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
2065
+ vpsubd %ymm11, %ymm9, %ymm12
2066
+ vpaddd %ymm11, %ymm9, %ymm9
2067
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2068
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2069
+ vpaddd %ymm13, %ymm12, %ymm11
2070
+ vpsubd %ymm13, %ymm9, %ymm9
2071
+ vpunpcklqdq %ymm5, %ymm3, %ymm7 # ymm7 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
2072
+ vpunpckhqdq %ymm5, %ymm3, %ymm5 # ymm5 = ymm3[1],ymm5[1],ymm3[3],ymm5[3]
2073
+ vpunpcklqdq %ymm10, %ymm8, %ymm3 # ymm3 = ymm8[0],ymm10[0],ymm8[2],ymm10[2]
2074
+ vpunpckhqdq %ymm10, %ymm8, %ymm10 # ymm10 = ymm8[1],ymm10[1],ymm8[3],ymm10[3]
2075
+ vpunpcklqdq %ymm6, %ymm4, %ymm8 # ymm8 = ymm4[0],ymm6[0],ymm4[2],ymm6[2]
2076
+ vpunpckhqdq %ymm6, %ymm4, %ymm6 # ymm6 = ymm4[1],ymm6[1],ymm4[3],ymm6[3]
2077
+ vpunpcklqdq %ymm11, %ymm9, %ymm4 # ymm4 = ymm9[0],ymm11[0],ymm9[2],ymm11[2]
2078
+ vpunpckhqdq %ymm11, %ymm9, %ymm11 # ymm11 = ymm9[1],ymm11[1],ymm9[3],ymm11[3]
2079
+ vmovdqa 0x180(%rsi), %ymm1
2080
+ vmovdqa 0x620(%rsi), %ymm2
2081
+ vpmuldq %ymm1, %ymm8, %ymm13
2082
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
2083
+ vpmuldq %ymm1, %ymm12, %ymm14
2084
+ vpmuldq %ymm2, %ymm8, %ymm8
2085
+ vpmuldq %ymm2, %ymm12, %ymm12
2086
+ vpmuldq %ymm0, %ymm13, %ymm13
2087
+ vpmuldq %ymm0, %ymm14, %ymm14
2088
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
2089
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
2090
+ vpsubd %ymm8, %ymm7, %ymm12
2091
+ vpaddd %ymm7, %ymm8, %ymm7
2092
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2093
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2094
+ vpaddd %ymm13, %ymm12, %ymm8
2095
+ vpsubd %ymm13, %ymm7, %ymm7
2096
+ vpmuldq %ymm1, %ymm6, %ymm13
2097
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
2098
+ vpmuldq %ymm1, %ymm12, %ymm14
2099
+ vpmuldq %ymm2, %ymm6, %ymm6
2100
+ vpmuldq %ymm2, %ymm12, %ymm12
2101
+ vpmuldq %ymm0, %ymm13, %ymm13
2102
+ vpmuldq %ymm0, %ymm14, %ymm14
2103
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
2104
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
2105
+ vpsubd %ymm6, %ymm5, %ymm12
2106
+ vpaddd %ymm6, %ymm5, %ymm5
2107
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2108
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2109
+ vpaddd %ymm13, %ymm12, %ymm6
2110
+ vpsubd %ymm13, %ymm5, %ymm5
2111
+ vpmuldq %ymm1, %ymm4, %ymm13
2112
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
2113
+ vpmuldq %ymm1, %ymm12, %ymm14
2114
+ vpmuldq %ymm2, %ymm4, %ymm4
2115
+ vpmuldq %ymm2, %ymm12, %ymm12
2116
+ vpmuldq %ymm0, %ymm13, %ymm13
2117
+ vpmuldq %ymm0, %ymm14, %ymm14
2118
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
2119
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
2120
+ vpsubd %ymm4, %ymm3, %ymm12
2121
+ vpaddd %ymm4, %ymm3, %ymm3
2122
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2123
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2124
+ vpaddd %ymm13, %ymm12, %ymm4
2125
+ vpsubd %ymm13, %ymm3, %ymm3
2126
+ vpmuldq %ymm1, %ymm11, %ymm13
2127
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
2128
+ vpmuldq %ymm1, %ymm12, %ymm14
2129
+ vpmuldq %ymm2, %ymm11, %ymm11
2130
+ vpmuldq %ymm2, %ymm12, %ymm12
2131
+ vpmuldq %ymm0, %ymm13, %ymm13
2132
+ vpmuldq %ymm0, %ymm14, %ymm14
2133
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
2134
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
2135
+ vpsubd %ymm11, %ymm10, %ymm12
2136
+ vpaddd %ymm11, %ymm10, %ymm10
2137
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2138
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2139
+ vpaddd %ymm13, %ymm12, %ymm11
2140
+ vpsubd %ymm13, %ymm10, %ymm10
2141
+ vmovsldup %ymm8, %ymm9 # ymm9 = ymm8[0,0,2,2,4,4,6,6]
2142
+ vpblendd $0xaa, %ymm9, %ymm7, %ymm9 # ymm9 = ymm7[0],ymm9[1],ymm7[2],ymm9[3],ymm7[4],ymm9[5],ymm7[6],ymm9[7]
2143
+ vpsrlq $0x20, %ymm7, %ymm7
2144
+ vpblendd $0xaa, %ymm8, %ymm7, %ymm8 # ymm8 = ymm7[0],ymm8[1],ymm7[2],ymm8[3],ymm7[4],ymm8[5],ymm7[6],ymm8[7]
2145
+ vmovsldup %ymm6, %ymm7 # ymm7 = ymm6[0,0,2,2,4,4,6,6]
2146
+ vpblendd $0xaa, %ymm7, %ymm5, %ymm7 # ymm7 = ymm5[0],ymm7[1],ymm5[2],ymm7[3],ymm5[4],ymm7[5],ymm5[6],ymm7[7]
2147
+ vpsrlq $0x20, %ymm5, %ymm5
2148
+ vpblendd $0xaa, %ymm6, %ymm5, %ymm6 # ymm6 = ymm5[0],ymm6[1],ymm5[2],ymm6[3],ymm5[4],ymm6[5],ymm5[6],ymm6[7]
2149
+ vmovsldup %ymm4, %ymm5 # ymm5 = ymm4[0,0,2,2,4,4,6,6]
2150
+ vpblendd $0xaa, %ymm5, %ymm3, %ymm5 # ymm5 = ymm3[0],ymm5[1],ymm3[2],ymm5[3],ymm3[4],ymm5[5],ymm3[6],ymm5[7]
2151
+ vpsrlq $0x20, %ymm3, %ymm3
2152
+ vpblendd $0xaa, %ymm4, %ymm3, %ymm4 # ymm4 = ymm3[0],ymm4[1],ymm3[2],ymm4[3],ymm3[4],ymm4[5],ymm3[6],ymm4[7]
2153
+ vmovsldup %ymm11, %ymm3 # ymm3 = ymm11[0,0,2,2,4,4,6,6]
2154
+ vpblendd $0xaa, %ymm3, %ymm10, %ymm3 # ymm3 = ymm10[0],ymm3[1],ymm10[2],ymm3[3],ymm10[4],ymm3[5],ymm10[6],ymm3[7]
2155
+ vpsrlq $0x20, %ymm10, %ymm10
2156
+ vpblendd $0xaa, %ymm11, %ymm10, %ymm11 # ymm11 = ymm10[0],ymm11[1],ymm10[2],ymm11[3],ymm10[4],ymm11[5],ymm10[6],ymm11[7]
2157
+ vmovdqa 0x200(%rsi), %ymm1
2158
+ vmovdqa 0x6a0(%rsi), %ymm2
2159
+ vpsrlq $0x20, %ymm1, %ymm10
2160
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
2161
+ vpmuldq %ymm1, %ymm5, %ymm13
2162
+ vmovshdup %ymm5, %ymm12 # ymm12 = ymm5[1,1,3,3,5,5,7,7]
2163
+ vpmuldq %ymm10, %ymm12, %ymm14
2164
+ vpmuldq %ymm2, %ymm5, %ymm5
2165
+ vpmuldq %ymm15, %ymm12, %ymm12
2166
+ vpmuldq %ymm0, %ymm13, %ymm13
2167
+ vpmuldq %ymm0, %ymm14, %ymm14
2168
+ vmovshdup %ymm5, %ymm5 # ymm5 = ymm5[1,1,3,3,5,5,7,7]
2169
+ vpblendd $0xaa, %ymm12, %ymm5, %ymm5 # ymm5 = ymm5[0],ymm12[1],ymm5[2],ymm12[3],ymm5[4],ymm12[5],ymm5[6],ymm12[7]
2170
+ vpsubd %ymm5, %ymm9, %ymm12
2171
+ vpaddd %ymm5, %ymm9, %ymm9
2172
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2173
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2174
+ vpaddd %ymm13, %ymm12, %ymm5
2175
+ vpsubd %ymm13, %ymm9, %ymm9
2176
+ vpmuldq %ymm1, %ymm4, %ymm13
2177
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
2178
+ vpmuldq %ymm10, %ymm12, %ymm14
2179
+ vpmuldq %ymm2, %ymm4, %ymm4
2180
+ vpmuldq %ymm15, %ymm12, %ymm12
2181
+ vpmuldq %ymm0, %ymm13, %ymm13
2182
+ vpmuldq %ymm0, %ymm14, %ymm14
2183
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
2184
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
2185
+ vpsubd %ymm4, %ymm8, %ymm12
2186
+ vpaddd %ymm4, %ymm8, %ymm8
2187
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2188
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2189
+ vpaddd %ymm13, %ymm12, %ymm4
2190
+ vpsubd %ymm13, %ymm8, %ymm8
2191
+ vpmuldq %ymm1, %ymm3, %ymm13
2192
+ vmovshdup %ymm3, %ymm12 # ymm12 = ymm3[1,1,3,3,5,5,7,7]
2193
+ vpmuldq %ymm10, %ymm12, %ymm14
2194
+ vpmuldq %ymm2, %ymm3, %ymm3
2195
+ vpmuldq %ymm15, %ymm12, %ymm12
2196
+ vpmuldq %ymm0, %ymm13, %ymm13
2197
+ vpmuldq %ymm0, %ymm14, %ymm14
2198
+ vmovshdup %ymm3, %ymm3 # ymm3 = ymm3[1,1,3,3,5,5,7,7]
2199
+ vpblendd $0xaa, %ymm12, %ymm3, %ymm3 # ymm3 = ymm3[0],ymm12[1],ymm3[2],ymm12[3],ymm3[4],ymm12[5],ymm3[6],ymm12[7]
2200
+ vpsubd %ymm3, %ymm7, %ymm12
2201
+ vpaddd %ymm3, %ymm7, %ymm7
2202
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2203
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2204
+ vpaddd %ymm13, %ymm12, %ymm3
2205
+ vpsubd %ymm13, %ymm7, %ymm7
2206
+ vpmuldq %ymm1, %ymm11, %ymm13
2207
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
2208
+ vpmuldq %ymm10, %ymm12, %ymm14
2209
+ vpmuldq %ymm2, %ymm11, %ymm11
2210
+ vpmuldq %ymm15, %ymm12, %ymm12
2211
+ vpmuldq %ymm0, %ymm13, %ymm13
2212
+ vpmuldq %ymm0, %ymm14, %ymm14
2213
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
2214
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
2215
+ vpsubd %ymm11, %ymm6, %ymm12
2216
+ vpaddd %ymm6, %ymm11, %ymm6
2217
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2218
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2219
+ vpaddd %ymm13, %ymm12, %ymm11
2220
+ vpsubd %ymm13, %ymm6, %ymm6
2221
+ vmovdqa 0x280(%rsi), %ymm1
2222
+ vmovdqa 0x720(%rsi), %ymm2
2223
+ vpsrlq $0x20, %ymm1, %ymm10
2224
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
2225
+ vpmuldq %ymm1, %ymm7, %ymm13
2226
+ vmovshdup %ymm7, %ymm12 # ymm12 = ymm7[1,1,3,3,5,5,7,7]
2227
+ vpmuldq %ymm10, %ymm12, %ymm14
2228
+ vpmuldq %ymm2, %ymm7, %ymm7
2229
+ vpmuldq %ymm15, %ymm12, %ymm12
2230
+ vpmuldq %ymm0, %ymm13, %ymm13
2231
+ vpmuldq %ymm0, %ymm14, %ymm14
2232
+ vmovshdup %ymm7, %ymm7 # ymm7 = ymm7[1,1,3,3,5,5,7,7]
2233
+ vpblendd $0xaa, %ymm12, %ymm7, %ymm7 # ymm7 = ymm7[0],ymm12[1],ymm7[2],ymm12[3],ymm7[4],ymm12[5],ymm7[6],ymm12[7]
2234
+ vpsubd %ymm7, %ymm9, %ymm12
2235
+ vpaddd %ymm7, %ymm9, %ymm9
2236
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2237
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2238
+ vpaddd %ymm13, %ymm12, %ymm7
2239
+ vpsubd %ymm13, %ymm9, %ymm9
2240
+ vpmuldq %ymm1, %ymm6, %ymm13
2241
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
2242
+ vpmuldq %ymm10, %ymm12, %ymm14
2243
+ vpmuldq %ymm2, %ymm6, %ymm6
2244
+ vpmuldq %ymm15, %ymm12, %ymm12
2245
+ vpmuldq %ymm0, %ymm13, %ymm13
2246
+ vpmuldq %ymm0, %ymm14, %ymm14
2247
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
2248
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
2249
+ vpsubd %ymm6, %ymm8, %ymm12
2250
+ vpaddd %ymm6, %ymm8, %ymm8
2251
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2252
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2253
+ vpaddd %ymm13, %ymm12, %ymm6
2254
+ vpsubd %ymm13, %ymm8, %ymm8
2255
+ vmovdqa 0x300(%rsi), %ymm1
2256
+ vmovdqa 0x7a0(%rsi), %ymm2
2257
+ vpsrlq $0x20, %ymm1, %ymm10
2258
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
2259
+ vpmuldq %ymm1, %ymm3, %ymm13
2260
+ vmovshdup %ymm3, %ymm12 # ymm12 = ymm3[1,1,3,3,5,5,7,7]
2261
+ vpmuldq %ymm10, %ymm12, %ymm14
2262
+ vpmuldq %ymm2, %ymm3, %ymm3
2263
+ vpmuldq %ymm15, %ymm12, %ymm12
2264
+ vpmuldq %ymm0, %ymm13, %ymm13
2265
+ vpmuldq %ymm0, %ymm14, %ymm14
2266
+ vmovshdup %ymm3, %ymm3 # ymm3 = ymm3[1,1,3,3,5,5,7,7]
2267
+ vpblendd $0xaa, %ymm12, %ymm3, %ymm3 # ymm3 = ymm3[0],ymm12[1],ymm3[2],ymm12[3],ymm3[4],ymm12[5],ymm3[6],ymm12[7]
2268
+ vpsubd %ymm3, %ymm5, %ymm12
2269
+ vpaddd %ymm3, %ymm5, %ymm5
2270
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2271
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2272
+ vpaddd %ymm13, %ymm12, %ymm3
2273
+ vpsubd %ymm13, %ymm5, %ymm5
2274
+ vpmuldq %ymm1, %ymm11, %ymm13
2275
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
2276
+ vpmuldq %ymm10, %ymm12, %ymm14
2277
+ vpmuldq %ymm2, %ymm11, %ymm11
2278
+ vpmuldq %ymm15, %ymm12, %ymm12
2279
+ vpmuldq %ymm0, %ymm13, %ymm13
2280
+ vpmuldq %ymm0, %ymm14, %ymm14
2281
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
2282
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
2283
+ vpsubd %ymm11, %ymm4, %ymm12
2284
+ vpaddd %ymm4, %ymm11, %ymm4
2285
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2286
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2287
+ vpaddd %ymm13, %ymm12, %ymm11
2288
+ vpsubd %ymm13, %ymm4, %ymm4
2289
+ vmovdqa 0x380(%rsi), %ymm1
2290
+ vmovdqa 0x820(%rsi), %ymm2
2291
+ vpsrlq $0x20, %ymm1, %ymm10
2292
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
2293
+ vpmuldq %ymm1, %ymm8, %ymm13
2294
+ vmovshdup %ymm8, %ymm12 # ymm12 = ymm8[1,1,3,3,5,5,7,7]
2295
+ vpmuldq %ymm10, %ymm12, %ymm14
2296
+ vpmuldq %ymm2, %ymm8, %ymm8
2297
+ vpmuldq %ymm15, %ymm12, %ymm12
2298
+ vpmuldq %ymm0, %ymm13, %ymm13
2299
+ vpmuldq %ymm0, %ymm14, %ymm14
2300
+ vmovshdup %ymm8, %ymm8 # ymm8 = ymm8[1,1,3,3,5,5,7,7]
2301
+ vpblendd $0xaa, %ymm12, %ymm8, %ymm8 # ymm8 = ymm8[0],ymm12[1],ymm8[2],ymm12[3],ymm8[4],ymm12[5],ymm8[6],ymm12[7]
2302
+ vpsubd %ymm8, %ymm9, %ymm12
2303
+ vpaddd %ymm8, %ymm9, %ymm9
2304
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2305
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2306
+ vpaddd %ymm13, %ymm12, %ymm8
2307
+ vpsubd %ymm13, %ymm9, %ymm9
2308
+ vmovdqa 0x400(%rsi), %ymm1
2309
+ vmovdqa 0x8a0(%rsi), %ymm2
2310
+ vpsrlq $0x20, %ymm1, %ymm10
2311
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
2312
+ vpmuldq %ymm1, %ymm6, %ymm13
2313
+ vmovshdup %ymm6, %ymm12 # ymm12 = ymm6[1,1,3,3,5,5,7,7]
2314
+ vpmuldq %ymm10, %ymm12, %ymm14
2315
+ vpmuldq %ymm2, %ymm6, %ymm6
2316
+ vpmuldq %ymm15, %ymm12, %ymm12
2317
+ vpmuldq %ymm0, %ymm13, %ymm13
2318
+ vpmuldq %ymm0, %ymm14, %ymm14
2319
+ vmovshdup %ymm6, %ymm6 # ymm6 = ymm6[1,1,3,3,5,5,7,7]
2320
+ vpblendd $0xaa, %ymm12, %ymm6, %ymm6 # ymm6 = ymm6[0],ymm12[1],ymm6[2],ymm12[3],ymm6[4],ymm12[5],ymm6[6],ymm12[7]
2321
+ vpsubd %ymm6, %ymm7, %ymm12
2322
+ vpaddd %ymm6, %ymm7, %ymm7
2323
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2324
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2325
+ vpaddd %ymm13, %ymm12, %ymm6
2326
+ vpsubd %ymm13, %ymm7, %ymm7
2327
+ vmovdqa 0x480(%rsi), %ymm1
2328
+ vmovdqa 0x920(%rsi), %ymm2
2329
+ vpsrlq $0x20, %ymm1, %ymm10
2330
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
2331
+ vpmuldq %ymm1, %ymm4, %ymm13
2332
+ vmovshdup %ymm4, %ymm12 # ymm12 = ymm4[1,1,3,3,5,5,7,7]
2333
+ vpmuldq %ymm10, %ymm12, %ymm14
2334
+ vpmuldq %ymm2, %ymm4, %ymm4
2335
+ vpmuldq %ymm15, %ymm12, %ymm12
2336
+ vpmuldq %ymm0, %ymm13, %ymm13
2337
+ vpmuldq %ymm0, %ymm14, %ymm14
2338
+ vmovshdup %ymm4, %ymm4 # ymm4 = ymm4[1,1,3,3,5,5,7,7]
2339
+ vpblendd $0xaa, %ymm12, %ymm4, %ymm4 # ymm4 = ymm4[0],ymm12[1],ymm4[2],ymm12[3],ymm4[4],ymm12[5],ymm4[6],ymm12[7]
2340
+ vpsubd %ymm4, %ymm5, %ymm12
2341
+ vpaddd %ymm4, %ymm5, %ymm5
2342
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2343
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2344
+ vpaddd %ymm13, %ymm12, %ymm4
2345
+ vpsubd %ymm13, %ymm5, %ymm5
2346
+ vmovdqa 0x500(%rsi), %ymm1
2347
+ vmovdqa 0x9a0(%rsi), %ymm2
2348
+ vpsrlq $0x20, %ymm1, %ymm10
2349
+ vmovshdup %ymm2, %ymm15 # ymm15 = ymm2[1,1,3,3,5,5,7,7]
2350
+ vpmuldq %ymm1, %ymm11, %ymm13
2351
+ vmovshdup %ymm11, %ymm12 # ymm12 = ymm11[1,1,3,3,5,5,7,7]
2352
+ vpmuldq %ymm10, %ymm12, %ymm14
2353
+ vpmuldq %ymm2, %ymm11, %ymm11
2354
+ vpmuldq %ymm15, %ymm12, %ymm12
2355
+ vpmuldq %ymm0, %ymm13, %ymm13
2356
+ vpmuldq %ymm0, %ymm14, %ymm14
2357
+ vmovshdup %ymm11, %ymm11 # ymm11 = ymm11[1,1,3,3,5,5,7,7]
2358
+ vpblendd $0xaa, %ymm12, %ymm11, %ymm11 # ymm11 = ymm11[0],ymm12[1],ymm11[2],ymm12[3],ymm11[4],ymm12[5],ymm11[6],ymm12[7]
2359
+ vpsubd %ymm11, %ymm3, %ymm12
2360
+ vpaddd %ymm3, %ymm11, %ymm3
2361
+ vmovshdup %ymm13, %ymm13 # ymm13 = ymm13[1,1,3,3,5,5,7,7]
2362
+ vpblendd $0xaa, %ymm14, %ymm13, %ymm13 # ymm13 = ymm13[0],ymm14[1],ymm13[2],ymm14[3],ymm13[4],ymm14[5],ymm13[6],ymm14[7]
2363
+ vpaddd %ymm13, %ymm12, %ymm11
2364
+ vpsubd %ymm13, %ymm3, %ymm3
2365
+ vmovdqa %ymm9, 0x300(%rdi)
2366
+ vmovdqa %ymm8, 0x320(%rdi)
2367
+ vmovdqa %ymm7, 0x340(%rdi)
2368
+ vmovdqa %ymm6, 0x360(%rdi)
2369
+ vmovdqa %ymm5, 0x380(%rdi)
2370
+ vmovdqa %ymm4, 0x3a0(%rdi)
2371
+ vmovdqa %ymm3, 0x3c0(%rdi)
2372
+ vmovdqa %ymm11, 0x3e0(%rdi)
2373
+ retq
2374
+ .cfi_endproc
2375
+
2376
+ MLD_ASM_FN_SIZE(ntt_avx2_asm)
2377
+
2378
+ #endif /* MLD_ARITH_BACKEND_X86_64_DEFAULT && !MLD_CONFIG_MULTILEVEL_NO_SHARED \
2379
+ */
2380
+
2381
+ #if defined(__ELF__)
2382
+ .section .note.GNU-stack,"",%progbits
2383
+ #endif