rbnacl-libsodium 1.0.10 → 1.0.11

Sign up to get free protection for your applications and to get access to all the features.
Files changed (124) hide show
  1. checksums.yaml +4 -4
  2. data/CHANGES.md +6 -2
  3. data/lib/rbnacl/libsodium/version.rb +1 -1
  4. data/vendor/libsodium/ChangeLog +24 -0
  5. data/vendor/libsodium/LICENSE +2 -0
  6. data/vendor/libsodium/Makefile.in +6 -1
  7. data/vendor/libsodium/aclocal.m4 +1 -0
  8. data/vendor/libsodium/autom4te.cache/output.1 +1896 -1136
  9. data/vendor/libsodium/autom4te.cache/output.7 +19837 -0
  10. data/vendor/libsodium/autom4te.cache/requests +1271 -1031
  11. data/vendor/libsodium/autom4te.cache/traces.1 +532 -491
  12. data/vendor/libsodium/autom4te.cache/traces.7 +3614 -0
  13. data/vendor/libsodium/builds/msvc/version.h +2 -2
  14. data/vendor/libsodium/builds/msvc/vs2010/libsodium/libsodium.vcxproj +22 -1
  15. data/vendor/libsodium/builds/msvc/vs2010/libsodium/libsodium.vcxproj.filters +23 -20
  16. data/vendor/libsodium/builds/msvc/vs2012/libsodium/libsodium.vcxproj +13 -2
  17. data/vendor/libsodium/builds/msvc/vs2012/libsodium/libsodium.vcxproj.filters +12 -9
  18. data/vendor/libsodium/builds/msvc/vs2013/libsodium/libsodium.vcxproj +12 -1
  19. data/vendor/libsodium/builds/msvc/vs2013/libsodium/libsodium.vcxproj.filters +3 -0
  20. data/vendor/libsodium/builds/msvc/vs2015/libsodium/libsodium.vcxproj +2 -1
  21. data/vendor/libsodium/builds/msvc/vs2015/libsodium/libsodium.vcxproj.filters +14 -11
  22. data/vendor/libsodium/configure +1887 -1127
  23. data/vendor/libsodium/configure.ac +44 -11
  24. data/vendor/libsodium/dist-build/Makefile.am +4 -2
  25. data/vendor/libsodium/dist-build/Makefile.in +9 -2
  26. data/vendor/libsodium/dist-build/android-armv8-a.sh +1 -1
  27. data/vendor/libsodium/dist-build/android-build.sh +40 -3
  28. data/vendor/libsodium/dist-build/android-mips64.sh +1 -1
  29. data/vendor/libsodium/dist-build/android-x86_64.sh +4 -0
  30. data/vendor/libsodium/dist-build/emscripten-symbols.def +25 -25
  31. data/vendor/libsodium/dist-build/emscripten.sh +69 -35
  32. data/vendor/libsodium/dist-build/msys2-win32.sh +8 -2
  33. data/vendor/libsodium/dist-build/msys2-win64.sh +8 -2
  34. data/vendor/libsodium/dist-build/{nativeclient.sh → nativeclient-pnacl.sh} +3 -4
  35. data/vendor/libsodium/dist-build/nativeclient-x86.sh +19 -0
  36. data/vendor/libsodium/dist-build/nativeclient-x86_64.sh +19 -0
  37. data/vendor/libsodium/logo.png +0 -0
  38. data/vendor/libsodium/m4/ax_pthread.m4 +485 -0
  39. data/vendor/libsodium/msvc-scripts/Makefile.in +5 -0
  40. data/vendor/libsodium/msvc-scripts/process.bat +2 -2
  41. data/vendor/libsodium/packaging/nuget/package.bat +3 -3
  42. data/vendor/libsodium/src/Makefile.in +5 -0
  43. data/vendor/libsodium/src/libsodium/Makefile.am +2 -1
  44. data/vendor/libsodium/src/libsodium/Makefile.in +13 -8
  45. data/vendor/libsodium/src/libsodium/crypto_aead/aes256gcm/aesni/aead_aes256gcm_aesni.c +70 -87
  46. data/vendor/libsodium/src/libsodium/crypto_aead/chacha20poly1305/sodium/aead_chacha20poly1305.c +6 -0
  47. data/vendor/libsodium/src/libsodium/crypto_generichash/blake2/ref/blake2b-compress-avx2.c +1 -1
  48. data/vendor/libsodium/src/libsodium/crypto_generichash/blake2/ref/blake2b-ref.c +9 -1
  49. data/vendor/libsodium/src/libsodium/crypto_hash/sha256/cp/hash_sha256.c +11 -4
  50. data/vendor/libsodium/src/libsodium/crypto_hash/sha512/cp/hash_sha512.c +14 -8
  51. data/vendor/libsodium/src/libsodium/crypto_pwhash/argon2/argon2-encoding.c +0 -1
  52. data/vendor/libsodium/src/libsodium/crypto_pwhash/argon2/argon2.c +10 -6
  53. data/vendor/libsodium/src/libsodium/crypto_pwhash/scryptsalsa208sha256/sse/pwhash_scryptsalsa208sha256_sse.c +2 -1
  54. data/vendor/libsodium/src/libsodium/crypto_scalarmult/curve25519/donna_c64/curve25519_donna_c64.c +1 -1
  55. data/vendor/libsodium/src/libsodium/crypto_scalarmult/curve25519/ref10/x25519_ref10.c +11 -11
  56. data/vendor/libsodium/src/libsodium/crypto_scalarmult/curve25519/ref10/x25519_ref10.h +2 -2
  57. data/vendor/libsodium/src/libsodium/crypto_scalarmult/curve25519/sandy2x/fe51_nsquare.S +3 -0
  58. data/vendor/libsodium/src/libsodium/crypto_scalarmult/curve25519/sandy2x/fe51_pack.S +3 -0
  59. data/vendor/libsodium/src/libsodium/crypto_scalarmult/curve25519/sandy2x/ladder.S +830 -826
  60. data/vendor/libsodium/src/libsodium/crypto_scalarmult/curve25519/sandy2x/ladder_base.S +732 -728
  61. data/vendor/libsodium/src/libsodium/crypto_secretbox/crypto_secretbox_easy.c +3 -0
  62. data/vendor/libsodium/src/libsodium/crypto_stream/aes128ctr/portable/int128.h +1 -1
  63. data/vendor/libsodium/src/libsodium/crypto_stream/salsa20/amd64_xmm6/stream_salsa20_amd64_xmm6.S +8 -0
  64. data/vendor/libsodium/src/libsodium/include/Makefile.in +5 -0
  65. data/vendor/libsodium/src/libsodium/include/sodium/crypto_aead_aes256gcm.h +1 -1
  66. data/vendor/libsodium/src/libsodium/include/sodium/crypto_aead_chacha20poly1305.h +1 -1
  67. data/vendor/libsodium/src/libsodium/include/sodium/crypto_auth.h +1 -1
  68. data/vendor/libsodium/src/libsodium/include/sodium/crypto_auth_hmacsha256.h +1 -1
  69. data/vendor/libsodium/src/libsodium/include/sodium/crypto_auth_hmacsha512.h +1 -1
  70. data/vendor/libsodium/src/libsodium/include/sodium/crypto_auth_hmacsha512256.h +1 -1
  71. data/vendor/libsodium/src/libsodium/include/sodium/crypto_box.h +3 -3
  72. data/vendor/libsodium/src/libsodium/include/sodium/crypto_box_curve25519xsalsa20poly1305.h +1 -1
  73. data/vendor/libsodium/src/libsodium/include/sodium/crypto_generichash.h +1 -1
  74. data/vendor/libsodium/src/libsodium/include/sodium/crypto_generichash_blake2b.h +1 -1
  75. data/vendor/libsodium/src/libsodium/include/sodium/crypto_hash.h +1 -1
  76. data/vendor/libsodium/src/libsodium/include/sodium/crypto_hash_sha256.h +1 -1
  77. data/vendor/libsodium/src/libsodium/include/sodium/crypto_hash_sha512.h +1 -1
  78. data/vendor/libsodium/src/libsodium/include/sodium/crypto_onetimeauth.h +1 -1
  79. data/vendor/libsodium/src/libsodium/include/sodium/crypto_onetimeauth_poly1305.h +1 -1
  80. data/vendor/libsodium/src/libsodium/include/sodium/crypto_pwhash.h +1 -1
  81. data/vendor/libsodium/src/libsodium/include/sodium/crypto_pwhash_argon2i.h +1 -1
  82. data/vendor/libsodium/src/libsodium/include/sodium/crypto_pwhash_scryptsalsa208sha256.h +1 -1
  83. data/vendor/libsodium/src/libsodium/include/sodium/crypto_secretbox.h +1 -1
  84. data/vendor/libsodium/src/libsodium/include/sodium/crypto_secretbox_xsalsa20poly1305.h +1 -1
  85. data/vendor/libsodium/src/libsodium/include/sodium/crypto_shorthash.h +1 -1
  86. data/vendor/libsodium/src/libsodium/include/sodium/crypto_shorthash_siphash24.h +1 -1
  87. data/vendor/libsodium/src/libsodium/include/sodium/crypto_sign.h +3 -3
  88. data/vendor/libsodium/src/libsodium/include/sodium/crypto_sign_ed25519.h +1 -1
  89. data/vendor/libsodium/src/libsodium/include/sodium/crypto_sign_edwards25519sha512batch.h +1 -1
  90. data/vendor/libsodium/src/libsodium/include/sodium/crypto_stream.h +1 -1
  91. data/vendor/libsodium/src/libsodium/include/sodium/crypto_stream_aes128ctr.h +1 -1
  92. data/vendor/libsodium/src/libsodium/include/sodium/crypto_stream_chacha20.h +1 -1
  93. data/vendor/libsodium/src/libsodium/include/sodium/crypto_stream_salsa20.h +1 -1
  94. data/vendor/libsodium/src/libsodium/include/sodium/crypto_stream_salsa2012.h +1 -1
  95. data/vendor/libsodium/src/libsodium/include/sodium/crypto_stream_salsa208.h +1 -1
  96. data/vendor/libsodium/src/libsodium/include/sodium/crypto_stream_xsalsa20.h +1 -1
  97. data/vendor/libsodium/src/libsodium/include/sodium/private/curve25519_ref10.h +2 -2
  98. data/vendor/libsodium/src/libsodium/include/sodium/private/mutex.h +7 -0
  99. data/vendor/libsodium/src/libsodium/include/sodium/randombytes.h +1 -1
  100. data/vendor/libsodium/src/libsodium/randombytes/nativeclient/randombytes_nativeclient.c +15 -4
  101. data/vendor/libsodium/src/libsodium/randombytes/randombytes.c +25 -15
  102. data/vendor/libsodium/src/libsodium/randombytes/salsa20/randombytes_salsa20_random.c +72 -15
  103. data/vendor/libsodium/src/libsodium/randombytes/sysrandom/randombytes_sysrandom.c +43 -4
  104. data/vendor/libsodium/src/libsodium/sodium/core.c +131 -2
  105. data/vendor/libsodium/src/libsodium/sodium/runtime.c +5 -2
  106. data/vendor/libsodium/src/libsodium/sodium/utils.c +16 -8
  107. data/vendor/libsodium/test/Makefile.in +5 -0
  108. data/vendor/libsodium/test/default/Makefile.in +5 -0
  109. data/vendor/libsodium/test/default/generichash2.c +8 -2
  110. data/vendor/libsodium/test/default/nacl-test-wrapper.sh +19 -17
  111. data/vendor/libsodium/test/default/randombytes.c +4 -2
  112. data/vendor/libsodium/test/quirks/quirks.h +23 -2
  113. metadata +11 -15
  114. data/vendor/libsodium/README +0 -1
  115. data/vendor/libsodium/dist-build/android-x86-64.sh +0 -4
  116. data/vendor/libsodium/examples/Makefile +0 -21
  117. data/vendor/libsodium/examples/auth.c +0 -68
  118. data/vendor/libsodium/examples/box.c +0 -135
  119. data/vendor/libsodium/examples/box_detached.c +0 -134
  120. data/vendor/libsodium/examples/generichash.c +0 -80
  121. data/vendor/libsodium/examples/generichash_stream.c +0 -58
  122. data/vendor/libsodium/examples/shorthash.c +0 -58
  123. data/vendor/libsodium/examples/sign.c +0 -78
  124. data/vendor/libsodium/examples/utils.h +0 -110
@@ -210,6 +210,7 @@ crypto_hash_sha256_update(crypto_hash_sha256_state *state,
210
210
  const unsigned char *in,
211
211
  unsigned long long inlen)
212
212
  {
213
+ unsigned long long i;
213
214
  uint32_t r;
214
215
 
215
216
  if (inlen <= 0U) {
@@ -219,10 +220,14 @@ crypto_hash_sha256_update(crypto_hash_sha256_state *state,
219
220
  state->count += (uint64_t)(inlen) << 3;
220
221
 
221
222
  if (inlen < 64 - r) {
222
- memcpy(&state->buf[r], in, inlen);
223
+ for (i = 0; i < inlen; i++) {
224
+ state->buf[r + i] = in[i];
225
+ }
223
226
  return 0;
224
227
  }
225
- memcpy(&state->buf[r], in, 64 - r);
228
+ for (i = 0; i < 64 - r; i++) {
229
+ state->buf[r + i] = in[i];
230
+ }
226
231
  SHA256_Transform(state->state, state->buf);
227
232
  in += 64 - r;
228
233
  inlen -= 64 - r;
@@ -232,8 +237,10 @@ crypto_hash_sha256_update(crypto_hash_sha256_state *state,
232
237
  in += 64;
233
238
  inlen -= 64;
234
239
  }
235
- memcpy(state->buf, in, inlen); /* inlen < 64 */
236
-
240
+ inlen &= 63;
241
+ for (i = 0; i < inlen; i++) {
242
+ state->buf[i] = in[i];
243
+ }
237
244
  return 0;
238
245
  }
239
246
 
@@ -232,9 +232,9 @@ crypto_hash_sha512_update(crypto_hash_sha512_state *state,
232
232
  const unsigned char *in,
233
233
  unsigned long long inlen)
234
234
  {
235
+ unsigned long long i;
235
236
  uint64_t bitlen[2];
236
237
  uint64_t r;
237
- const unsigned char *src = in;
238
238
 
239
239
  r = (state->count[1] >> 3) & 0x7f;
240
240
 
@@ -249,21 +249,27 @@ crypto_hash_sha512_update(crypto_hash_sha512_state *state,
249
249
  state->count[0] += bitlen[0];
250
250
 
251
251
  if (inlen < 128 - r) {
252
- memcpy(&state->buf[r], src, inlen);
252
+ for (i = 0; i < inlen; i++) {
253
+ state->buf[r + i] = in[i];
254
+ }
253
255
  return 0;
254
256
  }
255
- memcpy(&state->buf[r], src, 128 - r);
257
+ for (i = 0; i < 128 - r; i++) {
258
+ state->buf[r + i] = in[i];
259
+ }
256
260
  SHA512_Transform(state->state, state->buf);
257
- src += 128 - r;
261
+ in += 128 - r;
258
262
  inlen -= 128 - r;
259
263
 
260
264
  while (inlen >= 128) {
261
- SHA512_Transform(state->state, src);
262
- src += 128;
265
+ SHA512_Transform(state->state, in);
266
+ in += 128;
263
267
  inlen -= 128;
264
268
  }
265
- memcpy(state->buf, src, inlen); /* inlen < 128 */
266
-
269
+ inlen &= 127;
270
+ for (i = 0; i < inlen; i++) {
271
+ state->buf[i] = in[i];
272
+ }
267
273
  return 0;
268
274
  }
269
275
 
@@ -299,7 +299,6 @@ int decode_string(argon2_context *ctx, const char *str, argon2_type type) {
299
299
  ctx->adlen = 0;
300
300
  ctx->saltlen = 0;
301
301
  ctx->outlen = 0;
302
- ctx->pwdlen = 0;
303
302
  if (type == Argon2_i) {
304
303
  CC("$argon2i");
305
304
  } else {
@@ -17,7 +17,6 @@
17
17
  #include <stdio.h>
18
18
  #include <limits.h>
19
19
 
20
-
21
20
  #include "utils.h"
22
21
 
23
22
  #include "argon2.h"
@@ -179,18 +178,23 @@ int argon2_verify(const char *encoded, const void *pwd, const size_t pwdlen,
179
178
  uint8_t *out;
180
179
  int decode_result;
181
180
  int ret;
182
- uint32_t encoded_len;
181
+ size_t encoded_len;
183
182
 
184
183
  memset(&ctx, 0, sizeof ctx);
185
184
 
185
+ ctx.pwd = NULL;
186
+ ctx.pwdlen = 0;
186
187
  ctx.secret = NULL;
187
188
  ctx.secretlen = 0;
188
189
 
189
190
  /* max values, to be updated in decode_string */
190
- encoded_len = (uint32_t) strlen(encoded);
191
- ctx.adlen = encoded_len;
192
- ctx.saltlen = encoded_len;
193
- ctx.outlen = encoded_len;
191
+ encoded_len = strlen(encoded);
192
+ if (encoded_len > UINT32_MAX) {
193
+ return ARGON2_DECODING_LENGTH_FAIL;
194
+ }
195
+ ctx.adlen = (uint32_t) encoded_len;
196
+ ctx.saltlen = (uint32_t) encoded_len;
197
+ ctx.outlen = (uint32_t) encoded_len;
194
198
 
195
199
  ctx.ad = (uint8_t *) malloc(ctx.adlen);
196
200
  ctx.salt = (uint8_t *) malloc(ctx.saltlen);
@@ -30,7 +30,7 @@
30
30
 
31
31
  #if defined(HAVE_EMMINTRIN_H) || \
32
32
  (defined(_MSC_VER) && (defined(_M_X64) || defined(_M_AMD64) || defined(_M_IX86)))
33
- #if __GNUC__
33
+ #ifdef __GNUC__
34
34
  # pragma GCC target("sse2")
35
35
  #endif
36
36
  #include <emmintrin.h>
@@ -210,6 +210,7 @@ blockmix_salsa8_xor(const __m128i * Bin1, const __m128i * Bin2, __m128i * Bout,
210
210
  /**
211
211
  * integerify(B, r):
212
212
  * Return the result of parsing B_{2r-1} as a little-endian integer.
213
+ * Note that B's layout is permuted compared to the generic implementation.
213
214
  */
214
215
  static inline uint32_t
215
216
  integerify(const void * B, size_t r)
@@ -297,7 +297,7 @@ fcontract(u8 *output, const felem input) {
297
297
  /* Input: Q, Q', Q-Q'
298
298
  * Output: 2Q, Q+Q'
299
299
  *
300
- * x2 z3: long form
300
+ * x2 z2: long form
301
301
  * x3 z3: long form
302
302
  * x z: short form, destroyed
303
303
  * xprime zprime: short form, destroyed
@@ -127,17 +127,17 @@ fe_mul121666(fe h,const fe f)
127
127
  int64_t carry8;
128
128
  int64_t carry9;
129
129
 
130
- carry9 = (h9 + ((int64_t) 1 << 24)) >> 25; h0 += carry9 * 19; h9 -= carry9 << 25;
131
- carry1 = (h1 + ((int64_t) 1 << 24)) >> 25; h2 += carry1; h1 -= carry1 << 25;
132
- carry3 = (h3 + ((int64_t) 1 << 24)) >> 25; h4 += carry3; h3 -= carry3 << 25;
133
- carry5 = (h5 + ((int64_t) 1 << 24)) >> 25; h6 += carry5; h5 -= carry5 << 25;
134
- carry7 = (h7 + ((int64_t) 1 << 24)) >> 25; h8 += carry7; h7 -= carry7 << 25;
135
-
136
- carry0 = (h0 + ((int64_t) 1 << 25)) >> 26; h1 += carry0; h0 -= carry0 << 26;
137
- carry2 = (h2 + ((int64_t) 1 << 25)) >> 26; h3 += carry2; h2 -= carry2 << 26;
138
- carry4 = (h4 + ((int64_t) 1 << 25)) >> 26; h5 += carry4; h4 -= carry4 << 26;
139
- carry6 = (h6 + ((int64_t) 1 << 25)) >> 26; h7 += carry6; h6 -= carry6 << 26;
140
- carry8 = (h8 + ((int64_t) 1 << 25)) >> 26; h9 += carry8; h8 -= carry8 << 26;
130
+ carry9 = (h9 + ((int64_t) 1 << 24)) >> 25; h0 += carry9 * 19; h9 -= carry9 * ((int64_t) 1 << 25);
131
+ carry1 = (h1 + ((int64_t) 1 << 24)) >> 25; h2 += carry1; h1 -= carry1 * ((int64_t) 1 << 25);
132
+ carry3 = (h3 + ((int64_t) 1 << 24)) >> 25; h4 += carry3; h3 -= carry3 * ((int64_t) 1 << 25);
133
+ carry5 = (h5 + ((int64_t) 1 << 24)) >> 25; h6 += carry5; h5 -= carry5 * ((int64_t) 1 << 25);
134
+ carry7 = (h7 + ((int64_t) 1 << 24)) >> 25; h8 += carry7; h7 -= carry7 * ((int64_t) 1 << 25);
135
+
136
+ carry0 = (h0 + ((int64_t) 1 << 25)) >> 26; h1 += carry0; h0 -= carry0 * ((int64_t) 1 << 26);
137
+ carry2 = (h2 + ((int64_t) 1 << 25)) >> 26; h3 += carry2; h2 -= carry2 * ((int64_t) 1 << 26);
138
+ carry4 = (h4 + ((int64_t) 1 << 25)) >> 26; h5 += carry4; h4 -= carry4 * ((int64_t) 1 << 26);
139
+ carry6 = (h6 + ((int64_t) 1 << 25)) >> 26; h7 += carry6; h6 -= carry6 * ((int64_t) 1 << 26);
140
+ carry8 = (h8 + ((int64_t) 1 << 25)) >> 26; h9 += carry8; h8 -= carry8 * ((int64_t) 1 << 26);
141
141
 
142
142
  h[0] = h0;
143
143
  h[1] = h1;
@@ -1,5 +1,5 @@
1
- #ifndef curve25519_ref10_H
2
- #define curve25519_ref10_H
1
+ #ifndef x25519_ref10_H
2
+ #define x25519_ref10_H
3
3
 
4
4
  #include "crypto_scalarmult_curve25519.h"
5
5
  #include "../scalarmult_curve25519.h"
@@ -41,6 +41,8 @@ movq %r9,16(%rdi)
41
41
  movq %rax,24(%rdi)
42
42
  movq %rsi,32(%rdi)
43
43
  mov %rdx,%rsi
44
+
45
+ .p2align 4
44
46
  ._loop:
45
47
  sub $1,%rsi
46
48
  mov %rcx,%rax
@@ -154,6 +156,7 @@ and %rdx,%r10
154
156
  movq %r10,32(%rdi)
155
157
  cmp $0,%rsi
156
158
  jne ._loop
159
+
157
160
  movq %rcx,0(%rdi)
158
161
  movq %r8,8(%rdi)
159
162
  movq 0(%rsp),%r11
@@ -35,6 +35,8 @@ movq 32(%rsi),%rsi
35
35
  movq REDMASK51(%rip),%rax
36
36
  lea -18(%rax),%r10
37
37
  mov $3,%r11
38
+
39
+ .p2align 4
38
40
  ._reduceloop:
39
41
  mov %rdx,%r12
40
42
  shr $51,%r12
@@ -59,6 +61,7 @@ imulq $19, %r12,%r12
59
61
  add %r12,%rdx
60
62
  sub $1,%r11
61
63
  ja ._reduceloop
64
+
62
65
  mov $1,%r12
63
66
  cmp %r10,%rdx
64
67
  cmovl %r11,%r12
@@ -25,77 +25,77 @@ movq %r11,1824(%rsp)
25
25
  movq %r12,1832(%rsp)
26
26
  movq %r13,1840(%rsp)
27
27
  movq %r14,1848(%rsp)
28
- movdqa v0_0(%rip),%xmm0
29
- movdqa v1_0(%rip),%xmm1
30
- movdqu 0(%rdi),%xmm2
31
- movdqa %xmm2,0(%rsp)
32
- movdqu 16(%rdi),%xmm2
33
- movdqa %xmm2,16(%rsp)
34
- movdqu 32(%rdi),%xmm2
35
- movdqa %xmm2,32(%rsp)
36
- movdqu 48(%rdi),%xmm2
37
- movdqa %xmm2,48(%rsp)
38
- movdqu 64(%rdi),%xmm2
39
- movdqa %xmm2,64(%rsp)
40
- movdqa %xmm1,80(%rsp)
41
- movdqa %xmm0,96(%rsp)
42
- movdqa %xmm0,112(%rsp)
43
- movdqa %xmm0,128(%rsp)
44
- movdqa %xmm0,144(%rsp)
45
- movdqa %xmm1,%xmm0
46
- pxor %xmm1,%xmm1
47
- pxor %xmm2,%xmm2
48
- pxor %xmm3,%xmm3
49
- pxor %xmm4,%xmm4
50
- pxor %xmm5,%xmm5
51
- pxor %xmm6,%xmm6
52
- pxor %xmm7,%xmm7
53
- pxor %xmm8,%xmm8
54
- pxor %xmm9,%xmm9
55
- movdqu 0(%rdi),%xmm10
56
- movdqa %xmm10,160(%rsp)
57
- movdqu 16(%rdi),%xmm10
58
- movdqa %xmm10,176(%rsp)
59
- pmuludq v19_19(%rip),%xmm10
60
- movdqa %xmm10,192(%rsp)
61
- movdqu 32(%rdi),%xmm10
62
- movdqa %xmm10,208(%rsp)
63
- pmuludq v19_19(%rip),%xmm10
64
- movdqa %xmm10,224(%rsp)
65
- movdqu 48(%rdi),%xmm10
66
- movdqa %xmm10,240(%rsp)
67
- pmuludq v19_19(%rip),%xmm10
68
- movdqa %xmm10,256(%rsp)
69
- movdqu 64(%rdi),%xmm10
70
- movdqa %xmm10,272(%rsp)
71
- pmuludq v19_19(%rip),%xmm10
72
- movdqa %xmm10,288(%rsp)
73
- movdqu 8(%rdi),%xmm10
74
- pmuludq v2_1(%rip),%xmm10
75
- movdqa %xmm10,304(%rsp)
76
- pmuludq v19_19(%rip),%xmm10
77
- movdqa %xmm10,320(%rsp)
78
- movdqu 24(%rdi),%xmm10
79
- pmuludq v2_1(%rip),%xmm10
80
- movdqa %xmm10,336(%rsp)
81
- pmuludq v19_19(%rip),%xmm10
82
- movdqa %xmm10,352(%rsp)
83
- movdqu 40(%rdi),%xmm10
84
- pmuludq v2_1(%rip),%xmm10
85
- movdqa %xmm10,368(%rsp)
86
- pmuludq v19_19(%rip),%xmm10
87
- movdqa %xmm10,384(%rsp)
88
- movdqu 56(%rdi),%xmm10
89
- pmuludq v2_1(%rip),%xmm10
90
- movdqa %xmm10,400(%rsp)
91
- pmuludq v19_19(%rip),%xmm10
92
- movdqa %xmm10,416(%rsp)
93
- movdqu 0(%rdi),%xmm10
94
- movdqu 64(%rdi),%xmm11
95
- blendps $12, %xmm11, %xmm10
96
- pshufd $2,%xmm10,%xmm10
97
- pmuludq v38_1(%rip),%xmm10
98
- movdqa %xmm10,432(%rsp)
28
+ vmovdqa v0_0(%rip),%xmm0
29
+ vmovdqa v1_0(%rip),%xmm1
30
+ vmovdqu 0(%rdi),%xmm2
31
+ vmovdqa %xmm2,0(%rsp)
32
+ vmovdqu 16(%rdi),%xmm2
33
+ vmovdqa %xmm2,16(%rsp)
34
+ vmovdqu 32(%rdi),%xmm2
35
+ vmovdqa %xmm2,32(%rsp)
36
+ vmovdqu 48(%rdi),%xmm2
37
+ vmovdqa %xmm2,48(%rsp)
38
+ vmovdqu 64(%rdi),%xmm2
39
+ vmovdqa %xmm2,64(%rsp)
40
+ vmovdqa %xmm1,80(%rsp)
41
+ vmovdqa %xmm0,96(%rsp)
42
+ vmovdqa %xmm0,112(%rsp)
43
+ vmovdqa %xmm0,128(%rsp)
44
+ vmovdqa %xmm0,144(%rsp)
45
+ vmovdqa %xmm1,%xmm0
46
+ vpxor %xmm1,%xmm1,%xmm1
47
+ vpxor %xmm2,%xmm2,%xmm2
48
+ vpxor %xmm3,%xmm3,%xmm3
49
+ vpxor %xmm4,%xmm4,%xmm4
50
+ vpxor %xmm5,%xmm5,%xmm5
51
+ vpxor %xmm6,%xmm6,%xmm6
52
+ vpxor %xmm7,%xmm7,%xmm7
53
+ vpxor %xmm8,%xmm8,%xmm8
54
+ vpxor %xmm9,%xmm9,%xmm9
55
+ vmovdqu 0(%rdi),%xmm10
56
+ vmovdqa %xmm10,160(%rsp)
57
+ vmovdqu 16(%rdi),%xmm10
58
+ vmovdqa %xmm10,176(%rsp)
59
+ vpmuludq v19_19(%rip),%xmm10,%xmm10
60
+ vmovdqa %xmm10,192(%rsp)
61
+ vmovdqu 32(%rdi),%xmm10
62
+ vmovdqa %xmm10,208(%rsp)
63
+ vpmuludq v19_19(%rip),%xmm10,%xmm10
64
+ vmovdqa %xmm10,224(%rsp)
65
+ vmovdqu 48(%rdi),%xmm10
66
+ vmovdqa %xmm10,240(%rsp)
67
+ vpmuludq v19_19(%rip),%xmm10,%xmm10
68
+ vmovdqa %xmm10,256(%rsp)
69
+ vmovdqu 64(%rdi),%xmm10
70
+ vmovdqa %xmm10,272(%rsp)
71
+ vpmuludq v19_19(%rip),%xmm10,%xmm10
72
+ vmovdqa %xmm10,288(%rsp)
73
+ vmovdqu 8(%rdi),%xmm10
74
+ vpmuludq v2_1(%rip),%xmm10,%xmm10
75
+ vmovdqa %xmm10,304(%rsp)
76
+ vpmuludq v19_19(%rip),%xmm10,%xmm10
77
+ vmovdqa %xmm10,320(%rsp)
78
+ vmovdqu 24(%rdi),%xmm10
79
+ vpmuludq v2_1(%rip),%xmm10,%xmm10
80
+ vmovdqa %xmm10,336(%rsp)
81
+ vpmuludq v19_19(%rip),%xmm10,%xmm10
82
+ vmovdqa %xmm10,352(%rsp)
83
+ vmovdqu 40(%rdi),%xmm10
84
+ vpmuludq v2_1(%rip),%xmm10,%xmm10
85
+ vmovdqa %xmm10,368(%rsp)
86
+ vpmuludq v19_19(%rip),%xmm10,%xmm10
87
+ vmovdqa %xmm10,384(%rsp)
88
+ vmovdqu 56(%rdi),%xmm10
89
+ vpmuludq v2_1(%rip),%xmm10,%xmm10
90
+ vmovdqa %xmm10,400(%rsp)
91
+ vpmuludq v19_19(%rip),%xmm10,%xmm10
92
+ vmovdqa %xmm10,416(%rsp)
93
+ vmovdqu 0(%rdi),%xmm10
94
+ vmovdqu 64(%rdi),%xmm11
95
+ vblendps $12, %xmm11, %xmm10, %xmm10
96
+ vpshufd $2,%xmm10,%xmm10
97
+ vpmuludq v38_1(%rip),%xmm10,%xmm10
98
+ vmovdqa %xmm10,432(%rsp)
99
99
  movq 0(%rsi),%rdx
100
100
  movq 8(%rsi),%rcx
101
101
  movq 16(%rsi),%r8
@@ -110,6 +110,8 @@ xorq 16(%rsi),%r8
110
110
  xorq 24(%rsi),%r9
111
111
  leaq 800(%rsp),%rsi
112
112
  mov $64,%rax
113
+
114
+ .p2align 4
113
115
  ._ladder_small_loop:
114
116
  mov %rdx,%r10
115
117
  mov %rcx,%r11
@@ -136,1274 +138,1276 @@ sub $1,%rax
136
138
  jne ._ladder_small_loop
137
139
  mov $255,%rdx
138
140
  add $760,%rsi
141
+
142
+ .p2align 4
139
143
  ._ladder_loop:
140
144
  sub $1,%rdx
141
145
  vbroadcastss 0(%rsi),%xmm10
142
146
  sub $4,%rsi
143
- movdqa 0(%rsp),%xmm11
144
- movdqa 80(%rsp),%xmm12
147
+ vmovdqa 0(%rsp),%xmm11
148
+ vmovdqa 80(%rsp),%xmm12
145
149
  vpxor %xmm11,%xmm0,%xmm13
146
- pand %xmm10,%xmm13
147
- pxor %xmm13,%xmm0
148
- pxor %xmm13,%xmm11
150
+ vpand %xmm10,%xmm13,%xmm13
151
+ vpxor %xmm13,%xmm0,%xmm0
152
+ vpxor %xmm13,%xmm11,%xmm11
149
153
  vpxor %xmm12,%xmm1,%xmm13
150
- pand %xmm10,%xmm13
151
- pxor %xmm13,%xmm1
152
- pxor %xmm13,%xmm12
153
- movdqa 16(%rsp),%xmm13
154
- movdqa 96(%rsp),%xmm14
154
+ vpand %xmm10,%xmm13,%xmm13
155
+ vpxor %xmm13,%xmm1,%xmm1
156
+ vpxor %xmm13,%xmm12,%xmm12
157
+ vmovdqa 16(%rsp),%xmm13
158
+ vmovdqa 96(%rsp),%xmm14
155
159
  vpxor %xmm13,%xmm2,%xmm15
156
- pand %xmm10,%xmm15
157
- pxor %xmm15,%xmm2
158
- pxor %xmm15,%xmm13
160
+ vpand %xmm10,%xmm15,%xmm15
161
+ vpxor %xmm15,%xmm2,%xmm2
162
+ vpxor %xmm15,%xmm13,%xmm13
159
163
  vpxor %xmm14,%xmm3,%xmm15
160
- pand %xmm10,%xmm15
161
- pxor %xmm15,%xmm3
162
- pxor %xmm15,%xmm14
163
- movdqa %xmm13,0(%rsp)
164
- movdqa %xmm14,16(%rsp)
165
- movdqa 32(%rsp),%xmm13
166
- movdqa 112(%rsp),%xmm14
164
+ vpand %xmm10,%xmm15,%xmm15
165
+ vpxor %xmm15,%xmm3,%xmm3
166
+ vpxor %xmm15,%xmm14,%xmm14
167
+ vmovdqa %xmm13,0(%rsp)
168
+ vmovdqa %xmm14,16(%rsp)
169
+ vmovdqa 32(%rsp),%xmm13
170
+ vmovdqa 112(%rsp),%xmm14
167
171
  vpxor %xmm13,%xmm4,%xmm15
168
- pand %xmm10,%xmm15
169
- pxor %xmm15,%xmm4
170
- pxor %xmm15,%xmm13
172
+ vpand %xmm10,%xmm15,%xmm15
173
+ vpxor %xmm15,%xmm4,%xmm4
174
+ vpxor %xmm15,%xmm13,%xmm13
171
175
  vpxor %xmm14,%xmm5,%xmm15
172
- pand %xmm10,%xmm15
173
- pxor %xmm15,%xmm5
174
- pxor %xmm15,%xmm14
175
- movdqa %xmm13,32(%rsp)
176
- movdqa %xmm14,80(%rsp)
177
- movdqa 48(%rsp),%xmm13
178
- movdqa 128(%rsp),%xmm14
176
+ vpand %xmm10,%xmm15,%xmm15
177
+ vpxor %xmm15,%xmm5,%xmm5
178
+ vpxor %xmm15,%xmm14,%xmm14
179
+ vmovdqa %xmm13,32(%rsp)
180
+ vmovdqa %xmm14,80(%rsp)
181
+ vmovdqa 48(%rsp),%xmm13
182
+ vmovdqa 128(%rsp),%xmm14
179
183
  vpxor %xmm13,%xmm6,%xmm15
180
- pand %xmm10,%xmm15
181
- pxor %xmm15,%xmm6
182
- pxor %xmm15,%xmm13
184
+ vpand %xmm10,%xmm15,%xmm15
185
+ vpxor %xmm15,%xmm6,%xmm6
186
+ vpxor %xmm15,%xmm13,%xmm13
183
187
  vpxor %xmm14,%xmm7,%xmm15
184
- pand %xmm10,%xmm15
185
- pxor %xmm15,%xmm7
186
- pxor %xmm15,%xmm14
187
- movdqa %xmm13,48(%rsp)
188
- movdqa %xmm14,96(%rsp)
189
- movdqa 64(%rsp),%xmm13
190
- movdqa 144(%rsp),%xmm14
188
+ vpand %xmm10,%xmm15,%xmm15
189
+ vpxor %xmm15,%xmm7,%xmm7
190
+ vpxor %xmm15,%xmm14,%xmm14
191
+ vmovdqa %xmm13,48(%rsp)
192
+ vmovdqa %xmm14,96(%rsp)
193
+ vmovdqa 64(%rsp),%xmm13
194
+ vmovdqa 144(%rsp),%xmm14
191
195
  vpxor %xmm13,%xmm8,%xmm15
192
- pand %xmm10,%xmm15
193
- pxor %xmm15,%xmm8
194
- pxor %xmm15,%xmm13
196
+ vpand %xmm10,%xmm15,%xmm15
197
+ vpxor %xmm15,%xmm8,%xmm8
198
+ vpxor %xmm15,%xmm13,%xmm13
195
199
  vpxor %xmm14,%xmm9,%xmm15
196
- pand %xmm10,%xmm15
197
- pxor %xmm15,%xmm9
198
- pxor %xmm15,%xmm14
199
- movdqa %xmm13,64(%rsp)
200
- movdqa %xmm14,112(%rsp)
200
+ vpand %xmm10,%xmm15,%xmm15
201
+ vpxor %xmm15,%xmm9,%xmm9
202
+ vpxor %xmm15,%xmm14,%xmm14
203
+ vmovdqa %xmm13,64(%rsp)
204
+ vmovdqa %xmm14,112(%rsp)
201
205
  vpaddq subc0(%rip),%xmm11,%xmm10
202
- psubq %xmm12,%xmm10
203
- paddq %xmm12,%xmm11
206
+ vpsubq %xmm12,%xmm10,%xmm10
207
+ vpaddq %xmm12,%xmm11,%xmm11
204
208
  vpunpckhqdq %xmm10,%xmm11,%xmm12
205
209
  vpunpcklqdq %xmm10,%xmm11,%xmm10
206
210
  vpaddq %xmm1,%xmm0,%xmm11
207
- paddq subc0(%rip),%xmm0
208
- psubq %xmm1,%xmm0
211
+ vpaddq subc0(%rip),%xmm0,%xmm0
212
+ vpsubq %xmm1,%xmm0,%xmm0
209
213
  vpunpckhqdq %xmm11,%xmm0,%xmm1
210
214
  vpunpcklqdq %xmm11,%xmm0,%xmm0
211
215
  vpmuludq %xmm0,%xmm10,%xmm11
212
216
  vpmuludq %xmm1,%xmm10,%xmm13
213
- movdqa %xmm1,128(%rsp)
214
- paddq %xmm1,%xmm1
217
+ vmovdqa %xmm1,128(%rsp)
218
+ vpaddq %xmm1,%xmm1,%xmm1
215
219
  vpmuludq %xmm0,%xmm12,%xmm14
216
- movdqa %xmm0,144(%rsp)
217
- paddq %xmm14,%xmm13
220
+ vmovdqa %xmm0,144(%rsp)
221
+ vpaddq %xmm14,%xmm13,%xmm13
218
222
  vpmuludq %xmm1,%xmm12,%xmm0
219
- movdqa %xmm1,448(%rsp)
223
+ vmovdqa %xmm1,448(%rsp)
220
224
  vpaddq %xmm3,%xmm2,%xmm1
221
- paddq subc2(%rip),%xmm2
222
- psubq %xmm3,%xmm2
225
+ vpaddq subc2(%rip),%xmm2,%xmm2
226
+ vpsubq %xmm3,%xmm2,%xmm2
223
227
  vpunpckhqdq %xmm1,%xmm2,%xmm3
224
228
  vpunpcklqdq %xmm1,%xmm2,%xmm1
225
229
  vpmuludq %xmm1,%xmm10,%xmm2
226
- paddq %xmm2,%xmm0
230
+ vpaddq %xmm2,%xmm0,%xmm0
227
231
  vpmuludq %xmm3,%xmm10,%xmm2
228
- movdqa %xmm3,464(%rsp)
229
- paddq %xmm3,%xmm3
232
+ vmovdqa %xmm3,464(%rsp)
233
+ vpaddq %xmm3,%xmm3,%xmm3
230
234
  vpmuludq %xmm1,%xmm12,%xmm14
231
- movdqa %xmm1,480(%rsp)
232
- paddq %xmm14,%xmm2
235
+ vmovdqa %xmm1,480(%rsp)
236
+ vpaddq %xmm14,%xmm2,%xmm2
233
237
  vpmuludq %xmm3,%xmm12,%xmm1
234
- movdqa %xmm3,496(%rsp)
238
+ vmovdqa %xmm3,496(%rsp)
235
239
  vpaddq %xmm5,%xmm4,%xmm3
236
- paddq subc2(%rip),%xmm4
237
- psubq %xmm5,%xmm4
240
+ vpaddq subc2(%rip),%xmm4,%xmm4
241
+ vpsubq %xmm5,%xmm4,%xmm4
238
242
  vpunpckhqdq %xmm3,%xmm4,%xmm5
239
243
  vpunpcklqdq %xmm3,%xmm4,%xmm3
240
244
  vpmuludq %xmm3,%xmm10,%xmm4
241
- paddq %xmm4,%xmm1
245
+ vpaddq %xmm4,%xmm1,%xmm1
242
246
  vpmuludq %xmm5,%xmm10,%xmm4
243
- movdqa %xmm5,512(%rsp)
244
- paddq %xmm5,%xmm5
247
+ vmovdqa %xmm5,512(%rsp)
248
+ vpaddq %xmm5,%xmm5,%xmm5
245
249
  vpmuludq %xmm3,%xmm12,%xmm14
246
- movdqa %xmm3,528(%rsp)
247
- paddq %xmm14,%xmm4
250
+ vmovdqa %xmm3,528(%rsp)
251
+ vpaddq %xmm14,%xmm4,%xmm4
248
252
  vpaddq %xmm7,%xmm6,%xmm3
249
- paddq subc2(%rip),%xmm6
250
- psubq %xmm7,%xmm6
253
+ vpaddq subc2(%rip),%xmm6,%xmm6
254
+ vpsubq %xmm7,%xmm6,%xmm6
251
255
  vpunpckhqdq %xmm3,%xmm6,%xmm7
252
256
  vpunpcklqdq %xmm3,%xmm6,%xmm3
253
257
  vpmuludq %xmm3,%xmm10,%xmm6
254
258
  vpmuludq %xmm5,%xmm12,%xmm14
255
- movdqa %xmm5,544(%rsp)
256
- pmuludq v19_19(%rip),%xmm5
257
- movdqa %xmm5,560(%rsp)
258
- paddq %xmm14,%xmm6
259
+ vmovdqa %xmm5,544(%rsp)
260
+ vpmuludq v19_19(%rip),%xmm5,%xmm5
261
+ vmovdqa %xmm5,560(%rsp)
262
+ vpaddq %xmm14,%xmm6,%xmm6
259
263
  vpmuludq %xmm7,%xmm10,%xmm5
260
- movdqa %xmm7,576(%rsp)
261
- paddq %xmm7,%xmm7
264
+ vmovdqa %xmm7,576(%rsp)
265
+ vpaddq %xmm7,%xmm7,%xmm7
262
266
  vpmuludq %xmm3,%xmm12,%xmm14
263
- movdqa %xmm3,592(%rsp)
264
- paddq %xmm14,%xmm5
265
- pmuludq v19_19(%rip),%xmm3
266
- movdqa %xmm3,608(%rsp)
267
+ vmovdqa %xmm3,592(%rsp)
268
+ vpaddq %xmm14,%xmm5,%xmm5
269
+ vpmuludq v19_19(%rip),%xmm3,%xmm3
270
+ vmovdqa %xmm3,608(%rsp)
267
271
  vpaddq %xmm9,%xmm8,%xmm3
268
- paddq subc2(%rip),%xmm8
269
- psubq %xmm9,%xmm8
272
+ vpaddq subc2(%rip),%xmm8,%xmm8
273
+ vpsubq %xmm9,%xmm8,%xmm8
270
274
  vpunpckhqdq %xmm3,%xmm8,%xmm9
271
275
  vpunpcklqdq %xmm3,%xmm8,%xmm3
272
- movdqa %xmm3,624(%rsp)
276
+ vmovdqa %xmm3,624(%rsp)
273
277
  vpmuludq %xmm7,%xmm12,%xmm8
274
- movdqa %xmm7,640(%rsp)
275
- pmuludq v19_19(%rip),%xmm7
276
- movdqa %xmm7,656(%rsp)
278
+ vmovdqa %xmm7,640(%rsp)
279
+ vpmuludq v19_19(%rip),%xmm7,%xmm7
280
+ vmovdqa %xmm7,656(%rsp)
277
281
  vpmuludq %xmm3,%xmm10,%xmm7
278
- paddq %xmm7,%xmm8
282
+ vpaddq %xmm7,%xmm8,%xmm8
279
283
  vpmuludq %xmm9,%xmm10,%xmm7
280
- movdqa %xmm9,672(%rsp)
281
- paddq %xmm9,%xmm9
284
+ vmovdqa %xmm9,672(%rsp)
285
+ vpaddq %xmm9,%xmm9,%xmm9
282
286
  vpmuludq %xmm3,%xmm12,%xmm10
283
- paddq %xmm10,%xmm7
284
- pmuludq v19_19(%rip),%xmm3
285
- movdqa %xmm3,688(%rsp)
286
- pmuludq v19_19(%rip),%xmm12
287
+ vpaddq %xmm10,%xmm7,%xmm7
288
+ vpmuludq v19_19(%rip),%xmm3,%xmm3
289
+ vmovdqa %xmm3,688(%rsp)
290
+ vpmuludq v19_19(%rip),%xmm12,%xmm12
287
291
  vpmuludq %xmm9,%xmm12,%xmm3
288
- movdqa %xmm9,704(%rsp)
289
- paddq %xmm3,%xmm11
290
- movdqa 0(%rsp),%xmm3
291
- movdqa 16(%rsp),%xmm9
292
+ vmovdqa %xmm9,704(%rsp)
293
+ vpaddq %xmm3,%xmm11,%xmm11
294
+ vmovdqa 0(%rsp),%xmm3
295
+ vmovdqa 16(%rsp),%xmm9
292
296
  vpaddq subc2(%rip),%xmm3,%xmm10
293
- psubq %xmm9,%xmm10
294
- paddq %xmm9,%xmm3
297
+ vpsubq %xmm9,%xmm10,%xmm10
298
+ vpaddq %xmm9,%xmm3,%xmm3
295
299
  vpunpckhqdq %xmm10,%xmm3,%xmm9
296
300
  vpunpcklqdq %xmm10,%xmm3,%xmm3
297
301
  vpmuludq 144(%rsp),%xmm3,%xmm10
298
- paddq %xmm10,%xmm0
302
+ vpaddq %xmm10,%xmm0,%xmm0
299
303
  vpmuludq 128(%rsp),%xmm3,%xmm10
300
- paddq %xmm10,%xmm2
304
+ vpaddq %xmm10,%xmm2,%xmm2
301
305
  vpmuludq 480(%rsp),%xmm3,%xmm10
302
- paddq %xmm10,%xmm1
306
+ vpaddq %xmm10,%xmm1,%xmm1
303
307
  vpmuludq 464(%rsp),%xmm3,%xmm10
304
- paddq %xmm10,%xmm4
308
+ vpaddq %xmm10,%xmm4,%xmm4
305
309
  vpmuludq 528(%rsp),%xmm3,%xmm10
306
- paddq %xmm10,%xmm6
310
+ vpaddq %xmm10,%xmm6,%xmm6
307
311
  vpmuludq 512(%rsp),%xmm3,%xmm10
308
- paddq %xmm10,%xmm5
312
+ vpaddq %xmm10,%xmm5,%xmm5
309
313
  vpmuludq 592(%rsp),%xmm3,%xmm10
310
- paddq %xmm10,%xmm8
314
+ vpaddq %xmm10,%xmm8,%xmm8
311
315
  vpmuludq 576(%rsp),%xmm3,%xmm10
312
- paddq %xmm10,%xmm7
313
- pmuludq v19_19(%rip),%xmm3
316
+ vpaddq %xmm10,%xmm7,%xmm7
317
+ vpmuludq v19_19(%rip),%xmm3,%xmm3
314
318
  vpmuludq 624(%rsp),%xmm3,%xmm10
315
- paddq %xmm10,%xmm11
316
- pmuludq 672(%rsp),%xmm3
317
- paddq %xmm3,%xmm13
319
+ vpaddq %xmm10,%xmm11,%xmm11
320
+ vpmuludq 672(%rsp),%xmm3,%xmm3
321
+ vpaddq %xmm3,%xmm13,%xmm13
318
322
  vpmuludq 144(%rsp),%xmm9,%xmm3
319
- paddq %xmm3,%xmm2
323
+ vpaddq %xmm3,%xmm2,%xmm2
320
324
  vpmuludq 448(%rsp),%xmm9,%xmm3
321
- paddq %xmm3,%xmm1
325
+ vpaddq %xmm3,%xmm1,%xmm1
322
326
  vpmuludq 480(%rsp),%xmm9,%xmm3
323
- paddq %xmm3,%xmm4
327
+ vpaddq %xmm3,%xmm4,%xmm4
324
328
  vpmuludq 496(%rsp),%xmm9,%xmm3
325
- paddq %xmm3,%xmm6
329
+ vpaddq %xmm3,%xmm6,%xmm6
326
330
  vpmuludq 528(%rsp),%xmm9,%xmm3
327
- paddq %xmm3,%xmm5
331
+ vpaddq %xmm3,%xmm5,%xmm5
328
332
  vpmuludq 544(%rsp),%xmm9,%xmm3
329
- paddq %xmm3,%xmm8
333
+ vpaddq %xmm3,%xmm8,%xmm8
330
334
  vpmuludq 592(%rsp),%xmm9,%xmm3
331
- paddq %xmm3,%xmm7
332
- pmuludq v19_19(%rip),%xmm9
335
+ vpaddq %xmm3,%xmm7,%xmm7
336
+ vpmuludq v19_19(%rip),%xmm9,%xmm9
333
337
  vpmuludq 640(%rsp),%xmm9,%xmm3
334
- paddq %xmm3,%xmm11
338
+ vpaddq %xmm3,%xmm11,%xmm11
335
339
  vpmuludq 624(%rsp),%xmm9,%xmm3
336
- paddq %xmm3,%xmm13
337
- pmuludq 704(%rsp),%xmm9
338
- paddq %xmm9,%xmm0
339
- movdqa 32(%rsp),%xmm3
340
- movdqa 80(%rsp),%xmm9
340
+ vpaddq %xmm3,%xmm13,%xmm13
341
+ vpmuludq 704(%rsp),%xmm9,%xmm9
342
+ vpaddq %xmm9,%xmm0,%xmm0
343
+ vmovdqa 32(%rsp),%xmm3
344
+ vmovdqa 80(%rsp),%xmm9
341
345
  vpaddq subc2(%rip),%xmm3,%xmm10
342
- psubq %xmm9,%xmm10
343
- paddq %xmm9,%xmm3
346
+ vpsubq %xmm9,%xmm10,%xmm10
347
+ vpaddq %xmm9,%xmm3,%xmm3
344
348
  vpunpckhqdq %xmm10,%xmm3,%xmm9
345
349
  vpunpcklqdq %xmm10,%xmm3,%xmm3
346
350
  vpmuludq 144(%rsp),%xmm3,%xmm10
347
- paddq %xmm10,%xmm1
351
+ vpaddq %xmm10,%xmm1,%xmm1
348
352
  vpmuludq 128(%rsp),%xmm3,%xmm10
349
- paddq %xmm10,%xmm4
353
+ vpaddq %xmm10,%xmm4,%xmm4
350
354
  vpmuludq 480(%rsp),%xmm3,%xmm10
351
- paddq %xmm10,%xmm6
355
+ vpaddq %xmm10,%xmm6,%xmm6
352
356
  vpmuludq 464(%rsp),%xmm3,%xmm10
353
- paddq %xmm10,%xmm5
357
+ vpaddq %xmm10,%xmm5,%xmm5
354
358
  vpmuludq 528(%rsp),%xmm3,%xmm10
355
- paddq %xmm10,%xmm8
359
+ vpaddq %xmm10,%xmm8,%xmm8
356
360
  vpmuludq 512(%rsp),%xmm3,%xmm10
357
- paddq %xmm10,%xmm7
358
- pmuludq v19_19(%rip),%xmm3
361
+ vpaddq %xmm10,%xmm7,%xmm7
362
+ vpmuludq v19_19(%rip),%xmm3,%xmm3
359
363
  vpmuludq 592(%rsp),%xmm3,%xmm10
360
- paddq %xmm10,%xmm11
364
+ vpaddq %xmm10,%xmm11,%xmm11
361
365
  vpmuludq 576(%rsp),%xmm3,%xmm10
362
- paddq %xmm10,%xmm13
366
+ vpaddq %xmm10,%xmm13,%xmm13
363
367
  vpmuludq 624(%rsp),%xmm3,%xmm10
364
- paddq %xmm10,%xmm0
365
- pmuludq 672(%rsp),%xmm3
366
- paddq %xmm3,%xmm2
368
+ vpaddq %xmm10,%xmm0,%xmm0
369
+ vpmuludq 672(%rsp),%xmm3,%xmm3
370
+ vpaddq %xmm3,%xmm2,%xmm2
367
371
  vpmuludq 144(%rsp),%xmm9,%xmm3
368
- paddq %xmm3,%xmm4
372
+ vpaddq %xmm3,%xmm4,%xmm4
369
373
  vpmuludq 448(%rsp),%xmm9,%xmm3
370
- paddq %xmm3,%xmm6
374
+ vpaddq %xmm3,%xmm6,%xmm6
371
375
  vpmuludq 480(%rsp),%xmm9,%xmm3
372
- paddq %xmm3,%xmm5
376
+ vpaddq %xmm3,%xmm5,%xmm5
373
377
  vpmuludq 496(%rsp),%xmm9,%xmm3
374
- paddq %xmm3,%xmm8
378
+ vpaddq %xmm3,%xmm8,%xmm8
375
379
  vpmuludq 528(%rsp),%xmm9,%xmm3
376
- paddq %xmm3,%xmm7
377
- pmuludq v19_19(%rip),%xmm9
380
+ vpaddq %xmm3,%xmm7,%xmm7
381
+ vpmuludq v19_19(%rip),%xmm9,%xmm9
378
382
  vpmuludq 544(%rsp),%xmm9,%xmm3
379
- paddq %xmm3,%xmm11
383
+ vpaddq %xmm3,%xmm11,%xmm11
380
384
  vpmuludq 592(%rsp),%xmm9,%xmm3
381
- paddq %xmm3,%xmm13
385
+ vpaddq %xmm3,%xmm13,%xmm13
382
386
  vpmuludq 640(%rsp),%xmm9,%xmm3
383
- paddq %xmm3,%xmm0
387
+ vpaddq %xmm3,%xmm0,%xmm0
384
388
  vpmuludq 624(%rsp),%xmm9,%xmm3
385
- paddq %xmm3,%xmm2
386
- pmuludq 704(%rsp),%xmm9
387
- paddq %xmm9,%xmm1
388
- movdqa 48(%rsp),%xmm3
389
- movdqa 96(%rsp),%xmm9
389
+ vpaddq %xmm3,%xmm2,%xmm2
390
+ vpmuludq 704(%rsp),%xmm9,%xmm9
391
+ vpaddq %xmm9,%xmm1,%xmm1
392
+ vmovdqa 48(%rsp),%xmm3
393
+ vmovdqa 96(%rsp),%xmm9
390
394
  vpaddq subc2(%rip),%xmm3,%xmm10
391
- psubq %xmm9,%xmm10
392
- paddq %xmm9,%xmm3
395
+ vpsubq %xmm9,%xmm10,%xmm10
396
+ vpaddq %xmm9,%xmm3,%xmm3
393
397
  vpunpckhqdq %xmm10,%xmm3,%xmm9
394
398
  vpunpcklqdq %xmm10,%xmm3,%xmm3
395
399
  vpmuludq 144(%rsp),%xmm3,%xmm10
396
- paddq %xmm10,%xmm6
400
+ vpaddq %xmm10,%xmm6,%xmm6
397
401
  vpmuludq 128(%rsp),%xmm3,%xmm10
398
- paddq %xmm10,%xmm5
402
+ vpaddq %xmm10,%xmm5,%xmm5
399
403
  vpmuludq 480(%rsp),%xmm3,%xmm10
400
- paddq %xmm10,%xmm8
404
+ vpaddq %xmm10,%xmm8,%xmm8
401
405
  vpmuludq 464(%rsp),%xmm3,%xmm10
402
- paddq %xmm10,%xmm7
403
- pmuludq v19_19(%rip),%xmm3
406
+ vpaddq %xmm10,%xmm7,%xmm7
407
+ vpmuludq v19_19(%rip),%xmm3,%xmm3
404
408
  vpmuludq 528(%rsp),%xmm3,%xmm10
405
- paddq %xmm10,%xmm11
409
+ vpaddq %xmm10,%xmm11,%xmm11
406
410
  vpmuludq 512(%rsp),%xmm3,%xmm10
407
- paddq %xmm10,%xmm13
411
+ vpaddq %xmm10,%xmm13,%xmm13
408
412
  vpmuludq 592(%rsp),%xmm3,%xmm10
409
- paddq %xmm10,%xmm0
413
+ vpaddq %xmm10,%xmm0,%xmm0
410
414
  vpmuludq 576(%rsp),%xmm3,%xmm10
411
- paddq %xmm10,%xmm2
415
+ vpaddq %xmm10,%xmm2,%xmm2
412
416
  vpmuludq 624(%rsp),%xmm3,%xmm10
413
- paddq %xmm10,%xmm1
414
- pmuludq 672(%rsp),%xmm3
415
- paddq %xmm3,%xmm4
417
+ vpaddq %xmm10,%xmm1,%xmm1
418
+ vpmuludq 672(%rsp),%xmm3,%xmm3
419
+ vpaddq %xmm3,%xmm4,%xmm4
416
420
  vpmuludq 144(%rsp),%xmm9,%xmm3
417
- paddq %xmm3,%xmm5
421
+ vpaddq %xmm3,%xmm5,%xmm5
418
422
  vpmuludq 448(%rsp),%xmm9,%xmm3
419
- paddq %xmm3,%xmm8
423
+ vpaddq %xmm3,%xmm8,%xmm8
420
424
  vpmuludq 480(%rsp),%xmm9,%xmm3
421
- paddq %xmm3,%xmm7
422
- pmuludq v19_19(%rip),%xmm9
425
+ vpaddq %xmm3,%xmm7,%xmm7
426
+ vpmuludq v19_19(%rip),%xmm9,%xmm9
423
427
  vpmuludq 496(%rsp),%xmm9,%xmm3
424
- paddq %xmm3,%xmm11
428
+ vpaddq %xmm3,%xmm11,%xmm11
425
429
  vpmuludq 528(%rsp),%xmm9,%xmm3
426
- paddq %xmm3,%xmm13
430
+ vpaddq %xmm3,%xmm13,%xmm13
427
431
  vpmuludq 544(%rsp),%xmm9,%xmm3
428
- paddq %xmm3,%xmm0
432
+ vpaddq %xmm3,%xmm0,%xmm0
429
433
  vpmuludq 592(%rsp),%xmm9,%xmm3
430
- paddq %xmm3,%xmm2
434
+ vpaddq %xmm3,%xmm2,%xmm2
431
435
  vpmuludq 640(%rsp),%xmm9,%xmm3
432
- paddq %xmm3,%xmm1
436
+ vpaddq %xmm3,%xmm1,%xmm1
433
437
  vpmuludq 624(%rsp),%xmm9,%xmm3
434
- paddq %xmm3,%xmm4
435
- pmuludq 704(%rsp),%xmm9
436
- paddq %xmm9,%xmm6
437
- movdqa 64(%rsp),%xmm3
438
- movdqa 112(%rsp),%xmm9
438
+ vpaddq %xmm3,%xmm4,%xmm4
439
+ vpmuludq 704(%rsp),%xmm9,%xmm9
440
+ vpaddq %xmm9,%xmm6,%xmm6
441
+ vmovdqa 64(%rsp),%xmm3
442
+ vmovdqa 112(%rsp),%xmm9
439
443
  vpaddq subc2(%rip),%xmm3,%xmm10
440
- psubq %xmm9,%xmm10
441
- paddq %xmm9,%xmm3
444
+ vpsubq %xmm9,%xmm10,%xmm10
445
+ vpaddq %xmm9,%xmm3,%xmm3
442
446
  vpunpckhqdq %xmm10,%xmm3,%xmm9
443
447
  vpunpcklqdq %xmm10,%xmm3,%xmm3
444
448
  vpmuludq 144(%rsp),%xmm3,%xmm10
445
- paddq %xmm10,%xmm8
449
+ vpaddq %xmm10,%xmm8,%xmm8
446
450
  vpmuludq 128(%rsp),%xmm3,%xmm10
447
- paddq %xmm10,%xmm7
448
- pmuludq v19_19(%rip),%xmm3
451
+ vpaddq %xmm10,%xmm7,%xmm7
452
+ vpmuludq v19_19(%rip),%xmm3,%xmm3
449
453
  vpmuludq 480(%rsp),%xmm3,%xmm10
450
- paddq %xmm10,%xmm11
454
+ vpaddq %xmm10,%xmm11,%xmm11
451
455
  vpmuludq 464(%rsp),%xmm3,%xmm10
452
- paddq %xmm10,%xmm13
456
+ vpaddq %xmm10,%xmm13,%xmm13
453
457
  vpmuludq 528(%rsp),%xmm3,%xmm10
454
- paddq %xmm10,%xmm0
458
+ vpaddq %xmm10,%xmm0,%xmm0
455
459
  vpmuludq 512(%rsp),%xmm3,%xmm10
456
- paddq %xmm10,%xmm2
460
+ vpaddq %xmm10,%xmm2,%xmm2
457
461
  vpmuludq 592(%rsp),%xmm3,%xmm10
458
- paddq %xmm10,%xmm1
462
+ vpaddq %xmm10,%xmm1,%xmm1
459
463
  vpmuludq 576(%rsp),%xmm3,%xmm10
460
- paddq %xmm10,%xmm4
464
+ vpaddq %xmm10,%xmm4,%xmm4
461
465
  vpmuludq 624(%rsp),%xmm3,%xmm10
462
- paddq %xmm10,%xmm6
463
- pmuludq 672(%rsp),%xmm3
464
- paddq %xmm3,%xmm5
466
+ vpaddq %xmm10,%xmm6,%xmm6
467
+ vpmuludq 672(%rsp),%xmm3,%xmm3
468
+ vpaddq %xmm3,%xmm5,%xmm5
465
469
  vpmuludq 144(%rsp),%xmm9,%xmm3
466
- paddq %xmm3,%xmm7
467
- pmuludq v19_19(%rip),%xmm9
470
+ vpaddq %xmm3,%xmm7,%xmm7
471
+ vpmuludq v19_19(%rip),%xmm9,%xmm9
468
472
  vpmuludq 448(%rsp),%xmm9,%xmm3
469
- paddq %xmm3,%xmm11
473
+ vpaddq %xmm3,%xmm11,%xmm11
470
474
  vpmuludq 480(%rsp),%xmm9,%xmm3
471
- paddq %xmm3,%xmm13
475
+ vpaddq %xmm3,%xmm13,%xmm13
472
476
  vpmuludq 496(%rsp),%xmm9,%xmm3
473
- paddq %xmm3,%xmm0
477
+ vpaddq %xmm3,%xmm0,%xmm0
474
478
  vpmuludq 528(%rsp),%xmm9,%xmm3
475
- paddq %xmm3,%xmm2
479
+ vpaddq %xmm3,%xmm2,%xmm2
476
480
  vpmuludq 544(%rsp),%xmm9,%xmm3
477
- paddq %xmm3,%xmm1
481
+ vpaddq %xmm3,%xmm1,%xmm1
478
482
  vpmuludq 592(%rsp),%xmm9,%xmm3
479
- paddq %xmm3,%xmm4
483
+ vpaddq %xmm3,%xmm4,%xmm4
480
484
  vpmuludq 640(%rsp),%xmm9,%xmm3
481
- paddq %xmm3,%xmm6
485
+ vpaddq %xmm3,%xmm6,%xmm6
482
486
  vpmuludq 624(%rsp),%xmm9,%xmm3
483
- paddq %xmm3,%xmm5
484
- pmuludq 704(%rsp),%xmm9
485
- paddq %xmm9,%xmm8
487
+ vpaddq %xmm3,%xmm5,%xmm5
488
+ vpmuludq 704(%rsp),%xmm9,%xmm9
489
+ vpaddq %xmm9,%xmm8,%xmm8
486
490
  vpsrlq $25,%xmm4,%xmm3
487
- paddq %xmm3,%xmm6
488
- pand m25(%rip),%xmm4
491
+ vpaddq %xmm3,%xmm6,%xmm6
492
+ vpand m25(%rip),%xmm4,%xmm4
489
493
  vpsrlq $26,%xmm11,%xmm3
490
- paddq %xmm3,%xmm13
491
- pand m26(%rip),%xmm11
494
+ vpaddq %xmm3,%xmm13,%xmm13
495
+ vpand m26(%rip),%xmm11,%xmm11
492
496
  vpsrlq $26,%xmm6,%xmm3
493
- paddq %xmm3,%xmm5
494
- pand m26(%rip),%xmm6
497
+ vpaddq %xmm3,%xmm5,%xmm5
498
+ vpand m26(%rip),%xmm6,%xmm6
495
499
  vpsrlq $25,%xmm13,%xmm3
496
- paddq %xmm3,%xmm0
497
- pand m25(%rip),%xmm13
500
+ vpaddq %xmm3,%xmm0,%xmm0
501
+ vpand m25(%rip),%xmm13,%xmm13
498
502
  vpsrlq $25,%xmm5,%xmm3
499
- paddq %xmm3,%xmm8
500
- pand m25(%rip),%xmm5
503
+ vpaddq %xmm3,%xmm8,%xmm8
504
+ vpand m25(%rip),%xmm5,%xmm5
501
505
  vpsrlq $26,%xmm0,%xmm3
502
- paddq %xmm3,%xmm2
503
- pand m26(%rip),%xmm0
506
+ vpaddq %xmm3,%xmm2,%xmm2
507
+ vpand m26(%rip),%xmm0,%xmm0
504
508
  vpsrlq $26,%xmm8,%xmm3
505
- paddq %xmm3,%xmm7
506
- pand m26(%rip),%xmm8
509
+ vpaddq %xmm3,%xmm7,%xmm7
510
+ vpand m26(%rip),%xmm8,%xmm8
507
511
  vpsrlq $25,%xmm2,%xmm3
508
- paddq %xmm3,%xmm1
509
- pand m25(%rip),%xmm2
512
+ vpaddq %xmm3,%xmm1,%xmm1
513
+ vpand m25(%rip),%xmm2,%xmm2
510
514
  vpsrlq $25,%xmm7,%xmm3
511
515
  vpsllq $4,%xmm3,%xmm9
512
- paddq %xmm3,%xmm11
513
- psllq $1,%xmm3
514
- paddq %xmm3,%xmm9
515
- paddq %xmm9,%xmm11
516
- pand m25(%rip),%xmm7
516
+ vpaddq %xmm3,%xmm11,%xmm11
517
+ vpsllq $1,%xmm3,%xmm3
518
+ vpaddq %xmm3,%xmm9,%xmm9
519
+ vpaddq %xmm9,%xmm11,%xmm11
520
+ vpand m25(%rip),%xmm7,%xmm7
517
521
  vpsrlq $26,%xmm1,%xmm3
518
- paddq %xmm3,%xmm4
519
- pand m26(%rip),%xmm1
522
+ vpaddq %xmm3,%xmm4,%xmm4
523
+ vpand m26(%rip),%xmm1,%xmm1
520
524
  vpsrlq $26,%xmm11,%xmm3
521
- paddq %xmm3,%xmm13
522
- pand m26(%rip),%xmm11
525
+ vpaddq %xmm3,%xmm13,%xmm13
526
+ vpand m26(%rip),%xmm11,%xmm11
523
527
  vpsrlq $25,%xmm4,%xmm3
524
- paddq %xmm3,%xmm6
525
- pand m25(%rip),%xmm4
528
+ vpaddq %xmm3,%xmm6,%xmm6
529
+ vpand m25(%rip),%xmm4,%xmm4
526
530
  vpunpcklqdq %xmm13,%xmm11,%xmm3
527
531
  vpunpckhqdq %xmm13,%xmm11,%xmm9
528
532
  vpaddq subc0(%rip),%xmm9,%xmm10
529
- psubq %xmm3,%xmm10
530
- paddq %xmm9,%xmm3
533
+ vpsubq %xmm3,%xmm10,%xmm10
534
+ vpaddq %xmm9,%xmm3,%xmm3
531
535
  vpunpckhqdq %xmm3,%xmm10,%xmm9
532
- punpcklqdq %xmm3,%xmm10
536
+ vpunpcklqdq %xmm3,%xmm10,%xmm10
533
537
  vpmuludq %xmm10,%xmm10,%xmm3
534
- paddq %xmm10,%xmm10
538
+ vpaddq %xmm10,%xmm10,%xmm10
535
539
  vpmuludq %xmm9,%xmm10,%xmm11
536
540
  vpunpcklqdq %xmm2,%xmm0,%xmm12
537
541
  vpunpckhqdq %xmm2,%xmm0,%xmm0
538
542
  vpaddq subc2(%rip),%xmm0,%xmm2
539
- psubq %xmm12,%xmm2
540
- paddq %xmm0,%xmm12
543
+ vpsubq %xmm12,%xmm2,%xmm2
544
+ vpaddq %xmm0,%xmm12,%xmm12
541
545
  vpunpckhqdq %xmm12,%xmm2,%xmm0
542
- punpcklqdq %xmm12,%xmm2
546
+ vpunpcklqdq %xmm12,%xmm2,%xmm2
543
547
  vpmuludq %xmm2,%xmm10,%xmm12
544
548
  vpaddq %xmm9,%xmm9,%xmm13
545
549
  vpmuludq %xmm13,%xmm9,%xmm9
546
- paddq %xmm9,%xmm12
550
+ vpaddq %xmm9,%xmm12,%xmm12
547
551
  vpmuludq %xmm0,%xmm10,%xmm9
548
552
  vpmuludq %xmm2,%xmm13,%xmm14
549
- paddq %xmm14,%xmm9
553
+ vpaddq %xmm14,%xmm9,%xmm9
550
554
  vpunpcklqdq %xmm4,%xmm1,%xmm14
551
555
  vpunpckhqdq %xmm4,%xmm1,%xmm1
552
556
  vpaddq subc2(%rip),%xmm1,%xmm4
553
- psubq %xmm14,%xmm4
554
- paddq %xmm1,%xmm14
557
+ vpsubq %xmm14,%xmm4,%xmm4
558
+ vpaddq %xmm1,%xmm14,%xmm14
555
559
  vpunpckhqdq %xmm14,%xmm4,%xmm1
556
- punpcklqdq %xmm14,%xmm4
557
- movdqa %xmm1,0(%rsp)
558
- paddq %xmm1,%xmm1
559
- movdqa %xmm1,16(%rsp)
560
- pmuludq v19_19(%rip),%xmm1
561
- movdqa %xmm1,32(%rsp)
560
+ vpunpcklqdq %xmm14,%xmm4,%xmm4
561
+ vmovdqa %xmm1,0(%rsp)
562
+ vpaddq %xmm1,%xmm1,%xmm1
563
+ vmovdqa %xmm1,16(%rsp)
564
+ vpmuludq v19_19(%rip),%xmm1,%xmm1
565
+ vmovdqa %xmm1,32(%rsp)
562
566
  vpmuludq %xmm4,%xmm10,%xmm1
563
567
  vpmuludq %xmm2,%xmm2,%xmm14
564
- paddq %xmm14,%xmm1
568
+ vpaddq %xmm14,%xmm1,%xmm1
565
569
  vpmuludq 0(%rsp),%xmm10,%xmm14
566
570
  vpmuludq %xmm4,%xmm13,%xmm15
567
- paddq %xmm15,%xmm14
571
+ vpaddq %xmm15,%xmm14,%xmm14
568
572
  vpunpcklqdq %xmm5,%xmm6,%xmm15
569
573
  vpunpckhqdq %xmm5,%xmm6,%xmm5
570
574
  vpaddq subc2(%rip),%xmm5,%xmm6
571
- psubq %xmm15,%xmm6
572
- paddq %xmm5,%xmm15
575
+ vpsubq %xmm15,%xmm6,%xmm6
576
+ vpaddq %xmm5,%xmm15,%xmm15
573
577
  vpunpckhqdq %xmm15,%xmm6,%xmm5
574
- punpcklqdq %xmm15,%xmm6
575
- movdqa %xmm6,48(%rsp)
576
- pmuludq v19_19(%rip),%xmm6
577
- movdqa %xmm6,64(%rsp)
578
- movdqa %xmm5,80(%rsp)
579
- pmuludq v38_38(%rip),%xmm5
580
- movdqa %xmm5,96(%rsp)
578
+ vpunpcklqdq %xmm15,%xmm6,%xmm6
579
+ vmovdqa %xmm6,48(%rsp)
580
+ vpmuludq v19_19(%rip),%xmm6,%xmm6
581
+ vmovdqa %xmm6,64(%rsp)
582
+ vmovdqa %xmm5,80(%rsp)
583
+ vpmuludq v38_38(%rip),%xmm5,%xmm5
584
+ vmovdqa %xmm5,96(%rsp)
581
585
  vpmuludq 48(%rsp),%xmm10,%xmm5
582
586
  vpaddq %xmm0,%xmm0,%xmm6
583
587
  vpmuludq %xmm6,%xmm0,%xmm0
584
- paddq %xmm0,%xmm5
588
+ vpaddq %xmm0,%xmm5,%xmm5
585
589
  vpmuludq 80(%rsp),%xmm10,%xmm0
586
590
  vpmuludq %xmm4,%xmm6,%xmm15
587
- paddq %xmm15,%xmm0
591
+ vpaddq %xmm15,%xmm0,%xmm0
588
592
  vpmuludq %xmm6,%xmm13,%xmm15
589
- paddq %xmm15,%xmm1
593
+ vpaddq %xmm15,%xmm1,%xmm1
590
594
  vpmuludq %xmm6,%xmm2,%xmm15
591
- paddq %xmm15,%xmm14
595
+ vpaddq %xmm15,%xmm14,%xmm14
592
596
  vpunpcklqdq %xmm7,%xmm8,%xmm15
593
597
  vpunpckhqdq %xmm7,%xmm8,%xmm7
594
598
  vpaddq subc2(%rip),%xmm7,%xmm8
595
- psubq %xmm15,%xmm8
596
- paddq %xmm7,%xmm15
599
+ vpsubq %xmm15,%xmm8,%xmm8
600
+ vpaddq %xmm7,%xmm15,%xmm15
597
601
  vpunpckhqdq %xmm15,%xmm8,%xmm7
598
- punpcklqdq %xmm15,%xmm8
599
- movdqa %xmm8,112(%rsp)
600
- pmuludq v19_19(%rip),%xmm8
601
- movdqa %xmm8,448(%rsp)
602
+ vpunpcklqdq %xmm15,%xmm8,%xmm8
603
+ vmovdqa %xmm8,112(%rsp)
604
+ vpmuludq v19_19(%rip),%xmm8,%xmm8
605
+ vmovdqa %xmm8,448(%rsp)
602
606
  vpmuludq 112(%rsp),%xmm10,%xmm8
603
607
  vpmuludq %xmm7,%xmm10,%xmm10
604
608
  vpmuludq v38_38(%rip),%xmm7,%xmm15
605
609
  vpmuludq %xmm15,%xmm7,%xmm7
606
- paddq %xmm7,%xmm8
610
+ vpaddq %xmm7,%xmm8,%xmm8
607
611
  vpmuludq %xmm15,%xmm13,%xmm7
608
- paddq %xmm7,%xmm3
612
+ vpaddq %xmm7,%xmm3,%xmm3
609
613
  vpmuludq %xmm15,%xmm2,%xmm7
610
- paddq %xmm7,%xmm11
614
+ vpaddq %xmm7,%xmm11,%xmm11
611
615
  vpmuludq 80(%rsp),%xmm13,%xmm7
612
- paddq %xmm7,%xmm7
613
- paddq %xmm7,%xmm8
616
+ vpaddq %xmm7,%xmm7,%xmm7
617
+ vpaddq %xmm7,%xmm8,%xmm8
614
618
  vpmuludq 16(%rsp),%xmm13,%xmm7
615
- paddq %xmm7,%xmm5
619
+ vpaddq %xmm7,%xmm5,%xmm5
616
620
  vpmuludq 48(%rsp),%xmm13,%xmm7
617
- paddq %xmm7,%xmm0
621
+ vpaddq %xmm7,%xmm0,%xmm0
618
622
  vpmuludq 112(%rsp),%xmm13,%xmm7
619
- paddq %xmm7,%xmm10
623
+ vpaddq %xmm7,%xmm10,%xmm10
620
624
  vpmuludq %xmm15,%xmm6,%xmm7
621
- paddq %xmm7,%xmm12
625
+ vpaddq %xmm7,%xmm12,%xmm12
622
626
  vpmuludq %xmm15,%xmm4,%xmm7
623
- paddq %xmm7,%xmm9
627
+ vpaddq %xmm7,%xmm9,%xmm9
624
628
  vpaddq %xmm2,%xmm2,%xmm2
625
629
  vpmuludq %xmm4,%xmm2,%xmm7
626
- paddq %xmm7,%xmm5
630
+ vpaddq %xmm7,%xmm5,%xmm5
627
631
  vpmuludq 448(%rsp),%xmm2,%xmm7
628
- paddq %xmm7,%xmm3
632
+ vpaddq %xmm7,%xmm3,%xmm3
629
633
  vpmuludq 448(%rsp),%xmm6,%xmm7
630
- paddq %xmm7,%xmm11
634
+ vpaddq %xmm7,%xmm11,%xmm11
631
635
  vpmuludq 0(%rsp),%xmm2,%xmm7
632
- paddq %xmm7,%xmm0
636
+ vpaddq %xmm7,%xmm0,%xmm0
633
637
  vpmuludq 48(%rsp),%xmm2,%xmm7
634
- paddq %xmm7,%xmm8
638
+ vpaddq %xmm7,%xmm8,%xmm8
635
639
  vpmuludq 80(%rsp),%xmm2,%xmm2
636
- paddq %xmm2,%xmm10
640
+ vpaddq %xmm2,%xmm10,%xmm10
637
641
  vpmuludq 96(%rsp),%xmm4,%xmm2
638
- paddq %xmm2,%xmm11
642
+ vpaddq %xmm2,%xmm11,%xmm11
639
643
  vpmuludq %xmm4,%xmm4,%xmm2
640
- paddq %xmm2,%xmm8
644
+ vpaddq %xmm2,%xmm8,%xmm8
641
645
  vpaddq %xmm4,%xmm4,%xmm2
642
646
  vpmuludq 448(%rsp),%xmm2,%xmm4
643
- paddq %xmm4,%xmm12
647
+ vpaddq %xmm4,%xmm12,%xmm12
644
648
  vpmuludq 16(%rsp),%xmm15,%xmm4
645
- paddq %xmm4,%xmm1
649
+ vpaddq %xmm4,%xmm1,%xmm1
646
650
  vpmuludq 48(%rsp),%xmm15,%xmm4
647
- paddq %xmm4,%xmm14
651
+ vpaddq %xmm4,%xmm14,%xmm14
648
652
  vpmuludq 96(%rsp),%xmm6,%xmm4
649
- paddq %xmm4,%xmm3
650
- movdqa 16(%rsp),%xmm4
651
- pmuludq 448(%rsp),%xmm4
652
- paddq %xmm4,%xmm9
653
+ vpaddq %xmm4,%xmm3,%xmm3
654
+ vmovdqa 16(%rsp),%xmm4
655
+ vpmuludq 448(%rsp),%xmm4,%xmm4
656
+ vpaddq %xmm4,%xmm9,%xmm9
653
657
  vpmuludq 16(%rsp),%xmm6,%xmm4
654
- paddq %xmm4,%xmm8
658
+ vpaddq %xmm4,%xmm8,%xmm8
655
659
  vpmuludq 48(%rsp),%xmm6,%xmm4
656
- paddq %xmm4,%xmm10
660
+ vpaddq %xmm4,%xmm10,%xmm10
657
661
  vpmuludq 80(%rsp),%xmm15,%xmm4
658
- paddq %xmm4,%xmm4
659
- paddq %xmm4,%xmm5
662
+ vpaddq %xmm4,%xmm4,%xmm4
663
+ vpaddq %xmm4,%xmm5,%xmm5
660
664
  vpmuludq 112(%rsp),%xmm15,%xmm4
661
- paddq %xmm4,%xmm0
662
- movdqa 48(%rsp),%xmm4
663
- paddq %xmm4,%xmm4
664
- pmuludq 448(%rsp),%xmm4
665
- paddq %xmm4,%xmm1
666
- movdqa 80(%rsp),%xmm4
667
- paddq %xmm4,%xmm4
668
- pmuludq 448(%rsp),%xmm4
669
- paddq %xmm4,%xmm14
665
+ vpaddq %xmm4,%xmm0,%xmm0
666
+ vmovdqa 48(%rsp),%xmm4
667
+ vpaddq %xmm4,%xmm4,%xmm4
668
+ vpmuludq 448(%rsp),%xmm4,%xmm4
669
+ vpaddq %xmm4,%xmm1,%xmm1
670
+ vmovdqa 80(%rsp),%xmm4
671
+ vpaddq %xmm4,%xmm4,%xmm4
672
+ vpmuludq 448(%rsp),%xmm4,%xmm4
673
+ vpaddq %xmm4,%xmm14,%xmm14
670
674
  vpmuludq 64(%rsp),%xmm2,%xmm4
671
- paddq %xmm4,%xmm3
672
- movdqa 16(%rsp),%xmm4
673
- pmuludq 64(%rsp),%xmm4
674
- paddq %xmm4,%xmm11
675
- movdqa 16(%rsp),%xmm4
676
- pmuludq 96(%rsp),%xmm4
677
- paddq %xmm4,%xmm12
678
- movdqa 48(%rsp),%xmm4
679
- pmuludq 96(%rsp),%xmm4
680
- paddq %xmm4,%xmm9
675
+ vpaddq %xmm4,%xmm3,%xmm3
676
+ vmovdqa 16(%rsp),%xmm4
677
+ vpmuludq 64(%rsp),%xmm4,%xmm4
678
+ vpaddq %xmm4,%xmm11,%xmm11
679
+ vmovdqa 16(%rsp),%xmm4
680
+ vpmuludq 96(%rsp),%xmm4,%xmm4
681
+ vpaddq %xmm4,%xmm12,%xmm12
682
+ vmovdqa 48(%rsp),%xmm4
683
+ vpmuludq 96(%rsp),%xmm4,%xmm4
684
+ vpaddq %xmm4,%xmm9,%xmm9
685
+ vpmuludq 0(%rsp),%xmm2,%xmm2
686
+ vpaddq %xmm2,%xmm10,%xmm10
687
+ vmovdqa 32(%rsp),%xmm2
681
688
  vpmuludq 0(%rsp),%xmm2,%xmm2
682
- paddq %xmm2,%xmm10
683
- movdqa 32(%rsp),%xmm2
684
- pmuludq 0(%rsp),%xmm2
685
- paddq %xmm2,%xmm3
686
- movdqa 64(%rsp),%xmm2
687
- pmuludq 48(%rsp),%xmm2
688
- paddq %xmm2,%xmm12
689
- movdqa 96(%rsp),%xmm2
690
- pmuludq 80(%rsp),%xmm2
691
- paddq %xmm2,%xmm1
692
- movdqa 448(%rsp),%xmm2
693
- pmuludq 112(%rsp),%xmm2
694
- paddq %xmm2,%xmm5
689
+ vpaddq %xmm2,%xmm3,%xmm3
690
+ vmovdqa 64(%rsp),%xmm2
691
+ vpmuludq 48(%rsp),%xmm2,%xmm2
692
+ vpaddq %xmm2,%xmm12,%xmm12
693
+ vmovdqa 96(%rsp),%xmm2
694
+ vpmuludq 80(%rsp),%xmm2,%xmm2
695
+ vpaddq %xmm2,%xmm1,%xmm1
696
+ vmovdqa 448(%rsp),%xmm2
697
+ vpmuludq 112(%rsp),%xmm2,%xmm2
698
+ vpaddq %xmm2,%xmm5,%xmm5
695
699
  vpsrlq $26,%xmm3,%xmm2
696
- paddq %xmm2,%xmm11
697
- pand m26(%rip),%xmm3
700
+ vpaddq %xmm2,%xmm11,%xmm11
701
+ vpand m26(%rip),%xmm3,%xmm3
698
702
  vpsrlq $25,%xmm14,%xmm2
699
- paddq %xmm2,%xmm5
700
- pand m25(%rip),%xmm14
703
+ vpaddq %xmm2,%xmm5,%xmm5
704
+ vpand m25(%rip),%xmm14,%xmm14
701
705
  vpsrlq $25,%xmm11,%xmm2
702
- paddq %xmm2,%xmm12
703
- pand m25(%rip),%xmm11
706
+ vpaddq %xmm2,%xmm12,%xmm12
707
+ vpand m25(%rip),%xmm11,%xmm11
704
708
  vpsrlq $26,%xmm5,%xmm2
705
- paddq %xmm2,%xmm0
706
- pand m26(%rip),%xmm5
709
+ vpaddq %xmm2,%xmm0,%xmm0
710
+ vpand m26(%rip),%xmm5,%xmm5
707
711
  vpsrlq $26,%xmm12,%xmm2
708
- paddq %xmm2,%xmm9
709
- pand m26(%rip),%xmm12
712
+ vpaddq %xmm2,%xmm9,%xmm9
713
+ vpand m26(%rip),%xmm12,%xmm12
710
714
  vpsrlq $25,%xmm0,%xmm2
711
- paddq %xmm2,%xmm8
712
- pand m25(%rip),%xmm0
715
+ vpaddq %xmm2,%xmm8,%xmm8
716
+ vpand m25(%rip),%xmm0,%xmm0
713
717
  vpsrlq $25,%xmm9,%xmm2
714
- paddq %xmm2,%xmm1
715
- pand m25(%rip),%xmm9
718
+ vpaddq %xmm2,%xmm1,%xmm1
719
+ vpand m25(%rip),%xmm9,%xmm9
716
720
  vpsrlq $26,%xmm8,%xmm2
717
- paddq %xmm2,%xmm10
718
- pand m26(%rip),%xmm8
721
+ vpaddq %xmm2,%xmm10,%xmm10
722
+ vpand m26(%rip),%xmm8,%xmm8
719
723
  vpsrlq $26,%xmm1,%xmm2
720
- paddq %xmm2,%xmm14
721
- pand m26(%rip),%xmm1
724
+ vpaddq %xmm2,%xmm14,%xmm14
725
+ vpand m26(%rip),%xmm1,%xmm1
722
726
  vpsrlq $25,%xmm10,%xmm2
723
727
  vpsllq $4,%xmm2,%xmm4
724
- paddq %xmm2,%xmm3
725
- psllq $1,%xmm2
726
- paddq %xmm2,%xmm4
727
- paddq %xmm4,%xmm3
728
- pand m25(%rip),%xmm10
728
+ vpaddq %xmm2,%xmm3,%xmm3
729
+ vpsllq $1,%xmm2,%xmm2
730
+ vpaddq %xmm2,%xmm4,%xmm4
731
+ vpaddq %xmm4,%xmm3,%xmm3
732
+ vpand m25(%rip),%xmm10,%xmm10
729
733
  vpsrlq $25,%xmm14,%xmm2
730
- paddq %xmm2,%xmm5
731
- pand m25(%rip),%xmm14
734
+ vpaddq %xmm2,%xmm5,%xmm5
735
+ vpand m25(%rip),%xmm14,%xmm14
732
736
  vpsrlq $26,%xmm3,%xmm2
733
- paddq %xmm2,%xmm11
734
- pand m26(%rip),%xmm3
737
+ vpaddq %xmm2,%xmm11,%xmm11
738
+ vpand m26(%rip),%xmm3,%xmm3
735
739
  vpunpckhqdq %xmm11,%xmm3,%xmm2
736
- movdqa %xmm2,0(%rsp)
737
- pshufd $0,%xmm3,%xmm2
738
- pshufd $0,%xmm11,%xmm3
740
+ vmovdqa %xmm2,0(%rsp)
741
+ vpshufd $0,%xmm3,%xmm2
742
+ vpshufd $0,%xmm11,%xmm3
739
743
  vpmuludq 160(%rsp),%xmm2,%xmm4
740
744
  vpmuludq 432(%rsp),%xmm3,%xmm6
741
- paddq %xmm6,%xmm4
745
+ vpaddq %xmm6,%xmm4,%xmm4
742
746
  vpmuludq 176(%rsp),%xmm2,%xmm6
743
747
  vpmuludq 304(%rsp),%xmm3,%xmm7
744
- paddq %xmm7,%xmm6
748
+ vpaddq %xmm7,%xmm6,%xmm6
745
749
  vpmuludq 208(%rsp),%xmm2,%xmm7
746
750
  vpmuludq 336(%rsp),%xmm3,%xmm11
747
- paddq %xmm11,%xmm7
751
+ vpaddq %xmm11,%xmm7,%xmm7
748
752
  vpmuludq 240(%rsp),%xmm2,%xmm11
749
753
  vpmuludq 368(%rsp),%xmm3,%xmm13
750
- paddq %xmm13,%xmm11
754
+ vpaddq %xmm13,%xmm11,%xmm11
751
755
  vpmuludq 272(%rsp),%xmm2,%xmm2
752
756
  vpmuludq 400(%rsp),%xmm3,%xmm3
753
- paddq %xmm3,%xmm2
757
+ vpaddq %xmm3,%xmm2,%xmm2
754
758
  vpunpckhqdq %xmm9,%xmm12,%xmm3
755
- movdqa %xmm3,16(%rsp)
756
- pshufd $0,%xmm12,%xmm3
757
- pshufd $0,%xmm9,%xmm9
759
+ vmovdqa %xmm3,16(%rsp)
760
+ vpshufd $0,%xmm12,%xmm3
761
+ vpshufd $0,%xmm9,%xmm9
758
762
  vpmuludq 288(%rsp),%xmm3,%xmm12
759
- paddq %xmm12,%xmm4
763
+ vpaddq %xmm12,%xmm4,%xmm4
760
764
  vpmuludq 416(%rsp),%xmm9,%xmm12
761
- paddq %xmm12,%xmm4
765
+ vpaddq %xmm12,%xmm4,%xmm4
762
766
  vpmuludq 160(%rsp),%xmm3,%xmm12
763
- paddq %xmm12,%xmm6
767
+ vpaddq %xmm12,%xmm6,%xmm6
764
768
  vpmuludq 432(%rsp),%xmm9,%xmm12
765
- paddq %xmm12,%xmm6
769
+ vpaddq %xmm12,%xmm6,%xmm6
766
770
  vpmuludq 176(%rsp),%xmm3,%xmm12
767
- paddq %xmm12,%xmm7
771
+ vpaddq %xmm12,%xmm7,%xmm7
768
772
  vpmuludq 304(%rsp),%xmm9,%xmm12
769
- paddq %xmm12,%xmm7
773
+ vpaddq %xmm12,%xmm7,%xmm7
770
774
  vpmuludq 208(%rsp),%xmm3,%xmm12
771
- paddq %xmm12,%xmm11
775
+ vpaddq %xmm12,%xmm11,%xmm11
772
776
  vpmuludq 336(%rsp),%xmm9,%xmm12
773
- paddq %xmm12,%xmm11
777
+ vpaddq %xmm12,%xmm11,%xmm11
774
778
  vpmuludq 240(%rsp),%xmm3,%xmm3
775
- paddq %xmm3,%xmm2
779
+ vpaddq %xmm3,%xmm2,%xmm2
776
780
  vpmuludq 368(%rsp),%xmm9,%xmm3
777
- paddq %xmm3,%xmm2
781
+ vpaddq %xmm3,%xmm2,%xmm2
778
782
  vpunpckhqdq %xmm14,%xmm1,%xmm3
779
- movdqa %xmm3,32(%rsp)
780
- pshufd $0,%xmm1,%xmm1
781
- pshufd $0,%xmm14,%xmm3
783
+ vmovdqa %xmm3,32(%rsp)
784
+ vpshufd $0,%xmm1,%xmm1
785
+ vpshufd $0,%xmm14,%xmm3
782
786
  vpmuludq 256(%rsp),%xmm1,%xmm9
783
- paddq %xmm9,%xmm4
787
+ vpaddq %xmm9,%xmm4,%xmm4
784
788
  vpmuludq 384(%rsp),%xmm3,%xmm9
785
- paddq %xmm9,%xmm4
789
+ vpaddq %xmm9,%xmm4,%xmm4
786
790
  vpmuludq 288(%rsp),%xmm1,%xmm9
787
- paddq %xmm9,%xmm6
791
+ vpaddq %xmm9,%xmm6,%xmm6
788
792
  vpmuludq 416(%rsp),%xmm3,%xmm9
789
- paddq %xmm9,%xmm6
793
+ vpaddq %xmm9,%xmm6,%xmm6
790
794
  vpmuludq 160(%rsp),%xmm1,%xmm9
791
- paddq %xmm9,%xmm7
795
+ vpaddq %xmm9,%xmm7,%xmm7
792
796
  vpmuludq 432(%rsp),%xmm3,%xmm9
793
- paddq %xmm9,%xmm7
797
+ vpaddq %xmm9,%xmm7,%xmm7
794
798
  vpmuludq 176(%rsp),%xmm1,%xmm9
795
- paddq %xmm9,%xmm11
799
+ vpaddq %xmm9,%xmm11,%xmm11
796
800
  vpmuludq 304(%rsp),%xmm3,%xmm9
797
- paddq %xmm9,%xmm11
801
+ vpaddq %xmm9,%xmm11,%xmm11
798
802
  vpmuludq 208(%rsp),%xmm1,%xmm1
799
- paddq %xmm1,%xmm2
803
+ vpaddq %xmm1,%xmm2,%xmm2
800
804
  vpmuludq 336(%rsp),%xmm3,%xmm1
801
- paddq %xmm1,%xmm2
805
+ vpaddq %xmm1,%xmm2,%xmm2
802
806
  vpunpckhqdq %xmm0,%xmm5,%xmm1
803
- movdqa %xmm1,48(%rsp)
804
- pshufd $0,%xmm5,%xmm1
805
- pshufd $0,%xmm0,%xmm0
807
+ vmovdqa %xmm1,48(%rsp)
808
+ vpshufd $0,%xmm5,%xmm1
809
+ vpshufd $0,%xmm0,%xmm0
806
810
  vpmuludq 224(%rsp),%xmm1,%xmm3
807
- paddq %xmm3,%xmm4
811
+ vpaddq %xmm3,%xmm4,%xmm4
808
812
  vpmuludq 352(%rsp),%xmm0,%xmm3
809
- paddq %xmm3,%xmm4
813
+ vpaddq %xmm3,%xmm4,%xmm4
810
814
  vpmuludq 256(%rsp),%xmm1,%xmm3
811
- paddq %xmm3,%xmm6
815
+ vpaddq %xmm3,%xmm6,%xmm6
812
816
  vpmuludq 384(%rsp),%xmm0,%xmm3
813
- paddq %xmm3,%xmm6
817
+ vpaddq %xmm3,%xmm6,%xmm6
814
818
  vpmuludq 288(%rsp),%xmm1,%xmm3
815
- paddq %xmm3,%xmm7
819
+ vpaddq %xmm3,%xmm7,%xmm7
816
820
  vpmuludq 416(%rsp),%xmm0,%xmm3
817
- paddq %xmm3,%xmm7
821
+ vpaddq %xmm3,%xmm7,%xmm7
818
822
  vpmuludq 160(%rsp),%xmm1,%xmm3
819
- paddq %xmm3,%xmm11
823
+ vpaddq %xmm3,%xmm11,%xmm11
820
824
  vpmuludq 432(%rsp),%xmm0,%xmm3
821
- paddq %xmm3,%xmm11
825
+ vpaddq %xmm3,%xmm11,%xmm11
822
826
  vpmuludq 176(%rsp),%xmm1,%xmm1
823
- paddq %xmm1,%xmm2
827
+ vpaddq %xmm1,%xmm2,%xmm2
824
828
  vpmuludq 304(%rsp),%xmm0,%xmm0
825
- paddq %xmm0,%xmm2
829
+ vpaddq %xmm0,%xmm2,%xmm2
826
830
  vpunpckhqdq %xmm10,%xmm8,%xmm0
827
- movdqa %xmm0,64(%rsp)
828
- pshufd $0,%xmm8,%xmm0
829
- pshufd $0,%xmm10,%xmm1
831
+ vmovdqa %xmm0,64(%rsp)
832
+ vpshufd $0,%xmm8,%xmm0
833
+ vpshufd $0,%xmm10,%xmm1
830
834
  vpmuludq 192(%rsp),%xmm0,%xmm3
831
- paddq %xmm3,%xmm4
835
+ vpaddq %xmm3,%xmm4,%xmm4
832
836
  vpmuludq 320(%rsp),%xmm1,%xmm3
833
- paddq %xmm3,%xmm4
837
+ vpaddq %xmm3,%xmm4,%xmm4
834
838
  vpmuludq 224(%rsp),%xmm0,%xmm3
835
- paddq %xmm3,%xmm6
839
+ vpaddq %xmm3,%xmm6,%xmm6
836
840
  vpmuludq 352(%rsp),%xmm1,%xmm3
837
- paddq %xmm3,%xmm6
841
+ vpaddq %xmm3,%xmm6,%xmm6
838
842
  vpmuludq 256(%rsp),%xmm0,%xmm3
839
- paddq %xmm3,%xmm7
843
+ vpaddq %xmm3,%xmm7,%xmm7
840
844
  vpmuludq 384(%rsp),%xmm1,%xmm3
841
- paddq %xmm3,%xmm7
845
+ vpaddq %xmm3,%xmm7,%xmm7
842
846
  vpmuludq 288(%rsp),%xmm0,%xmm3
843
- paddq %xmm3,%xmm11
847
+ vpaddq %xmm3,%xmm11,%xmm11
844
848
  vpmuludq 416(%rsp),%xmm1,%xmm3
845
- paddq %xmm3,%xmm11
849
+ vpaddq %xmm3,%xmm11,%xmm11
846
850
  vpmuludq 160(%rsp),%xmm0,%xmm0
847
- paddq %xmm0,%xmm2
851
+ vpaddq %xmm0,%xmm2,%xmm2
848
852
  vpmuludq 432(%rsp),%xmm1,%xmm0
849
- paddq %xmm0,%xmm2
850
- movdqa %xmm4,80(%rsp)
851
- movdqa %xmm6,96(%rsp)
852
- movdqa %xmm7,112(%rsp)
853
- movdqa %xmm11,448(%rsp)
854
- movdqa %xmm2,496(%rsp)
855
- movdqa 144(%rsp),%xmm0
853
+ vpaddq %xmm0,%xmm2,%xmm2
854
+ vmovdqa %xmm4,80(%rsp)
855
+ vmovdqa %xmm6,96(%rsp)
856
+ vmovdqa %xmm7,112(%rsp)
857
+ vmovdqa %xmm11,448(%rsp)
858
+ vmovdqa %xmm2,496(%rsp)
859
+ vmovdqa 144(%rsp),%xmm0
856
860
  vpmuludq %xmm0,%xmm0,%xmm1
857
- paddq %xmm0,%xmm0
858
- movdqa 128(%rsp),%xmm2
861
+ vpaddq %xmm0,%xmm0,%xmm0
862
+ vmovdqa 128(%rsp),%xmm2
859
863
  vpmuludq %xmm2,%xmm0,%xmm3
860
- movdqa 480(%rsp),%xmm4
864
+ vmovdqa 480(%rsp),%xmm4
861
865
  vpmuludq %xmm4,%xmm0,%xmm5
862
- movdqa 464(%rsp),%xmm6
866
+ vmovdqa 464(%rsp),%xmm6
863
867
  vpmuludq %xmm6,%xmm0,%xmm7
864
- movdqa 528(%rsp),%xmm8
868
+ vmovdqa 528(%rsp),%xmm8
865
869
  vpmuludq %xmm8,%xmm0,%xmm9
866
870
  vpmuludq 512(%rsp),%xmm0,%xmm10
867
871
  vpmuludq 592(%rsp),%xmm0,%xmm11
868
872
  vpmuludq 576(%rsp),%xmm0,%xmm12
869
873
  vpmuludq 624(%rsp),%xmm0,%xmm13
870
- movdqa 672(%rsp),%xmm14
874
+ vmovdqa 672(%rsp),%xmm14
871
875
  vpmuludq %xmm14,%xmm0,%xmm0
872
876
  vpmuludq v38_38(%rip),%xmm14,%xmm15
873
877
  vpmuludq %xmm15,%xmm14,%xmm14
874
- paddq %xmm14,%xmm13
878
+ vpaddq %xmm14,%xmm13,%xmm13
875
879
  vpaddq %xmm6,%xmm6,%xmm14
876
880
  vpmuludq %xmm14,%xmm6,%xmm6
877
- paddq %xmm6,%xmm11
881
+ vpaddq %xmm6,%xmm11,%xmm11
878
882
  vpaddq %xmm2,%xmm2,%xmm6
879
883
  vpmuludq %xmm6,%xmm2,%xmm2
880
- paddq %xmm2,%xmm5
884
+ vpaddq %xmm2,%xmm5,%xmm5
881
885
  vpmuludq %xmm15,%xmm6,%xmm2
882
- paddq %xmm2,%xmm1
886
+ vpaddq %xmm2,%xmm1,%xmm1
883
887
  vpmuludq %xmm15,%xmm4,%xmm2
884
- paddq %xmm2,%xmm3
888
+ vpaddq %xmm2,%xmm3,%xmm3
885
889
  vpmuludq 544(%rsp),%xmm6,%xmm2
886
- paddq %xmm2,%xmm11
890
+ vpaddq %xmm2,%xmm11,%xmm11
887
891
  vpmuludq 592(%rsp),%xmm6,%xmm2
888
- paddq %xmm2,%xmm12
892
+ vpaddq %xmm2,%xmm12,%xmm12
889
893
  vpmuludq 640(%rsp),%xmm6,%xmm2
890
- paddq %xmm2,%xmm13
894
+ vpaddq %xmm2,%xmm13,%xmm13
891
895
  vpmuludq 624(%rsp),%xmm6,%xmm2
892
- paddq %xmm2,%xmm0
896
+ vpaddq %xmm2,%xmm0,%xmm0
893
897
  vpmuludq %xmm4,%xmm6,%xmm2
894
- paddq %xmm2,%xmm7
898
+ vpaddq %xmm2,%xmm7,%xmm7
895
899
  vpmuludq %xmm14,%xmm6,%xmm2
896
- paddq %xmm2,%xmm9
900
+ vpaddq %xmm2,%xmm9,%xmm9
897
901
  vpmuludq %xmm8,%xmm6,%xmm2
898
- paddq %xmm2,%xmm10
902
+ vpaddq %xmm2,%xmm10,%xmm10
899
903
  vpmuludq %xmm15,%xmm14,%xmm2
900
- paddq %xmm2,%xmm5
904
+ vpaddq %xmm2,%xmm5,%xmm5
901
905
  vpmuludq %xmm15,%xmm8,%xmm2
902
- paddq %xmm2,%xmm7
906
+ vpaddq %xmm2,%xmm7,%xmm7
903
907
  vpmuludq %xmm4,%xmm4,%xmm2
904
- paddq %xmm2,%xmm9
908
+ vpaddq %xmm2,%xmm9,%xmm9
905
909
  vpmuludq %xmm14,%xmm4,%xmm2
906
- paddq %xmm2,%xmm10
910
+ vpaddq %xmm2,%xmm10,%xmm10
907
911
  vpaddq %xmm4,%xmm4,%xmm2
908
912
  vpmuludq %xmm8,%xmm2,%xmm4
909
- paddq %xmm4,%xmm11
913
+ vpaddq %xmm4,%xmm11,%xmm11
910
914
  vpmuludq 688(%rsp),%xmm2,%xmm4
911
- paddq %xmm4,%xmm1
915
+ vpaddq %xmm4,%xmm1,%xmm1
912
916
  vpmuludq 688(%rsp),%xmm14,%xmm4
913
- paddq %xmm4,%xmm3
917
+ vpaddq %xmm4,%xmm3,%xmm3
914
918
  vpmuludq 512(%rsp),%xmm2,%xmm4
915
- paddq %xmm4,%xmm12
919
+ vpaddq %xmm4,%xmm12,%xmm12
916
920
  vpmuludq 592(%rsp),%xmm2,%xmm4
917
- paddq %xmm4,%xmm13
921
+ vpaddq %xmm4,%xmm13,%xmm13
918
922
  vpmuludq 576(%rsp),%xmm2,%xmm2
919
- paddq %xmm2,%xmm0
923
+ vpaddq %xmm2,%xmm0,%xmm0
920
924
  vpmuludq 656(%rsp),%xmm8,%xmm2
921
- paddq %xmm2,%xmm3
925
+ vpaddq %xmm2,%xmm3,%xmm3
922
926
  vpmuludq %xmm8,%xmm14,%xmm2
923
- paddq %xmm2,%xmm12
927
+ vpaddq %xmm2,%xmm12,%xmm12
924
928
  vpmuludq %xmm8,%xmm8,%xmm2
925
- paddq %xmm2,%xmm13
929
+ vpaddq %xmm2,%xmm13,%xmm13
926
930
  vpaddq %xmm8,%xmm8,%xmm2
927
931
  vpmuludq 688(%rsp),%xmm2,%xmm4
928
- paddq %xmm4,%xmm5
932
+ vpaddq %xmm4,%xmm5,%xmm5
929
933
  vpmuludq 544(%rsp),%xmm15,%xmm4
930
- paddq %xmm4,%xmm9
934
+ vpaddq %xmm4,%xmm9,%xmm9
931
935
  vpmuludq 592(%rsp),%xmm15,%xmm4
932
- paddq %xmm4,%xmm10
936
+ vpaddq %xmm4,%xmm10,%xmm10
933
937
  vpmuludq 656(%rsp),%xmm14,%xmm4
934
- paddq %xmm4,%xmm1
935
- movdqa 544(%rsp),%xmm4
936
- pmuludq 688(%rsp),%xmm4
937
- paddq %xmm4,%xmm7
938
+ vpaddq %xmm4,%xmm1,%xmm1
939
+ vmovdqa 544(%rsp),%xmm4
940
+ vpmuludq 688(%rsp),%xmm4,%xmm4
941
+ vpaddq %xmm4,%xmm7,%xmm7
938
942
  vpmuludq 544(%rsp),%xmm14,%xmm4
939
- paddq %xmm4,%xmm13
943
+ vpaddq %xmm4,%xmm13,%xmm13
940
944
  vpmuludq 592(%rsp),%xmm14,%xmm4
941
- paddq %xmm4,%xmm0
945
+ vpaddq %xmm4,%xmm0,%xmm0
942
946
  vpmuludq 640(%rsp),%xmm15,%xmm4
943
- paddq %xmm4,%xmm11
947
+ vpaddq %xmm4,%xmm11,%xmm11
944
948
  vpmuludq 624(%rsp),%xmm15,%xmm4
945
- paddq %xmm4,%xmm12
946
- movdqa 592(%rsp),%xmm4
947
- paddq %xmm4,%xmm4
948
- pmuludq 688(%rsp),%xmm4
949
- paddq %xmm4,%xmm9
949
+ vpaddq %xmm4,%xmm12,%xmm12
950
+ vmovdqa 592(%rsp),%xmm4
951
+ vpaddq %xmm4,%xmm4,%xmm4
952
+ vpmuludq 688(%rsp),%xmm4,%xmm4
953
+ vpaddq %xmm4,%xmm9,%xmm9
950
954
  vpmuludq 608(%rsp),%xmm2,%xmm4
951
- paddq %xmm4,%xmm1
952
- movdqa 544(%rsp),%xmm4
953
- pmuludq 608(%rsp),%xmm4
954
- paddq %xmm4,%xmm3
955
- movdqa 544(%rsp),%xmm4
956
- pmuludq 656(%rsp),%xmm4
957
- paddq %xmm4,%xmm5
958
- movdqa 592(%rsp),%xmm4
959
- pmuludq 656(%rsp),%xmm4
960
- paddq %xmm4,%xmm7
961
- movdqa 640(%rsp),%xmm4
962
- pmuludq 688(%rsp),%xmm4
963
- paddq %xmm4,%xmm10
955
+ vpaddq %xmm4,%xmm1,%xmm1
956
+ vmovdqa 544(%rsp),%xmm4
957
+ vpmuludq 608(%rsp),%xmm4,%xmm4
958
+ vpaddq %xmm4,%xmm3,%xmm3
959
+ vmovdqa 544(%rsp),%xmm4
960
+ vpmuludq 656(%rsp),%xmm4,%xmm4
961
+ vpaddq %xmm4,%xmm5,%xmm5
962
+ vmovdqa 592(%rsp),%xmm4
963
+ vpmuludq 656(%rsp),%xmm4,%xmm4
964
+ vpaddq %xmm4,%xmm7,%xmm7
965
+ vmovdqa 640(%rsp),%xmm4
966
+ vpmuludq 688(%rsp),%xmm4,%xmm4
967
+ vpaddq %xmm4,%xmm10,%xmm10
968
+ vpmuludq 512(%rsp),%xmm2,%xmm2
969
+ vpaddq %xmm2,%xmm0,%xmm0
970
+ vmovdqa 560(%rsp),%xmm2
964
971
  vpmuludq 512(%rsp),%xmm2,%xmm2
965
- paddq %xmm2,%xmm0
966
- movdqa 560(%rsp),%xmm2
967
- pmuludq 512(%rsp),%xmm2
968
- paddq %xmm2,%xmm1
969
- movdqa 608(%rsp),%xmm2
970
- pmuludq 592(%rsp),%xmm2
971
- paddq %xmm2,%xmm5
972
- movdqa 656(%rsp),%xmm2
973
- pmuludq 576(%rsp),%xmm2
974
- paddq %xmm2,%xmm9
975
- movdqa 688(%rsp),%xmm2
976
- pmuludq 624(%rsp),%xmm2
977
- paddq %xmm2,%xmm11
972
+ vpaddq %xmm2,%xmm1,%xmm1
973
+ vmovdqa 608(%rsp),%xmm2
974
+ vpmuludq 592(%rsp),%xmm2,%xmm2
975
+ vpaddq %xmm2,%xmm5,%xmm5
976
+ vmovdqa 656(%rsp),%xmm2
977
+ vpmuludq 576(%rsp),%xmm2,%xmm2
978
+ vpaddq %xmm2,%xmm9,%xmm9
979
+ vmovdqa 688(%rsp),%xmm2
980
+ vpmuludq 624(%rsp),%xmm2,%xmm2
981
+ vpaddq %xmm2,%xmm11,%xmm11
978
982
  vpsrlq $26,%xmm1,%xmm2
979
- paddq %xmm2,%xmm3
980
- pand m26(%rip),%xmm1
983
+ vpaddq %xmm2,%xmm3,%xmm3
984
+ vpand m26(%rip),%xmm1,%xmm1
981
985
  vpsrlq $25,%xmm10,%xmm2
982
- paddq %xmm2,%xmm11
983
- pand m25(%rip),%xmm10
986
+ vpaddq %xmm2,%xmm11,%xmm11
987
+ vpand m25(%rip),%xmm10,%xmm10
984
988
  vpsrlq $25,%xmm3,%xmm2
985
- paddq %xmm2,%xmm5
986
- pand m25(%rip),%xmm3
989
+ vpaddq %xmm2,%xmm5,%xmm5
990
+ vpand m25(%rip),%xmm3,%xmm3
987
991
  vpsrlq $26,%xmm11,%xmm2
988
- paddq %xmm2,%xmm12
989
- pand m26(%rip),%xmm11
992
+ vpaddq %xmm2,%xmm12,%xmm12
993
+ vpand m26(%rip),%xmm11,%xmm11
990
994
  vpsrlq $26,%xmm5,%xmm2
991
- paddq %xmm2,%xmm7
992
- pand m26(%rip),%xmm5
995
+ vpaddq %xmm2,%xmm7,%xmm7
996
+ vpand m26(%rip),%xmm5,%xmm5
993
997
  vpsrlq $25,%xmm12,%xmm2
994
- paddq %xmm2,%xmm13
995
- pand m25(%rip),%xmm12
998
+ vpaddq %xmm2,%xmm13,%xmm13
999
+ vpand m25(%rip),%xmm12,%xmm12
996
1000
  vpsrlq $25,%xmm7,%xmm2
997
- paddq %xmm2,%xmm9
998
- pand m25(%rip),%xmm7
1001
+ vpaddq %xmm2,%xmm9,%xmm9
1002
+ vpand m25(%rip),%xmm7,%xmm7
999
1003
  vpsrlq $26,%xmm13,%xmm2
1000
- paddq %xmm2,%xmm0
1001
- pand m26(%rip),%xmm13
1004
+ vpaddq %xmm2,%xmm0,%xmm0
1005
+ vpand m26(%rip),%xmm13,%xmm13
1002
1006
  vpsrlq $26,%xmm9,%xmm2
1003
- paddq %xmm2,%xmm10
1004
- pand m26(%rip),%xmm9
1007
+ vpaddq %xmm2,%xmm10,%xmm10
1008
+ vpand m26(%rip),%xmm9,%xmm9
1005
1009
  vpsrlq $25,%xmm0,%xmm2
1006
1010
  vpsllq $4,%xmm2,%xmm4
1007
- paddq %xmm2,%xmm1
1008
- psllq $1,%xmm2
1009
- paddq %xmm2,%xmm4
1010
- paddq %xmm4,%xmm1
1011
- pand m25(%rip),%xmm0
1011
+ vpaddq %xmm2,%xmm1,%xmm1
1012
+ vpsllq $1,%xmm2,%xmm2
1013
+ vpaddq %xmm2,%xmm4,%xmm4
1014
+ vpaddq %xmm4,%xmm1,%xmm1
1015
+ vpand m25(%rip),%xmm0,%xmm0
1012
1016
  vpsrlq $25,%xmm10,%xmm2
1013
- paddq %xmm2,%xmm11
1014
- pand m25(%rip),%xmm10
1017
+ vpaddq %xmm2,%xmm11,%xmm11
1018
+ vpand m25(%rip),%xmm10,%xmm10
1015
1019
  vpsrlq $26,%xmm1,%xmm2
1016
- paddq %xmm2,%xmm3
1017
- pand m26(%rip),%xmm1
1020
+ vpaddq %xmm2,%xmm3,%xmm3
1021
+ vpand m26(%rip),%xmm1,%xmm1
1018
1022
  vpunpckhqdq %xmm3,%xmm1,%xmm2
1019
1023
  vpunpcklqdq %xmm3,%xmm1,%xmm1
1020
- movdqa %xmm1,464(%rsp)
1024
+ vmovdqa %xmm1,464(%rsp)
1021
1025
  vpaddq subc0(%rip),%xmm2,%xmm3
1022
- psubq %xmm1,%xmm3
1026
+ vpsubq %xmm1,%xmm3,%xmm3
1023
1027
  vpunpckhqdq %xmm3,%xmm2,%xmm1
1024
1028
  vpunpcklqdq %xmm3,%xmm2,%xmm2
1025
- movdqa %xmm2,480(%rsp)
1026
- movdqa %xmm1,512(%rsp)
1027
- psllq $1,%xmm1
1028
- movdqa %xmm1,528(%rsp)
1029
- pmuludq v121666_121666(%rip),%xmm3
1030
- movdqa 80(%rsp),%xmm1
1029
+ vmovdqa %xmm2,480(%rsp)
1030
+ vmovdqa %xmm1,512(%rsp)
1031
+ vpsllq $1,%xmm1,%xmm1
1032
+ vmovdqa %xmm1,528(%rsp)
1033
+ vpmuludq v121666_121666(%rip),%xmm3,%xmm3
1034
+ vmovdqa 80(%rsp),%xmm1
1031
1035
  vpunpcklqdq %xmm1,%xmm3,%xmm2
1032
1036
  vpunpckhqdq %xmm1,%xmm3,%xmm1
1033
1037
  vpunpckhqdq %xmm7,%xmm5,%xmm3
1034
1038
  vpunpcklqdq %xmm7,%xmm5,%xmm4
1035
- movdqa %xmm4,544(%rsp)
1039
+ vmovdqa %xmm4,544(%rsp)
1036
1040
  vpaddq subc2(%rip),%xmm3,%xmm5
1037
- psubq %xmm4,%xmm5
1041
+ vpsubq %xmm4,%xmm5,%xmm5
1038
1042
  vpunpckhqdq %xmm5,%xmm3,%xmm4
1039
1043
  vpunpcklqdq %xmm5,%xmm3,%xmm3
1040
- movdqa %xmm3,560(%rsp)
1041
- movdqa %xmm4,576(%rsp)
1042
- psllq $1,%xmm4
1043
- movdqa %xmm4,592(%rsp)
1044
- pmuludq v121666_121666(%rip),%xmm5
1045
- movdqa 96(%rsp),%xmm3
1044
+ vmovdqa %xmm3,560(%rsp)
1045
+ vmovdqa %xmm4,576(%rsp)
1046
+ vpsllq $1,%xmm4,%xmm4
1047
+ vmovdqa %xmm4,592(%rsp)
1048
+ vpmuludq v121666_121666(%rip),%xmm5,%xmm5
1049
+ vmovdqa 96(%rsp),%xmm3
1046
1050
  vpunpcklqdq %xmm3,%xmm5,%xmm4
1047
1051
  vpunpckhqdq %xmm3,%xmm5,%xmm3
1048
1052
  vpunpckhqdq %xmm10,%xmm9,%xmm5
1049
1053
  vpunpcklqdq %xmm10,%xmm9,%xmm6
1050
- movdqa %xmm6,608(%rsp)
1054
+ vmovdqa %xmm6,608(%rsp)
1051
1055
  vpaddq subc2(%rip),%xmm5,%xmm7
1052
- psubq %xmm6,%xmm7
1056
+ vpsubq %xmm6,%xmm7,%xmm7
1053
1057
  vpunpckhqdq %xmm7,%xmm5,%xmm6
1054
1058
  vpunpcklqdq %xmm7,%xmm5,%xmm5
1055
- movdqa %xmm5,624(%rsp)
1056
- movdqa %xmm6,640(%rsp)
1057
- psllq $1,%xmm6
1058
- movdqa %xmm6,656(%rsp)
1059
- pmuludq v121666_121666(%rip),%xmm7
1060
- movdqa 112(%rsp),%xmm5
1059
+ vmovdqa %xmm5,624(%rsp)
1060
+ vmovdqa %xmm6,640(%rsp)
1061
+ vpsllq $1,%xmm6,%xmm6
1062
+ vmovdqa %xmm6,656(%rsp)
1063
+ vpmuludq v121666_121666(%rip),%xmm7,%xmm7
1064
+ vmovdqa 112(%rsp),%xmm5
1061
1065
  vpunpcklqdq %xmm5,%xmm7,%xmm6
1062
1066
  vpunpckhqdq %xmm5,%xmm7,%xmm5
1063
1067
  vpunpckhqdq %xmm12,%xmm11,%xmm7
1064
1068
  vpunpcklqdq %xmm12,%xmm11,%xmm8
1065
- movdqa %xmm8,672(%rsp)
1069
+ vmovdqa %xmm8,672(%rsp)
1066
1070
  vpaddq subc2(%rip),%xmm7,%xmm9
1067
- psubq %xmm8,%xmm9
1071
+ vpsubq %xmm8,%xmm9,%xmm9
1068
1072
  vpunpckhqdq %xmm9,%xmm7,%xmm8
1069
1073
  vpunpcklqdq %xmm9,%xmm7,%xmm7
1070
- movdqa %xmm7,688(%rsp)
1071
- movdqa %xmm8,704(%rsp)
1072
- psllq $1,%xmm8
1073
- movdqa %xmm8,720(%rsp)
1074
- pmuludq v121666_121666(%rip),%xmm9
1075
- movdqa 448(%rsp),%xmm7
1074
+ vmovdqa %xmm7,688(%rsp)
1075
+ vmovdqa %xmm8,704(%rsp)
1076
+ vpsllq $1,%xmm8,%xmm8
1077
+ vmovdqa %xmm8,720(%rsp)
1078
+ vpmuludq v121666_121666(%rip),%xmm9,%xmm9
1079
+ vmovdqa 448(%rsp),%xmm7
1076
1080
  vpunpcklqdq %xmm7,%xmm9,%xmm8
1077
1081
  vpunpckhqdq %xmm7,%xmm9,%xmm7
1078
1082
  vpunpckhqdq %xmm0,%xmm13,%xmm9
1079
1083
  vpunpcklqdq %xmm0,%xmm13,%xmm0
1080
- movdqa %xmm0,448(%rsp)
1084
+ vmovdqa %xmm0,448(%rsp)
1081
1085
  vpaddq subc2(%rip),%xmm9,%xmm10
1082
- psubq %xmm0,%xmm10
1086
+ vpsubq %xmm0,%xmm10,%xmm10
1083
1087
  vpunpckhqdq %xmm10,%xmm9,%xmm0
1084
1088
  vpunpcklqdq %xmm10,%xmm9,%xmm9
1085
- movdqa %xmm9,736(%rsp)
1086
- movdqa %xmm0,752(%rsp)
1087
- psllq $1,%xmm0
1088
- movdqa %xmm0,768(%rsp)
1089
- pmuludq v121666_121666(%rip),%xmm10
1090
- movdqa 496(%rsp),%xmm0
1089
+ vmovdqa %xmm9,736(%rsp)
1090
+ vmovdqa %xmm0,752(%rsp)
1091
+ vpsllq $1,%xmm0,%xmm0
1092
+ vmovdqa %xmm0,768(%rsp)
1093
+ vpmuludq v121666_121666(%rip),%xmm10,%xmm10
1094
+ vmovdqa 496(%rsp),%xmm0
1091
1095
  vpunpcklqdq %xmm0,%xmm10,%xmm9
1092
1096
  vpunpckhqdq %xmm0,%xmm10,%xmm0
1093
1097
  vpsrlq $26,%xmm2,%xmm10
1094
- paddq %xmm10,%xmm1
1095
- pand m26(%rip),%xmm2
1098
+ vpaddq %xmm10,%xmm1,%xmm1
1099
+ vpand m26(%rip),%xmm2,%xmm2
1096
1100
  vpsrlq $25,%xmm5,%xmm10
1097
- paddq %xmm10,%xmm8
1098
- pand m25(%rip),%xmm5
1101
+ vpaddq %xmm10,%xmm8,%xmm8
1102
+ vpand m25(%rip),%xmm5,%xmm5
1099
1103
  vpsrlq $25,%xmm1,%xmm10
1100
- paddq %xmm10,%xmm4
1101
- pand m25(%rip),%xmm1
1104
+ vpaddq %xmm10,%xmm4,%xmm4
1105
+ vpand m25(%rip),%xmm1,%xmm1
1102
1106
  vpsrlq $26,%xmm8,%xmm10
1103
- paddq %xmm10,%xmm7
1104
- pand m26(%rip),%xmm8
1107
+ vpaddq %xmm10,%xmm7,%xmm7
1108
+ vpand m26(%rip),%xmm8,%xmm8
1105
1109
  vpsrlq $26,%xmm4,%xmm10
1106
- paddq %xmm10,%xmm3
1107
- pand m26(%rip),%xmm4
1110
+ vpaddq %xmm10,%xmm3,%xmm3
1111
+ vpand m26(%rip),%xmm4,%xmm4
1108
1112
  vpsrlq $25,%xmm7,%xmm10
1109
- paddq %xmm10,%xmm9
1110
- pand m25(%rip),%xmm7
1113
+ vpaddq %xmm10,%xmm9,%xmm9
1114
+ vpand m25(%rip),%xmm7,%xmm7
1111
1115
  vpsrlq $25,%xmm3,%xmm10
1112
- paddq %xmm10,%xmm6
1113
- pand m25(%rip),%xmm3
1116
+ vpaddq %xmm10,%xmm6,%xmm6
1117
+ vpand m25(%rip),%xmm3,%xmm3
1114
1118
  vpsrlq $26,%xmm9,%xmm10
1115
- paddq %xmm10,%xmm0
1116
- pand m26(%rip),%xmm9
1119
+ vpaddq %xmm10,%xmm0,%xmm0
1120
+ vpand m26(%rip),%xmm9,%xmm9
1117
1121
  vpsrlq $26,%xmm6,%xmm10
1118
- paddq %xmm10,%xmm5
1119
- pand m26(%rip),%xmm6
1122
+ vpaddq %xmm10,%xmm5,%xmm5
1123
+ vpand m26(%rip),%xmm6,%xmm6
1120
1124
  vpsrlq $25,%xmm0,%xmm10
1121
1125
  vpsllq $4,%xmm10,%xmm11
1122
- paddq %xmm10,%xmm2
1123
- psllq $1,%xmm10
1124
- paddq %xmm10,%xmm11
1125
- paddq %xmm11,%xmm2
1126
- pand m25(%rip),%xmm0
1126
+ vpaddq %xmm10,%xmm2,%xmm2
1127
+ vpsllq $1,%xmm10,%xmm10
1128
+ vpaddq %xmm10,%xmm11,%xmm11
1129
+ vpaddq %xmm11,%xmm2,%xmm2
1130
+ vpand m25(%rip),%xmm0,%xmm0
1127
1131
  vpsrlq $25,%xmm5,%xmm10
1128
- paddq %xmm10,%xmm8
1129
- pand m25(%rip),%xmm5
1132
+ vpaddq %xmm10,%xmm8,%xmm8
1133
+ vpand m25(%rip),%xmm5,%xmm5
1130
1134
  vpsrlq $26,%xmm2,%xmm10
1131
- paddq %xmm10,%xmm1
1132
- pand m26(%rip),%xmm2
1135
+ vpaddq %xmm10,%xmm1,%xmm1
1136
+ vpand m26(%rip),%xmm2,%xmm2
1133
1137
  vpunpckhqdq %xmm1,%xmm2,%xmm10
1134
- movdqa %xmm10,80(%rsp)
1138
+ vmovdqa %xmm10,80(%rsp)
1135
1139
  vpunpcklqdq %xmm1,%xmm2,%xmm1
1136
1140
  vpunpckhqdq %xmm3,%xmm4,%xmm2
1137
- movdqa %xmm2,96(%rsp)
1141
+ vmovdqa %xmm2,96(%rsp)
1138
1142
  vpunpcklqdq %xmm3,%xmm4,%xmm2
1139
1143
  vpunpckhqdq %xmm5,%xmm6,%xmm3
1140
- movdqa %xmm3,112(%rsp)
1144
+ vmovdqa %xmm3,112(%rsp)
1141
1145
  vpunpcklqdq %xmm5,%xmm6,%xmm3
1142
1146
  vpunpckhqdq %xmm7,%xmm8,%xmm4
1143
- movdqa %xmm4,128(%rsp)
1147
+ vmovdqa %xmm4,128(%rsp)
1144
1148
  vpunpcklqdq %xmm7,%xmm8,%xmm4
1145
1149
  vpunpckhqdq %xmm0,%xmm9,%xmm5
1146
- movdqa %xmm5,144(%rsp)
1150
+ vmovdqa %xmm5,144(%rsp)
1147
1151
  vpunpcklqdq %xmm0,%xmm9,%xmm0
1148
- movdqa 464(%rsp),%xmm5
1149
- paddq %xmm5,%xmm1
1152
+ vmovdqa 464(%rsp),%xmm5
1153
+ vpaddq %xmm5,%xmm1,%xmm1
1150
1154
  vpunpcklqdq %xmm1,%xmm5,%xmm6
1151
1155
  vpunpckhqdq %xmm1,%xmm5,%xmm1
1152
1156
  vpmuludq 512(%rsp),%xmm6,%xmm5
1153
1157
  vpmuludq 480(%rsp),%xmm1,%xmm7
1154
- paddq %xmm7,%xmm5
1158
+ vpaddq %xmm7,%xmm5,%xmm5
1155
1159
  vpmuludq 560(%rsp),%xmm6,%xmm7
1156
1160
  vpmuludq 528(%rsp),%xmm1,%xmm8
1157
- paddq %xmm8,%xmm7
1161
+ vpaddq %xmm8,%xmm7,%xmm7
1158
1162
  vpmuludq 576(%rsp),%xmm6,%xmm8
1159
1163
  vpmuludq 560(%rsp),%xmm1,%xmm9
1160
- paddq %xmm9,%xmm8
1164
+ vpaddq %xmm9,%xmm8,%xmm8
1161
1165
  vpmuludq 624(%rsp),%xmm6,%xmm9
1162
1166
  vpmuludq 592(%rsp),%xmm1,%xmm10
1163
- paddq %xmm10,%xmm9
1167
+ vpaddq %xmm10,%xmm9,%xmm9
1164
1168
  vpmuludq 640(%rsp),%xmm6,%xmm10
1165
1169
  vpmuludq 624(%rsp),%xmm1,%xmm11
1166
- paddq %xmm11,%xmm10
1170
+ vpaddq %xmm11,%xmm10,%xmm10
1167
1171
  vpmuludq 688(%rsp),%xmm6,%xmm11
1168
1172
  vpmuludq 656(%rsp),%xmm1,%xmm12
1169
- paddq %xmm12,%xmm11
1173
+ vpaddq %xmm12,%xmm11,%xmm11
1170
1174
  vpmuludq 704(%rsp),%xmm6,%xmm12
1171
1175
  vpmuludq 688(%rsp),%xmm1,%xmm13
1172
- paddq %xmm13,%xmm12
1176
+ vpaddq %xmm13,%xmm12,%xmm12
1173
1177
  vpmuludq 736(%rsp),%xmm6,%xmm13
1174
1178
  vpmuludq 720(%rsp),%xmm1,%xmm14
1175
- paddq %xmm14,%xmm13
1179
+ vpaddq %xmm14,%xmm13,%xmm13
1176
1180
  vpmuludq 752(%rsp),%xmm6,%xmm14
1177
1181
  vpmuludq 736(%rsp),%xmm1,%xmm15
1178
- paddq %xmm15,%xmm14
1182
+ vpaddq %xmm15,%xmm14,%xmm14
1179
1183
  vpmuludq 480(%rsp),%xmm6,%xmm6
1180
- pmuludq v19_19(%rip),%xmm1
1184
+ vpmuludq v19_19(%rip),%xmm1,%xmm1
1181
1185
  vpmuludq 768(%rsp),%xmm1,%xmm1
1182
- paddq %xmm1,%xmm6
1183
- movdqa 544(%rsp),%xmm1
1184
- paddq %xmm1,%xmm2
1186
+ vpaddq %xmm1,%xmm6,%xmm6
1187
+ vmovdqa 544(%rsp),%xmm1
1188
+ vpaddq %xmm1,%xmm2,%xmm2
1185
1189
  vpunpcklqdq %xmm2,%xmm1,%xmm15
1186
1190
  vpunpckhqdq %xmm2,%xmm1,%xmm1
1187
1191
  vpmuludq 480(%rsp),%xmm15,%xmm2
1188
- paddq %xmm2,%xmm7
1192
+ vpaddq %xmm2,%xmm7,%xmm7
1189
1193
  vpmuludq 512(%rsp),%xmm15,%xmm2
1190
- paddq %xmm2,%xmm8
1194
+ vpaddq %xmm2,%xmm8,%xmm8
1191
1195
  vpmuludq 560(%rsp),%xmm15,%xmm2
1192
- paddq %xmm2,%xmm9
1196
+ vpaddq %xmm2,%xmm9,%xmm9
1193
1197
  vpmuludq 576(%rsp),%xmm15,%xmm2
1194
- paddq %xmm2,%xmm10
1198
+ vpaddq %xmm2,%xmm10,%xmm10
1195
1199
  vpmuludq 624(%rsp),%xmm15,%xmm2
1196
- paddq %xmm2,%xmm11
1200
+ vpaddq %xmm2,%xmm11,%xmm11
1197
1201
  vpmuludq 640(%rsp),%xmm15,%xmm2
1198
- paddq %xmm2,%xmm12
1202
+ vpaddq %xmm2,%xmm12,%xmm12
1199
1203
  vpmuludq 688(%rsp),%xmm15,%xmm2
1200
- paddq %xmm2,%xmm13
1204
+ vpaddq %xmm2,%xmm13,%xmm13
1201
1205
  vpmuludq 704(%rsp),%xmm15,%xmm2
1202
- paddq %xmm2,%xmm14
1203
- pmuludq v19_19(%rip),%xmm15
1206
+ vpaddq %xmm2,%xmm14,%xmm14
1207
+ vpmuludq v19_19(%rip),%xmm15,%xmm15
1204
1208
  vpmuludq 736(%rsp),%xmm15,%xmm2
1205
- paddq %xmm2,%xmm6
1206
- pmuludq 752(%rsp),%xmm15
1207
- paddq %xmm15,%xmm5
1209
+ vpaddq %xmm2,%xmm6,%xmm6
1210
+ vpmuludq 752(%rsp),%xmm15,%xmm15
1211
+ vpaddq %xmm15,%xmm5,%xmm5
1208
1212
  vpmuludq 480(%rsp),%xmm1,%xmm2
1209
- paddq %xmm2,%xmm8
1213
+ vpaddq %xmm2,%xmm8,%xmm8
1210
1214
  vpmuludq 528(%rsp),%xmm1,%xmm2
1211
- paddq %xmm2,%xmm9
1215
+ vpaddq %xmm2,%xmm9,%xmm9
1212
1216
  vpmuludq 560(%rsp),%xmm1,%xmm2
1213
- paddq %xmm2,%xmm10
1217
+ vpaddq %xmm2,%xmm10,%xmm10
1214
1218
  vpmuludq 592(%rsp),%xmm1,%xmm2
1215
- paddq %xmm2,%xmm11
1219
+ vpaddq %xmm2,%xmm11,%xmm11
1216
1220
  vpmuludq 624(%rsp),%xmm1,%xmm2
1217
- paddq %xmm2,%xmm12
1221
+ vpaddq %xmm2,%xmm12,%xmm12
1218
1222
  vpmuludq 656(%rsp),%xmm1,%xmm2
1219
- paddq %xmm2,%xmm13
1223
+ vpaddq %xmm2,%xmm13,%xmm13
1220
1224
  vpmuludq 688(%rsp),%xmm1,%xmm2
1221
- paddq %xmm2,%xmm14
1222
- pmuludq v19_19(%rip),%xmm1
1225
+ vpaddq %xmm2,%xmm14,%xmm14
1226
+ vpmuludq v19_19(%rip),%xmm1,%xmm1
1223
1227
  vpmuludq 720(%rsp),%xmm1,%xmm2
1224
- paddq %xmm2,%xmm6
1228
+ vpaddq %xmm2,%xmm6,%xmm6
1225
1229
  vpmuludq 736(%rsp),%xmm1,%xmm2
1226
- paddq %xmm2,%xmm5
1227
- pmuludq 768(%rsp),%xmm1
1228
- paddq %xmm1,%xmm7
1229
- movdqa 608(%rsp),%xmm1
1230
- paddq %xmm1,%xmm3
1230
+ vpaddq %xmm2,%xmm5,%xmm5
1231
+ vpmuludq 768(%rsp),%xmm1,%xmm1
1232
+ vpaddq %xmm1,%xmm7,%xmm7
1233
+ vmovdqa 608(%rsp),%xmm1
1234
+ vpaddq %xmm1,%xmm3,%xmm3
1231
1235
  vpunpcklqdq %xmm3,%xmm1,%xmm2
1232
1236
  vpunpckhqdq %xmm3,%xmm1,%xmm1
1233
1237
  vpmuludq 480(%rsp),%xmm2,%xmm3
1234
- paddq %xmm3,%xmm9
1238
+ vpaddq %xmm3,%xmm9,%xmm9
1235
1239
  vpmuludq 512(%rsp),%xmm2,%xmm3
1236
- paddq %xmm3,%xmm10
1240
+ vpaddq %xmm3,%xmm10,%xmm10
1237
1241
  vpmuludq 560(%rsp),%xmm2,%xmm3
1238
- paddq %xmm3,%xmm11
1242
+ vpaddq %xmm3,%xmm11,%xmm11
1239
1243
  vpmuludq 576(%rsp),%xmm2,%xmm3
1240
- paddq %xmm3,%xmm12
1244
+ vpaddq %xmm3,%xmm12,%xmm12
1241
1245
  vpmuludq 624(%rsp),%xmm2,%xmm3
1242
- paddq %xmm3,%xmm13
1246
+ vpaddq %xmm3,%xmm13,%xmm13
1243
1247
  vpmuludq 640(%rsp),%xmm2,%xmm3
1244
- paddq %xmm3,%xmm14
1245
- pmuludq v19_19(%rip),%xmm2
1248
+ vpaddq %xmm3,%xmm14,%xmm14
1249
+ vpmuludq v19_19(%rip),%xmm2,%xmm2
1246
1250
  vpmuludq 688(%rsp),%xmm2,%xmm3
1247
- paddq %xmm3,%xmm6
1251
+ vpaddq %xmm3,%xmm6,%xmm6
1248
1252
  vpmuludq 704(%rsp),%xmm2,%xmm3
1249
- paddq %xmm3,%xmm5
1253
+ vpaddq %xmm3,%xmm5,%xmm5
1250
1254
  vpmuludq 736(%rsp),%xmm2,%xmm3
1251
- paddq %xmm3,%xmm7
1252
- pmuludq 752(%rsp),%xmm2
1253
- paddq %xmm2,%xmm8
1255
+ vpaddq %xmm3,%xmm7,%xmm7
1256
+ vpmuludq 752(%rsp),%xmm2,%xmm2
1257
+ vpaddq %xmm2,%xmm8,%xmm8
1254
1258
  vpmuludq 480(%rsp),%xmm1,%xmm2
1255
- paddq %xmm2,%xmm10
1259
+ vpaddq %xmm2,%xmm10,%xmm10
1256
1260
  vpmuludq 528(%rsp),%xmm1,%xmm2
1257
- paddq %xmm2,%xmm11
1261
+ vpaddq %xmm2,%xmm11,%xmm11
1258
1262
  vpmuludq 560(%rsp),%xmm1,%xmm2
1259
- paddq %xmm2,%xmm12
1263
+ vpaddq %xmm2,%xmm12,%xmm12
1260
1264
  vpmuludq 592(%rsp),%xmm1,%xmm2
1261
- paddq %xmm2,%xmm13
1265
+ vpaddq %xmm2,%xmm13,%xmm13
1262
1266
  vpmuludq 624(%rsp),%xmm1,%xmm2
1263
- paddq %xmm2,%xmm14
1264
- pmuludq v19_19(%rip),%xmm1
1267
+ vpaddq %xmm2,%xmm14,%xmm14
1268
+ vpmuludq v19_19(%rip),%xmm1,%xmm1
1265
1269
  vpmuludq 656(%rsp),%xmm1,%xmm2
1266
- paddq %xmm2,%xmm6
1270
+ vpaddq %xmm2,%xmm6,%xmm6
1267
1271
  vpmuludq 688(%rsp),%xmm1,%xmm2
1268
- paddq %xmm2,%xmm5
1272
+ vpaddq %xmm2,%xmm5,%xmm5
1269
1273
  vpmuludq 720(%rsp),%xmm1,%xmm2
1270
- paddq %xmm2,%xmm7
1274
+ vpaddq %xmm2,%xmm7,%xmm7
1271
1275
  vpmuludq 736(%rsp),%xmm1,%xmm2
1272
- paddq %xmm2,%xmm8
1273
- pmuludq 768(%rsp),%xmm1
1274
- paddq %xmm1,%xmm9
1275
- movdqa 672(%rsp),%xmm1
1276
- paddq %xmm1,%xmm4
1276
+ vpaddq %xmm2,%xmm8,%xmm8
1277
+ vpmuludq 768(%rsp),%xmm1,%xmm1
1278
+ vpaddq %xmm1,%xmm9,%xmm9
1279
+ vmovdqa 672(%rsp),%xmm1
1280
+ vpaddq %xmm1,%xmm4,%xmm4
1277
1281
  vpunpcklqdq %xmm4,%xmm1,%xmm2
1278
1282
  vpunpckhqdq %xmm4,%xmm1,%xmm1
1279
1283
  vpmuludq 480(%rsp),%xmm2,%xmm3
1280
- paddq %xmm3,%xmm11
1284
+ vpaddq %xmm3,%xmm11,%xmm11
1281
1285
  vpmuludq 512(%rsp),%xmm2,%xmm3
1282
- paddq %xmm3,%xmm12
1286
+ vpaddq %xmm3,%xmm12,%xmm12
1283
1287
  vpmuludq 560(%rsp),%xmm2,%xmm3
1284
- paddq %xmm3,%xmm13
1288
+ vpaddq %xmm3,%xmm13,%xmm13
1285
1289
  vpmuludq 576(%rsp),%xmm2,%xmm3
1286
- paddq %xmm3,%xmm14
1287
- pmuludq v19_19(%rip),%xmm2
1290
+ vpaddq %xmm3,%xmm14,%xmm14
1291
+ vpmuludq v19_19(%rip),%xmm2,%xmm2
1288
1292
  vpmuludq 624(%rsp),%xmm2,%xmm3
1289
- paddq %xmm3,%xmm6
1293
+ vpaddq %xmm3,%xmm6,%xmm6
1290
1294
  vpmuludq 640(%rsp),%xmm2,%xmm3
1291
- paddq %xmm3,%xmm5
1295
+ vpaddq %xmm3,%xmm5,%xmm5
1292
1296
  vpmuludq 688(%rsp),%xmm2,%xmm3
1293
- paddq %xmm3,%xmm7
1297
+ vpaddq %xmm3,%xmm7,%xmm7
1294
1298
  vpmuludq 704(%rsp),%xmm2,%xmm3
1295
- paddq %xmm3,%xmm8
1299
+ vpaddq %xmm3,%xmm8,%xmm8
1296
1300
  vpmuludq 736(%rsp),%xmm2,%xmm3
1297
- paddq %xmm3,%xmm9
1298
- pmuludq 752(%rsp),%xmm2
1299
- paddq %xmm2,%xmm10
1301
+ vpaddq %xmm3,%xmm9,%xmm9
1302
+ vpmuludq 752(%rsp),%xmm2,%xmm2
1303
+ vpaddq %xmm2,%xmm10,%xmm10
1300
1304
  vpmuludq 480(%rsp),%xmm1,%xmm2
1301
- paddq %xmm2,%xmm12
1305
+ vpaddq %xmm2,%xmm12,%xmm12
1302
1306
  vpmuludq 528(%rsp),%xmm1,%xmm2
1303
- paddq %xmm2,%xmm13
1307
+ vpaddq %xmm2,%xmm13,%xmm13
1304
1308
  vpmuludq 560(%rsp),%xmm1,%xmm2
1305
- paddq %xmm2,%xmm14
1306
- pmuludq v19_19(%rip),%xmm1
1309
+ vpaddq %xmm2,%xmm14,%xmm14
1310
+ vpmuludq v19_19(%rip),%xmm1,%xmm1
1307
1311
  vpmuludq 592(%rsp),%xmm1,%xmm2
1308
- paddq %xmm2,%xmm6
1312
+ vpaddq %xmm2,%xmm6,%xmm6
1309
1313
  vpmuludq 624(%rsp),%xmm1,%xmm2
1310
- paddq %xmm2,%xmm5
1314
+ vpaddq %xmm2,%xmm5,%xmm5
1311
1315
  vpmuludq 656(%rsp),%xmm1,%xmm2
1312
- paddq %xmm2,%xmm7
1316
+ vpaddq %xmm2,%xmm7,%xmm7
1313
1317
  vpmuludq 688(%rsp),%xmm1,%xmm2
1314
- paddq %xmm2,%xmm8
1318
+ vpaddq %xmm2,%xmm8,%xmm8
1315
1319
  vpmuludq 720(%rsp),%xmm1,%xmm2
1316
- paddq %xmm2,%xmm9
1320
+ vpaddq %xmm2,%xmm9,%xmm9
1317
1321
  vpmuludq 736(%rsp),%xmm1,%xmm2
1318
- paddq %xmm2,%xmm10
1319
- pmuludq 768(%rsp),%xmm1
1320
- paddq %xmm1,%xmm11
1321
- movdqa 448(%rsp),%xmm1
1322
- paddq %xmm1,%xmm0
1322
+ vpaddq %xmm2,%xmm10,%xmm10
1323
+ vpmuludq 768(%rsp),%xmm1,%xmm1
1324
+ vpaddq %xmm1,%xmm11,%xmm11
1325
+ vmovdqa 448(%rsp),%xmm1
1326
+ vpaddq %xmm1,%xmm0,%xmm0
1323
1327
  vpunpcklqdq %xmm0,%xmm1,%xmm2
1324
1328
  vpunpckhqdq %xmm0,%xmm1,%xmm0
1325
1329
  vpmuludq 480(%rsp),%xmm2,%xmm1
1326
- paddq %xmm1,%xmm13
1330
+ vpaddq %xmm1,%xmm13,%xmm13
1327
1331
  vpmuludq 512(%rsp),%xmm2,%xmm1
1328
- paddq %xmm1,%xmm14
1329
- pmuludq v19_19(%rip),%xmm2
1332
+ vpaddq %xmm1,%xmm14,%xmm14
1333
+ vpmuludq v19_19(%rip),%xmm2,%xmm2
1330
1334
  vpmuludq 560(%rsp),%xmm2,%xmm1
1331
- paddq %xmm1,%xmm6
1335
+ vpaddq %xmm1,%xmm6,%xmm6
1332
1336
  vpmuludq 576(%rsp),%xmm2,%xmm1
1333
- paddq %xmm1,%xmm5
1337
+ vpaddq %xmm1,%xmm5,%xmm5
1334
1338
  vpmuludq 624(%rsp),%xmm2,%xmm1
1335
- paddq %xmm1,%xmm7
1339
+ vpaddq %xmm1,%xmm7,%xmm7
1336
1340
  vpmuludq 640(%rsp),%xmm2,%xmm1
1337
- paddq %xmm1,%xmm8
1341
+ vpaddq %xmm1,%xmm8,%xmm8
1338
1342
  vpmuludq 688(%rsp),%xmm2,%xmm1
1339
- paddq %xmm1,%xmm9
1343
+ vpaddq %xmm1,%xmm9,%xmm9
1340
1344
  vpmuludq 704(%rsp),%xmm2,%xmm1
1341
- paddq %xmm1,%xmm10
1345
+ vpaddq %xmm1,%xmm10,%xmm10
1342
1346
  vpmuludq 736(%rsp),%xmm2,%xmm1
1343
- paddq %xmm1,%xmm11
1344
- pmuludq 752(%rsp),%xmm2
1345
- paddq %xmm2,%xmm12
1347
+ vpaddq %xmm1,%xmm11,%xmm11
1348
+ vpmuludq 752(%rsp),%xmm2,%xmm2
1349
+ vpaddq %xmm2,%xmm12,%xmm12
1346
1350
  vpmuludq 480(%rsp),%xmm0,%xmm1
1347
- paddq %xmm1,%xmm14
1348
- pmuludq v19_19(%rip),%xmm0
1351
+ vpaddq %xmm1,%xmm14,%xmm14
1352
+ vpmuludq v19_19(%rip),%xmm0,%xmm0
1349
1353
  vpmuludq 528(%rsp),%xmm0,%xmm1
1350
- paddq %xmm1,%xmm6
1354
+ vpaddq %xmm1,%xmm6,%xmm6
1351
1355
  vpmuludq 560(%rsp),%xmm0,%xmm1
1352
- paddq %xmm1,%xmm5
1356
+ vpaddq %xmm1,%xmm5,%xmm5
1353
1357
  vpmuludq 592(%rsp),%xmm0,%xmm1
1354
- paddq %xmm1,%xmm7
1358
+ vpaddq %xmm1,%xmm7,%xmm7
1355
1359
  vpmuludq 624(%rsp),%xmm0,%xmm1
1356
- paddq %xmm1,%xmm8
1360
+ vpaddq %xmm1,%xmm8,%xmm8
1357
1361
  vpmuludq 656(%rsp),%xmm0,%xmm1
1358
- paddq %xmm1,%xmm9
1362
+ vpaddq %xmm1,%xmm9,%xmm9
1359
1363
  vpmuludq 688(%rsp),%xmm0,%xmm1
1360
- paddq %xmm1,%xmm10
1364
+ vpaddq %xmm1,%xmm10,%xmm10
1361
1365
  vpmuludq 720(%rsp),%xmm0,%xmm1
1362
- paddq %xmm1,%xmm11
1366
+ vpaddq %xmm1,%xmm11,%xmm11
1363
1367
  vpmuludq 736(%rsp),%xmm0,%xmm1
1364
- paddq %xmm1,%xmm12
1365
- pmuludq 768(%rsp),%xmm0
1366
- paddq %xmm0,%xmm13
1368
+ vpaddq %xmm1,%xmm12,%xmm12
1369
+ vpmuludq 768(%rsp),%xmm0,%xmm0
1370
+ vpaddq %xmm0,%xmm13,%xmm13
1367
1371
  vpsrlq $26,%xmm6,%xmm0
1368
- paddq %xmm0,%xmm5
1369
- pand m26(%rip),%xmm6
1372
+ vpaddq %xmm0,%xmm5,%xmm5
1373
+ vpand m26(%rip),%xmm6,%xmm6
1370
1374
  vpsrlq $25,%xmm10,%xmm0
1371
- paddq %xmm0,%xmm11
1372
- pand m25(%rip),%xmm10
1375
+ vpaddq %xmm0,%xmm11,%xmm11
1376
+ vpand m25(%rip),%xmm10,%xmm10
1373
1377
  vpsrlq $25,%xmm5,%xmm0
1374
- paddq %xmm0,%xmm7
1375
- pand m25(%rip),%xmm5
1378
+ vpaddq %xmm0,%xmm7,%xmm7
1379
+ vpand m25(%rip),%xmm5,%xmm5
1376
1380
  vpsrlq $26,%xmm11,%xmm0
1377
- paddq %xmm0,%xmm12
1378
- pand m26(%rip),%xmm11
1381
+ vpaddq %xmm0,%xmm12,%xmm12
1382
+ vpand m26(%rip),%xmm11,%xmm11
1379
1383
  vpsrlq $26,%xmm7,%xmm0
1380
- paddq %xmm0,%xmm8
1381
- pand m26(%rip),%xmm7
1384
+ vpaddq %xmm0,%xmm8,%xmm8
1385
+ vpand m26(%rip),%xmm7,%xmm7
1382
1386
  vpsrlq $25,%xmm12,%xmm0
1383
- paddq %xmm0,%xmm13
1384
- pand m25(%rip),%xmm12
1387
+ vpaddq %xmm0,%xmm13,%xmm13
1388
+ vpand m25(%rip),%xmm12,%xmm12
1385
1389
  vpsrlq $25,%xmm8,%xmm0
1386
- paddq %xmm0,%xmm9
1387
- pand m25(%rip),%xmm8
1390
+ vpaddq %xmm0,%xmm9,%xmm9
1391
+ vpand m25(%rip),%xmm8,%xmm8
1388
1392
  vpsrlq $26,%xmm13,%xmm0
1389
- paddq %xmm0,%xmm14
1390
- pand m26(%rip),%xmm13
1393
+ vpaddq %xmm0,%xmm14,%xmm14
1394
+ vpand m26(%rip),%xmm13,%xmm13
1391
1395
  vpsrlq $26,%xmm9,%xmm0
1392
- paddq %xmm0,%xmm10
1393
- pand m26(%rip),%xmm9
1396
+ vpaddq %xmm0,%xmm10,%xmm10
1397
+ vpand m26(%rip),%xmm9,%xmm9
1394
1398
  vpsrlq $25,%xmm14,%xmm0
1395
1399
  vpsllq $4,%xmm0,%xmm1
1396
- paddq %xmm0,%xmm6
1397
- psllq $1,%xmm0
1398
- paddq %xmm0,%xmm1
1399
- paddq %xmm1,%xmm6
1400
- pand m25(%rip),%xmm14
1400
+ vpaddq %xmm0,%xmm6,%xmm6
1401
+ vpsllq $1,%xmm0,%xmm0
1402
+ vpaddq %xmm0,%xmm1,%xmm1
1403
+ vpaddq %xmm1,%xmm6,%xmm6
1404
+ vpand m25(%rip),%xmm14,%xmm14
1401
1405
  vpsrlq $25,%xmm10,%xmm0
1402
- paddq %xmm0,%xmm11
1403
- pand m25(%rip),%xmm10
1406
+ vpaddq %xmm0,%xmm11,%xmm11
1407
+ vpand m25(%rip),%xmm10,%xmm10
1404
1408
  vpsrlq $26,%xmm6,%xmm0
1405
- paddq %xmm0,%xmm5
1406
- pand m26(%rip),%xmm6
1409
+ vpaddq %xmm0,%xmm5,%xmm5
1410
+ vpand m26(%rip),%xmm6,%xmm6
1407
1411
  vpunpckhqdq %xmm5,%xmm6,%xmm1
1408
1412
  vpunpcklqdq %xmm5,%xmm6,%xmm0
1409
1413
  vpunpckhqdq %xmm8,%xmm7,%xmm3
@@ -1416,16 +1420,16 @@ vpunpckhqdq %xmm14,%xmm13,%xmm9
1416
1420
  vpunpcklqdq %xmm14,%xmm13,%xmm8
1417
1421
  cmp $0,%rdx
1418
1422
  jne ._ladder_loop
1419
- movdqu %xmm1,160(%rdi)
1420
- movdqu %xmm0,80(%rdi)
1421
- movdqu %xmm3,176(%rdi)
1422
- movdqu %xmm2,96(%rdi)
1423
- movdqu %xmm5,192(%rdi)
1424
- movdqu %xmm4,112(%rdi)
1425
- movdqu %xmm7,208(%rdi)
1426
- movdqu %xmm6,128(%rdi)
1427
- movdqu %xmm9,224(%rdi)
1428
- movdqu %xmm8,144(%rdi)
1423
+ vmovdqu %xmm1,160(%rdi)
1424
+ vmovdqu %xmm0,80(%rdi)
1425
+ vmovdqu %xmm3,176(%rdi)
1426
+ vmovdqu %xmm2,96(%rdi)
1427
+ vmovdqu %xmm5,192(%rdi)
1428
+ vmovdqu %xmm4,112(%rdi)
1429
+ vmovdqu %xmm7,208(%rdi)
1430
+ vmovdqu %xmm6,128(%rdi)
1431
+ vmovdqu %xmm9,224(%rdi)
1432
+ vmovdqu %xmm8,144(%rdi)
1429
1433
  movq 1824(%rsp),%r11
1430
1434
  movq 1832(%rsp),%r12
1431
1435
  movq 1840(%rsp),%r13