shithub: libvpx

--- a/vpx_dsp/arm/fwd_txfm_neon.c

+++ b/vpx_dsp/arm/fwd_txfm_neon.c

@@ -52,10 +52,10 @@

     v_t2_hi = vmlal_n_s16(v_t2_hi, vget_high_s16(v_x3), (int16_t)cospi_8_64);

     v_t3_lo = vmlsl_n_s16(v_t3_lo, vget_low_s16(v_x2), (int16_t)cospi_8_64);

     v_t3_hi = vmlsl_n_s16(v_t3_hi, vget_high_s16(v_x2), (int16_t)cospi_8_64);

-    v_t0_lo = vmulq_n_s32(v_t0_lo, cospi_16_64);

-    v_t0_hi = vmulq_n_s32(v_t0_hi, cospi_16_64);

-    v_t1_lo = vmulq_n_s32(v_t1_lo, cospi_16_64);

-    v_t1_hi = vmulq_n_s32(v_t1_hi, cospi_16_64);

+    v_t0_lo = vmulq_n_s32(v_t0_lo, (int32_t)cospi_16_64);

+    v_t0_hi = vmulq_n_s32(v_t0_hi, (int32_t)cospi_16_64);

+    v_t1_lo = vmulq_n_s32(v_t1_lo, (int32_t)cospi_16_64);

+    v_t1_hi = vmulq_n_s32(v_t1_hi, (int32_t)cospi_16_64);

       const int16x4_t a = vrshrn_n_s32(v_t0_lo, DCT_CONST_BITS);

       const int16x4_t b = vrshrn_n_s32(v_t0_hi, DCT_CONST_BITS);

--- a/vpx_dsp/arm/idct16x16_1_add_neon.c

+++ b/vpx_dsp/arm/idct16x16_1_add_neon.c

@@ -21,7 +21,7 @@

   uint16x8_t q0u16, q9u16, q10u16, q11u16, q12u16;

   int16x8_t q0s16;

   uint8_t *d1, *d2;

-  int16_t i, j, a1, cospi_16_64 = 11585;

+  int16_t i, j, a1;

   int16_t out = dct_const_round_shift(input[0] * cospi_16_64);

   out = dct_const_round_shift(out * cospi_16_64);

   a1 = ROUND_POWER_OF_TWO(out, 6);

--- a/vpx_dsp/arm/idct16x16_add_neon.c

+++ b/vpx_dsp/arm/idct16x16_add_neon.c

@@ -73,8 +73,8 @@

   d31s16 = vget_high_s16(q15s16);

   // stage 3

-  d0s16 = vdup_n_s16(cospi_28_64);

-  d1s16 = vdup_n_s16(cospi_4_64);

+  d0s16 = vdup_n_s16((int16_t)cospi_28_64);

+  d1s16 = vdup_n_s16((int16_t)cospi_4_64);

   q2s32 = vmull_s16(d18s16, d0s16);

   q3s32 = vmull_s16(d19s16, d0s16);

@@ -86,8 +86,8 @@

   q5s32 = vmlal_s16(q5s32, d30s16, d0s16);

   q6s32 = vmlal_s16(q6s32, d31s16, d0s16);

-  d2s16 = vdup_n_s16(cospi_12_64);

-  d3s16 = vdup_n_s16(cospi_20_64);

+  d2s16 = vdup_n_s16((int16_t)cospi_12_64);

+  d3s16 = vdup_n_s16((int16_t)cospi_20_64);

   d8s16 = vqrshrn_n_s32(q2s32, 14);

   d9s16 = vqrshrn_n_s32(q3s32, 14);

@@ -114,7 +114,7 @@

   q6s16 = vcombine_s16(d12s16, d13s16);

   // stage 4

-  d30s16 = vdup_n_s16(cospi_16_64);

+  d30s16 = vdup_n_s16((int16_t)cospi_16_64);

   q2s32 = vmull_s16(d16s16, d30s16);

   q11s32 = vmull_s16(d17s16, d30s16);

@@ -121,8 +121,8 @@

   q0s32 = vmull_s16(d24s16, d30s16);

   q1s32 = vmull_s16(d25s16, d30s16);

-  d30s16 = vdup_n_s16(cospi_24_64);

-  d31s16 = vdup_n_s16(cospi_8_64);

+  d30s16 = vdup_n_s16((int16_t)cospi_24_64);

+  d31s16 = vdup_n_s16((int16_t)cospi_8_64);

   q3s32 = vaddq_s32(q2s32, q0s32);

   q12s32 = vaddq_s32(q11s32, q1s32);

@@ -168,7 +168,7 @@

   q2s16 = vsubq_s16(q9s16, q10s16);

   q3s16 = vsubq_s16(q8s16, q11s16);

-  d16s16 = vdup_n_s16(cospi_16_64);

+  d16s16 = vdup_n_s16((int16_t)cospi_16_64);

   q11s32 = vmull_s16(d26s16, d16s16);

   q12s32 = vmull_s16(d27s16, d16s16);

@@ -313,8 +313,8 @@

   d31s16 = vget_high_s16(q15s16);

   // stage 3

-  d12s16 = vdup_n_s16(cospi_30_64);

-  d13s16 = vdup_n_s16(cospi_2_64);

+  d12s16 = vdup_n_s16((int16_t)cospi_30_64);

+  d13s16 = vdup_n_s16((int16_t)cospi_2_64);

   q2s32 = vmull_s16(d16s16, d12s16);

   q3s32 = vmull_s16(d17s16, d12s16);

@@ -333,8 +333,8 @@

   q0s16 = vcombine_s16(d0s16, d1s16);

   q7s16 = vcombine_s16(d14s16, d15s16);

-  d30s16 = vdup_n_s16(cospi_14_64);

-  d31s16 = vdup_n_s16(cospi_18_64);

+  d30s16 = vdup_n_s16((int16_t)cospi_14_64);

+  d31s16 = vdup_n_s16((int16_t)cospi_18_64);

   q2s32 = vmull_s16(d24s16, d30s16);

   q3s32 = vmull_s16(d25s16, d30s16);

@@ -353,8 +353,8 @@

   q1s16 = vcombine_s16(d2s16, d3s16);

   q6s16 = vcombine_s16(d12s16, d13s16);

-  d30s16 = vdup_n_s16(cospi_22_64);

-  d31s16 = vdup_n_s16(cospi_10_64);

+  d30s16 = vdup_n_s16((int16_t)cospi_22_64);

+  d31s16 = vdup_n_s16((int16_t)cospi_10_64);

   q11s32 = vmull_s16(d20s16, d30s16);

   q12s32 = vmull_s16(d21s16, d30s16);

@@ -373,8 +373,8 @@

   q2s16 = vcombine_s16(d4s16, d5s16);

   q5s16 = vcombine_s16(d10s16, d11s16);

-  d30s16 = vdup_n_s16(cospi_6_64);

-  d31s16 = vdup_n_s16(cospi_26_64);

+  d30s16 = vdup_n_s16((int16_t)cospi_6_64);

+  d31s16 = vdup_n_s16((int16_t)cospi_26_64);

   q10s32 = vmull_s16(d28s16, d30s16);

   q11s32 = vmull_s16(d29s16, d30s16);

@@ -413,8 +413,8 @@

   d28s16 = vget_low_s16(q14s16);

   d29s16 = vget_high_s16(q14s16);

-  d30s16 = vdup_n_s16(cospi_8_64);

-  d31s16 = vdup_n_s16(cospi_24_64);

+  d30s16 = vdup_n_s16((int16_t)cospi_8_64);

+  d31s16 = vdup_n_s16((int16_t)cospi_24_64);

   q2s32 = vmull_s16(d18s16, d31s16);

   q3s32 = vmull_s16(d19s16, d31s16);

@@ -474,7 +474,7 @@

   d26s16 = vget_low_s16(q13s16);

   d27s16 = vget_high_s16(q13s16);

-  d14s16 = vdup_n_s16(cospi_16_64);

+  d14s16 = vdup_n_s16((int16_t)cospi_16_64);

   q3s32 = vmull_s16(d26s16, d14s16);

   q4s32 = vmull_s16(d27s16, d14s16);

@@ -837,15 +837,15 @@

                     &q15s16);

   // stage 3

-  q0s16 = vdupq_n_s16(cospi_28_64 * 2);

-  q1s16 = vdupq_n_s16(cospi_4_64 * 2);

+  q0s16 = vdupq_n_s16((int16_t)cospi_28_64 * 2);

+  q1s16 = vdupq_n_s16((int16_t)cospi_4_64 * 2);

   q4s16 = vqrdmulhq_s16(q9s16, q0s16);

   q7s16 = vqrdmulhq_s16(q9s16, q1s16);

   // stage 4

-  q1s16 = vdupq_n_s16(cospi_16_64 * 2);

-  d4s16 = vdup_n_s16(cospi_16_64);

+  q1s16 = vdupq_n_s16((int16_t)cospi_16_64 * 2);

+  d4s16 = vdup_n_s16((int16_t)cospi_16_64);

   q8s16 = vqrdmulhq_s16(q8s16, q1s16);

@@ -979,13 +979,13 @@

                     &q15s16);

   // stage 3

-  q6s16 = vdupq_n_s16(cospi_30_64 * 2);

+  q6s16 = vdupq_n_s16((int16_t)cospi_30_64 * 2);

   q0s16 = vqrdmulhq_s16(q8s16, q6s16);

-  q6s16 = vdupq_n_s16(cospi_2_64 * 2);

+  q6s16 = vdupq_n_s16((int16_t)cospi_2_64 * 2);

   q7s16 = vqrdmulhq_s16(q8s16, q6s16);

-  q15s16 = vdupq_n_s16(-cospi_26_64 * 2);

-  q14s16 = vdupq_n_s16(cospi_6_64 * 2);

+  q15s16 = vdupq_n_s16((int16_t)-cospi_26_64 * 2);

+  q14s16 = vdupq_n_s16((int16_t)cospi_6_64 * 2);

   q3s16 = vqrdmulhq_s16(q9s16, q15s16);

   q4s16 = vqrdmulhq_s16(q9s16, q14s16);

@@ -999,8 +999,8 @@

   d14s16 = vget_low_s16(q7s16);

   d15s16 = vget_high_s16(q7s16);

-  d30s16 = vdup_n_s16(cospi_8_64);

-  d31s16 = vdup_n_s16(cospi_24_64);

+  d30s16 = vdup_n_s16((int16_t)cospi_8_64);

+  d31s16 = vdup_n_s16((int16_t)cospi_24_64);

   q12s32 = vmull_s16(d14s16, d31s16);

   q5s32 = vmull_s16(d15s16, d31s16);

@@ -1057,7 +1057,7 @@

   d26s16 = vget_low_s16(q13s16);

   d27s16 = vget_high_s16(q13s16);

-  d14s16 = vdup_n_s16(cospi_16_64);

+  d14s16 = vdup_n_s16((int16_t)cospi_16_64);

   q3s32 = vmull_s16(d26s16, d14s16);

   q4s32 = vmull_s16(d27s16, d14s16);

   q0s32 = vmull_s16(d20s16, d14s16);

--- a/vpx_dsp/arm/idct32x32_1_add_neon.c

+++ b/vpx_dsp/arm/idct32x32_1_add_neon.c

@@ -94,7 +94,7 @@

   uint8x16_t q0u8, q8u8, q9u8, q10u8, q11u8, q12u8, q13u8, q14u8, q15u8;

   int i, j, dest_stride8;

   uint8_t *d;

-  int16_t a1, cospi_16_64 = 11585;

+  int16_t a1;

   int16_t out = dct_const_round_shift(input[0] * cospi_16_64);

   out = dct_const_round_shift(out * cospi_16_64);

--- a/vpx_dsp/arm/idct4x4_1_add_neon.c

+++ b/vpx_dsp/arm/idct4x4_1_add_neon.c

@@ -21,7 +21,7 @@

   uint16x8_t q8u16;

   int16x8_t q0s16;

   uint8_t *d1, *d2;

-  int16_t i, a1, cospi_16_64 = 11585;

+  int16_t i, a1;

   int16_t out = dct_const_round_shift(input[0] * cospi_16_64);

   out = dct_const_round_shift(out * cospi_16_64);

   a1 = ROUND_POWER_OF_TWO(out, 4);

--- a/vpx_dsp/arm/idct4x4_add_neon.c

+++ b/vpx_dsp/arm/idct4x4_add_neon.c

@@ -11,6 +11,7 @@

 #include <arm_neon.h>

 #include "./vpx_dsp_rtcd.h"

+#include "vpx_dsp/txfm_common.h"

 void vpx_idct4x4_16_add_neon(const tran_low_t *input, uint8_t *dest,

                              int dest_stride) {

@@ -24,9 +25,6 @@

   int16x4x2_t d0x2s16, d1x2s16;

   int32x4x2_t q0x2s32;

   uint8_t *d;

-  int16_t cospi_8_64 = 15137;

-  int16_t cospi_16_64 = 11585;

-  int16_t cospi_24_64 = 6270;

   d26u32 = d27u32 = vdup_n_u32(0);

@@ -43,8 +41,8 @@

   q8s16 = vcombine_s16(d0x2s16.val[0], d0x2s16.val[1]);

   q9s16 = vcombine_s16(d1x2s16.val[0], d1x2s16.val[1]);

-  d20s16 = vdup_n_s16(cospi_8_64);

-  d21s16 = vdup_n_s16(cospi_16_64);

+  d20s16 = vdup_n_s16((int16_t)cospi_8_64);

+  d21s16 = vdup_n_s16((int16_t)cospi_16_64);

   q0x2s32 =

       vtrnq_s32(vreinterpretq_s32_s16(q8s16), vreinterpretq_s32_s16(q9s16));

@@ -53,7 +51,7 @@

   d18s16 = vget_low_s16(vreinterpretq_s16_s32(q0x2s32.val[1]));

   d19s16 = vget_high_s16(vreinterpretq_s16_s32(q0x2s32.val[1]));

-  d22s16 = vdup_n_s16(cospi_24_64);

+  d22s16 = vdup_n_s16((int16_t)cospi_24_64);

   // stage 1

   d23s16 = vadd_s16(d16s16, d18s16);

--- a/vpx_dsp/arm/idct8x8_1_add_neon.c

+++ b/vpx_dsp/arm/idct8x8_1_add_neon.c

@@ -21,7 +21,7 @@

   uint16x8_t q0u16, q9u16, q10u16, q11u16, q12u16;

   int16x8_t q0s16;

   uint8_t *d1, *d2;

-  int16_t i, a1, cospi_16_64 = 11585;

+  int16_t i, a1;

   int16_t out = dct_const_round_shift(input[0] * cospi_16_64);

   out = dct_const_round_shift(out * cospi_16_64);

   a1 = ROUND_POWER_OF_TWO(out, 5);

--- a/vpx_dsp/arm/idct8x8_add_neon.c

+++ b/vpx_dsp/arm/idct8x8_add_neon.c

@@ -27,10 +27,10 @@

   int32x4_t q2s32, q3s32, q5s32, q6s32, q8s32, q9s32;

   int32x4_t q10s32, q11s32, q12s32, q13s32, q15s32;

-  d0s16 = vdup_n_s16(cospi_28_64);

-  d1s16 = vdup_n_s16(cospi_4_64);

-  d2s16 = vdup_n_s16(cospi_12_64);

-  d3s16 = vdup_n_s16(cospi_20_64);

+  d0s16 = vdup_n_s16((int16_t)cospi_28_64);

+  d1s16 = vdup_n_s16((int16_t)cospi_4_64);

+  d2s16 = vdup_n_s16((int16_t)cospi_12_64);

+  d3s16 = vdup_n_s16((int16_t)cospi_20_64);

   d16s16 = vget_low_s16(*q8s16);

   d17s16 = vget_high_s16(*q8s16);

@@ -83,7 +83,7 @@

   q6s16 = vcombine_s16(d12s16, d13s16);

   q7s16 = vcombine_s16(d14s16, d15s16);

-  d0s16 = vdup_n_s16(cospi_16_64);

+  d0s16 = vdup_n_s16((int16_t)cospi_16_64);

   q2s32 = vmull_s16(d16s16, d0s16);

   q3s32 = vmull_s16(d17s16, d0s16);

@@ -95,8 +95,8 @@

   q13s32 = vmlsl_s16(q13s32, d24s16, d0s16);

   q15s32 = vmlsl_s16(q15s32, d25s16, d0s16);

-  d0s16 = vdup_n_s16(cospi_24_64);

-  d1s16 = vdup_n_s16(cospi_8_64);

+  d0s16 = vdup_n_s16((int16_t)cospi_24_64);

+  d1s16 = vdup_n_s16((int16_t)cospi_8_64);

   d18s16 = vqrshrn_n_s32(q2s32, 14);

   d19s16 = vqrshrn_n_s32(q3s32, 14);

@@ -136,7 +136,7 @@

   d28s16 = vget_low_s16(*q14s16);

   d29s16 = vget_high_s16(*q14s16);

-  d16s16 = vdup_n_s16(cospi_16_64);

+  d16s16 = vdup_n_s16((int16_t)cospi_16_64);

   q9s32 = vmull_s16(d28s16, d16s16);

   q10s32 = vmull_s16(d29s16, d16s16);

@@ -293,29 +293,29 @@

   // First transform rows

   // stage 1

-  q0s16 = vdupq_n_s16(cospi_28_64 * 2);

-  q1s16 = vdupq_n_s16(cospi_4_64 * 2);

+  q0s16 = vdupq_n_s16((int16_t)cospi_28_64 * 2);

+  q1s16 = vdupq_n_s16((int16_t)cospi_4_64 * 2);

   q4s16 = vqrdmulhq_s16(q9s16, q0s16);

-  q0s16 = vdupq_n_s16(-cospi_20_64 * 2);

+  q0s16 = vdupq_n_s16(-(int16_t)cospi_20_64 * 2);

   q7s16 = vqrdmulhq_s16(q9s16, q1s16);

-  q1s16 = vdupq_n_s16(cospi_12_64 * 2);

+  q1s16 = vdupq_n_s16((int16_t)cospi_12_64 * 2);

   q5s16 = vqrdmulhq_s16(q11s16, q0s16);

-  q0s16 = vdupq_n_s16(cospi_16_64 * 2);

+  q0s16 = vdupq_n_s16((int16_t)cospi_16_64 * 2);

   q6s16 = vqrdmulhq_s16(q11s16, q1s16);

   // stage 2 & stage 3 - even half

-  q1s16 = vdupq_n_s16(cospi_24_64 * 2);

+  q1s16 = vdupq_n_s16((int16_t)cospi_24_64 * 2);

   q9s16 = vqrdmulhq_s16(q8s16, q0s16);

-  q0s16 = vdupq_n_s16(cospi_8_64 * 2);

+  q0s16 = vdupq_n_s16((int16_t)cospi_8_64 * 2);

   q13s16 = vqrdmulhq_s16(q10s16, q1s16);

@@ -337,7 +337,7 @@

   d28s16 = vget_low_s16(q14s16);

   d29s16 = vget_high_s16(q14s16);

-  d16s16 = vdup_n_s16(cospi_16_64);

+  d16s16 = vdup_n_s16((int16_t)cospi_16_64);

   q9s32 = vmull_s16(d28s16, d16s16);

   q10s32 = vmull_s16(d29s16, d16s16);

   q11s32 = vmull_s16(d28s16, d16s16);

--- a/vpx_dsp/fwd_txfm.c

+++ b/vpx_dsp/fwd_txfm.c

@@ -8,6 +8,7 @@

  *  be found in the AUTHORS file in the root of the source tree.

*/

+#include <assert.h>

 #include "./vpx_dsp_rtcd.h"

 #include "vpx_dsp/fwd_txfm.h"

@@ -21,36 +22,37 @@

   int pass;

   // We need an intermediate buffer between passes.

   tran_low_t intermediate[4 * 4];

-  const int16_t *in_pass0 = input;

-  const tran_low_t *in = NULL;

+  const tran_low_t *in_low = NULL;

   tran_low_t *out = intermediate;

   // Do the two transform/transpose passes

   for (pass = 0; pass < 2; ++pass) {

-    tran_high_t input[4];      // canbe16

+    tran_high_t in_high[4];    // canbe16

     tran_high_t step[4];       // canbe16

     tran_high_t temp1, temp2;  // needs32

     int i;

     for (i = 0; i < 4; ++i) {

       // Load inputs.

-      if (0 == pass) {

-        input[0] = in_pass0[0 * stride] * 16;

-        input[1] = in_pass0[1 * stride] * 16;

-        input[2] = in_pass0[2 * stride] * 16;

-        input[3] = in_pass0[3 * stride] * 16;

-        if (i == 0 && input[0]) {

-          input[0] += 1;

+      if (pass == 0) {

+        in_high[0] = input[0 * stride] * 16;

+        in_high[1] = input[1 * stride] * 16;

+        in_high[2] = input[2 * stride] * 16;

+        in_high[3] = input[3 * stride] * 16;

+        if (i == 0 && in_high[0]) {

+          ++in_high[0];

       } else {

-        input[0] = in[0 * 4];

-        input[1] = in[1 * 4];

-        input[2] = in[2 * 4];

-        input[3] = in[3 * 4];

+        assert(in_low != NULL);

+        in_high[0] = in_low[0 * 4];

+        in_high[1] = in_low[1 * 4];

+        in_high[2] = in_low[2 * 4];

+        in_high[3] = in_low[3 * 4];

+        ++in_low;

       // Transform.

-      step[0] = input[0] + input[3];

-      step[1] = input[1] + input[2];

-      step[2] = input[1] - input[2];

-      step[3] = input[0] - input[3];

+      step[0] = in_high[0] + in_high[3];

+      step[1] = in_high[1] + in_high[2];

+      step[2] = in_high[1] - in_high[2];

+      step[3] = in_high[0] - in_high[3];

       temp1 = (step[0] + step[1]) * cospi_16_64;

       temp2 = (step[0] - step[1]) * cospi_16_64;

       out[0] = (tran_low_t)fdct_round_shift(temp1);

@@ -60,12 +62,11 @@

       out[1] = (tran_low_t)fdct_round_shift(temp1);

       out[3] = (tran_low_t)fdct_round_shift(temp2);

       // Do next column (which is a transposed row in second/horizontal pass)

-      in_pass0++;

-      in++;

+      ++input;

       out += 4;

     // Setup in/out for next pass.

-    in = intermediate;

+    in_low = intermediate;

     out = output;

@@ -99,7 +100,6 @@

     tran_high_t t0, t1, t2, t3;                  // needs32

     tran_high_t x0, x1, x2, x3;                  // canbe16

-    int i;

     for (i = 0; i < 8; i++) {

       // stage 1

       if (pass == 0) {

@@ -190,8 +190,7 @@

   int pass;

   // We need an intermediate buffer between passes.

   tran_low_t intermediate[256];

-  const int16_t *in_pass0 = input;

-  const tran_low_t *in = NULL;

+  const tran_low_t *in_low = NULL;

   tran_low_t *out = intermediate;

   // Do the two transform/transpose passes

   for (pass = 0; pass < 2; ++pass) {

@@ -198,48 +197,50 @@

     tran_high_t step1[8];      // canbe16

     tran_high_t step2[8];      // canbe16

     tran_high_t step3[8];      // canbe16

-    tran_high_t input[8];      // canbe16

+    tran_high_t in_high[8];    // canbe16

     tran_high_t temp1, temp2;  // needs32

     int i;

     for (i = 0; i < 16; i++) {

       if (0 == pass) {

         // Calculate input for the first 8 results.

-        input[0] = (in_pass0[0 * stride] + in_pass0[15 * stride]) * 4;

-        input[1] = (in_pass0[1 * stride] + in_pass0[14 * stride]) * 4;

-        input[2] = (in_pass0[2 * stride] + in_pass0[13 * stride]) * 4;

-        input[3] = (in_pass0[3 * stride] + in_pass0[12 * stride]) * 4;

-        input[4] = (in_pass0[4 * stride] + in_pass0[11 * stride]) * 4;

-        input[5] = (in_pass0[5 * stride] + in_pass0[10 * stride]) * 4;

-        input[6] = (in_pass0[6 * stride] + in_pass0[9 * stride]) * 4;

-        input[7] = (in_pass0[7 * stride] + in_pass0[8 * stride]) * 4;

+        in_high[0] = (input[0 * stride] + input[15 * stride]) * 4;

+        in_high[1] = (input[1 * stride] + input[14 * stride]) * 4;

+        in_high[2] = (input[2 * stride] + input[13 * stride]) * 4;

+        in_high[3] = (input[3 * stride] + input[12 * stride]) * 4;

+        in_high[4] = (input[4 * stride] + input[11 * stride]) * 4;

+        in_high[5] = (input[5 * stride] + input[10 * stride]) * 4;

+        in_high[6] = (input[6 * stride] + input[9 * stride]) * 4;

+        in_high[7] = (input[7 * stride] + input[8 * stride]) * 4;

         // Calculate input for the next 8 results.

-        step1[0] = (in_pass0[7 * stride] - in_pass0[8 * stride]) * 4;

-        step1[1] = (in_pass0[6 * stride] - in_pass0[9 * stride]) * 4;

-        step1[2] = (in_pass0[5 * stride] - in_pass0[10 * stride]) * 4;

-        step1[3] = (in_pass0[4 * stride] - in_pass0[11 * stride]) * 4;

-        step1[4] = (in_pass0[3 * stride] - in_pass0[12 * stride]) * 4;

-        step1[5] = (in_pass0[2 * stride] - in_pass0[13 * stride]) * 4;

-        step1[6] = (in_pass0[1 * stride] - in_pass0[14 * stride]) * 4;

-        step1[7] = (in_pass0[0 * stride] - in_pass0[15 * stride]) * 4;

+        step1[0] = (input[7 * stride] - input[8 * stride]) * 4;

+        step1[1] = (input[6 * stride] - input[9 * stride]) * 4;

+        step1[2] = (input[5 * stride] - input[10 * stride]) * 4;

+        step1[3] = (input[4 * stride] - input[11 * stride]) * 4;

+        step1[4] = (input[3 * stride] - input[12 * stride]) * 4;

+        step1[5] = (input[2 * stride] - input[13 * stride]) * 4;

+        step1[6] = (input[1 * stride] - input[14 * stride]) * 4;

+        step1[7] = (input[0 * stride] - input[15 * stride]) * 4;

       } else {

         // Calculate input for the first 8 results.

-        input[0] = ((in[0 * 16] + 1) >> 2) + ((in[15 * 16] + 1) >> 2);

-        input[1] = ((in[1 * 16] + 1) >> 2) + ((in[14 * 16] + 1) >> 2);

-        input[2] = ((in[2 * 16] + 1) >> 2) + ((in[13 * 16] + 1) >> 2);

-        input[3] = ((in[3 * 16] + 1) >> 2) + ((in[12 * 16] + 1) >> 2);

-        input[4] = ((in[4 * 16] + 1) >> 2) + ((in[11 * 16] + 1) >> 2);

-        input[5] = ((in[5 * 16] + 1) >> 2) + ((in[10 * 16] + 1) >> 2);

-        input[6] = ((in[6 * 16] + 1) >> 2) + ((in[9 * 16] + 1) >> 2);

-        input[7] = ((in[7 * 16] + 1) >> 2) + ((in[8 * 16] + 1) >> 2);

+        assert(in_low != NULL);

+        in_high[0] = ((in_low[0 * 16] + 1) >> 2) + ((in_low[15 * 16] + 1) >> 2);

+        in_high[1] = ((in_low[1 * 16] + 1) >> 2) + ((in_low[14 * 16] + 1) >> 2);

+        in_high[2] = ((in_low[2 * 16] + 1) >> 2) + ((in_low[13 * 16] + 1) >> 2);

+        in_high[3] = ((in_low[3 * 16] + 1) >> 2) + ((in_low[12 * 16] + 1) >> 2);

+        in_high[4] = ((in_low[4 * 16] + 1) >> 2) + ((in_low[11 * 16] + 1) >> 2);

+        in_high[5] = ((in_low[5 * 16] + 1) >> 2) + ((in_low[10 * 16] + 1) >> 2);

+        in_high[6] = ((in_low[6 * 16] + 1) >> 2) + ((in_low[9 * 16] + 1) >> 2);

+        in_high[7] = ((in_low[7 * 16] + 1) >> 2) + ((in_low[8 * 16] + 1) >> 2);

         // Calculate input for the next 8 results.

-        step1[0] = ((in[7 * 16] + 1) >> 2) - ((in[8 * 16] + 1) >> 2);

-        step1[1] = ((in[6 * 16] + 1) >> 2) - ((in[9 * 16] + 1) >> 2);

-        step1[2] = ((in[5 * 16] + 1) >> 2) - ((in[10 * 16] + 1) >> 2);

-        step1[3] = ((in[4 * 16] + 1) >> 2) - ((in[11 * 16] + 1) >> 2);

-        step1[4] = ((in[3 * 16] + 1) >> 2) - ((in[12 * 16] + 1) >> 2);

-        step1[5] = ((in[2 * 16] + 1) >> 2) - ((in[13 * 16] + 1) >> 2);

-        step1[6] = ((in[1 * 16] + 1) >> 2) - ((in[14 * 16] + 1) >> 2);

-        step1[7] = ((in[0 * 16] + 1) >> 2) - ((in[15 * 16] + 1) >> 2);

+        step1[0] = ((in_low[7 * 16] + 1) >> 2) - ((in_low[8 * 16] + 1) >> 2);

+        step1[1] = ((in_low[6 * 16] + 1) >> 2) - ((in_low[9 * 16] + 1) >> 2);

+        step1[2] = ((in_low[5 * 16] + 1) >> 2) - ((in_low[10 * 16] + 1) >> 2);

+        step1[3] = ((in_low[4 * 16] + 1) >> 2) - ((in_low[11 * 16] + 1) >> 2);

+        step1[4] = ((in_low[3 * 16] + 1) >> 2) - ((in_low[12 * 16] + 1) >> 2);

+        step1[5] = ((in_low[2 * 16] + 1) >> 2) - ((in_low[13 * 16] + 1) >> 2);

+        step1[6] = ((in_low[1 * 16] + 1) >> 2) - ((in_low[14 * 16] + 1) >> 2);

+        step1[7] = ((in_low[0 * 16] + 1) >> 2) - ((in_low[15 * 16] + 1) >> 2);

+        in_low++;

       // Work on the first eight values; fdct8(input, even_results);

@@ -248,14 +249,14 @@

         tran_high_t x0, x1, x2, x3;                  // canbe16

         // stage 1

-        s0 = input[0] + input[7];

-        s1 = input[1] + input[6];

-        s2 = input[2] + input[5];

-        s3 = input[3] + input[4];

-        s4 = input[3] - input[4];

-        s5 = input[2] - input[5];

-        s6 = input[1] - input[6];

-        s7 = input[0] - input[7];

+        s0 = in_high[0] + in_high[7];

+        s1 = in_high[1] + in_high[6];

+        s2 = in_high[2] + in_high[5];

+        s3 = in_high[3] + in_high[4];

+        s4 = in_high[3] - in_high[4];

+        s5 = in_high[2] - in_high[5];

+        s6 = in_high[1] - in_high[6];

+        s7 = in_high[0] - in_high[7];

         // fdct4(step, step);

         x0 = s0 + s3;

@@ -350,12 +351,11 @@

         out[15] = (tran_low_t)fdct_round_shift(temp2);

       // Do next column (which is a transposed row in second/horizontal pass)

-      in++;

-      in_pass0++;

+      input++;

       out += 16;

     // Setup in/out for next pass.

-    in = intermediate;

+    in_low = intermediate;

     out = output;

--- a/vpx_dsp/mips/inv_txfm_msa.h

+++ b/vpx_dsp/mips/inv_txfm_msa.h

@@ -196,18 +196,18 @@

                  out2, out3)                                                  \

   {                                                                           \

     v8i16 madd_s0_m, madd_s1_m, madd_s2_m, madd_s3_m;                         \

-    v4i32 tmp0_m, tmp1_m, tmp2_m, tmp3_m;                                     \

+    v4i32 tmp0_madd, tmp1_madd, tmp2_madd, tmp3_madd;                         \

     ILVRL_H2_SH(inp1, inp0, madd_s1_m, madd_s0_m);                            \

     ILVRL_H2_SH(inp3, inp2, madd_s3_m, madd_s2_m);                            \

     DOTP_SH4_SW(madd_s1_m, madd_s0_m, madd_s1_m, madd_s0_m, cst0, cst0, cst1, \

-                cst1, tmp0_m, tmp1_m, tmp2_m, tmp3_m);                        \

-    SRARI_W4_SW(tmp0_m, tmp1_m, tmp2_m, tmp3_m, DCT_CONST_BITS);              \

-    PCKEV_H2_SH(tmp1_m, tmp0_m, tmp3_m, tmp2_m, out0, out1);                  \

+                cst1, tmp0_madd, tmp1_madd, tmp2_madd, tmp3_madd);            \

+    SRARI_W4_SW(tmp0_madd, tmp1_madd, tmp2_madd, tmp3_madd, DCT_CONST_BITS);  \

+    PCKEV_H2_SH(tmp1_madd, tmp0_madd, tmp3_madd, tmp2_madd, out0, out1);      \

     DOTP_SH4_SW(madd_s3_m, madd_s2_m, madd_s3_m, madd_s2_m, cst2, cst2, cst3, \

-                cst3, tmp0_m, tmp1_m, tmp2_m, tmp3_m);                        \

-    SRARI_W4_SW(tmp0_m, tmp1_m, tmp2_m, tmp3_m, DCT_CONST_BITS);              \

-    PCKEV_H2_SH(tmp1_m, tmp0_m, tmp3_m, tmp2_m, out2, out3);                  \

+                cst3, tmp0_madd, tmp1_madd, tmp2_madd, tmp3_madd);            \

+    SRARI_W4_SW(tmp0_madd, tmp1_madd, tmp2_madd, tmp3_madd, DCT_CONST_BITS);  \

+    PCKEV_H2_SH(tmp1_madd, tmp0_madd, tmp3_madd, tmp2_madd, out2, out3);      \

 /* idct 8x8 macro */

--- a/vpx_dsp/mips/loopfilter_msa.h

+++ b/vpx_dsp/mips/loopfilter_msa.h

@@ -49,35 +49,35 @@

     p1_out = __msa_xori_b((v16u8)p1_m, 0x80);                             \

-#define VP9_FLAT4(p3_in, p2_in, p0_in, q0_in, q2_in, q3_in, flat_out) \

-  {                                                                   \

-    v16u8 tmp, p2_a_sub_p0, q2_a_sub_q0, p3_a_sub_p0, q3_a_sub_q0;    \

-    v16u8 zero_in = { 0 };                                            \

-                                                                      \

-    tmp = __msa_ori_b(zero_in, 1);                                    \

-    p2_a_sub_p0 = __msa_asub_u_b(p2_in, p0_in);                       \

-    q2_a_sub_q0 = __msa_asub_u_b(q2_in, q0_in);                       \

-    p3_a_sub_p0 = __msa_asub_u_b(p3_in, p0_in);                       \

-    q3_a_sub_q0 = __msa_asub_u_b(q3_in, q0_in);                       \

-                                                                      \

-    p2_a_sub_p0 = __msa_max_u_b(p2_a_sub_p0, q2_a_sub_q0);            \

-    flat_out = __msa_max_u_b(p2_a_sub_p0, flat_out);                  \

-    p3_a_sub_p0 = __msa_max_u_b(p3_a_sub_p0, q3_a_sub_q0);            \

-    flat_out = __msa_max_u_b(p3_a_sub_p0, flat_out);                  \

-                                                                      \

-    flat_out = (tmp < (v16u8)flat_out);                               \

-    flat_out = __msa_xori_b(flat_out, 0xff);                          \

-    flat_out = flat_out & (mask);                                     \

+#define VP9_FLAT4(p3_in, p2_in, p0_in, q0_in, q2_in, q3_in, flat_out)    \

+  {                                                                      \

+    v16u8 tmp_flat4, p2_a_sub_p0, q2_a_sub_q0, p3_a_sub_p0, q3_a_sub_q0; \

+    v16u8 zero_in = { 0 };                                               \

+                                                                         \

+    tmp_flat4 = __msa_ori_b(zero_in, 1);                                 \

+    p2_a_sub_p0 = __msa_asub_u_b(p2_in, p0_in);                          \

+    q2_a_sub_q0 = __msa_asub_u_b(q2_in, q0_in);                          \

+    p3_a_sub_p0 = __msa_asub_u_b(p3_in, p0_in);                          \

+    q3_a_sub_q0 = __msa_asub_u_b(q3_in, q0_in);                          \

+                                                                         \

+    p2_a_sub_p0 = __msa_max_u_b(p2_a_sub_p0, q2_a_sub_q0);               \

+    flat_out = __msa_max_u_b(p2_a_sub_p0, flat_out);                     \

+    p3_a_sub_p0 = __msa_max_u_b(p3_a_sub_p0, q3_a_sub_q0);               \

+    flat_out = __msa_max_u_b(p3_a_sub_p0, flat_out);                     \

+                                                                         \

+    flat_out = (tmp_flat4 < (v16u8)flat_out);                            \

+    flat_out = __msa_xori_b(flat_out, 0xff);                             \

+    flat_out = flat_out & (mask);                                        \

 #define VP9_FLAT5(p7_in, p6_in, p5_in, p4_in, p0_in, q0_in, q4_in, q5_in, \

                   q6_in, q7_in, flat_in, flat2_out)                       \

   {                                                                       \

-    v16u8 tmp, zero_in = { 0 };                                           \

+    v16u8 tmp_flat5, zero_in = { 0 };                                     \

     v16u8 p4_a_sub_p0, q4_a_sub_q0, p5_a_sub_p0, q5_a_sub_q0;             \

     v16u8 p6_a_sub_p0, q6_a_sub_q0, p7_a_sub_p0, q7_a_sub_q0;             \

-    tmp = __msa_ori_b(zero_in, 1);                                        \

+    tmp_flat5 = __msa_ori_b(zero_in, 1);                                  \

     p4_a_sub_p0 = __msa_asub_u_b(p4_in, p0_in);                           \

     q4_a_sub_q0 = __msa_asub_u_b(q4_in, q0_in);                           \

     p5_a_sub_p0 = __msa_asub_u_b(p5_in, p0_in);                           \

@@ -95,7 +95,7 @@

     p7_a_sub_p0 = __msa_max_u_b(p7_a_sub_p0, q7_a_sub_q0);                \

     flat2_out = __msa_max_u_b(p7_a_sub_p0, flat2_out);                    \

-    flat2_out = (tmp < (v16u8)flat2_out);                                 \

+    flat2_out = (tmp_flat5 < (v16u8)flat2_out);                           \

     flat2_out = __msa_xori_b(flat2_out, 0xff);                            \

     flat2_out = flat2_out & flat_in;                                      \

@@ -104,38 +104,38 @@

                     p2_filt8_out, p1_filt8_out, p0_filt8_out, q0_filt8_out, \

                     q1_filt8_out, q2_filt8_out)                             \

   {                                                                         \

-    v8u16 tmp0, tmp1, tmp2;                                                 \

+    v8u16 tmp_filt8_0, tmp_filt8_1, tmp_filt8_2;                            \

-    tmp2 = p2_in + p1_in + p0_in;                                           \

-    tmp0 = p3_in << 1;                                                      \

+    tmp_filt8_2 = p2_in + p1_in + p0_in;                                    \

+    tmp_filt8_0 = p3_in << 1;                                               \

-    tmp0 = tmp0 + tmp2 + q0_in;                                             \

-    tmp1 = tmp0 + p3_in + p2_in;                                            \

-    p2_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);                    \

+    tmp_filt8_0 = tmp_filt8_0 + tmp_filt8_2 + q0_in;                        \

+    tmp_filt8_1 = tmp_filt8_0 + p3_in + p2_in;                              \

+    p2_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp_filt8_1, 3);             \

-    tmp1 = tmp0 + p1_in + q1_in;                                            \

-    p1_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);                    \

+    tmp_filt8_1 = tmp_filt8_0 + p1_in + q1_in;                              \

+    p1_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp_filt8_1, 3);             \

-    tmp1 = q2_in + q1_in + q0_in;                                           \

-    tmp2 = tmp2 + tmp1;                                                     \

-    tmp0 = tmp2 + (p0_in);                                                  \

-    tmp0 = tmp0 + (p3_in);                                                  \

-    p0_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp0, 3);                    \

+    tmp_filt8_1 = q2_in + q1_in + q0_in;                                    \

+    tmp_filt8_2 = tmp_filt8_2 + tmp_filt8_1;                                \

+    tmp_filt8_0 = tmp_filt8_2 + (p0_in);                                    \

+    tmp_filt8_0 = tmp_filt8_0 + (p3_in);                                    \

+    p0_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp_filt8_0, 3);             \

-    tmp0 = q2_in + q3_in;                                                   \

-    tmp0 = p0_in + tmp1 + tmp0;                                             \

-    tmp1 = q3_in + q3_in;                                                   \

-    tmp1 = tmp1 + tmp0;                                                     \

-    q2_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);                    \

+    tmp_filt8_0 = q2_in + q3_in;                                            \

+    tmp_filt8_0 = p0_in + tmp_filt8_1 + tmp_filt8_0;                        \

+    tmp_filt8_1 = q3_in + q3_in;                                            \

+    tmp_filt8_1 = tmp_filt8_1 + tmp_filt8_0;                                \

+    q2_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp_filt8_1, 3);             \

-    tmp0 = tmp2 + q3_in;                                                    \

-    tmp1 = tmp0 + q0_in;                                                    \

-    q0_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);                    \

+    tmp_filt8_0 = tmp_filt8_2 + q3_in;                                      \

+    tmp_filt8_1 = tmp_filt8_0 + q0_in;                                      \

+    q0_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp_filt8_1, 3);             \

-    tmp1 = tmp0 - p2_in;                                                    \

-    tmp0 = q1_in + q3_in;                                                   \

-    tmp1 = tmp0 + tmp1;                                                     \

-    q1_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);                    \

+    tmp_filt8_1 = tmp_filt8_0 - p2_in;                                      \

+    tmp_filt8_0 = q1_in + q3_in;                                            \

+    tmp_filt8_1 = tmp_filt8_0 + tmp_filt8_1;                                \

+    q1_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp_filt8_1, 3);             \

 #define LPF_MASK_HEV(p3_in, p2_in, p1_in, p0_in, q0_in, q1_in, q2_in, q3_in, \

--- a/vpx_dsp/mips/macros_msa.h

+++ b/vpx_dsp/mips/macros_msa.h

@@ -168,20 +168,20 @@

     val_m;                                                 \

})

 #else  // !(__mips == 64)

-#define LD(psrc)                                            \

-  ({                                                        \

-    const uint8_t *psrc_m1 = (const uint8_t *)(psrc);       \

-    uint32_t val0_m, val1_m;                                \

-    uint64_t val_m = 0;                                     \

-                                                            \

-    val0_m = LW(psrc_m1);                                   \

-    val1_m = LW(psrc_m1 + 4);                               \

-                                                            \

-    val_m = (uint64_t)(val1_m);                             \

-    val_m = (uint64_t)((val_m << 32) & 0xFFFFFFFF00000000); \

-    val_m = (uint64_t)(val_m | (uint64_t)val0_m);           \

-                                                            \

-    val_m;                                                  \

+#define LD(psrc)                                                              \

+  ({                                                                          \

+    const uint8_t *psrc_m1 = (const uint8_t *)(psrc);                         \

+    uint32_t val0_m, val1_m;                                                  \

+    uint64_t val_m_combined = 0;                                              \

+                                                                              \

+    val0_m = LW(psrc_m1);                                                     \

+    val1_m = LW(psrc_m1 + 4);                                                 \

+                                                                              \

+    val_m_combined = (uint64_t)(val1_m);                                      \

+    val_m_combined = (uint64_t)((val_m_combined << 32) & 0xFFFFFFFF00000000); \

+    val_m_combined = (uint64_t)(val_m_combined | (uint64_t)val0_m);           \

+                                                                              \

+    val_m_combined;                                                           \

})

 #endif  // (__mips == 64)

@@ -2019,13 +2019,12 @@

                                 pdst, stride)                               \

   {                                                                         \

     v16u8 tmp0_m, tmp1_m, tmp2_m, tmp3_m;                                   \

-    uint8_t *pdst_m = (uint8_t *)(pdst);                                    \

     tmp0_m = PCKEV_XORI128_UB(in0, in1);                                    \

     tmp1_m = PCKEV_XORI128_UB(in2, in3);                                    \

     ILVR_D2_UB(dst1, dst0, dst3, dst2, tmp2_m, tmp3_m);                     \

     AVER_UB2_UB(tmp0_m, tmp2_m, tmp1_m, tmp3_m, tmp0_m, tmp1_m);            \

-    ST8x4_UB(tmp0_m, tmp1_m, pdst_m, stride);                               \

+    ST8x4_UB(tmp0_m, tmp1_m, pdst, stride);                                 \

 /* Description : Pack even byte elements and store byte vector in destination

--- a/vpx_dsp/mips/vpx_convolve_msa.h

+++ b/vpx_dsp/mips/vpx_convolve_msa.h

@@ -16,18 +16,18 @@

 extern const uint8_t mc_filt_mask_arr[16 * 3];

-#define FILT_8TAP_DPADD_S_H(vec0, vec1, vec2, vec3, filt0, filt1, filt2, \

-                            filt3)                                       \

-  ({                                                                     \

-    v8i16 tmp0, tmp1;                                                    \

-                                                                         \

-    tmp0 = __msa_dotp_s_h((v16i8)vec0, (v16i8)filt0);                    \

-    tmp0 = __msa_dpadd_s_h(tmp0, (v16i8)vec1, (v16i8)filt1);             \

-    tmp1 = __msa_dotp_s_h((v16i8)vec2, (v16i8)filt2);                    \

-    tmp1 = __msa_dpadd_s_h(tmp1, (v16i8)vec3, (v16i8)filt3);             \

-    tmp0 = __msa_adds_s_h(tmp0, tmp1);                                   \

-                                                                         \

-    tmp0;                                                                \

+#define FILT_8TAP_DPADD_S_H(vec0, vec1, vec2, vec3, filt0, filt1, filt2,   \

+                            filt3)                                         \

+  ({                                                                       \

+    v8i16 tmp_dpadd_0, tmp_dpadd_1;                                        \

+                                                                           \

+    tmp_dpadd_0 = __msa_dotp_s_h((v16i8)vec0, (v16i8)filt0);               \

+    tmp_dpadd_0 = __msa_dpadd_s_h(tmp_dpadd_0, (v16i8)vec1, (v16i8)filt1); \

+    tmp_dpadd_1 = __msa_dotp_s_h((v16i8)vec2, (v16i8)filt2);               \

+    tmp_dpadd_1 = __msa_dpadd_s_h(tmp_dpadd_1, (v16i8)vec3, (v16i8)filt3); \

+    tmp_dpadd_0 = __msa_adds_s_h(tmp_dpadd_0, tmp_dpadd_1);                \

+                                                                           \

+    tmp_dpadd_0;                                                           \

})

 #define HORIZ_8TAP_FILT(src0, src1, mask0, mask1, mask2, mask3, filt_h0,       \

@@ -114,11 +114,10 @@

                            stride)                                           \

   {                                                                          \

     v16u8 tmp0_m, tmp1_m, tmp2_m, tmp3_m;                                    \

-    uint8_t *pdst_m = (uint8_t *)(pdst);                                     \

     PCKEV_B2_UB(in2, in1, in4, in3, tmp0_m, tmp1_m);                         \

     PCKEV_D2_UB(dst1, dst0, dst3, dst2, tmp2_m, tmp3_m);                     \

     AVER_UB2_UB(tmp0_m, tmp2_m, tmp1_m, tmp3_m, tmp0_m, tmp1_m);             \

-    ST8x4_UB(tmp0_m, tmp1_m, pdst_m, stride);                                \

+    ST8x4_UB(tmp0_m, tmp1_m, pdst, stride);                                  \

 #endif /* VPX_DSP_MIPS_VPX_CONVOLVE_MSA_H_ */

--- a/vpx_dsp/x86/highbd_quantize_intrin_sse2.c

+++ b/vpx_dsp/x86/highbd_quantize_intrin_sse2.c

@@ -77,10 +77,10 @@

       for (j = 0; j < 4; j++) {

         if (test & (1 << (4 * j))) {

           int k = 4 * i + j;

-          const int64_t tmp1 = abs_coeff[j] + round_ptr[k != 0];

-          const int64_t tmp2 = ((tmp1 * quant_ptr[k != 0]) >> 16) + tmp1;

+          const int64_t tmp3 = abs_coeff[j] + round_ptr[k != 0];

+          const int64_t tmp4 = ((tmp3 * quant_ptr[k != 0]) >> 16) + tmp3;

           const uint32_t abs_qcoeff =

-              (uint32_t)((tmp2 * quant_shift_ptr[k != 0]) >> 16);

+              (uint32_t)((tmp4 * quant_shift_ptr[k != 0]) >> 16);

           qcoeff_ptr[k] = (int)(abs_qcoeff ^ coeff_sign[j]) - coeff_sign[j];

           dqcoeff_ptr[k] = qcoeff_ptr[k] * dequant_ptr[k != 0];

           if (abs_qcoeff) eob_i = iscan[k] > eob_i ? iscan[k] : eob_i;

--- a/vpx_dsp/x86/inv_txfm_sse2.c

+++ b/vpx_dsp/x86/inv_txfm_sse2.c

@@ -2379,7 +2379,6 @@

 #define IDCT32_34                                                              \

   /* Stage1 */                                                                 \

   {                                                                            \

-    const __m128i zero = _mm_setzero_si128();                                  \

     const __m128i lo_1_31 = _mm_unpacklo_epi16(in[1], zero);                   \

     const __m128i hi_1_31 = _mm_unpackhi_epi16(in[1], zero);                   \

@@ -2404,7 +2403,6 @@

   /* Stage2 */                                                                 \

   {                                                                            \

-    const __m128i zero = _mm_setzero_si128();                                  \

     const __m128i lo_2_30 = _mm_unpacklo_epi16(in[2], zero);                   \

     const __m128i hi_2_30 = _mm_unpackhi_epi16(in[2], zero);                   \

@@ -2431,7 +2429,6 @@

   /* Stage3 */                                                                 \

   {                                                                            \

-    const __m128i zero = _mm_setzero_si128();                                  \

     const __m128i lo_4_28 = _mm_unpacklo_epi16(in[4], zero);                   \

     const __m128i hi_4_28 = _mm_unpackhi_epi16(in[4], zero);                   \

@@ -2472,7 +2469,6 @@

   /* Stage4 */                                                                 \

   {                                                                            \

-    const __m128i zero = _mm_setzero_si128();                                  \

     const __m128i lo_0_16 = _mm_unpacklo_epi16(in[0], zero);                   \

     const __m128i hi_0_16 = _mm_unpackhi_epi16(in[0], zero);                   \

@@ -3009,6 +3005,7 @@

 // Only upper-left 8x8 has non-zero coeff

 void vpx_idct32x32_34_add_sse2(const tran_low_t *input, uint8_t *dest,

                                int stride) {

+  const __m128i zero = _mm_setzero_si128();

   const __m128i rounding = _mm_set1_epi32(DCT_CONST_ROUNDING);

   const __m128i final_rounding = _mm_set1_epi16(1 << 5);

@@ -3104,7 +3101,6 @@

   col[31] = _mm_sub_epi16(stp1_0, stp1_31);

   for (i = 0; i < 4; i++) {

     int j;

-    const __m128i zero = _mm_setzero_si128();

     // Transpose 32x8 block to 8x32 block

     array_transpose_8x8(col + i * 8, in);

     IDCT32_34

--

⑨