shithub: libvpx

--- a/vpx_dsp/mips/macros_msa.h

+++ b/vpx_dsp/mips/macros_msa.h

@@ -2034,19 +2034,17 @@

 /* Description : Converts inputs to unsigned bytes, interleave, average & store

                  as 8x4 unsigned byte block

-   Arguments   : Inputs - in0, in1, in2, in3, dst0, dst1, dst2, dst3,

-                          pdst, stride

+   Arguments   : Inputs  - in0, in1, in2, in3, dst0, dst1, pdst, stride

*/

-#define CONVERT_UB_AVG_ST8x4_UB(in0, in1, in2, in3, dst0, dst1, dst2, dst3, \

-                                pdst, stride)                               \

-  {                                                                         \

-    v16u8 tmp0_m, tmp1_m, tmp2_m, tmp3_m;                                   \

-                                                                            \

-    tmp0_m = PCKEV_XORI128_UB(in0, in1);                                    \

-    tmp1_m = PCKEV_XORI128_UB(in2, in3);                                    \

-    ILVR_D2_UB(dst1, dst0, dst3, dst2, tmp2_m, tmp3_m);                     \

-    AVER_UB2_UB(tmp0_m, tmp2_m, tmp1_m, tmp3_m, tmp0_m, tmp1_m);            \

-    ST8x4_UB(tmp0_m, tmp1_m, pdst, stride);                                 \

+#define CONVERT_UB_AVG_ST8x4_UB(in0, in1, in2, in3, dst0, dst1, pdst, stride) \

+  {                                                                           \

+    v16u8 tmp0_m, tmp1_m;                                                     \

+    uint8_t *pdst_m = (uint8_t *)(pdst);                                      \

+                                                                              \

+    tmp0_m = PCKEV_XORI128_UB(in0, in1);                                      \

+    tmp1_m = PCKEV_XORI128_UB(in2, in3);                                      \

+    AVER_UB2_UB(tmp0_m, dst0, tmp1_m, dst1, tmp0_m, tmp1_m);                  \

+    ST8x4_UB(tmp0_m, tmp1_m, pdst_m, stride);                                 \

 /* Description : Pack even byte elements and store byte vector in destination

--- a/vpx_dsp/mips/vpx_convolve8_avg_horiz_msa.c

+++ b/vpx_dsp/mips/vpx_convolve8_avg_horiz_msa.c

@@ -16,8 +16,9 @@

                                               int32_t src_stride, uint8_t *dst,

                                               int32_t dst_stride,

                                               int8_t *filter) {

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, filt0, filt1, filt2, filt3;

-  v16u8 dst0, dst1, dst2, dst3, res2, res3;

+  v16u8 dst0 = { 0 }, res;

   v16u8 mask0, mask1, mask2, mask3;

   v8i16 filt, res0, res1;

@@ -36,14 +37,13 @@

   XORI_B4_128_SB(src0, src1, src2, src3);

   HORIZ_8TAP_4WID_4VECS_FILT(src0, src1, src2, src3, mask0, mask1, mask2, mask3,

                              filt0, filt1, filt2, filt3, res0, res1);

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+  LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

   SRARI_H2_SH(res0, res1, FILTER_BITS);

   SAT_SH2_SH(res0, res1, 7);

-  PCKEV_B2_UB(res0, res0, res1, res1, res2, res3);

-  ILVR_W2_UB(dst1, dst0, dst3, dst2, dst0, dst2);

-  XORI_B2_128_UB(res2, res3);

-  AVER_UB2_UB(res2, dst0, res3, dst2, res2, res3);

-  ST4x4_UB(res2, res3, 0, 1, 0, 1, dst, dst_stride);

+  res = PCKEV_XORI128_UB(res0, res1);

+  res = (v16u8)__msa_aver_u_b(res, dst0);

+  ST4x4_UB(res, res, 0, 1, 2, 3, dst, dst_stride);

 static void common_hz_8t_and_aver_dst_4x8_msa(const uint8_t *src,

@@ -50,9 +50,10 @@

                                               int32_t src_stride, uint8_t *dst,

                                               int32_t dst_stride,

                                               int8_t *filter) {

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, filt0, filt1, filt2, filt3;

   v16u8 mask0, mask1, mask2, mask3, res0, res1, res2, res3;

-  v16u8 dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7;

+  v16u8 dst0 = { 0 }, dst1 = { 0 };

   v8i16 filt, vec0, vec1, vec2, vec3;

   mask0 = LD_UB(&mc_filt_mask_arr[16]);

@@ -69,7 +70,10 @@

   LD_SB4(src, src_stride, src0, src1, src2, src3);

   XORI_B4_128_SB(src0, src1, src2, src3);

   src += (4 * src_stride);

-  LD_UB8(dst, dst_stride, dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7);

+  LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

+  LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst1);

   HORIZ_8TAP_4WID_4VECS_FILT(src0, src1, src2, src3, mask0, mask1, mask2, mask3,

                              filt0, filt1, filt2, filt3, vec0, vec1);

   LD_SB4(src, src_stride, src0, src1, src2, src3);

@@ -82,10 +86,7 @@

               res3);

   ILVR_D2_UB(res1, res0, res3, res2, res0, res2);

   XORI_B2_128_UB(res0, res2);

-  ILVR_W4_UB(dst1, dst0, dst3, dst2, dst5, dst4, dst7, dst6, dst0, dst2, dst4,

-             dst6);

-  ILVR_D2_UB(dst2, dst0, dst6, dst4, dst0, dst4);

-  AVER_UB2_UB(res0, dst0, res2, dst4, res0, res2);

+  AVER_UB2_UB(res0, dst0, res2, dst1, res0, res2);

   ST4x8_UB(res0, res2, dst, dst_stride);

@@ -105,8 +106,9 @@

                                              int32_t dst_stride, int8_t *filter,

                                              int32_t height) {

   int32_t loop_cnt;

+  int64_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, filt0, filt1, filt2, filt3;

-  v16u8 mask0, mask1, mask2, mask3, dst0, dst1, dst2, dst3;

+  v16u8 mask0, mask1, mask2, mask3, dst0 = { 0 }, dst1 = { 0 };

   v8i16 filt, out0, out1, out2, out3;

   mask0 = LD_UB(&mc_filt_mask_arr[0]);

@@ -127,10 +129,12 @@

     HORIZ_8TAP_8WID_4VECS_FILT(src0, src1, src2, src3, mask0, mask1, mask2,

                                mask3, filt0, filt1, filt2, filt3, out0, out1,

                                out2, out3);

-    LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+    LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_D2_UB(tp0, tp1, dst0);

+    INSERT_D2_UB(tp2, tp3, dst1);

     SRARI_H4_SH(out0, out1, out2, out3, FILTER_BITS);

     SAT_SH4_SH(out0, out1, out2, out3, 7);

-    CONVERT_UB_AVG_ST8x4_UB(out0, out1, out2, out3, dst0, dst1, dst2, dst3, dst,

+    CONVERT_UB_AVG_ST8x4_UB(out0, out1, out2, out3, dst0, dst1, dst,

                             dst_stride);

     dst += (4 * dst_stride);

@@ -309,8 +313,9 @@

                                               int32_t src_stride, uint8_t *dst,

                                               int32_t dst_stride,

                                               int8_t *filter) {

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, mask;

-  v16u8 filt0, dst0, dst1, dst2, dst3, vec0, vec1, res0, res1;

+  v16u8 filt0, dst0 = { 0 }, vec0, vec1, res;

   v8u16 vec2, vec3, filt;

   mask = LD_SB(&mc_filt_mask_arr[16]);

@@ -320,14 +325,14 @@

   filt0 = (v16u8)__msa_splati_h((v8i16)filt, 0);

   LD_SB4(src, src_stride, src0, src1, src2, src3);

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+  LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

   VSHF_B2_UB(src0, src1, src2, src3, mask, mask, vec0, vec1);

   DOTP_UB2_UH(vec0, vec1, filt0, filt0, vec2, vec3);

   SRARI_H2_UH(vec2, vec3, FILTER_BITS);

-  PCKEV_B2_UB(vec2, vec2, vec3, vec3, res0, res1);

-  ILVR_W2_UB(dst1, dst0, dst3, dst2, dst0, dst2);

-  AVER_UB2_UB(res0, dst0, res1, dst2, res0, res1);

-  ST4x4_UB(res0, res1, 0, 1, 0, 1, dst, dst_stride);

+  res = (v16u8)__msa_pckev_b((v16i8)vec3, (v16i8)vec2);

+  res = (v16u8)__msa_aver_u_b(res, dst0);

+  ST4x4_UB(res, res, 0, 1, 2, 3, dst, dst_stride);

 static void common_hz_2t_and_aver_dst_4x8_msa(const uint8_t *src,

@@ -334,9 +339,10 @@

                                               int32_t src_stride, uint8_t *dst,

                                               int32_t dst_stride,

                                               int8_t *filter) {

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, src5, src6, src7, mask;

   v16u8 filt0, vec0, vec1, vec2, vec3, res0, res1, res2, res3;

-  v16u8 dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7;

+  v16u8 dst0 = { 0 }, dst1 = { 0 };

   v8u16 vec4, vec5, vec6, vec7, filt;

   mask = LD_SB(&mc_filt_mask_arr[16]);

@@ -346,7 +352,10 @@

   filt0 = (v16u8)__msa_splati_h((v8i16)filt, 0);

   LD_SB8(src, src_stride, src0, src1, src2, src3, src4, src5, src6, src7);

-  LD_UB8(dst, dst_stride, dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7);

+  LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

+  LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst1);

   VSHF_B2_UB(src0, src1, src2, src3, mask, mask, vec0, vec1);

   VSHF_B2_UB(src4, src5, src6, src7, mask, mask, vec2, vec3);

   DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt0, filt0, filt0, filt0, vec4, vec5,

@@ -354,13 +363,9 @@

   SRARI_H4_UH(vec4, vec5, vec6, vec7, FILTER_BITS);

   PCKEV_B4_UB(vec4, vec4, vec5, vec5, vec6, vec6, vec7, vec7, res0, res1, res2,

               res3);

-  ILVR_W4_UB(dst1, dst0, dst3, dst2, dst5, dst4, dst7, dst6, dst0, dst2, dst4,

-             dst6);

-  AVER_UB4_UB(res0, dst0, res1, dst2, res2, dst4, res3, dst6, res0, res1, res2,

-              res3);

-  ST4x4_UB(res0, res1, 0, 1, 0, 1, dst, dst_stride);

-  dst += (4 * dst_stride);

-  ST4x4_UB(res2, res3, 0, 1, 0, 1, dst, dst_stride);

+  ILVR_D2_UB(res1, res0, res3, res2, res0, res2);

+  AVER_UB2_UB(res0, dst0, res2, dst1, res0, res2);

+  ST4x8_UB(res0, res2, dst, dst_stride);

 static void common_hz_2t_and_aver_dst_4w_msa(const uint8_t *src,

@@ -378,8 +383,9 @@

                                               int32_t src_stride, uint8_t *dst,

                                               int32_t dst_stride,

                                               int8_t *filter) {

+  int64_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, mask;

-  v16u8 filt0, dst0, dst1, dst2, dst3;

+  v16u8 filt0, dst0 = { 0 }, dst1 = { 0 };

   v8u16 vec0, vec1, vec2, vec3, filt;

   mask = LD_SB(&mc_filt_mask_arr[0]);

@@ -394,16 +400,18 @@

   DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt0, filt0, filt0, filt0, vec0, vec1,

               vec2, vec3);

   SRARI_H4_UH(vec0, vec1, vec2, vec3, FILTER_BITS);

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

-  PCKEV_AVG_ST8x4_UB(vec0, dst0, vec1, dst1, vec2, dst2, vec3, dst3, dst,

-                     dst_stride);

+  LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_D2_UB(tp0, tp1, dst0);

+  INSERT_D2_UB(tp2, tp3, dst1);

+  PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);

 static void common_hz_2t_and_aver_dst_8x8mult_msa(

     const uint8_t *src, int32_t src_stride, uint8_t *dst, int32_t dst_stride,

     int8_t *filter, int32_t height) {

+  int64_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, mask;

-  v16u8 filt0, dst0, dst1, dst2, dst3;

+  v16u8 filt0, dst0 = { 0 }, dst1 = { 0 };

   v8u16 vec0, vec1, vec2, vec3, filt;

   mask = LD_SB(&mc_filt_mask_arr[0]);

@@ -419,11 +427,12 @@

   DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt0, filt0, filt0, filt0, vec0, vec1,

               vec2, vec3);

   SRARI_H4_UH(vec0, vec1, vec2, vec3, FILTER_BITS);

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+  LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_D2_UB(tp0, tp1, dst0);

+  INSERT_D2_UB(tp2, tp3, dst1);

   LD_SB4(src, src_stride, src0, src1, src2, src3);

   src += (4 * src_stride);

-  PCKEV_AVG_ST8x4_UB(vec0, dst0, vec1, dst1, vec2, dst2, vec3, dst3, dst,

-                     dst_stride);

+  PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);

   dst += (4 * dst_stride);

   VSHF_B2_UH(src0, src0, src1, src1, mask, mask, vec0, vec1);

@@ -431,9 +440,10 @@

   DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt0, filt0, filt0, filt0, vec0, vec1,

               vec2, vec3);

   SRARI_H4_UH(vec0, vec1, vec2, vec3, FILTER_BITS);

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

-  PCKEV_AVG_ST8x4_UB(vec0, dst0, vec1, dst1, vec2, dst2, vec3, dst3, dst,

-                     dst_stride);

+  LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_D2_UB(tp0, tp1, dst0);

+  INSERT_D2_UB(tp2, tp3, dst1);

+  PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);

   dst += (4 * dst_stride);

   if (16 == height) {

@@ -445,10 +455,11 @@

     DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt0, filt0, filt0, filt0, vec0, vec1,

                 vec2, vec3);

     SRARI_H4_UH(vec0, vec1, vec2, vec3, FILTER_BITS);

-    LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+    LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_D2_UB(tp0, tp1, dst0);

+    INSERT_D2_UB(tp2, tp3, dst1);

     LD_SB4(src, src_stride, src0, src1, src2, src3);

-    PCKEV_AVG_ST8x4_UB(vec0, dst0, vec1, dst1, vec2, dst2, vec3, dst3, dst,

-                       dst_stride);

+    PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);

     dst += (4 * dst_stride);

     VSHF_B2_UH(src0, src0, src1, src1, mask, mask, vec0, vec1);

@@ -456,9 +467,10 @@

     DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt0, filt0, filt0, filt0, vec0, vec1,

                 vec2, vec3);

     SRARI_H4_UH(vec0, vec1, vec2, vec3, FILTER_BITS);

-    LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

-    PCKEV_AVG_ST8x4_UB(vec0, dst0, vec1, dst1, vec2, dst2, vec3, dst3, dst,

-                       dst_stride);

+    LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_D2_UB(tp0, tp1, dst0);

+    INSERT_D2_UB(tp2, tp3, dst1);

+    PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);

--- a/vpx_dsp/mips/vpx_convolve8_avg_msa.c

+++ b/vpx_dsp/mips/vpx_convolve8_avg_msa.c

@@ -16,8 +16,9 @@

     const uint8_t *src, int32_t src_stride, uint8_t *dst, int32_t dst_stride,

     int8_t *filter_horiz, int8_t *filter_vert, int32_t height) {

   uint32_t loop_cnt;

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, src5, src6, src7, src8, src9, src10;

-  v16u8 dst0, dst1, dst2, dst3, mask0, mask1, mask2, mask3, tmp0, tmp1;

+  v16u8 dst0 = { 0 }, mask0, mask1, mask2, mask3, res;

   v16i8 filt_hz0, filt_hz1, filt_hz2, filt_hz3;

   v8i16 hz_out0, hz_out1, hz_out2, hz_out3, hz_out4, hz_out5, hz_out6;

   v8i16 hz_out7, hz_out8, hz_out9, res0, res1, vec0, vec1, vec2, vec3, vec4;

@@ -59,7 +60,8 @@

     XORI_B4_128_SB(src7, src8, src9, src10);

     src += (4 * src_stride);

-    LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+    LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

     hz_out7 = HORIZ_8TAP_FILT(src7, src8, mask0, mask1, mask2, mask3, filt_hz0,

                               filt_hz1, filt_hz2, filt_hz3);

     hz_out6 = (v8i16)__msa_sldi_b((v16i8)hz_out7, (v16i8)hz_out5, 8);

@@ -73,14 +75,12 @@

     vec4 = (v8i16)__msa_ilvev_b((v16i8)hz_out9, (v16i8)hz_out8);

     res1 = FILT_8TAP_DPADD_S_H(vec1, vec2, vec3, vec4, filt_vt0, filt_vt1,

                                filt_vt2, filt_vt3);

-    ILVR_W2_UB(dst1, dst0, dst3, dst2, dst0, dst2);

     SRARI_H2_SH(res0, res1, FILTER_BITS);

     SAT_SH2_SH(res0, res1, 7);

-    PCKEV_B2_UB(res0, res0, res1, res1, tmp0, tmp1);

-    XORI_B2_128_UB(tmp0, tmp1);

-    AVER_UB2_UB(tmp0, dst0, tmp1, dst2, tmp0, tmp1);

-    ST4x4_UB(tmp0, tmp1, 0, 1, 0, 1, dst, dst_stride);

+    res = PCKEV_XORI128_UB(res0, res1);

+    res = (v16u8)__msa_aver_u_b(res, dst0);

+    ST4x4_UB(res, res, 0, 1, 2, 3, dst, dst_stride);

     dst += (4 * dst_stride);

     hz_out5 = hz_out9;

@@ -94,10 +94,11 @@

     const uint8_t *src, int32_t src_stride, uint8_t *dst, int32_t dst_stride,

     int8_t *filter_horiz, int8_t *filter_vert, int32_t height) {

   uint32_t loop_cnt;

+  uint64_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, src5, src6, src7, src8, src9, src10;

   v16i8 filt_hz0, filt_hz1, filt_hz2, filt_hz3;

   v8i16 filt, filt_vt0, filt_vt1, filt_vt2, filt_vt3;

-  v16u8 dst0, dst1, dst2, dst3, mask0, mask1, mask2, mask3;

+  v16u8 dst0 = { 0 }, dst1 = { 0 }, mask0, mask1, mask2, mask3;

   v8i16 hz_out0, hz_out1, hz_out2, hz_out3, hz_out4, hz_out5, hz_out6;

   v8i16 hz_out7, hz_out8, hz_out9, hz_out10, tmp0, tmp1, tmp2, tmp3;

   v8i16 out0, out1, out2, out3, out4, out5, out6, out7, out8, out9;

@@ -144,7 +145,9 @@

     XORI_B4_128_SB(src7, src8, src9, src10);

     src += (4 * src_stride);

-    LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+    LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_D2_UB(tp0, tp1, dst0);

+    INSERT_D2_UB(tp2, tp3, dst1);

     hz_out7 = HORIZ_8TAP_FILT(src7, src7, mask0, mask1, mask2, mask3, filt_hz0,

                               filt_hz1, filt_hz2, filt_hz3);

@@ -172,7 +175,7 @@

     SRARI_H4_SH(tmp0, tmp1, tmp2, tmp3, FILTER_BITS);

     SAT_SH4_SH(tmp0, tmp1, tmp2, tmp3, 7);

-    CONVERT_UB_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst2, dst3, dst,

+    CONVERT_UB_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst,

                             dst_stride);

     dst += (4 * dst_stride);

@@ -225,9 +228,10 @@

 static void common_hv_2ht_2vt_and_aver_dst_4x4_msa(

     const uint8_t *src, int32_t src_stride, uint8_t *dst, int32_t dst_stride,

     int8_t *filter_horiz, int8_t *filter_vert) {

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, mask;

   v16u8 filt_hz, filt_vt, vec0, vec1;

-  v16u8 dst0, dst1, dst2, dst3, res0, res1;

+  v16u8 dst0 = { 0 }, out;

   v8u16 hz_out0, hz_out1, hz_out2, hz_out3, hz_out4, tmp0, tmp1, filt;

   mask = LD_SB(&mc_filt_mask_arr[16]);

@@ -248,21 +252,22 @@

   hz_out3 = (v8u16)__msa_pckod_d((v2i64)hz_out4, (v2i64)hz_out2);

   ILVEV_B2_UB(hz_out0, hz_out1, hz_out2, hz_out3, vec0, vec1);

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

-  ILVR_W2_UB(dst1, dst0, dst3, dst2, dst0, dst2);

+  LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

   DOTP_UB2_UH(vec0, vec1, filt_vt, filt_vt, tmp0, tmp1);

   SRARI_H2_UH(tmp0, tmp1, FILTER_BITS);

-  PCKEV_B2_UB(tmp0, tmp0, tmp1, tmp1, res0, res1);

-  AVER_UB2_UB(res0, dst0, res1, dst2, res0, res1);

-  ST4x4_UB(res0, res1, 0, 1, 0, 1, dst, dst_stride);

+  out = (v16u8)__msa_pckev_b((v16i8)tmp1, (v16i8)tmp0);

+  out = __msa_aver_u_b(out, dst0);

+  ST4x4_UB(out, out, 0, 1, 2, 3, dst, dst_stride);

 static void common_hv_2ht_2vt_and_aver_dst_4x8_msa(

     const uint8_t *src, int32_t src_stride, uint8_t *dst, int32_t dst_stride,

     int8_t *filter_horiz, int8_t *filter_vert) {

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, src5, src6, src7, src8, mask;

-  v16u8 filt_hz, filt_vt, vec0, vec1, vec2, vec3, res0, res1, res2, res3;

-  v16u8 dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7;

+  v16u8 filt_hz, filt_vt, vec0, vec1, vec2, vec3, res0, res1;

+  v16u8 dst0 = { 0 }, dst1 = { 0 };

   v8u16 hz_out0, hz_out1, hz_out2, hz_out3, hz_out4, hz_out5, hz_out6;

   v8u16 hz_out7, hz_out8, tmp0, tmp1, tmp2, tmp3;

   v8i16 filt;

@@ -289,21 +294,18 @@

              hz_out3, hz_out5, 8);

   hz_out7 = (v8u16)__msa_pckod_d((v2i64)hz_out8, (v2i64)hz_out6);

-  LD_UB8(dst, dst_stride, dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7);

-  ILVR_W4_UB(dst1, dst0, dst3, dst2, dst5, dst4, dst7, dst6, dst0, dst2, dst4,

-             dst6);

+  LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

+  LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst1);

   ILVEV_B2_UB(hz_out0, hz_out1, hz_out2, hz_out3, vec0, vec1);

   ILVEV_B2_UB(hz_out4, hz_out5, hz_out6, hz_out7, vec2, vec3);

   DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt_vt, filt_vt, filt_vt, filt_vt, tmp0,

               tmp1, tmp2, tmp3);

   SRARI_H4_UH(tmp0, tmp1, tmp2, tmp3, FILTER_BITS);

-  PCKEV_B4_UB(tmp0, tmp0, tmp1, tmp1, tmp2, tmp2, tmp3, tmp3, res0, res1, res2,

-              res3);

-  AVER_UB4_UB(res0, dst0, res1, dst2, res2, dst4, res3, dst6, res0, res1, res2,

-              res3);

-  ST4x4_UB(res0, res1, 0, 1, 0, 1, dst, dst_stride);

-  dst += (4 * dst_stride);

-  ST4x4_UB(res2, res3, 0, 1, 0, 1, dst, dst_stride);

+  PCKEV_B2_UB(tmp1, tmp0, tmp3, tmp2, res0, res1);

+  AVER_UB2_UB(res0, dst0, res1, dst1, res0, res1);

+  ST4x8_UB(res0, res1, dst, dst_stride);

 static void common_hv_2ht_2vt_and_aver_dst_4w_msa(

@@ -321,8 +323,9 @@

 static void common_hv_2ht_2vt_and_aver_dst_8x4_msa(

     const uint8_t *src, int32_t src_stride, uint8_t *dst, int32_t dst_stride,

     int8_t *filter_horiz, int8_t *filter_vert) {

+  uint64_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, mask;

-  v16u8 filt_hz, filt_vt, dst0, dst1, dst2, dst3, vec0, vec1, vec2, vec3;

+  v16u8 filt_hz, filt_vt, dst0 = { 0 }, dst1 = { 0 }, vec0, vec1, vec2, vec3;

   v8u16 hz_out0, hz_out1, tmp0, tmp1, tmp2, tmp3;

   v8i16 filt;

@@ -338,7 +341,9 @@

   LD_SB5(src, src_stride, src0, src1, src2, src3, src4);

   src += (5 * src_stride);

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+  LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_D2_UB(tp0, tp1, dst0);

+  INSERT_D2_UB(tp2, tp3, dst1);

   hz_out0 = HORIZ_2TAP_FILT_UH(src0, src0, mask, filt_hz, FILTER_BITS);

   hz_out1 = HORIZ_2TAP_FILT_UH(src1, src1, mask, filt_hz, FILTER_BITS);

   vec0 = (v16u8)__msa_ilvev_b((v16i8)hz_out1, (v16i8)hz_out0);

@@ -357,8 +362,7 @@

   tmp3 = __msa_dotp_u_h(vec3, filt_vt);

   SRARI_H4_UH(tmp0, tmp1, tmp2, tmp3, FILTER_BITS);

-  PCKEV_AVG_ST8x4_UB(tmp0, dst0, tmp1, dst1, tmp2, dst2, tmp3, dst3, dst,

-                     dst_stride);

+  PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);

 static void common_hv_2ht_2vt_and_aver_dst_8x8mult_msa(

@@ -365,8 +369,9 @@

     const uint8_t *src, int32_t src_stride, uint8_t *dst, int32_t dst_stride,

     int8_t *filter_horiz, int8_t *filter_vert, int32_t height) {

   uint32_t loop_cnt;

+  uint64_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, mask;

-  v16u8 filt_hz, filt_vt, vec0, dst0, dst1, dst2, dst3;

+  v16u8 filt_hz, filt_vt, vec0, dst0 = { 0 }, dst1 = { 0 };

   v8u16 hz_out0, hz_out1, tmp0, tmp1, tmp2, tmp3;

   v8i16 filt;

@@ -407,9 +412,10 @@

     tmp3 = __msa_dotp_u_h(vec0, filt_vt);

     SRARI_H2_UH(tmp2, tmp3, FILTER_BITS);

-    LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

-    PCKEV_AVG_ST8x4_UB(tmp0, dst0, tmp1, dst1, tmp2, dst2, tmp3, dst3, dst,

-                       dst_stride);

+    LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_D2_UB(tp0, tp1, dst0);

+    INSERT_D2_UB(tp2, tp3, dst1);

+    PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);

     dst += (4 * dst_stride);

--- a/vpx_dsp/mips/vpx_convolve8_avg_vert_msa.c

+++ b/vpx_dsp/mips/vpx_convolve8_avg_vert_msa.c

@@ -17,8 +17,9 @@

                                              int32_t dst_stride, int8_t *filter,

                                              int32_t height) {

   uint32_t loop_cnt;

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, src5, src6, src7, src8, src9, src10;

-  v16u8 dst0, dst1, dst2, dst3, out;

+  v16u8 dst0 = { 0 }, out;

   v16i8 src10_r, src32_r, src54_r, src76_r, src98_r, src21_r, src43_r;

   v16i8 src65_r, src87_r, src109_r, src2110, src4332, src6554, src8776;

   v16i8 src10998, filt0, filt1, filt2, filt3;

@@ -43,7 +44,8 @@

     LD_SB4(src, src_stride, src7, src8, src9, src10);

     src += (4 * src_stride);

-    LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+    LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

     ILVR_B4_SB(src7, src6, src8, src7, src9, src8, src10, src9, src76_r,

                src87_r, src98_r, src109_r);

     ILVR_D2_SB(src87_r, src76_r, src109_r, src98_r, src8776, src10998);

@@ -55,9 +57,6 @@

     SRARI_H2_SH(out10, out32, FILTER_BITS);

     SAT_SH2_SH(out10, out32, 7);

     out = PCKEV_XORI128_UB(out10, out32);

-    ILVR_W2_UB(dst1, dst0, dst3, dst2, dst0, dst2);

-    dst0 = (v16u8)__msa_ilvr_d((v2i64)dst2, (v2i64)dst0);

     out = __msa_aver_u_b(out, dst0);

     ST4x4_UB(out, out, 0, 1, 2, 3, dst, dst_stride);

@@ -75,8 +74,9 @@

                                              int32_t dst_stride, int8_t *filter,

                                              int32_t height) {

   uint32_t loop_cnt;

+  uint64_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4, src5, src6, src7, src8, src9, src10;

-  v16u8 dst0, dst1, dst2, dst3;

+  v16u8 dst0 = { 0 }, dst1 = { 0 };

   v16i8 src10_r, src32_r, src54_r, src76_r, src98_r, src21_r, src43_r;

   v16i8 src65_r, src87_r, src109_r, filt0, filt1, filt2, filt3;

   v8i16 filt, out0, out1, out2, out3;

@@ -98,7 +98,9 @@

     LD_SB4(src, src_stride, src7, src8, src9, src10);

     src += (4 * src_stride);

-    LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+    LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_D2_UB(tp0, tp1, dst0);

+    INSERT_D2_UB(tp2, tp3, dst1);

     XORI_B4_128_SB(src7, src8, src9, src10);

     ILVR_B4_SB(src7, src6, src8, src7, src9, src8, src10, src9, src76_r,

                src87_r, src98_r, src109_r);

@@ -112,7 +114,7 @@

                                filt1, filt2, filt3);

     SRARI_H4_SH(out0, out1, out2, out3, FILTER_BITS);

     SAT_SH4_SH(out0, out1, out2, out3, 7);

-    CONVERT_UB_AVG_ST8x4_UB(out0, out1, out2, out3, dst0, dst1, dst2, dst3, dst,

+    CONVERT_UB_AVG_ST8x4_UB(out0, out1, out2, out3, dst0, dst1, dst,

                             dst_stride);

     dst += (4 * dst_stride);

@@ -246,8 +248,9 @@

                                               int32_t src_stride, uint8_t *dst,

                                               int32_t dst_stride,

                                               int8_t *filter) {

+  uint32_t tp0, tp1, tp2, tp3;

   v16i8 src0, src1, src2, src3, src4;

-  v16u8 dst0, dst1, dst2, dst3, out, filt0, src2110, src4332;

+  v16u8 dst0 = { 0 }, out, filt0, src2110, src4332;

   v16i8 src10_r, src32_r, src21_r, src43_r;

   v8i16 filt;

   v8u16 tmp0, tmp1;

@@ -261,9 +264,8 @@

   src4 = LD_SB(src);

   src += src_stride;

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

-  ILVR_W2_UB(dst1, dst0, dst3, dst2, dst0, dst1);

-  dst0 = (v16u8)__msa_ilvr_d((v2i64)dst1, (v2i64)dst0);

+  LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

   ILVR_B4_SB(src1, src0, src2, src1, src3, src2, src4, src3, src10_r, src21_r,

              src32_r, src43_r);

   ILVR_D2_UB(src21_r, src10_r, src43_r, src32_r, src2110, src4332);

@@ -280,7 +282,8 @@

                                               int32_t src_stride, uint8_t *dst,

                                               int32_t dst_stride,

                                               int8_t *filter) {

-  v16u8 dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7;

+  uint32_t tp0, tp1, tp2, tp3;

+  v16u8 dst0 = { 0 }, dst1 = { 0 };

   v16i8 src0, src1, src2, src3, src4, src5, src6, src7, src8, src87_r;

   v16i8 src10_r, src32_r, src54_r, src76_r, src21_r, src43_r, src65_r;

   v16u8 src2110, src4332, src6554, src8776, filt0;

@@ -294,10 +297,10 @@

   src += (8 * src_stride);

   src8 = LD_SB(src);

-  LD_UB8(dst, dst_stride, dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7);

-  ILVR_W4_UB(dst1, dst0, dst3, dst2, dst5, dst4, dst7, dst6, dst0, dst1, dst2,

-             dst3);

-  ILVR_D2_UB(dst1, dst0, dst3, dst2, dst0, dst1);

+  LW4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst0);

+  LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_W4_UB(tp0, tp1, tp2, tp3, dst1);

   ILVR_B4_SB(src1, src0, src2, src1, src3, src2, src4, src3, src10_r, src21_r,

              src32_r, src43_r);

   ILVR_B4_SB(src5, src4, src6, src5, src7, src6, src8, src7, src54_r, src65_r,

@@ -309,9 +312,7 @@

   SRARI_H4_UH(tmp0, tmp1, tmp2, tmp3, FILTER_BITS);

   PCKEV_B2_UB(tmp1, tmp0, tmp3, tmp2, src2110, src4332);

   AVER_UB2_UB(src2110, dst0, src4332, dst1, src2110, src4332);

-  ST4x4_UB(src2110, src2110, 0, 1, 2, 3, dst, dst_stride);

-  dst += (4 * dst_stride);

-  ST4x4_UB(src4332, src4332, 0, 1, 2, 3, dst, dst_stride);

+  ST4x8_UB(src2110, src4332, dst, dst_stride);

 static void common_vt_2t_and_aver_dst_4w_msa(const uint8_t *src,

@@ -329,8 +330,9 @@

                                               int32_t src_stride, uint8_t *dst,

                                               int32_t dst_stride,

                                               int8_t *filter) {

+  int64_t tp0, tp1, tp2, tp3;

   v16u8 src0, src1, src2, src3, src4;

-  v16u8 dst0, dst1, dst2, dst3, vec0, vec1, vec2, vec3, filt0;

+  v16u8 dst0 = { 0 }, dst1 = { 0 }, vec0, vec1, vec2, vec3, filt0;

   v8u16 tmp0, tmp1, tmp2, tmp3;

   v8i16 filt;

@@ -339,14 +341,15 @@

   filt0 = (v16u8)__msa_splati_h(filt, 0);

   LD_UB5(src, src_stride, src0, src1, src2, src3, src4);

-  LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);

+  LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+  INSERT_D2_UB(tp0, tp1, dst0);

+  INSERT_D2_UB(tp2, tp3, dst1);

   ILVR_B2_UB(src1, src0, src2, src1, vec0, vec1);

   ILVR_B2_UB(src3, src2, src4, src3, vec2, vec3);

   DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt0, filt0, filt0, filt0, tmp0, tmp1,

               tmp2, tmp3);

   SRARI_H4_UH(tmp0, tmp1, tmp2, tmp3, FILTER_BITS);

-  PCKEV_AVG_ST8x4_UB(tmp0, dst0, tmp1, dst1, tmp2, dst2, tmp3, dst3, dst,

-                     dst_stride);

+  PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);

 static void common_vt_2t_and_aver_dst_8x8mult_msa(

@@ -353,8 +356,9 @@

     const uint8_t *src, int32_t src_stride, uint8_t *dst, int32_t dst_stride,

     int8_t *filter, int32_t height) {

   uint32_t loop_cnt;

+  int64_t tp0, tp1, tp2, tp3;

   v16u8 src0, src1, src2, src3, src4, src5, src6, src7, src8;

-  v16u8 dst1, dst2, dst3, dst4, dst5, dst6, dst7, dst8;

+  v16u8 dst0 = { 0 }, dst1 = { 0 }, dst2 = { 0 }, dst3 = { 0 };

   v16u8 vec0, vec1, vec2, vec3, vec4, vec5, vec6, vec7, filt0;

   v8u16 tmp0, tmp1, tmp2, tmp3;

   v8i16 filt;

@@ -369,7 +373,12 @@

   for (loop_cnt = (height >> 3); loop_cnt--;) {

     LD_UB8(src, src_stride, src1, src2, src3, src4, src5, src6, src7, src8);

     src += (8 * src_stride);

-    LD_UB8(dst, dst_stride, dst1, dst2, dst3, dst4, dst5, dst6, dst7, dst8);

+    LD4(dst, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_D2_UB(tp0, tp1, dst0);

+    INSERT_D2_UB(tp2, tp3, dst1);

+    LD4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);

+    INSERT_D2_UB(tp0, tp1, dst2);

+    INSERT_D2_UB(tp2, tp3, dst3);

     ILVR_B4_UB(src1, src0, src2, src1, src3, src2, src4, src3, vec0, vec1, vec2,

                vec3);

@@ -378,15 +387,13 @@

     DOTP_UB4_UH(vec0, vec1, vec2, vec3, filt0, filt0, filt0, filt0, tmp0, tmp1,

                 tmp2, tmp3);

     SRARI_H4_UH(tmp0, tmp1, tmp2, tmp3, FILTER_BITS);

-    PCKEV_AVG_ST8x4_UB(tmp0, dst1, tmp1, dst2, tmp2, dst3, tmp3, dst4, dst,

-                       dst_stride);

+    PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);

     dst += (4 * dst_stride);

     DOTP_UB4_UH(vec4, vec5, vec6, vec7, filt0, filt0, filt0, filt0, tmp0, tmp1,

                 tmp2, tmp3);

     SRARI_H4_UH(tmp0, tmp1, tmp2, tmp3, FILTER_BITS);

-    PCKEV_AVG_ST8x4_UB(tmp0, dst5, tmp1, dst6, tmp2, dst7, tmp3, dst8, dst,

-                       dst_stride);

+    PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst2, dst3, dst, dst_stride);

     dst += (4 * dst_stride);

     src0 = src8;

--- a/vpx_dsp/mips/vpx_convolve_msa.h

+++ b/vpx_dsp/mips/vpx_convolve_msa.h

@@ -110,14 +110,13 @@

     ST_UB(tmp_m, (pdst));                                 \

-#define PCKEV_AVG_ST8x4_UB(in1, dst0, in2, dst1, in3, dst2, in4, dst3, pdst, \

-                           stride)                                           \

-  {                                                                          \

-    v16u8 tmp0_m, tmp1_m, tmp2_m, tmp3_m;                                    \

-                                                                             \

-    PCKEV_B2_UB(in2, in1, in4, in3, tmp0_m, tmp1_m);                         \

-    PCKEV_D2_UB(dst1, dst0, dst3, dst2, tmp2_m, tmp3_m);                     \

-    AVER_UB2_UB(tmp0_m, tmp2_m, tmp1_m, tmp3_m, tmp0_m, tmp1_m);             \

-    ST8x4_UB(tmp0_m, tmp1_m, pdst, stride);                                  \

+#define PCKEV_AVG_ST8x4_UB(in0, in1, in2, in3, dst0, dst1, pdst, stride) \

+  {                                                                      \

+    v16u8 tmp0_m, tmp1_m;                                                \

+    uint8_t *pdst_m = (uint8_t *)(pdst);                                 \

+                                                                         \

+    PCKEV_B2_UB(in1, in0, in3, in2, tmp0_m, tmp1_m);                     \

+    AVER_UB2_UB(tmp0_m, dst0, tmp1_m, dst1, tmp0_m, tmp1_m);             \

+    ST8x4_UB(tmp0_m, tmp1_m, pdst_m, stride);                            \

 #endif /* VPX_DSP_MIPS_VPX_CONVOLVE_MSA_H_ */

--

⑨