shithub: libvpx

--- a/vpx_dsp/arm/idct32x32_34_add_neon.c

+++ b/vpx_dsp/arm/idct32x32_34_add_neon.c

@@ -46,21 +46,21 @@

       s2_31;

   int16x8_t s3_24, s3_25, s3_26, s3_27;

-  in0 = load_tran_low_to_s16(input);

+  in0 = load_tran_low_to_s16q(input);

   input += 32;

-  in1 = load_tran_low_to_s16(input);

+  in1 = load_tran_low_to_s16q(input);

   input += 32;

-  in2 = load_tran_low_to_s16(input);

+  in2 = load_tran_low_to_s16q(input);

   input += 32;

-  in3 = load_tran_low_to_s16(input);

+  in3 = load_tran_low_to_s16q(input);

   input += 32;

-  in4 = load_tran_low_to_s16(input);

+  in4 = load_tran_low_to_s16q(input);

   input += 32;

-  in5 = load_tran_low_to_s16(input);

+  in5 = load_tran_low_to_s16q(input);

   input += 32;

-  in6 = load_tran_low_to_s16(input);

+  in6 = load_tran_low_to_s16q(input);

   input += 32;

-  in7 = load_tran_low_to_s16(input);

+  in7 = load_tran_low_to_s16q(input);

   transpose_s16_8x8(&in0, &in1, &in2, &in3, &in4, &in5, &in6, &in7);

   // stage 1

--- a/vpx_dsp/arm/idct4x4_add_neon.c

+++ b/vpx_dsp/arm/idct4x4_add_neon.c

@@ -62,8 +62,8 @@

   assert(!(dest_stride % sizeof(uint32_t)));

   // Rows

-  a0 = load_tran_low_to_s16(input);

-  a1 = load_tran_low_to_s16(input + 8);

+  a0 = load_tran_low_to_s16q(input);

+  a1 = load_tran_low_to_s16q(input + 8);

   idct4x4_16_kernel(cospis, &a0, &a1);

   // Columns

--- a/vpx_dsp/arm/idct8x8_add_neon.c

+++ b/vpx_dsp/arm/idct8x8_add_neon.c

@@ -174,14 +174,14 @@

   int16x8_t q8s16, q9s16, q10s16, q11s16, q12s16, q13s16, q14s16, q15s16;

   uint16x8_t q8u16, q9u16, q10u16, q11u16;

-  q8s16 = load_tran_low_to_s16(input);

-  q9s16 = load_tran_low_to_s16(input + 8);

-  q10s16 = load_tran_low_to_s16(input + 16);

-  q11s16 = load_tran_low_to_s16(input + 24);

-  q12s16 = load_tran_low_to_s16(input + 32);

-  q13s16 = load_tran_low_to_s16(input + 40);

-  q14s16 = load_tran_low_to_s16(input + 48);

-  q15s16 = load_tran_low_to_s16(input + 56);

+  q8s16 = load_tran_low_to_s16q(input);

+  q9s16 = load_tran_low_to_s16q(input + 8);

+  q10s16 = load_tran_low_to_s16q(input + 16);

+  q11s16 = load_tran_low_to_s16q(input + 24);

+  q12s16 = load_tran_low_to_s16q(input + 32);

+  q13s16 = load_tran_low_to_s16q(input + 40);

+  q14s16 = load_tran_low_to_s16q(input + 48);

+  q15s16 = load_tran_low_to_s16q(input + 56);

   transpose_s16_8x8(&q8s16, &q9s16, &q10s16, &q11s16, &q12s16, &q13s16, &q14s16,

                     &q15s16);

@@ -280,14 +280,14 @@

   uint16x8_t q8u16, q9u16, q10u16, q11u16;

   int32x4_t q9s32, q10s32, q11s32, q12s32;

-  q8s16 = load_tran_low_to_s16(input);

-  q9s16 = load_tran_low_to_s16(input + 8);

-  q10s16 = load_tran_low_to_s16(input + 16);

-  q11s16 = load_tran_low_to_s16(input + 24);

-  q12s16 = load_tran_low_to_s16(input + 32);

-  q13s16 = load_tran_low_to_s16(input + 40);

-  q14s16 = load_tran_low_to_s16(input + 48);

-  q15s16 = load_tran_low_to_s16(input + 56);

+  q8s16 = load_tran_low_to_s16q(input);

+  q9s16 = load_tran_low_to_s16q(input + 8);

+  q10s16 = load_tran_low_to_s16q(input + 16);

+  q11s16 = load_tran_low_to_s16q(input + 24);

+  q12s16 = load_tran_low_to_s16q(input + 32);

+  q13s16 = load_tran_low_to_s16q(input + 40);

+  q14s16 = load_tran_low_to_s16q(input + 48);

+  q15s16 = load_tran_low_to_s16q(input + 56);

   transpose_s16_8x8(&q8s16, &q9s16, &q10s16, &q11s16, &q12s16, &q13s16, &q14s16,

                     &q15s16);

--- a/vpx_dsp/arm/idct_neon.h

+++ b/vpx_dsp/arm/idct_neon.h

@@ -20,7 +20,7 @@

 //------------------------------------------------------------------------------

 // Helper function used to load tran_low_t into int16, narrowing if necessary.

-static INLINE int16x8_t load_tran_low_to_s16(const tran_low_t *buf) {

+static INLINE int16x8_t load_tran_low_to_s16q(const tran_low_t *buf) {

 #if CONFIG_VP9_HIGHBITDEPTH

   const int32x4_t v0 = vld1q_s32(buf);

   const int32x4_t v1 = vld1q_s32(buf + 4);

--

⑨