shithub: libvpx

--- a/vp9/common/vp9_rtcd_defs.sh

+++ b/vp9/common/vp9_rtcd_defs.sh

@@ -254,13 +254,13 @@

 specialize vp9_convolve8_vert ssse3

 prototype void vp9_convolve8_avg "const uint8_t *src, int src_stride, uint8_t *dst, int dst_stride, const int16_t *filter_x, int x_step_q4, const int16_t *filter_y, int y_step_q4, int w, int h"

-specialize vp9_convolve8_avg

+specialize vp9_convolve8_avg ssse3

 prototype void vp9_convolve8_avg_horiz "const uint8_t *src, int src_stride, uint8_t *dst, int dst_stride, const int16_t *filter_x, int x_step_q4, const int16_t *filter_y, int y_step_q4, int w, int h"

-specialize vp9_convolve8_avg_horiz

+specialize vp9_convolve8_avg_horiz ssse3

 prototype void vp9_convolve8_avg_vert "const uint8_t *src, int src_stride, uint8_t *dst, int dst_stride, const int16_t *filter_x, int x_step_q4, const int16_t *filter_y, int y_step_q4, int w, int h"

-specialize vp9_convolve8_avg_vert

+specialize vp9_convolve8_avg_vert ssse3

 # dct

--- a/vp9/common/x86/vp9_asm_stubs.c

+++ b/vp9/common/x86/vp9_asm_stubs.c

@@ -79,6 +79,48 @@

                                    unsigned int output_height,

                                    const short *filter);

+void vp9_filter_block1d16_v8_avg_ssse3(const unsigned char *src_ptr,

+                                       const unsigned int src_pitch,

+                                       unsigned char *output_ptr,

+                                       unsigned int out_pitch,

+                                       unsigned int output_height,

+                                       const short *filter);

+void vp9_filter_block1d16_h8_avg_ssse3(const unsigned char *src_ptr,

+                                       const unsigned int src_pitch,

+                                       unsigned char *output_ptr,

+                                       unsigned int out_pitch,

+                                       unsigned int output_height,

+                                       const short *filter);

+void vp9_filter_block1d8_v8_avg_ssse3(const unsigned char *src_ptr,

+                                     const unsigned int src_pitch,

+                                     unsigned char *output_ptr,

+                                     unsigned int out_pitch,

+                                     unsigned int output_height,

+                                     const short *filter);

+void vp9_filter_block1d8_h8_avg_ssse3(const unsigned char *src_ptr,

+                                     const unsigned int src_pitch,

+                                     unsigned char *output_ptr,

+                                     unsigned int out_pitch,

+                                     unsigned int output_height,

+                                     const short *filter);

+void vp9_filter_block1d4_v8_avg_ssse3(const unsigned char *src_ptr,

+                                     const unsigned int src_pitch,

+                                     unsigned char *output_ptr,

+                                     unsigned int out_pitch,

+                                     unsigned int output_height,

+                                     const short *filter);

+void vp9_filter_block1d4_h8_avg_ssse3(const unsigned char *src_ptr,

+                                     const unsigned int src_pitch,

+                                     unsigned char *output_ptr,

+                                     unsigned int out_pitch,

+                                     unsigned int output_height,

+                                     const short *filter);

 void vp9_convolve8_horiz_ssse3(const uint8_t *src, int src_stride,

                                uint8_t *dst, int dst_stride,

                                const int16_t *filter_x, int x_step_q4,

@@ -155,6 +197,82 @@

+void vp9_convolve8_avg_horiz_ssse3(const uint8_t *src, int src_stride,

+                               uint8_t *dst, int dst_stride,

+                               const int16_t *filter_x, int x_step_q4,

+                               const int16_t *filter_y, int y_step_q4,

+                               int w, int h) {

+  if (x_step_q4 == 16 && filter_x[3] != 128) {

+    while (w >= 16) {

+      vp9_filter_block1d16_h8_avg_ssse3(src, src_stride,

+                                    dst, dst_stride,

+                                    h, filter_x);

+      src += 16;

+      dst += 16;

+      w -= 16;

+    }

+    while (w >= 8) {

+      vp9_filter_block1d8_h8_avg_ssse3(src, src_stride,

+                                   dst, dst_stride,

+                                   h, filter_x);

+      src += 8;

+      dst += 8;

+      w -= 8;

+    }

+    while (w >= 4) {

+      vp9_filter_block1d4_h8_avg_ssse3(src, src_stride,

+                                   dst, dst_stride,

+                                   h, filter_x);

+      src += 4;

+      dst += 4;

+      w -= 4;

+    }

+  }

+  if (w) {

+    vp9_convolve8_avg_horiz_c(src, src_stride, dst, dst_stride,

+                              filter_x, x_step_q4, filter_y, y_step_q4,

+                              w, h);

+  }

+}

+void vp9_convolve8_avg_vert_ssse3(const uint8_t *src, int src_stride,

+                              uint8_t *dst, int dst_stride,

+                              const int16_t *filter_x, int x_step_q4,

+                              const int16_t *filter_y, int y_step_q4,

+                              int w, int h) {

+  if (y_step_q4 == 16 && filter_y[3] != 128) {

+    while (w >= 16) {

+      vp9_filter_block1d16_v8_avg_ssse3(src - src_stride * 3, src_stride,

+                                    dst, dst_stride,

+                                    h, filter_y);

+      src += 16;

+      dst += 16;

+      w -= 16;

+    }

+    while (w >= 8) {

+      vp9_filter_block1d8_v8_avg_ssse3(src - src_stride * 3, src_stride,

+                                   dst, dst_stride,

+                                   h, filter_y);

+      src += 8;

+      dst += 8;

+      w -= 8;

+    }

+    while (w >= 4) {

+      vp9_filter_block1d4_v8_avg_ssse3(src - src_stride * 3, src_stride,

+                                   dst, dst_stride,

+                                   h, filter_y);

+      src += 4;

+      dst += 4;

+      w -= 4;

+    }

+  }

+  if (w) {

+    vp9_convolve8_avg_vert_c(src, src_stride, dst, dst_stride,

+                             filter_x, x_step_q4, filter_y, y_step_q4,

+                             w, h);

+  }

+}

 void vp9_convolve8_ssse3(const uint8_t *src, int src_stride,

                          uint8_t *dst, int dst_stride,

                          const int16_t *filter_x, int x_step_q4,

@@ -199,5 +317,51 @@

   vp9_convolve8_c(src, src_stride, dst, dst_stride,

                   filter_x, x_step_q4, filter_y, y_step_q4,

                   w, h);

+}

+void vp9_convolve8_avg_ssse3(const uint8_t *src, int src_stride,

+                         uint8_t *dst, int dst_stride,

+                         const int16_t *filter_x, int x_step_q4,

+                         const int16_t *filter_y, int y_step_q4,

+                         int w, int h) {

+  DECLARE_ALIGNED_ARRAY(16, unsigned char, fdata2, 16*23);

+  // check w/h due to fixed size fdata2 array

+  assert(w <= 16);

+  assert(h <= 16);

+  if (x_step_q4 == 16 && y_step_q4 == 16 &&

+      filter_x[3] != 128 && filter_y[3] != 128) {

+    if (w == 16) {

+      vp9_filter_block1d16_h8_ssse3(src - 3 * src_stride, src_stride,

+                                    fdata2, 16,

+                                    h + 7, filter_x);

+      vp9_filter_block1d16_v8_avg_ssse3(fdata2, 16,

+                                        dst, dst_stride,

+                                        h, filter_y);

+      return;

+    }

+    if (w == 8) {

+      vp9_filter_block1d8_h8_ssse3(src - 3 * src_stride, src_stride,

+                                   fdata2, 16,

+                                   h + 7, filter_x);

+      vp9_filter_block1d8_v8_avg_ssse3(fdata2, 16,

+                                       dst, dst_stride,

+                                       h, filter_y);

+      return;

+    }

+    if (w == 4) {

+      vp9_filter_block1d4_h8_ssse3(src - 3 * src_stride, src_stride,

+                                   fdata2, 16,

+                                   h + 7, filter_x);

+      vp9_filter_block1d4_v8_avg_ssse3(fdata2, 16,

+                                       dst, dst_stride,

+                                       h, filter_y);

+      return;

+    }

+  }

+  vp9_convolve8_avg_c(src, src_stride, dst, dst_stride,

+                      filter_x, x_step_q4, filter_y, y_step_q4,

+                      w, h);

 #endif

--- a/vp9/common/x86/vp9_subpixel_8t_ssse3.asm

+++ b/vp9/common/x86/vp9_subpixel_8t_ssse3.asm

@@ -21,34 +21,8 @@

 ;*************************************************************************************/

-;void vp9_filter_block1d8_v8_ssse3

-;(

-;    unsigned char *src_ptr,

-;    unsigned int   src_pitch,

-;    unsigned char *output_ptr,

-;    unsigned int   out_pitch,

-;    unsigned int   output_height,

-;    short *filter

-;)

-global sym(vp9_filter_block1d4_v8_ssse3) PRIVATE

-sym(vp9_filter_block1d4_v8_ssse3):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    SAVE_XMM 7

-    push        rsi

-    push        rdi

-    push        rbx

-    ; end prolog

-    ALIGN_STACK 16, rax

-    sub         rsp, 16*5

-    %define k0k1 [rsp + 16*0]

-    %define k2k3 [rsp + 16*1]

-    %define k4k5 [rsp + 16*2]

-    %define k6k7 [rsp + 16*3]

-    %define krd [rsp + 16*4]

+%macro VERTx4 1

     mov         rdx, arg(5)                 ;filter ptr

     mov         rsi, arg(0)                 ;src_ptr

     mov         rdi, arg(2)                 ;output_ptr

@@ -86,7 +60,7 @@

     lea         rbx, [rdx + rdx*4]

     add         rbx, rdx                    ;pitch * 6

-.vp9_filter_block1d4_v8_ssse3_loop:

+.loop:

     movd        xmm0, [rsi]                 ;A

     movd        xmm1, [rsi + rdx]           ;B

     movd        xmm2, [rsi + rdx * 2]       ;C

@@ -117,7 +91,10 @@

     add         rsi,  rdx

     add         rax,  rdx

+%if %1

+    movd        xmm1, [rdi]

+    pavgb       xmm0, xmm1

+%endif

     movd        [rdi], xmm0

 %if ABI_IS_32BIT

@@ -126,47 +103,10 @@

     add         rdi, r8

 %endif

     dec         rcx

-    jnz         .vp9_filter_block1d4_v8_ssse3_loop

+    jnz         .loop

+%endm

-    add rsp, 16*5

-    pop rsp

-    pop rbx

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp9_filter_block1d8_v8_ssse3

-;(

-;    unsigned char *src_ptr,

-;    unsigned int   src_pitch,

-;    unsigned char *output_ptr,

-;    unsigned int   out_pitch,

-;    unsigned int   output_height,

-;    short *filter

-;)

-global sym(vp9_filter_block1d8_v8_ssse3) PRIVATE

-sym(vp9_filter_block1d8_v8_ssse3):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    SAVE_XMM 7

-    push        rsi

-    push        rdi

-    push        rbx

-    ; end prolog

-    ALIGN_STACK 16, rax

-    sub         rsp, 16*5

-    %define k0k1 [rsp + 16*0]

-    %define k2k3 [rsp + 16*1]

-    %define k4k5 [rsp + 16*2]

-    %define k6k7 [rsp + 16*3]

-    %define krd [rsp + 16*4]

+%macro VERTx8 1

     mov         rdx, arg(5)                 ;filter ptr

     mov         rsi, arg(0)                 ;src_ptr

     mov         rdi, arg(2)                 ;output_ptr

@@ -204,7 +144,7 @@

     lea         rbx, [rdx + rdx*4]

     add         rbx, rdx                    ;pitch * 6

-.vp9_filter_block1d8_v8_ssse3_loop:

+.loop:

     movq        xmm0, [rsi]                 ;A

     movq        xmm1, [rsi + rdx]           ;B

     movq        xmm2, [rsi + rdx * 2]       ;C

@@ -235,7 +175,10 @@

     add         rsi,  rdx

     add         rax,  rdx

+%if %1

+    movq        xmm1, [rdi]

+    pavgb       xmm0, xmm1

+%endif

     movq        [rdi], xmm0

 %if ABI_IS_32BIT

@@ -244,47 +187,11 @@

     add         rdi, r8

 %endif

     dec         rcx

-    jnz         .vp9_filter_block1d8_v8_ssse3_loop

+    jnz         .loop

+%endm

-    add rsp, 16*5

-    pop rsp

-    pop rbx

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp9_filter_block1d16_v8_ssse3

-;(

-;    unsigned char *src_ptr,

-;    unsigned int   src_pitch,

-;    unsigned char *output_ptr,

-;    unsigned int   out_pitch,

-;    unsigned int   output_height,

-;    short *filter

-;)

-global sym(vp9_filter_block1d16_v8_ssse3) PRIVATE

-sym(vp9_filter_block1d16_v8_ssse3):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    SAVE_XMM 7

-    push        rsi

-    push        rdi

-    push        rbx

-    ; end prolog

-    ALIGN_STACK 16, rax

-    sub         rsp, 16*5

-    %define k0k1 [rsp + 16*0]

-    %define k2k3 [rsp + 16*1]

-    %define k4k5 [rsp + 16*2]

-    %define k6k7 [rsp + 16*3]

-    %define krd [rsp + 16*4]

+%macro VERTx16 1

     mov         rdx, arg(5)                 ;filter ptr

     mov         rsi, arg(0)                 ;src_ptr

     mov         rdi, arg(2)                 ;output_ptr

@@ -322,7 +229,7 @@

     lea         rbx, [rdx + rdx*4]

     add         rbx, rdx                    ;pitch * 6

-.vp9_filter_block1d16_v8_ssse3_loop:

+.loop:

     movq        xmm0, [rsi]                 ;A

     movq        xmm1, [rsi + rdx]           ;B

     movq        xmm2, [rsi + rdx * 2]       ;C

@@ -350,7 +257,10 @@

     psraw       xmm0, 7

     packuswb    xmm0, xmm0

+%if %1

+    movq        xmm1, [rdi]

+    pavgb       xmm0, xmm1

+%endif

     movq        [rdi], xmm0

     movq        xmm0, [rsi + 8]             ;A

@@ -385,6 +295,10 @@

     add         rsi,  rdx

     add         rax,  rdx

+%if %1

+    movq    xmm1, [rdi+8]

+    pavgb   xmm0, xmm1

+%endif

     movq        [rdi+8], xmm0

@@ -394,8 +308,39 @@

     add         rdi, r8

 %endif

     dec         rcx

-    jnz         .vp9_filter_block1d16_v8_ssse3_loop

+    jnz         .loop

+%endm

+;void vp9_filter_block1d8_v8_ssse3

+;(

+;    unsigned char *src_ptr,

+;    unsigned int   src_pitch,

+;    unsigned char *output_ptr,

+;    unsigned int   out_pitch,

+;    unsigned int   output_height,

+;    short *filter

+;)

+global sym(vp9_filter_block1d4_v8_ssse3) PRIVATE

+sym(vp9_filter_block1d4_v8_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    push        rsi

+    push        rdi

+    push        rbx

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    VERTx4 0

     add rsp, 16*5

     pop rsp

     pop rbx

@@ -407,24 +352,24 @@

     pop         rbp

ret

-;void vp9_filter_block1d4_h8_ssse3

+;void vp9_filter_block1d8_v8_ssse3

;(

-;    unsigned char  *src_ptr,

-;    unsigned int    src_pixels_per_line,

-;    unsigned char  *output_ptr,

-;    unsigned int    output_pitch,

-;    unsigned int    output_height,

+;    unsigned char *src_ptr,

+;    unsigned int   src_pitch,

+;    unsigned char *output_ptr,

+;    unsigned int   out_pitch,

+;    unsigned int   output_height,

 ;    short *filter

;)

-global sym(vp9_filter_block1d4_h8_ssse3) PRIVATE

-sym(vp9_filter_block1d4_h8_ssse3):

+global sym(vp9_filter_block1d8_v8_ssse3) PRIVATE

+sym(vp9_filter_block1d8_v8_ssse3):

     push        rbp

     mov         rbp, rsp

     SHADOW_ARGS_TO_STACK 6

     SAVE_XMM 7

-    GET_GOT     rbx

     push        rsi

     push        rdi

+    push        rbx

     ; end prolog

     ALIGN_STACK 16, rax

@@ -435,6 +380,162 @@

     %define k6k7 [rsp + 16*3]

     %define krd [rsp + 16*4]

+    VERTx8 0

+    add rsp, 16*5

+    pop rsp

+    pop rbx

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp9_filter_block1d16_v8_ssse3

+;(

+;    unsigned char *src_ptr,

+;    unsigned int   src_pitch,

+;    unsigned char *output_ptr,

+;    unsigned int   out_pitch,

+;    unsigned int   output_height,

+;    short *filter

+;)

+global sym(vp9_filter_block1d16_v8_ssse3) PRIVATE

+sym(vp9_filter_block1d16_v8_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    push        rsi

+    push        rdi

+    push        rbx

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    VERTx16 0

+    add rsp, 16*5

+    pop rsp

+    pop rbx

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+global sym(vp9_filter_block1d4_v8_avg_ssse3) PRIVATE

+sym(vp9_filter_block1d4_v8_avg_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    push        rsi

+    push        rdi

+    push        rbx

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    VERTx4 1

+    add rsp, 16*5

+    pop rsp

+    pop rbx

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+global sym(vp9_filter_block1d8_v8_avg_ssse3) PRIVATE

+sym(vp9_filter_block1d8_v8_avg_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    push        rsi

+    push        rdi

+    push        rbx

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    VERTx8 1

+    add rsp, 16*5

+    pop rsp

+    pop rbx

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+global sym(vp9_filter_block1d16_v8_avg_ssse3) PRIVATE

+sym(vp9_filter_block1d16_v8_avg_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    push        rsi

+    push        rdi

+    push        rbx

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    VERTx16 1

+    add rsp, 16*5

+    pop rsp

+    pop rbx

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+%macro HORIZx4 1

     mov         rdx, arg(5)                 ;filter ptr

     mov         rsi, arg(0)                 ;src_ptr

     mov         rdi, arg(2)                 ;output_ptr

@@ -464,7 +565,7 @@

     movsxd      rdx, dword ptr arg(3)       ;output_pitch

     movsxd      rcx, dword ptr arg(4)       ;output_height

-.filter_block1d4_h8_rowloop_ssse3:

+.loop:

     movq        xmm0,   [rsi - 3]    ; -3 -2 -1  0  1  2  3  4

     movq        xmm3,   [rsi + 5]    ; 5  6  7  8  9 10 11 12

@@ -491,54 +592,19 @@

     paddsw      xmm0,   krd

     psraw       xmm0,   7

     packuswb    xmm0,   xmm0

+%if %1

+    movd        xmm1,   [rdi]

+    pavgb       xmm0,   xmm1

+%endif

     lea         rsi,    [rsi + rax]

     movd        [rdi],  xmm0

     lea         rdi,    [rdi + rdx]

     dec         rcx

-    jnz         .filter_block1d4_h8_rowloop_ssse3

+    jnz         .loop

+%endm

-    add rsp, 16*5

-    pop rsp

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp9_filter_block1d8_h8_ssse3

-;(

-;    unsigned char  *src_ptr,

-;    unsigned int    src_pixels_per_line,

-;    unsigned char  *output_ptr,

-;    unsigned int    output_pitch,

-;    unsigned int    output_height,

-;    short *filter

-;)

-global sym(vp9_filter_block1d8_h8_ssse3) PRIVATE

-sym(vp9_filter_block1d8_h8_ssse3):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push        rsi

-    push        rdi

-    ; end prolog

-    ALIGN_STACK 16, rax

-    sub         rsp, 16*5

-    %define k0k1 [rsp + 16*0]

-    %define k2k3 [rsp + 16*1]

-    %define k4k5 [rsp + 16*2]

-    %define k6k7 [rsp + 16*3]

-    %define krd [rsp + 16*4]

+%macro HORIZx8 1

     mov         rdx, arg(5)                 ;filter ptr

     mov         rsi, arg(0)                 ;src_ptr

     mov         rdi, arg(2)                 ;output_ptr

@@ -568,7 +634,7 @@

     movsxd      rdx, dword ptr arg(3)       ;output_pitch

     movsxd      rcx, dword ptr arg(4)       ;output_height

-.filter_block1d8_h8_rowloop_ssse3:

+.loop:

     movq        xmm0,   [rsi - 3]    ; -3 -2 -1  0  1  2  3  4

     movq        xmm3,   [rsi + 5]    ; 5  6  7  8  9 10 11 12

@@ -595,6 +661,10 @@

     paddsw      xmm0,   krd

     psraw       xmm0,   7

     packuswb    xmm0,   xmm0

+%if %1

+    movq        xmm1,   [rdi]

+    pavgb       xmm0,   xmm1

+%endif

     lea         rsi,    [rsi + rax]

     movq        [rdi],  xmm0

@@ -601,48 +671,10 @@

     lea         rdi,    [rdi + rdx]

     dec         rcx

-    jnz         .filter_block1d8_h8_rowloop_ssse3

+    jnz         .loop

+%endm

-    add rsp, 16*5

-    pop rsp

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp9_filter_block1d16_h8_ssse3

-;(

-;    unsigned char  *src_ptr,

-;    unsigned int    src_pixels_per_line,

-;    unsigned char  *output_ptr,

-;    unsigned int    output_pitch,

-;    unsigned int    output_height,

-;    short *filter

-;)

-global sym(vp9_filter_block1d16_h8_ssse3) PRIVATE

-sym(vp9_filter_block1d16_h8_ssse3):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push        rsi

-    push        rdi

-    ; end prolog

-    ALIGN_STACK 16, rax

-    sub         rsp, 16*5

-    %define k0k1 [rsp + 16*0]

-    %define k2k3 [rsp + 16*1]

-    %define k4k5 [rsp + 16*2]

-    %define k6k7 [rsp + 16*3]

-    %define krd [rsp + 16*4]

+%macro HORIZx16 1

     mov         rdx, arg(5)                 ;filter ptr

     mov         rsi, arg(0)                 ;src_ptr

     mov         rdi, arg(2)                 ;output_ptr

@@ -672,7 +704,7 @@

     movsxd      rdx, dword ptr arg(3)       ;output_pitch

     movsxd      rcx, dword ptr arg(4)       ;output_height

-.filter_block1d16_h8_rowloop_ssse3:

+.loop:

     movq        xmm0,   [rsi - 3]    ; -3 -2 -1  0  1  2  3  4

     movq        xmm3,   [rsi + 5]    ; 5  6  7  8  9 10 11 12

@@ -727,6 +759,10 @@

     psraw       xmm3,   7

     packuswb    xmm3,   xmm3

     punpcklqdq  xmm0,   xmm3

+%if %1

+    movdqa      xmm1,   [rdi]

+    pavgb       xmm0,   xmm1

+%endif

     lea         rsi,    [rsi + rax]

     movdqa      [rdi],  xmm0

@@ -733,8 +769,39 @@

     lea         rdi,    [rdi + rdx]

     dec         rcx

-    jnz         .filter_block1d16_h8_rowloop_ssse3

+    jnz         .loop

+%endm

+;void vp9_filter_block1d4_h8_ssse3

+;(

+;    unsigned char  *src_ptr,

+;    unsigned int    src_pixels_per_line,

+;    unsigned char  *output_ptr,

+;    unsigned int    output_pitch,

+;    unsigned int    output_height,

+;    short *filter

+;)

+global sym(vp9_filter_block1d4_h8_ssse3) PRIVATE

+sym(vp9_filter_block1d4_h8_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    HORIZx4 0

     add rsp, 16*5

     pop rsp

@@ -747,7 +814,188 @@

     pop         rbp

ret

+;void vp9_filter_block1d8_h8_ssse3

+;(

+;    unsigned char  *src_ptr,

+;    unsigned int    src_pixels_per_line,

+;    unsigned char  *output_ptr,

+;    unsigned int    output_pitch,

+;    unsigned int    output_height,

+;    short *filter

+;)

+global sym(vp9_filter_block1d8_h8_ssse3) PRIVATE

+sym(vp9_filter_block1d8_h8_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    HORIZx8 0

+    add rsp, 16*5

+    pop rsp

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp9_filter_block1d16_h8_ssse3

+;(

+;    unsigned char  *src_ptr,

+;    unsigned int    src_pixels_per_line,

+;    unsigned char  *output_ptr,

+;    unsigned int    output_pitch,

+;    unsigned int    output_height,

+;    short *filter

+;)

+global sym(vp9_filter_block1d16_h8_ssse3) PRIVATE

+sym(vp9_filter_block1d16_h8_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    HORIZx16 0

+    add rsp, 16*5

+    pop rsp

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+global sym(vp9_filter_block1d4_h8_avg_ssse3) PRIVATE

+sym(vp9_filter_block1d4_h8_avg_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    HORIZx4 1

+    add rsp, 16*5

+    pop rsp

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+global sym(vp9_filter_block1d8_h8_avg_ssse3) PRIVATE

+sym(vp9_filter_block1d8_h8_avg_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    HORIZx8 1

+    add rsp, 16*5

+    pop rsp

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+global sym(vp9_filter_block1d16_h8_avg_ssse3) PRIVATE

+sym(vp9_filter_block1d16_h8_avg_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 16*5

+    %define k0k1 [rsp + 16*0]

+    %define k2k3 [rsp + 16*1]

+    %define k4k5 [rsp + 16*2]

+    %define k6k7 [rsp + 16*3]

+    %define krd [rsp + 16*4]

+    HORIZx16 1

+    add rsp, 16*5

+    pop rsp

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

 SECTION_RODATA

 align 16

 shuf_t0t1:

--

⑨