shithub: libvpx

--- a/test/convolve_test.cc

+++ b/test/convolve_test.cc

@@ -1767,7 +1767,7 @@

     vp9_convolve8_neon, vp9_convolve8_avg_neon, 0);

 #else  // HAVE_NEON

 const ConvolveFunctions convolve8_neon(

-    vp9_convolve_copy_c, vp9_convolve_avg_neon,

+    vp9_convolve_copy_neon, vp9_convolve_avg_neon,

     vp9_convolve8_horiz_c, vp9_convolve8_avg_horiz_c,

     vp9_convolve8_vert_c, vp9_convolve8_avg_vert_c,

     vp9_convolve8_c, vp9_convolve8_avg_c, 0);

--- a/vp9/common/arm/neon/vp9_copy_neon.asm

+++ /dev/null

@@ -1,84 +1,0 @@

-;

-;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp9_convolve_copy_neon|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-|vp9_convolve_copy_neon| PROC

-    push                {r4-r5, lr}

-    ldrd                r4, r5, [sp, #28]

-    cmp                 r4, #32

-    bgt                 copy64

-    beq                 copy32

-    cmp                 r4, #8

-    bgt                 copy16

-    beq                 copy8

-    b                   copy4

-copy64

-    sub                 lr, r1, #32

-    sub                 r3, r3, #32

-copy64_h

-    pld                 [r0, r1, lsl #1]

-    vld1.8              {q0-q1}, [r0]!

-    vld1.8              {q2-q3}, [r0], lr

-    vst1.8              {q0-q1}, [r2@128]!

-    vst1.8              {q2-q3}, [r2@128], r3

-    subs                r5, r5, #1

-    bgt                 copy64_h

-    pop                 {r4-r5, pc}

-copy32

-    pld                 [r0, r1, lsl #1]

-    vld1.8              {q0-q1}, [r0], r1

-    pld                 [r0, r1, lsl #1]

-    vld1.8              {q2-q3}, [r0], r1

-    vst1.8              {q0-q1}, [r2@128], r3

-    vst1.8              {q2-q3}, [r2@128], r3

-    subs                r5, r5, #2

-    bgt                 copy32

-    pop                 {r4-r5, pc}

-copy16

-    pld                 [r0, r1, lsl #1]

-    vld1.8              {q0}, [r0], r1

-    pld                 [r0, r1, lsl #1]

-    vld1.8              {q1}, [r0], r1

-    vst1.8              {q0}, [r2@128], r3

-    vst1.8              {q1}, [r2@128], r3

-    subs                r5, r5, #2

-    bgt                 copy16

-    pop                 {r4-r5, pc}

-copy8

-    pld                 [r0, r1, lsl #1]

-    vld1.8              {d0}, [r0], r1

-    pld                 [r0, r1, lsl #1]

-    vld1.8              {d2}, [r0], r1

-    vst1.8              {d0}, [r2@64], r3

-    vst1.8              {d2}, [r2@64], r3

-    subs                r5, r5, #2

-    bgt                 copy8

-    pop                 {r4-r5, pc}

-copy4

-    ldr                 r12, [r0], r1

-    str                 r12, [r2], r3

-    subs                r5, r5, #1

-    bgt                 copy4

-    pop                 {r4-r5, pc}

-    ENDP

-    END

--- /dev/null

+++ b/vp9/common/arm/neon/vp9_copy_neon.c

@@ -1,0 +1,92 @@

+/*

+ *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <stddef.h>

+#include <arm_neon.h>

+void vp9_convolve_copy_neon(

+        const uint8_t *src,    // r0

+        ptrdiff_t src_stride,  // r1

+        uint8_t *dst,          // r2

+        ptrdiff_t dst_stride,  // r3

+        const int16_t *filter_x,

+        int filter_x_stride,

+        const int16_t *filter_y,

+        int filter_y_stride,

+        int w,

+        int h) {

+    uint8x8_t d0u8, d2u8;

+    uint8x16_t q0u8, q1u8, q2u8, q3u8;

+    (void)filter_x;  (void)filter_x_stride;

+    (void)filter_y;  (void)filter_y_stride;

+    if (w > 32) {  // copy64

+        for (; h > 0; h--) {

+            q0u8 = vld1q_u8(src);

+            q1u8 = vld1q_u8(src + 16);

+            q2u8 = vld1q_u8(src + 32);

+            q3u8 = vld1q_u8(src + 48);

+            src += src_stride;

+            vst1q_u8(dst, q0u8);

+            vst1q_u8(dst + 16, q1u8);

+            vst1q_u8(dst + 32, q2u8);

+            vst1q_u8(dst + 48, q3u8);

+            dst += dst_stride;

+        }

+    } else if (w == 32) {  // copy32

+        for (; h > 0; h -= 2) {

+            q0u8 = vld1q_u8(src);

+            q1u8 = vld1q_u8(src + 16);

+            src += src_stride;

+            q2u8 = vld1q_u8(src);

+            q3u8 = vld1q_u8(src + 16);

+            src += src_stride;

+            vst1q_u8(dst, q0u8);

+            vst1q_u8(dst + 16, q1u8);

+            dst += dst_stride;

+            vst1q_u8(dst, q2u8);

+            vst1q_u8(dst + 16, q3u8);

+            dst += dst_stride;

+        }

+    } else if (w > 8) {  // copy16

+        for (; h > 0; h -= 2) {

+            q0u8 = vld1q_u8(src);

+            src += src_stride;

+            q1u8 = vld1q_u8(src);

+            src += src_stride;

+            vst1q_u8(dst, q0u8);

+            dst += dst_stride;

+            vst1q_u8(dst, q1u8);

+            dst += dst_stride;

+        }

+    } else if (w == 8) {  // copy8

+        for (; h > 0; h -= 2) {

+            d0u8 = vld1_u8(src);

+            src += src_stride;

+            d2u8 = vld1_u8(src);

+            src += src_stride;

+            vst1_u8(dst, d0u8);

+            dst += dst_stride;

+            vst1_u8(dst, d2u8);

+            dst += dst_stride;

+        }

+    } else {  // copy4

+        for (; h > 0; h--) {

+            *(uint32_t *)dst = *(const uint32_t *)src;

+            src += src_stride;

+            dst += dst_stride;

+        }

+    }

+    return;

+}

--- /dev/null

+++ b/vp9/common/arm/neon/vp9_copy_neon_asm.asm

@@ -1,0 +1,84 @@

+;

+;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp9_convolve_copy_neon|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+|vp9_convolve_copy_neon| PROC

+    push                {r4-r5, lr}

+    ldrd                r4, r5, [sp, #28]

+    cmp                 r4, #32

+    bgt                 copy64

+    beq                 copy32

+    cmp                 r4, #8

+    bgt                 copy16

+    beq                 copy8

+    b                   copy4

+copy64

+    sub                 lr, r1, #32

+    sub                 r3, r3, #32

+copy64_h

+    pld                 [r0, r1, lsl #1]

+    vld1.8              {q0-q1}, [r0]!

+    vld1.8              {q2-q3}, [r0], lr

+    vst1.8              {q0-q1}, [r2@128]!

+    vst1.8              {q2-q3}, [r2@128], r3

+    subs                r5, r5, #1

+    bgt                 copy64_h

+    pop                 {r4-r5, pc}

+copy32

+    pld                 [r0, r1, lsl #1]

+    vld1.8              {q0-q1}, [r0], r1

+    pld                 [r0, r1, lsl #1]

+    vld1.8              {q2-q3}, [r0], r1

+    vst1.8              {q0-q1}, [r2@128], r3

+    vst1.8              {q2-q3}, [r2@128], r3

+    subs                r5, r5, #2

+    bgt                 copy32

+    pop                 {r4-r5, pc}

+copy16

+    pld                 [r0, r1, lsl #1]

+    vld1.8              {q0}, [r0], r1

+    pld                 [r0, r1, lsl #1]

+    vld1.8              {q1}, [r0], r1

+    vst1.8              {q0}, [r2@128], r3

+    vst1.8              {q1}, [r2@128], r3

+    subs                r5, r5, #2

+    bgt                 copy16

+    pop                 {r4-r5, pc}

+copy8

+    pld                 [r0, r1, lsl #1]

+    vld1.8              {d0}, [r0], r1

+    pld                 [r0, r1, lsl #1]

+    vld1.8              {d2}, [r0], r1

+    vst1.8              {d0}, [r2@64], r3

+    vst1.8              {d2}, [r2@64], r3

+    subs                r5, r5, #2

+    bgt                 copy8

+    pop                 {r4-r5, pc}

+copy4

+    ldr                 r12, [r0], r1

+    str                 r12, [r2], r3

+    subs                r5, r5, #1

+    bgt                 copy4

+    pop                 {r4-r5, pc}

+    ENDP

+    END

--- a/vp9/common/vp9_rtcd_defs.pl

+++ b/vp9/common/vp9_rtcd_defs.pl

@@ -289,8 +289,7 @@

 # Sub Pixel Filters

 add_proto qw/void vp9_convolve_copy/, "const uint8_t *src, ptrdiff_t src_stride, uint8_t *dst, ptrdiff_t dst_stride, const int16_t *filter_x, int x_step_q4, const int16_t *filter_y, int y_step_q4, int w, int h";

-specialize qw/vp9_convolve_copy neon_asm dspr2/, "$sse2_x86inc";

-$vp9_convolve_copy_neon_asm=vp9_convolve_copy_neon;

+specialize qw/vp9_convolve_copy neon dspr2/, "$sse2_x86inc";

 add_proto qw/void vp9_convolve_avg/, "const uint8_t *src, ptrdiff_t src_stride, uint8_t *dst, ptrdiff_t dst_stride, const int16_t *filter_x, int x_step_q4, const int16_t *filter_y, int y_step_q4, int w, int h";

 specialize qw/vp9_convolve_avg neon dspr2/, "$sse2_x86inc";

--- a/vp9/vp9_common.mk

+++ b/vp9/vp9_common.mk

@@ -148,7 +148,6 @@

 VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_iht4x4_add_neon$(ASM)

 VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_iht8x8_add_neon$(ASM)

 VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_mb_lpf_neon$(ASM)

-VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_copy_neon$(ASM)

 VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_save_reg_neon$(ASM)

 VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_reconintra_neon$(ASM)

@@ -156,11 +155,13 @@

 # prefer assembly.

 ifeq ($(HAVE_NEON_ASM), yes)

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_avg_neon_asm$(ASM)

+VP9_COMMON_SRCS-yes += common/arm/neon/vp9_copy_neon_asm$(ASM)

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_loopfilter_neon_asm$(ASM)

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_loopfilter_16_neon.c

 else

 ifeq ($(HAVE_NEON), yes)

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_avg_neon.c

+VP9_COMMON_SRCS-yes += common/arm/neon/vp9_copy_neon.c

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_loopfilter_neon.c

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_loopfilter_16_neon.c

 endif  # HAVE_NEON

--

⑨