shithub: libvpx

--- /dev/null

+++ b/vp8/common/arm/armv6/vp8_sad16x16_armv6.asm

@@ -1,0 +1,96 @@

+;

+;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_sad16x16_armv6|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    const unsigned char *src_ptr

+; r1    int  src_stride

+; r2    const unsigned char *ref_ptr

+; r3    int  ref_stride

+; stack max_sad (not used)

+|vp8_sad16x16_armv6| PROC

+    stmfd   sp!, {r4-r12, lr}

+    pld     [r0, r1, lsl #0]

+    pld     [r2, r3, lsl #0]

+    pld     [r0, r1, lsl #1]

+    pld     [r2, r3, lsl #1]

+    mov     r4, #0              ; sad = 0;

+    mov     r5, #8              ; loop count

+loop

+    ; 1st row

+    ldr     r6, [r0, #0x0]      ; load 4 src pixels (1A)

+    ldr     r8, [r2, #0x0]      ; load 4 ref pixels (1A)

+    ldr     r7, [r0, #0x4]      ; load 4 src pixels (1A)

+    ldr     r9, [r2, #0x4]      ; load 4 ref pixels (1A)

+    ldr     r10, [r0, #0x8]     ; load 4 src pixels (1B)

+    ldr     r11, [r0, #0xC]     ; load 4 src pixels (1B)

+    usada8  r4, r8, r6, r4      ; calculate sad for 4 pixels

+    usad8   r8, r7, r9          ; calculate sad for 4 pixels

+    ldr     r12, [r2, #0x8]     ; load 4 ref pixels (1B)

+    ldr     lr, [r2, #0xC]      ; load 4 ref pixels (1B)

+    add     r0, r0, r1          ; set src pointer to next row

+    add     r2, r2, r3          ; set dst pointer to next row

+    pld     [r0, r1, lsl #1]

+    pld     [r2, r3, lsl #1]

+    usada8  r4, r10, r12, r4    ; calculate sad for 4 pixels

+    usada8  r8, r11, lr, r8     ; calculate sad for 4 pixels

+    ldr     r6, [r0, #0x0]      ; load 4 src pixels (2A)

+    ldr     r7, [r0, #0x4]      ; load 4 src pixels (2A)

+    add     r4, r4, r8          ; add partial sad values

+    ; 2nd row

+    ldr     r8, [r2, #0x0]      ; load 4 ref pixels (2A)

+    ldr     r9, [r2, #0x4]      ; load 4 ref pixels (2A)

+    ldr     r10, [r0, #0x8]     ; load 4 src pixels (2B)

+    ldr     r11, [r0, #0xC]     ; load 4 src pixels (2B)

+    usada8  r4, r6, r8, r4      ; calculate sad for 4 pixels

+    usad8   r8, r7, r9          ; calculate sad for 4 pixels

+    ldr     r12, [r2, #0x8]     ; load 4 ref pixels (2B)

+    ldr     lr, [r2, #0xC]      ; load 4 ref pixels (2B)

+    add     r0, r0, r1          ; set src pointer to next row

+    add     r2, r2, r3          ; set dst pointer to next row

+    usada8  r4, r10, r12, r4    ; calculate sad for 4 pixels

+    usada8  r8, r11, lr, r8     ; calculate sad for 4 pixels

+    pld     [r0, r1, lsl #1]

+    pld     [r2, r3, lsl #1]

+    subs    r5, r5, #1          ; decrement loop counter

+    add     r4, r4, r8          ; add partial sad values

+    bne     loop

+    mov     r0, r4              ; return sad

+    ldmfd   sp!, {r4-r12, pc}

+    ENDP

+    END

--- /dev/null

+++ b/vp8/common/arm/armv6/vp8_variance16x16_armv6.asm

@@ -1,0 +1,154 @@

+;

+;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_variance16x16_armv6|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char *src_ptr

+; r1    int source_stride

+; r2    unsigned char *ref_ptr

+; r3    int  recon_stride

+; stack unsigned int *sse

+|vp8_variance16x16_armv6| PROC

+    stmfd   sp!, {r4-r12, lr}

+    pld     [r0, r1, lsl #0]

+    pld     [r2, r3, lsl #0]

+    mov     r8, #0              ; initialize sum = 0

+    mov     r11, #0             ; initialize sse = 0

+    mov     r12, #16            ; set loop counter to 16 (=block height)

+loop

+    ; 1st 4 pixels

+    ldr     r4, [r0, #0]        ; load 4 src pixels

+    ldr     r5, [r2, #0]        ; load 4 ref pixels

+    mov     lr, #0              ; constant zero

+    usub8   r6, r4, r5          ; calculate difference

+    pld     [r0, r1, lsl #1]

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r9, r5, r4          ; calculate difference with reversed operands

+    pld     [r2, r3, lsl #1]

+    sel     r6, r9, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    adds    r8, r8, r4          ; add positive differences to sum

+    subs    r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r10, r6, ror #8     ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 2nd 4 pixels

+    ldr     r4, [r0, #4]        ; load 4 src pixels

+    ldr     r5, [r2, #4]        ; load 4 ref pixels

+    smlad   r11, r10, r10, r11  ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r9, r5, r4          ; calculate difference with reversed operands

+    sel     r6, r9, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r10, r6, ror #8     ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 3rd 4 pixels

+    ldr     r4, [r0, #8]        ; load 4 src pixels

+    ldr     r5, [r2, #8]        ; load 4 ref pixels

+    smlad   r11, r10, r10, r11  ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r9, r5, r4          ; calculate difference with reversed operands

+    sel     r6, r9, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r10, r6, ror #8     ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 4th 4 pixels

+    ldr     r4, [r0, #12]       ; load 4 src pixels

+    ldr     r5, [r2, #12]       ; load 4 ref pixels

+    smlad   r11, r10, r10, r11  ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    add     r0, r0, r1          ; set src_ptr to next row

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r9, r5, r4          ; calculate difference with reversed operands

+    add     r2, r2, r3          ; set dst_ptr to next row

+    sel     r6, r9, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r10, r6, ror #8     ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    smlad   r11, r10, r10, r11  ; dual signed multiply, add and accumulate (2)

+    subs    r12, r12, #1

+    bne     loop

+    ; return stuff

+    ldr     r6, [sp, #40]       ; get address of sse

+    mul     r0, r8, r8          ; sum * sum

+    str     r11, [r6]           ; store sse

+    sub     r0, r11, r0, lsr #8 ; return (sse - ((sum * sum) >> 8))

+    ldmfd   sp!, {r4-r12, pc}

+    ENDP

+    END

--- /dev/null

+++ b/vp8/common/arm/armv6/vp8_variance8x8_armv6.asm

@@ -1,0 +1,101 @@

+;

+;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_variance8x8_armv6|

+    ARM

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char *src_ptr

+; r1    int source_stride

+; r2    unsigned char *ref_ptr

+; r3    int  recon_stride

+; stack unsigned int *sse

+|vp8_variance8x8_armv6| PROC

+    push    {r4-r10, lr}

+    pld     [r0, r1, lsl #0]

+    pld     [r2, r3, lsl #0]

+    mov     r12, #8             ; set loop counter to 8 (=block height)

+    mov     r4, #0              ; initialize sum = 0

+    mov     r5, #0              ; initialize sse = 0

+loop

+    ; 1st 4 pixels

+    ldr     r6, [r0, #0x0]      ; load 4 src pixels

+    ldr     r7, [r2, #0x0]      ; load 4 ref pixels

+    mov     lr, #0              ; constant zero

+    usub8   r8, r6, r7          ; calculate difference

+    pld     [r0, r1, lsl #1]

+    sel     r10, r8, lr         ; select bytes with positive difference

+    usub8   r9, r7, r6          ; calculate difference with reversed operands

+    pld     [r2, r3, lsl #1]

+    sel     r8, r9, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r6, r10, lr         ; calculate sum of positive differences

+    usad8   r7, r8, lr          ; calculate sum of negative differences

+    orr     r8, r8, r10         ; differences of all 4 pixels

+    ; calculate total sum

+    add    r4, r4, r6           ; add positive differences to sum

+    sub    r4, r4, r7           ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r7, r8              ; byte (two pixels) to halfwords

+    uxtb16  r10, r8, ror #8     ; another two pixels to halfwords

+    smlad   r5, r7, r7, r5      ; dual signed multiply, add and accumulate (1)

+    ; 2nd 4 pixels

+    ldr     r6, [r0, #0x4]      ; load 4 src pixels

+    ldr     r7, [r2, #0x4]      ; load 4 ref pixels

+    smlad   r5, r10, r10, r5    ; dual signed multiply, add and accumulate (2)

+    usub8   r8, r6, r7          ; calculate difference

+    add     r0, r0, r1          ; set src_ptr to next row

+    sel     r10, r8, lr         ; select bytes with positive difference

+    usub8   r9, r7, r6          ; calculate difference with reversed operands

+    add     r2, r2, r3          ; set dst_ptr to next row

+    sel     r8, r9, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r6, r10, lr         ; calculate sum of positive differences

+    usad8   r7, r8, lr          ; calculate sum of negative differences

+    orr     r8, r8, r10         ; differences of all 4 pixels

+    ; calculate total sum

+    add     r4, r4, r6          ; add positive differences to sum

+    sub     r4, r4, r7          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r7, r8              ; byte (two pixels) to halfwords

+    uxtb16  r10, r8, ror #8     ; another two pixels to halfwords

+    smlad   r5, r7, r7, r5      ; dual signed multiply, add and accumulate (1)

+    subs    r12, r12, #1        ; next row

+    smlad   r5, r10, r10, r5    ; dual signed multiply, add and accumulate (2)

+    bne     loop

+    ; return stuff

+    ldr     r8, [sp, #32]       ; get address of sse

+    mul     r1, r4, r4          ; sum * sum

+    str     r5, [r8]            ; store sse

+    sub     r0, r5, r1, ASR #6  ; return (sse - ((sum * sum) >> 6))

+    pop     {r4-r10, pc}

+    ENDP

+    END

--- /dev/null

+++ b/vp8/common/arm/armv6/vp8_variance_halfpixvar16x16_h_armv6.asm

@@ -1,0 +1,182 @@

+;

+;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_variance_halfpixvar16x16_h_armv6|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char *src_ptr

+; r1    int source_stride

+; r2    unsigned char *ref_ptr

+; r3    int  recon_stride

+; stack unsigned int *sse

+|vp8_variance_halfpixvar16x16_h_armv6| PROC

+    stmfd   sp!, {r4-r12, lr}

+    pld     [r0, r1, lsl #0]

+    pld     [r2, r3, lsl #0]

+    mov     r8, #0              ; initialize sum = 0

+    ldr     r10, c80808080

+    mov     r11, #0             ; initialize sse = 0

+    mov     r12, #16            ; set loop counter to 16 (=block height)

+    mov     lr, #0              ; constant zero

+loop

+    ; 1st 4 pixels

+    ldr     r4, [r0, #0]        ; load 4 src pixels

+    ldr     r6, [r0, #1]        ; load 4 src pixels with 1 byte offset

+    ldr     r5, [r2, #0]        ; load 4 ref pixels

+    ; bilinear interpolation

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    usub8   r6, r4, r5          ; calculate difference

+    pld     [r0, r1, lsl #1]

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    pld     [r2, r3, lsl #1]

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    adds    r8, r8, r4          ; add positive differences to sum

+    subs    r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 2nd 4 pixels

+    ldr     r4, [r0, #4]        ; load 4 src pixels

+    ldr     r6, [r0, #5]        ; load 4 src pixels with 1 byte offset

+    ldr     r5, [r2, #4]        ; load 4 ref pixels

+    ; bilinear interpolation

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 3rd 4 pixels

+    ldr     r4, [r0, #8]        ; load 4 src pixels

+    ldr     r6, [r0, #9]        ; load 4 src pixels with 1 byte offset

+    ldr     r5, [r2, #8]        ; load 4 ref pixels

+    ; bilinear interpolation

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    smlad   r11, r7, r7, r11  ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 4th 4 pixels

+    ldr     r4, [r0, #12]       ; load 4 src pixels

+    ldr     r6, [r0, #13]       ; load 4 src pixels with 1 byte offset

+    ldr     r5, [r2, #12]       ; load 4 ref pixels

+    ; bilinear interpolation

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    add     r0, r0, r1          ; set src_ptr to next row

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    add     r2, r2, r3          ; set dst_ptr to next row

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    subs    r12, r12, #1

+    bne     loop

+    ; return stuff

+    ldr     r6, [sp, #40]       ; get address of sse

+    mul     r0, r8, r8          ; sum * sum

+    str     r11, [r6]           ; store sse

+    sub     r0, r11, r0, lsr #8 ; return (sse - ((sum * sum) >> 8))

+    ldmfd   sp!, {r4-r12, pc}

+    ENDP

+c80808080

+    DCD     0x80808080

+    END

--- /dev/null

+++ b/vp8/common/arm/armv6/vp8_variance_halfpixvar16x16_hv_armv6.asm

@@ -1,0 +1,222 @@

+;

+;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_variance_halfpixvar16x16_hv_armv6|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char *src_ptr

+; r1    int source_stride

+; r2    unsigned char *ref_ptr

+; r3    int  recon_stride

+; stack unsigned int *sse

+|vp8_variance_halfpixvar16x16_hv_armv6| PROC

+    stmfd   sp!, {r4-r12, lr}

+    pld     [r0, r1, lsl #0]

+    pld     [r2, r3, lsl #0]

+    mov     r8, #0              ; initialize sum = 0

+    ldr     r10, c80808080

+    mov     r11, #0             ; initialize sse = 0

+    mov     r12, #16            ; set loop counter to 16 (=block height)

+    mov     lr, #0              ; constant zero

+loop

+    add     r9, r0, r1          ; pointer to pixels on the next row

+    ; 1st 4 pixels

+    ldr     r4, [r0, #0]        ; load source pixels a, row N

+    ldr     r6, [r0, #1]        ; load source pixels b, row N

+    ldr     r5, [r9, #0]        ; load source pixels c, row N+1

+    ldr     r7, [r9, #1]        ; load source pixels d, row N+1

+    ; x = (a + b + 1) >> 1, interpolate pixels horizontally on row N

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    ; y = (c + d + 1) >> 1, interpolate pixels horizontally on row N+1

+    mvn     r7, r7

+    uhsub8  r5, r5, r7

+    eor     r5, r5, r10

+    ; z = (x + y + 1) >> 1, interpolate half pixel values vertically

+    mvn     r5, r5

+    uhsub8  r4, r4, r5

+    ldr     r5, [r2, #0]        ; load 4 ref pixels

+    eor     r4, r4, r10

+    usub8   r6, r4, r5          ; calculate difference

+    pld     [r0, r1, lsl #1]

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    pld     [r2, r3, lsl #1]

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    adds    r8, r8, r4          ; add positive differences to sum

+    subs    r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 2nd 4 pixels

+    ldr     r4, [r0, #4]        ; load source pixels a, row N

+    ldr     r6, [r0, #5]        ; load source pixels b, row N

+    ldr     r5, [r9, #4]        ; load source pixels c, row N+1

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    ldr     r7, [r9, #5]        ; load source pixels d, row N+1

+    ; x = (a + b + 1) >> 1, interpolate pixels horizontally on row N

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    ; y = (c + d + 1) >> 1, interpolate pixels horizontally on row N+1

+    mvn     r7, r7

+    uhsub8  r5, r5, r7

+    eor     r5, r5, r10

+    ; z = (x + y + 1) >> 1, interpolate half pixel values vertically

+    mvn     r5, r5

+    uhsub8  r4, r4, r5

+    ldr     r5, [r2, #4]        ; load 4 ref pixels

+    eor     r4, r4, r10

+    usub8   r6, r4, r5          ; calculate difference

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 3rd 4 pixels

+    ldr     r4, [r0, #8]        ; load source pixels a, row N

+    ldr     r6, [r0, #9]        ; load source pixels b, row N

+    ldr     r5, [r9, #8]        ; load source pixels c, row N+1

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    ldr     r7, [r9, #9]        ; load source pixels d, row N+1

+    ; x = (a + b + 1) >> 1, interpolate pixels horizontally on row N

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    ; y = (c + d + 1) >> 1, interpolate pixels horizontally on row N+1

+    mvn     r7, r7

+    uhsub8  r5, r5, r7

+    eor     r5, r5, r10

+    ; z = (x + y + 1) >> 1, interpolate half pixel values vertically

+    mvn     r5, r5

+    uhsub8  r4, r4, r5

+    ldr     r5, [r2, #8]        ; load 4 ref pixels

+    eor     r4, r4, r10

+    usub8   r6, r4, r5          ; calculate difference

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 4th 4 pixels

+    ldr     r4, [r0, #12]       ; load source pixels a, row N

+    ldr     r6, [r0, #13]       ; load source pixels b, row N

+    ldr     r5, [r9, #12]       ; load source pixels c, row N+1

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    ldr     r7, [r9, #13]       ; load source pixels d, row N+1

+    ; x = (a + b + 1) >> 1, interpolate pixels horizontally on row N

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    ; y = (c + d + 1) >> 1, interpolate pixels horizontally on row N+1

+    mvn     r7, r7

+    uhsub8  r5, r5, r7

+    eor     r5, r5, r10

+    ; z = (x + y + 1) >> 1, interpolate half pixel values vertically

+    mvn     r5, r5

+    uhsub8  r4, r4, r5

+    ldr     r5, [r2, #12]       ; load 4 ref pixels

+    eor     r4, r4, r10

+    usub8   r6, r4, r5          ; calculate difference

+    add     r0, r0, r1          ; set src_ptr to next row

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    add     r2, r2, r3          ; set dst_ptr to next row

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    subs    r12, r12, #1

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    bne     loop

+    ; return stuff

+    ldr     r6, [sp, #40]       ; get address of sse

+    mul     r0, r8, r8          ; sum * sum

+    str     r11, [r6]           ; store sse

+    sub     r0, r11, r0, lsr #8 ; return (sse - ((sum * sum) >> 8))

+    ldmfd   sp!, {r4-r12, pc}

+    ENDP

+c80808080

+    DCD     0x80808080

+    END

--- /dev/null

+++ b/vp8/common/arm/armv6/vp8_variance_halfpixvar16x16_v_armv6.asm

@@ -1,0 +1,184 @@

+;

+;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_variance_halfpixvar16x16_v_armv6|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char *src_ptr

+; r1    int source_stride

+; r2    unsigned char *ref_ptr

+; r3    int  recon_stride

+; stack unsigned int *sse

+|vp8_variance_halfpixvar16x16_v_armv6| PROC

+    stmfd   sp!, {r4-r12, lr}

+    pld     [r0, r1, lsl #0]

+    pld     [r2, r3, lsl #0]

+    mov     r8, #0              ; initialize sum = 0

+    ldr     r10, c80808080

+    mov     r11, #0             ; initialize sse = 0

+    mov     r12, #16            ; set loop counter to 16 (=block height)

+    mov     lr, #0              ; constant zero

+loop

+    add     r9, r0, r1          ; set src pointer to next row

+    ; 1st 4 pixels

+    ldr     r4, [r0, #0]        ; load 4 src pixels

+    ldr     r6, [r9, #0]        ; load 4 src pixels from next row

+    ldr     r5, [r2, #0]        ; load 4 ref pixels

+    ; bilinear interpolation

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    usub8   r6, r4, r5          ; calculate difference

+    pld     [r0, r1, lsl #1]

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    pld     [r2, r3, lsl #1]

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    adds    r8, r8, r4          ; add positive differences to sum

+    subs    r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 2nd 4 pixels

+    ldr     r4, [r0, #4]        ; load 4 src pixels

+    ldr     r6, [r9, #4]        ; load 4 src pixels from next row

+    ldr     r5, [r2, #4]        ; load 4 ref pixels

+    ; bilinear interpolation

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 3rd 4 pixels

+    ldr     r4, [r0, #8]        ; load 4 src pixels

+    ldr     r6, [r9, #8]        ; load 4 src pixels from next row

+    ldr     r5, [r2, #8]        ; load 4 ref pixels

+    ; bilinear interpolation

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    ; 4th 4 pixels

+    ldr     r4, [r0, #12]       ; load 4 src pixels

+    ldr     r6, [r9, #12]       ; load 4 src pixels from next row

+    ldr     r5, [r2, #12]       ; load 4 ref pixels

+    ; bilinear interpolation

+    mvn     r6, r6

+    uhsub8  r4, r4, r6

+    eor     r4, r4, r10

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    usub8   r6, r4, r5          ; calculate difference

+    add     r0, r0, r1          ; set src_ptr to next row

+    sel     r7, r6, lr          ; select bytes with positive difference

+    usub8   r6, r5, r4          ; calculate difference with reversed operands

+    add     r2, r2, r3          ; set dst_ptr to next row

+    sel     r6, r6, lr          ; select bytes with negative difference

+    ; calculate partial sums

+    usad8   r4, r7, lr          ; calculate sum of positive differences

+    usad8   r5, r6, lr          ; calculate sum of negative differences

+    orr     r6, r6, r7          ; differences of all 4 pixels

+    ; calculate total sum

+    add     r8, r8, r4          ; add positive differences to sum

+    sub     r8, r8, r5          ; substract negative differences from sum

+    ; calculate sse

+    uxtb16  r5, r6              ; byte (two pixels) to halfwords

+    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

+    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

+    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

+    subs    r12, r12, #1

+    bne     loop

+    ; return stuff

+    ldr     r6, [sp, #40]       ; get address of sse

+    mul     r0, r8, r8          ; sum * sum

+    str     r11, [r6]           ; store sse

+    sub     r0, r11, r0, lsr #8 ; return (sse - ((sum * sum) >> 8))

+    ldmfd   sp!, {r4-r12, pc}

+    ENDP

+c80808080

+    DCD     0x80808080

+    END

--- /dev/null

+++ b/vp8/common/arm/neon/sad16_neon.asm

@@ -1,0 +1,207 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_sad16x16_neon|

+    EXPORT  |vp8_sad16x8_neon|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char *src_ptr

+; r1    int  src_stride

+; r2    unsigned char *ref_ptr

+; r3    int  ref_stride

+|vp8_sad16x16_neon| PROC

+;;

+    vld1.8          {q0}, [r0], r1

+    vld1.8          {q4}, [r2], r3

+    vld1.8          {q1}, [r0], r1

+    vld1.8          {q5}, [r2], r3

+    vabdl.u8        q12, d0, d8

+    vabdl.u8        q13, d1, d9

+    vld1.8          {q2}, [r0], r1

+    vld1.8          {q6}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vabal.u8        q13, d3, d11

+    vld1.8          {q3}, [r0], r1

+    vld1.8          {q7}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vabal.u8        q13, d5, d13

+;;

+    vld1.8          {q0}, [r0], r1

+    vld1.8          {q4}, [r2], r3

+    vabal.u8        q12, d6, d14

+    vabal.u8        q13, d7, d15

+    vld1.8          {q1}, [r0], r1

+    vld1.8          {q5}, [r2], r3

+    vabal.u8        q12, d0, d8

+    vabal.u8        q13, d1, d9

+    vld1.8          {q2}, [r0], r1

+    vld1.8          {q6}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vabal.u8        q13, d3, d11

+    vld1.8          {q3}, [r0], r1

+    vld1.8          {q7}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vabal.u8        q13, d5, d13

+;;

+    vld1.8          {q0}, [r0], r1

+    vld1.8          {q4}, [r2], r3

+    vabal.u8        q12, d6, d14

+    vabal.u8        q13, d7, d15

+    vld1.8          {q1}, [r0], r1

+    vld1.8          {q5}, [r2], r3

+    vabal.u8        q12, d0, d8

+    vabal.u8        q13, d1, d9

+    vld1.8          {q2}, [r0], r1

+    vld1.8          {q6}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vabal.u8        q13, d3, d11

+    vld1.8          {q3}, [r0], r1

+    vld1.8          {q7}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vabal.u8        q13, d5, d13

+;;

+    vld1.8          {q0}, [r0], r1

+    vld1.8          {q4}, [r2], r3

+    vabal.u8        q12, d6, d14

+    vabal.u8        q13, d7, d15

+    vld1.8          {q1}, [r0], r1

+    vld1.8          {q5}, [r2], r3

+    vabal.u8        q12, d0, d8

+    vabal.u8        q13, d1, d9

+    vld1.8          {q2}, [r0], r1

+    vld1.8          {q6}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vabal.u8        q13, d3, d11

+    vld1.8          {q3}, [r0]

+    vld1.8          {q7}, [r2]

+    vabal.u8        q12, d4, d12

+    vabal.u8        q13, d5, d13

+    vabal.u8        q12, d6, d14

+    vabal.u8        q13, d7, d15

+    vadd.u16        q0, q12, q13

+    vpaddl.u16      q1, q0

+    vpaddl.u32      q0, q1

+    vadd.u32        d0, d0, d1

+    vmov.32         r0, d0[0]

+    bx              lr

+    ENDP

+;==============================

+;unsigned int vp8_sad16x8_c(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+|vp8_sad16x8_neon| PROC

+    vld1.8          {q0}, [r0], r1

+    vld1.8          {q4}, [r2], r3

+    vld1.8          {q1}, [r0], r1

+    vld1.8          {q5}, [r2], r3

+    vabdl.u8        q12, d0, d8

+    vabdl.u8        q13, d1, d9

+    vld1.8          {q2}, [r0], r1

+    vld1.8          {q6}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vabal.u8        q13, d3, d11

+    vld1.8          {q3}, [r0], r1

+    vld1.8          {q7}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vabal.u8        q13, d5, d13

+    vld1.8          {q0}, [r0], r1

+    vld1.8          {q4}, [r2], r3

+    vabal.u8        q12, d6, d14

+    vabal.u8        q13, d7, d15

+    vld1.8          {q1}, [r0], r1

+    vld1.8          {q5}, [r2], r3

+    vabal.u8        q12, d0, d8

+    vabal.u8        q13, d1, d9

+    vld1.8          {q2}, [r0], r1

+    vld1.8          {q6}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vabal.u8        q13, d3, d11

+    vld1.8          {q3}, [r0], r1

+    vld1.8          {q7}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vabal.u8        q13, d5, d13

+    vabal.u8        q12, d6, d14

+    vabal.u8        q13, d7, d15

+    vadd.u16        q0, q12, q13

+    vpaddl.u16      q1, q0

+    vpaddl.u32      q0, q1

+    vadd.u32        d0, d0, d1

+    vmov.32         r0, d0[0]

+    bx              lr

+    ENDP

+    END

--- /dev/null

+++ b/vp8/common/arm/neon/sad8_neon.asm

@@ -1,0 +1,209 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_sad8x8_neon|

+    EXPORT  |vp8_sad8x16_neon|

+    EXPORT  |vp8_sad4x4_neon|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; unsigned int vp8_sad8x8_c(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+|vp8_sad8x8_neon| PROC

+    vld1.8          {d0}, [r0], r1

+    vld1.8          {d8}, [r2], r3

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d10}, [r2], r3

+    vabdl.u8        q12, d0, d8

+    vld1.8          {d4}, [r0], r1

+    vld1.8          {d12}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vld1.8          {d6}, [r0], r1

+    vld1.8          {d14}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vld1.8          {d0}, [r0], r1

+    vld1.8          {d8}, [r2], r3

+    vabal.u8        q12, d6, d14

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d10}, [r2], r3

+    vabal.u8        q12, d0, d8

+    vld1.8          {d4}, [r0], r1

+    vld1.8          {d12}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vld1.8          {d6}, [r0], r1

+    vld1.8          {d14}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vabal.u8        q12, d6, d14

+    vpaddl.u16      q1, q12

+    vpaddl.u32      q0, q1

+    vadd.u32        d0, d0, d1

+    vmov.32         r0, d0[0]

+    bx              lr

+    ENDP

+;============================

+;unsigned int vp8_sad8x16_c(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+|vp8_sad8x16_neon| PROC

+    vld1.8          {d0}, [r0], r1

+    vld1.8          {d8}, [r2], r3

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d10}, [r2], r3

+    vabdl.u8        q12, d0, d8

+    vld1.8          {d4}, [r0], r1

+    vld1.8          {d12}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vld1.8          {d6}, [r0], r1

+    vld1.8          {d14}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vld1.8          {d0}, [r0], r1

+    vld1.8          {d8}, [r2], r3

+    vabal.u8        q12, d6, d14

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d10}, [r2], r3

+    vabal.u8        q12, d0, d8

+    vld1.8          {d4}, [r0], r1

+    vld1.8          {d12}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vld1.8          {d6}, [r0], r1

+    vld1.8          {d14}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vld1.8          {d0}, [r0], r1

+    vld1.8          {d8}, [r2], r3

+    vabal.u8        q12, d6, d14

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d10}, [r2], r3

+    vabal.u8        q12, d0, d8

+    vld1.8          {d4}, [r0], r1

+    vld1.8          {d12}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vld1.8          {d6}, [r0], r1

+    vld1.8          {d14}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vld1.8          {d0}, [r0], r1

+    vld1.8          {d8}, [r2], r3

+    vabal.u8        q12, d6, d14

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d10}, [r2], r3

+    vabal.u8        q12, d0, d8

+    vld1.8          {d4}, [r0], r1

+    vld1.8          {d12}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vld1.8          {d6}, [r0], r1

+    vld1.8          {d14}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vabal.u8        q12, d6, d14

+    vpaddl.u16      q1, q12

+    vpaddl.u32      q0, q1

+    vadd.u32        d0, d0, d1

+    vmov.32         r0, d0[0]

+    bx              lr

+    ENDP

+;===========================

+;unsigned int vp8_sad4x4_c(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+|vp8_sad4x4_neon| PROC

+    vld1.8          {d0}, [r0], r1

+    vld1.8          {d8}, [r2], r3

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d10}, [r2], r3

+    vabdl.u8        q12, d0, d8

+    vld1.8          {d4}, [r0], r1

+    vld1.8          {d12}, [r2], r3

+    vabal.u8        q12, d2, d10

+    vld1.8          {d6}, [r0], r1

+    vld1.8          {d14}, [r2], r3

+    vabal.u8        q12, d4, d12

+    vabal.u8        q12, d6, d14

+    vpaddl.u16      d1, d24

+    vpaddl.u32      d0, d1

+    vmov.32         r0, d0[0]

+    bx              lr

+    ENDP

+    END

--- /dev/null

+++ b/vp8/common/arm/neon/variance_neon.asm

@@ -1,0 +1,276 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_variance16x16_neon|

+    EXPORT  |vp8_variance16x8_neon|

+    EXPORT  |vp8_variance8x16_neon|

+    EXPORT  |vp8_variance8x8_neon|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char *src_ptr

+; r1    int source_stride

+; r2    unsigned char *ref_ptr

+; r3    int  recon_stride

+; stack unsigned int *sse

+|vp8_variance16x16_neon| PROC

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+    mov             r12, #8

+variance16x16_neon_loop

+    vld1.8          {q0}, [r0], r1              ;Load up source and reference

+    vld1.8          {q2}, [r2], r3

+    vld1.8          {q1}, [r0], r1

+    vld1.8          {q3}, [r2], r3

+    vsubl.u8        q11, d0, d4                 ;calculate diff

+    vsubl.u8        q12, d1, d5

+    vsubl.u8        q13, d2, d6

+    vsubl.u8        q14, d3, d7

+    ;VPADAL adds adjacent pairs of elements of a vector, and accumulates

+    ;the results into the elements of the destination vector. The explanation

+    ;in ARM guide is wrong.

+    vpadal.s16      q8, q11                     ;calculate sum

+    vmlal.s16       q9, d22, d22                ;calculate sse

+    vmlal.s16       q10, d23, d23

+    subs            r12, r12, #1

+    vpadal.s16      q8, q12

+    vmlal.s16       q9, d24, d24

+    vmlal.s16       q10, d25, d25

+    vpadal.s16      q8, q13

+    vmlal.s16       q9, d26, d26

+    vmlal.s16       q10, d27, d27

+    vpadal.s16      q8, q14

+    vmlal.s16       q9, d28, d28

+    vmlal.s16       q10, d29, d29

+    bne             variance16x16_neon_loop

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    ldr             r12, [sp]                   ;load *sse from stack

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    ;vmov.32        r0, d0[0]                   ;this instruction costs a lot

+    ;vmov.32        r1, d1[0]

+    ;mul            r0, r0, r0

+    ;str            r1, [r12]

+    ;sub            r0, r1, r0, lsr #8

+    ; while sum is signed, sum * sum is always positive and must be treated as

+    ; unsigned to avoid propagating the sign bit.

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [r12]              ;store sse

+    vshr.u32        d10, d10, #8

+    vsub.u32        d0, d1, d10

+    vmov.32         r0, d0[0]                   ;return

+    bx              lr

+    ENDP

+;================================

+;unsigned int vp8_variance16x8_c(

+;    unsigned char *src_ptr,

+;    int  source_stride,

+;    unsigned char *ref_ptr,

+;    int  recon_stride,

+;   unsigned int *sse)

+|vp8_variance16x8_neon| PROC

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+    mov             r12, #4

+variance16x8_neon_loop

+    vld1.8          {q0}, [r0], r1              ;Load up source and reference

+    vld1.8          {q2}, [r2], r3

+    vld1.8          {q1}, [r0], r1

+    vld1.8          {q3}, [r2], r3

+    vsubl.u8        q11, d0, d4                 ;calculate diff

+    vsubl.u8        q12, d1, d5

+    vsubl.u8        q13, d2, d6

+    vsubl.u8        q14, d3, d7

+    vpadal.s16      q8, q11                     ;calculate sum

+    vmlal.s16       q9, d22, d22                ;calculate sse

+    vmlal.s16       q10, d23, d23

+    subs            r12, r12, #1

+    vpadal.s16      q8, q12

+    vmlal.s16       q9, d24, d24

+    vmlal.s16       q10, d25, d25

+    vpadal.s16      q8, q13

+    vmlal.s16       q9, d26, d26

+    vmlal.s16       q10, d27, d27

+    vpadal.s16      q8, q14

+    vmlal.s16       q9, d28, d28

+    vmlal.s16       q10, d29, d29

+    bne             variance16x8_neon_loop

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    ldr             r12, [sp]                   ;load *sse from stack

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [r12]              ;store sse

+    vshr.u32        d10, d10, #7

+    vsub.u32        d0, d1, d10

+    vmov.32         r0, d0[0]                   ;return

+    bx              lr

+    ENDP

+;=================================

+;unsigned int vp8_variance8x16_c(

+;    unsigned char *src_ptr,

+;    int  source_stride,

+;    unsigned char *ref_ptr,

+;    int  recon_stride,

+;   unsigned int *sse)

+|vp8_variance8x16_neon| PROC

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+    mov             r12, #8

+variance8x16_neon_loop

+    vld1.8          {d0}, [r0], r1              ;Load up source and reference

+    vld1.8          {d4}, [r2], r3

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d6}, [r2], r3

+    vsubl.u8        q11, d0, d4                 ;calculate diff

+    vsubl.u8        q12, d2, d6

+    vpadal.s16      q8, q11                     ;calculate sum

+    vmlal.s16       q9, d22, d22                ;calculate sse

+    vmlal.s16       q10, d23, d23

+    subs            r12, r12, #1

+    vpadal.s16      q8, q12

+    vmlal.s16       q9, d24, d24

+    vmlal.s16       q10, d25, d25

+    bne             variance8x16_neon_loop

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    ldr             r12, [sp]                   ;load *sse from stack

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [r12]              ;store sse

+    vshr.u32        d10, d10, #7

+    vsub.u32        d0, d1, d10

+    vmov.32         r0, d0[0]                   ;return

+    bx              lr

+    ENDP

+;==================================

+; r0    unsigned char *src_ptr

+; r1    int source_stride

+; r2    unsigned char *ref_ptr

+; r3    int  recon_stride

+; stack unsigned int *sse

+|vp8_variance8x8_neon| PROC

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+    mov             r12, #2

+variance8x8_neon_loop

+    vld1.8          {d0}, [r0], r1              ;Load up source and reference

+    vld1.8          {d4}, [r2], r3

+    vld1.8          {d1}, [r0], r1

+    vld1.8          {d5}, [r2], r3

+    vld1.8          {d2}, [r0], r1

+    vld1.8          {d6}, [r2], r3

+    vld1.8          {d3}, [r0], r1

+    vld1.8          {d7}, [r2], r3

+    vsubl.u8        q11, d0, d4                 ;calculate diff

+    vsubl.u8        q12, d1, d5

+    vsubl.u8        q13, d2, d6

+    vsubl.u8        q14, d3, d7

+    vpadal.s16      q8, q11                     ;calculate sum

+    vmlal.s16       q9, d22, d22                ;calculate sse

+    vmlal.s16       q10, d23, d23

+    subs            r12, r12, #1

+    vpadal.s16      q8, q12

+    vmlal.s16       q9, d24, d24

+    vmlal.s16       q10, d25, d25

+    vpadal.s16      q8, q13

+    vmlal.s16       q9, d26, d26

+    vmlal.s16       q10, d27, d27

+    vpadal.s16      q8, q14

+    vmlal.s16       q9, d28, d28

+    vmlal.s16       q10, d29, d29

+    bne             variance8x8_neon_loop

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    ldr             r12, [sp]                   ;load *sse from stack

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [r12]              ;store sse

+    vshr.u32        d10, d10, #6

+    vsub.u32        d0, d1, d10

+    vmov.32         r0, d0[0]                   ;return

+    bx              lr

+    ENDP

+    END

--- /dev/null

+++ b/vp8/common/arm/neon/vp8_subpixelvariance16x16_neon.asm

@@ -1,0 +1,425 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_sub_pixel_variance16x16_neon_func|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char  *src_ptr,

+; r1    int  src_pixels_per_line,

+; r2    int  xoffset,

+; r3    int  yoffset,

+; stack(r4) unsigned char *dst_ptr,

+; stack(r5) int dst_pixels_per_line,

+; stack(r6) unsigned int *sse

+;note: most of the code is copied from bilinear_predict16x16_neon and vp8_variance16x16_neon.

+|vp8_sub_pixel_variance16x16_neon_func| PROC

+    push            {r4-r6, lr}

+    ldr             r12, _BilinearTaps_coeff_

+    ldr             r4, [sp, #16]           ;load *dst_ptr from stack

+    ldr             r5, [sp, #20]           ;load dst_pixels_per_line from stack

+    ldr             r6, [sp, #24]           ;load *sse from stack

+    cmp             r2, #0                  ;skip first_pass filter if xoffset=0

+    beq             secondpass_bfilter16x16_only

+    add             r2, r12, r2, lsl #3     ;calculate filter location

+    cmp             r3, #0                  ;skip second_pass filter if yoffset=0

+    vld1.s32        {d31}, [r2]             ;load first_pass filter

+    beq             firstpass_bfilter16x16_only

+    sub             sp, sp, #272            ;reserve space on stack for temporary storage

+    vld1.u8         {d2, d3, d4}, [r0], r1      ;load src data

+    mov             lr, sp

+    vld1.u8         {d5, d6, d7}, [r0], r1

+    mov             r2, #3                  ;loop counter

+    vld1.u8         {d8, d9, d10}, [r0], r1

+    vdup.8          d0, d31[0]              ;first_pass filter (d0 d1)

+    vld1.u8         {d11, d12, d13}, [r0], r1

+    vdup.8          d1, d31[4]

+;First Pass: output_height lines x output_width columns (17x16)

+vp8e_filt_blk2d_fp16x16_loop_neon

+    pld             [r0]

+    pld             [r0, r1]

+    pld             [r0, r1, lsl #1]

+    vmull.u8        q7, d2, d0              ;(src_ptr[0] * Filter[0])

+    vmull.u8        q8, d3, d0

+    vmull.u8        q9, d5, d0

+    vmull.u8        q10, d6, d0

+    vmull.u8        q11, d8, d0

+    vmull.u8        q12, d9, d0

+    vmull.u8        q13, d11, d0

+    vmull.u8        q14, d12, d0

+    vext.8          d2, d2, d3, #1          ;construct src_ptr[1]

+    vext.8          d5, d5, d6, #1

+    vext.8          d8, d8, d9, #1

+    vext.8          d11, d11, d12, #1

+    vmlal.u8        q7, d2, d1              ;(src_ptr[0] * Filter[1])

+    vmlal.u8        q9, d5, d1

+    vmlal.u8        q11, d8, d1

+    vmlal.u8        q13, d11, d1

+    vext.8          d3, d3, d4, #1

+    vext.8          d6, d6, d7, #1

+    vext.8          d9, d9, d10, #1

+    vext.8          d12, d12, d13, #1

+    vmlal.u8        q8, d3, d1              ;(src_ptr[0] * Filter[1])

+    vmlal.u8        q10, d6, d1

+    vmlal.u8        q12, d9, d1

+    vmlal.u8        q14, d12, d1

+    subs            r2, r2, #1

+    vqrshrn.u16    d14, q7, #7              ;shift/round/saturate to u8

+    vqrshrn.u16    d15, q8, #7

+    vqrshrn.u16    d16, q9, #7

+    vqrshrn.u16    d17, q10, #7

+    vqrshrn.u16    d18, q11, #7

+    vqrshrn.u16    d19, q12, #7

+    vqrshrn.u16    d20, q13, #7

+    vld1.u8         {d2, d3, d4}, [r0], r1      ;load src data

+    vqrshrn.u16    d21, q14, #7

+    vld1.u8         {d5, d6, d7}, [r0], r1

+    vst1.u8         {d14, d15, d16, d17}, [lr]!     ;store result

+    vld1.u8         {d8, d9, d10}, [r0], r1

+    vst1.u8         {d18, d19, d20, d21}, [lr]!

+    vld1.u8         {d11, d12, d13}, [r0], r1

+    bne             vp8e_filt_blk2d_fp16x16_loop_neon

+;First-pass filtering for rest 5 lines

+    vld1.u8         {d14, d15, d16}, [r0], r1

+    vmull.u8        q9, d2, d0              ;(src_ptr[0] * Filter[0])

+    vmull.u8        q10, d3, d0

+    vmull.u8        q11, d5, d0

+    vmull.u8        q12, d6, d0

+    vmull.u8        q13, d8, d0

+    vmull.u8        q14, d9, d0

+    vext.8          d2, d2, d3, #1          ;construct src_ptr[1]

+    vext.8          d5, d5, d6, #1

+    vext.8          d8, d8, d9, #1

+    vmlal.u8        q9, d2, d1              ;(src_ptr[0] * Filter[1])

+    vmlal.u8        q11, d5, d1

+    vmlal.u8        q13, d8, d1

+    vext.8          d3, d3, d4, #1

+    vext.8          d6, d6, d7, #1

+    vext.8          d9, d9, d10, #1

+    vmlal.u8        q10, d3, d1             ;(src_ptr[0] * Filter[1])

+    vmlal.u8        q12, d6, d1

+    vmlal.u8        q14, d9, d1

+    vmull.u8        q1, d11, d0

+    vmull.u8        q2, d12, d0

+    vmull.u8        q3, d14, d0

+    vmull.u8        q4, d15, d0

+    vext.8          d11, d11, d12, #1       ;construct src_ptr[1]

+    vext.8          d14, d14, d15, #1

+    vmlal.u8        q1, d11, d1             ;(src_ptr[0] * Filter[1])

+    vmlal.u8        q3, d14, d1

+    vext.8          d12, d12, d13, #1

+    vext.8          d15, d15, d16, #1

+    vmlal.u8        q2, d12, d1             ;(src_ptr[0] * Filter[1])

+    vmlal.u8        q4, d15, d1

+    vqrshrn.u16    d10, q9, #7              ;shift/round/saturate to u8

+    vqrshrn.u16    d11, q10, #7

+    vqrshrn.u16    d12, q11, #7

+    vqrshrn.u16    d13, q12, #7

+    vqrshrn.u16    d14, q13, #7

+    vqrshrn.u16    d15, q14, #7

+    vqrshrn.u16    d16, q1, #7

+    vqrshrn.u16    d17, q2, #7

+    vqrshrn.u16    d18, q3, #7

+    vqrshrn.u16    d19, q4, #7

+    vst1.u8         {d10, d11, d12, d13}, [lr]!         ;store result

+    vst1.u8         {d14, d15, d16, d17}, [lr]!

+    vst1.u8         {d18, d19}, [lr]!

+;Second pass: 16x16

+;secondpass_filter

+    add             r3, r12, r3, lsl #3

+    sub             lr, lr, #272

+    vld1.u32        {d31}, [r3]             ;load second_pass filter

+    sub             sp, sp, #256

+    mov             r3, sp

+    vld1.u8         {d22, d23}, [lr]!       ;load src data

+    vdup.8          d0, d31[0]              ;second_pass filter parameters (d0 d1)

+    vdup.8          d1, d31[4]

+    mov             r12, #4                 ;loop counter

+vp8e_filt_blk2d_sp16x16_loop_neon

+    vld1.u8         {d24, d25}, [lr]!

+    vmull.u8        q1, d22, d0             ;(src_ptr[0] * Filter[0])

+    vld1.u8         {d26, d27}, [lr]!

+    vmull.u8        q2, d23, d0

+    vld1.u8         {d28, d29}, [lr]!

+    vmull.u8        q3, d24, d0

+    vld1.u8         {d30, d31}, [lr]!

+    vmull.u8        q4, d25, d0

+    vmull.u8        q5, d26, d0

+    vmull.u8        q6, d27, d0

+    vmull.u8        q7, d28, d0

+    vmull.u8        q8, d29, d0

+    vmlal.u8        q1, d24, d1             ;(src_ptr[pixel_step] * Filter[1])

+    vmlal.u8        q2, d25, d1

+    vmlal.u8        q3, d26, d1

+    vmlal.u8        q4, d27, d1

+    vmlal.u8        q5, d28, d1

+    vmlal.u8        q6, d29, d1

+    vmlal.u8        q7, d30, d1

+    vmlal.u8        q8, d31, d1

+    subs            r12, r12, #1

+    vqrshrn.u16    d2, q1, #7               ;shift/round/saturate to u8

+    vqrshrn.u16    d3, q2, #7

+    vqrshrn.u16    d4, q3, #7

+    vqrshrn.u16    d5, q4, #7

+    vqrshrn.u16    d6, q5, #7

+    vqrshrn.u16    d7, q6, #7

+    vqrshrn.u16    d8, q7, #7

+    vqrshrn.u16    d9, q8, #7

+    vst1.u8         {d2, d3}, [r3]!         ;store result

+    vst1.u8         {d4, d5}, [r3]!

+    vst1.u8         {d6, d7}, [r3]!

+    vmov            q11, q15

+    vst1.u8         {d8, d9}, [r3]!

+    bne             vp8e_filt_blk2d_sp16x16_loop_neon

+    b               sub_pixel_variance16x16_neon

+;--------------------

+firstpass_bfilter16x16_only

+    mov             r2, #4                      ;loop counter

+    sub             sp, sp, #528            ;reserve space on stack for temporary storage

+    vdup.8          d0, d31[0]                  ;first_pass filter (d0 d1)

+    vdup.8          d1, d31[4]

+    mov             r3, sp

+;First Pass: output_height lines x output_width columns (16x16)

+vp8e_filt_blk2d_fpo16x16_loop_neon

+    vld1.u8         {d2, d3, d4}, [r0], r1      ;load src data

+    vld1.u8         {d5, d6, d7}, [r0], r1

+    vld1.u8         {d8, d9, d10}, [r0], r1

+    vld1.u8         {d11, d12, d13}, [r0], r1

+    pld             [r0]

+    pld             [r0, r1]

+    pld             [r0, r1, lsl #1]

+    vmull.u8        q7, d2, d0              ;(src_ptr[0] * Filter[0])

+    vmull.u8        q8, d3, d0

+    vmull.u8        q9, d5, d0

+    vmull.u8        q10, d6, d0

+    vmull.u8        q11, d8, d0

+    vmull.u8        q12, d9, d0

+    vmull.u8        q13, d11, d0

+    vmull.u8        q14, d12, d0

+    vext.8          d2, d2, d3, #1          ;construct src_ptr[1]

+    vext.8          d5, d5, d6, #1

+    vext.8          d8, d8, d9, #1

+    vext.8          d11, d11, d12, #1

+    vmlal.u8        q7, d2, d1              ;(src_ptr[0] * Filter[1])

+    vmlal.u8        q9, d5, d1

+    vmlal.u8        q11, d8, d1

+    vmlal.u8        q13, d11, d1

+    vext.8          d3, d3, d4, #1

+    vext.8          d6, d6, d7, #1

+    vext.8          d9, d9, d10, #1

+    vext.8          d12, d12, d13, #1

+    vmlal.u8        q8, d3, d1              ;(src_ptr[0] * Filter[1])

+    vmlal.u8        q10, d6, d1

+    vmlal.u8        q12, d9, d1

+    vmlal.u8        q14, d12, d1

+    subs            r2, r2, #1

+    vqrshrn.u16    d14, q7, #7              ;shift/round/saturate to u8

+    vqrshrn.u16    d15, q8, #7

+    vqrshrn.u16    d16, q9, #7

+    vqrshrn.u16    d17, q10, #7

+    vqrshrn.u16    d18, q11, #7

+    vqrshrn.u16    d19, q12, #7

+    vqrshrn.u16    d20, q13, #7

+    vst1.u8         {d14, d15}, [r3]!       ;store result

+    vqrshrn.u16    d21, q14, #7

+    vst1.u8         {d16, d17}, [r3]!

+    vst1.u8         {d18, d19}, [r3]!

+    vst1.u8         {d20, d21}, [r3]!

+    bne             vp8e_filt_blk2d_fpo16x16_loop_neon

+    b               sub_pixel_variance16x16_neon

+;---------------------

+secondpass_bfilter16x16_only

+;Second pass: 16x16

+;secondpass_filter

+    sub             sp, sp, #528            ;reserve space on stack for temporary storage

+    add             r3, r12, r3, lsl #3

+    mov             r12, #4                     ;loop counter

+    vld1.u32        {d31}, [r3]                 ;load second_pass filter

+    vld1.u8         {d22, d23}, [r0], r1        ;load src data

+    mov             r3, sp

+    vdup.8          d0, d31[0]                  ;second_pass filter parameters (d0 d1)

+    vdup.8          d1, d31[4]

+vp8e_filt_blk2d_spo16x16_loop_neon

+    vld1.u8         {d24, d25}, [r0], r1

+    vmull.u8        q1, d22, d0             ;(src_ptr[0] * Filter[0])

+    vld1.u8         {d26, d27}, [r0], r1

+    vmull.u8        q2, d23, d0

+    vld1.u8         {d28, d29}, [r0], r1

+    vmull.u8        q3, d24, d0

+    vld1.u8         {d30, d31}, [r0], r1

+    vmull.u8        q4, d25, d0

+    vmull.u8        q5, d26, d0

+    vmull.u8        q6, d27, d0

+    vmull.u8        q7, d28, d0

+    vmull.u8        q8, d29, d0

+    vmlal.u8        q1, d24, d1             ;(src_ptr[pixel_step] * Filter[1])

+    vmlal.u8        q2, d25, d1

+    vmlal.u8        q3, d26, d1

+    vmlal.u8        q4, d27, d1

+    vmlal.u8        q5, d28, d1

+    vmlal.u8        q6, d29, d1

+    vmlal.u8        q7, d30, d1

+    vmlal.u8        q8, d31, d1

+    vqrshrn.u16    d2, q1, #7               ;shift/round/saturate to u8

+    vqrshrn.u16    d3, q2, #7

+    vqrshrn.u16    d4, q3, #7

+    vqrshrn.u16    d5, q4, #7

+    vqrshrn.u16    d6, q5, #7

+    vqrshrn.u16    d7, q6, #7

+    vqrshrn.u16    d8, q7, #7

+    vqrshrn.u16    d9, q8, #7

+    vst1.u8         {d2, d3}, [r3]!         ;store result

+    subs            r12, r12, #1

+    vst1.u8         {d4, d5}, [r3]!

+    vmov            q11, q15

+    vst1.u8         {d6, d7}, [r3]!

+    vst1.u8         {d8, d9}, [r3]!

+    bne             vp8e_filt_blk2d_spo16x16_loop_neon

+    b               sub_pixel_variance16x16_neon

+;----------------------------

+;variance16x16

+sub_pixel_variance16x16_neon

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+    sub             r3, r3, #256

+    mov             r12, #8

+sub_pixel_variance16x16_neon_loop

+    vld1.8          {q0}, [r3]!                 ;Load up source and reference

+    vld1.8          {q2}, [r4], r5

+    vld1.8          {q1}, [r3]!

+    vld1.8          {q3}, [r4], r5

+    vsubl.u8        q11, d0, d4                 ;diff

+    vsubl.u8        q12, d1, d5

+    vsubl.u8        q13, d2, d6

+    vsubl.u8        q14, d3, d7

+    vpadal.s16      q8, q11                     ;sum

+    vmlal.s16       q9, d22, d22                ;sse

+    vmlal.s16       q10, d23, d23

+    subs            r12, r12, #1

+    vpadal.s16      q8, q12

+    vmlal.s16       q9, d24, d24

+    vmlal.s16       q10, d25, d25

+    vpadal.s16      q8, q13

+    vmlal.s16       q9, d26, d26

+    vmlal.s16       q10, d27, d27

+    vpadal.s16      q8, q14

+    vmlal.s16       q9, d28, d28

+    vmlal.s16       q10, d29, d29

+    bne             sub_pixel_variance16x16_neon_loop

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [r6]               ;store sse

+    vshr.u32        d10, d10, #8

+    vsub.u32        d0, d1, d10

+    add             sp, sp, #528

+    vmov.32         r0, d0[0]                   ;return

+    pop             {r4-r6,pc}

+    ENDP

+;-----------------

+_BilinearTaps_coeff_

+    DCD     bilinear_taps_coeff

+bilinear_taps_coeff

+    DCD     128, 0, 112, 16, 96, 32, 80, 48, 64, 64, 48, 80, 32, 96, 16, 112

+    END

--- /dev/null

+++ b/vp8/common/arm/neon/vp8_subpixelvariance16x16s_neon.asm

@@ -1,0 +1,572 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_variance_halfpixvar16x16_h_neon|

+    EXPORT  |vp8_variance_halfpixvar16x16_v_neon|

+    EXPORT  |vp8_variance_halfpixvar16x16_hv_neon|

+    EXPORT  |vp8_sub_pixel_variance16x16s_neon|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+;================================================

+;unsigned int vp8_variance_halfpixvar16x16_h_neon

+;(

+;    unsigned char  *src_ptr, r0

+;    int  src_pixels_per_line,  r1

+;    unsigned char *dst_ptr,  r2

+;    int dst_pixels_per_line,   r3

+;    unsigned int *sse

+;);

+;================================================

+|vp8_variance_halfpixvar16x16_h_neon| PROC

+    push            {lr}

+    mov             r12, #4                  ;loop counter

+    ldr             lr, [sp, #4]           ;load *sse from stack

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+;First Pass: output_height lines x output_width columns (16x16)

+vp8_filt_fpo16x16s_4_0_loop_neon

+    vld1.u8         {d0, d1, d2, d3}, [r0], r1      ;load src data

+    vld1.8          {q11}, [r2], r3

+    vld1.u8         {d4, d5, d6, d7}, [r0], r1

+    vld1.8          {q12}, [r2], r3

+    vld1.u8         {d8, d9, d10, d11}, [r0], r1

+    vld1.8          {q13}, [r2], r3

+    vld1.u8         {d12, d13, d14, d15}, [r0], r1

+    ;pld                [r0]

+    ;pld                [r0, r1]

+    ;pld                [r0, r1, lsl #1]

+    vext.8          q1, q0, q1, #1          ;construct src_ptr[1]

+    vext.8          q3, q2, q3, #1

+    vext.8          q5, q4, q5, #1

+    vext.8          q7, q6, q7, #1

+    vrhadd.u8       q0, q0, q1              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

+    vld1.8          {q14}, [r2], r3

+    vrhadd.u8       q1, q2, q3

+    vrhadd.u8       q2, q4, q5

+    vrhadd.u8       q3, q6, q7

+    vsubl.u8        q4, d0, d22                 ;diff

+    vsubl.u8        q5, d1, d23

+    vsubl.u8        q6, d2, d24

+    vsubl.u8        q7, d3, d25

+    vsubl.u8        q0, d4, d26

+    vsubl.u8        q1, d5, d27

+    vsubl.u8        q2, d6, d28

+    vsubl.u8        q3, d7, d29

+    vpadal.s16      q8, q4                     ;sum

+    vmlal.s16       q9, d8, d8                ;sse

+    vmlal.s16       q10, d9, d9

+    subs            r12, r12, #1

+    vpadal.s16      q8, q5

+    vmlal.s16       q9, d10, d10

+    vmlal.s16       q10, d11, d11

+    vpadal.s16      q8, q6

+    vmlal.s16       q9, d12, d12

+    vmlal.s16       q10, d13, d13

+    vpadal.s16      q8, q7

+    vmlal.s16       q9, d14, d14

+    vmlal.s16       q10, d15, d15

+    vpadal.s16      q8, q0                     ;sum

+    vmlal.s16       q9, d0, d0                ;sse

+    vmlal.s16       q10, d1, d1

+    vpadal.s16      q8, q1

+    vmlal.s16       q9, d2, d2

+    vmlal.s16       q10, d3, d3

+    vpadal.s16      q8, q2

+    vmlal.s16       q9, d4, d4

+    vmlal.s16       q10, d5, d5

+    vpadal.s16      q8, q3

+    vmlal.s16       q9, d6, d6

+    vmlal.s16       q10, d7, d7

+    bne             vp8_filt_fpo16x16s_4_0_loop_neon

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [lr]               ;store sse

+    vshr.u32        d10, d10, #8

+    vsub.u32        d0, d1, d10

+    vmov.32         r0, d0[0]                   ;return

+    pop             {pc}

+    ENDP

+;================================================

+;unsigned int vp8_variance_halfpixvar16x16_v_neon

+;(

+;    unsigned char  *src_ptr, r0

+;    int  src_pixels_per_line,  r1

+;    unsigned char *dst_ptr,  r2

+;    int dst_pixels_per_line,   r3

+;    unsigned int *sse

+;);

+;================================================

+|vp8_variance_halfpixvar16x16_v_neon| PROC

+    push            {lr}

+    mov             r12, #4                     ;loop counter

+    vld1.u8         {q0}, [r0], r1              ;load src data

+    ldr             lr, [sp, #4]                ;load *sse from stack

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+vp8_filt_spo16x16s_0_4_loop_neon

+    vld1.u8         {q2}, [r0], r1

+    vld1.8          {q1}, [r2], r3

+    vld1.u8         {q4}, [r0], r1

+    vld1.8          {q3}, [r2], r3

+    vld1.u8         {q6}, [r0], r1

+    vld1.8          {q5}, [r2], r3

+    vld1.u8         {q15}, [r0], r1

+    vrhadd.u8       q0, q0, q2

+    vld1.8          {q7}, [r2], r3

+    vrhadd.u8       q2, q2, q4

+    vrhadd.u8       q4, q4, q6

+    vrhadd.u8       q6, q6, q15

+    vsubl.u8        q11, d0, d2                 ;diff

+    vsubl.u8        q12, d1, d3

+    vsubl.u8        q13, d4, d6

+    vsubl.u8        q14, d5, d7

+    vsubl.u8        q0, d8, d10

+    vsubl.u8        q1, d9, d11

+    vsubl.u8        q2, d12, d14

+    vsubl.u8        q3, d13, d15

+    vpadal.s16      q8, q11                     ;sum

+    vmlal.s16       q9, d22, d22                ;sse

+    vmlal.s16       q10, d23, d23

+    subs            r12, r12, #1

+    vpadal.s16      q8, q12

+    vmlal.s16       q9, d24, d24

+    vmlal.s16       q10, d25, d25

+    vpadal.s16      q8, q13

+    vmlal.s16       q9, d26, d26

+    vmlal.s16       q10, d27, d27

+    vpadal.s16      q8, q14

+    vmlal.s16       q9, d28, d28

+    vmlal.s16       q10, d29, d29

+    vpadal.s16      q8, q0                     ;sum

+    vmlal.s16       q9, d0, d0                 ;sse

+    vmlal.s16       q10, d1, d1

+    vpadal.s16      q8, q1

+    vmlal.s16       q9, d2, d2

+    vmlal.s16       q10, d3, d3

+    vpadal.s16      q8, q2

+    vmlal.s16       q9, d4, d4

+    vmlal.s16       q10, d5, d5

+    vmov            q0, q15

+    vpadal.s16      q8, q3

+    vmlal.s16       q9, d6, d6

+    vmlal.s16       q10, d7, d7

+    bne             vp8_filt_spo16x16s_0_4_loop_neon

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [lr]               ;store sse

+    vshr.u32        d10, d10, #8

+    vsub.u32        d0, d1, d10

+    vmov.32         r0, d0[0]                   ;return

+    pop             {pc}

+    ENDP

+;================================================

+;unsigned int vp8_variance_halfpixvar16x16_hv_neon

+;(

+;    unsigned char  *src_ptr, r0

+;    int  src_pixels_per_line,  r1

+;    unsigned char *dst_ptr,  r2

+;    int dst_pixels_per_line,   r3

+;    unsigned int *sse

+;);

+;================================================

+|vp8_variance_halfpixvar16x16_hv_neon| PROC

+    push            {lr}

+    vld1.u8         {d0, d1, d2, d3}, [r0], r1      ;load src data

+    ldr             lr, [sp, #4]           ;load *sse from stack

+    vmov.i8         q13, #0                      ;q8 - sum

+    vext.8          q1, q0, q1, #1          ;construct src_ptr[1]

+    vmov.i8         q14, #0                      ;q9, q10 - sse

+    vmov.i8         q15, #0

+    mov             r12, #4                  ;loop counter

+    vrhadd.u8       q0, q0, q1              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

+;First Pass: output_height lines x output_width columns (17x16)

+vp8_filt16x16s_4_4_loop_neon

+    vld1.u8         {d4, d5, d6, d7}, [r0], r1

+    vld1.u8         {d8, d9, d10, d11}, [r0], r1

+    vld1.u8         {d12, d13, d14, d15}, [r0], r1

+    vld1.u8         {d16, d17, d18, d19}, [r0], r1

+    ;pld                [r0]

+    ;pld                [r0, r1]

+    ;pld                [r0, r1, lsl #1]

+    vext.8          q3, q2, q3, #1          ;construct src_ptr[1]

+    vext.8          q5, q4, q5, #1

+    vext.8          q7, q6, q7, #1

+    vext.8          q9, q8, q9, #1

+    vrhadd.u8       q1, q2, q3              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

+    vrhadd.u8       q2, q4, q5

+    vrhadd.u8       q3, q6, q7

+    vrhadd.u8       q4, q8, q9

+    vld1.8          {q5}, [r2], r3

+    vrhadd.u8       q0, q0, q1

+    vld1.8          {q6}, [r2], r3

+    vrhadd.u8       q1, q1, q2

+    vld1.8          {q7}, [r2], r3

+    vrhadd.u8       q2, q2, q3

+    vld1.8          {q8}, [r2], r3

+    vrhadd.u8       q3, q3, q4

+    vsubl.u8        q9, d0, d10                 ;diff

+    vsubl.u8        q10, d1, d11

+    vsubl.u8        q11, d2, d12

+    vsubl.u8        q12, d3, d13

+    vsubl.u8        q0, d4, d14                 ;diff

+    vsubl.u8        q1, d5, d15

+    vsubl.u8        q5, d6, d16

+    vsubl.u8        q6, d7, d17

+    vpadal.s16      q13, q9                     ;sum

+    vmlal.s16       q14, d18, d18                ;sse

+    vmlal.s16       q15, d19, d19

+    vpadal.s16      q13, q10                     ;sum

+    vmlal.s16       q14, d20, d20                ;sse

+    vmlal.s16       q15, d21, d21

+    vpadal.s16      q13, q11                     ;sum

+    vmlal.s16       q14, d22, d22                ;sse

+    vmlal.s16       q15, d23, d23

+    vpadal.s16      q13, q12                     ;sum

+    vmlal.s16       q14, d24, d24                ;sse

+    vmlal.s16       q15, d25, d25

+    subs            r12, r12, #1

+    vpadal.s16      q13, q0                     ;sum

+    vmlal.s16       q14, d0, d0                ;sse

+    vmlal.s16       q15, d1, d1

+    vpadal.s16      q13, q1                     ;sum

+    vmlal.s16       q14, d2, d2                ;sse

+    vmlal.s16       q15, d3, d3

+    vpadal.s16      q13, q5                     ;sum

+    vmlal.s16       q14, d10, d10                ;sse

+    vmlal.s16       q15, d11, d11

+    vmov            q0, q4

+    vpadal.s16      q13, q6                     ;sum

+    vmlal.s16       q14, d12, d12                ;sse

+    vmlal.s16       q15, d13, d13

+    bne             vp8_filt16x16s_4_4_loop_neon

+    vadd.u32        q15, q14, q15                ;accumulate sse

+    vpaddl.s32      q0, q13                      ;accumulate sum

+    vpaddl.u32      q1, q15

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [lr]               ;store sse

+    vshr.u32        d10, d10, #8

+    vsub.u32        d0, d1, d10

+    vmov.32         r0, d0[0]                   ;return

+    pop             {pc}

+    ENDP

+;==============================

+; r0    unsigned char  *src_ptr,

+; r1    int  src_pixels_per_line,

+; r2    int  xoffset,

+; r3    int  yoffset,

+; stack unsigned char *dst_ptr,

+; stack int dst_pixels_per_line,

+; stack unsigned int *sse

+;note: in vp8_find_best_half_pixel_step()(called when 8<Speed<15), and first call of vp8_find_best_sub_pixel_step()

+;(called when speed<=8). xoffset/yoffset can only be 4 or 0, which means either by pass the filter,

+;or filter coeff is {64, 64}. This simplified program only works in this situation.

+;note: It happens that both xoffset and yoffset are zero. This can be handled in c code later.

+|vp8_sub_pixel_variance16x16s_neon| PROC

+    push            {r4, lr}

+    ldr             r4, [sp, #8]            ;load *dst_ptr from stack

+    ldr             r12, [sp, #12]          ;load dst_pixels_per_line from stack

+    ldr             lr, [sp, #16]           ;load *sse from stack

+    cmp             r2, #0                  ;skip first_pass filter if xoffset=0

+    beq             secondpass_bfilter16x16s_only

+    cmp             r3, #0                  ;skip second_pass filter if yoffset=0

+    beq             firstpass_bfilter16x16s_only

+    vld1.u8         {d0, d1, d2, d3}, [r0], r1      ;load src data

+    sub             sp, sp, #256            ;reserve space on stack for temporary storage

+    vext.8          q1, q0, q1, #1          ;construct src_ptr[1]

+    mov             r3, sp

+    mov             r2, #4                  ;loop counter

+    vrhadd.u8       q0, q0, q1              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

+;First Pass: output_height lines x output_width columns (17x16)

+vp8e_filt_blk2d_fp16x16s_loop_neon

+    vld1.u8         {d4, d5, d6, d7}, [r0], r1

+    vld1.u8         {d8, d9, d10, d11}, [r0], r1

+    vld1.u8         {d12, d13, d14, d15}, [r0], r1

+    vld1.u8         {d16, d17, d18, d19}, [r0], r1

+    ;pld                [r0]

+    ;pld                [r0, r1]

+    ;pld                [r0, r1, lsl #1]

+    vext.8          q3, q2, q3, #1          ;construct src_ptr[1]

+    vext.8          q5, q4, q5, #1

+    vext.8          q7, q6, q7, #1

+    vext.8          q9, q8, q9, #1

+    vrhadd.u8       q1, q2, q3              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

+    vrhadd.u8       q2, q4, q5

+    vrhadd.u8       q3, q6, q7

+    vrhadd.u8       q4, q8, q9

+    vrhadd.u8       q0, q0, q1

+    vrhadd.u8       q1, q1, q2

+    vrhadd.u8       q2, q2, q3

+    vrhadd.u8       q3, q3, q4

+    subs            r2, r2, #1

+    vst1.u8         {d0, d1 ,d2, d3}, [r3]!         ;store result

+    vmov            q0, q4

+    vst1.u8         {d4, d5, d6, d7}, [r3]!

+    bne             vp8e_filt_blk2d_fp16x16s_loop_neon

+    b               sub_pixel_variance16x16s_neon

+;--------------------

+firstpass_bfilter16x16s_only

+    mov             r2, #2                  ;loop counter

+    sub             sp, sp, #256            ;reserve space on stack for temporary storage

+    mov             r3, sp

+;First Pass: output_height lines x output_width columns (16x16)

+vp8e_filt_blk2d_fpo16x16s_loop_neon

+    vld1.u8         {d0, d1, d2, d3}, [r0], r1      ;load src data

+    vld1.u8         {d4, d5, d6, d7}, [r0], r1

+    vld1.u8         {d8, d9, d10, d11}, [r0], r1

+    vld1.u8         {d12, d13, d14, d15}, [r0], r1

+    ;pld                [r0]

+    ;pld                [r0, r1]

+    ;pld                [r0, r1, lsl #1]

+    vext.8          q1, q0, q1, #1          ;construct src_ptr[1]

+    vld1.u8         {d16, d17, d18, d19}, [r0], r1

+    vext.8          q3, q2, q3, #1

+    vld1.u8         {d20, d21, d22, d23}, [r0], r1

+    vext.8          q5, q4, q5, #1

+    vld1.u8         {d24, d25, d26, d27}, [r0], r1

+    vext.8          q7, q6, q7, #1

+    vld1.u8         {d28, d29, d30, d31}, [r0], r1

+    vext.8          q9, q8, q9, #1

+    vext.8          q11, q10, q11, #1

+    vext.8          q13, q12, q13, #1

+    vext.8          q15, q14, q15, #1

+    vrhadd.u8       q0, q0, q1              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

+    vrhadd.u8       q1, q2, q3

+    vrhadd.u8       q2, q4, q5

+    vrhadd.u8       q3, q6, q7

+    vrhadd.u8       q4, q8, q9

+    vrhadd.u8       q5, q10, q11

+    vrhadd.u8       q6, q12, q13

+    vrhadd.u8       q7, q14, q15

+    subs            r2, r2, #1

+    vst1.u8         {d0, d1, d2, d3}, [r3]!         ;store result

+    vst1.u8         {d4, d5, d6, d7}, [r3]!

+    vst1.u8         {d8, d9, d10, d11}, [r3]!

+    vst1.u8         {d12, d13, d14, d15}, [r3]!

+    bne             vp8e_filt_blk2d_fpo16x16s_loop_neon

+    b               sub_pixel_variance16x16s_neon

+;---------------------

+secondpass_bfilter16x16s_only

+    sub             sp, sp, #256            ;reserve space on stack for temporary storage

+    mov             r2, #2                  ;loop counter

+    vld1.u8         {d0, d1}, [r0], r1      ;load src data

+    mov             r3, sp

+vp8e_filt_blk2d_spo16x16s_loop_neon

+    vld1.u8         {d2, d3}, [r0], r1

+    vld1.u8         {d4, d5}, [r0], r1

+    vld1.u8         {d6, d7}, [r0], r1

+    vld1.u8         {d8, d9}, [r0], r1

+    vrhadd.u8       q0, q0, q1

+    vld1.u8         {d10, d11}, [r0], r1

+    vrhadd.u8       q1, q1, q2

+    vld1.u8         {d12, d13}, [r0], r1

+    vrhadd.u8       q2, q2, q3

+    vld1.u8         {d14, d15}, [r0], r1

+    vrhadd.u8       q3, q3, q4

+    vld1.u8         {d16, d17}, [r0], r1

+    vrhadd.u8       q4, q4, q5

+    vrhadd.u8       q5, q5, q6

+    vrhadd.u8       q6, q6, q7

+    vrhadd.u8       q7, q7, q8

+    subs            r2, r2, #1

+    vst1.u8         {d0, d1, d2, d3}, [r3]!         ;store result

+    vmov            q0, q8

+    vst1.u8         {d4, d5, d6, d7}, [r3]!

+    vst1.u8         {d8, d9, d10, d11}, [r3]!           ;store result

+    vst1.u8         {d12, d13, d14, d15}, [r3]!

+    bne             vp8e_filt_blk2d_spo16x16s_loop_neon

+    b               sub_pixel_variance16x16s_neon

+;----------------------------

+;variance16x16

+sub_pixel_variance16x16s_neon

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+    sub             r3, r3, #256

+    mov             r2, #4

+sub_pixel_variance16x16s_neon_loop

+    vld1.8          {q0}, [r3]!                 ;Load up source and reference

+    vld1.8          {q1}, [r4], r12

+    vld1.8          {q2}, [r3]!

+    vld1.8          {q3}, [r4], r12

+    vld1.8          {q4}, [r3]!

+    vld1.8          {q5}, [r4], r12

+    vld1.8          {q6}, [r3]!

+    vld1.8          {q7}, [r4], r12

+    vsubl.u8        q11, d0, d2                 ;diff

+    vsubl.u8        q12, d1, d3

+    vsubl.u8        q13, d4, d6

+    vsubl.u8        q14, d5, d7

+    vsubl.u8        q0, d8, d10

+    vsubl.u8        q1, d9, d11

+    vsubl.u8        q2, d12, d14

+    vsubl.u8        q3, d13, d15

+    vpadal.s16      q8, q11                     ;sum

+    vmlal.s16       q9, d22, d22                ;sse

+    vmlal.s16       q10, d23, d23

+    subs            r2, r2, #1

+    vpadal.s16      q8, q12

+    vmlal.s16       q9, d24, d24

+    vmlal.s16       q10, d25, d25

+    vpadal.s16      q8, q13

+    vmlal.s16       q9, d26, d26

+    vmlal.s16       q10, d27, d27

+    vpadal.s16      q8, q14

+    vmlal.s16       q9, d28, d28

+    vmlal.s16       q10, d29, d29

+    vpadal.s16      q8, q0                     ;sum

+    vmlal.s16       q9, d0, d0                ;sse

+    vmlal.s16       q10, d1, d1

+    vpadal.s16      q8, q1

+    vmlal.s16       q9, d2, d2

+    vmlal.s16       q10, d3, d3

+    vpadal.s16      q8, q2

+    vmlal.s16       q9, d4, d4

+    vmlal.s16       q10, d5, d5

+    vpadal.s16      q8, q3

+    vmlal.s16       q9, d6, d6

+    vmlal.s16       q10, d7, d7

+    bne             sub_pixel_variance16x16s_neon_loop

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [lr]               ;store sse

+    vshr.u32        d10, d10, #8

+    vsub.u32        d0, d1, d10

+    add             sp, sp, #256

+    vmov.32         r0, d0[0]                   ;return

+    pop             {r4, pc}

+    ENDP

+    END

--- /dev/null

+++ b/vp8/common/arm/neon/vp8_subpixelvariance8x8_neon.asm

@@ -1,0 +1,224 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp8_sub_pixel_variance8x8_neon|

+    ARM

+    REQUIRE8

+    PRESERVE8

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; r0    unsigned char  *src_ptr,

+; r1    int  src_pixels_per_line,

+; r2    int  xoffset,

+; r3    int  yoffset,

+; stack(r4) unsigned char *dst_ptr,

+; stack(r5) int dst_pixels_per_line,

+; stack(r6) unsigned int *sse

+;note: most of the code is copied from bilinear_predict8x8_neon and vp8_variance8x8_neon.

+|vp8_sub_pixel_variance8x8_neon| PROC

+    push            {r4-r5, lr}

+    ldr             r12, _BilinearTaps_coeff_

+    ldr             r4, [sp, #12]           ;load *dst_ptr from stack

+    ldr             r5, [sp, #16]           ;load dst_pixels_per_line from stack

+    ldr             lr, [sp, #20]           ;load *sse from stack

+    cmp             r2, #0                  ;skip first_pass filter if xoffset=0

+    beq             skip_firstpass_filter

+;First pass: output_height lines x output_width columns (9x8)

+    add             r2, r12, r2, lsl #3     ;calculate filter location

+    vld1.u8         {q1}, [r0], r1          ;load src data

+    vld1.u32        {d31}, [r2]             ;load first_pass filter

+    vld1.u8         {q2}, [r0], r1

+    vdup.8          d0, d31[0]              ;first_pass filter (d0 d1)

+    vld1.u8         {q3}, [r0], r1

+    vdup.8          d1, d31[4]

+    vld1.u8         {q4}, [r0], r1

+    vmull.u8        q6, d2, d0              ;(src_ptr[0] * Filter[0])

+    vmull.u8        q7, d4, d0

+    vmull.u8        q8, d6, d0

+    vmull.u8        q9, d8, d0

+    vext.8          d3, d2, d3, #1          ;construct src_ptr[-1]

+    vext.8          d5, d4, d5, #1

+    vext.8          d7, d6, d7, #1

+    vext.8          d9, d8, d9, #1

+    vmlal.u8        q6, d3, d1              ;(src_ptr[1] * Filter[1])

+    vmlal.u8        q7, d5, d1

+    vmlal.u8        q8, d7, d1

+    vmlal.u8        q9, d9, d1

+    vld1.u8         {q1}, [r0], r1          ;load src data

+    vqrshrn.u16    d22, q6, #7              ;shift/round/saturate to u8

+    vld1.u8         {q2}, [r0], r1

+    vqrshrn.u16    d23, q7, #7

+    vld1.u8         {q3}, [r0], r1

+    vqrshrn.u16    d24, q8, #7

+    vld1.u8         {q4}, [r0], r1

+    vqrshrn.u16    d25, q9, #7

+    ;first_pass filtering on the rest 5-line data

+    vld1.u8         {q5}, [r0], r1

+    vmull.u8        q6, d2, d0              ;(src_ptr[0] * Filter[0])

+    vmull.u8        q7, d4, d0

+    vmull.u8        q8, d6, d0

+    vmull.u8        q9, d8, d0

+    vmull.u8        q10, d10, d0

+    vext.8          d3, d2, d3, #1          ;construct src_ptr[-1]

+    vext.8          d5, d4, d5, #1

+    vext.8          d7, d6, d7, #1

+    vext.8          d9, d8, d9, #1

+    vext.8          d11, d10, d11, #1

+    vmlal.u8        q6, d3, d1              ;(src_ptr[1] * Filter[1])

+    vmlal.u8        q7, d5, d1

+    vmlal.u8        q8, d7, d1

+    vmlal.u8        q9, d9, d1

+    vmlal.u8        q10, d11, d1

+    vqrshrn.u16    d26, q6, #7              ;shift/round/saturate to u8

+    vqrshrn.u16    d27, q7, #7

+    vqrshrn.u16    d28, q8, #7

+    vqrshrn.u16    d29, q9, #7

+    vqrshrn.u16    d30, q10, #7

+;Second pass: 8x8

+secondpass_filter

+    cmp             r3, #0                  ;skip second_pass filter if yoffset=0

+    ;skip_secondpass_filter

+    beq             sub_pixel_variance8x8_neon

+    add             r3, r12, r3, lsl #3

+    vld1.u32        {d31}, [r3]             ;load second_pass filter

+    vdup.8          d0, d31[0]              ;second_pass filter parameters (d0 d1)

+    vdup.8          d1, d31[4]

+    vmull.u8        q1, d22, d0             ;(src_ptr[0] * Filter[0])

+    vmull.u8        q2, d23, d0

+    vmull.u8        q3, d24, d0

+    vmull.u8        q4, d25, d0

+    vmull.u8        q5, d26, d0

+    vmull.u8        q6, d27, d0

+    vmull.u8        q7, d28, d0

+    vmull.u8        q8, d29, d0

+    vmlal.u8        q1, d23, d1             ;(src_ptr[pixel_step] * Filter[1])

+    vmlal.u8        q2, d24, d1

+    vmlal.u8        q3, d25, d1

+    vmlal.u8        q4, d26, d1

+    vmlal.u8        q5, d27, d1

+    vmlal.u8        q6, d28, d1

+    vmlal.u8        q7, d29, d1

+    vmlal.u8        q8, d30, d1

+    vqrshrn.u16    d22, q1, #7              ;shift/round/saturate to u8

+    vqrshrn.u16    d23, q2, #7

+    vqrshrn.u16    d24, q3, #7

+    vqrshrn.u16    d25, q4, #7

+    vqrshrn.u16    d26, q5, #7

+    vqrshrn.u16    d27, q6, #7

+    vqrshrn.u16    d28, q7, #7

+    vqrshrn.u16    d29, q8, #7

+    b               sub_pixel_variance8x8_neon

+;--------------------

+skip_firstpass_filter

+    vld1.u8         {d22}, [r0], r1         ;load src data

+    vld1.u8         {d23}, [r0], r1

+    vld1.u8         {d24}, [r0], r1

+    vld1.u8         {d25}, [r0], r1

+    vld1.u8         {d26}, [r0], r1

+    vld1.u8         {d27}, [r0], r1

+    vld1.u8         {d28}, [r0], r1

+    vld1.u8         {d29}, [r0], r1

+    vld1.u8         {d30}, [r0], r1

+    b               secondpass_filter

+;----------------------

+;vp8_variance8x8_neon

+sub_pixel_variance8x8_neon

+    vmov.i8         q8, #0                      ;q8 - sum

+    vmov.i8         q9, #0                      ;q9, q10 - sse

+    vmov.i8         q10, #0

+    mov             r12, #2

+sub_pixel_variance8x8_neon_loop

+    vld1.8          {d0}, [r4], r5              ;load dst data

+    subs            r12, r12, #1

+    vld1.8          {d1}, [r4], r5

+    vld1.8          {d2}, [r4], r5

+    vsubl.u8        q4, d22, d0                 ;calculate diff

+    vld1.8          {d3}, [r4], r5

+    vsubl.u8        q5, d23, d1

+    vsubl.u8        q6, d24, d2

+    vpadal.s16      q8, q4                      ;sum

+    vmlal.s16       q9, d8, d8                  ;sse

+    vmlal.s16       q10, d9, d9

+    vsubl.u8        q7, d25, d3

+    vpadal.s16      q8, q5

+    vmlal.s16       q9, d10, d10

+    vmlal.s16       q10, d11, d11

+    vmov            q11, q13

+    vpadal.s16      q8, q6

+    vmlal.s16       q9, d12, d12

+    vmlal.s16       q10, d13, d13

+    vmov            q12, q14

+    vpadal.s16      q8, q7

+    vmlal.s16       q9, d14, d14

+    vmlal.s16       q10, d15, d15

+    bne             sub_pixel_variance8x8_neon_loop

+    vadd.u32        q10, q9, q10                ;accumulate sse

+    vpaddl.s32      q0, q8                      ;accumulate sum

+    vpaddl.u32      q1, q10

+    vadd.s64        d0, d0, d1

+    vadd.u64        d1, d2, d3

+    vmull.s32       q5, d0, d0

+    vst1.32         {d1[0]}, [lr]               ;store sse

+    vshr.u32        d10, d10, #6

+    vsub.u32        d0, d1, d10

+    vmov.32         r0, d0[0]                   ;return

+    pop             {r4-r5, pc}

+    ENDP

+;-----------------

+_BilinearTaps_coeff_

+    DCD     bilinear_taps_coeff

+bilinear_taps_coeff

+    DCD     128, 0, 112, 16, 96, 32, 80, 48, 64, 64, 48, 80, 32, 96, 16, 112

+    END

--- /dev/null

+++ b/vp8/common/arm/variance_arm.c

@@ -1,0 +1,121 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "vpx_config.h"

+#include "vpx_rtcd.h"

+#include "vp8/common/variance.h"

+#include "vp8/common/filter.h"

+#if HAVE_MEDIA

+#include "vp8/common/arm/bilinearfilter_arm.h"

+unsigned int vp8_sub_pixel_variance8x8_armv6

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    unsigned short first_pass[10*8];

+    unsigned char  second_pass[8*8];

+    const short *HFilter, *VFilter;

+    HFilter = vp8_bilinear_filters[xoffset];

+    VFilter = vp8_bilinear_filters[yoffset];

+    vp8_filter_block2d_bil_first_pass_armv6(src_ptr, first_pass,

+                                            src_pixels_per_line,

+                                            9, 8, HFilter);

+    vp8_filter_block2d_bil_second_pass_armv6(first_pass, second_pass,

+                                             8, 8, 8, VFilter);

+    return vp8_variance8x8_armv6(second_pass, 8, dst_ptr,

+                                   dst_pixels_per_line, sse);

+}

+unsigned int vp8_sub_pixel_variance16x16_armv6

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    unsigned short first_pass[36*16];

+    unsigned char  second_pass[20*16];

+    const short *HFilter, *VFilter;

+    unsigned int var;

+    if (xoffset == 4 && yoffset == 0)

+    {

+        var = vp8_variance_halfpixvar16x16_h_armv6(src_ptr, src_pixels_per_line,

+                                                   dst_ptr, dst_pixels_per_line, sse);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        var = vp8_variance_halfpixvar16x16_v_armv6(src_ptr, src_pixels_per_line,

+                                                   dst_ptr, dst_pixels_per_line, sse);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        var = vp8_variance_halfpixvar16x16_hv_armv6(src_ptr, src_pixels_per_line,

+                                                   dst_ptr, dst_pixels_per_line, sse);

+    }

+    else

+    {

+        HFilter = vp8_bilinear_filters[xoffset];

+        VFilter = vp8_bilinear_filters[yoffset];

+        vp8_filter_block2d_bil_first_pass_armv6(src_ptr, first_pass,

+                                                src_pixels_per_line,

+                                                17, 16, HFilter);

+        vp8_filter_block2d_bil_second_pass_armv6(first_pass, second_pass,

+                                                 16, 16, 16, VFilter);

+        var = vp8_variance16x16_armv6(second_pass, 16, dst_ptr,

+                                       dst_pixels_per_line, sse);

+    }

+    return var;

+}

+#endif /* HAVE_MEDIA */

+#if HAVE_NEON

+unsigned int vp8_sub_pixel_variance16x16_neon

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+  if (xoffset == 4 && yoffset == 0)

+    return vp8_variance_halfpixvar16x16_h_neon(src_ptr, src_pixels_per_line, dst_ptr, dst_pixels_per_line, sse);

+  else if (xoffset == 0 && yoffset == 4)

+    return vp8_variance_halfpixvar16x16_v_neon(src_ptr, src_pixels_per_line, dst_ptr, dst_pixels_per_line, sse);

+  else if (xoffset == 4 && yoffset == 4)

+    return vp8_variance_halfpixvar16x16_hv_neon(src_ptr, src_pixels_per_line, dst_ptr, dst_pixels_per_line, sse);

+  else

+    return vp8_sub_pixel_variance16x16_neon_func(src_ptr, src_pixels_per_line, xoffset, yoffset, dst_ptr, dst_pixels_per_line, sse);

+}

+#endif

--- a/vp8/common/postproc.c

+++ b/vp8/common/postproc.c

@@ -17,7 +17,7 @@

 #include "vpx_scale/yv12extend.h"

 #include "vpx_scale/vpxscale.h"

 #include "systemdependent.h"

-#include "../encoder/variance.h"

+#include "variance.h"

 #include <limits.h>

 #include <math.h>

--- /dev/null

+++ b/vp8/common/ppc/sad_altivec.asm

@@ -1,0 +1,277 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    .globl vp8_sad16x16_ppc

+    .globl vp8_sad16x8_ppc

+    .globl vp8_sad8x16_ppc

+    .globl vp8_sad8x8_ppc

+    .globl vp8_sad4x4_ppc

+.macro load_aligned_16 V R O

+    lvsl    v3,  0, \R          ;# permutate value for alignment

+    lvx     v1,  0, \R

+    lvx     v2, \O, \R

+    vperm   \V, v1, v2, v3

+.endm

+.macro prologue

+    mfspr   r11, 256            ;# get old VRSAVE

+    oris    r12, r11, 0xffc0

+    mtspr   256, r12            ;# set VRSAVE

+    stwu    r1, -32(r1)         ;# create space on the stack

+    li      r10, 16             ;# load offset and loop counter

+    vspltisw v8, 0              ;# zero out total to start

+.endm

+.macro epilogue

+    addi    r1, r1, 32          ;# recover stack

+    mtspr   256, r11            ;# reset old VRSAVE

+.endm

+.macro SAD_16

+    ;# v6 = abs (v4 - v5)

+    vsububs v6, v4, v5

+    vsububs v7, v5, v4

+    vor     v6, v6, v7

+    ;# v8 += abs (v4 - v5)

+    vsum4ubs v8, v6, v8

+.endm

+.macro sad_16_loop loop_label

+    lvsl    v3,  0, r5          ;# only needs to be done once per block

+    ;# preload a line of data before getting into the loop

+    lvx     v4, 0, r3

+    lvx     v1,  0, r5

+    lvx     v2, r10, r5

+    add     r5, r5, r6

+    add     r3, r3, r4

+    vperm   v5, v1, v2, v3

+    .align 4

+\loop_label:

+    ;# compute difference on first row

+    vsububs v6, v4, v5

+    vsububs v7, v5, v4

+    ;# load up next set of data

+    lvx     v9, 0, r3

+    lvx     v1,  0, r5

+    lvx     v2, r10, r5

+    ;# perform abs() of difference

+    vor     v6, v6, v7

+    add     r3, r3, r4

+    ;# add to the running tally

+    vsum4ubs v8, v6, v8

+    ;# now onto the next line

+    vperm   v5, v1, v2, v3

+    add     r5, r5, r6

+    lvx     v4, 0, r3

+    ;# compute difference on second row

+    vsububs v6, v9, v5

+    lvx     v1,  0, r5

+    vsububs v7, v5, v9

+    lvx     v2, r10, r5

+    vor     v6, v6, v7

+    add     r3, r3, r4

+    vsum4ubs v8, v6, v8

+    vperm   v5, v1, v2, v3

+    add     r5, r5, r6

+    bdnz    \loop_label

+    vspltisw v7, 0

+    vsumsws v8, v8, v7

+    stvx    v8, 0, r1

+    lwz     r3, 12(r1)

+.endm

+.macro sad_8_loop loop_label

+    .align 4

+\loop_label:

+    ;# only one of the inputs should need to be aligned.

+    load_aligned_16 v4, r3, r10

+    load_aligned_16 v5, r5, r10

+    ;# move onto the next line

+    add     r3, r3, r4

+    add     r5, r5, r6

+    ;# only one of the inputs should need to be aligned.

+    load_aligned_16 v6, r3, r10

+    load_aligned_16 v7, r5, r10

+    ;# move onto the next line

+    add     r3, r3, r4

+    add     r5, r5, r6

+    vmrghb  v4, v4, v6

+    vmrghb  v5, v5, v7

+    SAD_16

+    bdnz    \loop_label

+    vspltisw v7, 0

+    vsumsws v8, v8, v7

+    stvx    v8, 0, r1

+    lwz     r3, 12(r1)

+.endm

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  src_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  ref_stride

+;#

+;# r3 return value

+vp8_sad16x16_ppc:

+    prologue

+    li      r9, 8

+    mtctr   r9

+    sad_16_loop sad16x16_loop

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  src_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  ref_stride

+;#

+;# r3 return value

+vp8_sad16x8_ppc:

+    prologue

+    li      r9, 4

+    mtctr   r9

+    sad_16_loop sad16x8_loop

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  src_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  ref_stride

+;#

+;# r3 return value

+vp8_sad8x16_ppc:

+    prologue

+    li      r9, 8

+    mtctr   r9

+    sad_8_loop sad8x16_loop

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  src_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  ref_stride

+;#

+;# r3 return value

+vp8_sad8x8_ppc:

+    prologue

+    li      r9, 4

+    mtctr   r9

+    sad_8_loop sad8x8_loop

+    epilogue

+    blr

+.macro transfer_4x4 I P

+    lwz     r0, 0(\I)

+    add     \I, \I, \P

+    lwz     r7, 0(\I)

+    add     \I, \I, \P

+    lwz     r8, 0(\I)

+    add     \I, \I, \P

+    lwz     r9, 0(\I)

+    stw     r0,  0(r1)

+    stw     r7,  4(r1)

+    stw     r8,  8(r1)

+    stw     r9, 12(r1)

+.endm

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  src_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  ref_stride

+;#

+;# r3 return value

+vp8_sad4x4_ppc:

+    prologue

+    transfer_4x4 r3, r4

+    lvx     v4, 0, r1

+    transfer_4x4 r5, r6

+    lvx     v5, 0, r1

+    vspltisw v8, 0              ;# zero out total to start

+    ;# v6 = abs (v4 - v5)

+    vsububs v6, v4, v5

+    vsububs v7, v5, v4

+    vor     v6, v6, v7

+    ;# v8 += abs (v4 - v5)

+    vsum4ubs v7, v6, v8

+    vsumsws v7, v7, v8

+    stvx    v7, 0, r1

+    lwz     r3, 12(r1)

+    epilogue

+    blr

--- /dev/null

+++ b/vp8/common/ppc/variance_altivec.asm

@@ -1,0 +1,375 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    .globl vp8_get8x8var_ppc

+    .globl vp8_get16x16var_ppc

+    .globl vp8_mse16x16_ppc

+    .globl vp8_variance16x16_ppc

+    .globl vp8_variance16x8_ppc

+    .globl vp8_variance8x16_ppc

+    .globl vp8_variance8x8_ppc

+    .globl vp8_variance4x4_ppc

+.macro load_aligned_16 V R O

+    lvsl    v3,  0, \R          ;# permutate value for alignment

+    lvx     v1,  0, \R

+    lvx     v2, \O, \R

+    vperm   \V, v1, v2, v3

+.endm

+.macro prologue

+    mfspr   r11, 256            ;# get old VRSAVE

+    oris    r12, r11, 0xffc0

+    mtspr   256, r12            ;# set VRSAVE

+    stwu    r1, -32(r1)         ;# create space on the stack

+    li      r10, 16             ;# load offset and loop counter

+    vspltisw v7, 0              ;# zero for merging

+    vspltisw v8, 0              ;# zero out total to start

+    vspltisw v9, 0              ;# zero out total for dif^2

+.endm

+.macro epilogue

+    addi    r1, r1, 32          ;# recover stack

+    mtspr   256, r11            ;# reset old VRSAVE

+.endm

+.macro compute_sum_sse

+    ;# Compute sum first.  Unpack to so signed subract

+    ;#  can be used.  Only have a half word signed

+    ;#  subract.  Do high, then low.

+    vmrghb  v2, v7, v4

+    vmrghb  v3, v7, v5

+    vsubshs v2, v2, v3

+    vsum4shs v8, v2, v8

+    vmrglb  v2, v7, v4

+    vmrglb  v3, v7, v5

+    vsubshs v2, v2, v3

+    vsum4shs v8, v2, v8

+    ;# Now compute sse.

+    vsububs v2, v4, v5

+    vsububs v3, v5, v4

+    vor     v2, v2, v3

+    vmsumubm v9, v2, v2, v9

+.endm

+.macro variance_16 DS loop_label store_sum

+\loop_label:

+    ;# only one of the inputs should need to be aligned.

+    load_aligned_16 v4, r3, r10

+    load_aligned_16 v5, r5, r10

+    ;# move onto the next line

+    add     r3, r3, r4

+    add     r5, r5, r6

+    compute_sum_sse

+    bdnz    \loop_label

+    vsumsws v8, v8, v7

+    vsumsws v9, v9, v7

+    stvx    v8, 0, r1

+    lwz     r3, 12(r1)

+    stvx    v9, 0, r1

+    lwz     r4, 12(r1)

+.if \store_sum

+    stw     r3, 0(r8)           ;# sum

+.endif

+    stw     r4, 0(r7)           ;# sse

+    mullw   r3, r3, r3          ;# sum*sum

+    srlwi   r3, r3, \DS         ;# (sum*sum) >> DS

+    subf    r3, r3, r4          ;# sse - ((sum*sum) >> DS)

+.endm

+.macro variance_8 DS loop_label store_sum

+\loop_label:

+    ;# only one of the inputs should need to be aligned.

+    load_aligned_16 v4, r3, r10

+    load_aligned_16 v5, r5, r10

+    ;# move onto the next line

+    add     r3, r3, r4

+    add     r5, r5, r6

+    ;# only one of the inputs should need to be aligned.

+    load_aligned_16 v6, r3, r10

+    load_aligned_16 v0, r5, r10

+    ;# move onto the next line

+    add     r3, r3, r4

+    add     r5, r5, r6

+    vmrghb  v4, v4, v6

+    vmrghb  v5, v5, v0

+    compute_sum_sse

+    bdnz    \loop_label

+    vsumsws v8, v8, v7

+    vsumsws v9, v9, v7

+    stvx    v8, 0, r1

+    lwz     r3, 12(r1)

+    stvx    v9, 0, r1

+    lwz     r4, 12(r1)

+.if \store_sum

+    stw     r3, 0(r8)           ;# sum

+.endif

+    stw     r4, 0(r7)           ;# sse

+    mullw   r3, r3, r3          ;# sum*sum

+    srlwi   r3, r3, \DS         ;# (sum*sum) >> 8

+    subf    r3, r3, r4          ;# sse - ((sum*sum) >> 8)

+.endm

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  source_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  recon_stride

+;# r7 unsigned int *SSE

+;# r8 int *Sum

+;#

+;# r3 return value

+vp8_get8x8var_ppc:

+    prologue

+    li      r9, 4

+    mtctr   r9

+    variance_8 6, get8x8var_loop, 1

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  source_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  recon_stride

+;# r7 unsigned int *SSE

+;# r8 int *Sum

+;#

+;# r3 return value

+vp8_get16x16var_ppc:

+    prologue

+    mtctr   r10

+    variance_16 8, get16x16var_loop, 1

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  source_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  recon_stride

+;# r7 unsigned int *sse

+;#

+;# r 3 return value

+vp8_mse16x16_ppc:

+    prologue

+    mtctr   r10

+mse16x16_loop:

+    ;# only one of the inputs should need to be aligned.

+    load_aligned_16 v4, r3, r10

+    load_aligned_16 v5, r5, r10

+    ;# move onto the next line

+    add     r3, r3, r4

+    add     r5, r5, r6

+    ;# Now compute sse.

+    vsububs v2, v4, v5

+    vsububs v3, v5, v4

+    vor     v2, v2, v3

+    vmsumubm v9, v2, v2, v9

+    bdnz    mse16x16_loop

+    vsumsws v9, v9, v7

+    stvx    v9, 0, r1

+    lwz     r3, 12(r1)

+    stvx    v9, 0, r1

+    lwz     r3, 12(r1)

+    stw     r3, 0(r7)           ;# sse

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  source_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  recon_stride

+;# r7 unsigned int *sse

+;#

+;# r3 return value

+vp8_variance16x16_ppc:

+    prologue

+    mtctr   r10

+    variance_16 8, variance16x16_loop, 0

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  source_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  recon_stride

+;# r7 unsigned int *sse

+;#

+;# r3 return value

+vp8_variance16x8_ppc:

+    prologue

+    li      r9, 8

+    mtctr   r9

+    variance_16 7, variance16x8_loop, 0

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  source_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  recon_stride

+;# r7 unsigned int *sse

+;#

+;# r3 return value

+vp8_variance8x16_ppc:

+    prologue

+    li      r9, 8

+    mtctr   r9

+    variance_8 7, variance8x16_loop, 0

+    epilogue

+    blr

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  source_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  recon_stride

+;# r7 unsigned int *sse

+;#

+;# r3 return value

+vp8_variance8x8_ppc:

+    prologue

+    li      r9, 4

+    mtctr   r9

+    variance_8 6, variance8x8_loop, 0

+    epilogue

+    blr

+.macro transfer_4x4 I P

+    lwz     r0, 0(\I)

+    add     \I, \I, \P

+    lwz     r10,0(\I)

+    add     \I, \I, \P

+    lwz     r8, 0(\I)

+    add     \I, \I, \P

+    lwz     r9, 0(\I)

+    stw     r0,  0(r1)

+    stw     r10, 4(r1)

+    stw     r8,  8(r1)

+    stw     r9, 12(r1)

+.endm

+    .align 2

+;# r3 unsigned char *src_ptr

+;# r4 int  source_stride

+;# r5 unsigned char *ref_ptr

+;# r6 int  recon_stride

+;# r7 unsigned int *sse

+;#

+;# r3 return value

+vp8_variance4x4_ppc:

+    prologue

+    transfer_4x4 r3, r4

+    lvx     v4, 0, r1

+    transfer_4x4 r5, r6

+    lvx     v5, 0, r1

+    compute_sum_sse

+    vsumsws v8, v8, v7

+    vsumsws v9, v9, v7

+    stvx    v8, 0, r1

+    lwz     r3, 12(r1)

+    stvx    v9, 0, r1

+    lwz     r4, 12(r1)

+    stw     r4, 0(r7)           ;# sse

+    mullw   r3, r3, r3          ;# sum*sum

+    srlwi   r3, r3, 4           ;# (sum*sum) >> 4

+    subf    r3, r3, r4          ;# sse - ((sum*sum) >> 4)

+    epilogue

+    blr

--- /dev/null

+++ b/vp8/common/ppc/variance_subpixel_altivec.asm

@@ -1,0 +1,865 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    .globl vp8_sub_pixel_variance4x4_ppc

+    .globl vp8_sub_pixel_variance8x8_ppc

+    .globl vp8_sub_pixel_variance8x16_ppc

+    .globl vp8_sub_pixel_variance16x8_ppc

+    .globl vp8_sub_pixel_variance16x16_ppc

+.macro load_c V, LABEL, OFF, R0, R1

+    lis     \R0, \LABEL@ha

+    la      \R1, \LABEL@l(\R0)

+    lvx     \V, \OFF, \R1

+.endm

+.macro load_vfilter V0, V1

+    load_c \V0, vfilter_b, r6, r12, r10

+    addi    r6,  r6, 16

+    lvx     \V1, r6, r10

+.endm

+.macro HProlog jump_label

+    ;# load up horizontal filter

+    slwi.   r5, r5, 4           ;# index into horizontal filter array

+    ;# index to the next set of vectors in the row.

+    li      r10, 16

+    ;# downshift by 7 ( divide by 128 ) at the end

+    vspltish v19, 7

+    ;# If there isn't any filtering to be done for the horizontal, then

+    ;#  just skip to the second pass.

+    beq     \jump_label

+    load_c v20, hfilter_b, r5, r12, r0

+    ;# setup constants

+    ;# v14 permutation value for alignment

+    load_c v28, b_hperm_b, 0, r12, r0

+    ;# index to the next set of vectors in the row.

+    li      r12, 32

+    ;# rounding added in on the multiply

+    vspltisw v21, 8

+    vspltisw v18, 3

+    vslw    v18, v21, v18       ;# 0x00000040000000400000004000000040

+    slwi.   r6, r6, 5           ;# index into vertical filter array

+.endm

+;# Filters a horizontal line

+;# expects:

+;#  r3  src_ptr

+;#  r4  pitch

+;#  r10 16

+;#  r12 32

+;#  v17 perm intput

+;#  v18 rounding

+;#  v19 shift

+;#  v20 filter taps

+;#  v21 tmp

+;#  v22 tmp

+;#  v23 tmp

+;#  v24 tmp

+;#  v25 tmp

+;#  v26 tmp

+;#  v27 tmp

+;#  v28 perm output

+;#

+.macro hfilter_8 V, hp, lp, increment_counter

+    lvsl    v17,  0, r3         ;# permutate value for alignment

+    ;# input to filter is 9 bytes wide, output is 8 bytes.

+    lvx     v21,   0, r3

+    lvx     v22, r10, r3

+.if \increment_counter

+    add     r3, r3, r4

+.endif

+    vperm   v21, v21, v22, v17

+    vperm   v24, v21, v21, \hp  ;# v20 = 0123 1234 2345 3456

+    vperm   v25, v21, v21, \lp  ;# v21 = 4567 5678 6789 789A

+    vmsummbm v24, v20, v24, v18

+    vmsummbm v25, v20, v25, v18

+    vpkswus v24, v24, v25       ;# v24 = 0 4 8 C 1 5 9 D (16-bit)

+    vsrh    v24, v24, v19       ;# divide v0, v1 by 128

+    vpkuhus \V, v24, v24        ;# \V = scrambled 8-bit result

+.endm

+.macro vfilter_16 P0 P1

+    vmuleub v22, \P0, v20       ;# 64 + 4 positive taps

+    vadduhm v22, v18, v22

+    vmuloub v23, \P0, v20

+    vadduhm v23, v18, v23

+    vmuleub v24, \P1, v21

+    vadduhm v22, v22, v24       ;# Re = evens, saturation unnecessary

+    vmuloub v25, \P1, v21

+    vadduhm v23, v23, v25       ;# Ro = odds

+    vsrh    v22, v22, v19       ;# divide by 128

+    vsrh    v23, v23, v19       ;# v16 v17 = evens, odds

+    vmrghh  \P0, v22, v23       ;# v18 v19 = 16-bit result in order

+    vmrglh  v23, v22, v23

+    vpkuhus \P0, \P0, v23       ;# P0 = 8-bit result

+.endm

+.macro compute_sum_sse src, ref, sum, sse, t1, t2, z0

+    ;# Compute sum first.  Unpack to so signed subract

+    ;#  can be used.  Only have a half word signed

+    ;#  subract.  Do high, then low.

+    vmrghb  \t1, \z0, \src

+    vmrghb  \t2, \z0, \ref

+    vsubshs \t1, \t1, \t2

+    vsum4shs \sum, \t1, \sum

+    vmrglb  \t1, \z0, \src

+    vmrglb  \t2, \z0, \ref

+    vsubshs \t1, \t1, \t2

+    vsum4shs \sum, \t1, \sum

+    ;# Now compute sse.

+    vsububs \t1, \src, \ref

+    vsububs \t2, \ref, \src

+    vor     \t1, \t1, \t2

+    vmsumubm \sse, \t1, \t1, \sse

+.endm

+.macro variance_final sum, sse, z0, DS

+    vsumsws \sum, \sum, \z0

+    vsumsws \sse, \sse, \z0

+    stvx    \sum, 0, r1

+    lwz     r3, 12(r1)

+    stvx    \sse, 0, r1

+    lwz     r4, 12(r1)

+    stw     r4, 0(r9)           ;# sse

+    mullw   r3, r3, r3          ;# sum*sum

+    srlwi   r3, r3, \DS         ;# (sum*sum) >> 8

+    subf    r3, r3, r4          ;# sse - ((sum*sum) >> 8)

+.endm

+.macro compute_sum_sse_16 V, increment_counter

+    load_and_align_16  v16, r7, r8, \increment_counter

+    compute_sum_sse \V, v16, v18, v19, v20, v21, v23

+.endm

+.macro load_and_align_16 V, R, P, increment_counter

+    lvsl    v17,  0, \R         ;# permutate value for alignment

+    ;# input to filter is 21 bytes wide, output is 16 bytes.

+    ;#  input will can span three vectors if not aligned correctly.

+    lvx     v21,   0, \R

+    lvx     v22, r10, \R

+.if \increment_counter

+    add     \R, \R, \P

+.endif

+    vperm   \V, v21, v22, v17

+.endm

+    .align 2

+;# r3 unsigned char  *src_ptr

+;# r4 int  src_pixels_per_line

+;# r5 int  xoffset

+;# r6 int  yoffset

+;# r7 unsigned char *dst_ptr

+;# r8 int dst_pixels_per_line

+;# r9 unsigned int *sse

+;#

+;# r3 return value

+vp8_sub_pixel_variance4x4_ppc:

+    mfspr   r11, 256            ;# get old VRSAVE

+    oris    r12, r11, 0xf830

+    ori     r12, r12, 0xfff8

+    mtspr   256, r12            ;# set VRSAVE

+    stwu    r1,-32(r1)          ;# create space on the stack

+    HProlog second_pass_4x4_pre_copy_b

+    ;# Load up permutation constants

+    load_c v10, b_0123_b, 0, r12, r0

+    load_c v11, b_4567_b, 0, r12, r0

+    hfilter_8 v0, v10, v11, 1

+    hfilter_8 v1, v10, v11, 1

+    hfilter_8 v2, v10, v11, 1

+    hfilter_8 v3, v10, v11, 1

+    ;# Finished filtering main horizontal block.  If there is no

+    ;#  vertical filtering, jump to storing the data.  Otherwise

+    ;#  load up and filter the additional line that is needed

+    ;#  for the vertical filter.

+    beq     compute_sum_sse_4x4_b

+    hfilter_8 v4, v10, v11, 0

+    b   second_pass_4x4_b

+second_pass_4x4_pre_copy_b:

+    slwi    r6, r6, 5           ;# index into vertical filter array

+    load_and_align_16 v0, r3, r4, 1

+    load_and_align_16 v1, r3, r4, 1

+    load_and_align_16 v2, r3, r4, 1

+    load_and_align_16 v3, r3, r4, 1

+    load_and_align_16 v4, r3, r4, 0

+second_pass_4x4_b:

+    vspltish v20, 8

+    vspltish v18, 3

+    vslh    v18, v20, v18       ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

+    load_vfilter v20, v21

+    vfilter_16 v0,  v1

+    vfilter_16 v1,  v2

+    vfilter_16 v2,  v3

+    vfilter_16 v3,  v4

+compute_sum_sse_4x4_b:

+    vspltish v18, 0             ;# sum

+    vspltish v19, 0             ;# sse

+    vspltish v23, 0             ;# unpack

+    li      r10, 16

+    load_and_align_16 v4, r7, r8, 1

+    load_and_align_16 v5, r7, r8, 1

+    load_and_align_16 v6, r7, r8, 1

+    load_and_align_16 v7, r7, r8, 1

+    vmrghb  v0, v0, v1

+    vmrghb  v1, v2, v3

+    vmrghb  v2, v4, v5

+    vmrghb  v3, v6, v7

+    load_c v10, b_hilo_b, 0, r12, r0

+    vperm   v0, v0, v1, v10

+    vperm   v1, v2, v3, v10

+    compute_sum_sse v0, v1, v18, v19, v20, v21, v23

+    variance_final v18, v19, v23, 4

+    addi    r1, r1, 32          ;# recover stack

+    mtspr   256, r11            ;# reset old VRSAVE

+    blr

+    .align 2

+;# r3 unsigned char  *src_ptr

+;# r4 int  src_pixels_per_line

+;# r5 int  xoffset

+;# r6 int  yoffset

+;# r7 unsigned char *dst_ptr

+;# r8 int dst_pixels_per_line

+;# r9 unsigned int *sse

+;#

+;# r3 return value

+vp8_sub_pixel_variance8x8_ppc:

+    mfspr   r11, 256            ;# get old VRSAVE

+    oris    r12, r11, 0xfff0

+    ori     r12, r12, 0xffff

+    mtspr   256, r12            ;# set VRSAVE

+    stwu    r1,-32(r1)          ;# create space on the stack

+    HProlog second_pass_8x8_pre_copy_b

+    ;# Load up permutation constants

+    load_c v10, b_0123_b, 0, r12, r0

+    load_c v11, b_4567_b, 0, r12, r0

+    hfilter_8 v0, v10, v11, 1

+    hfilter_8 v1, v10, v11, 1

+    hfilter_8 v2, v10, v11, 1

+    hfilter_8 v3, v10, v11, 1

+    hfilter_8 v4, v10, v11, 1

+    hfilter_8 v5, v10, v11, 1

+    hfilter_8 v6, v10, v11, 1

+    hfilter_8 v7, v10, v11, 1

+    ;# Finished filtering main horizontal block.  If there is no

+    ;#  vertical filtering, jump to storing the data.  Otherwise

+    ;#  load up and filter the additional line that is needed

+    ;#  for the vertical filter.

+    beq     compute_sum_sse_8x8_b

+    hfilter_8 v8, v10, v11, 0

+    b   second_pass_8x8_b

+second_pass_8x8_pre_copy_b:

+    slwi.   r6, r6, 5           ;# index into vertical filter array

+    load_and_align_16 v0, r3, r4, 1

+    load_and_align_16 v1, r3, r4, 1

+    load_and_align_16 v2, r3, r4, 1

+    load_and_align_16 v3, r3, r4, 1

+    load_and_align_16 v4, r3, r4, 1

+    load_and_align_16 v5, r3, r4, 1

+    load_and_align_16 v6, r3, r4, 1

+    load_and_align_16 v7, r3, r4, 1

+    load_and_align_16 v8, r3, r4, 0

+    beq     compute_sum_sse_8x8_b

+second_pass_8x8_b:

+    vspltish v20, 8

+    vspltish v18, 3

+    vslh    v18, v20, v18   ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

+    load_vfilter v20, v21

+    vfilter_16 v0, v1

+    vfilter_16 v1, v2

+    vfilter_16 v2, v3

+    vfilter_16 v3, v4

+    vfilter_16 v4, v5

+    vfilter_16 v5, v6

+    vfilter_16 v6, v7

+    vfilter_16 v7, v8

+compute_sum_sse_8x8_b:

+    vspltish v18, 0             ;# sum

+    vspltish v19, 0             ;# sse

+    vspltish v23, 0             ;# unpack

+    li      r10, 16

+    vmrghb  v0, v0, v1

+    vmrghb  v1, v2, v3

+    vmrghb  v2, v4, v5

+    vmrghb  v3, v6, v7

+    load_and_align_16 v4,  r7, r8, 1

+    load_and_align_16 v5,  r7, r8, 1

+    load_and_align_16 v6,  r7, r8, 1

+    load_and_align_16 v7,  r7, r8, 1

+    load_and_align_16 v8,  r7, r8, 1

+    load_and_align_16 v9,  r7, r8, 1

+    load_and_align_16 v10, r7, r8, 1

+    load_and_align_16 v11, r7, r8, 0

+    vmrghb  v4, v4,  v5

+    vmrghb  v5, v6,  v7

+    vmrghb  v6, v8,  v9

+    vmrghb  v7, v10, v11

+    compute_sum_sse v0, v4, v18, v19, v20, v21, v23

+    compute_sum_sse v1, v5, v18, v19, v20, v21, v23

+    compute_sum_sse v2, v6, v18, v19, v20, v21, v23

+    compute_sum_sse v3, v7, v18, v19, v20, v21, v23

+    variance_final v18, v19, v23, 6

+    addi    r1, r1, 32          ;# recover stack

+    mtspr   256, r11            ;# reset old VRSAVE

+    blr

+    .align 2

+;# r3 unsigned char  *src_ptr

+;# r4 int  src_pixels_per_line

+;# r5 int  xoffset

+;# r6 int  yoffset

+;# r7 unsigned char *dst_ptr

+;# r8 int dst_pixels_per_line

+;# r9 unsigned int *sse

+;#

+;# r3 return value

+vp8_sub_pixel_variance8x16_ppc:

+    mfspr   r11, 256            ;# get old VRSAVE

+    oris    r12, r11, 0xffff

+    ori     r12, r12, 0xfffc

+    mtspr   256, r12            ;# set VRSAVE

+    stwu    r1,-32(r1)          ;# create space on the stack

+    HProlog second_pass_8x16_pre_copy_b

+    ;# Load up permutation constants

+    load_c v29, b_0123_b, 0, r12, r0

+    load_c v30, b_4567_b, 0, r12, r0

+    hfilter_8 v0,  v29, v30, 1

+    hfilter_8 v1,  v29, v30, 1

+    hfilter_8 v2,  v29, v30, 1

+    hfilter_8 v3,  v29, v30, 1

+    hfilter_8 v4,  v29, v30, 1

+    hfilter_8 v5,  v29, v30, 1

+    hfilter_8 v6,  v29, v30, 1

+    hfilter_8 v7,  v29, v30, 1

+    hfilter_8 v8,  v29, v30, 1

+    hfilter_8 v9,  v29, v30, 1

+    hfilter_8 v10, v29, v30, 1

+    hfilter_8 v11, v29, v30, 1

+    hfilter_8 v12, v29, v30, 1

+    hfilter_8 v13, v29, v30, 1

+    hfilter_8 v14, v29, v30, 1

+    hfilter_8 v15, v29, v30, 1

+    ;# Finished filtering main horizontal block.  If there is no

+    ;#  vertical filtering, jump to storing the data.  Otherwise

+    ;#  load up and filter the additional line that is needed

+    ;#  for the vertical filter.

+    beq     compute_sum_sse_8x16_b

+    hfilter_8 v16, v29, v30, 0

+    b   second_pass_8x16_b

+second_pass_8x16_pre_copy_b:

+    slwi.   r6, r6, 5           ;# index into vertical filter array

+    load_and_align_16 v0,  r3, r4, 1

+    load_and_align_16 v1,  r3, r4, 1

+    load_and_align_16 v2,  r3, r4, 1

+    load_and_align_16 v3,  r3, r4, 1

+    load_and_align_16 v4,  r3, r4, 1

+    load_and_align_16 v5,  r3, r4, 1

+    load_and_align_16 v6,  r3, r4, 1

+    load_and_align_16 v7,  r3, r4, 1

+    load_and_align_16 v8,  r3, r4, 1

+    load_and_align_16 v9,  r3, r4, 1

+    load_and_align_16 v10, r3, r4, 1

+    load_and_align_16 v11, r3, r4, 1

+    load_and_align_16 v12, r3, r4, 1

+    load_and_align_16 v13, r3, r4, 1

+    load_and_align_16 v14, r3, r4, 1

+    load_and_align_16 v15, r3, r4, 1

+    load_and_align_16 v16, r3, r4, 0

+    beq     compute_sum_sse_8x16_b

+second_pass_8x16_b:

+    vspltish v20, 8

+    vspltish v18, 3

+    vslh    v18, v20, v18   ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

+    load_vfilter v20, v21

+    vfilter_16 v0,  v1

+    vfilter_16 v1,  v2

+    vfilter_16 v2,  v3

+    vfilter_16 v3,  v4

+    vfilter_16 v4,  v5

+    vfilter_16 v5,  v6

+    vfilter_16 v6,  v7

+    vfilter_16 v7,  v8

+    vfilter_16 v8,  v9

+    vfilter_16 v9,  v10

+    vfilter_16 v10, v11

+    vfilter_16 v11, v12

+    vfilter_16 v12, v13

+    vfilter_16 v13, v14

+    vfilter_16 v14, v15

+    vfilter_16 v15, v16

+compute_sum_sse_8x16_b:

+    vspltish v18, 0             ;# sum

+    vspltish v19, 0             ;# sse

+    vspltish v23, 0             ;# unpack

+    li      r10, 16

+    vmrghb  v0, v0,  v1

+    vmrghb  v1, v2,  v3

+    vmrghb  v2, v4,  v5

+    vmrghb  v3, v6,  v7

+    vmrghb  v4, v8,  v9

+    vmrghb  v5, v10, v11

+    vmrghb  v6, v12, v13

+    vmrghb  v7, v14, v15

+    load_and_align_16 v8,  r7, r8, 1

+    load_and_align_16 v9,  r7, r8, 1

+    load_and_align_16 v10, r7, r8, 1

+    load_and_align_16 v11, r7, r8, 1

+    load_and_align_16 v12, r7, r8, 1

+    load_and_align_16 v13, r7, r8, 1

+    load_and_align_16 v14, r7, r8, 1

+    load_and_align_16 v15, r7, r8, 1

+    vmrghb  v8,  v8,  v9

+    vmrghb  v9,  v10, v11

+    vmrghb  v10, v12, v13

+    vmrghb  v11, v14, v15

+    compute_sum_sse v0, v8,  v18, v19, v20, v21, v23

+    compute_sum_sse v1, v9,  v18, v19, v20, v21, v23

+    compute_sum_sse v2, v10, v18, v19, v20, v21, v23

+    compute_sum_sse v3, v11, v18, v19, v20, v21, v23

+    load_and_align_16 v8,  r7, r8, 1

+    load_and_align_16 v9,  r7, r8, 1

+    load_and_align_16 v10, r7, r8, 1

+    load_and_align_16 v11, r7, r8, 1

+    load_and_align_16 v12, r7, r8, 1

+    load_and_align_16 v13, r7, r8, 1

+    load_and_align_16 v14, r7, r8, 1

+    load_and_align_16 v15, r7, r8, 0

+    vmrghb  v8,  v8,  v9

+    vmrghb  v9,  v10, v11

+    vmrghb  v10, v12, v13

+    vmrghb  v11, v14, v15

+    compute_sum_sse v4, v8,  v18, v19, v20, v21, v23

+    compute_sum_sse v5, v9,  v18, v19, v20, v21, v23

+    compute_sum_sse v6, v10, v18, v19, v20, v21, v23

+    compute_sum_sse v7, v11, v18, v19, v20, v21, v23

+    variance_final v18, v19, v23, 7

+    addi    r1, r1, 32          ;# recover stack

+    mtspr   256, r11            ;# reset old VRSAVE

+    blr

+;# Filters a horizontal line

+;# expects:

+;#  r3  src_ptr

+;#  r4  pitch

+;#  r10 16

+;#  r12 32

+;#  v17 perm intput

+;#  v18 rounding

+;#  v19 shift

+;#  v20 filter taps

+;#  v21 tmp

+;#  v22 tmp

+;#  v23 tmp

+;#  v24 tmp

+;#  v25 tmp

+;#  v26 tmp

+;#  v27 tmp

+;#  v28 perm output

+;#

+.macro hfilter_16 V, increment_counter

+    lvsl    v17,  0, r3         ;# permutate value for alignment

+    ;# input to filter is 21 bytes wide, output is 16 bytes.

+    ;#  input will can span three vectors if not aligned correctly.

+    lvx     v21,   0, r3

+    lvx     v22, r10, r3

+    lvx     v23, r12, r3

+.if \increment_counter

+    add     r3, r3, r4

+.endif

+    vperm   v21, v21, v22, v17

+    vperm   v22, v22, v23, v17  ;# v8 v9 = 21 input pixels left-justified

+    ;# set 0

+    vmsummbm v24, v20, v21, v18 ;# taps times elements

+    ;# set 1

+    vsldoi  v23, v21, v22, 1

+    vmsummbm v25, v20, v23, v18

+    ;# set 2

+    vsldoi  v23, v21, v22, 2

+    vmsummbm v26, v20, v23, v18

+    ;# set 3

+    vsldoi  v23, v21, v22, 3

+    vmsummbm v27, v20, v23, v18

+    vpkswus v24, v24, v25       ;# v24 = 0 4 8 C 1 5 9 D (16-bit)

+    vpkswus v25, v26, v27       ;# v25 = 2 6 A E 3 7 B F

+    vsrh    v24, v24, v19       ;# divide v0, v1 by 128

+    vsrh    v25, v25, v19

+    vpkuhus \V, v24, v25        ;# \V = scrambled 8-bit result

+    vperm   \V, \V, v0, v28     ;# \V = correctly-ordered result

+.endm

+    .align 2

+;# r3 unsigned char  *src_ptr

+;# r4 int  src_pixels_per_line

+;# r5 int  xoffset

+;# r6 int  yoffset

+;# r7 unsigned char *dst_ptr

+;# r8 int dst_pixels_per_line

+;# r9 unsigned int *sse

+;#

+;# r3 return value

+vp8_sub_pixel_variance16x8_ppc:

+    mfspr   r11, 256            ;# get old VRSAVE

+    oris    r12, r11, 0xffff

+    ori     r12, r12, 0xfff8

+    mtspr   256, r12            ;# set VRSAVE

+    stwu    r1, -32(r1)         ;# create space on the stack

+    HProlog second_pass_16x8_pre_copy_b

+    hfilter_16 v0, 1

+    hfilter_16 v1, 1

+    hfilter_16 v2, 1

+    hfilter_16 v3, 1

+    hfilter_16 v4, 1

+    hfilter_16 v5, 1

+    hfilter_16 v6, 1

+    hfilter_16 v7, 1

+    ;# Finished filtering main horizontal block.  If there is no

+    ;#  vertical filtering, jump to storing the data.  Otherwise

+    ;#  load up and filter the additional line that is needed

+    ;#  for the vertical filter.

+    beq     compute_sum_sse_16x8_b

+    hfilter_16 v8, 0

+    b   second_pass_16x8_b

+second_pass_16x8_pre_copy_b:

+    slwi.   r6, r6, 5           ;# index into vertical filter array

+    load_and_align_16  v0,  r3, r4, 1

+    load_and_align_16  v1,  r3, r4, 1

+    load_and_align_16  v2,  r3, r4, 1

+    load_and_align_16  v3,  r3, r4, 1

+    load_and_align_16  v4,  r3, r4, 1

+    load_and_align_16  v5,  r3, r4, 1

+    load_and_align_16  v6,  r3, r4, 1

+    load_and_align_16  v7,  r3, r4, 1

+    load_and_align_16  v8,  r3, r4, 1

+    beq     compute_sum_sse_16x8_b

+second_pass_16x8_b:

+    vspltish v20, 8

+    vspltish v18, 3

+    vslh    v18, v20, v18   ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

+    load_vfilter v20, v21

+    vfilter_16 v0,  v1

+    vfilter_16 v1,  v2

+    vfilter_16 v2,  v3

+    vfilter_16 v3,  v4

+    vfilter_16 v4,  v5

+    vfilter_16 v5,  v6

+    vfilter_16 v6,  v7

+    vfilter_16 v7,  v8

+compute_sum_sse_16x8_b:

+    vspltish v18, 0             ;# sum

+    vspltish v19, 0             ;# sse

+    vspltish v23, 0             ;# unpack

+    li      r10, 16

+    compute_sum_sse_16 v0, 1

+    compute_sum_sse_16 v1, 1

+    compute_sum_sse_16 v2, 1

+    compute_sum_sse_16 v3, 1

+    compute_sum_sse_16 v4, 1

+    compute_sum_sse_16 v5, 1

+    compute_sum_sse_16 v6, 1

+    compute_sum_sse_16 v7, 0

+    variance_final v18, v19, v23, 7

+    addi    r1, r1, 32          ;# recover stack

+    mtspr   256, r11            ;# reset old VRSAVE

+    blr

+    .align 2

+;# r3 unsigned char  *src_ptr

+;# r4 int  src_pixels_per_line

+;# r5 int  xoffset

+;# r6 int  yoffset

+;# r7 unsigned char *dst_ptr

+;# r8 int dst_pixels_per_line

+;# r9 unsigned int *sse

+;#

+;# r3 return value

+vp8_sub_pixel_variance16x16_ppc:

+    mfspr   r11, 256            ;# get old VRSAVE

+    oris    r12, r11, 0xffff

+    ori     r12, r12, 0xfff8

+    mtspr   256, r12            ;# set VRSAVE

+    stwu    r1, -32(r1)         ;# create space on the stack

+    HProlog second_pass_16x16_pre_copy_b

+    hfilter_16 v0,  1

+    hfilter_16 v1,  1

+    hfilter_16 v2,  1

+    hfilter_16 v3,  1

+    hfilter_16 v4,  1

+    hfilter_16 v5,  1

+    hfilter_16 v6,  1

+    hfilter_16 v7,  1

+    hfilter_16 v8,  1

+    hfilter_16 v9,  1

+    hfilter_16 v10, 1

+    hfilter_16 v11, 1

+    hfilter_16 v12, 1

+    hfilter_16 v13, 1

+    hfilter_16 v14, 1

+    hfilter_16 v15, 1

+    ;# Finished filtering main horizontal block.  If there is no

+    ;#  vertical filtering, jump to storing the data.  Otherwise

+    ;#  load up and filter the additional line that is needed

+    ;#  for the vertical filter.

+    beq     compute_sum_sse_16x16_b

+    hfilter_16 v16, 0

+    b   second_pass_16x16_b

+second_pass_16x16_pre_copy_b:

+    slwi.   r6, r6, 5           ;# index into vertical filter array

+    load_and_align_16  v0,  r3, r4, 1

+    load_and_align_16  v1,  r3, r4, 1

+    load_and_align_16  v2,  r3, r4, 1

+    load_and_align_16  v3,  r3, r4, 1

+    load_and_align_16  v4,  r3, r4, 1

+    load_and_align_16  v5,  r3, r4, 1

+    load_and_align_16  v6,  r3, r4, 1

+    load_and_align_16  v7,  r3, r4, 1

+    load_and_align_16  v8,  r3, r4, 1

+    load_and_align_16  v9,  r3, r4, 1

+    load_and_align_16  v10, r3, r4, 1

+    load_and_align_16  v11, r3, r4, 1

+    load_and_align_16  v12, r3, r4, 1

+    load_and_align_16  v13, r3, r4, 1

+    load_and_align_16  v14, r3, r4, 1

+    load_and_align_16  v15, r3, r4, 1

+    load_and_align_16  v16, r3, r4, 0

+    beq     compute_sum_sse_16x16_b

+second_pass_16x16_b:

+    vspltish v20, 8

+    vspltish v18, 3

+    vslh    v18, v20, v18   ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

+    load_vfilter v20, v21

+    vfilter_16 v0,  v1

+    vfilter_16 v1,  v2

+    vfilter_16 v2,  v3

+    vfilter_16 v3,  v4

+    vfilter_16 v4,  v5

+    vfilter_16 v5,  v6

+    vfilter_16 v6,  v7

+    vfilter_16 v7,  v8

+    vfilter_16 v8,  v9

+    vfilter_16 v9,  v10

+    vfilter_16 v10, v11

+    vfilter_16 v11, v12

+    vfilter_16 v12, v13

+    vfilter_16 v13, v14

+    vfilter_16 v14, v15

+    vfilter_16 v15, v16

+compute_sum_sse_16x16_b:

+    vspltish v18, 0             ;# sum

+    vspltish v19, 0             ;# sse

+    vspltish v23, 0             ;# unpack

+    li      r10, 16

+    compute_sum_sse_16 v0,  1

+    compute_sum_sse_16 v1,  1

+    compute_sum_sse_16 v2,  1

+    compute_sum_sse_16 v3,  1

+    compute_sum_sse_16 v4,  1

+    compute_sum_sse_16 v5,  1

+    compute_sum_sse_16 v6,  1

+    compute_sum_sse_16 v7,  1

+    compute_sum_sse_16 v8,  1

+    compute_sum_sse_16 v9,  1

+    compute_sum_sse_16 v10, 1

+    compute_sum_sse_16 v11, 1

+    compute_sum_sse_16 v12, 1

+    compute_sum_sse_16 v13, 1

+    compute_sum_sse_16 v14, 1

+    compute_sum_sse_16 v15, 0

+    variance_final v18, v19, v23, 8

+    addi    r1, r1, 32          ;# recover stack

+    mtspr   256, r11            ;# reset old VRSAVE

+    blr

+    .data

+    .align 4

+hfilter_b:

+    .byte   128,  0,  0,  0,128,  0,  0,  0,128,  0,  0,  0,128,  0,  0,  0

+    .byte   112, 16,  0,  0,112, 16,  0,  0,112, 16,  0,  0,112, 16,  0,  0

+    .byte    96, 32,  0,  0, 96, 32,  0,  0, 96, 32,  0,  0, 96, 32,  0,  0

+    .byte    80, 48,  0,  0, 80, 48,  0,  0, 80, 48,  0,  0, 80, 48,  0,  0

+    .byte    64, 64,  0,  0, 64, 64,  0,  0, 64, 64,  0,  0, 64, 64,  0,  0

+    .byte    48, 80,  0,  0, 48, 80,  0,  0, 48, 80,  0,  0, 48, 80,  0,  0

+    .byte    32, 96,  0,  0, 32, 96,  0,  0, 32, 96,  0,  0, 32, 96,  0,  0

+    .byte    16,112,  0,  0, 16,112,  0,  0, 16,112,  0,  0, 16,112,  0,  0

+    .align 4

+vfilter_b:

+    .byte   128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128

+    .byte     0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0

+    .byte   112,112,112,112,112,112,112,112,112,112,112,112,112,112,112,112

+    .byte    16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16

+    .byte    96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96

+    .byte    32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32

+    .byte    80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80

+    .byte    48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48

+    .byte    64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64

+    .byte    64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64

+    .byte    48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48

+    .byte    80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80

+    .byte    32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32

+    .byte    96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96

+    .byte    16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16

+    .byte   112,112,112,112,112,112,112,112,112,112,112,112,112,112,112,112

+    .align 4

+b_hperm_b:

+    .byte     0,  4,  8, 12,  1,  5,  9, 13,  2,  6, 10, 14,  3,  7, 11, 15

+    .align 4

+b_0123_b:

+    .byte     0,  1,  2,  3,  1,  2,  3,  4,  2,  3,  4,  5,  3,  4,  5,  6

+    .align 4

+b_4567_b:

+    .byte     4,  5,  6,  7,  5,  6,  7,  8,  6,  7,  8,  9,  7,  8,  9, 10

+b_hilo_b:

+    .byte     0,  1,  2,  3,  4,  5,  6,  7, 16, 17, 18, 19, 20, 21, 22, 23

--- /dev/null

+++ b/vp8/common/sad_c.c

@@ -1,0 +1,395 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <stdlib.h>

+#include "vpx_config.h"

+#include "vpx/vpx_integer.h"

+static __inline

+unsigned int sad_mx_n_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    int  max_sad,

+    int  m,

+    int  n)

+{

+    int r, c;

+    unsigned int sad = 0;

+    for (r = 0; r < n; r++)

+    {

+        for (c = 0; c < m; c++)

+        {

+            sad += abs(src_ptr[c] - ref_ptr[c]);

+        }

+        if (sad > max_sad)

+          break;

+        src_ptr += src_stride;

+        ref_ptr += ref_stride;

+    }

+    return sad;

+}

+/* max_sad is provided as an optional optimization point. Alternative

+ * implementations of these functions are not required to check it.

+ */

+unsigned int vp8_sad16x16_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    int  max_sad)

+{

+    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 16, 16);

+}

+unsigned int vp8_sad8x8_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    int  max_sad)

+{

+    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 8, 8);

+}

+unsigned int vp8_sad16x8_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    int  max_sad)

+{

+    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 16, 8);

+}

+unsigned int vp8_sad8x16_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    int  max_sad)

+{

+    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 8, 16);

+}

+unsigned int vp8_sad4x4_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    int  max_sad)

+{

+    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 4, 4);

+}

+void vp8_sad16x16x3_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+}

+void vp8_sad16x16x8_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned short *sad_array

+)

+{

+    sad_array[0] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+    sad_array[3] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

+    sad_array[4] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

+    sad_array[5] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

+    sad_array[6] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

+    sad_array[7] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

+}

+void vp8_sad16x8x3_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+}

+void vp8_sad16x8x8_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned short *sad_array

+)

+{

+    sad_array[0] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+    sad_array[3] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

+    sad_array[4] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

+    sad_array[5] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

+    sad_array[6] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

+    sad_array[7] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

+}

+void vp8_sad8x8x3_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+}

+void vp8_sad8x8x8_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned short *sad_array

+)

+{

+    sad_array[0] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+    sad_array[3] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

+    sad_array[4] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

+    sad_array[5] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

+    sad_array[6] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

+    sad_array[7] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

+}

+void vp8_sad8x16x3_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+}

+void vp8_sad8x16x8_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned short *sad_array

+)

+{

+    sad_array[0] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+    sad_array[3] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

+    sad_array[4] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

+    sad_array[5] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

+    sad_array[6] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

+    sad_array[7] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

+}

+void vp8_sad4x4x3_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+}

+void vp8_sad4x4x8_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned short *sad_array

+)

+{

+    sad_array[0] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

+    sad_array[1] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

+    sad_array[2] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

+    sad_array[3] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

+    sad_array[4] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

+    sad_array[5] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

+    sad_array[6] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

+    sad_array[7] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

+}

+void vp8_sad16x16x4d_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    unsigned char *ref_ptr[],

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

+    sad_array[3] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

+}

+void vp8_sad16x8x4d_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    unsigned char *ref_ptr[],

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

+    sad_array[3] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

+}

+void vp8_sad8x8x4d_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    unsigned char *ref_ptr[],

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

+    sad_array[3] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

+}

+void vp8_sad8x16x4d_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    unsigned char *ref_ptr[],

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

+    sad_array[3] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

+}

+void vp8_sad4x4x4d_c(

+    const unsigned char *src_ptr,

+    int  src_stride,

+    unsigned char *ref_ptr[],

+    int  ref_stride,

+    unsigned int *sad_array

+)

+{

+    sad_array[0] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

+    sad_array[1] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

+    sad_array[2] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

+    sad_array[3] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

+}

+/* Copy 2 macroblocks to a buffer */

+void vp8_copy32xn_c(

+    unsigned char *src_ptr,

+    int  src_stride,

+    unsigned char *dst_ptr,

+    int  dst_stride,

+    int height)

+{

+    int r;

+    for (r = 0; r < height; r++)

+    {

+#if !(CONFIG_FAST_UNALIGNED)

+        dst_ptr[0] = src_ptr[0];

+        dst_ptr[1] = src_ptr[1];

+        dst_ptr[2] = src_ptr[2];

+        dst_ptr[3] = src_ptr[3];

+        dst_ptr[4] = src_ptr[4];

+        dst_ptr[5] = src_ptr[5];

+        dst_ptr[6] = src_ptr[6];

+        dst_ptr[7] = src_ptr[7];

+        dst_ptr[8] = src_ptr[8];

+        dst_ptr[9] = src_ptr[9];

+        dst_ptr[10] = src_ptr[10];

+        dst_ptr[11] = src_ptr[11];

+        dst_ptr[12] = src_ptr[12];

+        dst_ptr[13] = src_ptr[13];

+        dst_ptr[14] = src_ptr[14];

+        dst_ptr[15] = src_ptr[15];

+        dst_ptr[16] = src_ptr[16];

+        dst_ptr[17] = src_ptr[17];

+        dst_ptr[18] = src_ptr[18];

+        dst_ptr[19] = src_ptr[19];

+        dst_ptr[20] = src_ptr[20];

+        dst_ptr[21] = src_ptr[21];

+        dst_ptr[22] = src_ptr[22];

+        dst_ptr[23] = src_ptr[23];

+        dst_ptr[24] = src_ptr[24];

+        dst_ptr[25] = src_ptr[25];

+        dst_ptr[26] = src_ptr[26];

+        dst_ptr[27] = src_ptr[27];

+        dst_ptr[28] = src_ptr[28];

+        dst_ptr[29] = src_ptr[29];

+        dst_ptr[30] = src_ptr[30];

+        dst_ptr[31] = src_ptr[31];

+#else

+        ((uint32_t *)dst_ptr)[0] = ((uint32_t *)src_ptr)[0] ;

+        ((uint32_t *)dst_ptr)[1] = ((uint32_t *)src_ptr)[1] ;

+        ((uint32_t *)dst_ptr)[2] = ((uint32_t *)src_ptr)[2] ;

+        ((uint32_t *)dst_ptr)[3] = ((uint32_t *)src_ptr)[3] ;

+        ((uint32_t *)dst_ptr)[4] = ((uint32_t *)src_ptr)[4] ;

+        ((uint32_t *)dst_ptr)[5] = ((uint32_t *)src_ptr)[5] ;

+        ((uint32_t *)dst_ptr)[6] = ((uint32_t *)src_ptr)[6] ;

+        ((uint32_t *)dst_ptr)[7] = ((uint32_t *)src_ptr)[7] ;

+#endif

+        src_ptr += src_stride;

+        dst_ptr += dst_stride;

+    }

+}

--- /dev/null

+++ b/vp8/common/variance.h

@@ -1,0 +1,115 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#ifndef VARIANCE_H

+#define VARIANCE_H

+typedef unsigned int(*vp8_sad_fn_t)

+    (

+    const unsigned char *src_ptr,

+    int source_stride,

+    const unsigned char *ref_ptr,

+    int ref_stride,

+    int max_sad

+    );

+typedef void (*vp8_copy32xn_fn_t)(

+    const unsigned char *src_ptr,

+    int source_stride,

+    const unsigned char *ref_ptr,

+    int ref_stride,

+    int n);

+typedef void (*vp8_sad_multi_fn_t)(

+    const unsigned char *src_ptr,

+    int source_stride,

+    const unsigned char *ref_ptr,

+    int  ref_stride,

+    unsigned int *sad_array);

+typedef void (*vp8_sad_multi1_fn_t)

+    (

+     const unsigned char *src_ptr,

+     int source_stride,

+     const unsigned char *ref_ptr,

+     int  ref_stride,

+     unsigned short *sad_array

+    );

+typedef void (*vp8_sad_multi_d_fn_t)

+    (

+     const unsigned char *src_ptr,

+     int source_stride,

+     unsigned char *ref_ptr[4],

+     int  ref_stride,

+     unsigned int *sad_array

+    );

+typedef unsigned int (*vp8_variance_fn_t)

+    (

+     const unsigned char *src_ptr,

+     int source_stride,

+     const unsigned char *ref_ptr,

+     int  ref_stride,

+     unsigned int *sse

+    );

+typedef unsigned int (*vp8_subpixvariance_fn_t)

+    (

+      const unsigned char  *src_ptr,

+      int  source_stride,

+      int  xoffset,

+      int  yoffset,

+      const unsigned char *ref_ptr,

+      int Refstride,

+      unsigned int *sse

+    );

+typedef void (*vp8_ssimpf_fn_t)

+      (

+        unsigned char *s,

+        int sp,

+        unsigned char *r,

+        int rp,

+        unsigned long *sum_s,

+        unsigned long *sum_r,

+        unsigned long *sum_sq_s,

+        unsigned long *sum_sq_r,

+        unsigned long *sum_sxr

+      );

+typedef unsigned int (*vp8_getmbss_fn_t)(const short *);

+typedef unsigned int (*vp8_get16x16prederror_fn_t)

+    (

+     const unsigned char *src_ptr,

+     int source_stride,

+     const unsigned char *ref_ptr,

+     int  ref_stride

+    );

+typedef struct variance_vtable

+{

+    vp8_sad_fn_t            sdf;

+    vp8_variance_fn_t       vf;

+    vp8_subpixvariance_fn_t svf;

+    vp8_variance_fn_t       svf_halfpix_h;

+    vp8_variance_fn_t       svf_halfpix_v;

+    vp8_variance_fn_t       svf_halfpix_hv;

+    vp8_sad_multi_fn_t      sdx3f;

+    vp8_sad_multi1_fn_t     sdx8f;

+    vp8_sad_multi_d_fn_t    sdx4df;

+#if ARCH_X86 || ARCH_X86_64

+    vp8_copy32xn_fn_t       copymem;

+#endif

+} vp8_variance_fn_ptr_t;

+#endif

--- /dev/null

+++ b/vp8/common/variance_c.c

@@ -1,0 +1,458 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "variance.h"

+#include "filter.h"

+unsigned int vp8_get_mb_ss_c

+(

+    const short *src_ptr

+)

+{

+    unsigned int i = 0, sum = 0;

+    do

+    {

+        sum += (src_ptr[i] * src_ptr[i]);

+        i++;

+    }

+    while (i < 256);

+    return sum;

+}

+static void variance(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    int  w,

+    int  h,

+    unsigned int *sse,

+    int *sum)

+{

+    int i, j;

+    int diff;

+    *sum = 0;

+    *sse = 0;

+    for (i = 0; i < h; i++)

+    {

+        for (j = 0; j < w; j++)

+        {

+            diff = src_ptr[j] - ref_ptr[j];

+            *sum += diff;

+            *sse += diff * diff;

+        }

+        src_ptr += source_stride;

+        ref_ptr += recon_stride;

+    }

+}

+unsigned int vp8_variance16x16_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    variance(src_ptr, source_stride, ref_ptr, recon_stride, 16, 16, &var, &avg);

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 8));

+}

+unsigned int vp8_variance8x16_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    variance(src_ptr, source_stride, ref_ptr, recon_stride, 8, 16, &var, &avg);

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 7));

+}

+unsigned int vp8_variance16x8_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    variance(src_ptr, source_stride, ref_ptr, recon_stride, 16, 8, &var, &avg);

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 7));

+}

+unsigned int vp8_variance8x8_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    variance(src_ptr, source_stride, ref_ptr, recon_stride, 8, 8, &var, &avg);

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 6));

+}

+unsigned int vp8_variance4x4_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    variance(src_ptr, source_stride, ref_ptr, recon_stride, 4, 4, &var, &avg);

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 4));

+}

+unsigned int vp8_mse16x16_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    variance(src_ptr, source_stride, ref_ptr, recon_stride, 16, 16, &var, &avg);

+    *sse = var;

+    return var;

+}

+/****************************************************************************

+ *

+ *  ROUTINE       : filter_block2d_bil_first_pass

+ *

+ *  INPUTS        : UINT8  *src_ptr          : Pointer to source block.

+ *                  UINT32 src_pixels_per_line : Stride of input block.

+ *                  UINT32 pixel_step        : Offset between filter input samples (see notes).

+ *                  UINT32 output_height     : Input block height.

+ *                  UINT32 output_width      : Input block width.

+ *                  INT32  *vp8_filter          : Array of 2 bi-linear filter taps.

+ *

+ *  OUTPUTS       : INT32 *output_ptr        : Pointer to filtered block.

+ *

+ *  RETURNS       : void

+ *

+ *  FUNCTION      : Applies a 1-D 2-tap bi-linear filter to the source block in

+ *                  either horizontal or vertical direction to produce the

+ *                  filtered output block. Used to implement first-pass

+ *                  of 2-D separable filter.

+ *

+ *  SPECIAL NOTES : Produces INT32 output to retain precision for next pass.

+ *                  Two filter taps should sum to VP8_FILTER_WEIGHT.

+ *                  pixel_step defines whether the filter is applied

+ *                  horizontally (pixel_step=1) or vertically (pixel_step=stride).

+ *                  It defines the offset required to move from one input

+ *                  to the next.

+ *

+ ****************************************************************************/

+static void var_filter_block2d_bil_first_pass

+(

+    const unsigned char *src_ptr,

+    unsigned short *output_ptr,

+    unsigned int src_pixels_per_line,

+    int pixel_step,

+    unsigned int output_height,

+    unsigned int output_width,

+    const short *vp8_filter

+)

+{

+    unsigned int i, j;

+    for (i = 0; i < output_height; i++)

+    {

+        for (j = 0; j < output_width; j++)

+        {

+            // Apply bilinear filter

+            output_ptr[j] = (((int)src_ptr[0]          * vp8_filter[0]) +

+                             ((int)src_ptr[pixel_step] * vp8_filter[1]) +

+                             (VP8_FILTER_WEIGHT / 2)) >> VP8_FILTER_SHIFT;

+            src_ptr++;

+        }

+        // Next row...

+        src_ptr    += src_pixels_per_line - output_width;

+        output_ptr += output_width;

+    }

+}

+/****************************************************************************

+ *

+ *  ROUTINE       : filter_block2d_bil_second_pass

+ *

+ *  INPUTS        : INT32  *src_ptr          : Pointer to source block.

+ *                  UINT32 src_pixels_per_line : Stride of input block.

+ *                  UINT32 pixel_step        : Offset between filter input samples (see notes).

+ *                  UINT32 output_height     : Input block height.

+ *                  UINT32 output_width      : Input block width.

+ *                  INT32  *vp8_filter          : Array of 2 bi-linear filter taps.

+ *

+ *  OUTPUTS       : UINT16 *output_ptr       : Pointer to filtered block.

+ *

+ *  RETURNS       : void

+ *

+ *  FUNCTION      : Applies a 1-D 2-tap bi-linear filter to the source block in

+ *                  either horizontal or vertical direction to produce the

+ *                  filtered output block. Used to implement second-pass

+ *                  of 2-D separable filter.

+ *

+ *  SPECIAL NOTES : Requires 32-bit input as produced by filter_block2d_bil_first_pass.

+ *                  Two filter taps should sum to VP8_FILTER_WEIGHT.

+ *                  pixel_step defines whether the filter is applied

+ *                  horizontally (pixel_step=1) or vertically (pixel_step=stride).

+ *                  It defines the offset required to move from one input

+ *                  to the next.

+ *

+ ****************************************************************************/

+static void var_filter_block2d_bil_second_pass

+(

+    const unsigned short *src_ptr,

+    unsigned char  *output_ptr,

+    unsigned int  src_pixels_per_line,

+    unsigned int  pixel_step,

+    unsigned int  output_height,

+    unsigned int  output_width,

+    const short *vp8_filter

+)

+{

+    unsigned int  i, j;

+    int  Temp;

+    for (i = 0; i < output_height; i++)

+    {

+        for (j = 0; j < output_width; j++)

+        {

+            // Apply filter

+            Temp = ((int)src_ptr[0]         * vp8_filter[0]) +

+                   ((int)src_ptr[pixel_step] * vp8_filter[1]) +

+                   (VP8_FILTER_WEIGHT / 2);

+            output_ptr[j] = (unsigned int)(Temp >> VP8_FILTER_SHIFT);

+            src_ptr++;

+        }

+        // Next row...

+        src_ptr    += src_pixels_per_line - output_width;

+        output_ptr += output_width;

+    }

+}

+unsigned int vp8_sub_pixel_variance4x4_c

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    unsigned char  temp2[20*16];

+    const short *HFilter, *VFilter;

+    unsigned short FData3[5*4]; // Temp data bufffer used in filtering

+    HFilter = vp8_bilinear_filters[xoffset];

+    VFilter = vp8_bilinear_filters[yoffset];

+    // First filter 1d Horizontal

+    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 5, 4, HFilter);

+    // Now filter Verticaly

+    var_filter_block2d_bil_second_pass(FData3, temp2, 4,  4,  4,  4, VFilter);

+    return vp8_variance4x4_c(temp2, 4, dst_ptr, dst_pixels_per_line, sse);

+}

+unsigned int vp8_sub_pixel_variance8x8_c

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    unsigned short FData3[9*8]; // Temp data bufffer used in filtering

+    unsigned char  temp2[20*16];

+    const short *HFilter, *VFilter;

+    HFilter = vp8_bilinear_filters[xoffset];

+    VFilter = vp8_bilinear_filters[yoffset];

+    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 9, 8, HFilter);

+    var_filter_block2d_bil_second_pass(FData3, temp2, 8, 8, 8, 8, VFilter);

+    return vp8_variance8x8_c(temp2, 8, dst_ptr, dst_pixels_per_line, sse);

+}

+unsigned int vp8_sub_pixel_variance16x16_c

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    unsigned short FData3[17*16];   // Temp data bufffer used in filtering

+    unsigned char  temp2[20*16];

+    const short *HFilter, *VFilter;

+    HFilter = vp8_bilinear_filters[xoffset];

+    VFilter = vp8_bilinear_filters[yoffset];

+    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 17, 16, HFilter);

+    var_filter_block2d_bil_second_pass(FData3, temp2, 16, 16, 16, 16, VFilter);

+    return vp8_variance16x16_c(temp2, 16, dst_ptr, dst_pixels_per_line, sse);

+}

+unsigned int vp8_variance_halfpixvar16x16_h_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_c(src_ptr, source_stride, 4, 0,

+                                         ref_ptr, recon_stride, sse);

+}

+unsigned int vp8_variance_halfpixvar16x16_v_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_c(src_ptr, source_stride, 0, 4,

+                                         ref_ptr, recon_stride, sse);

+}

+unsigned int vp8_variance_halfpixvar16x16_hv_c(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_c(src_ptr, source_stride, 4, 4,

+                                         ref_ptr, recon_stride, sse);

+}

+unsigned int vp8_sub_pixel_mse16x16_c

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    vp8_sub_pixel_variance16x16_c(src_ptr, src_pixels_per_line, xoffset, yoffset, dst_ptr, dst_pixels_per_line, sse);

+    return *sse;

+}

+unsigned int vp8_sub_pixel_variance16x8_c

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    unsigned short FData3[16*9];    // Temp data bufffer used in filtering

+    unsigned char  temp2[20*16];

+    const short *HFilter, *VFilter;

+    HFilter = vp8_bilinear_filters[xoffset];

+    VFilter = vp8_bilinear_filters[yoffset];

+    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 9, 16, HFilter);

+    var_filter_block2d_bil_second_pass(FData3, temp2, 16, 16, 8, 16, VFilter);

+    return vp8_variance16x8_c(temp2, 16, dst_ptr, dst_pixels_per_line, sse);

+}

+unsigned int vp8_sub_pixel_variance8x16_c

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    unsigned short FData3[9*16];    // Temp data bufffer used in filtering

+    unsigned char  temp2[20*16];

+    const short *HFilter, *VFilter;

+    HFilter = vp8_bilinear_filters[xoffset];

+    VFilter = vp8_bilinear_filters[yoffset];

+    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 17, 8, HFilter);

+    var_filter_block2d_bil_second_pass(FData3, temp2, 8, 8, 16, 8, VFilter);

+    return vp8_variance8x16_c(temp2, 8, dst_ptr, dst_pixels_per_line, sse);

+}

--- /dev/null

+++ b/vp8/common/x86/sad_mmx.asm

@@ -1,0 +1,427 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+global sym(vp8_sad16x16_mmx)

+global sym(vp8_sad8x16_mmx)

+global sym(vp8_sad8x8_mmx)

+global sym(vp8_sad4x4_mmx)

+global sym(vp8_sad16x8_mmx)

+;unsigned int vp8_sad16x16_mmx(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+sym(vp8_sad16x16_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 4

+    push rsi

+    push rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        lea             rcx,        [rsi+rax*8]

+        lea             rcx,        [rcx+rax*8]

+        pxor            mm7,        mm7

+        pxor            mm6,        mm6

+.x16x16sad_mmx_loop:

+        movq            mm0,        QWORD PTR [rsi]

+        movq            mm2,        QWORD PTR [rsi+8]

+        movq            mm1,        QWORD PTR [rdi]

+        movq            mm3,        QWORD PTR [rdi+8]

+        movq            mm4,        mm0

+        movq            mm5,        mm2

+        psubusb         mm0,        mm1

+        psubusb         mm1,        mm4

+        psubusb         mm2,        mm3

+        psubusb         mm3,        mm5

+        por             mm0,        mm1

+        por             mm2,        mm3

+        movq            mm1,        mm0

+        movq            mm3,        mm2

+        punpcklbw       mm0,        mm6

+        punpcklbw       mm2,        mm6

+        punpckhbw       mm1,        mm6

+        punpckhbw       mm3,        mm6

+        paddw           mm0,        mm2

+        paddw           mm1,        mm3

+        lea             rsi,        [rsi+rax]

+        add             rdi,        rdx

+        paddw           mm7,        mm0

+        paddw           mm7,        mm1

+        cmp             rsi,        rcx

+        jne             .x16x16sad_mmx_loop

+        movq            mm0,        mm7

+        punpcklwd       mm0,        mm6

+        punpckhwd       mm7,        mm6

+        paddw           mm0,        mm7

+        movq            mm7,        mm0

+        psrlq           mm0,        32

+        paddw           mm7,        mm0

+        movq            rax,        mm7

+    pop rdi

+    pop rsi

+    mov rsp, rbp

+    ; begin epilog

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_sad8x16_mmx(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+sym(vp8_sad8x16_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 4

+    push rsi

+    push rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        lea             rcx,        [rsi+rax*8]

+        lea             rcx,        [rcx+rax*8]

+        pxor            mm7,        mm7

+        pxor            mm6,        mm6

+.x8x16sad_mmx_loop:

+        movq            mm0,        QWORD PTR [rsi]

+        movq            mm1,        QWORD PTR [rdi]

+        movq            mm2,        mm0

+        psubusb         mm0,        mm1

+        psubusb         mm1,        mm2

+        por             mm0,        mm1

+        movq            mm2,        mm0

+        punpcklbw       mm0,        mm6

+        punpckhbw       mm2,        mm6

+        lea             rsi,        [rsi+rax]

+        add             rdi,        rdx

+        paddw           mm7,        mm0

+        paddw           mm7,        mm2

+        cmp             rsi,        rcx

+        jne             .x8x16sad_mmx_loop

+        movq            mm0,        mm7

+        punpcklwd       mm0,        mm6

+        punpckhwd       mm7,        mm6

+        paddw           mm0,        mm7

+        movq            mm7,        mm0

+        psrlq           mm0,        32

+        paddw           mm7,        mm0

+        movq            rax,        mm7

+    pop rdi

+    pop rsi

+    mov rsp, rbp

+    ; begin epilog

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_sad8x8_mmx(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+sym(vp8_sad8x8_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 4

+    push rsi

+    push rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        lea             rcx,        [rsi+rax*8]

+        pxor            mm7,        mm7

+        pxor            mm6,        mm6

+.x8x8sad_mmx_loop:

+        movq            mm0,        QWORD PTR [rsi]

+        movq            mm1,        QWORD PTR [rdi]

+        movq            mm2,        mm0

+        psubusb         mm0,        mm1

+        psubusb         mm1,        mm2

+        por             mm0,        mm1

+        movq            mm2,        mm0

+        punpcklbw       mm0,        mm6

+        punpckhbw       mm2,        mm6

+        paddw           mm0,        mm2

+        lea             rsi,       [rsi+rax]

+        add             rdi,        rdx

+        paddw           mm7,       mm0

+        cmp             rsi,        rcx

+        jne             .x8x8sad_mmx_loop

+        movq            mm0,        mm7

+        punpcklwd       mm0,        mm6

+        punpckhwd       mm7,        mm6

+        paddw           mm0,        mm7

+        movq            mm7,        mm0

+        psrlq           mm0,        32

+        paddw           mm7,        mm0

+        movq            rax,        mm7

+    pop rdi

+    pop rsi

+    mov rsp, rbp

+    ; begin epilog

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_sad4x4_mmx(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+sym(vp8_sad4x4_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 4

+    push rsi

+    push rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        movd            mm0,        DWORD PTR [rsi]

+        movd            mm1,        DWORD PTR [rdi]

+        movd            mm2,        DWORD PTR [rsi+rax]

+        movd            mm3,        DWORD PTR [rdi+rdx]

+        punpcklbw       mm0,        mm2

+        punpcklbw       mm1,        mm3

+        movq            mm2,        mm0

+        psubusb         mm0,        mm1

+        psubusb         mm1,        mm2

+        por             mm0,        mm1

+        movq            mm2,        mm0

+        pxor            mm3,        mm3

+        punpcklbw       mm0,        mm3

+        punpckhbw       mm2,        mm3

+        paddw           mm0,        mm2

+        lea             rsi,        [rsi+rax*2]

+        lea             rdi,        [rdi+rdx*2]

+        movd            mm4,        DWORD PTR [rsi]

+        movd            mm5,        DWORD PTR [rdi]

+        movd            mm6,        DWORD PTR [rsi+rax]

+        movd            mm7,        DWORD PTR [rdi+rdx]

+        punpcklbw       mm4,        mm6

+        punpcklbw       mm5,        mm7

+        movq            mm6,        mm4

+        psubusb         mm4,        mm5

+        psubusb         mm5,        mm6

+        por             mm4,        mm5

+        movq            mm5,        mm4

+        punpcklbw       mm4,        mm3

+        punpckhbw       mm5,        mm3

+        paddw           mm4,        mm5

+        paddw           mm0,        mm4

+        movq            mm1,        mm0

+        punpcklwd       mm0,        mm3

+        punpckhwd       mm1,        mm3

+        paddw           mm0,        mm1

+        movq            mm1,        mm0

+        psrlq           mm0,        32

+        paddw           mm0,        mm1

+        movq            rax,        mm0

+    pop rdi

+    pop rsi

+    mov rsp, rbp

+    ; begin epilog

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_sad16x8_mmx(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+sym(vp8_sad16x8_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 4

+    push rsi

+    push rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        lea             rcx,        [rsi+rax*8]

+        pxor            mm7,        mm7

+        pxor            mm6,        mm6

+.x16x8sad_mmx_loop:

+        movq            mm0,       [rsi]

+        movq            mm1,       [rdi]

+        movq            mm2,        [rsi+8]

+        movq            mm3,        [rdi+8]

+        movq            mm4,        mm0

+        movq            mm5,        mm2

+        psubusb         mm0,        mm1

+        psubusb         mm1,        mm4

+        psubusb         mm2,        mm3

+        psubusb         mm3,        mm5

+        por             mm0,        mm1

+        por             mm2,        mm3

+        movq            mm1,        mm0

+        movq            mm3,        mm2

+        punpcklbw       mm0,        mm6

+        punpckhbw       mm1,        mm6

+        punpcklbw       mm2,        mm6

+        punpckhbw       mm3,        mm6

+        paddw           mm0,        mm2

+        paddw           mm1,        mm3

+        paddw           mm0,        mm1

+        lea             rsi,        [rsi+rax]

+        add             rdi,        rdx

+        paddw           mm7,        mm0

+        cmp             rsi,        rcx

+        jne             .x16x8sad_mmx_loop

+        movq            mm0,        mm7

+        punpcklwd       mm0,        mm6

+        punpckhwd       mm7,        mm6

+        paddw           mm0,        mm7

+        movq            mm7,        mm0

+        psrlq           mm0,        32

+        paddw           mm7,        mm0

+        movq            rax,        mm7

+    pop rdi

+    pop rsi

+    mov rsp, rbp

+    ; begin epilog

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

--- /dev/null

+++ b/vp8/common/x86/sad_sse2.asm

@@ -1,0 +1,410 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+;unsigned int vp8_sad16x16_wmt(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+global sym(vp8_sad16x16_wmt)

+sym(vp8_sad16x16_wmt):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 4

+    SAVE_XMM 6

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        lea             rcx,        [rsi+rax*8]

+        lea             rcx,        [rcx+rax*8]

+        pxor            xmm6,       xmm6

+.x16x16sad_wmt_loop:

+        movq            xmm0,       QWORD PTR [rsi]

+        movq            xmm2,       QWORD PTR [rsi+8]

+        movq            xmm1,       QWORD PTR [rdi]

+        movq            xmm3,       QWORD PTR [rdi+8]

+        movq            xmm4,       QWORD PTR [rsi+rax]

+        movq            xmm5,       QWORD PTR [rdi+rdx]

+        punpcklbw       xmm0,       xmm2

+        punpcklbw       xmm1,       xmm3

+        psadbw          xmm0,       xmm1

+        movq            xmm2,       QWORD PTR [rsi+rax+8]

+        movq            xmm3,       QWORD PTR [rdi+rdx+8]

+        lea             rsi,        [rsi+rax*2]

+        lea             rdi,        [rdi+rdx*2]

+        punpcklbw       xmm4,       xmm2

+        punpcklbw       xmm5,       xmm3

+        psadbw          xmm4,       xmm5

+        paddw           xmm6,       xmm0

+        paddw           xmm6,       xmm4

+        cmp             rsi,        rcx

+        jne             .x16x16sad_wmt_loop

+        movq            xmm0,       xmm6

+        psrldq          xmm6,       8

+        paddw           xmm0,       xmm6

+        movq            rax,        xmm0

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_sad8x16_wmt(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  max_sad)

+global sym(vp8_sad8x16_wmt)

+sym(vp8_sad8x16_wmt):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    push        rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rbx,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        lea             rcx,        [rsi+rbx*8]

+        lea             rcx,        [rcx+rbx*8]

+        pxor            mm7,        mm7

+.x8x16sad_wmt_loop:

+        movq            rax,        mm7

+        cmp             eax,        arg(4)

+        jg              .x8x16sad_wmt_early_exit

+        movq            mm0,        QWORD PTR [rsi]

+        movq            mm1,        QWORD PTR [rdi]

+        movq            mm2,        QWORD PTR [rsi+rbx]

+        movq            mm3,        QWORD PTR [rdi+rdx]

+        psadbw          mm0,        mm1

+        psadbw          mm2,        mm3

+        lea             rsi,        [rsi+rbx*2]

+        lea             rdi,        [rdi+rdx*2]

+        paddw           mm7,        mm0

+        paddw           mm7,        mm2

+        cmp             rsi,        rcx

+        jne             .x8x16sad_wmt_loop

+        movq            rax,        mm7

+.x8x16sad_wmt_early_exit:

+    ; begin epilog

+    pop         rdi

+    pop         rsi

+    pop         rbx

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_sad8x8_wmt(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+global sym(vp8_sad8x8_wmt)

+sym(vp8_sad8x8_wmt):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    push        rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rbx,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        lea             rcx,        [rsi+rbx*8]

+        pxor            mm7,        mm7

+.x8x8sad_wmt_loop:

+        movq            rax,        mm7

+        cmp             eax,        arg(4)

+        jg              .x8x8sad_wmt_early_exit

+        movq            mm0,        QWORD PTR [rsi]

+        movq            mm1,        QWORD PTR [rdi]

+        psadbw          mm0,        mm1

+        lea             rsi,        [rsi+rbx]

+        add             rdi,        rdx

+        paddw           mm7,        mm0

+        cmp             rsi,        rcx

+        jne             .x8x8sad_wmt_loop

+        movq            rax,        mm7

+.x8x8sad_wmt_early_exit:

+    ; begin epilog

+    pop         rdi

+    pop         rsi

+    pop         rbx

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_sad4x4_wmt(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+global sym(vp8_sad4x4_wmt)

+sym(vp8_sad4x4_wmt):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 4

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        movd            mm0,        DWORD PTR [rsi]

+        movd            mm1,        DWORD PTR [rdi]

+        movd            mm2,        DWORD PTR [rsi+rax]

+        movd            mm3,        DWORD PTR [rdi+rdx]

+        punpcklbw       mm0,        mm2

+        punpcklbw       mm1,        mm3

+        psadbw          mm0,        mm1

+        lea             rsi,        [rsi+rax*2]

+        lea             rdi,        [rdi+rdx*2]

+        movd            mm4,        DWORD PTR [rsi]

+        movd            mm5,        DWORD PTR [rdi]

+        movd            mm6,        DWORD PTR [rsi+rax]

+        movd            mm7,        DWORD PTR [rdi+rdx]

+        punpcklbw       mm4,        mm6

+        punpcklbw       mm5,        mm7

+        psadbw          mm4,        mm5

+        paddw           mm0,        mm4

+        movq            rax,        mm0

+    ; begin epilog

+    pop rdi

+    pop rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_sad16x8_wmt(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride)

+global sym(vp8_sad16x8_wmt)

+sym(vp8_sad16x8_wmt):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    push        rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        movsxd          rbx,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        lea             rcx,        [rsi+rbx*8]

+        pxor            mm7,        mm7

+.x16x8sad_wmt_loop:

+        movq            rax,        mm7

+        cmp             eax,        arg(4)

+        jg              .x16x8sad_wmt_early_exit

+        movq            mm0,        QWORD PTR [rsi]

+        movq            mm2,        QWORD PTR [rsi+8]

+        movq            mm1,        QWORD PTR [rdi]

+        movq            mm3,        QWORD PTR [rdi+8]

+        movq            mm4,        QWORD PTR [rsi+rbx]

+        movq            mm5,        QWORD PTR [rdi+rdx]

+        psadbw          mm0,        mm1

+        psadbw          mm2,        mm3

+        movq            mm1,        QWORD PTR [rsi+rbx+8]

+        movq            mm3,        QWORD PTR [rdi+rdx+8]

+        psadbw          mm4,        mm5

+        psadbw          mm1,        mm3

+        lea             rsi,        [rsi+rbx*2]

+        lea             rdi,        [rdi+rdx*2]

+        paddw           mm0,        mm2

+        paddw           mm4,        mm1

+        paddw           mm7,        mm0

+        paddw           mm7,        mm4

+        cmp             rsi,        rcx

+        jne             .x16x8sad_wmt_loop

+        movq            rax,        mm7

+.x16x8sad_wmt_early_exit:

+    ; begin epilog

+    pop         rdi

+    pop         rsi

+    pop         rbx

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_copy32xn_sse2(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *dst_ptr,

+;    int  dst_stride,

+;    int height);

+global sym(vp8_copy32xn_sse2)

+sym(vp8_copy32xn_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    SAVE_XMM 7

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;dst_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;dst_stride

+        movsxd          rcx,        dword ptr arg(4) ;height

+.block_copy_sse2_loopx4:

+        movdqu          xmm0,       XMMWORD PTR [rsi]

+        movdqu          xmm1,       XMMWORD PTR [rsi + 16]

+        movdqu          xmm2,       XMMWORD PTR [rsi + rax]

+        movdqu          xmm3,       XMMWORD PTR [rsi + rax + 16]

+        lea             rsi,        [rsi+rax*2]

+        movdqu          xmm4,       XMMWORD PTR [rsi]

+        movdqu          xmm5,       XMMWORD PTR [rsi + 16]

+        movdqu          xmm6,       XMMWORD PTR [rsi + rax]

+        movdqu          xmm7,       XMMWORD PTR [rsi + rax + 16]

+        lea             rsi,    [rsi+rax*2]

+        movdqa          XMMWORD PTR [rdi], xmm0

+        movdqa          XMMWORD PTR [rdi + 16], xmm1

+        movdqa          XMMWORD PTR [rdi + rdx], xmm2

+        movdqa          XMMWORD PTR [rdi + rdx + 16], xmm3

+        lea             rdi,    [rdi+rdx*2]

+        movdqa          XMMWORD PTR [rdi], xmm4

+        movdqa          XMMWORD PTR [rdi + 16], xmm5

+        movdqa          XMMWORD PTR [rdi + rdx], xmm6

+        movdqa          XMMWORD PTR [rdi + rdx + 16], xmm7

+        lea             rdi,    [rdi+rdx*2]

+        sub             rcx,     4

+        cmp             rcx,     4

+        jge             .block_copy_sse2_loopx4

+        cmp             rcx, 0

+        je              .copy_is_done

+.block_copy_sse2_loop:

+        movdqu          xmm0,       XMMWORD PTR [rsi]

+        movdqu          xmm1,       XMMWORD PTR [rsi + 16]

+        lea             rsi,    [rsi+rax]

+        movdqa          XMMWORD PTR [rdi], xmm0

+        movdqa          XMMWORD PTR [rdi + 16], xmm1

+        lea             rdi,    [rdi+rdx]

+        sub             rcx,     1

+        jne             .block_copy_sse2_loop

+.copy_is_done:

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

--- /dev/null

+++ b/vp8/common/x86/sad_sse3.asm

@@ -1,0 +1,960 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+%macro STACK_FRAME_CREATE_X3 0

+%if ABI_IS_32BIT

+  %define     src_ptr       rsi

+  %define     src_stride    rax

+  %define     ref_ptr       rdi

+  %define     ref_stride    rdx

+  %define     end_ptr       rcx

+  %define     ret_var       rbx

+  %define     result_ptr    arg(4)

+  %define     max_sad       arg(4)

+  %define     height        dword ptr arg(4)

+    push        rbp

+    mov         rbp,        rsp

+    push        rsi

+    push        rdi

+    push        rbx

+    mov         rsi,        arg(0)              ; src_ptr

+    mov         rdi,        arg(2)              ; ref_ptr

+    movsxd      rax,        dword ptr arg(1)    ; src_stride

+    movsxd      rdx,        dword ptr arg(3)    ; ref_stride

+%else

+  %ifidn __OUTPUT_FORMAT__,x64

+    SAVE_XMM 7, u

+    %define     src_ptr     rcx

+    %define     src_stride  rdx

+    %define     ref_ptr     r8

+    %define     ref_stride  r9

+    %define     end_ptr     r10

+    %define     ret_var     r11

+    %define     result_ptr  [rsp+xmm_stack_space+8+4*8]

+    %define     max_sad     [rsp+xmm_stack_space+8+4*8]

+    %define     height      dword ptr [rsp+xmm_stack_space+8+4*8]

+  %else

+    %define     src_ptr     rdi

+    %define     src_stride  rsi

+    %define     ref_ptr     rdx

+    %define     ref_stride  rcx

+    %define     end_ptr     r9

+    %define     ret_var     r10

+    %define     result_ptr  r8

+    %define     max_sad     r8

+    %define     height      r8

+  %endif

+%endif

+%endmacro

+%macro STACK_FRAME_DESTROY_X3 0

+  %define     src_ptr

+  %define     src_stride

+  %define     ref_ptr

+  %define     ref_stride

+  %define     end_ptr

+  %define     ret_var

+  %define     result_ptr

+  %define     max_sad

+  %define     height

+%if ABI_IS_32BIT

+    pop         rbx

+    pop         rdi

+    pop         rsi

+    pop         rbp

+%else

+  %ifidn __OUTPUT_FORMAT__,x64

+    RESTORE_XMM

+  %endif

+%endif

+    ret

+%endmacro

+%macro STACK_FRAME_CREATE_X4 0

+%if ABI_IS_32BIT

+  %define     src_ptr       rsi

+  %define     src_stride    rax

+  %define     r0_ptr        rcx

+  %define     r1_ptr        rdx

+  %define     r2_ptr        rbx

+  %define     r3_ptr        rdi

+  %define     ref_stride    rbp

+  %define     result_ptr    arg(4)

+    push        rbp

+    mov         rbp,        rsp

+    push        rsi

+    push        rdi

+    push        rbx

+    push        rbp

+    mov         rdi,        arg(2)              ; ref_ptr_base

+    LOAD_X4_ADDRESSES rdi, rcx, rdx, rax, rdi

+    mov         rsi,        arg(0)              ; src_ptr

+    movsxd      rbx,        dword ptr arg(1)    ; src_stride

+    movsxd      rbp,        dword ptr arg(3)    ; ref_stride

+    xchg        rbx,        rax

+%else

+  %ifidn __OUTPUT_FORMAT__,x64

+    SAVE_XMM 7, u

+    %define     src_ptr     rcx

+    %define     src_stride  rdx

+    %define     r0_ptr      rsi

+    %define     r1_ptr      r10

+    %define     r2_ptr      r11

+    %define     r3_ptr      r8

+    %define     ref_stride  r9

+    %define     result_ptr  [rsp+xmm_stack_space+16+4*8]

+    push        rsi

+    LOAD_X4_ADDRESSES r8, r0_ptr, r1_ptr, r2_ptr, r3_ptr

+  %else

+    %define     src_ptr     rdi

+    %define     src_stride  rsi

+    %define     r0_ptr      r9

+    %define     r1_ptr      r10

+    %define     r2_ptr      r11

+    %define     r3_ptr      rdx

+    %define     ref_stride  rcx

+    %define     result_ptr  r8

+    LOAD_X4_ADDRESSES rdx, r0_ptr, r1_ptr, r2_ptr, r3_ptr

+  %endif

+%endif

+%endmacro

+%macro STACK_FRAME_DESTROY_X4 0

+  %define     src_ptr

+  %define     src_stride

+  %define     r0_ptr

+  %define     r1_ptr

+  %define     r2_ptr

+  %define     r3_ptr

+  %define     ref_stride

+  %define     result_ptr

+%if ABI_IS_32BIT

+    pop         rbx

+    pop         rdi

+    pop         rsi

+    pop         rbp

+%else

+  %ifidn __OUTPUT_FORMAT__,x64

+    pop         rsi

+    RESTORE_XMM

+  %endif

+%endif

+    ret

+%endmacro

+%macro PROCESS_16X2X3 5

+%if %1==0

+        movdqa          xmm0,       XMMWORD PTR [%2]

+        lddqu           xmm5,       XMMWORD PTR [%3]

+        lddqu           xmm6,       XMMWORD PTR [%3+1]

+        lddqu           xmm7,       XMMWORD PTR [%3+2]

+        psadbw          xmm5,       xmm0

+        psadbw          xmm6,       xmm0

+        psadbw          xmm7,       xmm0

+%else

+        movdqa          xmm0,       XMMWORD PTR [%2]

+        lddqu           xmm1,       XMMWORD PTR [%3]

+        lddqu           xmm2,       XMMWORD PTR [%3+1]

+        lddqu           xmm3,       XMMWORD PTR [%3+2]

+        psadbw          xmm1,       xmm0

+        psadbw          xmm2,       xmm0

+        psadbw          xmm3,       xmm0

+        paddw           xmm5,       xmm1

+        paddw           xmm6,       xmm2

+        paddw           xmm7,       xmm3

+%endif

+        movdqa          xmm0,       XMMWORD PTR [%2+%4]

+        lddqu           xmm1,       XMMWORD PTR [%3+%5]

+        lddqu           xmm2,       XMMWORD PTR [%3+%5+1]

+        lddqu           xmm3,       XMMWORD PTR [%3+%5+2]

+%if %1==0 || %1==1

+        lea             %2,         [%2+%4*2]

+        lea             %3,         [%3+%5*2]

+%endif

+        psadbw          xmm1,       xmm0

+        psadbw          xmm2,       xmm0

+        psadbw          xmm3,       xmm0

+        paddw           xmm5,       xmm1

+        paddw           xmm6,       xmm2

+        paddw           xmm7,       xmm3

+%endmacro

+%macro PROCESS_8X2X3 5

+%if %1==0

+        movq            mm0,       QWORD PTR [%2]

+        movq            mm5,       QWORD PTR [%3]

+        movq            mm6,       QWORD PTR [%3+1]

+        movq            mm7,       QWORD PTR [%3+2]

+        psadbw          mm5,       mm0

+        psadbw          mm6,       mm0

+        psadbw          mm7,       mm0

+%else

+        movq            mm0,       QWORD PTR [%2]

+        movq            mm1,       QWORD PTR [%3]

+        movq            mm2,       QWORD PTR [%3+1]

+        movq            mm3,       QWORD PTR [%3+2]

+        psadbw          mm1,       mm0

+        psadbw          mm2,       mm0

+        psadbw          mm3,       mm0

+        paddw           mm5,       mm1

+        paddw           mm6,       mm2

+        paddw           mm7,       mm3

+%endif

+        movq            mm0,       QWORD PTR [%2+%4]

+        movq            mm1,       QWORD PTR [%3+%5]

+        movq            mm2,       QWORD PTR [%3+%5+1]

+        movq            mm3,       QWORD PTR [%3+%5+2]

+%if %1==0 || %1==1

+        lea             %2,        [%2+%4*2]

+        lea             %3,        [%3+%5*2]

+%endif

+        psadbw          mm1,       mm0

+        psadbw          mm2,       mm0

+        psadbw          mm3,       mm0

+        paddw           mm5,       mm1

+        paddw           mm6,       mm2

+        paddw           mm7,       mm3

+%endmacro

+%macro LOAD_X4_ADDRESSES 5

+        mov             %2,         [%1+REG_SZ_BYTES*0]

+        mov             %3,         [%1+REG_SZ_BYTES*1]

+        mov             %4,         [%1+REG_SZ_BYTES*2]

+        mov             %5,         [%1+REG_SZ_BYTES*3]

+%endmacro

+%macro PROCESS_16X2X4 8

+%if %1==0

+        movdqa          xmm0,       XMMWORD PTR [%2]

+        lddqu           xmm4,       XMMWORD PTR [%3]

+        lddqu           xmm5,       XMMWORD PTR [%4]

+        lddqu           xmm6,       XMMWORD PTR [%5]

+        lddqu           xmm7,       XMMWORD PTR [%6]

+        psadbw          xmm4,       xmm0

+        psadbw          xmm5,       xmm0

+        psadbw          xmm6,       xmm0

+        psadbw          xmm7,       xmm0

+%else

+        movdqa          xmm0,       XMMWORD PTR [%2]

+        lddqu           xmm1,       XMMWORD PTR [%3]

+        lddqu           xmm2,       XMMWORD PTR [%4]

+        lddqu           xmm3,       XMMWORD PTR [%5]

+        psadbw          xmm1,       xmm0

+        psadbw          xmm2,       xmm0

+        psadbw          xmm3,       xmm0

+        paddw           xmm4,       xmm1

+        lddqu           xmm1,       XMMWORD PTR [%6]

+        paddw           xmm5,       xmm2

+        paddw           xmm6,       xmm3

+        psadbw          xmm1,       xmm0

+        paddw           xmm7,       xmm1

+%endif

+        movdqa          xmm0,       XMMWORD PTR [%2+%7]

+        lddqu           xmm1,       XMMWORD PTR [%3+%8]

+        lddqu           xmm2,       XMMWORD PTR [%4+%8]

+        lddqu           xmm3,       XMMWORD PTR [%5+%8]

+        psadbw          xmm1,       xmm0

+        psadbw          xmm2,       xmm0

+        psadbw          xmm3,       xmm0

+        paddw           xmm4,       xmm1

+        lddqu           xmm1,       XMMWORD PTR [%6+%8]

+        paddw           xmm5,       xmm2

+        paddw           xmm6,       xmm3

+%if %1==0 || %1==1

+        lea             %2,         [%2+%7*2]

+        lea             %3,         [%3+%8*2]

+        lea             %4,         [%4+%8*2]

+        lea             %5,         [%5+%8*2]

+        lea             %6,         [%6+%8*2]

+%endif

+        psadbw          xmm1,       xmm0

+        paddw           xmm7,       xmm1

+%endmacro

+%macro PROCESS_8X2X4 8

+%if %1==0

+        movq            mm0,        QWORD PTR [%2]

+        movq            mm4,        QWORD PTR [%3]

+        movq            mm5,        QWORD PTR [%4]

+        movq            mm6,        QWORD PTR [%5]

+        movq            mm7,        QWORD PTR [%6]

+        psadbw          mm4,        mm0

+        psadbw          mm5,        mm0

+        psadbw          mm6,        mm0

+        psadbw          mm7,        mm0

+%else

+        movq            mm0,        QWORD PTR [%2]

+        movq            mm1,        QWORD PTR [%3]

+        movq            mm2,        QWORD PTR [%4]

+        movq            mm3,        QWORD PTR [%5]

+        psadbw          mm1,        mm0

+        psadbw          mm2,        mm0

+        psadbw          mm3,        mm0

+        paddw           mm4,        mm1

+        movq            mm1,        QWORD PTR [%6]

+        paddw           mm5,        mm2

+        paddw           mm6,        mm3

+        psadbw          mm1,        mm0

+        paddw           mm7,        mm1

+%endif

+        movq            mm0,        QWORD PTR [%2+%7]

+        movq            mm1,        QWORD PTR [%3+%8]

+        movq            mm2,        QWORD PTR [%4+%8]

+        movq            mm3,        QWORD PTR [%5+%8]

+        psadbw          mm1,        mm0

+        psadbw          mm2,        mm0

+        psadbw          mm3,        mm0

+        paddw           mm4,        mm1

+        movq            mm1,        QWORD PTR [%6+%8]

+        paddw           mm5,        mm2

+        paddw           mm6,        mm3

+%if %1==0 || %1==1

+        lea             %2,         [%2+%7*2]

+        lea             %3,         [%3+%8*2]

+        lea             %4,         [%4+%8*2]

+        lea             %5,         [%5+%8*2]

+        lea             %6,         [%6+%8*2]

+%endif

+        psadbw          mm1,        mm0

+        paddw           mm7,        mm1

+%endmacro

+;void int vp8_sad16x16x3_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad16x16x3_sse3)

+sym(vp8_sad16x16x3_sse3):

+    STACK_FRAME_CREATE_X3

+        PROCESS_16X2X3 0, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 2, src_ptr, ref_ptr, src_stride, ref_stride

+        mov             rcx,        result_ptr

+        movq            xmm0,       xmm5

+        psrldq          xmm5,       8

+        paddw           xmm0,       xmm5

+        movd            [rcx],      xmm0

+;-

+        movq            xmm0,       xmm6

+        psrldq          xmm6,       8

+        paddw           xmm0,       xmm6

+        movd            [rcx+4],    xmm0

+;-

+        movq            xmm0,       xmm7

+        psrldq          xmm7,       8

+        paddw           xmm0,       xmm7

+        movd            [rcx+8],    xmm0

+    STACK_FRAME_DESTROY_X3

+;void int vp8_sad16x8x3_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad16x8x3_sse3)

+sym(vp8_sad16x8x3_sse3):

+    STACK_FRAME_CREATE_X3

+        PROCESS_16X2X3 0, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_16X2X3 2, src_ptr, ref_ptr, src_stride, ref_stride

+        mov             rcx,        result_ptr

+        movq            xmm0,       xmm5

+        psrldq          xmm5,       8

+        paddw           xmm0,       xmm5

+        movd            [rcx],      xmm0

+;-

+        movq            xmm0,       xmm6

+        psrldq          xmm6,       8

+        paddw           xmm0,       xmm6

+        movd            [rcx+4],    xmm0

+;-

+        movq            xmm0,       xmm7

+        psrldq          xmm7,       8

+        paddw           xmm0,       xmm7

+        movd            [rcx+8],    xmm0

+    STACK_FRAME_DESTROY_X3

+;void int vp8_sad8x16x3_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad8x16x3_sse3)

+sym(vp8_sad8x16x3_sse3):

+    STACK_FRAME_CREATE_X3

+        PROCESS_8X2X3 0, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 2, src_ptr, ref_ptr, src_stride, ref_stride

+        mov             rcx,        result_ptr

+        punpckldq       mm5,        mm6

+        movq            [rcx],      mm5

+        movd            [rcx+8],    mm7

+    STACK_FRAME_DESTROY_X3

+;void int vp8_sad8x8x3_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad8x8x3_sse3)

+sym(vp8_sad8x8x3_sse3):

+    STACK_FRAME_CREATE_X3

+        PROCESS_8X2X3 0, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

+        PROCESS_8X2X3 2, src_ptr, ref_ptr, src_stride, ref_stride

+        mov             rcx,        result_ptr

+        punpckldq       mm5,        mm6

+        movq            [rcx],      mm5

+        movd            [rcx+8],    mm7

+    STACK_FRAME_DESTROY_X3

+;void int vp8_sad4x4x3_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad4x4x3_sse3)

+sym(vp8_sad4x4x3_sse3):

+    STACK_FRAME_CREATE_X3

+        movd            mm0,        DWORD PTR [src_ptr]

+        movd            mm1,        DWORD PTR [ref_ptr]

+        movd            mm2,        DWORD PTR [src_ptr+src_stride]

+        movd            mm3,        DWORD PTR [ref_ptr+ref_stride]

+        punpcklbw       mm0,        mm2

+        punpcklbw       mm1,        mm3

+        movd            mm4,        DWORD PTR [ref_ptr+1]

+        movd            mm5,        DWORD PTR [ref_ptr+2]

+        movd            mm2,        DWORD PTR [ref_ptr+ref_stride+1]

+        movd            mm3,        DWORD PTR [ref_ptr+ref_stride+2]

+        psadbw          mm1,        mm0

+        punpcklbw       mm4,        mm2

+        punpcklbw       mm5,        mm3

+        psadbw          mm4,        mm0

+        psadbw          mm5,        mm0

+        lea             src_ptr,    [src_ptr+src_stride*2]

+        lea             ref_ptr,    [ref_ptr+ref_stride*2]

+        movd            mm0,        DWORD PTR [src_ptr]

+        movd            mm2,        DWORD PTR [ref_ptr]

+        movd            mm3,        DWORD PTR [src_ptr+src_stride]

+        movd            mm6,        DWORD PTR [ref_ptr+ref_stride]

+        punpcklbw       mm0,        mm3

+        punpcklbw       mm2,        mm6

+        movd            mm3,        DWORD PTR [ref_ptr+1]

+        movd            mm7,        DWORD PTR [ref_ptr+2]

+        psadbw          mm2,        mm0

+        paddw           mm1,        mm2

+        movd            mm2,        DWORD PTR [ref_ptr+ref_stride+1]

+        movd            mm6,        DWORD PTR [ref_ptr+ref_stride+2]

+        punpcklbw       mm3,        mm2

+        punpcklbw       mm7,        mm6

+        psadbw          mm3,        mm0

+        psadbw          mm7,        mm0

+        paddw           mm3,        mm4

+        paddw           mm7,        mm5

+        mov             rcx,        result_ptr

+        punpckldq       mm1,        mm3

+        movq            [rcx],      mm1

+        movd            [rcx+8],    mm7

+    STACK_FRAME_DESTROY_X3

+;unsigned int vp8_sad16x16_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  max_sad)

+;%define lddqu movdqu

+global sym(vp8_sad16x16_sse3)

+sym(vp8_sad16x16_sse3):

+    STACK_FRAME_CREATE_X3

+        mov             end_ptr,    4

+        pxor            xmm7,        xmm7

+.vp8_sad16x16_sse3_loop:

+        movdqa          xmm0,       XMMWORD PTR [src_ptr]

+        movdqu          xmm1,       XMMWORD PTR [ref_ptr]

+        movdqa          xmm2,       XMMWORD PTR [src_ptr+src_stride]

+        movdqu          xmm3,       XMMWORD PTR [ref_ptr+ref_stride]

+        lea             src_ptr,    [src_ptr+src_stride*2]

+        lea             ref_ptr,    [ref_ptr+ref_stride*2]

+        movdqa          xmm4,       XMMWORD PTR [src_ptr]

+        movdqu          xmm5,       XMMWORD PTR [ref_ptr]

+        movdqa          xmm6,       XMMWORD PTR [src_ptr+src_stride]

+        psadbw          xmm0,       xmm1

+        movdqu          xmm1,       XMMWORD PTR [ref_ptr+ref_stride]

+        psadbw          xmm2,       xmm3

+        psadbw          xmm4,       xmm5

+        psadbw          xmm6,       xmm1

+        lea             src_ptr,    [src_ptr+src_stride*2]

+        lea             ref_ptr,    [ref_ptr+ref_stride*2]

+        paddw           xmm7,        xmm0

+        paddw           xmm7,        xmm2

+        paddw           xmm7,        xmm4

+        paddw           xmm7,        xmm6

+        sub             end_ptr,     1

+        jne             .vp8_sad16x16_sse3_loop

+        movq            xmm0,       xmm7

+        psrldq          xmm7,       8

+        paddw           xmm0,       xmm7

+        movq            rax,        xmm0

+    STACK_FRAME_DESTROY_X3

+;void vp8_copy32xn_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *dst_ptr,

+;    int  dst_stride,

+;    int height);

+global sym(vp8_copy32xn_sse3)

+sym(vp8_copy32xn_sse3):

+    STACK_FRAME_CREATE_X3

+.block_copy_sse3_loopx4:

+        lea             end_ptr,    [src_ptr+src_stride*2]

+        movdqu          xmm0,       XMMWORD PTR [src_ptr]

+        movdqu          xmm1,       XMMWORD PTR [src_ptr + 16]

+        movdqu          xmm2,       XMMWORD PTR [src_ptr + src_stride]

+        movdqu          xmm3,       XMMWORD PTR [src_ptr + src_stride + 16]

+        movdqu          xmm4,       XMMWORD PTR [end_ptr]

+        movdqu          xmm5,       XMMWORD PTR [end_ptr + 16]

+        movdqu          xmm6,       XMMWORD PTR [end_ptr + src_stride]

+        movdqu          xmm7,       XMMWORD PTR [end_ptr + src_stride + 16]

+        lea             src_ptr,    [src_ptr+src_stride*4]

+        lea             end_ptr,    [ref_ptr+ref_stride*2]

+        movdqa          XMMWORD PTR [ref_ptr], xmm0

+        movdqa          XMMWORD PTR [ref_ptr + 16], xmm1

+        movdqa          XMMWORD PTR [ref_ptr + ref_stride], xmm2

+        movdqa          XMMWORD PTR [ref_ptr + ref_stride + 16], xmm3

+        movdqa          XMMWORD PTR [end_ptr], xmm4

+        movdqa          XMMWORD PTR [end_ptr + 16], xmm5

+        movdqa          XMMWORD PTR [end_ptr + ref_stride], xmm6

+        movdqa          XMMWORD PTR [end_ptr + ref_stride + 16], xmm7

+        lea             ref_ptr,    [ref_ptr+ref_stride*4]

+        sub             height,     4

+        cmp             height,     4

+        jge             .block_copy_sse3_loopx4

+        ;Check to see if there is more rows need to be copied.

+        cmp             height, 0

+        je              .copy_is_done

+.block_copy_sse3_loop:

+        movdqu          xmm0,       XMMWORD PTR [src_ptr]

+        movdqu          xmm1,       XMMWORD PTR [src_ptr + 16]

+        lea             src_ptr,    [src_ptr+src_stride]

+        movdqa          XMMWORD PTR [ref_ptr], xmm0

+        movdqa          XMMWORD PTR [ref_ptr + 16], xmm1

+        lea             ref_ptr,    [ref_ptr+ref_stride]

+        sub             height,     1

+        jne             .block_copy_sse3_loop

+.copy_is_done:

+    STACK_FRAME_DESTROY_X3

+;void vp8_sad16x16x4d_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr_base,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad16x16x4d_sse3)

+sym(vp8_sad16x16x4d_sse3):

+    STACK_FRAME_CREATE_X4

+        PROCESS_16X2X4 0, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 2, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+%if ABI_IS_32BIT

+        pop             rbp

+%endif

+        mov             rcx,        result_ptr

+        movq            xmm0,       xmm4

+        psrldq          xmm4,       8

+        paddw           xmm0,       xmm4

+        movd            [rcx],      xmm0

+;-

+        movq            xmm0,       xmm5

+        psrldq          xmm5,       8

+        paddw           xmm0,       xmm5

+        movd            [rcx+4],    xmm0

+;-

+        movq            xmm0,       xmm6

+        psrldq          xmm6,       8

+        paddw           xmm0,       xmm6

+        movd            [rcx+8],    xmm0

+;-

+        movq            xmm0,       xmm7

+        psrldq          xmm7,       8

+        paddw           xmm0,       xmm7

+        movd            [rcx+12],   xmm0

+    STACK_FRAME_DESTROY_X4

+;void vp8_sad16x8x4d_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr_base,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad16x8x4d_sse3)

+sym(vp8_sad16x8x4d_sse3):

+    STACK_FRAME_CREATE_X4

+        PROCESS_16X2X4 0, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_16X2X4 2, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+%if ABI_IS_32BIT

+        pop             rbp

+%endif

+        mov             rcx,        result_ptr

+        movq            xmm0,       xmm4

+        psrldq          xmm4,       8

+        paddw           xmm0,       xmm4

+        movd            [rcx],      xmm0

+;-

+        movq            xmm0,       xmm5

+        psrldq          xmm5,       8

+        paddw           xmm0,       xmm5

+        movd            [rcx+4],    xmm0

+;-

+        movq            xmm0,       xmm6

+        psrldq          xmm6,       8

+        paddw           xmm0,       xmm6

+        movd            [rcx+8],    xmm0

+;-

+        movq            xmm0,       xmm7

+        psrldq          xmm7,       8

+        paddw           xmm0,       xmm7

+        movd            [rcx+12],   xmm0

+    STACK_FRAME_DESTROY_X4

+;void int vp8_sad8x16x4d_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad8x16x4d_sse3)

+sym(vp8_sad8x16x4d_sse3):

+    STACK_FRAME_CREATE_X4

+        PROCESS_8X2X4 0, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 2, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+%if ABI_IS_32BIT

+        pop             rbp

+%endif

+        mov             rcx,        result_ptr

+        punpckldq       mm4,        mm5

+        punpckldq       mm6,        mm7

+        movq            [rcx],      mm4

+        movq            [rcx+8],    mm6

+    STACK_FRAME_DESTROY_X4

+;void int vp8_sad8x8x4d_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad8x8x4d_sse3)

+sym(vp8_sad8x8x4d_sse3):

+    STACK_FRAME_CREATE_X4

+        PROCESS_8X2X4 0, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+        PROCESS_8X2X4 2, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

+%if ABI_IS_32BIT

+        pop             rbp

+%endif

+        mov             rcx,        result_ptr

+        punpckldq       mm4,        mm5

+        punpckldq       mm6,        mm7

+        movq            [rcx],      mm4

+        movq            [rcx+8],    mm6

+    STACK_FRAME_DESTROY_X4

+;void int vp8_sad4x4x4d_sse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad4x4x4d_sse3)

+sym(vp8_sad4x4x4d_sse3):

+    STACK_FRAME_CREATE_X4

+        movd            mm0,        DWORD PTR [src_ptr]

+        movd            mm1,        DWORD PTR [r0_ptr]

+        movd            mm2,        DWORD PTR [src_ptr+src_stride]

+        movd            mm3,        DWORD PTR [r0_ptr+ref_stride]

+        punpcklbw       mm0,        mm2

+        punpcklbw       mm1,        mm3

+        movd            mm4,        DWORD PTR [r1_ptr]

+        movd            mm5,        DWORD PTR [r2_ptr]

+        movd            mm6,        DWORD PTR [r3_ptr]

+        movd            mm2,        DWORD PTR [r1_ptr+ref_stride]

+        movd            mm3,        DWORD PTR [r2_ptr+ref_stride]

+        movd            mm7,        DWORD PTR [r3_ptr+ref_stride]

+        psadbw          mm1,        mm0

+        punpcklbw       mm4,        mm2

+        punpcklbw       mm5,        mm3

+        punpcklbw       mm6,        mm7

+        psadbw          mm4,        mm0

+        psadbw          mm5,        mm0

+        psadbw          mm6,        mm0

+        lea             src_ptr,    [src_ptr+src_stride*2]

+        lea             r0_ptr,     [r0_ptr+ref_stride*2]

+        lea             r1_ptr,     [r1_ptr+ref_stride*2]

+        lea             r2_ptr,     [r2_ptr+ref_stride*2]

+        lea             r3_ptr,     [r3_ptr+ref_stride*2]

+        movd            mm0,        DWORD PTR [src_ptr]

+        movd            mm2,        DWORD PTR [r0_ptr]

+        movd            mm3,        DWORD PTR [src_ptr+src_stride]

+        movd            mm7,        DWORD PTR [r0_ptr+ref_stride]

+        punpcklbw       mm0,        mm3

+        punpcklbw       mm2,        mm7

+        movd            mm3,        DWORD PTR [r1_ptr]

+        movd            mm7,        DWORD PTR [r2_ptr]

+        psadbw          mm2,        mm0

+%if ABI_IS_32BIT

+        mov             rax,        rbp

+        pop             rbp

+%define     ref_stride    rax

+%endif

+        mov             rsi,        result_ptr

+        paddw           mm1,        mm2

+        movd            [rsi],      mm1

+        movd            mm2,        DWORD PTR [r1_ptr+ref_stride]

+        movd            mm1,        DWORD PTR [r2_ptr+ref_stride]

+        punpcklbw       mm3,        mm2

+        punpcklbw       mm7,        mm1

+        psadbw          mm3,        mm0

+        psadbw          mm7,        mm0

+        movd            mm2,        DWORD PTR [r3_ptr]

+        movd            mm1,        DWORD PTR [r3_ptr+ref_stride]

+        paddw           mm3,        mm4

+        paddw           mm7,        mm5

+        movd            [rsi+4],    mm3

+        punpcklbw       mm2,        mm1

+        movd            [rsi+8],    mm7

+        psadbw          mm2,        mm0

+        paddw           mm2,        mm6

+        movd            [rsi+12],   mm2

+    STACK_FRAME_DESTROY_X4

--- /dev/null

+++ b/vp8/common/x86/sad_sse4.asm

@@ -1,0 +1,353 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+%macro PROCESS_16X2X8 1

+%if %1

+        movdqa          xmm0,       XMMWORD PTR [rsi]

+        movq            xmm1,       MMWORD PTR [rdi]

+        movq            xmm3,       MMWORD PTR [rdi+8]

+        movq            xmm2,       MMWORD PTR [rdi+16]

+        punpcklqdq      xmm1,       xmm3

+        punpcklqdq      xmm3,       xmm2

+        movdqa          xmm2,       xmm1

+        mpsadbw         xmm1,       xmm0,  0x0

+        mpsadbw         xmm2,       xmm0,  0x5

+        psrldq          xmm0,       8

+        movdqa          xmm4,       xmm3

+        mpsadbw         xmm3,       xmm0,  0x0

+        mpsadbw         xmm4,       xmm0,  0x5

+        paddw           xmm1,       xmm2

+        paddw           xmm1,       xmm3

+        paddw           xmm1,       xmm4

+%else

+        movdqa          xmm0,       XMMWORD PTR [rsi]

+        movq            xmm5,       MMWORD PTR [rdi]

+        movq            xmm3,       MMWORD PTR [rdi+8]

+        movq            xmm2,       MMWORD PTR [rdi+16]

+        punpcklqdq      xmm5,       xmm3

+        punpcklqdq      xmm3,       xmm2

+        movdqa          xmm2,       xmm5

+        mpsadbw         xmm5,       xmm0,  0x0

+        mpsadbw         xmm2,       xmm0,  0x5

+        psrldq          xmm0,       8

+        movdqa          xmm4,       xmm3

+        mpsadbw         xmm3,       xmm0,  0x0

+        mpsadbw         xmm4,       xmm0,  0x5

+        paddw           xmm5,       xmm2

+        paddw           xmm5,       xmm3

+        paddw           xmm5,       xmm4

+        paddw           xmm1,       xmm5

+%endif

+        movdqa          xmm0,       XMMWORD PTR [rsi + rax]

+        movq            xmm5,       MMWORD PTR [rdi+ rdx]

+        movq            xmm3,       MMWORD PTR [rdi+ rdx+8]

+        movq            xmm2,       MMWORD PTR [rdi+ rdx+16]

+        punpcklqdq      xmm5,       xmm3

+        punpcklqdq      xmm3,       xmm2

+        lea             rsi,        [rsi+rax*2]

+        lea             rdi,        [rdi+rdx*2]

+        movdqa          xmm2,       xmm5

+        mpsadbw         xmm5,       xmm0,  0x0

+        mpsadbw         xmm2,       xmm0,  0x5

+        psrldq          xmm0,       8

+        movdqa          xmm4,       xmm3

+        mpsadbw         xmm3,       xmm0,  0x0

+        mpsadbw         xmm4,       xmm0,  0x5

+        paddw           xmm5,       xmm2

+        paddw           xmm5,       xmm3

+        paddw           xmm5,       xmm4

+        paddw           xmm1,       xmm5

+%endmacro

+%macro PROCESS_8X2X8 1

+%if %1

+        movq            xmm0,       MMWORD PTR [rsi]

+        movq            xmm1,       MMWORD PTR [rdi]

+        movq            xmm3,       MMWORD PTR [rdi+8]

+        punpcklqdq      xmm1,       xmm3

+        movdqa          xmm2,       xmm1

+        mpsadbw         xmm1,       xmm0,  0x0

+        mpsadbw         xmm2,       xmm0,  0x5

+        paddw           xmm1,       xmm2

+%else

+        movq            xmm0,       MMWORD PTR [rsi]

+        movq            xmm5,       MMWORD PTR [rdi]

+        movq            xmm3,       MMWORD PTR [rdi+8]

+        punpcklqdq      xmm5,       xmm3

+        movdqa          xmm2,       xmm5

+        mpsadbw         xmm5,       xmm0,  0x0

+        mpsadbw         xmm2,       xmm0,  0x5

+        paddw           xmm5,       xmm2

+        paddw           xmm1,       xmm5

+%endif

+        movq            xmm0,       MMWORD PTR [rsi + rax]

+        movq            xmm5,       MMWORD PTR [rdi+ rdx]

+        movq            xmm3,       MMWORD PTR [rdi+ rdx+8]

+        punpcklqdq      xmm5,       xmm3

+        lea             rsi,        [rsi+rax*2]

+        lea             rdi,        [rdi+rdx*2]

+        movdqa          xmm2,       xmm5

+        mpsadbw         xmm5,       xmm0,  0x0

+        mpsadbw         xmm2,       xmm0,  0x5

+        paddw           xmm5,       xmm2

+        paddw           xmm1,       xmm5

+%endmacro

+%macro PROCESS_4X2X8 1

+%if %1

+        movd            xmm0,       [rsi]

+        movq            xmm1,       MMWORD PTR [rdi]

+        movq            xmm3,       MMWORD PTR [rdi+8]

+        punpcklqdq      xmm1,       xmm3

+        mpsadbw         xmm1,       xmm0,  0x0

+%else

+        movd            xmm0,       [rsi]

+        movq            xmm5,       MMWORD PTR [rdi]

+        movq            xmm3,       MMWORD PTR [rdi+8]

+        punpcklqdq      xmm5,       xmm3

+        mpsadbw         xmm5,       xmm0,  0x0

+        paddw           xmm1,       xmm5

+%endif

+        movd            xmm0,       [rsi + rax]

+        movq            xmm5,       MMWORD PTR [rdi+ rdx]

+        movq            xmm3,       MMWORD PTR [rdi+ rdx+8]

+        punpcklqdq      xmm5,       xmm3

+        lea             rsi,        [rsi+rax*2]

+        lea             rdi,        [rdi+rdx*2]

+        mpsadbw         xmm5,       xmm0,  0x0

+        paddw           xmm1,       xmm5

+%endmacro

+;void vp8_sad16x16x8_sse4(

+;    const unsigned char *src_ptr,

+;    int  src_stride,

+;    const unsigned char *ref_ptr,

+;    int  ref_stride,

+;    unsigned short *sad_array);

+global sym(vp8_sad16x16x8_sse4)

+sym(vp8_sad16x16x8_sse4):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0)           ;src_ptr

+        mov             rdi,        arg(2)           ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        PROCESS_16X2X8 1

+        PROCESS_16X2X8 0

+        PROCESS_16X2X8 0

+        PROCESS_16X2X8 0

+        PROCESS_16X2X8 0

+        PROCESS_16X2X8 0

+        PROCESS_16X2X8 0

+        PROCESS_16X2X8 0

+        mov             rdi,        arg(4)           ;Results

+        movdqa          XMMWORD PTR [rdi],    xmm1

+    ; begin epilog

+    pop         rdi

+    pop         rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_sad16x8x8_sse4(

+;    const unsigned char *src_ptr,

+;    int  src_stride,

+;    const unsigned char *ref_ptr,

+;    int  ref_stride,

+;    unsigned short *sad_array

+;);

+global sym(vp8_sad16x8x8_sse4)

+sym(vp8_sad16x8x8_sse4):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0)           ;src_ptr

+        mov             rdi,        arg(2)           ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        PROCESS_16X2X8 1

+        PROCESS_16X2X8 0

+        PROCESS_16X2X8 0

+        PROCESS_16X2X8 0

+        mov             rdi,        arg(4)           ;Results

+        movdqa          XMMWORD PTR [rdi],    xmm1

+    ; begin epilog

+    pop         rdi

+    pop         rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_sad8x8x8_sse4(

+;    const unsigned char *src_ptr,

+;    int  src_stride,

+;    const unsigned char *ref_ptr,

+;    int  ref_stride,

+;    unsigned short *sad_array

+;);

+global sym(vp8_sad8x8x8_sse4)

+sym(vp8_sad8x8x8_sse4):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0)           ;src_ptr

+        mov             rdi,        arg(2)           ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        PROCESS_8X2X8 1

+        PROCESS_8X2X8 0

+        PROCESS_8X2X8 0

+        PROCESS_8X2X8 0

+        mov             rdi,        arg(4)           ;Results

+        movdqa          XMMWORD PTR [rdi],    xmm1

+    ; begin epilog

+    pop         rdi

+    pop         rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_sad8x16x8_sse4(

+;    const unsigned char *src_ptr,

+;    int  src_stride,

+;    const unsigned char *ref_ptr,

+;    int  ref_stride,

+;    unsigned short *sad_array

+;);

+global sym(vp8_sad8x16x8_sse4)

+sym(vp8_sad8x16x8_sse4):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0)           ;src_ptr

+        mov             rdi,        arg(2)           ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        PROCESS_8X2X8 1

+        PROCESS_8X2X8 0

+        PROCESS_8X2X8 0

+        PROCESS_8X2X8 0

+        PROCESS_8X2X8 0

+        PROCESS_8X2X8 0

+        PROCESS_8X2X8 0

+        PROCESS_8X2X8 0

+        mov             rdi,        arg(4)           ;Results

+        movdqa          XMMWORD PTR [rdi],    xmm1

+    ; begin epilog

+    pop         rdi

+    pop         rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_sad4x4x8_c(

+;    const unsigned char *src_ptr,

+;    int  src_stride,

+;    const unsigned char *ref_ptr,

+;    int  ref_stride,

+;    unsigned short *sad_array

+;);

+global sym(vp8_sad4x4x8_sse4)

+sym(vp8_sad4x4x8_sse4):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    push        rsi

+    push        rdi

+    ; end prolog

+        mov             rsi,        arg(0)           ;src_ptr

+        mov             rdi,        arg(2)           ;ref_ptr

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        PROCESS_4X2X8 1

+        PROCESS_4X2X8 0

+        mov             rdi,        arg(4)           ;Results

+        movdqa          XMMWORD PTR [rdi],    xmm1

+    ; begin epilog

+    pop         rdi

+    pop         rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

--- /dev/null

+++ b/vp8/common/x86/sad_ssse3.asm

@@ -1,0 +1,370 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+%macro PROCESS_16X2X3 1

+%if %1

+        movdqa          xmm0,       XMMWORD PTR [rsi]

+        lddqu           xmm5,       XMMWORD PTR [rdi]

+        lddqu           xmm6,       XMMWORD PTR [rdi+1]

+        lddqu           xmm7,       XMMWORD PTR [rdi+2]

+        psadbw          xmm5,       xmm0

+        psadbw          xmm6,       xmm0

+        psadbw          xmm7,       xmm0

+%else

+        movdqa          xmm0,       XMMWORD PTR [rsi]

+        lddqu           xmm1,       XMMWORD PTR [rdi]

+        lddqu           xmm2,       XMMWORD PTR [rdi+1]

+        lddqu           xmm3,       XMMWORD PTR [rdi+2]

+        psadbw          xmm1,       xmm0

+        psadbw          xmm2,       xmm0

+        psadbw          xmm3,       xmm0

+        paddw           xmm5,       xmm1

+        paddw           xmm6,       xmm2

+        paddw           xmm7,       xmm3

+%endif

+        movdqa          xmm0,       XMMWORD PTR [rsi+rax]

+        lddqu           xmm1,       XMMWORD PTR [rdi+rdx]

+        lddqu           xmm2,       XMMWORD PTR [rdi+rdx+1]

+        lddqu           xmm3,       XMMWORD PTR [rdi+rdx+2]

+        lea             rsi,        [rsi+rax*2]

+        lea             rdi,        [rdi+rdx*2]

+        psadbw          xmm1,       xmm0

+        psadbw          xmm2,       xmm0

+        psadbw          xmm3,       xmm0

+        paddw           xmm5,       xmm1

+        paddw           xmm6,       xmm2

+        paddw           xmm7,       xmm3

+%endmacro

+%macro PROCESS_16X2X3_OFFSET 2

+%if %1

+        movdqa          xmm0,       XMMWORD PTR [rsi]

+        movdqa          xmm4,       XMMWORD PTR [rdi]

+        movdqa          xmm7,       XMMWORD PTR [rdi+16]

+        movdqa          xmm5,       xmm7

+        palignr         xmm5,       xmm4,       %2

+        movdqa          xmm6,       xmm7

+        palignr         xmm6,       xmm4,       (%2+1)

+        palignr         xmm7,       xmm4,       (%2+2)

+        psadbw          xmm5,       xmm0

+        psadbw          xmm6,       xmm0

+        psadbw          xmm7,       xmm0

+%else

+        movdqa          xmm0,       XMMWORD PTR [rsi]

+        movdqa          xmm4,       XMMWORD PTR [rdi]

+        movdqa          xmm3,       XMMWORD PTR [rdi+16]

+        movdqa          xmm1,       xmm3

+        palignr         xmm1,       xmm4,       %2

+        movdqa          xmm2,       xmm3

+        palignr         xmm2,       xmm4,       (%2+1)

+        palignr         xmm3,       xmm4,       (%2+2)

+        psadbw          xmm1,       xmm0

+        psadbw          xmm2,       xmm0

+        psadbw          xmm3,       xmm0

+        paddw           xmm5,       xmm1

+        paddw           xmm6,       xmm2

+        paddw           xmm7,       xmm3

+%endif

+        movdqa          xmm0,       XMMWORD PTR [rsi+rax]

+        movdqa          xmm4,       XMMWORD PTR [rdi+rdx]

+        movdqa          xmm3,       XMMWORD PTR [rdi+rdx+16]

+        movdqa          xmm1,       xmm3

+        palignr         xmm1,       xmm4,       %2

+        movdqa          xmm2,       xmm3

+        palignr         xmm2,       xmm4,       (%2+1)

+        palignr         xmm3,       xmm4,       (%2+2)

+        lea             rsi,        [rsi+rax*2]

+        lea             rdi,        [rdi+rdx*2]

+        psadbw          xmm1,       xmm0

+        psadbw          xmm2,       xmm0

+        psadbw          xmm3,       xmm0

+        paddw           xmm5,       xmm1

+        paddw           xmm6,       xmm2

+        paddw           xmm7,       xmm3

+%endmacro

+%macro PROCESS_16X16X3_OFFSET 2

+%2_aligned_by_%1:

+        sub             rdi,        %1

+        PROCESS_16X2X3_OFFSET 1, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        jmp             %2_store_off

+%endmacro

+%macro PROCESS_16X8X3_OFFSET 2

+%2_aligned_by_%1:

+        sub             rdi,        %1

+        PROCESS_16X2X3_OFFSET 1, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        PROCESS_16X2X3_OFFSET 0, %1

+        jmp             %2_store_off

+%endmacro

+;void int vp8_sad16x16x3_ssse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad16x16x3_ssse3)

+sym(vp8_sad16x16x3_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    SAVE_XMM 7

+    push        rsi

+    push        rdi

+    push        rcx

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        mov             rdx,        0xf

+        and             rdx,        rdi

+        jmp .vp8_sad16x16x3_ssse3_skiptable

+.vp8_sad16x16x3_ssse3_jumptable:

+        dd .vp8_sad16x16x3_ssse3_aligned_by_0  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_1  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_2  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_3  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_4  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_5  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_6  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_7  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_8  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_9  - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_10 - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_11 - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_12 - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_13 - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_14 - .vp8_sad16x16x3_ssse3_do_jump

+        dd .vp8_sad16x16x3_ssse3_aligned_by_15 - .vp8_sad16x16x3_ssse3_do_jump

+.vp8_sad16x16x3_ssse3_skiptable:

+        call .vp8_sad16x16x3_ssse3_do_jump

+.vp8_sad16x16x3_ssse3_do_jump:

+        pop             rcx                         ; get the address of do_jump

+        mov             rax,  .vp8_sad16x16x3_ssse3_jumptable - .vp8_sad16x16x3_ssse3_do_jump

+        add             rax,  rcx  ; get the absolute address of vp8_sad16x16x3_ssse3_jumptable

+        movsxd          rax,  dword [rax + 4*rdx]   ; get the 32 bit offset from the jumptable

+        add             rcx,        rax

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        jmp             rcx

+        PROCESS_16X16X3_OFFSET 0,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 1,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 2,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 3,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 4,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 5,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 6,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 7,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 8,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 9,  .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 10, .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 11, .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 12, .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 13, .vp8_sad16x16x3_ssse3

+        PROCESS_16X16X3_OFFSET 14, .vp8_sad16x16x3_ssse3

+.vp8_sad16x16x3_ssse3_aligned_by_15:

+        PROCESS_16X2X3 1

+        PROCESS_16X2X3 0

+        PROCESS_16X2X3 0

+        PROCESS_16X2X3 0

+        PROCESS_16X2X3 0

+        PROCESS_16X2X3 0

+        PROCESS_16X2X3 0

+        PROCESS_16X2X3 0

+.vp8_sad16x16x3_ssse3_store_off:

+        mov             rdi,        arg(4) ;Results

+        movq            xmm0,       xmm5

+        psrldq          xmm5,       8

+        paddw           xmm0,       xmm5

+        movd            [rdi],      xmm0

+;-

+        movq            xmm0,       xmm6

+        psrldq          xmm6,       8

+        paddw           xmm0,       xmm6

+        movd            [rdi+4],    xmm0

+;-

+        movq            xmm0,       xmm7

+        psrldq          xmm7,       8

+        paddw           xmm0,       xmm7

+        movd            [rdi+8],    xmm0

+    ; begin epilog

+    pop         rcx

+    pop         rdi

+    pop         rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void int vp8_sad16x8x3_ssse3(

+;    unsigned char *src_ptr,

+;    int  src_stride,

+;    unsigned char *ref_ptr,

+;    int  ref_stride,

+;    int  *results)

+global sym(vp8_sad16x8x3_ssse3)

+sym(vp8_sad16x8x3_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 5

+    SAVE_XMM 7

+    push        rsi

+    push        rdi

+    push        rcx

+    ; end prolog

+        mov             rsi,        arg(0) ;src_ptr

+        mov             rdi,        arg(2) ;ref_ptr

+        mov             rdx,        0xf

+        and             rdx,        rdi

+        jmp .vp8_sad16x8x3_ssse3_skiptable

+.vp8_sad16x8x3_ssse3_jumptable:

+        dd .vp8_sad16x8x3_ssse3_aligned_by_0  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_1  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_2  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_3  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_4  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_5  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_6  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_7  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_8  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_9  - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_10 - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_11 - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_12 - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_13 - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_14 - .vp8_sad16x8x3_ssse3_do_jump

+        dd .vp8_sad16x8x3_ssse3_aligned_by_15 - .vp8_sad16x8x3_ssse3_do_jump

+.vp8_sad16x8x3_ssse3_skiptable:

+        call .vp8_sad16x8x3_ssse3_do_jump

+.vp8_sad16x8x3_ssse3_do_jump:

+        pop             rcx                         ; get the address of do_jump

+        mov             rax,  .vp8_sad16x8x3_ssse3_jumptable - .vp8_sad16x8x3_ssse3_do_jump

+        add             rax,  rcx  ; get the absolute address of vp8_sad16x8x3_ssse3_jumptable

+        movsxd          rax,  dword [rax + 4*rdx]   ; get the 32 bit offset from the jumptable

+        add             rcx,        rax

+        movsxd          rax,        dword ptr arg(1) ;src_stride

+        movsxd          rdx,        dword ptr arg(3) ;ref_stride

+        jmp             rcx

+        PROCESS_16X8X3_OFFSET 0,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 1,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 2,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 3,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 4,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 5,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 6,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 7,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 8,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 9,  .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 10, .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 11, .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 12, .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 13, .vp8_sad16x8x3_ssse3

+        PROCESS_16X8X3_OFFSET 14, .vp8_sad16x8x3_ssse3

+.vp8_sad16x8x3_ssse3_aligned_by_15:

+        PROCESS_16X2X3 1

+        PROCESS_16X2X3 0

+        PROCESS_16X2X3 0

+        PROCESS_16X2X3 0

+.vp8_sad16x8x3_ssse3_store_off:

+        mov             rdi,        arg(4) ;Results

+        movq            xmm0,       xmm5

+        psrldq          xmm5,       8

+        paddw           xmm0,       xmm5

+        movd            [rdi],      xmm0

+;-

+        movq            xmm0,       xmm6

+        psrldq          xmm6,       8

+        paddw           xmm0,       xmm6

+        movd            [rdi+4],    xmm0

+;-

+        movq            xmm0,       xmm7

+        psrldq          xmm7,       8

+        paddw           xmm0,       xmm7

+        movd            [rdi+8],    xmm0

+    ; begin epilog

+    pop         rcx

+    pop         rdi

+    pop         rsi

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

--- /dev/null

+++ b/vp8/common/x86/variance_impl_mmx.asm

@@ -1,0 +1,851 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+;unsigned int vp8_get_mb_ss_mmx( short *src_ptr )

+global sym(vp8_get_mb_ss_mmx)

+sym(vp8_get_mb_ss_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    sub         rsp, 8

+    ; end prolog

+        mov         rax, arg(0) ;src_ptr

+        mov         rcx, 16

+        pxor        mm4, mm4

+.NEXTROW:

+        movq        mm0, [rax]

+        movq        mm1, [rax+8]

+        movq        mm2, [rax+16]

+        movq        mm3, [rax+24]

+        pmaddwd     mm0, mm0

+        pmaddwd     mm1, mm1

+        pmaddwd     mm2, mm2

+        pmaddwd     mm3, mm3

+        paddd       mm4, mm0

+        paddd       mm4, mm1

+        paddd       mm4, mm2

+        paddd       mm4, mm3

+        add         rax, 32

+        dec         rcx

+        ja          .NEXTROW

+        movq        QWORD PTR [rsp], mm4

+        ;return sum[0]+sum[1];

+        movsxd      rax, dword ptr [rsp]

+        movsxd      rcx, dword ptr [rsp+4]

+        add         rax, rcx

+    ; begin epilog

+    add rsp, 8

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_get8x8var_mmx

+;(

+;    unsigned char *src_ptr,

+;    int  source_stride,

+;    unsigned char *ref_ptr,

+;    int  recon_stride,

+;    unsigned int *SSE,

+;    int *Sum

+;)

+global sym(vp8_get8x8var_mmx)

+sym(vp8_get8x8var_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    push rsi

+    push rdi

+    push rbx

+    sub         rsp, 16

+    ; end prolog

+        pxor        mm5, mm5                    ; Blank mmx6

+        pxor        mm6, mm6                    ; Blank mmx7

+        pxor        mm7, mm7                    ; Blank mmx7

+        mov         rax, arg(0) ;[src_ptr]  ; Load base addresses

+        mov         rbx, arg(2) ;[ref_ptr]

+        movsxd      rcx, dword ptr arg(1) ;[source_stride]

+        movsxd      rdx, dword ptr arg(3) ;[recon_stride]

+        ; Row 1

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        movq        mm2, mm0                    ; Take copies

+        movq        mm3, mm1                    ; Take copies

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

+        punpckhbw   mm3, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        psubsw      mm2, mm3                    ; A-B (high order) to MM2

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        paddw       mm5, mm2                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        pmaddwd     mm2, mm2                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        paddd       mm7, mm2                    ; accumulate in mm7

+        ; Row 2

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm2, mm0                    ; Take copies

+        movq        mm3, mm1                    ; Take copies

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

+        punpckhbw   mm3, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        psubsw      mm2, mm3                    ; A-B (high order) to MM2

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        paddw       mm5, mm2                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        pmaddwd     mm2, mm2                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        paddd       mm7, mm2                    ; accumulate in mm7

+        ; Row 3

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm2, mm0                    ; Take copies

+        movq        mm3, mm1                    ; Take copies

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

+        punpckhbw   mm3, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        psubsw      mm2, mm3                    ; A-B (high order) to MM2

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        paddw       mm5, mm2                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        pmaddwd     mm2, mm2                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        paddd       mm7, mm2                    ; accumulate in mm7

+        ; Row 4

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm2, mm0                    ; Take copies

+        movq        mm3, mm1                    ; Take copies

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

+        punpckhbw   mm3, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        psubsw      mm2, mm3                    ; A-B (high order) to MM2

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        paddw       mm5, mm2                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        pmaddwd     mm2, mm2                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        paddd       mm7, mm2                    ; accumulate in mm7

+        ; Row 5

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm2, mm0                    ; Take copies

+        movq        mm3, mm1                    ; Take copies

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

+        punpckhbw   mm3, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        psubsw      mm2, mm3                    ; A-B (high order) to MM2

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        paddw       mm5, mm2                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        pmaddwd     mm2, mm2                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        ;              movq        mm4, [rbx + rdx]

+        paddd       mm7, mm0                    ; accumulate in mm7

+        paddd       mm7, mm2                    ; accumulate in mm7

+        ; Row 6

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm2, mm0                    ; Take copies

+        movq        mm3, mm1                    ; Take copies

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

+        punpckhbw   mm3, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        psubsw      mm2, mm3                    ; A-B (high order) to MM2

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        paddw       mm5, mm2                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        pmaddwd     mm2, mm2                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        paddd       mm7, mm2                    ; accumulate in mm7

+        ; Row 7

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm2, mm0                    ; Take copies

+        movq        mm3, mm1                    ; Take copies

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

+        punpckhbw   mm3, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        psubsw      mm2, mm3                    ; A-B (high order) to MM2

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        paddw       mm5, mm2                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        pmaddwd     mm2, mm2                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        paddd       mm7, mm2                    ; accumulate in mm7

+        ; Row 8

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm2, mm0                    ; Take copies

+        movq        mm3, mm1                    ; Take copies

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

+        punpckhbw   mm3, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        psubsw      mm2, mm3                    ; A-B (high order) to MM2

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        paddw       mm5, mm2                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        pmaddwd     mm2, mm2                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        paddd       mm7, mm0                    ; accumulate in mm7

+        paddd       mm7, mm2                    ; accumulate in mm7

+        ; Now accumulate the final results.

+        movq        QWORD PTR [rsp+8], mm5      ; copy back accumulated results into normal memory

+        movq        QWORD PTR [rsp], mm7        ; copy back accumulated results into normal memory

+        movsx       rdx, WORD PTR [rsp+8]

+        movsx       rcx, WORD PTR [rsp+10]

+        movsx       rbx, WORD PTR [rsp+12]

+        movsx       rax, WORD PTR [rsp+14]

+        add         rdx, rcx

+        add         rbx, rax

+        add         rdx, rbx    ;XSum

+        movsxd      rax, DWORD PTR [rsp]

+        movsxd      rcx, DWORD PTR [rsp+4]

+        add         rax, rcx    ;XXSum

+        mov         rsi, arg(4) ;SSE

+        mov         rdi, arg(5) ;Sum

+        mov         dword ptr [rsi], eax

+        mov         dword ptr [rdi], edx

+        xor         rax, rax    ; return 0

+    ; begin epilog

+    add rsp, 16

+    pop rbx

+    pop rdi

+    pop rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int

+;vp8_get4x4var_mmx

+;(

+;    unsigned char *src_ptr,

+;    int  source_stride,

+;    unsigned char *ref_ptr,

+;    int  recon_stride,

+;    unsigned int *SSE,

+;    int *Sum

+;)

+global sym(vp8_get4x4var_mmx)

+sym(vp8_get4x4var_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    push rsi

+    push rdi

+    push rbx

+    sub         rsp, 16

+    ; end prolog

+        pxor        mm5, mm5                    ; Blank mmx6

+        pxor        mm6, mm6                    ; Blank mmx7

+        pxor        mm7, mm7                    ; Blank mmx7

+        mov         rax, arg(0) ;[src_ptr]  ; Load base addresses

+        mov         rbx, arg(2) ;[ref_ptr]

+        movsxd      rcx, dword ptr arg(1) ;[source_stride]

+        movsxd      rdx, dword ptr arg(3) ;[recon_stride]

+        ; Row 1

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        ; Row 2

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        ; Row 3

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        ; Row 4

+        movq        mm0, [rax]                  ; Copy eight bytes to mm0

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        paddw       mm5, mm0                    ; accumulate differences in mm5

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        paddd       mm7, mm0                    ; accumulate in mm7

+        ; Now accumulate the final results.

+        movq        QWORD PTR [rsp+8], mm5      ; copy back accumulated results into normal memory

+        movq        QWORD PTR [rsp], mm7        ; copy back accumulated results into normal memory

+        movsx       rdx, WORD PTR [rsp+8]

+        movsx       rcx, WORD PTR [rsp+10]

+        movsx       rbx, WORD PTR [rsp+12]

+        movsx       rax, WORD PTR [rsp+14]

+        add         rdx, rcx

+        add         rbx, rax

+        add         rdx, rbx    ;XSum

+        movsxd      rax, DWORD PTR [rsp]

+        movsxd      rcx, DWORD PTR [rsp+4]

+        add         rax, rcx    ;XXSum

+        mov         rsi, arg(4) ;SSE

+        mov         rdi, arg(5) ;Sum

+        mov         dword ptr [rsi], eax

+        mov         dword ptr [rdi], edx

+        xor         rax, rax    ; return 0

+    ; begin epilog

+    add rsp, 16

+    pop rbx

+    pop rdi

+    pop rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int

+;vp8_get4x4sse_cs_mmx

+;(

+;    unsigned char *src_ptr,

+;    int  source_stride,

+;    unsigned char *ref_ptr,

+;    int  recon_stride

+;)

+global sym(vp8_get4x4sse_cs_mmx)

+sym(vp8_get4x4sse_cs_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 4

+    push rsi

+    push rdi

+    push rbx

+    ; end prolog

+        pxor        mm6, mm6                    ; Blank mmx7

+        pxor        mm7, mm7                    ; Blank mmx7

+        mov         rax, arg(0) ;[src_ptr]  ; Load base addresses

+        mov         rbx, arg(2) ;[ref_ptr]

+        movsxd      rcx, dword ptr arg(1) ;[source_stride]

+        movsxd      rdx, dword ptr arg(3) ;[recon_stride]

+        ; Row 1

+        movd        mm0, [rax]                  ; Copy eight bytes to mm0

+        movd        mm1, [rbx]                  ; Copy eight bytes to mm1

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movd        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        ; Row 2

+        movd        mm0, [rax]                  ; Copy eight bytes to mm0

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movd        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        ; Row 3

+        movd        mm0, [rax]                  ; Copy eight bytes to mm0

+        punpcklbw   mm1, mm6

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        add         rbx,rdx                     ; Inc pointer into ref data

+        add         rax,rcx                     ; Inc pointer into the new data

+        movd        mm1, [rbx]                  ; Copy eight bytes to mm1

+        paddd       mm7, mm0                    ; accumulate in mm7

+        ; Row 4

+        movd        mm0, [rax]                  ; Copy eight bytes to mm0

+        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

+        punpcklbw   mm1, mm6

+        psubsw      mm0, mm1                    ; A-B (low order) to MM0

+        pmaddwd     mm0, mm0                    ; square and accumulate

+        paddd       mm7, mm0                    ; accumulate in mm7

+        movq        mm0,    mm7                 ;

+        psrlq       mm7,    32

+        paddd       mm0,    mm7

+        movq        rax,    mm0

+    ; begin epilog

+    pop rbx

+    pop rdi

+    pop rsi

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+%define mmx_filter_shift            7

+;void vp8_filter_block2d_bil4x4_var_mmx

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned short *HFilter,

+;    unsigned short *VFilter,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_filter_block2d_bil4x4_var_mmx)

+sym(vp8_filter_block2d_bil4x4_var_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 8

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    sub         rsp, 16

+    ; end prolog

+        pxor            mm6,            mm6                 ;

+        pxor            mm7,            mm7                 ;

+        mov             rax,            arg(4) ;HFilter             ;

+        mov             rdx,            arg(5) ;VFilter             ;

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        mov             rcx,            4                   ;

+        pxor            mm0,            mm0                 ;

+        movd            mm1,            [rsi]               ;

+        movd            mm3,            [rsi+1]             ;

+        punpcklbw       mm1,            mm0                 ;

+        pmullw          mm1,            [rax]               ;

+        punpcklbw       mm3,            mm0                 ;

+        pmullw          mm3,            [rax+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        movq            mm5,            mm1

+%if ABI_IS_32BIT

+        add             rsi, dword ptr  arg(1) ;ref_pixels_per_line    ;

+%else

+        movsxd          r8, dword ptr  arg(1) ;ref_pixels_per_line    ;

+        add             rsi, r8

+%endif

+.filter_block2d_bil4x4_var_mmx_loop:

+        movd            mm1,            [rsi]               ;

+        movd            mm3,            [rsi+1]             ;

+        punpcklbw       mm1,            mm0                 ;

+        pmullw          mm1,            [rax]               ;

+        punpcklbw       mm3,            mm0                 ;

+        pmullw          mm3,            [rax+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        movq            mm3,            mm5                 ;

+        movq            mm5,            mm1                 ;

+        pmullw          mm3,            [rdx]               ;

+        pmullw          mm1,            [rdx+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        movd            mm3,            [rdi]               ;

+        punpcklbw       mm3,            mm0                 ;

+        psubw           mm1,            mm3                 ;

+        paddw           mm6,            mm1                 ;

+        pmaddwd         mm1,            mm1                 ;

+        paddd           mm7,            mm1                 ;

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;

+        add             rdi,            dword ptr arg(3) ;src_pixels_per_line    ;

+%else

+        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

+        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

+        add             rsi,            r8

+        add             rdi,            r9

+%endif

+        sub             rcx,            1                   ;

+        jnz             .filter_block2d_bil4x4_var_mmx_loop       ;

+        pxor            mm3,            mm3                 ;

+        pxor            mm2,            mm2                 ;

+        punpcklwd       mm2,            mm6                 ;

+        punpckhwd       mm3,            mm6                 ;

+        paddd           mm2,            mm3                 ;

+        movq            mm6,            mm2                 ;

+        psrlq           mm6,            32                  ;

+        paddd           mm2,            mm6                 ;

+        psrad           mm2,            16                  ;

+        movq            mm4,            mm7                 ;

+        psrlq           mm4,            32                  ;

+        paddd           mm4,            mm7                 ;

+        mov             rdi,            arg(6) ;sum

+        mov             rsi,            arg(7) ;sumsquared

+        movd            dword ptr [rdi],          mm2                 ;

+        movd            dword ptr [rsi],          mm4                 ;

+    ; begin epilog

+    add rsp, 16

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_filter_block2d_bil_var_mmx

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    unsigned short *HFilter,

+;    unsigned short *VFilter,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_filter_block2d_bil_var_mmx)

+sym(vp8_filter_block2d_bil_var_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 9

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    sub         rsp, 16

+    ; end prolog

+        pxor            mm6,            mm6                 ;

+        pxor            mm7,            mm7                 ;

+        mov             rax,            arg(5) ;HFilter             ;

+        mov             rdx,            arg(6) ;VFilter             ;

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        movsxd          rcx,            dword ptr arg(4) ;Height              ;

+        pxor            mm0,            mm0                 ;

+        movq            mm1,            [rsi]               ;

+        movq            mm3,            [rsi+1]             ;

+        movq            mm2,            mm1                 ;

+        movq            mm4,            mm3                 ;

+        punpcklbw       mm1,            mm0                 ;

+        punpckhbw       mm2,            mm0                 ;

+        pmullw          mm1,            [rax]               ;

+        pmullw          mm2,            [rax]               ;

+        punpcklbw       mm3,            mm0                 ;

+        punpckhbw       mm4,            mm0                 ;

+        pmullw          mm3,            [rax+8]             ;

+        pmullw          mm4,            [rax+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm2,            mm4                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm2,            mmx_filter_shift    ;

+        movq            mm5,            mm1

+        packuswb        mm5,            mm2                 ;

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line

+%else

+        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

+        add             rsi,            r8

+%endif

+.filter_block2d_bil_var_mmx_loop:

+        movq            mm1,            [rsi]               ;

+        movq            mm3,            [rsi+1]             ;

+        movq            mm2,            mm1                 ;

+        movq            mm4,            mm3                 ;

+        punpcklbw       mm1,            mm0                 ;

+        punpckhbw       mm2,            mm0                 ;

+        pmullw          mm1,            [rax]               ;

+        pmullw          mm2,            [rax]               ;

+        punpcklbw       mm3,            mm0                 ;

+        punpckhbw       mm4,            mm0                 ;

+        pmullw          mm3,            [rax+8]             ;

+        pmullw          mm4,            [rax+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm2,            mm4                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm2,            mmx_filter_shift    ;

+        movq            mm3,            mm5                 ;

+        movq            mm4,            mm5                 ;

+        punpcklbw       mm3,            mm0                 ;

+        punpckhbw       mm4,            mm0                 ;

+        movq            mm5,            mm1                 ;

+        packuswb        mm5,            mm2                 ;

+        pmullw          mm3,            [rdx]               ;

+        pmullw          mm4,            [rdx]               ;

+        pmullw          mm1,            [rdx+8]             ;

+        pmullw          mm2,            [rdx+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm2,            mm4                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        psraw           mm2,            mmx_filter_shift    ;

+        movq            mm3,            [rdi]               ;

+        movq            mm4,            mm3                 ;

+        punpcklbw       mm3,            mm0                 ;

+        punpckhbw       mm4,            mm0                 ;

+        psubw           mm1,            mm3                 ;

+        psubw           mm2,            mm4                 ;

+        paddw           mm6,            mm1                 ;

+        pmaddwd         mm1,            mm1                 ;

+        paddw           mm6,            mm2                 ;

+        pmaddwd         mm2,            mm2                 ;

+        paddd           mm7,            mm1                 ;

+        paddd           mm7,            mm2                 ;

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;

+        add             rdi,            dword ptr arg(3) ;src_pixels_per_line    ;

+%else

+        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line    ;

+        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line    ;

+        add             rsi,            r8

+        add             rdi,            r9

+%endif

+        sub             rcx,            1                   ;

+        jnz             .filter_block2d_bil_var_mmx_loop       ;

+        pxor            mm3,            mm3                 ;

+        pxor            mm2,            mm2                 ;

+        punpcklwd       mm2,            mm6                 ;

+        punpckhwd       mm3,            mm6                 ;

+        paddd           mm2,            mm3                 ;

+        movq            mm6,            mm2                 ;

+        psrlq           mm6,            32                  ;

+        paddd           mm2,            mm6                 ;

+        psrad           mm2,            16                  ;

+        movq            mm4,            mm7                 ;

+        psrlq           mm4,            32                  ;

+        paddd           mm4,            mm7                 ;

+        mov             rdi,            arg(7) ;sum

+        mov             rsi,            arg(8) ;sumsquared

+        movd            dword ptr [rdi],          mm2                 ;

+        movd            dword ptr [rsi],          mm4                 ;

+    ; begin epilog

+    add rsp, 16

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+SECTION_RODATA

+;short mmx_bi_rd[4] = { 64, 64, 64, 64};

+align 16

+mmx_bi_rd:

+    times 4 dw 64

--- /dev/null

+++ b/vp8/common/x86/variance_impl_sse2.asm

@@ -1,0 +1,1359 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+%define xmm_filter_shift            7

+;unsigned int vp8_get_mb_ss_sse2

+;(

+;    short *src_ptr

+;)

+global sym(vp8_get_mb_ss_sse2)

+sym(vp8_get_mb_ss_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 1

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    sub         rsp, 16

+    ; end prolog

+        mov         rax, arg(0) ;[src_ptr]

+        mov         rcx, 8

+        pxor        xmm4, xmm4

+.NEXTROW:

+        movdqa      xmm0, [rax]

+        movdqa      xmm1, [rax+16]

+        movdqa      xmm2, [rax+32]

+        movdqa      xmm3, [rax+48]

+        pmaddwd     xmm0, xmm0

+        pmaddwd     xmm1, xmm1

+        pmaddwd     xmm2, xmm2

+        pmaddwd     xmm3, xmm3

+        paddd       xmm0, xmm1

+        paddd       xmm2, xmm3

+        paddd       xmm4, xmm0

+        paddd       xmm4, xmm2

+        add         rax, 0x40

+        dec         rcx

+        ja          .NEXTROW

+        movdqa      xmm3,xmm4

+        psrldq      xmm4,8

+        paddd       xmm4,xmm3

+        movdqa      xmm3,xmm4

+        psrldq      xmm4,4

+        paddd       xmm4,xmm3

+        movq        rax,xmm4

+    ; begin epilog

+    add rsp, 16

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_get16x16var_sse2

+;(

+;    unsigned char   *  src_ptr,

+;    int             source_stride,

+;    unsigned char   *  ref_ptr,

+;    int             recon_stride,

+;    unsigned int    *  SSE,

+;    int             *  Sum

+;)

+global sym(vp8_get16x16var_sse2)

+sym(vp8_get16x16var_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    push rbx

+    push rsi

+    push rdi

+    ; end prolog

+        mov         rsi,            arg(0) ;[src_ptr]

+        mov         rdi,            arg(2) ;[ref_ptr]

+        movsxd      rax,            DWORD PTR arg(1) ;[source_stride]

+        movsxd      rdx,            DWORD PTR arg(3) ;[recon_stride]

+        ; Prefetch data

+        lea             rcx,    [rax+rax*2]

+        prefetcht0      [rsi]

+        prefetcht0      [rsi+rax]

+        prefetcht0      [rsi+rax*2]

+        prefetcht0      [rsi+rcx]

+        lea             rbx,    [rsi+rax*4]

+        prefetcht0      [rbx]

+        prefetcht0      [rbx+rax]

+        prefetcht0      [rbx+rax*2]

+        prefetcht0      [rbx+rcx]

+        lea             rcx,    [rdx+rdx*2]

+        prefetcht0      [rdi]

+        prefetcht0      [rdi+rdx]

+        prefetcht0      [rdi+rdx*2]

+        prefetcht0      [rdi+rcx]

+        lea             rbx,    [rdi+rdx*4]

+        prefetcht0      [rbx]

+        prefetcht0      [rbx+rdx]

+        prefetcht0      [rbx+rdx*2]

+        prefetcht0      [rbx+rcx]

+        pxor        xmm0,           xmm0                        ; clear xmm0 for unpack

+        pxor        xmm7,           xmm7                        ; clear xmm7 for accumulating diffs

+        pxor        xmm6,           xmm6                        ; clear xmm6 for accumulating sse

+        mov         rcx,            16

+.var16loop:

+        movdqu      xmm1,           XMMWORD PTR [rsi]

+        movdqu      xmm2,           XMMWORD PTR [rdi]

+        prefetcht0      [rsi+rax*8]

+        prefetcht0      [rdi+rdx*8]

+        movdqa      xmm3,           xmm1

+        movdqa      xmm4,           xmm2

+        punpcklbw   xmm1,           xmm0

+        punpckhbw   xmm3,           xmm0

+        punpcklbw   xmm2,           xmm0

+        punpckhbw   xmm4,           xmm0

+        psubw       xmm1,           xmm2

+        psubw       xmm3,           xmm4

+        paddw       xmm7,           xmm1

+        pmaddwd     xmm1,           xmm1

+        paddw       xmm7,           xmm3

+        pmaddwd     xmm3,           xmm3

+        paddd       xmm6,           xmm1

+        paddd       xmm6,           xmm3

+        add         rsi,            rax

+        add         rdi,            rdx

+        sub         rcx,            1

+        jnz         .var16loop

+        movdqa      xmm1,           xmm6

+        pxor        xmm6,           xmm6

+        pxor        xmm5,           xmm5

+        punpcklwd   xmm6,           xmm7

+        punpckhwd   xmm5,           xmm7

+        psrad       xmm5,           16

+        psrad       xmm6,           16

+        paddd       xmm6,           xmm5

+        movdqa      xmm2,           xmm1

+        punpckldq   xmm1,           xmm0

+        punpckhdq   xmm2,           xmm0

+        movdqa      xmm7,           xmm6

+        paddd       xmm1,           xmm2

+        punpckldq   xmm6,           xmm0

+        punpckhdq   xmm7,           xmm0

+        paddd       xmm6,           xmm7

+        movdqa      xmm2,           xmm1

+        movdqa      xmm7,           xmm6

+        psrldq      xmm1,           8

+        psrldq      xmm6,           8

+        paddd       xmm7,           xmm6

+        paddd       xmm1,           xmm2

+        mov         rax,            arg(5) ;[Sum]

+        mov         rdi,            arg(4) ;[SSE]

+        movd DWORD PTR [rax],       xmm7

+        movd DWORD PTR [rdi],       xmm1

+    ; begin epilog

+    pop rdi

+    pop rsi

+    pop rbx

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;unsigned int vp8_get8x8var_sse2

+;(

+;    unsigned char   *  src_ptr,

+;    int             source_stride,

+;    unsigned char   *  ref_ptr,

+;    int             recon_stride,

+;    unsigned int    *  SSE,

+;    int             *  Sum

+;)

+global sym(vp8_get8x8var_sse2)

+sym(vp8_get8x8var_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    sub         rsp, 16

+    ; end prolog

+        mov         rsi,            arg(0) ;[src_ptr]

+        mov         rdi,            arg(2) ;[ref_ptr]

+        movsxd      rax,            DWORD PTR arg(1) ;[source_stride]

+        movsxd      rdx,            DWORD PTR arg(3) ;[recon_stride]

+        pxor        xmm0,           xmm0                        ; clear xmm0 for unpack

+        pxor        xmm7,           xmm7                        ; clear xmm7 for accumulating diffs

+        movq        xmm1,           QWORD PTR [rsi]

+        movq        xmm2,           QWORD PTR [rdi]

+        punpcklbw   xmm1,           xmm0

+        punpcklbw   xmm2,           xmm0

+        psubsw      xmm1,           xmm2

+        paddw       xmm7,           xmm1

+        pmaddwd     xmm1,           xmm1

+        movq        xmm2,           QWORD PTR[rsi + rax]

+        movq        xmm3,           QWORD PTR[rdi + rdx]

+        punpcklbw   xmm2,           xmm0

+        punpcklbw   xmm3,           xmm0

+        psubsw      xmm2,           xmm3

+        paddw       xmm7,           xmm2

+        pmaddwd     xmm2,           xmm2

+        paddd       xmm1,           xmm2

+        movq        xmm2,           QWORD PTR[rsi + rax * 2]

+        movq        xmm3,           QWORD PTR[rdi + rdx * 2]

+        punpcklbw   xmm2,           xmm0

+        punpcklbw   xmm3,           xmm0

+        psubsw      xmm2,           xmm3

+        paddw       xmm7,           xmm2

+        pmaddwd     xmm2,           xmm2

+        paddd       xmm1,           xmm2

+        lea         rsi,            [rsi + rax * 2]

+        lea         rdi,            [rdi + rdx * 2]

+        movq        xmm2,           QWORD PTR[rsi + rax]

+        movq        xmm3,           QWORD PTR[rdi + rdx]

+        punpcklbw   xmm2,           xmm0

+        punpcklbw   xmm3,           xmm0

+        psubsw      xmm2,           xmm3

+        paddw       xmm7,           xmm2

+        pmaddwd     xmm2,           xmm2

+        paddd       xmm1,           xmm2

+        movq        xmm2,           QWORD PTR[rsi + rax *2]

+        movq        xmm3,           QWORD PTR[rdi + rdx *2]

+        punpcklbw   xmm2,           xmm0

+        punpcklbw   xmm3,           xmm0

+        psubsw      xmm2,           xmm3

+        paddw       xmm7,           xmm2

+        pmaddwd     xmm2,           xmm2

+        paddd       xmm1,           xmm2

+        lea         rsi,            [rsi + rax * 2]

+        lea         rdi,            [rdi + rdx * 2]

+        movq        xmm2,           QWORD PTR[rsi + rax]

+        movq        xmm3,           QWORD PTR[rdi + rdx]

+        punpcklbw   xmm2,           xmm0

+        punpcklbw   xmm3,           xmm0

+        psubsw      xmm2,           xmm3

+        paddw       xmm7,           xmm2

+        pmaddwd     xmm2,           xmm2

+        paddd       xmm1,           xmm2

+        movq        xmm2,           QWORD PTR[rsi + rax *2]

+        movq        xmm3,           QWORD PTR[rdi + rdx *2]

+        punpcklbw   xmm2,           xmm0

+        punpcklbw   xmm3,           xmm0

+        psubsw      xmm2,           xmm3

+        paddw       xmm7,           xmm2

+        pmaddwd     xmm2,           xmm2

+        paddd       xmm1,           xmm2

+        lea         rsi,            [rsi + rax * 2]

+        lea         rdi,            [rdi + rdx * 2]

+        movq        xmm2,           QWORD PTR[rsi + rax]

+        movq        xmm3,           QWORD PTR[rdi + rdx]

+        punpcklbw   xmm2,           xmm0

+        punpcklbw   xmm3,           xmm0

+        psubsw      xmm2,           xmm3

+        paddw       xmm7,           xmm2

+        pmaddwd     xmm2,           xmm2

+        paddd       xmm1,           xmm2

+        movdqa      xmm6,           xmm7

+        punpcklwd   xmm6,           xmm0

+        punpckhwd   xmm7,           xmm0

+        movdqa      xmm2,           xmm1

+        paddw       xmm6,           xmm7

+        punpckldq   xmm1,           xmm0

+        punpckhdq   xmm2,           xmm0

+        movdqa      xmm7,           xmm6

+        paddd       xmm1,           xmm2

+        punpckldq   xmm6,           xmm0

+        punpckhdq   xmm7,           xmm0

+        paddw       xmm6,           xmm7

+        movdqa      xmm2,           xmm1

+        movdqa      xmm7,           xmm6

+        psrldq      xmm1,           8

+        psrldq      xmm6,           8

+        paddw       xmm7,           xmm6

+        paddd       xmm1,           xmm2

+        mov         rax,            arg(5) ;[Sum]

+        mov         rdi,            arg(4) ;[SSE]

+        movq        rdx,            xmm7

+        movsx       rcx,            dx

+        mov  dword ptr [rax],       ecx

+        movd DWORD PTR [rdi],       xmm1

+    ; begin epilog

+    add rsp, 16

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_filter_block2d_bil_var_sse2

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    int  xoffset,

+;    int  yoffset,

+;    int *sum,

+;    unsigned int *sumsquared;;

+;

+;)

+global sym(vp8_filter_block2d_bil_var_sse2)

+sym(vp8_filter_block2d_bil_var_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 9

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    push rbx

+    ; end prolog

+        pxor            xmm6,           xmm6                 ;

+        pxor            xmm7,           xmm7                 ;

+        lea             rsi,            [GLOBAL(xmm_bi_rd)]  ; rounding

+        movdqa          xmm4,           XMMWORD PTR [rsi]

+        lea             rcx,            [GLOBAL(vp8_bilinear_filters_sse2)]

+        movsxd          rax,            dword ptr arg(5)     ; xoffset

+        cmp             rax,            0                    ; skip first_pass filter if xoffset=0

+        je              filter_block2d_bil_var_sse2_sp_only

+        shl             rax,            5                    ; point to filter coeff with xoffset

+        lea             rax,            [rax + rcx]          ; HFilter

+        movsxd          rdx,            dword ptr arg(6)     ; yoffset

+        cmp             rdx,            0                    ; skip second_pass filter if yoffset=0

+        je              filter_block2d_bil_var_sse2_fp_only

+        shl             rdx,            5

+        lea             rdx,            [rdx + rcx]          ; VFilter

+        mov             rsi,            arg(0)               ;ref_ptr

+        mov             rdi,            arg(2)               ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)     ;Height

+        pxor            xmm0,           xmm0                 ;

+        movq            xmm1,           QWORD PTR [rsi]      ;

+        movq            xmm3,           QWORD PTR [rsi+1]    ;

+        punpcklbw       xmm1,           xmm0                 ;

+        pmullw          xmm1,           [rax]                ;

+        punpcklbw       xmm3,           xmm0

+        pmullw          xmm3,           [rax+16]             ;

+        paddw           xmm1,           xmm3                 ;

+        paddw           xmm1,           xmm4                 ;

+        psraw           xmm1,           xmm_filter_shift     ;

+        movdqa          xmm5,           xmm1

+        movsxd          rbx,            dword ptr arg(1) ;ref_pixels_per_line

+        lea             rsi,            [rsi + rbx]

+%if ABI_IS_32BIT=0

+        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

+%endif

+filter_block2d_bil_var_sse2_loop:

+        movq            xmm1,           QWORD PTR [rsi]               ;

+        movq            xmm3,           QWORD PTR [rsi+1]             ;

+        punpcklbw       xmm1,           xmm0                 ;

+        pmullw          xmm1,           [rax]               ;

+        punpcklbw       xmm3,           xmm0                 ;

+        pmullw          xmm3,           [rax+16]             ;

+        paddw           xmm1,           xmm3                 ;

+        paddw           xmm1,           xmm4               ;

+        psraw           xmm1,           xmm_filter_shift    ;

+        movdqa          xmm3,           xmm5                 ;

+        movdqa          xmm5,           xmm1                 ;

+        pmullw          xmm3,           [rdx]               ;

+        pmullw          xmm1,           [rdx+16]             ;

+        paddw           xmm1,           xmm3                 ;

+        paddw           xmm1,           xmm4                 ;

+        psraw           xmm1,           xmm_filter_shift    ;

+        movq            xmm3,           QWORD PTR [rdi]               ;

+        punpcklbw       xmm3,           xmm0                 ;

+        psubw           xmm1,           xmm3                 ;

+        paddw           xmm6,           xmm1                 ;

+        pmaddwd         xmm1,           xmm1                 ;

+        paddd           xmm7,           xmm1                 ;

+        lea             rsi,            [rsi + rbx]          ;ref_pixels_per_line

+%if ABI_IS_32BIT

+        add             rdi,            dword ptr arg(3)     ;src_pixels_per_line

+%else

+        lea             rdi,            [rdi + r9]

+%endif

+        sub             rcx,            1                   ;

+        jnz             filter_block2d_bil_var_sse2_loop       ;

+        jmp             filter_block2d_bil_variance

+filter_block2d_bil_var_sse2_sp_only:

+        movsxd          rdx,            dword ptr arg(6)     ; yoffset

+        cmp             rdx,            0                    ; skip all if both xoffset=0 and yoffset=0

+        je              filter_block2d_bil_var_sse2_full_pixel

+        shl             rdx,            5

+        lea             rdx,            [rdx + rcx]          ; VFilter

+        mov             rsi,            arg(0)               ;ref_ptr

+        mov             rdi,            arg(2)               ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)     ;Height

+        movsxd          rax,            dword ptr arg(1)     ;ref_pixels_per_line

+        pxor            xmm0,           xmm0                 ;

+        movq            xmm1,           QWORD PTR [rsi]      ;

+        punpcklbw       xmm1,           xmm0                 ;

+        movsxd          rbx,            dword ptr arg(3)     ;src_pixels_per_line

+        lea             rsi,            [rsi + rax]

+filter_block2d_bil_sp_only_loop:

+        movq            xmm3,           QWORD PTR [rsi]             ;

+        punpcklbw       xmm3,           xmm0                 ;

+        movdqa          xmm5,           xmm3

+        pmullw          xmm1,           [rdx]               ;

+        pmullw          xmm3,           [rdx+16]             ;

+        paddw           xmm1,           xmm3                 ;

+        paddw           xmm1,           xmm4                 ;

+        psraw           xmm1,           xmm_filter_shift    ;

+        movq            xmm3,           QWORD PTR [rdi]               ;

+        punpcklbw       xmm3,           xmm0                 ;

+        psubw           xmm1,           xmm3                 ;

+        paddw           xmm6,           xmm1                 ;

+        pmaddwd         xmm1,           xmm1                 ;

+        paddd           xmm7,           xmm1                 ;

+        movdqa          xmm1,           xmm5                 ;

+        lea             rsi,            [rsi + rax]          ;ref_pixels_per_line

+        lea             rdi,            [rdi + rbx]          ;src_pixels_per_line

+        sub             rcx,            1                   ;

+        jnz             filter_block2d_bil_sp_only_loop       ;

+        jmp             filter_block2d_bil_variance

+filter_block2d_bil_var_sse2_full_pixel:

+        mov             rsi,            arg(0)               ;ref_ptr

+        mov             rdi,            arg(2)               ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)     ;Height

+        movsxd          rax,            dword ptr arg(1)     ;ref_pixels_per_line

+        movsxd          rbx,            dword ptr arg(3)     ;src_pixels_per_line

+        pxor            xmm0,           xmm0                 ;

+filter_block2d_bil_full_pixel_loop:

+        movq            xmm1,           QWORD PTR [rsi]               ;

+        punpcklbw       xmm1,           xmm0                 ;

+        movq            xmm2,           QWORD PTR [rdi]               ;

+        punpcklbw       xmm2,           xmm0                 ;

+        psubw           xmm1,           xmm2                 ;

+        paddw           xmm6,           xmm1                 ;

+        pmaddwd         xmm1,           xmm1                 ;

+        paddd           xmm7,           xmm1                 ;

+        lea             rsi,            [rsi + rax]          ;ref_pixels_per_line

+        lea             rdi,            [rdi + rbx]          ;src_pixels_per_line

+        sub             rcx,            1                   ;

+        jnz             filter_block2d_bil_full_pixel_loop       ;

+        jmp             filter_block2d_bil_variance

+filter_block2d_bil_var_sse2_fp_only:

+        mov             rsi,            arg(0)               ;ref_ptr

+        mov             rdi,            arg(2)               ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)     ;Height

+        movsxd          rdx,            dword ptr arg(1)     ;ref_pixels_per_line

+        pxor            xmm0,           xmm0                 ;

+        movsxd          rbx,            dword ptr arg(3)     ;src_pixels_per_line

+filter_block2d_bil_fp_only_loop:

+        movq            xmm1,           QWORD PTR [rsi]       ;

+        movq            xmm3,           QWORD PTR [rsi+1]     ;

+        punpcklbw       xmm1,           xmm0                 ;

+        pmullw          xmm1,           [rax]               ;

+        punpcklbw       xmm3,           xmm0                 ;

+        pmullw          xmm3,           [rax+16]             ;

+        paddw           xmm1,           xmm3                 ;

+        paddw           xmm1,           xmm4  ;

+        psraw           xmm1,           xmm_filter_shift    ;

+        movq            xmm3,           QWORD PTR [rdi]     ;

+        punpcklbw       xmm3,           xmm0                 ;

+        psubw           xmm1,           xmm3                 ;

+        paddw           xmm6,           xmm1                 ;

+        pmaddwd         xmm1,           xmm1                 ;

+        paddd           xmm7,           xmm1                 ;

+        lea             rsi,            [rsi + rdx]

+        lea             rdi,            [rdi + rbx]          ;src_pixels_per_line

+        sub             rcx,            1                   ;

+        jnz             filter_block2d_bil_fp_only_loop       ;

+        jmp             filter_block2d_bil_variance

+filter_block2d_bil_variance:

+        movdq2q         mm6,            xmm6                ;

+        movdq2q         mm7,            xmm7                ;

+        psrldq          xmm6,           8

+        psrldq          xmm7,           8

+        movdq2q         mm2,            xmm6

+        movdq2q         mm3,            xmm7

+        paddw           mm6,            mm2

+        paddd           mm7,            mm3

+        pxor            mm3,            mm3                 ;

+        pxor            mm2,            mm2                 ;

+        punpcklwd       mm2,            mm6                 ;

+        punpckhwd       mm3,            mm6                 ;

+        paddd           mm2,            mm3                 ;

+        movq            mm6,            mm2                 ;

+        psrlq           mm6,            32                  ;

+        paddd           mm2,            mm6                 ;

+        psrad           mm2,            16                  ;

+        movq            mm4,            mm7                 ;

+        psrlq           mm4,            32                  ;

+        paddd           mm4,            mm7                 ;

+        mov             rsi,            arg(7) ; sum

+        mov             rdi,            arg(8) ; sumsquared

+        movd            [rsi],          mm2    ; xsum

+        movd            [rdi],          mm4    ; xxsum

+    ; begin epilog

+    pop rbx

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_half_horiz_vert_variance8x_h_sse2

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_half_horiz_vert_variance8x_h_sse2)

+sym(vp8_half_horiz_vert_variance8x_h_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 7

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    ; end prolog

+%if ABI_IS_32BIT=0

+    movsxd          r8, dword ptr arg(1) ;ref_pixels_per_line

+    movsxd          r9, dword ptr arg(3) ;src_pixels_per_line

+%endif

+        pxor            xmm6,           xmm6                ;  error accumulator

+        pxor            xmm7,           xmm7                ;  sse eaccumulator

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        movsxd          rcx,            dword ptr arg(4) ;Height              ;

+        movsxd          rax,            dword ptr arg(1) ;ref_pixels_per_line

+        pxor            xmm0,           xmm0                ;

+        movq            xmm5,           QWORD PTR [rsi]     ;  xmm5 = s0,s1,s2..s8

+        movq            xmm3,           QWORD PTR [rsi+1]   ;  xmm3 = s1,s2,s3..s9

+        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3) horizontal line 1

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;  next source

+%else

+        add             rsi, r8

+%endif

+vp8_half_horiz_vert_variance8x_h_1:

+        movq            xmm1,           QWORD PTR [rsi]     ;

+        movq            xmm2,           QWORD PTR [rsi+1]   ;

+        pavgb           xmm1,           xmm2                ;  xmm1 = avg(xmm1,xmm3) horizontal line i+1

+        pavgb           xmm5,           xmm1                ;  xmm = vertical average of the above

+        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

+        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d8

+        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

+        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

+        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

+        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

+        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

+        movdqa          xmm5,           xmm1                ;  save xmm1 for use on the next row

+%if ABI_IS_32BIT

+        add             esi,            dword ptr arg(1) ;ref_pixels_per_line    ;  next source

+        add             edi,            dword ptr arg(3) ;src_pixels_per_line    ;  next destination

+%else

+        add             rsi, r8

+        add             rdi, r9

+%endif

+        sub             rcx,            1                   ;

+        jnz             vp8_half_horiz_vert_variance8x_h_1     ;

+        movdq2q         mm6,            xmm6                ;

+        movdq2q         mm7,            xmm7                ;

+        psrldq          xmm6,           8

+        psrldq          xmm7,           8

+        movdq2q         mm2,            xmm6

+        movdq2q         mm3,            xmm7

+        paddw           mm6,            mm2

+        paddd           mm7,            mm3

+        pxor            mm3,            mm3                 ;

+        pxor            mm2,            mm2                 ;

+        punpcklwd       mm2,            mm6                 ;

+        punpckhwd       mm3,            mm6                 ;

+        paddd           mm2,            mm3                 ;

+        movq            mm6,            mm2                 ;

+        psrlq           mm6,            32                  ;

+        paddd           mm2,            mm6                 ;

+        psrad           mm2,            16                  ;

+        movq            mm4,            mm7                 ;

+        psrlq           mm4,            32                  ;

+        paddd           mm4,            mm7                 ;

+        mov             rsi,            arg(5) ; sum

+        mov             rdi,            arg(6) ; sumsquared

+        movd            [rsi],          mm2                 ;

+        movd            [rdi],          mm4                 ;

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_half_horiz_vert_variance16x_h_sse2

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_half_horiz_vert_variance16x_h_sse2)

+sym(vp8_half_horiz_vert_variance16x_h_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 7

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    ; end prolog

+        pxor            xmm6,           xmm6                ;  error accumulator

+        pxor            xmm7,           xmm7                ;  sse eaccumulator

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        movsxd          rcx,            dword ptr arg(4) ;Height              ;

+        movsxd          rax,            dword ptr arg(1) ;ref_pixels_per_line

+        movsxd          rdx,            dword ptr arg(3)    ;src_pixels_per_line

+        pxor            xmm0,           xmm0                ;

+        movdqu          xmm5,           XMMWORD PTR [rsi]

+        movdqu          xmm3,           XMMWORD PTR [rsi+1]

+        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3) horizontal line 1

+        lea             rsi,            [rsi + rax]

+vp8_half_horiz_vert_variance16x_h_1:

+        movdqu          xmm1,           XMMWORD PTR [rsi]     ;

+        movdqu          xmm2,           XMMWORD PTR [rsi+1]   ;

+        pavgb           xmm1,           xmm2                ;  xmm1 = avg(xmm1,xmm3) horizontal line i+1

+        pavgb           xmm5,           xmm1                ;  xmm = vertical average of the above

+        movdqa          xmm4,           xmm5

+        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

+        punpckhbw       xmm4,           xmm0

+        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d7

+        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

+        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

+        movq            xmm3,           QWORD PTR [rdi+8]

+        punpcklbw       xmm3,           xmm0

+        psubw           xmm4,           xmm3

+        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

+        paddw           xmm6,           xmm4

+        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

+        pmaddwd         xmm4,           xmm4

+        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

+        paddd           xmm7,           xmm4

+        movdqa          xmm5,           xmm1                ;  save xmm1 for use on the next row

+        lea             rsi,            [rsi + rax]

+        lea             rdi,            [rdi + rdx]

+        sub             rcx,            1                   ;

+        jnz             vp8_half_horiz_vert_variance16x_h_1     ;

+        pxor        xmm1,           xmm1

+        pxor        xmm5,           xmm5

+        punpcklwd   xmm0,           xmm6

+        punpckhwd   xmm1,           xmm6

+        psrad       xmm0,           16

+        psrad       xmm1,           16

+        paddd       xmm0,           xmm1

+        movdqa      xmm1,           xmm0

+        movdqa      xmm6,           xmm7

+        punpckldq   xmm6,           xmm5

+        punpckhdq   xmm7,           xmm5

+        paddd       xmm6,           xmm7

+        punpckldq   xmm0,           xmm5

+        punpckhdq   xmm1,           xmm5

+        paddd       xmm0,           xmm1

+        movdqa      xmm7,           xmm6

+        movdqa      xmm1,           xmm0

+        psrldq      xmm7,           8

+        psrldq      xmm1,           8

+        paddd       xmm6,           xmm7

+        paddd       xmm0,           xmm1

+        mov         rsi,            arg(5) ;[Sum]

+        mov         rdi,            arg(6) ;[SSE]

+        movd        [rsi],       xmm0

+        movd        [rdi],       xmm6

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_half_vert_variance8x_h_sse2

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_half_vert_variance8x_h_sse2)

+sym(vp8_half_vert_variance8x_h_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 7

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    ; end prolog

+%if ABI_IS_32BIT=0

+    movsxd          r8, dword ptr arg(1) ;ref_pixels_per_line

+    movsxd          r9, dword ptr arg(3) ;src_pixels_per_line

+%endif

+        pxor            xmm6,           xmm6                ;  error accumulator

+        pxor            xmm7,           xmm7                ;  sse eaccumulator

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        movsxd          rcx,            dword ptr arg(4) ;Height              ;

+        movsxd          rax,            dword ptr arg(1) ;ref_pixels_per_line

+        pxor            xmm0,           xmm0                ;

+vp8_half_vert_variance8x_h_1:

+        movq            xmm5,           QWORD PTR [rsi]     ;  xmm5 = s0,s1,s2..s8

+        movq            xmm3,           QWORD PTR [rsi+rax] ;  xmm3 = s1,s2,s3..s9

+        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3)

+        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

+        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d8

+        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

+        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

+        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

+        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

+        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

+%if ABI_IS_32BIT

+        add             esi,            dword ptr arg(1) ;ref_pixels_per_line    ;  next source

+        add             edi,            dword ptr arg(3) ;src_pixels_per_line    ;  next destination

+%else

+        add             rsi, r8

+        add             rdi, r9

+%endif

+        sub             rcx,            1                   ;

+        jnz             vp8_half_vert_variance8x_h_1          ;

+        movdq2q         mm6,            xmm6                ;

+        movdq2q         mm7,            xmm7                ;

+        psrldq          xmm6,           8

+        psrldq          xmm7,           8

+        movdq2q         mm2,            xmm6

+        movdq2q         mm3,            xmm7

+        paddw           mm6,            mm2

+        paddd           mm7,            mm3

+        pxor            mm3,            mm3                 ;

+        pxor            mm2,            mm2                 ;

+        punpcklwd       mm2,            mm6                 ;

+        punpckhwd       mm3,            mm6                 ;

+        paddd           mm2,            mm3                 ;

+        movq            mm6,            mm2                 ;

+        psrlq           mm6,            32                  ;

+        paddd           mm2,            mm6                 ;

+        psrad           mm2,            16                  ;

+        movq            mm4,            mm7                 ;

+        psrlq           mm4,            32                  ;

+        paddd           mm4,            mm7                 ;

+        mov             rsi,            arg(5) ; sum

+        mov             rdi,            arg(6) ; sumsquared

+        movd            [rsi],          mm2                 ;

+        movd            [rdi],          mm4                 ;

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_half_vert_variance16x_h_sse2

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_half_vert_variance16x_h_sse2)

+sym(vp8_half_vert_variance16x_h_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 7

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    ; end prolog

+        pxor            xmm6,           xmm6                ;  error accumulator

+        pxor            xmm7,           xmm7                ;  sse eaccumulator

+        mov             rsi,            arg(0)              ;ref_ptr

+        mov             rdi,            arg(2)              ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)    ;Height

+        movsxd          rax,            dword ptr arg(1)    ;ref_pixels_per_line

+        movsxd          rdx,            dword ptr arg(3)    ;src_pixels_per_line

+        movdqu          xmm5,           XMMWORD PTR [rsi]

+        lea             rsi,            [rsi + rax          ]

+        pxor            xmm0,           xmm0

+vp8_half_vert_variance16x_h_1:

+        movdqu          xmm3,           XMMWORD PTR [rsi]

+        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3)

+        movdqa          xmm4,           xmm5

+        punpcklbw       xmm5,           xmm0

+        punpckhbw       xmm4,           xmm0

+        movq            xmm2,           QWORD PTR [rdi]

+        punpcklbw       xmm2,           xmm0

+        psubw           xmm5,           xmm2

+        movq            xmm2,           QWORD PTR [rdi+8]

+        punpcklbw       xmm2,           xmm0

+        psubw           xmm4,           xmm2

+        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

+        paddw           xmm6,           xmm4

+        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

+        pmaddwd         xmm4,           xmm4

+        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

+        paddd           xmm7,           xmm4

+        movdqa          xmm5,           xmm3

+        lea             rsi,            [rsi + rax]

+        lea             rdi,            [rdi + rdx]

+        sub             rcx,            1

+        jnz             vp8_half_vert_variance16x_h_1

+        pxor        xmm1,           xmm1

+        pxor        xmm5,           xmm5

+        punpcklwd   xmm0,           xmm6

+        punpckhwd   xmm1,           xmm6

+        psrad       xmm0,           16

+        psrad       xmm1,           16

+        paddd       xmm0,           xmm1

+        movdqa      xmm1,           xmm0

+        movdqa      xmm6,           xmm7

+        punpckldq   xmm6,           xmm5

+        punpckhdq   xmm7,           xmm5

+        paddd       xmm6,           xmm7

+        punpckldq   xmm0,           xmm5

+        punpckhdq   xmm1,           xmm5

+        paddd       xmm0,           xmm1

+        movdqa      xmm7,           xmm6

+        movdqa      xmm1,           xmm0

+        psrldq      xmm7,           8

+        psrldq      xmm1,           8

+        paddd       xmm6,           xmm7

+        paddd       xmm0,           xmm1

+        mov         rsi,            arg(5) ;[Sum]

+        mov         rdi,            arg(6) ;[SSE]

+        movd        [rsi],       xmm0

+        movd        [rdi],       xmm6

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_half_horiz_variance8x_h_sse2

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_half_horiz_variance8x_h_sse2)

+sym(vp8_half_horiz_variance8x_h_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 7

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    ; end prolog

+%if ABI_IS_32BIT=0

+    movsxd          r8, dword ptr arg(1) ;ref_pixels_per_line

+    movsxd          r9, dword ptr arg(3) ;src_pixels_per_line

+%endif

+        pxor            xmm6,           xmm6                ;  error accumulator

+        pxor            xmm7,           xmm7                ;  sse eaccumulator

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        movsxd          rcx,            dword ptr arg(4) ;Height              ;

+        pxor            xmm0,           xmm0                ;

+vp8_half_horiz_variance8x_h_1:

+        movq            xmm5,           QWORD PTR [rsi]     ;  xmm5 = s0,s1,s2..s8

+        movq            xmm3,           QWORD PTR [rsi+1]   ;  xmm3 = s1,s2,s3..s9

+        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3)

+        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

+        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d8

+        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

+        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

+        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

+        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

+        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

+%if ABI_IS_32BIT

+        add             esi,            dword ptr arg(1) ;ref_pixels_per_line    ;  next source

+        add             edi,            dword ptr arg(3) ;src_pixels_per_line    ;  next destination

+%else

+        add             rsi, r8

+        add             rdi, r9

+%endif

+        sub             rcx,            1                   ;

+        jnz             vp8_half_horiz_variance8x_h_1        ;

+        movdq2q         mm6,            xmm6                ;

+        movdq2q         mm7,            xmm7                ;

+        psrldq          xmm6,           8

+        psrldq          xmm7,           8

+        movdq2q         mm2,            xmm6

+        movdq2q         mm3,            xmm7

+        paddw           mm6,            mm2

+        paddd           mm7,            mm3

+        pxor            mm3,            mm3                 ;

+        pxor            mm2,            mm2                 ;

+        punpcklwd       mm2,            mm6                 ;

+        punpckhwd       mm3,            mm6                 ;

+        paddd           mm2,            mm3                 ;

+        movq            mm6,            mm2                 ;

+        psrlq           mm6,            32                  ;

+        paddd           mm2,            mm6                 ;

+        psrad           mm2,            16                  ;

+        movq            mm4,            mm7                 ;

+        psrlq           mm4,            32                  ;

+        paddd           mm4,            mm7                 ;

+        mov             rsi,            arg(5) ; sum

+        mov             rdi,            arg(6) ; sumsquared

+        movd            [rsi],          mm2                 ;

+        movd            [rdi],          mm4                 ;

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_half_horiz_variance16x_h_sse2

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_half_horiz_variance16x_h_sse2)

+sym(vp8_half_horiz_variance16x_h_sse2):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 7

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    ; end prolog

+        pxor            xmm6,           xmm6                ;  error accumulator

+        pxor            xmm7,           xmm7                ;  sse eaccumulator

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        movsxd          rcx,            dword ptr arg(4) ;Height              ;

+        movsxd          rax,            dword ptr arg(1) ;ref_pixels_per_line

+        movsxd          rdx,            dword ptr arg(3)    ;src_pixels_per_line

+        pxor            xmm0,           xmm0                ;

+vp8_half_horiz_variance16x_h_1:

+        movdqu          xmm5,           XMMWORD PTR [rsi]     ;  xmm5 = s0,s1,s2..s15

+        movdqu          xmm3,           XMMWORD PTR [rsi+1]   ;  xmm3 = s1,s2,s3..s16

+        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3)

+        movdqa          xmm1,           xmm5

+        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

+        punpckhbw       xmm1,           xmm0

+        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d7

+        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

+        movq            xmm2,           QWORD PTR [rdi+8]

+        punpcklbw       xmm2,           xmm0

+        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

+        psubw           xmm1,           xmm2

+        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

+        paddw           xmm6,           xmm1

+        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

+        pmaddwd         xmm1,           xmm1

+        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

+        paddd           xmm7,           xmm1

+        lea             rsi,            [rsi + rax]

+        lea             rdi,            [rdi + rdx]

+        sub             rcx,            1                   ;

+        jnz             vp8_half_horiz_variance16x_h_1        ;

+        pxor        xmm1,           xmm1

+        pxor        xmm5,           xmm5

+        punpcklwd   xmm0,           xmm6

+        punpckhwd   xmm1,           xmm6

+        psrad       xmm0,           16

+        psrad       xmm1,           16

+        paddd       xmm0,           xmm1

+        movdqa      xmm1,           xmm0

+        movdqa      xmm6,           xmm7

+        punpckldq   xmm6,           xmm5

+        punpckhdq   xmm7,           xmm5

+        paddd       xmm6,           xmm7

+        punpckldq   xmm0,           xmm5

+        punpckhdq   xmm1,           xmm5

+        paddd       xmm0,           xmm1

+        movdqa      xmm7,           xmm6

+        movdqa      xmm1,           xmm0

+        psrldq      xmm7,           8

+        psrldq      xmm1,           8

+        paddd       xmm6,           xmm7

+        paddd       xmm0,           xmm1

+        mov         rsi,            arg(5) ;[Sum]

+        mov         rdi,            arg(6) ;[SSE]

+        movd        [rsi],       xmm0

+        movd        [rdi],       xmm6

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+SECTION_RODATA

+;    short xmm_bi_rd[8] = { 64, 64, 64, 64,64, 64, 64, 64};

+align 16

+xmm_bi_rd:

+    times 8 dw 64

+align 16

+vp8_bilinear_filters_sse2:

+    dw 128, 128, 128, 128, 128, 128, 128, 128,  0,  0,  0,  0,  0,  0,  0,  0

+    dw 112, 112, 112, 112, 112, 112, 112, 112, 16, 16, 16, 16, 16, 16, 16, 16

+    dw 96, 96, 96, 96, 96, 96, 96, 96, 32, 32, 32, 32, 32, 32, 32, 32

+    dw 80, 80, 80, 80, 80, 80, 80, 80, 48, 48, 48, 48, 48, 48, 48, 48

+    dw 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64

+    dw 48, 48, 48, 48, 48, 48, 48, 48, 80, 80, 80, 80, 80, 80, 80, 80

+    dw 32, 32, 32, 32, 32, 32, 32, 32, 96, 96, 96, 96, 96, 96, 96, 96

+    dw 16, 16, 16, 16, 16, 16, 16, 16, 112, 112, 112, 112, 112, 112, 112, 112

--- /dev/null

+++ b/vp8/common/x86/variance_impl_ssse3.asm

@@ -1,0 +1,364 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+%define xmm_filter_shift            7

+;void vp8_filter_block2d_bil_var_ssse3

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    int  xoffset,

+;    int  yoffset,

+;    int *sum,

+;    unsigned int *sumsquared;;

+;

+;)

+;Note: The filter coefficient at offset=0 is 128. Since the second register

+;for Pmaddubsw is signed bytes, we must calculate zero offset seperately.

+global sym(vp8_filter_block2d_bil_var_ssse3)

+sym(vp8_filter_block2d_bil_var_ssse3):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 9

+    SAVE_XMM 7

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    ; end prolog

+        pxor            xmm6,           xmm6

+        pxor            xmm7,           xmm7

+        lea             rcx,            [GLOBAL(vp8_bilinear_filters_ssse3)]

+        movsxd          rax,            dword ptr arg(5)     ; xoffset

+        cmp             rax,            0                    ; skip first_pass filter if xoffset=0

+        je              .filter_block2d_bil_var_ssse3_sp_only

+        shl             rax,            4                    ; point to filter coeff with xoffset

+        lea             rax,            [rax + rcx]          ; HFilter

+        movsxd          rdx,            dword ptr arg(6)     ; yoffset

+        cmp             rdx,            0                    ; skip second_pass filter if yoffset=0

+        je              .filter_block2d_bil_var_ssse3_fp_only

+        shl             rdx,            4

+        lea             rdx,            [rdx + rcx]          ; VFilter

+        mov             rsi,            arg(0)               ;ref_ptr

+        mov             rdi,            arg(2)               ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)     ;Height

+        movdqu          xmm0,           XMMWORD PTR [rsi]

+        movdqu          xmm1,           XMMWORD PTR [rsi+1]

+        movdqa          xmm2,           xmm0

+        punpcklbw       xmm0,           xmm1

+        punpckhbw       xmm2,           xmm1

+        pmaddubsw       xmm0,           [rax]

+        pmaddubsw       xmm2,           [rax]

+        paddw           xmm0,           [GLOBAL(xmm_bi_rd)]

+        paddw           xmm2,           [GLOBAL(xmm_bi_rd)]

+        psraw           xmm0,           xmm_filter_shift

+        psraw           xmm2,           xmm_filter_shift

+        packuswb        xmm0,           xmm2

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line

+%else

+        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

+        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

+        lea             rsi,            [rsi + r8]

+%endif

+.filter_block2d_bil_var_ssse3_loop:

+        movdqu          xmm1,           XMMWORD PTR [rsi]

+        movdqu          xmm2,           XMMWORD PTR [rsi+1]

+        movdqa          xmm3,           xmm1

+        punpcklbw       xmm1,           xmm2

+        punpckhbw       xmm3,           xmm2

+        pmaddubsw       xmm1,           [rax]

+        pmaddubsw       xmm3,           [rax]

+        paddw           xmm1,           [GLOBAL(xmm_bi_rd)]

+        paddw           xmm3,           [GLOBAL(xmm_bi_rd)]

+        psraw           xmm1,           xmm_filter_shift

+        psraw           xmm3,           xmm_filter_shift

+        packuswb        xmm1,           xmm3

+        movdqa          xmm2,           xmm0

+        movdqa          xmm0,           xmm1

+        movdqa          xmm3,           xmm2

+        punpcklbw       xmm2,           xmm1

+        punpckhbw       xmm3,           xmm1

+        pmaddubsw       xmm2,           [rdx]

+        pmaddubsw       xmm3,           [rdx]

+        paddw           xmm2,           [GLOBAL(xmm_bi_rd)]

+        paddw           xmm3,           [GLOBAL(xmm_bi_rd)]

+        psraw           xmm2,           xmm_filter_shift

+        psraw           xmm3,           xmm_filter_shift

+        movq            xmm1,           QWORD PTR [rdi]

+        pxor            xmm4,           xmm4

+        punpcklbw       xmm1,           xmm4

+        movq            xmm5,           QWORD PTR [rdi+8]

+        punpcklbw       xmm5,           xmm4

+        psubw           xmm2,           xmm1

+        psubw           xmm3,           xmm5

+        paddw           xmm6,           xmm2

+        paddw           xmm6,           xmm3

+        pmaddwd         xmm2,           xmm2

+        pmaddwd         xmm3,           xmm3

+        paddd           xmm7,           xmm2

+        paddd           xmm7,           xmm3

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1)     ;ref_pixels_per_line

+        add             rdi,            dword ptr arg(3)     ;src_pixels_per_line

+%else

+        lea             rsi,            [rsi + r8]

+        lea             rdi,            [rdi + r9]

+%endif

+        sub             rcx,            1

+        jnz             .filter_block2d_bil_var_ssse3_loop

+        jmp             .filter_block2d_bil_variance

+.filter_block2d_bil_var_ssse3_sp_only:

+        movsxd          rdx,            dword ptr arg(6)     ; yoffset

+        cmp             rdx,            0                    ; Both xoffset =0 and yoffset=0

+        je              .filter_block2d_bil_var_ssse3_full_pixel

+        shl             rdx,            4

+        lea             rdx,            [rdx + rcx]          ; VFilter

+        mov             rsi,            arg(0)               ;ref_ptr

+        mov             rdi,            arg(2)               ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)     ;Height

+        movsxd          rax,            dword ptr arg(1)     ;ref_pixels_per_line

+        movdqu          xmm1,           XMMWORD PTR [rsi]

+        movdqa          xmm0,           xmm1

+%if ABI_IS_32BIT=0

+        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

+%endif

+        lea             rsi,            [rsi + rax]

+.filter_block2d_bil_sp_only_loop:

+        movdqu          xmm3,           XMMWORD PTR [rsi]

+        movdqa          xmm2,           xmm1

+        movdqa          xmm0,           xmm3

+        punpcklbw       xmm1,           xmm3

+        punpckhbw       xmm2,           xmm3

+        pmaddubsw       xmm1,           [rdx]

+        pmaddubsw       xmm2,           [rdx]

+        paddw           xmm1,           [GLOBAL(xmm_bi_rd)]

+        paddw           xmm2,           [GLOBAL(xmm_bi_rd)]

+        psraw           xmm1,           xmm_filter_shift

+        psraw           xmm2,           xmm_filter_shift

+        movq            xmm3,           QWORD PTR [rdi]

+        pxor            xmm4,           xmm4

+        punpcklbw       xmm3,           xmm4

+        movq            xmm5,           QWORD PTR [rdi+8]

+        punpcklbw       xmm5,           xmm4

+        psubw           xmm1,           xmm3

+        psubw           xmm2,           xmm5

+        paddw           xmm6,           xmm1

+        paddw           xmm6,           xmm2

+        pmaddwd         xmm1,           xmm1

+        pmaddwd         xmm2,           xmm2

+        paddd           xmm7,           xmm1

+        paddd           xmm7,           xmm2

+        movdqa          xmm1,           xmm0

+        lea             rsi,            [rsi + rax]          ;ref_pixels_per_line

+%if ABI_IS_32BIT

+        add             rdi,            dword ptr arg(3)     ;src_pixels_per_line

+%else

+        lea             rdi,            [rdi + r9]

+%endif

+        sub             rcx,            1

+        jnz             .filter_block2d_bil_sp_only_loop

+        jmp             .filter_block2d_bil_variance

+.filter_block2d_bil_var_ssse3_full_pixel:

+        mov             rsi,            arg(0)               ;ref_ptr

+        mov             rdi,            arg(2)               ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)     ;Height

+        movsxd          rax,            dword ptr arg(1)     ;ref_pixels_per_line

+        movsxd          rdx,            dword ptr arg(3)     ;src_pixels_per_line

+        pxor            xmm0,           xmm0

+.filter_block2d_bil_full_pixel_loop:

+        movq            xmm1,           QWORD PTR [rsi]

+        punpcklbw       xmm1,           xmm0

+        movq            xmm2,           QWORD PTR [rsi+8]

+        punpcklbw       xmm2,           xmm0

+        movq            xmm3,           QWORD PTR [rdi]

+        punpcklbw       xmm3,           xmm0

+        movq            xmm4,           QWORD PTR [rdi+8]

+        punpcklbw       xmm4,           xmm0

+        psubw           xmm1,           xmm3

+        psubw           xmm2,           xmm4

+        paddw           xmm6,           xmm1

+        paddw           xmm6,           xmm2

+        pmaddwd         xmm1,           xmm1

+        pmaddwd         xmm2,           xmm2

+        paddd           xmm7,           xmm1

+        paddd           xmm7,           xmm2

+        lea             rsi,            [rsi + rax]          ;ref_pixels_per_line

+        lea             rdi,            [rdi + rdx]          ;src_pixels_per_line

+        sub             rcx,            1

+        jnz             .filter_block2d_bil_full_pixel_loop

+        jmp             .filter_block2d_bil_variance

+.filter_block2d_bil_var_ssse3_fp_only:

+        mov             rsi,            arg(0)               ;ref_ptr

+        mov             rdi,            arg(2)               ;src_ptr

+        movsxd          rcx,            dword ptr arg(4)     ;Height

+        movsxd          rdx,            dword ptr arg(1)     ;ref_pixels_per_line

+        pxor            xmm0,           xmm0

+%if ABI_IS_32BIT=0

+        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

+%endif

+.filter_block2d_bil_fp_only_loop:

+        movdqu          xmm1,           XMMWORD PTR [rsi]

+        movdqu          xmm2,           XMMWORD PTR [rsi+1]

+        movdqa          xmm3,           xmm1

+        punpcklbw       xmm1,           xmm2

+        punpckhbw       xmm3,           xmm2

+        pmaddubsw       xmm1,           [rax]

+        pmaddubsw       xmm3,           [rax]

+        paddw           xmm1,           [GLOBAL(xmm_bi_rd)]

+        paddw           xmm3,           [GLOBAL(xmm_bi_rd)]

+        psraw           xmm1,           xmm_filter_shift

+        psraw           xmm3,           xmm_filter_shift

+        movq            xmm2,           XMMWORD PTR [rdi]

+        pxor            xmm4,           xmm4

+        punpcklbw       xmm2,           xmm4

+        movq            xmm5,           QWORD PTR [rdi+8]

+        punpcklbw       xmm5,           xmm4

+        psubw           xmm1,           xmm2

+        psubw           xmm3,           xmm5

+        paddw           xmm6,           xmm1

+        paddw           xmm6,           xmm3

+        pmaddwd         xmm1,           xmm1

+        pmaddwd         xmm3,           xmm3

+        paddd           xmm7,           xmm1

+        paddd           xmm7,           xmm3

+        lea             rsi,            [rsi + rdx]

+%if ABI_IS_32BIT

+        add             rdi,            dword ptr arg(3)     ;src_pixels_per_line

+%else

+        lea             rdi,            [rdi + r9]

+%endif

+        sub             rcx,            1

+        jnz             .filter_block2d_bil_fp_only_loop

+        jmp             .filter_block2d_bil_variance

+.filter_block2d_bil_variance:

+        pxor        xmm0,           xmm0

+        pxor        xmm1,           xmm1

+        pxor        xmm5,           xmm5

+        punpcklwd   xmm0,           xmm6

+        punpckhwd   xmm1,           xmm6

+        psrad       xmm0,           16

+        psrad       xmm1,           16

+        paddd       xmm0,           xmm1

+        movdqa      xmm1,           xmm0

+        movdqa      xmm6,           xmm7

+        punpckldq   xmm6,           xmm5

+        punpckhdq   xmm7,           xmm5

+        paddd       xmm6,           xmm7

+        punpckldq   xmm0,           xmm5

+        punpckhdq   xmm1,           xmm5

+        paddd       xmm0,           xmm1

+        movdqa      xmm7,           xmm6

+        movdqa      xmm1,           xmm0

+        psrldq      xmm7,           8

+        psrldq      xmm1,           8

+        paddd       xmm6,           xmm7

+        paddd       xmm0,           xmm1

+        mov         rsi,            arg(7) ;[Sum]

+        mov         rdi,            arg(8) ;[SSE]

+        movd        [rsi],       xmm0

+        movd        [rdi],       xmm6

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    RESTORE_XMM

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+SECTION_RODATA

+align 16

+xmm_bi_rd:

+    times 8 dw 64

+align 16

+vp8_bilinear_filters_ssse3:

+    times 8 db 128, 0

+    times 8 db 112, 16

+    times 8 db 96,  32

+    times 8 db 80,  48

+    times 8 db 64,  64

+    times 8 db 48,  80

+    times 8 db 32,  96

+    times 8 db 16,  112

--- /dev/null

+++ b/vp8/common/x86/variance_mmx.c

@@ -1,0 +1,398 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "vpx_config.h"

+#include "vp8/common/variance.h"

+#include "vp8/common/pragmas.h"

+#include "vpx_ports/mem.h"

+#include "vp8/common/x86/filter_x86.h"

+extern void filter_block1d_h6_mmx

+(

+    const unsigned char *src_ptr,

+    unsigned short *output_ptr,

+    unsigned int src_pixels_per_line,

+    unsigned int pixel_step,

+    unsigned int output_height,

+    unsigned int output_width,

+    short *filter

+);

+extern void filter_block1d_v6_mmx

+(

+    const short *src_ptr,

+    unsigned char *output_ptr,

+    unsigned int pixels_per_line,

+    unsigned int pixel_step,

+    unsigned int output_height,

+    unsigned int output_width,

+    short *filter

+);

+extern unsigned int vp8_get_mb_ss_mmx(const short *src_ptr);

+extern unsigned int vp8_get8x8var_mmx

+(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *SSE,

+    int *Sum

+);

+extern unsigned int vp8_get4x4var_mmx

+(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *SSE,

+    int *Sum

+);

+extern void vp8_filter_block2d_bil4x4_var_mmx

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    const short *HFilter,

+    const short *VFilter,

+    int *sum,

+    unsigned int *sumsquared

+);

+extern void vp8_filter_block2d_bil_var_mmx

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    const short *HFilter,

+    const short *VFilter,

+    int *sum,

+    unsigned int *sumsquared

+);

+unsigned int vp8_variance4x4_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    vp8_get4x4var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &var, &avg) ;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 4));

+}

+unsigned int vp8_variance8x8_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &var, &avg) ;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 6));

+}

+unsigned int vp8_mse16x16_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int sse0, sse1, sse2, sse3, var;

+    int sum0, sum1, sum2, sum3;

+    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

+    vp8_get8x8var_mmx(src_ptr + 8, source_stride, ref_ptr + 8, recon_stride, &sse1, &sum1);

+    vp8_get8x8var_mmx(src_ptr + 8 * source_stride, source_stride, ref_ptr + 8 * recon_stride, recon_stride, &sse2, &sum2) ;

+    vp8_get8x8var_mmx(src_ptr + 8 * source_stride + 8, source_stride, ref_ptr + 8 * recon_stride + 8, recon_stride, &sse3, &sum3);

+    var = sse0 + sse1 + sse2 + sse3;

+    *sse = var;

+    return var;

+}

+unsigned int vp8_variance16x16_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int sse0, sse1, sse2, sse3, var;

+    int sum0, sum1, sum2, sum3, avg;

+    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

+    vp8_get8x8var_mmx(src_ptr + 8, source_stride, ref_ptr + 8, recon_stride, &sse1, &sum1);

+    vp8_get8x8var_mmx(src_ptr + 8 * source_stride, source_stride, ref_ptr + 8 * recon_stride, recon_stride, &sse2, &sum2) ;

+    vp8_get8x8var_mmx(src_ptr + 8 * source_stride + 8, source_stride, ref_ptr + 8 * recon_stride + 8, recon_stride, &sse3, &sum3);

+    var = sse0 + sse1 + sse2 + sse3;

+    avg = sum0 + sum1 + sum2 + sum3;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 8));

+}

+unsigned int vp8_variance16x8_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int sse0, sse1, var;

+    int sum0, sum1, avg;

+    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

+    vp8_get8x8var_mmx(src_ptr + 8, source_stride, ref_ptr + 8, recon_stride, &sse1, &sum1);

+    var = sse0 + sse1;

+    avg = sum0 + sum1;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 7));

+}

+unsigned int vp8_variance8x16_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int sse0, sse1, var;

+    int sum0, sum1, avg;

+    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

+    vp8_get8x8var_mmx(src_ptr + 8 * source_stride, source_stride, ref_ptr + 8 * recon_stride, recon_stride, &sse1, &sum1) ;

+    var = sse0 + sse1;

+    avg = sum0 + sum1;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 7));

+}

+unsigned int vp8_sub_pixel_variance4x4_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse)

+{

+    int xsum;

+    unsigned int xxsum;

+    vp8_filter_block2d_bil4x4_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum, &xxsum

+    );

+    *sse = xxsum;

+    return (xxsum - ((unsigned int)(xsum * xsum) >> 4));

+}

+unsigned int vp8_sub_pixel_variance8x8_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 8,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum, &xxsum

+    );

+    *sse = xxsum;

+    return (xxsum - ((unsigned int)(xsum * xsum) >> 6));

+}

+unsigned int vp8_sub_pixel_variance16x16_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0, xsum1;

+    unsigned int xxsum0, xxsum1;

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum0, &xxsum0

+    );

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr + 8, src_pixels_per_line,

+        dst_ptr + 8, dst_pixels_per_line, 16,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum1, &xxsum1

+    );

+    xsum0 += xsum1;

+    xxsum0 += xxsum1;

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_sub_pixel_mse16x16_mmx(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    vp8_sub_pixel_variance16x16_mmx(src_ptr, src_pixels_per_line, xoffset, yoffset, dst_ptr, dst_pixels_per_line, sse);

+    return *sse;

+}

+unsigned int vp8_sub_pixel_variance16x8_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0, xsum1;

+    unsigned int xxsum0, xxsum1;

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 8,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum0, &xxsum0

+    );

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr + 8, src_pixels_per_line,

+        dst_ptr + 8, dst_pixels_per_line, 8,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum1, &xxsum1

+    );

+    xsum0 += xsum1;

+    xxsum0 += xxsum1;

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 7));

+}

+unsigned int vp8_sub_pixel_variance8x16_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum, &xxsum

+    );

+    *sse = xxsum;

+    return (xxsum - ((unsigned int)(xsum * xsum) >> 7));

+}

+unsigned int vp8_variance_halfpixvar16x16_h_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 4, 0,

+                                           ref_ptr, recon_stride, sse);

+}

+unsigned int vp8_variance_halfpixvar16x16_v_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 0, 4,

+                                           ref_ptr, recon_stride, sse);

+}

+unsigned int vp8_variance_halfpixvar16x16_hv_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 4, 4,

+                                           ref_ptr, recon_stride, sse);

+}

--- /dev/null

+++ b/vp8/common/x86/variance_sse2.c

@@ -1,0 +1,557 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "vpx_config.h"

+#include "vp8/common/variance.h"

+#include "vp8/common/pragmas.h"

+#include "vpx_ports/mem.h"

+#include "vp8/common/x86/filter_x86.h"

+extern void filter_block1d_h6_mmx(const unsigned char *src_ptr, unsigned short *output_ptr, unsigned int src_pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

+extern void filter_block1d_v6_mmx(const short *src_ptr, unsigned char *output_ptr, unsigned int pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

+extern void filter_block1d8_h6_sse2(const unsigned char *src_ptr, unsigned short *output_ptr, unsigned int src_pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

+extern void filter_block1d8_v6_sse2(const short *src_ptr, unsigned char *output_ptr, unsigned int pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

+extern void vp8_filter_block2d_bil4x4_var_mmx

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    const short *HFilter,

+    const short *VFilter,

+    int *sum,

+    unsigned int *sumsquared

+);

+extern unsigned int vp8_get4x4var_mmx

+(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *SSE,

+    int *Sum

+);

+unsigned int vp8_get_mb_ss_sse2

+(

+    const short *src_ptr

+);

+unsigned int vp8_get16x16var_sse2

+(

+    const unsigned char *src_ptr,

+    int source_stride,

+    const unsigned char *ref_ptr,

+    int recon_stride,

+    unsigned int *SSE,

+    int *Sum

+);

+unsigned int vp8_get8x8var_sse2

+(

+    const unsigned char *src_ptr,

+    int source_stride,

+    const unsigned char *ref_ptr,

+    int recon_stride,

+    unsigned int *SSE,

+    int *Sum

+);

+void vp8_filter_block2d_bil_var_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int  xoffset,

+    int  yoffset,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_horiz_vert_variance8x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_horiz_vert_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_horiz_variance8x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_horiz_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_vert_variance8x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_vert_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+unsigned int vp8_variance4x4_wmt(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    vp8_get4x4var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &var, &avg) ;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 4));

+}

+unsigned int vp8_variance8x8_wmt

+(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int var;

+    int avg;

+    vp8_get8x8var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &var, &avg) ;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 6));

+}

+unsigned int vp8_variance16x16_wmt

+(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int sse0;

+    int sum0;

+    vp8_get16x16var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

+    *sse = sse0;

+    return (sse0 - ((unsigned int)(sum0 * sum0) >> 8));

+}

+unsigned int vp8_mse16x16_wmt(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int sse0;

+    int sum0;

+    vp8_get16x16var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

+    *sse = sse0;

+    return sse0;

+}

+unsigned int vp8_variance16x8_wmt

+(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int sse0, sse1, var;

+    int sum0, sum1, avg;

+    vp8_get8x8var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

+    vp8_get8x8var_sse2(src_ptr + 8, source_stride, ref_ptr + 8, recon_stride, &sse1, &sum1);

+    var = sse0 + sse1;

+    avg = sum0 + sum1;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 7));

+}

+unsigned int vp8_variance8x16_wmt

+(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    unsigned int sse0, sse1, var;

+    int sum0, sum1, avg;

+    vp8_get8x8var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

+    vp8_get8x8var_sse2(src_ptr + 8 * source_stride, source_stride, ref_ptr + 8 * recon_stride, recon_stride, &sse1, &sum1) ;

+    var = sse0 + sse1;

+    avg = sum0 + sum1;

+    *sse = var;

+    return (var - ((unsigned int)(avg * avg) >> 7));

+}

+unsigned int vp8_sub_pixel_variance4x4_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    vp8_filter_block2d_bil4x4_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum, &xxsum

+    );

+    *sse = xxsum;

+    return (xxsum - ((unsigned int)(xsum * xsum) >> 4));

+}

+unsigned int vp8_sub_pixel_variance8x8_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum, &xxsum);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum, &xxsum);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum, &xxsum);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            xoffset, yoffset,

+            &xsum, &xxsum);

+    }

+    *sse = xxsum;

+    return (xxsum - ((unsigned int)(xsum * xsum) >> 6));

+}

+unsigned int vp8_sub_pixel_variance16x16_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0, xsum1;

+    unsigned int xxsum0, xxsum1;

+    // note we could avoid these if statements if the calling function

+    // just called the appropriate functions inside.

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            xoffset, yoffset,

+            &xsum0, &xxsum0

+        );

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr + 8, src_pixels_per_line,

+            dst_ptr + 8, dst_pixels_per_line, 16,

+            xoffset, yoffset,

+            &xsum1, &xxsum1

+        );

+        xsum0 += xsum1;

+        xxsum0 += xxsum1;

+    }

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_sub_pixel_mse16x16_wmt(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    vp8_sub_pixel_variance16x16_wmt(src_ptr, src_pixels_per_line, xoffset, yoffset, dst_ptr, dst_pixels_per_line, sse);

+    return *sse;

+}

+unsigned int vp8_sub_pixel_variance16x8_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0, xsum1;

+    unsigned int xxsum0, xxsum1;

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            xoffset, yoffset,

+            &xsum0, &xxsum0);

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr + 8, src_pixels_per_line,

+            dst_ptr + 8, dst_pixels_per_line, 8,

+            xoffset, yoffset,

+            &xsum1, &xxsum1);

+        xsum0 += xsum1;

+        xxsum0 += xxsum1;

+    }

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 7));

+}

+unsigned int vp8_sub_pixel_variance8x16_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum, &xxsum);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum, &xxsum);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum, &xxsum);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            xoffset, yoffset,

+            &xsum, &xxsum);

+    }

+    *sse = xxsum;

+    return (xxsum - ((unsigned int)(xsum * xsum) >> 7));

+}

+unsigned int vp8_variance_halfpixvar16x16_h_wmt(

+    const unsigned char *src_ptr,

+    int  src_pixels_per_line,

+    const unsigned char *dst_ptr,

+    int  dst_pixels_per_line,

+    unsigned int *sse)

+{

+    int xsum0;

+    unsigned int xxsum0;

+    vp8_half_horiz_variance16x_h_sse2(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        &xsum0, &xxsum0);

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_variance_halfpixvar16x16_v_wmt(

+    const unsigned char *src_ptr,

+    int  src_pixels_per_line,

+    const unsigned char *dst_ptr,

+    int  dst_pixels_per_line,

+    unsigned int *sse)

+{

+    int xsum0;

+    unsigned int xxsum0;

+    vp8_half_vert_variance16x_h_sse2(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        &xsum0, &xxsum0);

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_variance_halfpixvar16x16_hv_wmt(

+    const unsigned char *src_ptr,

+    int  src_pixels_per_line,

+    const unsigned char *dst_ptr,

+    int  dst_pixels_per_line,

+    unsigned int *sse)

+{

+    int xsum0;

+    unsigned int xxsum0;

+    vp8_half_horiz_vert_variance16x_h_sse2(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        &xsum0, &xxsum0);

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

+}

--- /dev/null

+++ b/vp8/common/x86/variance_ssse3.c

@@ -1,0 +1,165 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "vpx_config.h"

+#include "vp8/common/variance.h"

+#include "vp8/common/pragmas.h"

+#include "vpx_ports/mem.h"

+extern unsigned int vp8_get16x16var_sse2

+(

+    const unsigned char *src_ptr,

+    int source_stride,

+    const unsigned char *ref_ptr,

+    int recon_stride,

+    unsigned int *SSE,

+    int *Sum

+);

+extern void vp8_half_horiz_vert_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+extern void vp8_half_horiz_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+extern void vp8_half_vert_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+extern void vp8_filter_block2d_bil_var_ssse3

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int  xoffset,

+    int  yoffset,

+    int *sum,

+    unsigned int *sumsquared

+);

+unsigned int vp8_sub_pixel_variance16x16_ssse3

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0;

+    unsigned int xxsum0;

+    // note we could avoid these if statements if the calling function

+    // just called the appropriate functions inside.

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_ssse3(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            xoffset, yoffset,

+            &xsum0, &xxsum0);

+    }

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_sub_pixel_variance16x8_ssse3

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0;

+    unsigned int xxsum0;

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_ssse3(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            xoffset, yoffset,

+            &xsum0, &xxsum0);

+    }

+    *sse = xxsum0;

+    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 7));

+}

--- a/vp8/encoder/arm/armv6/vp8_sad16x16_armv6.asm

+++ /dev/null

@@ -1,96 +1,0 @@

-;

-;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_sad16x16_armv6|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    const unsigned char *src_ptr

-; r1    int  src_stride

-; r2    const unsigned char *ref_ptr

-; r3    int  ref_stride

-; stack max_sad (not used)

-|vp8_sad16x16_armv6| PROC

-    stmfd   sp!, {r4-r12, lr}

-    pld     [r0, r1, lsl #0]

-    pld     [r2, r3, lsl #0]

-    pld     [r0, r1, lsl #1]

-    pld     [r2, r3, lsl #1]

-    mov     r4, #0              ; sad = 0;

-    mov     r5, #8              ; loop count

-loop

-    ; 1st row

-    ldr     r6, [r0, #0x0]      ; load 4 src pixels (1A)

-    ldr     r8, [r2, #0x0]      ; load 4 ref pixels (1A)

-    ldr     r7, [r0, #0x4]      ; load 4 src pixels (1A)

-    ldr     r9, [r2, #0x4]      ; load 4 ref pixels (1A)

-    ldr     r10, [r0, #0x8]     ; load 4 src pixels (1B)

-    ldr     r11, [r0, #0xC]     ; load 4 src pixels (1B)

-    usada8  r4, r8, r6, r4      ; calculate sad for 4 pixels

-    usad8   r8, r7, r9          ; calculate sad for 4 pixels

-    ldr     r12, [r2, #0x8]     ; load 4 ref pixels (1B)

-    ldr     lr, [r2, #0xC]      ; load 4 ref pixels (1B)

-    add     r0, r0, r1          ; set src pointer to next row

-    add     r2, r2, r3          ; set dst pointer to next row

-    pld     [r0, r1, lsl #1]

-    pld     [r2, r3, lsl #1]

-    usada8  r4, r10, r12, r4    ; calculate sad for 4 pixels

-    usada8  r8, r11, lr, r8     ; calculate sad for 4 pixels

-    ldr     r6, [r0, #0x0]      ; load 4 src pixels (2A)

-    ldr     r7, [r0, #0x4]      ; load 4 src pixels (2A)

-    add     r4, r4, r8          ; add partial sad values

-    ; 2nd row

-    ldr     r8, [r2, #0x0]      ; load 4 ref pixels (2A)

-    ldr     r9, [r2, #0x4]      ; load 4 ref pixels (2A)

-    ldr     r10, [r0, #0x8]     ; load 4 src pixels (2B)

-    ldr     r11, [r0, #0xC]     ; load 4 src pixels (2B)

-    usada8  r4, r6, r8, r4      ; calculate sad for 4 pixels

-    usad8   r8, r7, r9          ; calculate sad for 4 pixels

-    ldr     r12, [r2, #0x8]     ; load 4 ref pixels (2B)

-    ldr     lr, [r2, #0xC]      ; load 4 ref pixels (2B)

-    add     r0, r0, r1          ; set src pointer to next row

-    add     r2, r2, r3          ; set dst pointer to next row

-    usada8  r4, r10, r12, r4    ; calculate sad for 4 pixels

-    usada8  r8, r11, lr, r8     ; calculate sad for 4 pixels

-    pld     [r0, r1, lsl #1]

-    pld     [r2, r3, lsl #1]

-    subs    r5, r5, #1          ; decrement loop counter

-    add     r4, r4, r8          ; add partial sad values

-    bne     loop

-    mov     r0, r4              ; return sad

-    ldmfd   sp!, {r4-r12, pc}

-    ENDP

-    END

--- a/vp8/encoder/arm/armv6/vp8_variance16x16_armv6.asm

+++ /dev/null

@@ -1,154 +1,0 @@

-;

-;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_variance16x16_armv6|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char *src_ptr

-; r1    int source_stride

-; r2    unsigned char *ref_ptr

-; r3    int  recon_stride

-; stack unsigned int *sse

-|vp8_variance16x16_armv6| PROC

-    stmfd   sp!, {r4-r12, lr}

-    pld     [r0, r1, lsl #0]

-    pld     [r2, r3, lsl #0]

-    mov     r8, #0              ; initialize sum = 0

-    mov     r11, #0             ; initialize sse = 0

-    mov     r12, #16            ; set loop counter to 16 (=block height)

-loop

-    ; 1st 4 pixels

-    ldr     r4, [r0, #0]        ; load 4 src pixels

-    ldr     r5, [r2, #0]        ; load 4 ref pixels

-    mov     lr, #0              ; constant zero

-    usub8   r6, r4, r5          ; calculate difference

-    pld     [r0, r1, lsl #1]

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r9, r5, r4          ; calculate difference with reversed operands

-    pld     [r2, r3, lsl #1]

-    sel     r6, r9, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    adds    r8, r8, r4          ; add positive differences to sum

-    subs    r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r10, r6, ror #8     ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 2nd 4 pixels

-    ldr     r4, [r0, #4]        ; load 4 src pixels

-    ldr     r5, [r2, #4]        ; load 4 ref pixels

-    smlad   r11, r10, r10, r11  ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r9, r5, r4          ; calculate difference with reversed operands

-    sel     r6, r9, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r10, r6, ror #8     ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 3rd 4 pixels

-    ldr     r4, [r0, #8]        ; load 4 src pixels

-    ldr     r5, [r2, #8]        ; load 4 ref pixels

-    smlad   r11, r10, r10, r11  ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r9, r5, r4          ; calculate difference with reversed operands

-    sel     r6, r9, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r10, r6, ror #8     ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 4th 4 pixels

-    ldr     r4, [r0, #12]       ; load 4 src pixels

-    ldr     r5, [r2, #12]       ; load 4 ref pixels

-    smlad   r11, r10, r10, r11  ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    add     r0, r0, r1          ; set src_ptr to next row

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r9, r5, r4          ; calculate difference with reversed operands

-    add     r2, r2, r3          ; set dst_ptr to next row

-    sel     r6, r9, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r10, r6, ror #8     ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    smlad   r11, r10, r10, r11  ; dual signed multiply, add and accumulate (2)

-    subs    r12, r12, #1

-    bne     loop

-    ; return stuff

-    ldr     r6, [sp, #40]       ; get address of sse

-    mul     r0, r8, r8          ; sum * sum

-    str     r11, [r6]           ; store sse

-    sub     r0, r11, r0, lsr #8 ; return (sse - ((sum * sum) >> 8))

-    ldmfd   sp!, {r4-r12, pc}

-    ENDP

-    END

--- a/vp8/encoder/arm/armv6/vp8_variance8x8_armv6.asm

+++ /dev/null

@@ -1,101 +1,0 @@

-;

-;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_variance8x8_armv6|

-    ARM

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char *src_ptr

-; r1    int source_stride

-; r2    unsigned char *ref_ptr

-; r3    int  recon_stride

-; stack unsigned int *sse

-|vp8_variance8x8_armv6| PROC

-    push    {r4-r10, lr}

-    pld     [r0, r1, lsl #0]

-    pld     [r2, r3, lsl #0]

-    mov     r12, #8             ; set loop counter to 8 (=block height)

-    mov     r4, #0              ; initialize sum = 0

-    mov     r5, #0              ; initialize sse = 0

-loop

-    ; 1st 4 pixels

-    ldr     r6, [r0, #0x0]      ; load 4 src pixels

-    ldr     r7, [r2, #0x0]      ; load 4 ref pixels

-    mov     lr, #0              ; constant zero

-    usub8   r8, r6, r7          ; calculate difference

-    pld     [r0, r1, lsl #1]

-    sel     r10, r8, lr         ; select bytes with positive difference

-    usub8   r9, r7, r6          ; calculate difference with reversed operands

-    pld     [r2, r3, lsl #1]

-    sel     r8, r9, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r6, r10, lr         ; calculate sum of positive differences

-    usad8   r7, r8, lr          ; calculate sum of negative differences

-    orr     r8, r8, r10         ; differences of all 4 pixels

-    ; calculate total sum

-    add    r4, r4, r6           ; add positive differences to sum

-    sub    r4, r4, r7           ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r7, r8              ; byte (two pixels) to halfwords

-    uxtb16  r10, r8, ror #8     ; another two pixels to halfwords

-    smlad   r5, r7, r7, r5      ; dual signed multiply, add and accumulate (1)

-    ; 2nd 4 pixels

-    ldr     r6, [r0, #0x4]      ; load 4 src pixels

-    ldr     r7, [r2, #0x4]      ; load 4 ref pixels

-    smlad   r5, r10, r10, r5    ; dual signed multiply, add and accumulate (2)

-    usub8   r8, r6, r7          ; calculate difference

-    add     r0, r0, r1          ; set src_ptr to next row

-    sel     r10, r8, lr         ; select bytes with positive difference

-    usub8   r9, r7, r6          ; calculate difference with reversed operands

-    add     r2, r2, r3          ; set dst_ptr to next row

-    sel     r8, r9, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r6, r10, lr         ; calculate sum of positive differences

-    usad8   r7, r8, lr          ; calculate sum of negative differences

-    orr     r8, r8, r10         ; differences of all 4 pixels

-    ; calculate total sum

-    add     r4, r4, r6          ; add positive differences to sum

-    sub     r4, r4, r7          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r7, r8              ; byte (two pixels) to halfwords

-    uxtb16  r10, r8, ror #8     ; another two pixels to halfwords

-    smlad   r5, r7, r7, r5      ; dual signed multiply, add and accumulate (1)

-    subs    r12, r12, #1        ; next row

-    smlad   r5, r10, r10, r5    ; dual signed multiply, add and accumulate (2)

-    bne     loop

-    ; return stuff

-    ldr     r8, [sp, #32]       ; get address of sse

-    mul     r1, r4, r4          ; sum * sum

-    str     r5, [r8]            ; store sse

-    sub     r0, r5, r1, ASR #6  ; return (sse - ((sum * sum) >> 6))

-    pop     {r4-r10, pc}

-    ENDP

-    END

--- a/vp8/encoder/arm/armv6/vp8_variance_halfpixvar16x16_h_armv6.asm

+++ /dev/null

@@ -1,182 +1,0 @@

-;

-;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_variance_halfpixvar16x16_h_armv6|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char *src_ptr

-; r1    int source_stride

-; r2    unsigned char *ref_ptr

-; r3    int  recon_stride

-; stack unsigned int *sse

-|vp8_variance_halfpixvar16x16_h_armv6| PROC

-    stmfd   sp!, {r4-r12, lr}

-    pld     [r0, r1, lsl #0]

-    pld     [r2, r3, lsl #0]

-    mov     r8, #0              ; initialize sum = 0

-    ldr     r10, c80808080

-    mov     r11, #0             ; initialize sse = 0

-    mov     r12, #16            ; set loop counter to 16 (=block height)

-    mov     lr, #0              ; constant zero

-loop

-    ; 1st 4 pixels

-    ldr     r4, [r0, #0]        ; load 4 src pixels

-    ldr     r6, [r0, #1]        ; load 4 src pixels with 1 byte offset

-    ldr     r5, [r2, #0]        ; load 4 ref pixels

-    ; bilinear interpolation

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    usub8   r6, r4, r5          ; calculate difference

-    pld     [r0, r1, lsl #1]

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    pld     [r2, r3, lsl #1]

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    adds    r8, r8, r4          ; add positive differences to sum

-    subs    r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 2nd 4 pixels

-    ldr     r4, [r0, #4]        ; load 4 src pixels

-    ldr     r6, [r0, #5]        ; load 4 src pixels with 1 byte offset

-    ldr     r5, [r2, #4]        ; load 4 ref pixels

-    ; bilinear interpolation

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 3rd 4 pixels

-    ldr     r4, [r0, #8]        ; load 4 src pixels

-    ldr     r6, [r0, #9]        ; load 4 src pixels with 1 byte offset

-    ldr     r5, [r2, #8]        ; load 4 ref pixels

-    ; bilinear interpolation

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    smlad   r11, r7, r7, r11  ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 4th 4 pixels

-    ldr     r4, [r0, #12]       ; load 4 src pixels

-    ldr     r6, [r0, #13]       ; load 4 src pixels with 1 byte offset

-    ldr     r5, [r2, #12]       ; load 4 ref pixels

-    ; bilinear interpolation

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    add     r0, r0, r1          ; set src_ptr to next row

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    add     r2, r2, r3          ; set dst_ptr to next row

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    subs    r12, r12, #1

-    bne     loop

-    ; return stuff

-    ldr     r6, [sp, #40]       ; get address of sse

-    mul     r0, r8, r8          ; sum * sum

-    str     r11, [r6]           ; store sse

-    sub     r0, r11, r0, lsr #8 ; return (sse - ((sum * sum) >> 8))

-    ldmfd   sp!, {r4-r12, pc}

-    ENDP

-c80808080

-    DCD     0x80808080

-    END

--- a/vp8/encoder/arm/armv6/vp8_variance_halfpixvar16x16_hv_armv6.asm

+++ /dev/null

@@ -1,222 +1,0 @@

-;

-;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_variance_halfpixvar16x16_hv_armv6|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char *src_ptr

-; r1    int source_stride

-; r2    unsigned char *ref_ptr

-; r3    int  recon_stride

-; stack unsigned int *sse

-|vp8_variance_halfpixvar16x16_hv_armv6| PROC

-    stmfd   sp!, {r4-r12, lr}

-    pld     [r0, r1, lsl #0]

-    pld     [r2, r3, lsl #0]

-    mov     r8, #0              ; initialize sum = 0

-    ldr     r10, c80808080

-    mov     r11, #0             ; initialize sse = 0

-    mov     r12, #16            ; set loop counter to 16 (=block height)

-    mov     lr, #0              ; constant zero

-loop

-    add     r9, r0, r1          ; pointer to pixels on the next row

-    ; 1st 4 pixels

-    ldr     r4, [r0, #0]        ; load source pixels a, row N

-    ldr     r6, [r0, #1]        ; load source pixels b, row N

-    ldr     r5, [r9, #0]        ; load source pixels c, row N+1

-    ldr     r7, [r9, #1]        ; load source pixels d, row N+1

-    ; x = (a + b + 1) >> 1, interpolate pixels horizontally on row N

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    ; y = (c + d + 1) >> 1, interpolate pixels horizontally on row N+1

-    mvn     r7, r7

-    uhsub8  r5, r5, r7

-    eor     r5, r5, r10

-    ; z = (x + y + 1) >> 1, interpolate half pixel values vertically

-    mvn     r5, r5

-    uhsub8  r4, r4, r5

-    ldr     r5, [r2, #0]        ; load 4 ref pixels

-    eor     r4, r4, r10

-    usub8   r6, r4, r5          ; calculate difference

-    pld     [r0, r1, lsl #1]

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    pld     [r2, r3, lsl #1]

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    adds    r8, r8, r4          ; add positive differences to sum

-    subs    r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 2nd 4 pixels

-    ldr     r4, [r0, #4]        ; load source pixels a, row N

-    ldr     r6, [r0, #5]        ; load source pixels b, row N

-    ldr     r5, [r9, #4]        ; load source pixels c, row N+1

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    ldr     r7, [r9, #5]        ; load source pixels d, row N+1

-    ; x = (a + b + 1) >> 1, interpolate pixels horizontally on row N

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    ; y = (c + d + 1) >> 1, interpolate pixels horizontally on row N+1

-    mvn     r7, r7

-    uhsub8  r5, r5, r7

-    eor     r5, r5, r10

-    ; z = (x + y + 1) >> 1, interpolate half pixel values vertically

-    mvn     r5, r5

-    uhsub8  r4, r4, r5

-    ldr     r5, [r2, #4]        ; load 4 ref pixels

-    eor     r4, r4, r10

-    usub8   r6, r4, r5          ; calculate difference

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 3rd 4 pixels

-    ldr     r4, [r0, #8]        ; load source pixels a, row N

-    ldr     r6, [r0, #9]        ; load source pixels b, row N

-    ldr     r5, [r9, #8]        ; load source pixels c, row N+1

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    ldr     r7, [r9, #9]        ; load source pixels d, row N+1

-    ; x = (a + b + 1) >> 1, interpolate pixels horizontally on row N

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    ; y = (c + d + 1) >> 1, interpolate pixels horizontally on row N+1

-    mvn     r7, r7

-    uhsub8  r5, r5, r7

-    eor     r5, r5, r10

-    ; z = (x + y + 1) >> 1, interpolate half pixel values vertically

-    mvn     r5, r5

-    uhsub8  r4, r4, r5

-    ldr     r5, [r2, #8]        ; load 4 ref pixels

-    eor     r4, r4, r10

-    usub8   r6, r4, r5          ; calculate difference

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 4th 4 pixels

-    ldr     r4, [r0, #12]       ; load source pixels a, row N

-    ldr     r6, [r0, #13]       ; load source pixels b, row N

-    ldr     r5, [r9, #12]       ; load source pixels c, row N+1

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    ldr     r7, [r9, #13]       ; load source pixels d, row N+1

-    ; x = (a + b + 1) >> 1, interpolate pixels horizontally on row N

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    ; y = (c + d + 1) >> 1, interpolate pixels horizontally on row N+1

-    mvn     r7, r7

-    uhsub8  r5, r5, r7

-    eor     r5, r5, r10

-    ; z = (x + y + 1) >> 1, interpolate half pixel values vertically

-    mvn     r5, r5

-    uhsub8  r4, r4, r5

-    ldr     r5, [r2, #12]       ; load 4 ref pixels

-    eor     r4, r4, r10

-    usub8   r6, r4, r5          ; calculate difference

-    add     r0, r0, r1          ; set src_ptr to next row

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    add     r2, r2, r3          ; set dst_ptr to next row

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    subs    r12, r12, #1

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    bne     loop

-    ; return stuff

-    ldr     r6, [sp, #40]       ; get address of sse

-    mul     r0, r8, r8          ; sum * sum

-    str     r11, [r6]           ; store sse

-    sub     r0, r11, r0, lsr #8 ; return (sse - ((sum * sum) >> 8))

-    ldmfd   sp!, {r4-r12, pc}

-    ENDP

-c80808080

-    DCD     0x80808080

-    END

--- a/vp8/encoder/arm/armv6/vp8_variance_halfpixvar16x16_v_armv6.asm

+++ /dev/null

@@ -1,184 +1,0 @@

-;

-;  Copyright (c) 2011 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_variance_halfpixvar16x16_v_armv6|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char *src_ptr

-; r1    int source_stride

-; r2    unsigned char *ref_ptr

-; r3    int  recon_stride

-; stack unsigned int *sse

-|vp8_variance_halfpixvar16x16_v_armv6| PROC

-    stmfd   sp!, {r4-r12, lr}

-    pld     [r0, r1, lsl #0]

-    pld     [r2, r3, lsl #0]

-    mov     r8, #0              ; initialize sum = 0

-    ldr     r10, c80808080

-    mov     r11, #0             ; initialize sse = 0

-    mov     r12, #16            ; set loop counter to 16 (=block height)

-    mov     lr, #0              ; constant zero

-loop

-    add     r9, r0, r1          ; set src pointer to next row

-    ; 1st 4 pixels

-    ldr     r4, [r0, #0]        ; load 4 src pixels

-    ldr     r6, [r9, #0]        ; load 4 src pixels from next row

-    ldr     r5, [r2, #0]        ; load 4 ref pixels

-    ; bilinear interpolation

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    usub8   r6, r4, r5          ; calculate difference

-    pld     [r0, r1, lsl #1]

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    pld     [r2, r3, lsl #1]

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    adds    r8, r8, r4          ; add positive differences to sum

-    subs    r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 2nd 4 pixels

-    ldr     r4, [r0, #4]        ; load 4 src pixels

-    ldr     r6, [r9, #4]        ; load 4 src pixels from next row

-    ldr     r5, [r2, #4]        ; load 4 ref pixels

-    ; bilinear interpolation

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 3rd 4 pixels

-    ldr     r4, [r0, #8]        ; load 4 src pixels

-    ldr     r6, [r9, #8]        ; load 4 src pixels from next row

-    ldr     r5, [r2, #8]        ; load 4 ref pixels

-    ; bilinear interpolation

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    ; 4th 4 pixels

-    ldr     r4, [r0, #12]       ; load 4 src pixels

-    ldr     r6, [r9, #12]       ; load 4 src pixels from next row

-    ldr     r5, [r2, #12]       ; load 4 ref pixels

-    ; bilinear interpolation

-    mvn     r6, r6

-    uhsub8  r4, r4, r6

-    eor     r4, r4, r10

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    usub8   r6, r4, r5          ; calculate difference

-    add     r0, r0, r1          ; set src_ptr to next row

-    sel     r7, r6, lr          ; select bytes with positive difference

-    usub8   r6, r5, r4          ; calculate difference with reversed operands

-    add     r2, r2, r3          ; set dst_ptr to next row

-    sel     r6, r6, lr          ; select bytes with negative difference

-    ; calculate partial sums

-    usad8   r4, r7, lr          ; calculate sum of positive differences

-    usad8   r5, r6, lr          ; calculate sum of negative differences

-    orr     r6, r6, r7          ; differences of all 4 pixels

-    ; calculate total sum

-    add     r8, r8, r4          ; add positive differences to sum

-    sub     r8, r8, r5          ; substract negative differences from sum

-    ; calculate sse

-    uxtb16  r5, r6              ; byte (two pixels) to halfwords

-    uxtb16  r7, r6, ror #8      ; another two pixels to halfwords

-    smlad   r11, r5, r5, r11    ; dual signed multiply, add and accumulate (1)

-    smlad   r11, r7, r7, r11    ; dual signed multiply, add and accumulate (2)

-    subs    r12, r12, #1

-    bne     loop

-    ; return stuff

-    ldr     r6, [sp, #40]       ; get address of sse

-    mul     r0, r8, r8          ; sum * sum

-    str     r11, [r6]           ; store sse

-    sub     r0, r11, r0, lsr #8 ; return (sse - ((sum * sum) >> 8))

-    ldmfd   sp!, {r4-r12, pc}

-    ENDP

-c80808080

-    DCD     0x80808080

-    END

--- a/vp8/encoder/arm/neon/sad16_neon.asm

+++ /dev/null

@@ -1,207 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_sad16x16_neon|

-    EXPORT  |vp8_sad16x8_neon|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char *src_ptr

-; r1    int  src_stride

-; r2    unsigned char *ref_ptr

-; r3    int  ref_stride

-|vp8_sad16x16_neon| PROC

-;;

-    vld1.8          {q0}, [r0], r1

-    vld1.8          {q4}, [r2], r3

-    vld1.8          {q1}, [r0], r1

-    vld1.8          {q5}, [r2], r3

-    vabdl.u8        q12, d0, d8

-    vabdl.u8        q13, d1, d9

-    vld1.8          {q2}, [r0], r1

-    vld1.8          {q6}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vabal.u8        q13, d3, d11

-    vld1.8          {q3}, [r0], r1

-    vld1.8          {q7}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vabal.u8        q13, d5, d13

-;;

-    vld1.8          {q0}, [r0], r1

-    vld1.8          {q4}, [r2], r3

-    vabal.u8        q12, d6, d14

-    vabal.u8        q13, d7, d15

-    vld1.8          {q1}, [r0], r1

-    vld1.8          {q5}, [r2], r3

-    vabal.u8        q12, d0, d8

-    vabal.u8        q13, d1, d9

-    vld1.8          {q2}, [r0], r1

-    vld1.8          {q6}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vabal.u8        q13, d3, d11

-    vld1.8          {q3}, [r0], r1

-    vld1.8          {q7}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vabal.u8        q13, d5, d13

-;;

-    vld1.8          {q0}, [r0], r1

-    vld1.8          {q4}, [r2], r3

-    vabal.u8        q12, d6, d14

-    vabal.u8        q13, d7, d15

-    vld1.8          {q1}, [r0], r1

-    vld1.8          {q5}, [r2], r3

-    vabal.u8        q12, d0, d8

-    vabal.u8        q13, d1, d9

-    vld1.8          {q2}, [r0], r1

-    vld1.8          {q6}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vabal.u8        q13, d3, d11

-    vld1.8          {q3}, [r0], r1

-    vld1.8          {q7}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vabal.u8        q13, d5, d13

-;;

-    vld1.8          {q0}, [r0], r1

-    vld1.8          {q4}, [r2], r3

-    vabal.u8        q12, d6, d14

-    vabal.u8        q13, d7, d15

-    vld1.8          {q1}, [r0], r1

-    vld1.8          {q5}, [r2], r3

-    vabal.u8        q12, d0, d8

-    vabal.u8        q13, d1, d9

-    vld1.8          {q2}, [r0], r1

-    vld1.8          {q6}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vabal.u8        q13, d3, d11

-    vld1.8          {q3}, [r0]

-    vld1.8          {q7}, [r2]

-    vabal.u8        q12, d4, d12

-    vabal.u8        q13, d5, d13

-    vabal.u8        q12, d6, d14

-    vabal.u8        q13, d7, d15

-    vadd.u16        q0, q12, q13

-    vpaddl.u16      q1, q0

-    vpaddl.u32      q0, q1

-    vadd.u32        d0, d0, d1

-    vmov.32         r0, d0[0]

-    bx              lr

-    ENDP

-;==============================

-;unsigned int vp8_sad16x8_c(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-|vp8_sad16x8_neon| PROC

-    vld1.8          {q0}, [r0], r1

-    vld1.8          {q4}, [r2], r3

-    vld1.8          {q1}, [r0], r1

-    vld1.8          {q5}, [r2], r3

-    vabdl.u8        q12, d0, d8

-    vabdl.u8        q13, d1, d9

-    vld1.8          {q2}, [r0], r1

-    vld1.8          {q6}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vabal.u8        q13, d3, d11

-    vld1.8          {q3}, [r0], r1

-    vld1.8          {q7}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vabal.u8        q13, d5, d13

-    vld1.8          {q0}, [r0], r1

-    vld1.8          {q4}, [r2], r3

-    vabal.u8        q12, d6, d14

-    vabal.u8        q13, d7, d15

-    vld1.8          {q1}, [r0], r1

-    vld1.8          {q5}, [r2], r3

-    vabal.u8        q12, d0, d8

-    vabal.u8        q13, d1, d9

-    vld1.8          {q2}, [r0], r1

-    vld1.8          {q6}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vabal.u8        q13, d3, d11

-    vld1.8          {q3}, [r0], r1

-    vld1.8          {q7}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vabal.u8        q13, d5, d13

-    vabal.u8        q12, d6, d14

-    vabal.u8        q13, d7, d15

-    vadd.u16        q0, q12, q13

-    vpaddl.u16      q1, q0

-    vpaddl.u32      q0, q1

-    vadd.u32        d0, d0, d1

-    vmov.32         r0, d0[0]

-    bx              lr

-    ENDP

-    END

--- a/vp8/encoder/arm/neon/sad8_neon.asm

+++ /dev/null

@@ -1,209 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_sad8x8_neon|

-    EXPORT  |vp8_sad8x16_neon|

-    EXPORT  |vp8_sad4x4_neon|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; unsigned int vp8_sad8x8_c(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-|vp8_sad8x8_neon| PROC

-    vld1.8          {d0}, [r0], r1

-    vld1.8          {d8}, [r2], r3

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d10}, [r2], r3

-    vabdl.u8        q12, d0, d8

-    vld1.8          {d4}, [r0], r1

-    vld1.8          {d12}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vld1.8          {d6}, [r0], r1

-    vld1.8          {d14}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vld1.8          {d0}, [r0], r1

-    vld1.8          {d8}, [r2], r3

-    vabal.u8        q12, d6, d14

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d10}, [r2], r3

-    vabal.u8        q12, d0, d8

-    vld1.8          {d4}, [r0], r1

-    vld1.8          {d12}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vld1.8          {d6}, [r0], r1

-    vld1.8          {d14}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vabal.u8        q12, d6, d14

-    vpaddl.u16      q1, q12

-    vpaddl.u32      q0, q1

-    vadd.u32        d0, d0, d1

-    vmov.32         r0, d0[0]

-    bx              lr

-    ENDP

-;============================

-;unsigned int vp8_sad8x16_c(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-|vp8_sad8x16_neon| PROC

-    vld1.8          {d0}, [r0], r1

-    vld1.8          {d8}, [r2], r3

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d10}, [r2], r3

-    vabdl.u8        q12, d0, d8

-    vld1.8          {d4}, [r0], r1

-    vld1.8          {d12}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vld1.8          {d6}, [r0], r1

-    vld1.8          {d14}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vld1.8          {d0}, [r0], r1

-    vld1.8          {d8}, [r2], r3

-    vabal.u8        q12, d6, d14

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d10}, [r2], r3

-    vabal.u8        q12, d0, d8

-    vld1.8          {d4}, [r0], r1

-    vld1.8          {d12}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vld1.8          {d6}, [r0], r1

-    vld1.8          {d14}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vld1.8          {d0}, [r0], r1

-    vld1.8          {d8}, [r2], r3

-    vabal.u8        q12, d6, d14

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d10}, [r2], r3

-    vabal.u8        q12, d0, d8

-    vld1.8          {d4}, [r0], r1

-    vld1.8          {d12}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vld1.8          {d6}, [r0], r1

-    vld1.8          {d14}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vld1.8          {d0}, [r0], r1

-    vld1.8          {d8}, [r2], r3

-    vabal.u8        q12, d6, d14

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d10}, [r2], r3

-    vabal.u8        q12, d0, d8

-    vld1.8          {d4}, [r0], r1

-    vld1.8          {d12}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vld1.8          {d6}, [r0], r1

-    vld1.8          {d14}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vabal.u8        q12, d6, d14

-    vpaddl.u16      q1, q12

-    vpaddl.u32      q0, q1

-    vadd.u32        d0, d0, d1

-    vmov.32         r0, d0[0]

-    bx              lr

-    ENDP

-;===========================

-;unsigned int vp8_sad4x4_c(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-|vp8_sad4x4_neon| PROC

-    vld1.8          {d0}, [r0], r1

-    vld1.8          {d8}, [r2], r3

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d10}, [r2], r3

-    vabdl.u8        q12, d0, d8

-    vld1.8          {d4}, [r0], r1

-    vld1.8          {d12}, [r2], r3

-    vabal.u8        q12, d2, d10

-    vld1.8          {d6}, [r0], r1

-    vld1.8          {d14}, [r2], r3

-    vabal.u8        q12, d4, d12

-    vabal.u8        q12, d6, d14

-    vpaddl.u16      d1, d24

-    vpaddl.u32      d0, d1

-    vmov.32         r0, d0[0]

-    bx              lr

-    ENDP

-    END

--- a/vp8/encoder/arm/neon/variance_neon.asm

+++ /dev/null

@@ -1,276 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_variance16x16_neon|

-    EXPORT  |vp8_variance16x8_neon|

-    EXPORT  |vp8_variance8x16_neon|

-    EXPORT  |vp8_variance8x8_neon|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char *src_ptr

-; r1    int source_stride

-; r2    unsigned char *ref_ptr

-; r3    int  recon_stride

-; stack unsigned int *sse

-|vp8_variance16x16_neon| PROC

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-    mov             r12, #8

-variance16x16_neon_loop

-    vld1.8          {q0}, [r0], r1              ;Load up source and reference

-    vld1.8          {q2}, [r2], r3

-    vld1.8          {q1}, [r0], r1

-    vld1.8          {q3}, [r2], r3

-    vsubl.u8        q11, d0, d4                 ;calculate diff

-    vsubl.u8        q12, d1, d5

-    vsubl.u8        q13, d2, d6

-    vsubl.u8        q14, d3, d7

-    ;VPADAL adds adjacent pairs of elements of a vector, and accumulates

-    ;the results into the elements of the destination vector. The explanation

-    ;in ARM guide is wrong.

-    vpadal.s16      q8, q11                     ;calculate sum

-    vmlal.s16       q9, d22, d22                ;calculate sse

-    vmlal.s16       q10, d23, d23

-    subs            r12, r12, #1

-    vpadal.s16      q8, q12

-    vmlal.s16       q9, d24, d24

-    vmlal.s16       q10, d25, d25

-    vpadal.s16      q8, q13

-    vmlal.s16       q9, d26, d26

-    vmlal.s16       q10, d27, d27

-    vpadal.s16      q8, q14

-    vmlal.s16       q9, d28, d28

-    vmlal.s16       q10, d29, d29

-    bne             variance16x16_neon_loop

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    ldr             r12, [sp]                   ;load *sse from stack

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    ;vmov.32        r0, d0[0]                   ;this instruction costs a lot

-    ;vmov.32        r1, d1[0]

-    ;mul            r0, r0, r0

-    ;str            r1, [r12]

-    ;sub            r0, r1, r0, lsr #8

-    ; while sum is signed, sum * sum is always positive and must be treated as

-    ; unsigned to avoid propagating the sign bit.

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [r12]              ;store sse

-    vshr.u32        d10, d10, #8

-    vsub.u32        d0, d1, d10

-    vmov.32         r0, d0[0]                   ;return

-    bx              lr

-    ENDP

-;================================

-;unsigned int vp8_variance16x8_c(

-;    unsigned char *src_ptr,

-;    int  source_stride,

-;    unsigned char *ref_ptr,

-;    int  recon_stride,

-;   unsigned int *sse)

-|vp8_variance16x8_neon| PROC

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-    mov             r12, #4

-variance16x8_neon_loop

-    vld1.8          {q0}, [r0], r1              ;Load up source and reference

-    vld1.8          {q2}, [r2], r3

-    vld1.8          {q1}, [r0], r1

-    vld1.8          {q3}, [r2], r3

-    vsubl.u8        q11, d0, d4                 ;calculate diff

-    vsubl.u8        q12, d1, d5

-    vsubl.u8        q13, d2, d6

-    vsubl.u8        q14, d3, d7

-    vpadal.s16      q8, q11                     ;calculate sum

-    vmlal.s16       q9, d22, d22                ;calculate sse

-    vmlal.s16       q10, d23, d23

-    subs            r12, r12, #1

-    vpadal.s16      q8, q12

-    vmlal.s16       q9, d24, d24

-    vmlal.s16       q10, d25, d25

-    vpadal.s16      q8, q13

-    vmlal.s16       q9, d26, d26

-    vmlal.s16       q10, d27, d27

-    vpadal.s16      q8, q14

-    vmlal.s16       q9, d28, d28

-    vmlal.s16       q10, d29, d29

-    bne             variance16x8_neon_loop

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    ldr             r12, [sp]                   ;load *sse from stack

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [r12]              ;store sse

-    vshr.u32        d10, d10, #7

-    vsub.u32        d0, d1, d10

-    vmov.32         r0, d0[0]                   ;return

-    bx              lr

-    ENDP

-;=================================

-;unsigned int vp8_variance8x16_c(

-;    unsigned char *src_ptr,

-;    int  source_stride,

-;    unsigned char *ref_ptr,

-;    int  recon_stride,

-;   unsigned int *sse)

-|vp8_variance8x16_neon| PROC

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-    mov             r12, #8

-variance8x16_neon_loop

-    vld1.8          {d0}, [r0], r1              ;Load up source and reference

-    vld1.8          {d4}, [r2], r3

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d6}, [r2], r3

-    vsubl.u8        q11, d0, d4                 ;calculate diff

-    vsubl.u8        q12, d2, d6

-    vpadal.s16      q8, q11                     ;calculate sum

-    vmlal.s16       q9, d22, d22                ;calculate sse

-    vmlal.s16       q10, d23, d23

-    subs            r12, r12, #1

-    vpadal.s16      q8, q12

-    vmlal.s16       q9, d24, d24

-    vmlal.s16       q10, d25, d25

-    bne             variance8x16_neon_loop

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    ldr             r12, [sp]                   ;load *sse from stack

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [r12]              ;store sse

-    vshr.u32        d10, d10, #7

-    vsub.u32        d0, d1, d10

-    vmov.32         r0, d0[0]                   ;return

-    bx              lr

-    ENDP

-;==================================

-; r0    unsigned char *src_ptr

-; r1    int source_stride

-; r2    unsigned char *ref_ptr

-; r3    int  recon_stride

-; stack unsigned int *sse

-|vp8_variance8x8_neon| PROC

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-    mov             r12, #2

-variance8x8_neon_loop

-    vld1.8          {d0}, [r0], r1              ;Load up source and reference

-    vld1.8          {d4}, [r2], r3

-    vld1.8          {d1}, [r0], r1

-    vld1.8          {d5}, [r2], r3

-    vld1.8          {d2}, [r0], r1

-    vld1.8          {d6}, [r2], r3

-    vld1.8          {d3}, [r0], r1

-    vld1.8          {d7}, [r2], r3

-    vsubl.u8        q11, d0, d4                 ;calculate diff

-    vsubl.u8        q12, d1, d5

-    vsubl.u8        q13, d2, d6

-    vsubl.u8        q14, d3, d7

-    vpadal.s16      q8, q11                     ;calculate sum

-    vmlal.s16       q9, d22, d22                ;calculate sse

-    vmlal.s16       q10, d23, d23

-    subs            r12, r12, #1

-    vpadal.s16      q8, q12

-    vmlal.s16       q9, d24, d24

-    vmlal.s16       q10, d25, d25

-    vpadal.s16      q8, q13

-    vmlal.s16       q9, d26, d26

-    vmlal.s16       q10, d27, d27

-    vpadal.s16      q8, q14

-    vmlal.s16       q9, d28, d28

-    vmlal.s16       q10, d29, d29

-    bne             variance8x8_neon_loop

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    ldr             r12, [sp]                   ;load *sse from stack

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [r12]              ;store sse

-    vshr.u32        d10, d10, #6

-    vsub.u32        d0, d1, d10

-    vmov.32         r0, d0[0]                   ;return

-    bx              lr

-    ENDP

-    END

--- a/vp8/encoder/arm/neon/vp8_subpixelvariance16x16_neon.asm

+++ /dev/null

@@ -1,425 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_sub_pixel_variance16x16_neon_func|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char  *src_ptr,

-; r1    int  src_pixels_per_line,

-; r2    int  xoffset,

-; r3    int  yoffset,

-; stack(r4) unsigned char *dst_ptr,

-; stack(r5) int dst_pixels_per_line,

-; stack(r6) unsigned int *sse

-;note: most of the code is copied from bilinear_predict16x16_neon and vp8_variance16x16_neon.

-|vp8_sub_pixel_variance16x16_neon_func| PROC

-    push            {r4-r6, lr}

-    ldr             r12, _BilinearTaps_coeff_

-    ldr             r4, [sp, #16]           ;load *dst_ptr from stack

-    ldr             r5, [sp, #20]           ;load dst_pixels_per_line from stack

-    ldr             r6, [sp, #24]           ;load *sse from stack

-    cmp             r2, #0                  ;skip first_pass filter if xoffset=0

-    beq             secondpass_bfilter16x16_only

-    add             r2, r12, r2, lsl #3     ;calculate filter location

-    cmp             r3, #0                  ;skip second_pass filter if yoffset=0

-    vld1.s32        {d31}, [r2]             ;load first_pass filter

-    beq             firstpass_bfilter16x16_only

-    sub             sp, sp, #272            ;reserve space on stack for temporary storage

-    vld1.u8         {d2, d3, d4}, [r0], r1      ;load src data

-    mov             lr, sp

-    vld1.u8         {d5, d6, d7}, [r0], r1

-    mov             r2, #3                  ;loop counter

-    vld1.u8         {d8, d9, d10}, [r0], r1

-    vdup.8          d0, d31[0]              ;first_pass filter (d0 d1)

-    vld1.u8         {d11, d12, d13}, [r0], r1

-    vdup.8          d1, d31[4]

-;First Pass: output_height lines x output_width columns (17x16)

-vp8e_filt_blk2d_fp16x16_loop_neon

-    pld             [r0]

-    pld             [r0, r1]

-    pld             [r0, r1, lsl #1]

-    vmull.u8        q7, d2, d0              ;(src_ptr[0] * Filter[0])

-    vmull.u8        q8, d3, d0

-    vmull.u8        q9, d5, d0

-    vmull.u8        q10, d6, d0

-    vmull.u8        q11, d8, d0

-    vmull.u8        q12, d9, d0

-    vmull.u8        q13, d11, d0

-    vmull.u8        q14, d12, d0

-    vext.8          d2, d2, d3, #1          ;construct src_ptr[1]

-    vext.8          d5, d5, d6, #1

-    vext.8          d8, d8, d9, #1

-    vext.8          d11, d11, d12, #1

-    vmlal.u8        q7, d2, d1              ;(src_ptr[0] * Filter[1])

-    vmlal.u8        q9, d5, d1

-    vmlal.u8        q11, d8, d1

-    vmlal.u8        q13, d11, d1

-    vext.8          d3, d3, d4, #1

-    vext.8          d6, d6, d7, #1

-    vext.8          d9, d9, d10, #1

-    vext.8          d12, d12, d13, #1

-    vmlal.u8        q8, d3, d1              ;(src_ptr[0] * Filter[1])

-    vmlal.u8        q10, d6, d1

-    vmlal.u8        q12, d9, d1

-    vmlal.u8        q14, d12, d1

-    subs            r2, r2, #1

-    vqrshrn.u16    d14, q7, #7              ;shift/round/saturate to u8

-    vqrshrn.u16    d15, q8, #7

-    vqrshrn.u16    d16, q9, #7

-    vqrshrn.u16    d17, q10, #7

-    vqrshrn.u16    d18, q11, #7

-    vqrshrn.u16    d19, q12, #7

-    vqrshrn.u16    d20, q13, #7

-    vld1.u8         {d2, d3, d4}, [r0], r1      ;load src data

-    vqrshrn.u16    d21, q14, #7

-    vld1.u8         {d5, d6, d7}, [r0], r1

-    vst1.u8         {d14, d15, d16, d17}, [lr]!     ;store result

-    vld1.u8         {d8, d9, d10}, [r0], r1

-    vst1.u8         {d18, d19, d20, d21}, [lr]!

-    vld1.u8         {d11, d12, d13}, [r0], r1

-    bne             vp8e_filt_blk2d_fp16x16_loop_neon

-;First-pass filtering for rest 5 lines

-    vld1.u8         {d14, d15, d16}, [r0], r1

-    vmull.u8        q9, d2, d0              ;(src_ptr[0] * Filter[0])

-    vmull.u8        q10, d3, d0

-    vmull.u8        q11, d5, d0

-    vmull.u8        q12, d6, d0

-    vmull.u8        q13, d8, d0

-    vmull.u8        q14, d9, d0

-    vext.8          d2, d2, d3, #1          ;construct src_ptr[1]

-    vext.8          d5, d5, d6, #1

-    vext.8          d8, d8, d9, #1

-    vmlal.u8        q9, d2, d1              ;(src_ptr[0] * Filter[1])

-    vmlal.u8        q11, d5, d1

-    vmlal.u8        q13, d8, d1

-    vext.8          d3, d3, d4, #1

-    vext.8          d6, d6, d7, #1

-    vext.8          d9, d9, d10, #1

-    vmlal.u8        q10, d3, d1             ;(src_ptr[0] * Filter[1])

-    vmlal.u8        q12, d6, d1

-    vmlal.u8        q14, d9, d1

-    vmull.u8        q1, d11, d0

-    vmull.u8        q2, d12, d0

-    vmull.u8        q3, d14, d0

-    vmull.u8        q4, d15, d0

-    vext.8          d11, d11, d12, #1       ;construct src_ptr[1]

-    vext.8          d14, d14, d15, #1

-    vmlal.u8        q1, d11, d1             ;(src_ptr[0] * Filter[1])

-    vmlal.u8        q3, d14, d1

-    vext.8          d12, d12, d13, #1

-    vext.8          d15, d15, d16, #1

-    vmlal.u8        q2, d12, d1             ;(src_ptr[0] * Filter[1])

-    vmlal.u8        q4, d15, d1

-    vqrshrn.u16    d10, q9, #7              ;shift/round/saturate to u8

-    vqrshrn.u16    d11, q10, #7

-    vqrshrn.u16    d12, q11, #7

-    vqrshrn.u16    d13, q12, #7

-    vqrshrn.u16    d14, q13, #7

-    vqrshrn.u16    d15, q14, #7

-    vqrshrn.u16    d16, q1, #7

-    vqrshrn.u16    d17, q2, #7

-    vqrshrn.u16    d18, q3, #7

-    vqrshrn.u16    d19, q4, #7

-    vst1.u8         {d10, d11, d12, d13}, [lr]!         ;store result

-    vst1.u8         {d14, d15, d16, d17}, [lr]!

-    vst1.u8         {d18, d19}, [lr]!

-;Second pass: 16x16

-;secondpass_filter

-    add             r3, r12, r3, lsl #3

-    sub             lr, lr, #272

-    vld1.u32        {d31}, [r3]             ;load second_pass filter

-    sub             sp, sp, #256

-    mov             r3, sp

-    vld1.u8         {d22, d23}, [lr]!       ;load src data

-    vdup.8          d0, d31[0]              ;second_pass filter parameters (d0 d1)

-    vdup.8          d1, d31[4]

-    mov             r12, #4                 ;loop counter

-vp8e_filt_blk2d_sp16x16_loop_neon

-    vld1.u8         {d24, d25}, [lr]!

-    vmull.u8        q1, d22, d0             ;(src_ptr[0] * Filter[0])

-    vld1.u8         {d26, d27}, [lr]!

-    vmull.u8        q2, d23, d0

-    vld1.u8         {d28, d29}, [lr]!

-    vmull.u8        q3, d24, d0

-    vld1.u8         {d30, d31}, [lr]!

-    vmull.u8        q4, d25, d0

-    vmull.u8        q5, d26, d0

-    vmull.u8        q6, d27, d0

-    vmull.u8        q7, d28, d0

-    vmull.u8        q8, d29, d0

-    vmlal.u8        q1, d24, d1             ;(src_ptr[pixel_step] * Filter[1])

-    vmlal.u8        q2, d25, d1

-    vmlal.u8        q3, d26, d1

-    vmlal.u8        q4, d27, d1

-    vmlal.u8        q5, d28, d1

-    vmlal.u8        q6, d29, d1

-    vmlal.u8        q7, d30, d1

-    vmlal.u8        q8, d31, d1

-    subs            r12, r12, #1

-    vqrshrn.u16    d2, q1, #7               ;shift/round/saturate to u8

-    vqrshrn.u16    d3, q2, #7

-    vqrshrn.u16    d4, q3, #7

-    vqrshrn.u16    d5, q4, #7

-    vqrshrn.u16    d6, q5, #7

-    vqrshrn.u16    d7, q6, #7

-    vqrshrn.u16    d8, q7, #7

-    vqrshrn.u16    d9, q8, #7

-    vst1.u8         {d2, d3}, [r3]!         ;store result

-    vst1.u8         {d4, d5}, [r3]!

-    vst1.u8         {d6, d7}, [r3]!

-    vmov            q11, q15

-    vst1.u8         {d8, d9}, [r3]!

-    bne             vp8e_filt_blk2d_sp16x16_loop_neon

-    b               sub_pixel_variance16x16_neon

-;--------------------

-firstpass_bfilter16x16_only

-    mov             r2, #4                      ;loop counter

-    sub             sp, sp, #528            ;reserve space on stack for temporary storage

-    vdup.8          d0, d31[0]                  ;first_pass filter (d0 d1)

-    vdup.8          d1, d31[4]

-    mov             r3, sp

-;First Pass: output_height lines x output_width columns (16x16)

-vp8e_filt_blk2d_fpo16x16_loop_neon

-    vld1.u8         {d2, d3, d4}, [r0], r1      ;load src data

-    vld1.u8         {d5, d6, d7}, [r0], r1

-    vld1.u8         {d8, d9, d10}, [r0], r1

-    vld1.u8         {d11, d12, d13}, [r0], r1

-    pld             [r0]

-    pld             [r0, r1]

-    pld             [r0, r1, lsl #1]

-    vmull.u8        q7, d2, d0              ;(src_ptr[0] * Filter[0])

-    vmull.u8        q8, d3, d0

-    vmull.u8        q9, d5, d0

-    vmull.u8        q10, d6, d0

-    vmull.u8        q11, d8, d0

-    vmull.u8        q12, d9, d0

-    vmull.u8        q13, d11, d0

-    vmull.u8        q14, d12, d0

-    vext.8          d2, d2, d3, #1          ;construct src_ptr[1]

-    vext.8          d5, d5, d6, #1

-    vext.8          d8, d8, d9, #1

-    vext.8          d11, d11, d12, #1

-    vmlal.u8        q7, d2, d1              ;(src_ptr[0] * Filter[1])

-    vmlal.u8        q9, d5, d1

-    vmlal.u8        q11, d8, d1

-    vmlal.u8        q13, d11, d1

-    vext.8          d3, d3, d4, #1

-    vext.8          d6, d6, d7, #1

-    vext.8          d9, d9, d10, #1

-    vext.8          d12, d12, d13, #1

-    vmlal.u8        q8, d3, d1              ;(src_ptr[0] * Filter[1])

-    vmlal.u8        q10, d6, d1

-    vmlal.u8        q12, d9, d1

-    vmlal.u8        q14, d12, d1

-    subs            r2, r2, #1

-    vqrshrn.u16    d14, q7, #7              ;shift/round/saturate to u8

-    vqrshrn.u16    d15, q8, #7

-    vqrshrn.u16    d16, q9, #7

-    vqrshrn.u16    d17, q10, #7

-    vqrshrn.u16    d18, q11, #7

-    vqrshrn.u16    d19, q12, #7

-    vqrshrn.u16    d20, q13, #7

-    vst1.u8         {d14, d15}, [r3]!       ;store result

-    vqrshrn.u16    d21, q14, #7

-    vst1.u8         {d16, d17}, [r3]!

-    vst1.u8         {d18, d19}, [r3]!

-    vst1.u8         {d20, d21}, [r3]!

-    bne             vp8e_filt_blk2d_fpo16x16_loop_neon

-    b               sub_pixel_variance16x16_neon

-;---------------------

-secondpass_bfilter16x16_only

-;Second pass: 16x16

-;secondpass_filter

-    sub             sp, sp, #528            ;reserve space on stack for temporary storage

-    add             r3, r12, r3, lsl #3

-    mov             r12, #4                     ;loop counter

-    vld1.u32        {d31}, [r3]                 ;load second_pass filter

-    vld1.u8         {d22, d23}, [r0], r1        ;load src data

-    mov             r3, sp

-    vdup.8          d0, d31[0]                  ;second_pass filter parameters (d0 d1)

-    vdup.8          d1, d31[4]

-vp8e_filt_blk2d_spo16x16_loop_neon

-    vld1.u8         {d24, d25}, [r0], r1

-    vmull.u8        q1, d22, d0             ;(src_ptr[0] * Filter[0])

-    vld1.u8         {d26, d27}, [r0], r1

-    vmull.u8        q2, d23, d0

-    vld1.u8         {d28, d29}, [r0], r1

-    vmull.u8        q3, d24, d0

-    vld1.u8         {d30, d31}, [r0], r1

-    vmull.u8        q4, d25, d0

-    vmull.u8        q5, d26, d0

-    vmull.u8        q6, d27, d0

-    vmull.u8        q7, d28, d0

-    vmull.u8        q8, d29, d0

-    vmlal.u8        q1, d24, d1             ;(src_ptr[pixel_step] * Filter[1])

-    vmlal.u8        q2, d25, d1

-    vmlal.u8        q3, d26, d1

-    vmlal.u8        q4, d27, d1

-    vmlal.u8        q5, d28, d1

-    vmlal.u8        q6, d29, d1

-    vmlal.u8        q7, d30, d1

-    vmlal.u8        q8, d31, d1

-    vqrshrn.u16    d2, q1, #7               ;shift/round/saturate to u8

-    vqrshrn.u16    d3, q2, #7

-    vqrshrn.u16    d4, q3, #7

-    vqrshrn.u16    d5, q4, #7

-    vqrshrn.u16    d6, q5, #7

-    vqrshrn.u16    d7, q6, #7

-    vqrshrn.u16    d8, q7, #7

-    vqrshrn.u16    d9, q8, #7

-    vst1.u8         {d2, d3}, [r3]!         ;store result

-    subs            r12, r12, #1

-    vst1.u8         {d4, d5}, [r3]!

-    vmov            q11, q15

-    vst1.u8         {d6, d7}, [r3]!

-    vst1.u8         {d8, d9}, [r3]!

-    bne             vp8e_filt_blk2d_spo16x16_loop_neon

-    b               sub_pixel_variance16x16_neon

-;----------------------------

-;variance16x16

-sub_pixel_variance16x16_neon

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-    sub             r3, r3, #256

-    mov             r12, #8

-sub_pixel_variance16x16_neon_loop

-    vld1.8          {q0}, [r3]!                 ;Load up source and reference

-    vld1.8          {q2}, [r4], r5

-    vld1.8          {q1}, [r3]!

-    vld1.8          {q3}, [r4], r5

-    vsubl.u8        q11, d0, d4                 ;diff

-    vsubl.u8        q12, d1, d5

-    vsubl.u8        q13, d2, d6

-    vsubl.u8        q14, d3, d7

-    vpadal.s16      q8, q11                     ;sum

-    vmlal.s16       q9, d22, d22                ;sse

-    vmlal.s16       q10, d23, d23

-    subs            r12, r12, #1

-    vpadal.s16      q8, q12

-    vmlal.s16       q9, d24, d24

-    vmlal.s16       q10, d25, d25

-    vpadal.s16      q8, q13

-    vmlal.s16       q9, d26, d26

-    vmlal.s16       q10, d27, d27

-    vpadal.s16      q8, q14

-    vmlal.s16       q9, d28, d28

-    vmlal.s16       q10, d29, d29

-    bne             sub_pixel_variance16x16_neon_loop

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [r6]               ;store sse

-    vshr.u32        d10, d10, #8

-    vsub.u32        d0, d1, d10

-    add             sp, sp, #528

-    vmov.32         r0, d0[0]                   ;return

-    pop             {r4-r6,pc}

-    ENDP

-;-----------------

-_BilinearTaps_coeff_

-    DCD     bilinear_taps_coeff

-bilinear_taps_coeff

-    DCD     128, 0, 112, 16, 96, 32, 80, 48, 64, 64, 48, 80, 32, 96, 16, 112

-    END

--- a/vp8/encoder/arm/neon/vp8_subpixelvariance16x16s_neon.asm

+++ /dev/null

@@ -1,572 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_variance_halfpixvar16x16_h_neon|

-    EXPORT  |vp8_variance_halfpixvar16x16_v_neon|

-    EXPORT  |vp8_variance_halfpixvar16x16_hv_neon|

-    EXPORT  |vp8_sub_pixel_variance16x16s_neon|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-;================================================

-;unsigned int vp8_variance_halfpixvar16x16_h_neon

-;(

-;    unsigned char  *src_ptr, r0

-;    int  src_pixels_per_line,  r1

-;    unsigned char *dst_ptr,  r2

-;    int dst_pixels_per_line,   r3

-;    unsigned int *sse

-;);

-;================================================

-|vp8_variance_halfpixvar16x16_h_neon| PROC

-    push            {lr}

-    mov             r12, #4                  ;loop counter

-    ldr             lr, [sp, #4]           ;load *sse from stack

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-;First Pass: output_height lines x output_width columns (16x16)

-vp8_filt_fpo16x16s_4_0_loop_neon

-    vld1.u8         {d0, d1, d2, d3}, [r0], r1      ;load src data

-    vld1.8          {q11}, [r2], r3

-    vld1.u8         {d4, d5, d6, d7}, [r0], r1

-    vld1.8          {q12}, [r2], r3

-    vld1.u8         {d8, d9, d10, d11}, [r0], r1

-    vld1.8          {q13}, [r2], r3

-    vld1.u8         {d12, d13, d14, d15}, [r0], r1

-    ;pld                [r0]

-    ;pld                [r0, r1]

-    ;pld                [r0, r1, lsl #1]

-    vext.8          q1, q0, q1, #1          ;construct src_ptr[1]

-    vext.8          q3, q2, q3, #1

-    vext.8          q5, q4, q5, #1

-    vext.8          q7, q6, q7, #1

-    vrhadd.u8       q0, q0, q1              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

-    vld1.8          {q14}, [r2], r3

-    vrhadd.u8       q1, q2, q3

-    vrhadd.u8       q2, q4, q5

-    vrhadd.u8       q3, q6, q7

-    vsubl.u8        q4, d0, d22                 ;diff

-    vsubl.u8        q5, d1, d23

-    vsubl.u8        q6, d2, d24

-    vsubl.u8        q7, d3, d25

-    vsubl.u8        q0, d4, d26

-    vsubl.u8        q1, d5, d27

-    vsubl.u8        q2, d6, d28

-    vsubl.u8        q3, d7, d29

-    vpadal.s16      q8, q4                     ;sum

-    vmlal.s16       q9, d8, d8                ;sse

-    vmlal.s16       q10, d9, d9

-    subs            r12, r12, #1

-    vpadal.s16      q8, q5

-    vmlal.s16       q9, d10, d10

-    vmlal.s16       q10, d11, d11

-    vpadal.s16      q8, q6

-    vmlal.s16       q9, d12, d12

-    vmlal.s16       q10, d13, d13

-    vpadal.s16      q8, q7

-    vmlal.s16       q9, d14, d14

-    vmlal.s16       q10, d15, d15

-    vpadal.s16      q8, q0                     ;sum

-    vmlal.s16       q9, d0, d0                ;sse

-    vmlal.s16       q10, d1, d1

-    vpadal.s16      q8, q1

-    vmlal.s16       q9, d2, d2

-    vmlal.s16       q10, d3, d3

-    vpadal.s16      q8, q2

-    vmlal.s16       q9, d4, d4

-    vmlal.s16       q10, d5, d5

-    vpadal.s16      q8, q3

-    vmlal.s16       q9, d6, d6

-    vmlal.s16       q10, d7, d7

-    bne             vp8_filt_fpo16x16s_4_0_loop_neon

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [lr]               ;store sse

-    vshr.u32        d10, d10, #8

-    vsub.u32        d0, d1, d10

-    vmov.32         r0, d0[0]                   ;return

-    pop             {pc}

-    ENDP

-;================================================

-;unsigned int vp8_variance_halfpixvar16x16_v_neon

-;(

-;    unsigned char  *src_ptr, r0

-;    int  src_pixels_per_line,  r1

-;    unsigned char *dst_ptr,  r2

-;    int dst_pixels_per_line,   r3

-;    unsigned int *sse

-;);

-;================================================

-|vp8_variance_halfpixvar16x16_v_neon| PROC

-    push            {lr}

-    mov             r12, #4                     ;loop counter

-    vld1.u8         {q0}, [r0], r1              ;load src data

-    ldr             lr, [sp, #4]                ;load *sse from stack

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-vp8_filt_spo16x16s_0_4_loop_neon

-    vld1.u8         {q2}, [r0], r1

-    vld1.8          {q1}, [r2], r3

-    vld1.u8         {q4}, [r0], r1

-    vld1.8          {q3}, [r2], r3

-    vld1.u8         {q6}, [r0], r1

-    vld1.8          {q5}, [r2], r3

-    vld1.u8         {q15}, [r0], r1

-    vrhadd.u8       q0, q0, q2

-    vld1.8          {q7}, [r2], r3

-    vrhadd.u8       q2, q2, q4

-    vrhadd.u8       q4, q4, q6

-    vrhadd.u8       q6, q6, q15

-    vsubl.u8        q11, d0, d2                 ;diff

-    vsubl.u8        q12, d1, d3

-    vsubl.u8        q13, d4, d6

-    vsubl.u8        q14, d5, d7

-    vsubl.u8        q0, d8, d10

-    vsubl.u8        q1, d9, d11

-    vsubl.u8        q2, d12, d14

-    vsubl.u8        q3, d13, d15

-    vpadal.s16      q8, q11                     ;sum

-    vmlal.s16       q9, d22, d22                ;sse

-    vmlal.s16       q10, d23, d23

-    subs            r12, r12, #1

-    vpadal.s16      q8, q12

-    vmlal.s16       q9, d24, d24

-    vmlal.s16       q10, d25, d25

-    vpadal.s16      q8, q13

-    vmlal.s16       q9, d26, d26

-    vmlal.s16       q10, d27, d27

-    vpadal.s16      q8, q14

-    vmlal.s16       q9, d28, d28

-    vmlal.s16       q10, d29, d29

-    vpadal.s16      q8, q0                     ;sum

-    vmlal.s16       q9, d0, d0                 ;sse

-    vmlal.s16       q10, d1, d1

-    vpadal.s16      q8, q1

-    vmlal.s16       q9, d2, d2

-    vmlal.s16       q10, d3, d3

-    vpadal.s16      q8, q2

-    vmlal.s16       q9, d4, d4

-    vmlal.s16       q10, d5, d5

-    vmov            q0, q15

-    vpadal.s16      q8, q3

-    vmlal.s16       q9, d6, d6

-    vmlal.s16       q10, d7, d7

-    bne             vp8_filt_spo16x16s_0_4_loop_neon

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [lr]               ;store sse

-    vshr.u32        d10, d10, #8

-    vsub.u32        d0, d1, d10

-    vmov.32         r0, d0[0]                   ;return

-    pop             {pc}

-    ENDP

-;================================================

-;unsigned int vp8_variance_halfpixvar16x16_hv_neon

-;(

-;    unsigned char  *src_ptr, r0

-;    int  src_pixels_per_line,  r1

-;    unsigned char *dst_ptr,  r2

-;    int dst_pixels_per_line,   r3

-;    unsigned int *sse

-;);

-;================================================

-|vp8_variance_halfpixvar16x16_hv_neon| PROC

-    push            {lr}

-    vld1.u8         {d0, d1, d2, d3}, [r0], r1      ;load src data

-    ldr             lr, [sp, #4]           ;load *sse from stack

-    vmov.i8         q13, #0                      ;q8 - sum

-    vext.8          q1, q0, q1, #1          ;construct src_ptr[1]

-    vmov.i8         q14, #0                      ;q9, q10 - sse

-    vmov.i8         q15, #0

-    mov             r12, #4                  ;loop counter

-    vrhadd.u8       q0, q0, q1              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

-;First Pass: output_height lines x output_width columns (17x16)

-vp8_filt16x16s_4_4_loop_neon

-    vld1.u8         {d4, d5, d6, d7}, [r0], r1

-    vld1.u8         {d8, d9, d10, d11}, [r0], r1

-    vld1.u8         {d12, d13, d14, d15}, [r0], r1

-    vld1.u8         {d16, d17, d18, d19}, [r0], r1

-    ;pld                [r0]

-    ;pld                [r0, r1]

-    ;pld                [r0, r1, lsl #1]

-    vext.8          q3, q2, q3, #1          ;construct src_ptr[1]

-    vext.8          q5, q4, q5, #1

-    vext.8          q7, q6, q7, #1

-    vext.8          q9, q8, q9, #1

-    vrhadd.u8       q1, q2, q3              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

-    vrhadd.u8       q2, q4, q5

-    vrhadd.u8       q3, q6, q7

-    vrhadd.u8       q4, q8, q9

-    vld1.8          {q5}, [r2], r3

-    vrhadd.u8       q0, q0, q1

-    vld1.8          {q6}, [r2], r3

-    vrhadd.u8       q1, q1, q2

-    vld1.8          {q7}, [r2], r3

-    vrhadd.u8       q2, q2, q3

-    vld1.8          {q8}, [r2], r3

-    vrhadd.u8       q3, q3, q4

-    vsubl.u8        q9, d0, d10                 ;diff

-    vsubl.u8        q10, d1, d11

-    vsubl.u8        q11, d2, d12

-    vsubl.u8        q12, d3, d13

-    vsubl.u8        q0, d4, d14                 ;diff

-    vsubl.u8        q1, d5, d15

-    vsubl.u8        q5, d6, d16

-    vsubl.u8        q6, d7, d17

-    vpadal.s16      q13, q9                     ;sum

-    vmlal.s16       q14, d18, d18                ;sse

-    vmlal.s16       q15, d19, d19

-    vpadal.s16      q13, q10                     ;sum

-    vmlal.s16       q14, d20, d20                ;sse

-    vmlal.s16       q15, d21, d21

-    vpadal.s16      q13, q11                     ;sum

-    vmlal.s16       q14, d22, d22                ;sse

-    vmlal.s16       q15, d23, d23

-    vpadal.s16      q13, q12                     ;sum

-    vmlal.s16       q14, d24, d24                ;sse

-    vmlal.s16       q15, d25, d25

-    subs            r12, r12, #1

-    vpadal.s16      q13, q0                     ;sum

-    vmlal.s16       q14, d0, d0                ;sse

-    vmlal.s16       q15, d1, d1

-    vpadal.s16      q13, q1                     ;sum

-    vmlal.s16       q14, d2, d2                ;sse

-    vmlal.s16       q15, d3, d3

-    vpadal.s16      q13, q5                     ;sum

-    vmlal.s16       q14, d10, d10                ;sse

-    vmlal.s16       q15, d11, d11

-    vmov            q0, q4

-    vpadal.s16      q13, q6                     ;sum

-    vmlal.s16       q14, d12, d12                ;sse

-    vmlal.s16       q15, d13, d13

-    bne             vp8_filt16x16s_4_4_loop_neon

-    vadd.u32        q15, q14, q15                ;accumulate sse

-    vpaddl.s32      q0, q13                      ;accumulate sum

-    vpaddl.u32      q1, q15

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [lr]               ;store sse

-    vshr.u32        d10, d10, #8

-    vsub.u32        d0, d1, d10

-    vmov.32         r0, d0[0]                   ;return

-    pop             {pc}

-    ENDP

-;==============================

-; r0    unsigned char  *src_ptr,

-; r1    int  src_pixels_per_line,

-; r2    int  xoffset,

-; r3    int  yoffset,

-; stack unsigned char *dst_ptr,

-; stack int dst_pixels_per_line,

-; stack unsigned int *sse

-;note: in vp8_find_best_half_pixel_step()(called when 8<Speed<15), and first call of vp8_find_best_sub_pixel_step()

-;(called when speed<=8). xoffset/yoffset can only be 4 or 0, which means either by pass the filter,

-;or filter coeff is {64, 64}. This simplified program only works in this situation.

-;note: It happens that both xoffset and yoffset are zero. This can be handled in c code later.

-|vp8_sub_pixel_variance16x16s_neon| PROC

-    push            {r4, lr}

-    ldr             r4, [sp, #8]            ;load *dst_ptr from stack

-    ldr             r12, [sp, #12]          ;load dst_pixels_per_line from stack

-    ldr             lr, [sp, #16]           ;load *sse from stack

-    cmp             r2, #0                  ;skip first_pass filter if xoffset=0

-    beq             secondpass_bfilter16x16s_only

-    cmp             r3, #0                  ;skip second_pass filter if yoffset=0

-    beq             firstpass_bfilter16x16s_only

-    vld1.u8         {d0, d1, d2, d3}, [r0], r1      ;load src data

-    sub             sp, sp, #256            ;reserve space on stack for temporary storage

-    vext.8          q1, q0, q1, #1          ;construct src_ptr[1]

-    mov             r3, sp

-    mov             r2, #4                  ;loop counter

-    vrhadd.u8       q0, q0, q1              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

-;First Pass: output_height lines x output_width columns (17x16)

-vp8e_filt_blk2d_fp16x16s_loop_neon

-    vld1.u8         {d4, d5, d6, d7}, [r0], r1

-    vld1.u8         {d8, d9, d10, d11}, [r0], r1

-    vld1.u8         {d12, d13, d14, d15}, [r0], r1

-    vld1.u8         {d16, d17, d18, d19}, [r0], r1

-    ;pld                [r0]

-    ;pld                [r0, r1]

-    ;pld                [r0, r1, lsl #1]

-    vext.8          q3, q2, q3, #1          ;construct src_ptr[1]

-    vext.8          q5, q4, q5, #1

-    vext.8          q7, q6, q7, #1

-    vext.8          q9, q8, q9, #1

-    vrhadd.u8       q1, q2, q3              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

-    vrhadd.u8       q2, q4, q5

-    vrhadd.u8       q3, q6, q7

-    vrhadd.u8       q4, q8, q9

-    vrhadd.u8       q0, q0, q1

-    vrhadd.u8       q1, q1, q2

-    vrhadd.u8       q2, q2, q3

-    vrhadd.u8       q3, q3, q4

-    subs            r2, r2, #1

-    vst1.u8         {d0, d1 ,d2, d3}, [r3]!         ;store result

-    vmov            q0, q4

-    vst1.u8         {d4, d5, d6, d7}, [r3]!

-    bne             vp8e_filt_blk2d_fp16x16s_loop_neon

-    b               sub_pixel_variance16x16s_neon

-;--------------------

-firstpass_bfilter16x16s_only

-    mov             r2, #2                  ;loop counter

-    sub             sp, sp, #256            ;reserve space on stack for temporary storage

-    mov             r3, sp

-;First Pass: output_height lines x output_width columns (16x16)

-vp8e_filt_blk2d_fpo16x16s_loop_neon

-    vld1.u8         {d0, d1, d2, d3}, [r0], r1      ;load src data

-    vld1.u8         {d4, d5, d6, d7}, [r0], r1

-    vld1.u8         {d8, d9, d10, d11}, [r0], r1

-    vld1.u8         {d12, d13, d14, d15}, [r0], r1

-    ;pld                [r0]

-    ;pld                [r0, r1]

-    ;pld                [r0, r1, lsl #1]

-    vext.8          q1, q0, q1, #1          ;construct src_ptr[1]

-    vld1.u8         {d16, d17, d18, d19}, [r0], r1

-    vext.8          q3, q2, q3, #1

-    vld1.u8         {d20, d21, d22, d23}, [r0], r1

-    vext.8          q5, q4, q5, #1

-    vld1.u8         {d24, d25, d26, d27}, [r0], r1

-    vext.8          q7, q6, q7, #1

-    vld1.u8         {d28, d29, d30, d31}, [r0], r1

-    vext.8          q9, q8, q9, #1

-    vext.8          q11, q10, q11, #1

-    vext.8          q13, q12, q13, #1

-    vext.8          q15, q14, q15, #1

-    vrhadd.u8       q0, q0, q1              ;(src_ptr[0]+src_ptr[1])/round/shift right 1

-    vrhadd.u8       q1, q2, q3

-    vrhadd.u8       q2, q4, q5

-    vrhadd.u8       q3, q6, q7

-    vrhadd.u8       q4, q8, q9

-    vrhadd.u8       q5, q10, q11

-    vrhadd.u8       q6, q12, q13

-    vrhadd.u8       q7, q14, q15

-    subs            r2, r2, #1

-    vst1.u8         {d0, d1, d2, d3}, [r3]!         ;store result

-    vst1.u8         {d4, d5, d6, d7}, [r3]!

-    vst1.u8         {d8, d9, d10, d11}, [r3]!

-    vst1.u8         {d12, d13, d14, d15}, [r3]!

-    bne             vp8e_filt_blk2d_fpo16x16s_loop_neon

-    b               sub_pixel_variance16x16s_neon

-;---------------------

-secondpass_bfilter16x16s_only

-    sub             sp, sp, #256            ;reserve space on stack for temporary storage

-    mov             r2, #2                  ;loop counter

-    vld1.u8         {d0, d1}, [r0], r1      ;load src data

-    mov             r3, sp

-vp8e_filt_blk2d_spo16x16s_loop_neon

-    vld1.u8         {d2, d3}, [r0], r1

-    vld1.u8         {d4, d5}, [r0], r1

-    vld1.u8         {d6, d7}, [r0], r1

-    vld1.u8         {d8, d9}, [r0], r1

-    vrhadd.u8       q0, q0, q1

-    vld1.u8         {d10, d11}, [r0], r1

-    vrhadd.u8       q1, q1, q2

-    vld1.u8         {d12, d13}, [r0], r1

-    vrhadd.u8       q2, q2, q3

-    vld1.u8         {d14, d15}, [r0], r1

-    vrhadd.u8       q3, q3, q4

-    vld1.u8         {d16, d17}, [r0], r1

-    vrhadd.u8       q4, q4, q5

-    vrhadd.u8       q5, q5, q6

-    vrhadd.u8       q6, q6, q7

-    vrhadd.u8       q7, q7, q8

-    subs            r2, r2, #1

-    vst1.u8         {d0, d1, d2, d3}, [r3]!         ;store result

-    vmov            q0, q8

-    vst1.u8         {d4, d5, d6, d7}, [r3]!

-    vst1.u8         {d8, d9, d10, d11}, [r3]!           ;store result

-    vst1.u8         {d12, d13, d14, d15}, [r3]!

-    bne             vp8e_filt_blk2d_spo16x16s_loop_neon

-    b               sub_pixel_variance16x16s_neon

-;----------------------------

-;variance16x16

-sub_pixel_variance16x16s_neon

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-    sub             r3, r3, #256

-    mov             r2, #4

-sub_pixel_variance16x16s_neon_loop

-    vld1.8          {q0}, [r3]!                 ;Load up source and reference

-    vld1.8          {q1}, [r4], r12

-    vld1.8          {q2}, [r3]!

-    vld1.8          {q3}, [r4], r12

-    vld1.8          {q4}, [r3]!

-    vld1.8          {q5}, [r4], r12

-    vld1.8          {q6}, [r3]!

-    vld1.8          {q7}, [r4], r12

-    vsubl.u8        q11, d0, d2                 ;diff

-    vsubl.u8        q12, d1, d3

-    vsubl.u8        q13, d4, d6

-    vsubl.u8        q14, d5, d7

-    vsubl.u8        q0, d8, d10

-    vsubl.u8        q1, d9, d11

-    vsubl.u8        q2, d12, d14

-    vsubl.u8        q3, d13, d15

-    vpadal.s16      q8, q11                     ;sum

-    vmlal.s16       q9, d22, d22                ;sse

-    vmlal.s16       q10, d23, d23

-    subs            r2, r2, #1

-    vpadal.s16      q8, q12

-    vmlal.s16       q9, d24, d24

-    vmlal.s16       q10, d25, d25

-    vpadal.s16      q8, q13

-    vmlal.s16       q9, d26, d26

-    vmlal.s16       q10, d27, d27

-    vpadal.s16      q8, q14

-    vmlal.s16       q9, d28, d28

-    vmlal.s16       q10, d29, d29

-    vpadal.s16      q8, q0                     ;sum

-    vmlal.s16       q9, d0, d0                ;sse

-    vmlal.s16       q10, d1, d1

-    vpadal.s16      q8, q1

-    vmlal.s16       q9, d2, d2

-    vmlal.s16       q10, d3, d3

-    vpadal.s16      q8, q2

-    vmlal.s16       q9, d4, d4

-    vmlal.s16       q10, d5, d5

-    vpadal.s16      q8, q3

-    vmlal.s16       q9, d6, d6

-    vmlal.s16       q10, d7, d7

-    bne             sub_pixel_variance16x16s_neon_loop

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [lr]               ;store sse

-    vshr.u32        d10, d10, #8

-    vsub.u32        d0, d1, d10

-    add             sp, sp, #256

-    vmov.32         r0, d0[0]                   ;return

-    pop             {r4, pc}

-    ENDP

-    END

--- a/vp8/encoder/arm/neon/vp8_subpixelvariance8x8_neon.asm

+++ /dev/null

@@ -1,224 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp8_sub_pixel_variance8x8_neon|

-    ARM

-    REQUIRE8

-    PRESERVE8

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; r0    unsigned char  *src_ptr,

-; r1    int  src_pixels_per_line,

-; r2    int  xoffset,

-; r3    int  yoffset,

-; stack(r4) unsigned char *dst_ptr,

-; stack(r5) int dst_pixels_per_line,

-; stack(r6) unsigned int *sse

-;note: most of the code is copied from bilinear_predict8x8_neon and vp8_variance8x8_neon.

-|vp8_sub_pixel_variance8x8_neon| PROC

-    push            {r4-r5, lr}

-    ldr             r12, _BilinearTaps_coeff_

-    ldr             r4, [sp, #12]           ;load *dst_ptr from stack

-    ldr             r5, [sp, #16]           ;load dst_pixels_per_line from stack

-    ldr             lr, [sp, #20]           ;load *sse from stack

-    cmp             r2, #0                  ;skip first_pass filter if xoffset=0

-    beq             skip_firstpass_filter

-;First pass: output_height lines x output_width columns (9x8)

-    add             r2, r12, r2, lsl #3     ;calculate filter location

-    vld1.u8         {q1}, [r0], r1          ;load src data

-    vld1.u32        {d31}, [r2]             ;load first_pass filter

-    vld1.u8         {q2}, [r0], r1

-    vdup.8          d0, d31[0]              ;first_pass filter (d0 d1)

-    vld1.u8         {q3}, [r0], r1

-    vdup.8          d1, d31[4]

-    vld1.u8         {q4}, [r0], r1

-    vmull.u8        q6, d2, d0              ;(src_ptr[0] * Filter[0])

-    vmull.u8        q7, d4, d0

-    vmull.u8        q8, d6, d0

-    vmull.u8        q9, d8, d0

-    vext.8          d3, d2, d3, #1          ;construct src_ptr[-1]

-    vext.8          d5, d4, d5, #1

-    vext.8          d7, d6, d7, #1

-    vext.8          d9, d8, d9, #1

-    vmlal.u8        q6, d3, d1              ;(src_ptr[1] * Filter[1])

-    vmlal.u8        q7, d5, d1

-    vmlal.u8        q8, d7, d1

-    vmlal.u8        q9, d9, d1

-    vld1.u8         {q1}, [r0], r1          ;load src data

-    vqrshrn.u16    d22, q6, #7              ;shift/round/saturate to u8

-    vld1.u8         {q2}, [r0], r1

-    vqrshrn.u16    d23, q7, #7

-    vld1.u8         {q3}, [r0], r1

-    vqrshrn.u16    d24, q8, #7

-    vld1.u8         {q4}, [r0], r1

-    vqrshrn.u16    d25, q9, #7

-    ;first_pass filtering on the rest 5-line data

-    vld1.u8         {q5}, [r0], r1

-    vmull.u8        q6, d2, d0              ;(src_ptr[0] * Filter[0])

-    vmull.u8        q7, d4, d0

-    vmull.u8        q8, d6, d0

-    vmull.u8        q9, d8, d0

-    vmull.u8        q10, d10, d0

-    vext.8          d3, d2, d3, #1          ;construct src_ptr[-1]

-    vext.8          d5, d4, d5, #1

-    vext.8          d7, d6, d7, #1

-    vext.8          d9, d8, d9, #1

-    vext.8          d11, d10, d11, #1

-    vmlal.u8        q6, d3, d1              ;(src_ptr[1] * Filter[1])

-    vmlal.u8        q7, d5, d1

-    vmlal.u8        q8, d7, d1

-    vmlal.u8        q9, d9, d1

-    vmlal.u8        q10, d11, d1

-    vqrshrn.u16    d26, q6, #7              ;shift/round/saturate to u8

-    vqrshrn.u16    d27, q7, #7

-    vqrshrn.u16    d28, q8, #7

-    vqrshrn.u16    d29, q9, #7

-    vqrshrn.u16    d30, q10, #7

-;Second pass: 8x8

-secondpass_filter

-    cmp             r3, #0                  ;skip second_pass filter if yoffset=0

-    ;skip_secondpass_filter

-    beq             sub_pixel_variance8x8_neon

-    add             r3, r12, r3, lsl #3

-    vld1.u32        {d31}, [r3]             ;load second_pass filter

-    vdup.8          d0, d31[0]              ;second_pass filter parameters (d0 d1)

-    vdup.8          d1, d31[4]

-    vmull.u8        q1, d22, d0             ;(src_ptr[0] * Filter[0])

-    vmull.u8        q2, d23, d0

-    vmull.u8        q3, d24, d0

-    vmull.u8        q4, d25, d0

-    vmull.u8        q5, d26, d0

-    vmull.u8        q6, d27, d0

-    vmull.u8        q7, d28, d0

-    vmull.u8        q8, d29, d0

-    vmlal.u8        q1, d23, d1             ;(src_ptr[pixel_step] * Filter[1])

-    vmlal.u8        q2, d24, d1

-    vmlal.u8        q3, d25, d1

-    vmlal.u8        q4, d26, d1

-    vmlal.u8        q5, d27, d1

-    vmlal.u8        q6, d28, d1

-    vmlal.u8        q7, d29, d1

-    vmlal.u8        q8, d30, d1

-    vqrshrn.u16    d22, q1, #7              ;shift/round/saturate to u8

-    vqrshrn.u16    d23, q2, #7

-    vqrshrn.u16    d24, q3, #7

-    vqrshrn.u16    d25, q4, #7

-    vqrshrn.u16    d26, q5, #7

-    vqrshrn.u16    d27, q6, #7

-    vqrshrn.u16    d28, q7, #7

-    vqrshrn.u16    d29, q8, #7

-    b               sub_pixel_variance8x8_neon

-;--------------------

-skip_firstpass_filter

-    vld1.u8         {d22}, [r0], r1         ;load src data

-    vld1.u8         {d23}, [r0], r1

-    vld1.u8         {d24}, [r0], r1

-    vld1.u8         {d25}, [r0], r1

-    vld1.u8         {d26}, [r0], r1

-    vld1.u8         {d27}, [r0], r1

-    vld1.u8         {d28}, [r0], r1

-    vld1.u8         {d29}, [r0], r1

-    vld1.u8         {d30}, [r0], r1

-    b               secondpass_filter

-;----------------------

-;vp8_variance8x8_neon

-sub_pixel_variance8x8_neon

-    vmov.i8         q8, #0                      ;q8 - sum

-    vmov.i8         q9, #0                      ;q9, q10 - sse

-    vmov.i8         q10, #0

-    mov             r12, #2

-sub_pixel_variance8x8_neon_loop

-    vld1.8          {d0}, [r4], r5              ;load dst data

-    subs            r12, r12, #1

-    vld1.8          {d1}, [r4], r5

-    vld1.8          {d2}, [r4], r5

-    vsubl.u8        q4, d22, d0                 ;calculate diff

-    vld1.8          {d3}, [r4], r5

-    vsubl.u8        q5, d23, d1

-    vsubl.u8        q6, d24, d2

-    vpadal.s16      q8, q4                      ;sum

-    vmlal.s16       q9, d8, d8                  ;sse

-    vmlal.s16       q10, d9, d9

-    vsubl.u8        q7, d25, d3

-    vpadal.s16      q8, q5

-    vmlal.s16       q9, d10, d10

-    vmlal.s16       q10, d11, d11

-    vmov            q11, q13

-    vpadal.s16      q8, q6

-    vmlal.s16       q9, d12, d12

-    vmlal.s16       q10, d13, d13

-    vmov            q12, q14

-    vpadal.s16      q8, q7

-    vmlal.s16       q9, d14, d14

-    vmlal.s16       q10, d15, d15

-    bne             sub_pixel_variance8x8_neon_loop

-    vadd.u32        q10, q9, q10                ;accumulate sse

-    vpaddl.s32      q0, q8                      ;accumulate sum

-    vpaddl.u32      q1, q10

-    vadd.s64        d0, d0, d1

-    vadd.u64        d1, d2, d3

-    vmull.s32       q5, d0, d0

-    vst1.32         {d1[0]}, [lr]               ;store sse

-    vshr.u32        d10, d10, #6

-    vsub.u32        d0, d1, d10

-    vmov.32         r0, d0[0]                   ;return

-    pop             {r4-r5, pc}

-    ENDP

-;-----------------

-_BilinearTaps_coeff_

-    DCD     bilinear_taps_coeff

-bilinear_taps_coeff

-    DCD     128, 0, 112, 16, 96, 32, 80, 48, 64, 64, 48, 80, 32, 96, 16, 112

-    END

--- a/vp8/encoder/arm/variance_arm.c

+++ /dev/null

@@ -1,121 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "vpx_config.h"

-#include "vpx_rtcd.h"

-#include "vp8/encoder/variance.h"

-#include "vp8/common/filter.h"

-#if HAVE_MEDIA

-#include "vp8/common/arm/bilinearfilter_arm.h"

-unsigned int vp8_sub_pixel_variance8x8_armv6

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    unsigned short first_pass[10*8];

-    unsigned char  second_pass[8*8];

-    const short *HFilter, *VFilter;

-    HFilter = vp8_bilinear_filters[xoffset];

-    VFilter = vp8_bilinear_filters[yoffset];

-    vp8_filter_block2d_bil_first_pass_armv6(src_ptr, first_pass,

-                                            src_pixels_per_line,

-                                            9, 8, HFilter);

-    vp8_filter_block2d_bil_second_pass_armv6(first_pass, second_pass,

-                                             8, 8, 8, VFilter);

-    return vp8_variance8x8_armv6(second_pass, 8, dst_ptr,

-                                   dst_pixels_per_line, sse);

-}

-unsigned int vp8_sub_pixel_variance16x16_armv6

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    unsigned short first_pass[36*16];

-    unsigned char  second_pass[20*16];

-    const short *HFilter, *VFilter;

-    unsigned int var;

-    if (xoffset == 4 && yoffset == 0)

-    {

-        var = vp8_variance_halfpixvar16x16_h_armv6(src_ptr, src_pixels_per_line,

-                                                   dst_ptr, dst_pixels_per_line, sse);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        var = vp8_variance_halfpixvar16x16_v_armv6(src_ptr, src_pixels_per_line,

-                                                   dst_ptr, dst_pixels_per_line, sse);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        var = vp8_variance_halfpixvar16x16_hv_armv6(src_ptr, src_pixels_per_line,

-                                                   dst_ptr, dst_pixels_per_line, sse);

-    }

-    else

-    {

-        HFilter = vp8_bilinear_filters[xoffset];

-        VFilter = vp8_bilinear_filters[yoffset];

-        vp8_filter_block2d_bil_first_pass_armv6(src_ptr, first_pass,

-                                                src_pixels_per_line,

-                                                17, 16, HFilter);

-        vp8_filter_block2d_bil_second_pass_armv6(first_pass, second_pass,

-                                                 16, 16, 16, VFilter);

-        var = vp8_variance16x16_armv6(second_pass, 16, dst_ptr,

-                                       dst_pixels_per_line, sse);

-    }

-    return var;

-}

-#endif /* HAVE_MEDIA */

-#if HAVE_NEON

-unsigned int vp8_sub_pixel_variance16x16_neon

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-  if (xoffset == 4 && yoffset == 0)

-    return vp8_variance_halfpixvar16x16_h_neon(src_ptr, src_pixels_per_line, dst_ptr, dst_pixels_per_line, sse);

-  else if (xoffset == 0 && yoffset == 4)

-    return vp8_variance_halfpixvar16x16_v_neon(src_ptr, src_pixels_per_line, dst_ptr, dst_pixels_per_line, sse);

-  else if (xoffset == 4 && yoffset == 4)

-    return vp8_variance_halfpixvar16x16_hv_neon(src_ptr, src_pixels_per_line, dst_ptr, dst_pixels_per_line, sse);

-  else

-    return vp8_sub_pixel_variance16x16_neon_func(src_ptr, src_pixels_per_line, xoffset, yoffset, dst_ptr, dst_pixels_per_line, sse);

-}

-#endif

--- a/vp8/encoder/firstpass.c

+++ b/vp8/encoder/firstpass.c

@@ -12,7 +12,7 @@

 #include "limits.h"

 #include "block.h"

 #include "onyx_int.h"

-#include "variance.h"

+#include "vp8/common/variance.h"

 #include "encodeintra.h"

 #include "vp8/common/setupintrarecon.h"

 #include "mcomp.h"

--- a/vp8/encoder/mcomp.h

+++ b/vp8/encoder/mcomp.h

@@ -13,7 +13,7 @@

 #define __INC_MCOMP_H

 #include "block.h"

-#include "variance.h"

+#include "vp8/common/variance.h"

 #ifdef ENTROPY_STATS

 extern void init_mv_ref_counts();

--- a/vp8/encoder/onyx_int.h

+++ b/vp8/encoder/onyx_int.h

@@ -18,7 +18,7 @@

 #include "treewriter.h"

 #include "tokenize.h"

 #include "vp8/common/onyxc_int.h"

-#include "variance.h"

+#include "vp8/common/variance.h"

 #include "encodemb.h"

 #include "quantize.h"

 #include "vp8/common/entropy.h"

--- a/vp8/encoder/pickinter.c

+++ b/vp8/encoder/pickinter.c

@@ -20,7 +20,7 @@

 #include "encodemb.h"

 #include "vp8/common/reconinter.h"

 #include "vp8/common/reconintra4x4.h"

-#include "variance.h"

+#include "vp8/common/variance.h"

 #include "mcomp.h"

 #include "rdopt.h"

 #include "vpx_mem/vpx_mem.h"

--- a/vp8/encoder/ppc/sad_altivec.asm

+++ /dev/null

@@ -1,277 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    .globl vp8_sad16x16_ppc

-    .globl vp8_sad16x8_ppc

-    .globl vp8_sad8x16_ppc

-    .globl vp8_sad8x8_ppc

-    .globl vp8_sad4x4_ppc

-.macro load_aligned_16 V R O

-    lvsl    v3,  0, \R          ;# permutate value for alignment

-    lvx     v1,  0, \R

-    lvx     v2, \O, \R

-    vperm   \V, v1, v2, v3

-.endm

-.macro prologue

-    mfspr   r11, 256            ;# get old VRSAVE

-    oris    r12, r11, 0xffc0

-    mtspr   256, r12            ;# set VRSAVE

-    stwu    r1, -32(r1)         ;# create space on the stack

-    li      r10, 16             ;# load offset and loop counter

-    vspltisw v8, 0              ;# zero out total to start

-.endm

-.macro epilogue

-    addi    r1, r1, 32          ;# recover stack

-    mtspr   256, r11            ;# reset old VRSAVE

-.endm

-.macro SAD_16

-    ;# v6 = abs (v4 - v5)

-    vsububs v6, v4, v5

-    vsububs v7, v5, v4

-    vor     v6, v6, v7

-    ;# v8 += abs (v4 - v5)

-    vsum4ubs v8, v6, v8

-.endm

-.macro sad_16_loop loop_label

-    lvsl    v3,  0, r5          ;# only needs to be done once per block

-    ;# preload a line of data before getting into the loop

-    lvx     v4, 0, r3

-    lvx     v1,  0, r5

-    lvx     v2, r10, r5

-    add     r5, r5, r6

-    add     r3, r3, r4

-    vperm   v5, v1, v2, v3

-    .align 4

-\loop_label:

-    ;# compute difference on first row

-    vsububs v6, v4, v5

-    vsububs v7, v5, v4

-    ;# load up next set of data

-    lvx     v9, 0, r3

-    lvx     v1,  0, r5

-    lvx     v2, r10, r5

-    ;# perform abs() of difference

-    vor     v6, v6, v7

-    add     r3, r3, r4

-    ;# add to the running tally

-    vsum4ubs v8, v6, v8

-    ;# now onto the next line

-    vperm   v5, v1, v2, v3

-    add     r5, r5, r6

-    lvx     v4, 0, r3

-    ;# compute difference on second row

-    vsububs v6, v9, v5

-    lvx     v1,  0, r5

-    vsububs v7, v5, v9

-    lvx     v2, r10, r5

-    vor     v6, v6, v7

-    add     r3, r3, r4

-    vsum4ubs v8, v6, v8

-    vperm   v5, v1, v2, v3

-    add     r5, r5, r6

-    bdnz    \loop_label

-    vspltisw v7, 0

-    vsumsws v8, v8, v7

-    stvx    v8, 0, r1

-    lwz     r3, 12(r1)

-.endm

-.macro sad_8_loop loop_label

-    .align 4

-\loop_label:

-    ;# only one of the inputs should need to be aligned.

-    load_aligned_16 v4, r3, r10

-    load_aligned_16 v5, r5, r10

-    ;# move onto the next line

-    add     r3, r3, r4

-    add     r5, r5, r6

-    ;# only one of the inputs should need to be aligned.

-    load_aligned_16 v6, r3, r10

-    load_aligned_16 v7, r5, r10

-    ;# move onto the next line

-    add     r3, r3, r4

-    add     r5, r5, r6

-    vmrghb  v4, v4, v6

-    vmrghb  v5, v5, v7

-    SAD_16

-    bdnz    \loop_label

-    vspltisw v7, 0

-    vsumsws v8, v8, v7

-    stvx    v8, 0, r1

-    lwz     r3, 12(r1)

-.endm

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  src_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  ref_stride

-;#

-;# r3 return value

-vp8_sad16x16_ppc:

-    prologue

-    li      r9, 8

-    mtctr   r9

-    sad_16_loop sad16x16_loop

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  src_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  ref_stride

-;#

-;# r3 return value

-vp8_sad16x8_ppc:

-    prologue

-    li      r9, 4

-    mtctr   r9

-    sad_16_loop sad16x8_loop

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  src_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  ref_stride

-;#

-;# r3 return value

-vp8_sad8x16_ppc:

-    prologue

-    li      r9, 8

-    mtctr   r9

-    sad_8_loop sad8x16_loop

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  src_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  ref_stride

-;#

-;# r3 return value

-vp8_sad8x8_ppc:

-    prologue

-    li      r9, 4

-    mtctr   r9

-    sad_8_loop sad8x8_loop

-    epilogue

-    blr

-.macro transfer_4x4 I P

-    lwz     r0, 0(\I)

-    add     \I, \I, \P

-    lwz     r7, 0(\I)

-    add     \I, \I, \P

-    lwz     r8, 0(\I)

-    add     \I, \I, \P

-    lwz     r9, 0(\I)

-    stw     r0,  0(r1)

-    stw     r7,  4(r1)

-    stw     r8,  8(r1)

-    stw     r9, 12(r1)

-.endm

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  src_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  ref_stride

-;#

-;# r3 return value

-vp8_sad4x4_ppc:

-    prologue

-    transfer_4x4 r3, r4

-    lvx     v4, 0, r1

-    transfer_4x4 r5, r6

-    lvx     v5, 0, r1

-    vspltisw v8, 0              ;# zero out total to start

-    ;# v6 = abs (v4 - v5)

-    vsububs v6, v4, v5

-    vsububs v7, v5, v4

-    vor     v6, v6, v7

-    ;# v8 += abs (v4 - v5)

-    vsum4ubs v7, v6, v8

-    vsumsws v7, v7, v8

-    stvx    v7, 0, r1

-    lwz     r3, 12(r1)

-    epilogue

-    blr

--- a/vp8/encoder/ppc/variance_altivec.asm

+++ /dev/null

@@ -1,375 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    .globl vp8_get8x8var_ppc

-    .globl vp8_get16x16var_ppc

-    .globl vp8_mse16x16_ppc

-    .globl vp8_variance16x16_ppc

-    .globl vp8_variance16x8_ppc

-    .globl vp8_variance8x16_ppc

-    .globl vp8_variance8x8_ppc

-    .globl vp8_variance4x4_ppc

-.macro load_aligned_16 V R O

-    lvsl    v3,  0, \R          ;# permutate value for alignment

-    lvx     v1,  0, \R

-    lvx     v2, \O, \R

-    vperm   \V, v1, v2, v3

-.endm

-.macro prologue

-    mfspr   r11, 256            ;# get old VRSAVE

-    oris    r12, r11, 0xffc0

-    mtspr   256, r12            ;# set VRSAVE

-    stwu    r1, -32(r1)         ;# create space on the stack

-    li      r10, 16             ;# load offset and loop counter

-    vspltisw v7, 0              ;# zero for merging

-    vspltisw v8, 0              ;# zero out total to start

-    vspltisw v9, 0              ;# zero out total for dif^2

-.endm

-.macro epilogue

-    addi    r1, r1, 32          ;# recover stack

-    mtspr   256, r11            ;# reset old VRSAVE

-.endm

-.macro compute_sum_sse

-    ;# Compute sum first.  Unpack to so signed subract

-    ;#  can be used.  Only have a half word signed

-    ;#  subract.  Do high, then low.

-    vmrghb  v2, v7, v4

-    vmrghb  v3, v7, v5

-    vsubshs v2, v2, v3

-    vsum4shs v8, v2, v8

-    vmrglb  v2, v7, v4

-    vmrglb  v3, v7, v5

-    vsubshs v2, v2, v3

-    vsum4shs v8, v2, v8

-    ;# Now compute sse.

-    vsububs v2, v4, v5

-    vsububs v3, v5, v4

-    vor     v2, v2, v3

-    vmsumubm v9, v2, v2, v9

-.endm

-.macro variance_16 DS loop_label store_sum

-\loop_label:

-    ;# only one of the inputs should need to be aligned.

-    load_aligned_16 v4, r3, r10

-    load_aligned_16 v5, r5, r10

-    ;# move onto the next line

-    add     r3, r3, r4

-    add     r5, r5, r6

-    compute_sum_sse

-    bdnz    \loop_label

-    vsumsws v8, v8, v7

-    vsumsws v9, v9, v7

-    stvx    v8, 0, r1

-    lwz     r3, 12(r1)

-    stvx    v9, 0, r1

-    lwz     r4, 12(r1)

-.if \store_sum

-    stw     r3, 0(r8)           ;# sum

-.endif

-    stw     r4, 0(r7)           ;# sse

-    mullw   r3, r3, r3          ;# sum*sum

-    srlwi   r3, r3, \DS         ;# (sum*sum) >> DS

-    subf    r3, r3, r4          ;# sse - ((sum*sum) >> DS)

-.endm

-.macro variance_8 DS loop_label store_sum

-\loop_label:

-    ;# only one of the inputs should need to be aligned.

-    load_aligned_16 v4, r3, r10

-    load_aligned_16 v5, r5, r10

-    ;# move onto the next line

-    add     r3, r3, r4

-    add     r5, r5, r6

-    ;# only one of the inputs should need to be aligned.

-    load_aligned_16 v6, r3, r10

-    load_aligned_16 v0, r5, r10

-    ;# move onto the next line

-    add     r3, r3, r4

-    add     r5, r5, r6

-    vmrghb  v4, v4, v6

-    vmrghb  v5, v5, v0

-    compute_sum_sse

-    bdnz    \loop_label

-    vsumsws v8, v8, v7

-    vsumsws v9, v9, v7

-    stvx    v8, 0, r1

-    lwz     r3, 12(r1)

-    stvx    v9, 0, r1

-    lwz     r4, 12(r1)

-.if \store_sum

-    stw     r3, 0(r8)           ;# sum

-.endif

-    stw     r4, 0(r7)           ;# sse

-    mullw   r3, r3, r3          ;# sum*sum

-    srlwi   r3, r3, \DS         ;# (sum*sum) >> 8

-    subf    r3, r3, r4          ;# sse - ((sum*sum) >> 8)

-.endm

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  source_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  recon_stride

-;# r7 unsigned int *SSE

-;# r8 int *Sum

-;#

-;# r3 return value

-vp8_get8x8var_ppc:

-    prologue

-    li      r9, 4

-    mtctr   r9

-    variance_8 6, get8x8var_loop, 1

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  source_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  recon_stride

-;# r7 unsigned int *SSE

-;# r8 int *Sum

-;#

-;# r3 return value

-vp8_get16x16var_ppc:

-    prologue

-    mtctr   r10

-    variance_16 8, get16x16var_loop, 1

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  source_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  recon_stride

-;# r7 unsigned int *sse

-;#

-;# r 3 return value

-vp8_mse16x16_ppc:

-    prologue

-    mtctr   r10

-mse16x16_loop:

-    ;# only one of the inputs should need to be aligned.

-    load_aligned_16 v4, r3, r10

-    load_aligned_16 v5, r5, r10

-    ;# move onto the next line

-    add     r3, r3, r4

-    add     r5, r5, r6

-    ;# Now compute sse.

-    vsububs v2, v4, v5

-    vsububs v3, v5, v4

-    vor     v2, v2, v3

-    vmsumubm v9, v2, v2, v9

-    bdnz    mse16x16_loop

-    vsumsws v9, v9, v7

-    stvx    v9, 0, r1

-    lwz     r3, 12(r1)

-    stvx    v9, 0, r1

-    lwz     r3, 12(r1)

-    stw     r3, 0(r7)           ;# sse

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  source_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  recon_stride

-;# r7 unsigned int *sse

-;#

-;# r3 return value

-vp8_variance16x16_ppc:

-    prologue

-    mtctr   r10

-    variance_16 8, variance16x16_loop, 0

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  source_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  recon_stride

-;# r7 unsigned int *sse

-;#

-;# r3 return value

-vp8_variance16x8_ppc:

-    prologue

-    li      r9, 8

-    mtctr   r9

-    variance_16 7, variance16x8_loop, 0

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  source_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  recon_stride

-;# r7 unsigned int *sse

-;#

-;# r3 return value

-vp8_variance8x16_ppc:

-    prologue

-    li      r9, 8

-    mtctr   r9

-    variance_8 7, variance8x16_loop, 0

-    epilogue

-    blr

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  source_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  recon_stride

-;# r7 unsigned int *sse

-;#

-;# r3 return value

-vp8_variance8x8_ppc:

-    prologue

-    li      r9, 4

-    mtctr   r9

-    variance_8 6, variance8x8_loop, 0

-    epilogue

-    blr

-.macro transfer_4x4 I P

-    lwz     r0, 0(\I)

-    add     \I, \I, \P

-    lwz     r10,0(\I)

-    add     \I, \I, \P

-    lwz     r8, 0(\I)

-    add     \I, \I, \P

-    lwz     r9, 0(\I)

-    stw     r0,  0(r1)

-    stw     r10, 4(r1)

-    stw     r8,  8(r1)

-    stw     r9, 12(r1)

-.endm

-    .align 2

-;# r3 unsigned char *src_ptr

-;# r4 int  source_stride

-;# r5 unsigned char *ref_ptr

-;# r6 int  recon_stride

-;# r7 unsigned int *sse

-;#

-;# r3 return value

-vp8_variance4x4_ppc:

-    prologue

-    transfer_4x4 r3, r4

-    lvx     v4, 0, r1

-    transfer_4x4 r5, r6

-    lvx     v5, 0, r1

-    compute_sum_sse

-    vsumsws v8, v8, v7

-    vsumsws v9, v9, v7

-    stvx    v8, 0, r1

-    lwz     r3, 12(r1)

-    stvx    v9, 0, r1

-    lwz     r4, 12(r1)

-    stw     r4, 0(r7)           ;# sse

-    mullw   r3, r3, r3          ;# sum*sum

-    srlwi   r3, r3, 4           ;# (sum*sum) >> 4

-    subf    r3, r3, r4          ;# sse - ((sum*sum) >> 4)

-    epilogue

-    blr

--- a/vp8/encoder/ppc/variance_subpixel_altivec.asm

+++ /dev/null

@@ -1,865 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    .globl vp8_sub_pixel_variance4x4_ppc

-    .globl vp8_sub_pixel_variance8x8_ppc

-    .globl vp8_sub_pixel_variance8x16_ppc

-    .globl vp8_sub_pixel_variance16x8_ppc

-    .globl vp8_sub_pixel_variance16x16_ppc

-.macro load_c V, LABEL, OFF, R0, R1

-    lis     \R0, \LABEL@ha

-    la      \R1, \LABEL@l(\R0)

-    lvx     \V, \OFF, \R1

-.endm

-.macro load_vfilter V0, V1

-    load_c \V0, vfilter_b, r6, r12, r10

-    addi    r6,  r6, 16

-    lvx     \V1, r6, r10

-.endm

-.macro HProlog jump_label

-    ;# load up horizontal filter

-    slwi.   r5, r5, 4           ;# index into horizontal filter array

-    ;# index to the next set of vectors in the row.

-    li      r10, 16

-    ;# downshift by 7 ( divide by 128 ) at the end

-    vspltish v19, 7

-    ;# If there isn't any filtering to be done for the horizontal, then

-    ;#  just skip to the second pass.

-    beq     \jump_label

-    load_c v20, hfilter_b, r5, r12, r0

-    ;# setup constants

-    ;# v14 permutation value for alignment

-    load_c v28, b_hperm_b, 0, r12, r0

-    ;# index to the next set of vectors in the row.

-    li      r12, 32

-    ;# rounding added in on the multiply

-    vspltisw v21, 8

-    vspltisw v18, 3

-    vslw    v18, v21, v18       ;# 0x00000040000000400000004000000040

-    slwi.   r6, r6, 5           ;# index into vertical filter array

-.endm

-;# Filters a horizontal line

-;# expects:

-;#  r3  src_ptr

-;#  r4  pitch

-;#  r10 16

-;#  r12 32

-;#  v17 perm intput

-;#  v18 rounding

-;#  v19 shift

-;#  v20 filter taps

-;#  v21 tmp

-;#  v22 tmp

-;#  v23 tmp

-;#  v24 tmp

-;#  v25 tmp

-;#  v26 tmp

-;#  v27 tmp

-;#  v28 perm output

-;#

-.macro hfilter_8 V, hp, lp, increment_counter

-    lvsl    v17,  0, r3         ;# permutate value for alignment

-    ;# input to filter is 9 bytes wide, output is 8 bytes.

-    lvx     v21,   0, r3

-    lvx     v22, r10, r3

-.if \increment_counter

-    add     r3, r3, r4

-.endif

-    vperm   v21, v21, v22, v17

-    vperm   v24, v21, v21, \hp  ;# v20 = 0123 1234 2345 3456

-    vperm   v25, v21, v21, \lp  ;# v21 = 4567 5678 6789 789A

-    vmsummbm v24, v20, v24, v18

-    vmsummbm v25, v20, v25, v18

-    vpkswus v24, v24, v25       ;# v24 = 0 4 8 C 1 5 9 D (16-bit)

-    vsrh    v24, v24, v19       ;# divide v0, v1 by 128

-    vpkuhus \V, v24, v24        ;# \V = scrambled 8-bit result

-.endm

-.macro vfilter_16 P0 P1

-    vmuleub v22, \P0, v20       ;# 64 + 4 positive taps

-    vadduhm v22, v18, v22

-    vmuloub v23, \P0, v20

-    vadduhm v23, v18, v23

-    vmuleub v24, \P1, v21

-    vadduhm v22, v22, v24       ;# Re = evens, saturation unnecessary

-    vmuloub v25, \P1, v21

-    vadduhm v23, v23, v25       ;# Ro = odds

-    vsrh    v22, v22, v19       ;# divide by 128

-    vsrh    v23, v23, v19       ;# v16 v17 = evens, odds

-    vmrghh  \P0, v22, v23       ;# v18 v19 = 16-bit result in order

-    vmrglh  v23, v22, v23

-    vpkuhus \P0, \P0, v23       ;# P0 = 8-bit result

-.endm

-.macro compute_sum_sse src, ref, sum, sse, t1, t2, z0

-    ;# Compute sum first.  Unpack to so signed subract

-    ;#  can be used.  Only have a half word signed

-    ;#  subract.  Do high, then low.

-    vmrghb  \t1, \z0, \src

-    vmrghb  \t2, \z0, \ref

-    vsubshs \t1, \t1, \t2

-    vsum4shs \sum, \t1, \sum

-    vmrglb  \t1, \z0, \src

-    vmrglb  \t2, \z0, \ref

-    vsubshs \t1, \t1, \t2

-    vsum4shs \sum, \t1, \sum

-    ;# Now compute sse.

-    vsububs \t1, \src, \ref

-    vsububs \t2, \ref, \src

-    vor     \t1, \t1, \t2

-    vmsumubm \sse, \t1, \t1, \sse

-.endm

-.macro variance_final sum, sse, z0, DS

-    vsumsws \sum, \sum, \z0

-    vsumsws \sse, \sse, \z0

-    stvx    \sum, 0, r1

-    lwz     r3, 12(r1)

-    stvx    \sse, 0, r1

-    lwz     r4, 12(r1)

-    stw     r4, 0(r9)           ;# sse

-    mullw   r3, r3, r3          ;# sum*sum

-    srlwi   r3, r3, \DS         ;# (sum*sum) >> 8

-    subf    r3, r3, r4          ;# sse - ((sum*sum) >> 8)

-.endm

-.macro compute_sum_sse_16 V, increment_counter

-    load_and_align_16  v16, r7, r8, \increment_counter

-    compute_sum_sse \V, v16, v18, v19, v20, v21, v23

-.endm

-.macro load_and_align_16 V, R, P, increment_counter

-    lvsl    v17,  0, \R         ;# permutate value for alignment

-    ;# input to filter is 21 bytes wide, output is 16 bytes.

-    ;#  input will can span three vectors if not aligned correctly.

-    lvx     v21,   0, \R

-    lvx     v22, r10, \R

-.if \increment_counter

-    add     \R, \R, \P

-.endif

-    vperm   \V, v21, v22, v17

-.endm

-    .align 2

-;# r3 unsigned char  *src_ptr

-;# r4 int  src_pixels_per_line

-;# r5 int  xoffset

-;# r6 int  yoffset

-;# r7 unsigned char *dst_ptr

-;# r8 int dst_pixels_per_line

-;# r9 unsigned int *sse

-;#

-;# r3 return value

-vp8_sub_pixel_variance4x4_ppc:

-    mfspr   r11, 256            ;# get old VRSAVE

-    oris    r12, r11, 0xf830

-    ori     r12, r12, 0xfff8

-    mtspr   256, r12            ;# set VRSAVE

-    stwu    r1,-32(r1)          ;# create space on the stack

-    HProlog second_pass_4x4_pre_copy_b

-    ;# Load up permutation constants

-    load_c v10, b_0123_b, 0, r12, r0

-    load_c v11, b_4567_b, 0, r12, r0

-    hfilter_8 v0, v10, v11, 1

-    hfilter_8 v1, v10, v11, 1

-    hfilter_8 v2, v10, v11, 1

-    hfilter_8 v3, v10, v11, 1

-    ;# Finished filtering main horizontal block.  If there is no

-    ;#  vertical filtering, jump to storing the data.  Otherwise

-    ;#  load up and filter the additional line that is needed

-    ;#  for the vertical filter.

-    beq     compute_sum_sse_4x4_b

-    hfilter_8 v4, v10, v11, 0

-    b   second_pass_4x4_b

-second_pass_4x4_pre_copy_b:

-    slwi    r6, r6, 5           ;# index into vertical filter array

-    load_and_align_16 v0, r3, r4, 1

-    load_and_align_16 v1, r3, r4, 1

-    load_and_align_16 v2, r3, r4, 1

-    load_and_align_16 v3, r3, r4, 1

-    load_and_align_16 v4, r3, r4, 0

-second_pass_4x4_b:

-    vspltish v20, 8

-    vspltish v18, 3

-    vslh    v18, v20, v18       ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

-    load_vfilter v20, v21

-    vfilter_16 v0,  v1

-    vfilter_16 v1,  v2

-    vfilter_16 v2,  v3

-    vfilter_16 v3,  v4

-compute_sum_sse_4x4_b:

-    vspltish v18, 0             ;# sum

-    vspltish v19, 0             ;# sse

-    vspltish v23, 0             ;# unpack

-    li      r10, 16

-    load_and_align_16 v4, r7, r8, 1

-    load_and_align_16 v5, r7, r8, 1

-    load_and_align_16 v6, r7, r8, 1

-    load_and_align_16 v7, r7, r8, 1

-    vmrghb  v0, v0, v1

-    vmrghb  v1, v2, v3

-    vmrghb  v2, v4, v5

-    vmrghb  v3, v6, v7

-    load_c v10, b_hilo_b, 0, r12, r0

-    vperm   v0, v0, v1, v10

-    vperm   v1, v2, v3, v10

-    compute_sum_sse v0, v1, v18, v19, v20, v21, v23

-    variance_final v18, v19, v23, 4

-    addi    r1, r1, 32          ;# recover stack

-    mtspr   256, r11            ;# reset old VRSAVE

-    blr

-    .align 2

-;# r3 unsigned char  *src_ptr

-;# r4 int  src_pixels_per_line

-;# r5 int  xoffset

-;# r6 int  yoffset

-;# r7 unsigned char *dst_ptr

-;# r8 int dst_pixels_per_line

-;# r9 unsigned int *sse

-;#

-;# r3 return value

-vp8_sub_pixel_variance8x8_ppc:

-    mfspr   r11, 256            ;# get old VRSAVE

-    oris    r12, r11, 0xfff0

-    ori     r12, r12, 0xffff

-    mtspr   256, r12            ;# set VRSAVE

-    stwu    r1,-32(r1)          ;# create space on the stack

-    HProlog second_pass_8x8_pre_copy_b

-    ;# Load up permutation constants

-    load_c v10, b_0123_b, 0, r12, r0

-    load_c v11, b_4567_b, 0, r12, r0

-    hfilter_8 v0, v10, v11, 1

-    hfilter_8 v1, v10, v11, 1

-    hfilter_8 v2, v10, v11, 1

-    hfilter_8 v3, v10, v11, 1

-    hfilter_8 v4, v10, v11, 1

-    hfilter_8 v5, v10, v11, 1

-    hfilter_8 v6, v10, v11, 1

-    hfilter_8 v7, v10, v11, 1

-    ;# Finished filtering main horizontal block.  If there is no

-    ;#  vertical filtering, jump to storing the data.  Otherwise

-    ;#  load up and filter the additional line that is needed

-    ;#  for the vertical filter.

-    beq     compute_sum_sse_8x8_b

-    hfilter_8 v8, v10, v11, 0

-    b   second_pass_8x8_b

-second_pass_8x8_pre_copy_b:

-    slwi.   r6, r6, 5           ;# index into vertical filter array

-    load_and_align_16 v0, r3, r4, 1

-    load_and_align_16 v1, r3, r4, 1

-    load_and_align_16 v2, r3, r4, 1

-    load_and_align_16 v3, r3, r4, 1

-    load_and_align_16 v4, r3, r4, 1

-    load_and_align_16 v5, r3, r4, 1

-    load_and_align_16 v6, r3, r4, 1

-    load_and_align_16 v7, r3, r4, 1

-    load_and_align_16 v8, r3, r4, 0

-    beq     compute_sum_sse_8x8_b

-second_pass_8x8_b:

-    vspltish v20, 8

-    vspltish v18, 3

-    vslh    v18, v20, v18   ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

-    load_vfilter v20, v21

-    vfilter_16 v0, v1

-    vfilter_16 v1, v2

-    vfilter_16 v2, v3

-    vfilter_16 v3, v4

-    vfilter_16 v4, v5

-    vfilter_16 v5, v6

-    vfilter_16 v6, v7

-    vfilter_16 v7, v8

-compute_sum_sse_8x8_b:

-    vspltish v18, 0             ;# sum

-    vspltish v19, 0             ;# sse

-    vspltish v23, 0             ;# unpack

-    li      r10, 16

-    vmrghb  v0, v0, v1

-    vmrghb  v1, v2, v3

-    vmrghb  v2, v4, v5

-    vmrghb  v3, v6, v7

-    load_and_align_16 v4,  r7, r8, 1

-    load_and_align_16 v5,  r7, r8, 1

-    load_and_align_16 v6,  r7, r8, 1

-    load_and_align_16 v7,  r7, r8, 1

-    load_and_align_16 v8,  r7, r8, 1

-    load_and_align_16 v9,  r7, r8, 1

-    load_and_align_16 v10, r7, r8, 1

-    load_and_align_16 v11, r7, r8, 0

-    vmrghb  v4, v4,  v5

-    vmrghb  v5, v6,  v7

-    vmrghb  v6, v8,  v9

-    vmrghb  v7, v10, v11

-    compute_sum_sse v0, v4, v18, v19, v20, v21, v23

-    compute_sum_sse v1, v5, v18, v19, v20, v21, v23

-    compute_sum_sse v2, v6, v18, v19, v20, v21, v23

-    compute_sum_sse v3, v7, v18, v19, v20, v21, v23

-    variance_final v18, v19, v23, 6

-    addi    r1, r1, 32          ;# recover stack

-    mtspr   256, r11            ;# reset old VRSAVE

-    blr

-    .align 2

-;# r3 unsigned char  *src_ptr

-;# r4 int  src_pixels_per_line

-;# r5 int  xoffset

-;# r6 int  yoffset

-;# r7 unsigned char *dst_ptr

-;# r8 int dst_pixels_per_line

-;# r9 unsigned int *sse

-;#

-;# r3 return value

-vp8_sub_pixel_variance8x16_ppc:

-    mfspr   r11, 256            ;# get old VRSAVE

-    oris    r12, r11, 0xffff

-    ori     r12, r12, 0xfffc

-    mtspr   256, r12            ;# set VRSAVE

-    stwu    r1,-32(r1)          ;# create space on the stack

-    HProlog second_pass_8x16_pre_copy_b

-    ;# Load up permutation constants

-    load_c v29, b_0123_b, 0, r12, r0

-    load_c v30, b_4567_b, 0, r12, r0

-    hfilter_8 v0,  v29, v30, 1

-    hfilter_8 v1,  v29, v30, 1

-    hfilter_8 v2,  v29, v30, 1

-    hfilter_8 v3,  v29, v30, 1

-    hfilter_8 v4,  v29, v30, 1

-    hfilter_8 v5,  v29, v30, 1

-    hfilter_8 v6,  v29, v30, 1

-    hfilter_8 v7,  v29, v30, 1

-    hfilter_8 v8,  v29, v30, 1

-    hfilter_8 v9,  v29, v30, 1

-    hfilter_8 v10, v29, v30, 1

-    hfilter_8 v11, v29, v30, 1

-    hfilter_8 v12, v29, v30, 1

-    hfilter_8 v13, v29, v30, 1

-    hfilter_8 v14, v29, v30, 1

-    hfilter_8 v15, v29, v30, 1

-    ;# Finished filtering main horizontal block.  If there is no

-    ;#  vertical filtering, jump to storing the data.  Otherwise

-    ;#  load up and filter the additional line that is needed

-    ;#  for the vertical filter.

-    beq     compute_sum_sse_8x16_b

-    hfilter_8 v16, v29, v30, 0

-    b   second_pass_8x16_b

-second_pass_8x16_pre_copy_b:

-    slwi.   r6, r6, 5           ;# index into vertical filter array

-    load_and_align_16 v0,  r3, r4, 1

-    load_and_align_16 v1,  r3, r4, 1

-    load_and_align_16 v2,  r3, r4, 1

-    load_and_align_16 v3,  r3, r4, 1

-    load_and_align_16 v4,  r3, r4, 1

-    load_and_align_16 v5,  r3, r4, 1

-    load_and_align_16 v6,  r3, r4, 1

-    load_and_align_16 v7,  r3, r4, 1

-    load_and_align_16 v8,  r3, r4, 1

-    load_and_align_16 v9,  r3, r4, 1

-    load_and_align_16 v10, r3, r4, 1

-    load_and_align_16 v11, r3, r4, 1

-    load_and_align_16 v12, r3, r4, 1

-    load_and_align_16 v13, r3, r4, 1

-    load_and_align_16 v14, r3, r4, 1

-    load_and_align_16 v15, r3, r4, 1

-    load_and_align_16 v16, r3, r4, 0

-    beq     compute_sum_sse_8x16_b

-second_pass_8x16_b:

-    vspltish v20, 8

-    vspltish v18, 3

-    vslh    v18, v20, v18   ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

-    load_vfilter v20, v21

-    vfilter_16 v0,  v1

-    vfilter_16 v1,  v2

-    vfilter_16 v2,  v3

-    vfilter_16 v3,  v4

-    vfilter_16 v4,  v5

-    vfilter_16 v5,  v6

-    vfilter_16 v6,  v7

-    vfilter_16 v7,  v8

-    vfilter_16 v8,  v9

-    vfilter_16 v9,  v10

-    vfilter_16 v10, v11

-    vfilter_16 v11, v12

-    vfilter_16 v12, v13

-    vfilter_16 v13, v14

-    vfilter_16 v14, v15

-    vfilter_16 v15, v16

-compute_sum_sse_8x16_b:

-    vspltish v18, 0             ;# sum

-    vspltish v19, 0             ;# sse

-    vspltish v23, 0             ;# unpack

-    li      r10, 16

-    vmrghb  v0, v0,  v1

-    vmrghb  v1, v2,  v3

-    vmrghb  v2, v4,  v5

-    vmrghb  v3, v6,  v7

-    vmrghb  v4, v8,  v9

-    vmrghb  v5, v10, v11

-    vmrghb  v6, v12, v13

-    vmrghb  v7, v14, v15

-    load_and_align_16 v8,  r7, r8, 1

-    load_and_align_16 v9,  r7, r8, 1

-    load_and_align_16 v10, r7, r8, 1

-    load_and_align_16 v11, r7, r8, 1

-    load_and_align_16 v12, r7, r8, 1

-    load_and_align_16 v13, r7, r8, 1

-    load_and_align_16 v14, r7, r8, 1

-    load_and_align_16 v15, r7, r8, 1

-    vmrghb  v8,  v8,  v9

-    vmrghb  v9,  v10, v11

-    vmrghb  v10, v12, v13

-    vmrghb  v11, v14, v15

-    compute_sum_sse v0, v8,  v18, v19, v20, v21, v23

-    compute_sum_sse v1, v9,  v18, v19, v20, v21, v23

-    compute_sum_sse v2, v10, v18, v19, v20, v21, v23

-    compute_sum_sse v3, v11, v18, v19, v20, v21, v23

-    load_and_align_16 v8,  r7, r8, 1

-    load_and_align_16 v9,  r7, r8, 1

-    load_and_align_16 v10, r7, r8, 1

-    load_and_align_16 v11, r7, r8, 1

-    load_and_align_16 v12, r7, r8, 1

-    load_and_align_16 v13, r7, r8, 1

-    load_and_align_16 v14, r7, r8, 1

-    load_and_align_16 v15, r7, r8, 0

-    vmrghb  v8,  v8,  v9

-    vmrghb  v9,  v10, v11

-    vmrghb  v10, v12, v13

-    vmrghb  v11, v14, v15

-    compute_sum_sse v4, v8,  v18, v19, v20, v21, v23

-    compute_sum_sse v5, v9,  v18, v19, v20, v21, v23

-    compute_sum_sse v6, v10, v18, v19, v20, v21, v23

-    compute_sum_sse v7, v11, v18, v19, v20, v21, v23

-    variance_final v18, v19, v23, 7

-    addi    r1, r1, 32          ;# recover stack

-    mtspr   256, r11            ;# reset old VRSAVE

-    blr

-;# Filters a horizontal line

-;# expects:

-;#  r3  src_ptr

-;#  r4  pitch

-;#  r10 16

-;#  r12 32

-;#  v17 perm intput

-;#  v18 rounding

-;#  v19 shift

-;#  v20 filter taps

-;#  v21 tmp

-;#  v22 tmp

-;#  v23 tmp

-;#  v24 tmp

-;#  v25 tmp

-;#  v26 tmp

-;#  v27 tmp

-;#  v28 perm output

-;#

-.macro hfilter_16 V, increment_counter

-    lvsl    v17,  0, r3         ;# permutate value for alignment

-    ;# input to filter is 21 bytes wide, output is 16 bytes.

-    ;#  input will can span three vectors if not aligned correctly.

-    lvx     v21,   0, r3

-    lvx     v22, r10, r3

-    lvx     v23, r12, r3

-.if \increment_counter

-    add     r3, r3, r4

-.endif

-    vperm   v21, v21, v22, v17

-    vperm   v22, v22, v23, v17  ;# v8 v9 = 21 input pixels left-justified

-    ;# set 0

-    vmsummbm v24, v20, v21, v18 ;# taps times elements

-    ;# set 1

-    vsldoi  v23, v21, v22, 1

-    vmsummbm v25, v20, v23, v18

-    ;# set 2

-    vsldoi  v23, v21, v22, 2

-    vmsummbm v26, v20, v23, v18

-    ;# set 3

-    vsldoi  v23, v21, v22, 3

-    vmsummbm v27, v20, v23, v18

-    vpkswus v24, v24, v25       ;# v24 = 0 4 8 C 1 5 9 D (16-bit)

-    vpkswus v25, v26, v27       ;# v25 = 2 6 A E 3 7 B F

-    vsrh    v24, v24, v19       ;# divide v0, v1 by 128

-    vsrh    v25, v25, v19

-    vpkuhus \V, v24, v25        ;# \V = scrambled 8-bit result

-    vperm   \V, \V, v0, v28     ;# \V = correctly-ordered result

-.endm

-    .align 2

-;# r3 unsigned char  *src_ptr

-;# r4 int  src_pixels_per_line

-;# r5 int  xoffset

-;# r6 int  yoffset

-;# r7 unsigned char *dst_ptr

-;# r8 int dst_pixels_per_line

-;# r9 unsigned int *sse

-;#

-;# r3 return value

-vp8_sub_pixel_variance16x8_ppc:

-    mfspr   r11, 256            ;# get old VRSAVE

-    oris    r12, r11, 0xffff

-    ori     r12, r12, 0xfff8

-    mtspr   256, r12            ;# set VRSAVE

-    stwu    r1, -32(r1)         ;# create space on the stack

-    HProlog second_pass_16x8_pre_copy_b

-    hfilter_16 v0, 1

-    hfilter_16 v1, 1

-    hfilter_16 v2, 1

-    hfilter_16 v3, 1

-    hfilter_16 v4, 1

-    hfilter_16 v5, 1

-    hfilter_16 v6, 1

-    hfilter_16 v7, 1

-    ;# Finished filtering main horizontal block.  If there is no

-    ;#  vertical filtering, jump to storing the data.  Otherwise

-    ;#  load up and filter the additional line that is needed

-    ;#  for the vertical filter.

-    beq     compute_sum_sse_16x8_b

-    hfilter_16 v8, 0

-    b   second_pass_16x8_b

-second_pass_16x8_pre_copy_b:

-    slwi.   r6, r6, 5           ;# index into vertical filter array

-    load_and_align_16  v0,  r3, r4, 1

-    load_and_align_16  v1,  r3, r4, 1

-    load_and_align_16  v2,  r3, r4, 1

-    load_and_align_16  v3,  r3, r4, 1

-    load_and_align_16  v4,  r3, r4, 1

-    load_and_align_16  v5,  r3, r4, 1

-    load_and_align_16  v6,  r3, r4, 1

-    load_and_align_16  v7,  r3, r4, 1

-    load_and_align_16  v8,  r3, r4, 1

-    beq     compute_sum_sse_16x8_b

-second_pass_16x8_b:

-    vspltish v20, 8

-    vspltish v18, 3

-    vslh    v18, v20, v18   ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

-    load_vfilter v20, v21

-    vfilter_16 v0,  v1

-    vfilter_16 v1,  v2

-    vfilter_16 v2,  v3

-    vfilter_16 v3,  v4

-    vfilter_16 v4,  v5

-    vfilter_16 v5,  v6

-    vfilter_16 v6,  v7

-    vfilter_16 v7,  v8

-compute_sum_sse_16x8_b:

-    vspltish v18, 0             ;# sum

-    vspltish v19, 0             ;# sse

-    vspltish v23, 0             ;# unpack

-    li      r10, 16

-    compute_sum_sse_16 v0, 1

-    compute_sum_sse_16 v1, 1

-    compute_sum_sse_16 v2, 1

-    compute_sum_sse_16 v3, 1

-    compute_sum_sse_16 v4, 1

-    compute_sum_sse_16 v5, 1

-    compute_sum_sse_16 v6, 1

-    compute_sum_sse_16 v7, 0

-    variance_final v18, v19, v23, 7

-    addi    r1, r1, 32          ;# recover stack

-    mtspr   256, r11            ;# reset old VRSAVE

-    blr

-    .align 2

-;# r3 unsigned char  *src_ptr

-;# r4 int  src_pixels_per_line

-;# r5 int  xoffset

-;# r6 int  yoffset

-;# r7 unsigned char *dst_ptr

-;# r8 int dst_pixels_per_line

-;# r9 unsigned int *sse

-;#

-;# r3 return value

-vp8_sub_pixel_variance16x16_ppc:

-    mfspr   r11, 256            ;# get old VRSAVE

-    oris    r12, r11, 0xffff

-    ori     r12, r12, 0xfff8

-    mtspr   256, r12            ;# set VRSAVE

-    stwu    r1, -32(r1)         ;# create space on the stack

-    HProlog second_pass_16x16_pre_copy_b

-    hfilter_16 v0,  1

-    hfilter_16 v1,  1

-    hfilter_16 v2,  1

-    hfilter_16 v3,  1

-    hfilter_16 v4,  1

-    hfilter_16 v5,  1

-    hfilter_16 v6,  1

-    hfilter_16 v7,  1

-    hfilter_16 v8,  1

-    hfilter_16 v9,  1

-    hfilter_16 v10, 1

-    hfilter_16 v11, 1

-    hfilter_16 v12, 1

-    hfilter_16 v13, 1

-    hfilter_16 v14, 1

-    hfilter_16 v15, 1

-    ;# Finished filtering main horizontal block.  If there is no

-    ;#  vertical filtering, jump to storing the data.  Otherwise

-    ;#  load up and filter the additional line that is needed

-    ;#  for the vertical filter.

-    beq     compute_sum_sse_16x16_b

-    hfilter_16 v16, 0

-    b   second_pass_16x16_b

-second_pass_16x16_pre_copy_b:

-    slwi.   r6, r6, 5           ;# index into vertical filter array

-    load_and_align_16  v0,  r3, r4, 1

-    load_and_align_16  v1,  r3, r4, 1

-    load_and_align_16  v2,  r3, r4, 1

-    load_and_align_16  v3,  r3, r4, 1

-    load_and_align_16  v4,  r3, r4, 1

-    load_and_align_16  v5,  r3, r4, 1

-    load_and_align_16  v6,  r3, r4, 1

-    load_and_align_16  v7,  r3, r4, 1

-    load_and_align_16  v8,  r3, r4, 1

-    load_and_align_16  v9,  r3, r4, 1

-    load_and_align_16  v10, r3, r4, 1

-    load_and_align_16  v11, r3, r4, 1

-    load_and_align_16  v12, r3, r4, 1

-    load_and_align_16  v13, r3, r4, 1

-    load_and_align_16  v14, r3, r4, 1

-    load_and_align_16  v15, r3, r4, 1

-    load_and_align_16  v16, r3, r4, 0

-    beq     compute_sum_sse_16x16_b

-second_pass_16x16_b:

-    vspltish v20, 8

-    vspltish v18, 3

-    vslh    v18, v20, v18   ;# 0x0040 0040 0040 0040 0040 0040 0040 0040

-    load_vfilter v20, v21

-    vfilter_16 v0,  v1

-    vfilter_16 v1,  v2

-    vfilter_16 v2,  v3

-    vfilter_16 v3,  v4

-    vfilter_16 v4,  v5

-    vfilter_16 v5,  v6

-    vfilter_16 v6,  v7

-    vfilter_16 v7,  v8

-    vfilter_16 v8,  v9

-    vfilter_16 v9,  v10

-    vfilter_16 v10, v11

-    vfilter_16 v11, v12

-    vfilter_16 v12, v13

-    vfilter_16 v13, v14

-    vfilter_16 v14, v15

-    vfilter_16 v15, v16

-compute_sum_sse_16x16_b:

-    vspltish v18, 0             ;# sum

-    vspltish v19, 0             ;# sse

-    vspltish v23, 0             ;# unpack

-    li      r10, 16

-    compute_sum_sse_16 v0,  1

-    compute_sum_sse_16 v1,  1

-    compute_sum_sse_16 v2,  1

-    compute_sum_sse_16 v3,  1

-    compute_sum_sse_16 v4,  1

-    compute_sum_sse_16 v5,  1

-    compute_sum_sse_16 v6,  1

-    compute_sum_sse_16 v7,  1

-    compute_sum_sse_16 v8,  1

-    compute_sum_sse_16 v9,  1

-    compute_sum_sse_16 v10, 1

-    compute_sum_sse_16 v11, 1

-    compute_sum_sse_16 v12, 1

-    compute_sum_sse_16 v13, 1

-    compute_sum_sse_16 v14, 1

-    compute_sum_sse_16 v15, 0

-    variance_final v18, v19, v23, 8

-    addi    r1, r1, 32          ;# recover stack

-    mtspr   256, r11            ;# reset old VRSAVE

-    blr

-    .data

-    .align 4

-hfilter_b:

-    .byte   128,  0,  0,  0,128,  0,  0,  0,128,  0,  0,  0,128,  0,  0,  0

-    .byte   112, 16,  0,  0,112, 16,  0,  0,112, 16,  0,  0,112, 16,  0,  0

-    .byte    96, 32,  0,  0, 96, 32,  0,  0, 96, 32,  0,  0, 96, 32,  0,  0

-    .byte    80, 48,  0,  0, 80, 48,  0,  0, 80, 48,  0,  0, 80, 48,  0,  0

-    .byte    64, 64,  0,  0, 64, 64,  0,  0, 64, 64,  0,  0, 64, 64,  0,  0

-    .byte    48, 80,  0,  0, 48, 80,  0,  0, 48, 80,  0,  0, 48, 80,  0,  0

-    .byte    32, 96,  0,  0, 32, 96,  0,  0, 32, 96,  0,  0, 32, 96,  0,  0

-    .byte    16,112,  0,  0, 16,112,  0,  0, 16,112,  0,  0, 16,112,  0,  0

-    .align 4

-vfilter_b:

-    .byte   128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128

-    .byte     0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0

-    .byte   112,112,112,112,112,112,112,112,112,112,112,112,112,112,112,112

-    .byte    16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16

-    .byte    96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96

-    .byte    32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32

-    .byte    80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80

-    .byte    48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48

-    .byte    64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64

-    .byte    64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64

-    .byte    48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48

-    .byte    80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80

-    .byte    32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32

-    .byte    96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96, 96

-    .byte    16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16

-    .byte   112,112,112,112,112,112,112,112,112,112,112,112,112,112,112,112

-    .align 4

-b_hperm_b:

-    .byte     0,  4,  8, 12,  1,  5,  9, 13,  2,  6, 10, 14,  3,  7, 11, 15

-    .align 4

-b_0123_b:

-    .byte     0,  1,  2,  3,  1,  2,  3,  4,  2,  3,  4,  5,  3,  4,  5,  6

-    .align 4

-b_4567_b:

-    .byte     4,  5,  6,  7,  5,  6,  7,  8,  6,  7,  8,  9,  7,  8,  9, 10

-b_hilo_b:

-    .byte     0,  1,  2,  3,  4,  5,  6,  7, 16, 17, 18, 19, 20, 21, 22, 23

--- a/vp8/encoder/rdopt.c

+++ b/vp8/encoder/rdopt.c

@@ -28,7 +28,7 @@

 #include "vp8/common/quant_common.h"

 #include "encodemb.h"

 #include "quantize.h"

-#include "variance.h"

+#include "vp8/common/variance.h"

 #include "mcomp.h"

 #include "rdopt.h"

 #include "vpx_mem/vpx_mem.h"

--- a/vp8/encoder/sad_c.c

+++ /dev/null

@@ -1,395 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include <stdlib.h>

-#include "vpx_config.h"

-#include "vpx/vpx_integer.h"

-static __inline

-unsigned int sad_mx_n_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    int  max_sad,

-    int  m,

-    int  n)

-{

-    int r, c;

-    unsigned int sad = 0;

-    for (r = 0; r < n; r++)

-    {

-        for (c = 0; c < m; c++)

-        {

-            sad += abs(src_ptr[c] - ref_ptr[c]);

-        }

-        if (sad > max_sad)

-          break;

-        src_ptr += src_stride;

-        ref_ptr += ref_stride;

-    }

-    return sad;

-}

-/* max_sad is provided as an optional optimization point. Alternative

- * implementations of these functions are not required to check it.

- */

-unsigned int vp8_sad16x16_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    int  max_sad)

-{

-    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 16, 16);

-}

-unsigned int vp8_sad8x8_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    int  max_sad)

-{

-    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 8, 8);

-}

-unsigned int vp8_sad16x8_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    int  max_sad)

-{

-    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 16, 8);

-}

-unsigned int vp8_sad8x16_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    int  max_sad)

-{

-    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 8, 16);

-}

-unsigned int vp8_sad4x4_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    int  max_sad)

-{

-    return sad_mx_n_c(src_ptr, src_stride, ref_ptr, ref_stride, max_sad, 4, 4);

-}

-void vp8_sad16x16x3_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-}

-void vp8_sad16x16x8_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned short *sad_array

-)

-{

-    sad_array[0] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-    sad_array[3] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

-    sad_array[4] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

-    sad_array[5] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

-    sad_array[6] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

-    sad_array[7] = (unsigned short)vp8_sad16x16_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

-}

-void vp8_sad16x8x3_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-}

-void vp8_sad16x8x8_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned short *sad_array

-)

-{

-    sad_array[0] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-    sad_array[3] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

-    sad_array[4] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

-    sad_array[5] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

-    sad_array[6] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

-    sad_array[7] = (unsigned short)vp8_sad16x8_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

-}

-void vp8_sad8x8x3_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-}

-void vp8_sad8x8x8_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned short *sad_array

-)

-{

-    sad_array[0] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-    sad_array[3] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

-    sad_array[4] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

-    sad_array[5] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

-    sad_array[6] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

-    sad_array[7] = (unsigned short)vp8_sad8x8_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

-}

-void vp8_sad8x16x3_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-}

-void vp8_sad8x16x8_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned short *sad_array

-)

-{

-    sad_array[0] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-    sad_array[3] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

-    sad_array[4] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

-    sad_array[5] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

-    sad_array[6] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

-    sad_array[7] = (unsigned short)vp8_sad8x16_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

-}

-void vp8_sad4x4x3_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-}

-void vp8_sad4x4x8_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned short *sad_array

-)

-{

-    sad_array[0] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr  , ref_stride, 0x7fffffff);

-    sad_array[1] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 1, ref_stride, 0x7fffffff);

-    sad_array[2] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 2, ref_stride, 0x7fffffff);

-    sad_array[3] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 3 , ref_stride, 0x7fffffff);

-    sad_array[4] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 4, ref_stride, 0x7fffffff);

-    sad_array[5] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 5, ref_stride, 0x7fffffff);

-    sad_array[6] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 6 , ref_stride, 0x7fffffff);

-    sad_array[7] = (unsigned short)vp8_sad4x4_c(src_ptr, src_stride, ref_ptr + 7, ref_stride, 0x7fffffff);

-}

-void vp8_sad16x16x4d_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    unsigned char *ref_ptr[],

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

-    sad_array[3] = vp8_sad16x16_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

-}

-void vp8_sad16x8x4d_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    unsigned char *ref_ptr[],

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

-    sad_array[3] = vp8_sad16x8_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

-}

-void vp8_sad8x8x4d_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    unsigned char *ref_ptr[],

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

-    sad_array[3] = vp8_sad8x8_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

-}

-void vp8_sad8x16x4d_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    unsigned char *ref_ptr[],

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

-    sad_array[3] = vp8_sad8x16_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

-}

-void vp8_sad4x4x4d_c(

-    const unsigned char *src_ptr,

-    int  src_stride,

-    unsigned char *ref_ptr[],

-    int  ref_stride,

-    unsigned int *sad_array

-)

-{

-    sad_array[0] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr[0], ref_stride, 0x7fffffff);

-    sad_array[1] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr[1], ref_stride, 0x7fffffff);

-    sad_array[2] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr[2], ref_stride, 0x7fffffff);

-    sad_array[3] = vp8_sad4x4_c(src_ptr, src_stride, ref_ptr[3], ref_stride, 0x7fffffff);

-}

-/* Copy 2 macroblocks to a buffer */

-void vp8_copy32xn_c(

-    unsigned char *src_ptr,

-    int  src_stride,

-    unsigned char *dst_ptr,

-    int  dst_stride,

-    int height)

-{

-    int r;

-    for (r = 0; r < height; r++)

-    {

-#if !(CONFIG_FAST_UNALIGNED)

-        dst_ptr[0] = src_ptr[0];

-        dst_ptr[1] = src_ptr[1];

-        dst_ptr[2] = src_ptr[2];

-        dst_ptr[3] = src_ptr[3];

-        dst_ptr[4] = src_ptr[4];

-        dst_ptr[5] = src_ptr[5];

-        dst_ptr[6] = src_ptr[6];

-        dst_ptr[7] = src_ptr[7];

-        dst_ptr[8] = src_ptr[8];

-        dst_ptr[9] = src_ptr[9];

-        dst_ptr[10] = src_ptr[10];

-        dst_ptr[11] = src_ptr[11];

-        dst_ptr[12] = src_ptr[12];

-        dst_ptr[13] = src_ptr[13];

-        dst_ptr[14] = src_ptr[14];

-        dst_ptr[15] = src_ptr[15];

-        dst_ptr[16] = src_ptr[16];

-        dst_ptr[17] = src_ptr[17];

-        dst_ptr[18] = src_ptr[18];

-        dst_ptr[19] = src_ptr[19];

-        dst_ptr[20] = src_ptr[20];

-        dst_ptr[21] = src_ptr[21];

-        dst_ptr[22] = src_ptr[22];

-        dst_ptr[23] = src_ptr[23];

-        dst_ptr[24] = src_ptr[24];

-        dst_ptr[25] = src_ptr[25];

-        dst_ptr[26] = src_ptr[26];

-        dst_ptr[27] = src_ptr[27];

-        dst_ptr[28] = src_ptr[28];

-        dst_ptr[29] = src_ptr[29];

-        dst_ptr[30] = src_ptr[30];

-        dst_ptr[31] = src_ptr[31];

-#else

-        ((uint32_t *)dst_ptr)[0] = ((uint32_t *)src_ptr)[0] ;

-        ((uint32_t *)dst_ptr)[1] = ((uint32_t *)src_ptr)[1] ;

-        ((uint32_t *)dst_ptr)[2] = ((uint32_t *)src_ptr)[2] ;

-        ((uint32_t *)dst_ptr)[3] = ((uint32_t *)src_ptr)[3] ;

-        ((uint32_t *)dst_ptr)[4] = ((uint32_t *)src_ptr)[4] ;

-        ((uint32_t *)dst_ptr)[5] = ((uint32_t *)src_ptr)[5] ;

-        ((uint32_t *)dst_ptr)[6] = ((uint32_t *)src_ptr)[6] ;

-        ((uint32_t *)dst_ptr)[7] = ((uint32_t *)src_ptr)[7] ;

-#endif

-        src_ptr += src_stride;

-        dst_ptr += dst_stride;

-    }

-}

--- a/vp8/encoder/variance.h

+++ /dev/null

@@ -1,115 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#ifndef VARIANCE_H

-#define VARIANCE_H

-typedef unsigned int(*vp8_sad_fn_t)

-    (

-    const unsigned char *src_ptr,

-    int source_stride,

-    const unsigned char *ref_ptr,

-    int ref_stride,

-    int max_sad

-    );

-typedef void (*vp8_copy32xn_fn_t)(

-    const unsigned char *src_ptr,

-    int source_stride,

-    const unsigned char *ref_ptr,

-    int ref_stride,

-    int n);

-typedef void (*vp8_sad_multi_fn_t)(

-    const unsigned char *src_ptr,

-    int source_stride,

-    const unsigned char *ref_ptr,

-    int  ref_stride,

-    unsigned int *sad_array);

-typedef void (*vp8_sad_multi1_fn_t)

-    (

-     const unsigned char *src_ptr,

-     int source_stride,

-     const unsigned char *ref_ptr,

-     int  ref_stride,

-     unsigned short *sad_array

-    );

-typedef void (*vp8_sad_multi_d_fn_t)

-    (

-     const unsigned char *src_ptr,

-     int source_stride,

-     unsigned char *ref_ptr[4],

-     int  ref_stride,

-     unsigned int *sad_array

-    );

-typedef unsigned int (*vp8_variance_fn_t)

-    (

-     const unsigned char *src_ptr,

-     int source_stride,

-     const unsigned char *ref_ptr,

-     int  ref_stride,

-     unsigned int *sse

-    );

-typedef unsigned int (*vp8_subpixvariance_fn_t)

-    (

-      const unsigned char  *src_ptr,

-      int  source_stride,

-      int  xoffset,

-      int  yoffset,

-      const unsigned char *ref_ptr,

-      int Refstride,

-      unsigned int *sse

-    );

-typedef void (*vp8_ssimpf_fn_t)

-      (

-        unsigned char *s,

-        int sp,

-        unsigned char *r,

-        int rp,

-        unsigned long *sum_s,

-        unsigned long *sum_r,

-        unsigned long *sum_sq_s,

-        unsigned long *sum_sq_r,

-        unsigned long *sum_sxr

-      );

-typedef unsigned int (*vp8_getmbss_fn_t)(const short *);

-typedef unsigned int (*vp8_get16x16prederror_fn_t)

-    (

-     const unsigned char *src_ptr,

-     int source_stride,

-     const unsigned char *ref_ptr,

-     int  ref_stride

-    );

-typedef struct variance_vtable

-{

-    vp8_sad_fn_t            sdf;

-    vp8_variance_fn_t       vf;

-    vp8_subpixvariance_fn_t svf;

-    vp8_variance_fn_t       svf_halfpix_h;

-    vp8_variance_fn_t       svf_halfpix_v;

-    vp8_variance_fn_t       svf_halfpix_hv;

-    vp8_sad_multi_fn_t      sdx3f;

-    vp8_sad_multi1_fn_t     sdx8f;

-    vp8_sad_multi_d_fn_t    sdx4df;

-#if ARCH_X86 || ARCH_X86_64

-    vp8_copy32xn_fn_t       copymem;

-#endif

-} vp8_variance_fn_ptr_t;

-#endif

--- a/vp8/encoder/variance_c.c

+++ /dev/null

@@ -1,458 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "variance.h"

-#include "vp8/common/filter.h"

-unsigned int vp8_get_mb_ss_c

-(

-    const short *src_ptr

-)

-{

-    unsigned int i = 0, sum = 0;

-    do

-    {

-        sum += (src_ptr[i] * src_ptr[i]);

-        i++;

-    }

-    while (i < 256);

-    return sum;

-}

-static void variance(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    int  w,

-    int  h,

-    unsigned int *sse,

-    int *sum)

-{

-    int i, j;

-    int diff;

-    *sum = 0;

-    *sse = 0;

-    for (i = 0; i < h; i++)

-    {

-        for (j = 0; j < w; j++)

-        {

-            diff = src_ptr[j] - ref_ptr[j];

-            *sum += diff;

-            *sse += diff * diff;

-        }

-        src_ptr += source_stride;

-        ref_ptr += recon_stride;

-    }

-}

-unsigned int vp8_variance16x16_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    variance(src_ptr, source_stride, ref_ptr, recon_stride, 16, 16, &var, &avg);

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 8));

-}

-unsigned int vp8_variance8x16_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    variance(src_ptr, source_stride, ref_ptr, recon_stride, 8, 16, &var, &avg);

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 7));

-}

-unsigned int vp8_variance16x8_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    variance(src_ptr, source_stride, ref_ptr, recon_stride, 16, 8, &var, &avg);

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 7));

-}

-unsigned int vp8_variance8x8_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    variance(src_ptr, source_stride, ref_ptr, recon_stride, 8, 8, &var, &avg);

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 6));

-}

-unsigned int vp8_variance4x4_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    variance(src_ptr, source_stride, ref_ptr, recon_stride, 4, 4, &var, &avg);

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 4));

-}

-unsigned int vp8_mse16x16_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    variance(src_ptr, source_stride, ref_ptr, recon_stride, 16, 16, &var, &avg);

-    *sse = var;

-    return var;

-}

-/****************************************************************************

- *

- *  ROUTINE       : filter_block2d_bil_first_pass

- *

- *  INPUTS        : UINT8  *src_ptr          : Pointer to source block.

- *                  UINT32 src_pixels_per_line : Stride of input block.

- *                  UINT32 pixel_step        : Offset between filter input samples (see notes).

- *                  UINT32 output_height     : Input block height.

- *                  UINT32 output_width      : Input block width.

- *                  INT32  *vp8_filter          : Array of 2 bi-linear filter taps.

- *

- *  OUTPUTS       : INT32 *output_ptr        : Pointer to filtered block.

- *

- *  RETURNS       : void

- *

- *  FUNCTION      : Applies a 1-D 2-tap bi-linear filter to the source block in

- *                  either horizontal or vertical direction to produce the

- *                  filtered output block. Used to implement first-pass

- *                  of 2-D separable filter.

- *

- *  SPECIAL NOTES : Produces INT32 output to retain precision for next pass.

- *                  Two filter taps should sum to VP8_FILTER_WEIGHT.

- *                  pixel_step defines whether the filter is applied

- *                  horizontally (pixel_step=1) or vertically (pixel_step=stride).

- *                  It defines the offset required to move from one input

- *                  to the next.

- *

- ****************************************************************************/

-static void var_filter_block2d_bil_first_pass

-(

-    const unsigned char *src_ptr,

-    unsigned short *output_ptr,

-    unsigned int src_pixels_per_line,

-    int pixel_step,

-    unsigned int output_height,

-    unsigned int output_width,

-    const short *vp8_filter

-)

-{

-    unsigned int i, j;

-    for (i = 0; i < output_height; i++)

-    {

-        for (j = 0; j < output_width; j++)

-        {

-            // Apply bilinear filter

-            output_ptr[j] = (((int)src_ptr[0]          * vp8_filter[0]) +

-                             ((int)src_ptr[pixel_step] * vp8_filter[1]) +

-                             (VP8_FILTER_WEIGHT / 2)) >> VP8_FILTER_SHIFT;

-            src_ptr++;

-        }

-        // Next row...

-        src_ptr    += src_pixels_per_line - output_width;

-        output_ptr += output_width;

-    }

-}

-/****************************************************************************

- *

- *  ROUTINE       : filter_block2d_bil_second_pass

- *

- *  INPUTS        : INT32  *src_ptr          : Pointer to source block.

- *                  UINT32 src_pixels_per_line : Stride of input block.

- *                  UINT32 pixel_step        : Offset between filter input samples (see notes).

- *                  UINT32 output_height     : Input block height.

- *                  UINT32 output_width      : Input block width.

- *                  INT32  *vp8_filter          : Array of 2 bi-linear filter taps.

- *

- *  OUTPUTS       : UINT16 *output_ptr       : Pointer to filtered block.

- *

- *  RETURNS       : void

- *

- *  FUNCTION      : Applies a 1-D 2-tap bi-linear filter to the source block in

- *                  either horizontal or vertical direction to produce the

- *                  filtered output block. Used to implement second-pass

- *                  of 2-D separable filter.

- *

- *  SPECIAL NOTES : Requires 32-bit input as produced by filter_block2d_bil_first_pass.

- *                  Two filter taps should sum to VP8_FILTER_WEIGHT.

- *                  pixel_step defines whether the filter is applied

- *                  horizontally (pixel_step=1) or vertically (pixel_step=stride).

- *                  It defines the offset required to move from one input

- *                  to the next.

- *

- ****************************************************************************/

-static void var_filter_block2d_bil_second_pass

-(

-    const unsigned short *src_ptr,

-    unsigned char  *output_ptr,

-    unsigned int  src_pixels_per_line,

-    unsigned int  pixel_step,

-    unsigned int  output_height,

-    unsigned int  output_width,

-    const short *vp8_filter

-)

-{

-    unsigned int  i, j;

-    int  Temp;

-    for (i = 0; i < output_height; i++)

-    {

-        for (j = 0; j < output_width; j++)

-        {

-            // Apply filter

-            Temp = ((int)src_ptr[0]         * vp8_filter[0]) +

-                   ((int)src_ptr[pixel_step] * vp8_filter[1]) +

-                   (VP8_FILTER_WEIGHT / 2);

-            output_ptr[j] = (unsigned int)(Temp >> VP8_FILTER_SHIFT);

-            src_ptr++;

-        }

-        // Next row...

-        src_ptr    += src_pixels_per_line - output_width;

-        output_ptr += output_width;

-    }

-}

-unsigned int vp8_sub_pixel_variance4x4_c

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    unsigned char  temp2[20*16];

-    const short *HFilter, *VFilter;

-    unsigned short FData3[5*4]; // Temp data bufffer used in filtering

-    HFilter = vp8_bilinear_filters[xoffset];

-    VFilter = vp8_bilinear_filters[yoffset];

-    // First filter 1d Horizontal

-    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 5, 4, HFilter);

-    // Now filter Verticaly

-    var_filter_block2d_bil_second_pass(FData3, temp2, 4,  4,  4,  4, VFilter);

-    return vp8_variance4x4_c(temp2, 4, dst_ptr, dst_pixels_per_line, sse);

-}

-unsigned int vp8_sub_pixel_variance8x8_c

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    unsigned short FData3[9*8]; // Temp data bufffer used in filtering

-    unsigned char  temp2[20*16];

-    const short *HFilter, *VFilter;

-    HFilter = vp8_bilinear_filters[xoffset];

-    VFilter = vp8_bilinear_filters[yoffset];

-    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 9, 8, HFilter);

-    var_filter_block2d_bil_second_pass(FData3, temp2, 8, 8, 8, 8, VFilter);

-    return vp8_variance8x8_c(temp2, 8, dst_ptr, dst_pixels_per_line, sse);

-}

-unsigned int vp8_sub_pixel_variance16x16_c

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    unsigned short FData3[17*16];   // Temp data bufffer used in filtering

-    unsigned char  temp2[20*16];

-    const short *HFilter, *VFilter;

-    HFilter = vp8_bilinear_filters[xoffset];

-    VFilter = vp8_bilinear_filters[yoffset];

-    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 17, 16, HFilter);

-    var_filter_block2d_bil_second_pass(FData3, temp2, 16, 16, 16, 16, VFilter);

-    return vp8_variance16x16_c(temp2, 16, dst_ptr, dst_pixels_per_line, sse);

-}

-unsigned int vp8_variance_halfpixvar16x16_h_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_c(src_ptr, source_stride, 4, 0,

-                                         ref_ptr, recon_stride, sse);

-}

-unsigned int vp8_variance_halfpixvar16x16_v_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_c(src_ptr, source_stride, 0, 4,

-                                         ref_ptr, recon_stride, sse);

-}

-unsigned int vp8_variance_halfpixvar16x16_hv_c(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_c(src_ptr, source_stride, 4, 4,

-                                         ref_ptr, recon_stride, sse);

-}

-unsigned int vp8_sub_pixel_mse16x16_c

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    vp8_sub_pixel_variance16x16_c(src_ptr, src_pixels_per_line, xoffset, yoffset, dst_ptr, dst_pixels_per_line, sse);

-    return *sse;

-}

-unsigned int vp8_sub_pixel_variance16x8_c

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    unsigned short FData3[16*9];    // Temp data bufffer used in filtering

-    unsigned char  temp2[20*16];

-    const short *HFilter, *VFilter;

-    HFilter = vp8_bilinear_filters[xoffset];

-    VFilter = vp8_bilinear_filters[yoffset];

-    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 9, 16, HFilter);

-    var_filter_block2d_bil_second_pass(FData3, temp2, 16, 16, 8, 16, VFilter);

-    return vp8_variance16x8_c(temp2, 16, dst_ptr, dst_pixels_per_line, sse);

-}

-unsigned int vp8_sub_pixel_variance8x16_c

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    unsigned short FData3[9*16];    // Temp data bufffer used in filtering

-    unsigned char  temp2[20*16];

-    const short *HFilter, *VFilter;

-    HFilter = vp8_bilinear_filters[xoffset];

-    VFilter = vp8_bilinear_filters[yoffset];

-    var_filter_block2d_bil_first_pass(src_ptr, FData3, src_pixels_per_line, 1, 17, 8, HFilter);

-    var_filter_block2d_bil_second_pass(FData3, temp2, 8, 8, 16, 8, VFilter);

-    return vp8_variance8x16_c(temp2, 8, dst_ptr, dst_pixels_per_line, sse);

-}

--- a/vp8/encoder/x86/sad_mmx.asm

+++ /dev/null

@@ -1,427 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-global sym(vp8_sad16x16_mmx)

-global sym(vp8_sad8x16_mmx)

-global sym(vp8_sad8x8_mmx)

-global sym(vp8_sad4x4_mmx)

-global sym(vp8_sad16x8_mmx)

-;unsigned int vp8_sad16x16_mmx(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-sym(vp8_sad16x16_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 4

-    push rsi

-    push rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        lea             rcx,        [rsi+rax*8]

-        lea             rcx,        [rcx+rax*8]

-        pxor            mm7,        mm7

-        pxor            mm6,        mm6

-.x16x16sad_mmx_loop:

-        movq            mm0,        QWORD PTR [rsi]

-        movq            mm2,        QWORD PTR [rsi+8]

-        movq            mm1,        QWORD PTR [rdi]

-        movq            mm3,        QWORD PTR [rdi+8]

-        movq            mm4,        mm0

-        movq            mm5,        mm2

-        psubusb         mm0,        mm1

-        psubusb         mm1,        mm4

-        psubusb         mm2,        mm3

-        psubusb         mm3,        mm5

-        por             mm0,        mm1

-        por             mm2,        mm3

-        movq            mm1,        mm0

-        movq            mm3,        mm2

-        punpcklbw       mm0,        mm6

-        punpcklbw       mm2,        mm6

-        punpckhbw       mm1,        mm6

-        punpckhbw       mm3,        mm6

-        paddw           mm0,        mm2

-        paddw           mm1,        mm3

-        lea             rsi,        [rsi+rax]

-        add             rdi,        rdx

-        paddw           mm7,        mm0

-        paddw           mm7,        mm1

-        cmp             rsi,        rcx

-        jne             .x16x16sad_mmx_loop

-        movq            mm0,        mm7

-        punpcklwd       mm0,        mm6

-        punpckhwd       mm7,        mm6

-        paddw           mm0,        mm7

-        movq            mm7,        mm0

-        psrlq           mm0,        32

-        paddw           mm7,        mm0

-        movq            rax,        mm7

-    pop rdi

-    pop rsi

-    mov rsp, rbp

-    ; begin epilog

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_sad8x16_mmx(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-sym(vp8_sad8x16_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 4

-    push rsi

-    push rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        lea             rcx,        [rsi+rax*8]

-        lea             rcx,        [rcx+rax*8]

-        pxor            mm7,        mm7

-        pxor            mm6,        mm6

-.x8x16sad_mmx_loop:

-        movq            mm0,        QWORD PTR [rsi]

-        movq            mm1,        QWORD PTR [rdi]

-        movq            mm2,        mm0

-        psubusb         mm0,        mm1

-        psubusb         mm1,        mm2

-        por             mm0,        mm1

-        movq            mm2,        mm0

-        punpcklbw       mm0,        mm6

-        punpckhbw       mm2,        mm6

-        lea             rsi,        [rsi+rax]

-        add             rdi,        rdx

-        paddw           mm7,        mm0

-        paddw           mm7,        mm2

-        cmp             rsi,        rcx

-        jne             .x8x16sad_mmx_loop

-        movq            mm0,        mm7

-        punpcklwd       mm0,        mm6

-        punpckhwd       mm7,        mm6

-        paddw           mm0,        mm7

-        movq            mm7,        mm0

-        psrlq           mm0,        32

-        paddw           mm7,        mm0

-        movq            rax,        mm7

-    pop rdi

-    pop rsi

-    mov rsp, rbp

-    ; begin epilog

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_sad8x8_mmx(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-sym(vp8_sad8x8_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 4

-    push rsi

-    push rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        lea             rcx,        [rsi+rax*8]

-        pxor            mm7,        mm7

-        pxor            mm6,        mm6

-.x8x8sad_mmx_loop:

-        movq            mm0,        QWORD PTR [rsi]

-        movq            mm1,        QWORD PTR [rdi]

-        movq            mm2,        mm0

-        psubusb         mm0,        mm1

-        psubusb         mm1,        mm2

-        por             mm0,        mm1

-        movq            mm2,        mm0

-        punpcklbw       mm0,        mm6

-        punpckhbw       mm2,        mm6

-        paddw           mm0,        mm2

-        lea             rsi,       [rsi+rax]

-        add             rdi,        rdx

-        paddw           mm7,       mm0

-        cmp             rsi,        rcx

-        jne             .x8x8sad_mmx_loop

-        movq            mm0,        mm7

-        punpcklwd       mm0,        mm6

-        punpckhwd       mm7,        mm6

-        paddw           mm0,        mm7

-        movq            mm7,        mm0

-        psrlq           mm0,        32

-        paddw           mm7,        mm0

-        movq            rax,        mm7

-    pop rdi

-    pop rsi

-    mov rsp, rbp

-    ; begin epilog

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_sad4x4_mmx(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-sym(vp8_sad4x4_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 4

-    push rsi

-    push rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        movd            mm0,        DWORD PTR [rsi]

-        movd            mm1,        DWORD PTR [rdi]

-        movd            mm2,        DWORD PTR [rsi+rax]

-        movd            mm3,        DWORD PTR [rdi+rdx]

-        punpcklbw       mm0,        mm2

-        punpcklbw       mm1,        mm3

-        movq            mm2,        mm0

-        psubusb         mm0,        mm1

-        psubusb         mm1,        mm2

-        por             mm0,        mm1

-        movq            mm2,        mm0

-        pxor            mm3,        mm3

-        punpcklbw       mm0,        mm3

-        punpckhbw       mm2,        mm3

-        paddw           mm0,        mm2

-        lea             rsi,        [rsi+rax*2]

-        lea             rdi,        [rdi+rdx*2]

-        movd            mm4,        DWORD PTR [rsi]

-        movd            mm5,        DWORD PTR [rdi]

-        movd            mm6,        DWORD PTR [rsi+rax]

-        movd            mm7,        DWORD PTR [rdi+rdx]

-        punpcklbw       mm4,        mm6

-        punpcklbw       mm5,        mm7

-        movq            mm6,        mm4

-        psubusb         mm4,        mm5

-        psubusb         mm5,        mm6

-        por             mm4,        mm5

-        movq            mm5,        mm4

-        punpcklbw       mm4,        mm3

-        punpckhbw       mm5,        mm3

-        paddw           mm4,        mm5

-        paddw           mm0,        mm4

-        movq            mm1,        mm0

-        punpcklwd       mm0,        mm3

-        punpckhwd       mm1,        mm3

-        paddw           mm0,        mm1

-        movq            mm1,        mm0

-        psrlq           mm0,        32

-        paddw           mm0,        mm1

-        movq            rax,        mm0

-    pop rdi

-    pop rsi

-    mov rsp, rbp

-    ; begin epilog

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_sad16x8_mmx(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-sym(vp8_sad16x8_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 4

-    push rsi

-    push rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        lea             rcx,        [rsi+rax*8]

-        pxor            mm7,        mm7

-        pxor            mm6,        mm6

-.x16x8sad_mmx_loop:

-        movq            mm0,       [rsi]

-        movq            mm1,       [rdi]

-        movq            mm2,        [rsi+8]

-        movq            mm3,        [rdi+8]

-        movq            mm4,        mm0

-        movq            mm5,        mm2

-        psubusb         mm0,        mm1

-        psubusb         mm1,        mm4

-        psubusb         mm2,        mm3

-        psubusb         mm3,        mm5

-        por             mm0,        mm1

-        por             mm2,        mm3

-        movq            mm1,        mm0

-        movq            mm3,        mm2

-        punpcklbw       mm0,        mm6

-        punpckhbw       mm1,        mm6

-        punpcklbw       mm2,        mm6

-        punpckhbw       mm3,        mm6

-        paddw           mm0,        mm2

-        paddw           mm1,        mm3

-        paddw           mm0,        mm1

-        lea             rsi,        [rsi+rax]

-        add             rdi,        rdx

-        paddw           mm7,        mm0

-        cmp             rsi,        rcx

-        jne             .x16x8sad_mmx_loop

-        movq            mm0,        mm7

-        punpcklwd       mm0,        mm6

-        punpckhwd       mm7,        mm6

-        paddw           mm0,        mm7

-        movq            mm7,        mm0

-        psrlq           mm0,        32

-        paddw           mm7,        mm0

-        movq            rax,        mm7

-    pop rdi

-    pop rsi

-    mov rsp, rbp

-    ; begin epilog

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

--- a/vp8/encoder/x86/sad_sse2.asm

+++ /dev/null

@@ -1,410 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-;unsigned int vp8_sad16x16_wmt(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-global sym(vp8_sad16x16_wmt)

-sym(vp8_sad16x16_wmt):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 4

-    SAVE_XMM 6

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        lea             rcx,        [rsi+rax*8]

-        lea             rcx,        [rcx+rax*8]

-        pxor            xmm6,       xmm6

-.x16x16sad_wmt_loop:

-        movq            xmm0,       QWORD PTR [rsi]

-        movq            xmm2,       QWORD PTR [rsi+8]

-        movq            xmm1,       QWORD PTR [rdi]

-        movq            xmm3,       QWORD PTR [rdi+8]

-        movq            xmm4,       QWORD PTR [rsi+rax]

-        movq            xmm5,       QWORD PTR [rdi+rdx]

-        punpcklbw       xmm0,       xmm2

-        punpcklbw       xmm1,       xmm3

-        psadbw          xmm0,       xmm1

-        movq            xmm2,       QWORD PTR [rsi+rax+8]

-        movq            xmm3,       QWORD PTR [rdi+rdx+8]

-        lea             rsi,        [rsi+rax*2]

-        lea             rdi,        [rdi+rdx*2]

-        punpcklbw       xmm4,       xmm2

-        punpcklbw       xmm5,       xmm3

-        psadbw          xmm4,       xmm5

-        paddw           xmm6,       xmm0

-        paddw           xmm6,       xmm4

-        cmp             rsi,        rcx

-        jne             .x16x16sad_wmt_loop

-        movq            xmm0,       xmm6

-        psrldq          xmm6,       8

-        paddw           xmm0,       xmm6

-        movq            rax,        xmm0

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_sad8x16_wmt(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  max_sad)

-global sym(vp8_sad8x16_wmt)

-sym(vp8_sad8x16_wmt):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    push        rbx

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rbx,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        lea             rcx,        [rsi+rbx*8]

-        lea             rcx,        [rcx+rbx*8]

-        pxor            mm7,        mm7

-.x8x16sad_wmt_loop:

-        movq            rax,        mm7

-        cmp             eax,        arg(4)

-        jg              .x8x16sad_wmt_early_exit

-        movq            mm0,        QWORD PTR [rsi]

-        movq            mm1,        QWORD PTR [rdi]

-        movq            mm2,        QWORD PTR [rsi+rbx]

-        movq            mm3,        QWORD PTR [rdi+rdx]

-        psadbw          mm0,        mm1

-        psadbw          mm2,        mm3

-        lea             rsi,        [rsi+rbx*2]

-        lea             rdi,        [rdi+rdx*2]

-        paddw           mm7,        mm0

-        paddw           mm7,        mm2

-        cmp             rsi,        rcx

-        jne             .x8x16sad_wmt_loop

-        movq            rax,        mm7

-.x8x16sad_wmt_early_exit:

-    ; begin epilog

-    pop         rdi

-    pop         rsi

-    pop         rbx

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_sad8x8_wmt(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-global sym(vp8_sad8x8_wmt)

-sym(vp8_sad8x8_wmt):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    push        rbx

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rbx,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        lea             rcx,        [rsi+rbx*8]

-        pxor            mm7,        mm7

-.x8x8sad_wmt_loop:

-        movq            rax,        mm7

-        cmp             eax,        arg(4)

-        jg              .x8x8sad_wmt_early_exit

-        movq            mm0,        QWORD PTR [rsi]

-        movq            mm1,        QWORD PTR [rdi]

-        psadbw          mm0,        mm1

-        lea             rsi,        [rsi+rbx]

-        add             rdi,        rdx

-        paddw           mm7,        mm0

-        cmp             rsi,        rcx

-        jne             .x8x8sad_wmt_loop

-        movq            rax,        mm7

-.x8x8sad_wmt_early_exit:

-    ; begin epilog

-    pop         rdi

-    pop         rsi

-    pop         rbx

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_sad4x4_wmt(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-global sym(vp8_sad4x4_wmt)

-sym(vp8_sad4x4_wmt):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 4

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        movd            mm0,        DWORD PTR [rsi]

-        movd            mm1,        DWORD PTR [rdi]

-        movd            mm2,        DWORD PTR [rsi+rax]

-        movd            mm3,        DWORD PTR [rdi+rdx]

-        punpcklbw       mm0,        mm2

-        punpcklbw       mm1,        mm3

-        psadbw          mm0,        mm1

-        lea             rsi,        [rsi+rax*2]

-        lea             rdi,        [rdi+rdx*2]

-        movd            mm4,        DWORD PTR [rsi]

-        movd            mm5,        DWORD PTR [rdi]

-        movd            mm6,        DWORD PTR [rsi+rax]

-        movd            mm7,        DWORD PTR [rdi+rdx]

-        punpcklbw       mm4,        mm6

-        punpcklbw       mm5,        mm7

-        psadbw          mm4,        mm5

-        paddw           mm0,        mm4

-        movq            rax,        mm0

-    ; begin epilog

-    pop rdi

-    pop rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_sad16x8_wmt(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride)

-global sym(vp8_sad16x8_wmt)

-sym(vp8_sad16x8_wmt):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    push        rbx

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        movsxd          rbx,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        lea             rcx,        [rsi+rbx*8]

-        pxor            mm7,        mm7

-.x16x8sad_wmt_loop:

-        movq            rax,        mm7

-        cmp             eax,        arg(4)

-        jg              .x16x8sad_wmt_early_exit

-        movq            mm0,        QWORD PTR [rsi]

-        movq            mm2,        QWORD PTR [rsi+8]

-        movq            mm1,        QWORD PTR [rdi]

-        movq            mm3,        QWORD PTR [rdi+8]

-        movq            mm4,        QWORD PTR [rsi+rbx]

-        movq            mm5,        QWORD PTR [rdi+rdx]

-        psadbw          mm0,        mm1

-        psadbw          mm2,        mm3

-        movq            mm1,        QWORD PTR [rsi+rbx+8]

-        movq            mm3,        QWORD PTR [rdi+rdx+8]

-        psadbw          mm4,        mm5

-        psadbw          mm1,        mm3

-        lea             rsi,        [rsi+rbx*2]

-        lea             rdi,        [rdi+rdx*2]

-        paddw           mm0,        mm2

-        paddw           mm4,        mm1

-        paddw           mm7,        mm0

-        paddw           mm7,        mm4

-        cmp             rsi,        rcx

-        jne             .x16x8sad_wmt_loop

-        movq            rax,        mm7

-.x16x8sad_wmt_early_exit:

-    ; begin epilog

-    pop         rdi

-    pop         rsi

-    pop         rbx

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_copy32xn_sse2(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *dst_ptr,

-;    int  dst_stride,

-;    int height);

-global sym(vp8_copy32xn_sse2)

-sym(vp8_copy32xn_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    SAVE_XMM 7

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;dst_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;dst_stride

-        movsxd          rcx,        dword ptr arg(4) ;height

-.block_copy_sse2_loopx4:

-        movdqu          xmm0,       XMMWORD PTR [rsi]

-        movdqu          xmm1,       XMMWORD PTR [rsi + 16]

-        movdqu          xmm2,       XMMWORD PTR [rsi + rax]

-        movdqu          xmm3,       XMMWORD PTR [rsi + rax + 16]

-        lea             rsi,        [rsi+rax*2]

-        movdqu          xmm4,       XMMWORD PTR [rsi]

-        movdqu          xmm5,       XMMWORD PTR [rsi + 16]

-        movdqu          xmm6,       XMMWORD PTR [rsi + rax]

-        movdqu          xmm7,       XMMWORD PTR [rsi + rax + 16]

-        lea             rsi,    [rsi+rax*2]

-        movdqa          XMMWORD PTR [rdi], xmm0

-        movdqa          XMMWORD PTR [rdi + 16], xmm1

-        movdqa          XMMWORD PTR [rdi + rdx], xmm2

-        movdqa          XMMWORD PTR [rdi + rdx + 16], xmm3

-        lea             rdi,    [rdi+rdx*2]

-        movdqa          XMMWORD PTR [rdi], xmm4

-        movdqa          XMMWORD PTR [rdi + 16], xmm5

-        movdqa          XMMWORD PTR [rdi + rdx], xmm6

-        movdqa          XMMWORD PTR [rdi + rdx + 16], xmm7

-        lea             rdi,    [rdi+rdx*2]

-        sub             rcx,     4

-        cmp             rcx,     4

-        jge             .block_copy_sse2_loopx4

-        cmp             rcx, 0

-        je              .copy_is_done

-.block_copy_sse2_loop:

-        movdqu          xmm0,       XMMWORD PTR [rsi]

-        movdqu          xmm1,       XMMWORD PTR [rsi + 16]

-        lea             rsi,    [rsi+rax]

-        movdqa          XMMWORD PTR [rdi], xmm0

-        movdqa          XMMWORD PTR [rdi + 16], xmm1

-        lea             rdi,    [rdi+rdx]

-        sub             rcx,     1

-        jne             .block_copy_sse2_loop

-.copy_is_done:

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

--- a/vp8/encoder/x86/sad_sse3.asm

+++ /dev/null

@@ -1,960 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-%macro STACK_FRAME_CREATE_X3 0

-%if ABI_IS_32BIT

-  %define     src_ptr       rsi

-  %define     src_stride    rax

-  %define     ref_ptr       rdi

-  %define     ref_stride    rdx

-  %define     end_ptr       rcx

-  %define     ret_var       rbx

-  %define     result_ptr    arg(4)

-  %define     max_sad       arg(4)

-  %define     height        dword ptr arg(4)

-    push        rbp

-    mov         rbp,        rsp

-    push        rsi

-    push        rdi

-    push        rbx

-    mov         rsi,        arg(0)              ; src_ptr

-    mov         rdi,        arg(2)              ; ref_ptr

-    movsxd      rax,        dword ptr arg(1)    ; src_stride

-    movsxd      rdx,        dword ptr arg(3)    ; ref_stride

-%else

-  %ifidn __OUTPUT_FORMAT__,x64

-    SAVE_XMM 7, u

-    %define     src_ptr     rcx

-    %define     src_stride  rdx

-    %define     ref_ptr     r8

-    %define     ref_stride  r9

-    %define     end_ptr     r10

-    %define     ret_var     r11

-    %define     result_ptr  [rsp+xmm_stack_space+8+4*8]

-    %define     max_sad     [rsp+xmm_stack_space+8+4*8]

-    %define     height      dword ptr [rsp+xmm_stack_space+8+4*8]

-  %else

-    %define     src_ptr     rdi

-    %define     src_stride  rsi

-    %define     ref_ptr     rdx

-    %define     ref_stride  rcx

-    %define     end_ptr     r9

-    %define     ret_var     r10

-    %define     result_ptr  r8

-    %define     max_sad     r8

-    %define     height      r8

-  %endif

-%endif

-%endmacro

-%macro STACK_FRAME_DESTROY_X3 0

-  %define     src_ptr

-  %define     src_stride

-  %define     ref_ptr

-  %define     ref_stride

-  %define     end_ptr

-  %define     ret_var

-  %define     result_ptr

-  %define     max_sad

-  %define     height

-%if ABI_IS_32BIT

-    pop         rbx

-    pop         rdi

-    pop         rsi

-    pop         rbp

-%else

-  %ifidn __OUTPUT_FORMAT__,x64

-    RESTORE_XMM

-  %endif

-%endif

-    ret

-%endmacro

-%macro STACK_FRAME_CREATE_X4 0

-%if ABI_IS_32BIT

-  %define     src_ptr       rsi

-  %define     src_stride    rax

-  %define     r0_ptr        rcx

-  %define     r1_ptr        rdx

-  %define     r2_ptr        rbx

-  %define     r3_ptr        rdi

-  %define     ref_stride    rbp

-  %define     result_ptr    arg(4)

-    push        rbp

-    mov         rbp,        rsp

-    push        rsi

-    push        rdi

-    push        rbx

-    push        rbp

-    mov         rdi,        arg(2)              ; ref_ptr_base

-    LOAD_X4_ADDRESSES rdi, rcx, rdx, rax, rdi

-    mov         rsi,        arg(0)              ; src_ptr

-    movsxd      rbx,        dword ptr arg(1)    ; src_stride

-    movsxd      rbp,        dword ptr arg(3)    ; ref_stride

-    xchg        rbx,        rax

-%else

-  %ifidn __OUTPUT_FORMAT__,x64

-    SAVE_XMM 7, u

-    %define     src_ptr     rcx

-    %define     src_stride  rdx

-    %define     r0_ptr      rsi

-    %define     r1_ptr      r10

-    %define     r2_ptr      r11

-    %define     r3_ptr      r8

-    %define     ref_stride  r9

-    %define     result_ptr  [rsp+xmm_stack_space+16+4*8]

-    push        rsi

-    LOAD_X4_ADDRESSES r8, r0_ptr, r1_ptr, r2_ptr, r3_ptr

-  %else

-    %define     src_ptr     rdi

-    %define     src_stride  rsi

-    %define     r0_ptr      r9

-    %define     r1_ptr      r10

-    %define     r2_ptr      r11

-    %define     r3_ptr      rdx

-    %define     ref_stride  rcx

-    %define     result_ptr  r8

-    LOAD_X4_ADDRESSES rdx, r0_ptr, r1_ptr, r2_ptr, r3_ptr

-  %endif

-%endif

-%endmacro

-%macro STACK_FRAME_DESTROY_X4 0

-  %define     src_ptr

-  %define     src_stride

-  %define     r0_ptr

-  %define     r1_ptr

-  %define     r2_ptr

-  %define     r3_ptr

-  %define     ref_stride

-  %define     result_ptr

-%if ABI_IS_32BIT

-    pop         rbx

-    pop         rdi

-    pop         rsi

-    pop         rbp

-%else

-  %ifidn __OUTPUT_FORMAT__,x64

-    pop         rsi

-    RESTORE_XMM

-  %endif

-%endif

-    ret

-%endmacro

-%macro PROCESS_16X2X3 5

-%if %1==0

-        movdqa          xmm0,       XMMWORD PTR [%2]

-        lddqu           xmm5,       XMMWORD PTR [%3]

-        lddqu           xmm6,       XMMWORD PTR [%3+1]

-        lddqu           xmm7,       XMMWORD PTR [%3+2]

-        psadbw          xmm5,       xmm0

-        psadbw          xmm6,       xmm0

-        psadbw          xmm7,       xmm0

-%else

-        movdqa          xmm0,       XMMWORD PTR [%2]

-        lddqu           xmm1,       XMMWORD PTR [%3]

-        lddqu           xmm2,       XMMWORD PTR [%3+1]

-        lddqu           xmm3,       XMMWORD PTR [%3+2]

-        psadbw          xmm1,       xmm0

-        psadbw          xmm2,       xmm0

-        psadbw          xmm3,       xmm0

-        paddw           xmm5,       xmm1

-        paddw           xmm6,       xmm2

-        paddw           xmm7,       xmm3

-%endif

-        movdqa          xmm0,       XMMWORD PTR [%2+%4]

-        lddqu           xmm1,       XMMWORD PTR [%3+%5]

-        lddqu           xmm2,       XMMWORD PTR [%3+%5+1]

-        lddqu           xmm3,       XMMWORD PTR [%3+%5+2]

-%if %1==0 || %1==1

-        lea             %2,         [%2+%4*2]

-        lea             %3,         [%3+%5*2]

-%endif

-        psadbw          xmm1,       xmm0

-        psadbw          xmm2,       xmm0

-        psadbw          xmm3,       xmm0

-        paddw           xmm5,       xmm1

-        paddw           xmm6,       xmm2

-        paddw           xmm7,       xmm3

-%endmacro

-%macro PROCESS_8X2X3 5

-%if %1==0

-        movq            mm0,       QWORD PTR [%2]

-        movq            mm5,       QWORD PTR [%3]

-        movq            mm6,       QWORD PTR [%3+1]

-        movq            mm7,       QWORD PTR [%3+2]

-        psadbw          mm5,       mm0

-        psadbw          mm6,       mm0

-        psadbw          mm7,       mm0

-%else

-        movq            mm0,       QWORD PTR [%2]

-        movq            mm1,       QWORD PTR [%3]

-        movq            mm2,       QWORD PTR [%3+1]

-        movq            mm3,       QWORD PTR [%3+2]

-        psadbw          mm1,       mm0

-        psadbw          mm2,       mm0

-        psadbw          mm3,       mm0

-        paddw           mm5,       mm1

-        paddw           mm6,       mm2

-        paddw           mm7,       mm3

-%endif

-        movq            mm0,       QWORD PTR [%2+%4]

-        movq            mm1,       QWORD PTR [%3+%5]

-        movq            mm2,       QWORD PTR [%3+%5+1]

-        movq            mm3,       QWORD PTR [%3+%5+2]

-%if %1==0 || %1==1

-        lea             %2,        [%2+%4*2]

-        lea             %3,        [%3+%5*2]

-%endif

-        psadbw          mm1,       mm0

-        psadbw          mm2,       mm0

-        psadbw          mm3,       mm0

-        paddw           mm5,       mm1

-        paddw           mm6,       mm2

-        paddw           mm7,       mm3

-%endmacro

-%macro LOAD_X4_ADDRESSES 5

-        mov             %2,         [%1+REG_SZ_BYTES*0]

-        mov             %3,         [%1+REG_SZ_BYTES*1]

-        mov             %4,         [%1+REG_SZ_BYTES*2]

-        mov             %5,         [%1+REG_SZ_BYTES*3]

-%endmacro

-%macro PROCESS_16X2X4 8

-%if %1==0

-        movdqa          xmm0,       XMMWORD PTR [%2]

-        lddqu           xmm4,       XMMWORD PTR [%3]

-        lddqu           xmm5,       XMMWORD PTR [%4]

-        lddqu           xmm6,       XMMWORD PTR [%5]

-        lddqu           xmm7,       XMMWORD PTR [%6]

-        psadbw          xmm4,       xmm0

-        psadbw          xmm5,       xmm0

-        psadbw          xmm6,       xmm0

-        psadbw          xmm7,       xmm0

-%else

-        movdqa          xmm0,       XMMWORD PTR [%2]

-        lddqu           xmm1,       XMMWORD PTR [%3]

-        lddqu           xmm2,       XMMWORD PTR [%4]

-        lddqu           xmm3,       XMMWORD PTR [%5]

-        psadbw          xmm1,       xmm0

-        psadbw          xmm2,       xmm0

-        psadbw          xmm3,       xmm0

-        paddw           xmm4,       xmm1

-        lddqu           xmm1,       XMMWORD PTR [%6]

-        paddw           xmm5,       xmm2

-        paddw           xmm6,       xmm3

-        psadbw          xmm1,       xmm0

-        paddw           xmm7,       xmm1

-%endif

-        movdqa          xmm0,       XMMWORD PTR [%2+%7]

-        lddqu           xmm1,       XMMWORD PTR [%3+%8]

-        lddqu           xmm2,       XMMWORD PTR [%4+%8]

-        lddqu           xmm3,       XMMWORD PTR [%5+%8]

-        psadbw          xmm1,       xmm0

-        psadbw          xmm2,       xmm0

-        psadbw          xmm3,       xmm0

-        paddw           xmm4,       xmm1

-        lddqu           xmm1,       XMMWORD PTR [%6+%8]

-        paddw           xmm5,       xmm2

-        paddw           xmm6,       xmm3

-%if %1==0 || %1==1

-        lea             %2,         [%2+%7*2]

-        lea             %3,         [%3+%8*2]

-        lea             %4,         [%4+%8*2]

-        lea             %5,         [%5+%8*2]

-        lea             %6,         [%6+%8*2]

-%endif

-        psadbw          xmm1,       xmm0

-        paddw           xmm7,       xmm1

-%endmacro

-%macro PROCESS_8X2X4 8

-%if %1==0

-        movq            mm0,        QWORD PTR [%2]

-        movq            mm4,        QWORD PTR [%3]

-        movq            mm5,        QWORD PTR [%4]

-        movq            mm6,        QWORD PTR [%5]

-        movq            mm7,        QWORD PTR [%6]

-        psadbw          mm4,        mm0

-        psadbw          mm5,        mm0

-        psadbw          mm6,        mm0

-        psadbw          mm7,        mm0

-%else

-        movq            mm0,        QWORD PTR [%2]

-        movq            mm1,        QWORD PTR [%3]

-        movq            mm2,        QWORD PTR [%4]

-        movq            mm3,        QWORD PTR [%5]

-        psadbw          mm1,        mm0

-        psadbw          mm2,        mm0

-        psadbw          mm3,        mm0

-        paddw           mm4,        mm1

-        movq            mm1,        QWORD PTR [%6]

-        paddw           mm5,        mm2

-        paddw           mm6,        mm3

-        psadbw          mm1,        mm0

-        paddw           mm7,        mm1

-%endif

-        movq            mm0,        QWORD PTR [%2+%7]

-        movq            mm1,        QWORD PTR [%3+%8]

-        movq            mm2,        QWORD PTR [%4+%8]

-        movq            mm3,        QWORD PTR [%5+%8]

-        psadbw          mm1,        mm0

-        psadbw          mm2,        mm0

-        psadbw          mm3,        mm0

-        paddw           mm4,        mm1

-        movq            mm1,        QWORD PTR [%6+%8]

-        paddw           mm5,        mm2

-        paddw           mm6,        mm3

-%if %1==0 || %1==1

-        lea             %2,         [%2+%7*2]

-        lea             %3,         [%3+%8*2]

-        lea             %4,         [%4+%8*2]

-        lea             %5,         [%5+%8*2]

-        lea             %6,         [%6+%8*2]

-%endif

-        psadbw          mm1,        mm0

-        paddw           mm7,        mm1

-%endmacro

-;void int vp8_sad16x16x3_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad16x16x3_sse3)

-sym(vp8_sad16x16x3_sse3):

-    STACK_FRAME_CREATE_X3

-        PROCESS_16X2X3 0, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 2, src_ptr, ref_ptr, src_stride, ref_stride

-        mov             rcx,        result_ptr

-        movq            xmm0,       xmm5

-        psrldq          xmm5,       8

-        paddw           xmm0,       xmm5

-        movd            [rcx],      xmm0

-;-

-        movq            xmm0,       xmm6

-        psrldq          xmm6,       8

-        paddw           xmm0,       xmm6

-        movd            [rcx+4],    xmm0

-;-

-        movq            xmm0,       xmm7

-        psrldq          xmm7,       8

-        paddw           xmm0,       xmm7

-        movd            [rcx+8],    xmm0

-    STACK_FRAME_DESTROY_X3

-;void int vp8_sad16x8x3_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad16x8x3_sse3)

-sym(vp8_sad16x8x3_sse3):

-    STACK_FRAME_CREATE_X3

-        PROCESS_16X2X3 0, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_16X2X3 2, src_ptr, ref_ptr, src_stride, ref_stride

-        mov             rcx,        result_ptr

-        movq            xmm0,       xmm5

-        psrldq          xmm5,       8

-        paddw           xmm0,       xmm5

-        movd            [rcx],      xmm0

-;-

-        movq            xmm0,       xmm6

-        psrldq          xmm6,       8

-        paddw           xmm0,       xmm6

-        movd            [rcx+4],    xmm0

-;-

-        movq            xmm0,       xmm7

-        psrldq          xmm7,       8

-        paddw           xmm0,       xmm7

-        movd            [rcx+8],    xmm0

-    STACK_FRAME_DESTROY_X3

-;void int vp8_sad8x16x3_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad8x16x3_sse3)

-sym(vp8_sad8x16x3_sse3):

-    STACK_FRAME_CREATE_X3

-        PROCESS_8X2X3 0, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 2, src_ptr, ref_ptr, src_stride, ref_stride

-        mov             rcx,        result_ptr

-        punpckldq       mm5,        mm6

-        movq            [rcx],      mm5

-        movd            [rcx+8],    mm7

-    STACK_FRAME_DESTROY_X3

-;void int vp8_sad8x8x3_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad8x8x3_sse3)

-sym(vp8_sad8x8x3_sse3):

-    STACK_FRAME_CREATE_X3

-        PROCESS_8X2X3 0, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 1, src_ptr, ref_ptr, src_stride, ref_stride

-        PROCESS_8X2X3 2, src_ptr, ref_ptr, src_stride, ref_stride

-        mov             rcx,        result_ptr

-        punpckldq       mm5,        mm6

-        movq            [rcx],      mm5

-        movd            [rcx+8],    mm7

-    STACK_FRAME_DESTROY_X3

-;void int vp8_sad4x4x3_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad4x4x3_sse3)

-sym(vp8_sad4x4x3_sse3):

-    STACK_FRAME_CREATE_X3

-        movd            mm0,        DWORD PTR [src_ptr]

-        movd            mm1,        DWORD PTR [ref_ptr]

-        movd            mm2,        DWORD PTR [src_ptr+src_stride]

-        movd            mm3,        DWORD PTR [ref_ptr+ref_stride]

-        punpcklbw       mm0,        mm2

-        punpcklbw       mm1,        mm3

-        movd            mm4,        DWORD PTR [ref_ptr+1]

-        movd            mm5,        DWORD PTR [ref_ptr+2]

-        movd            mm2,        DWORD PTR [ref_ptr+ref_stride+1]

-        movd            mm3,        DWORD PTR [ref_ptr+ref_stride+2]

-        psadbw          mm1,        mm0

-        punpcklbw       mm4,        mm2

-        punpcklbw       mm5,        mm3

-        psadbw          mm4,        mm0

-        psadbw          mm5,        mm0

-        lea             src_ptr,    [src_ptr+src_stride*2]

-        lea             ref_ptr,    [ref_ptr+ref_stride*2]

-        movd            mm0,        DWORD PTR [src_ptr]

-        movd            mm2,        DWORD PTR [ref_ptr]

-        movd            mm3,        DWORD PTR [src_ptr+src_stride]

-        movd            mm6,        DWORD PTR [ref_ptr+ref_stride]

-        punpcklbw       mm0,        mm3

-        punpcklbw       mm2,        mm6

-        movd            mm3,        DWORD PTR [ref_ptr+1]

-        movd            mm7,        DWORD PTR [ref_ptr+2]

-        psadbw          mm2,        mm0

-        paddw           mm1,        mm2

-        movd            mm2,        DWORD PTR [ref_ptr+ref_stride+1]

-        movd            mm6,        DWORD PTR [ref_ptr+ref_stride+2]

-        punpcklbw       mm3,        mm2

-        punpcklbw       mm7,        mm6

-        psadbw          mm3,        mm0

-        psadbw          mm7,        mm0

-        paddw           mm3,        mm4

-        paddw           mm7,        mm5

-        mov             rcx,        result_ptr

-        punpckldq       mm1,        mm3

-        movq            [rcx],      mm1

-        movd            [rcx+8],    mm7

-    STACK_FRAME_DESTROY_X3

-;unsigned int vp8_sad16x16_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  max_sad)

-;%define lddqu movdqu

-global sym(vp8_sad16x16_sse3)

-sym(vp8_sad16x16_sse3):

-    STACK_FRAME_CREATE_X3

-        mov             end_ptr,    4

-        pxor            xmm7,        xmm7

-.vp8_sad16x16_sse3_loop:

-        movdqa          xmm0,       XMMWORD PTR [src_ptr]

-        movdqu          xmm1,       XMMWORD PTR [ref_ptr]

-        movdqa          xmm2,       XMMWORD PTR [src_ptr+src_stride]

-        movdqu          xmm3,       XMMWORD PTR [ref_ptr+ref_stride]

-        lea             src_ptr,    [src_ptr+src_stride*2]

-        lea             ref_ptr,    [ref_ptr+ref_stride*2]

-        movdqa          xmm4,       XMMWORD PTR [src_ptr]

-        movdqu          xmm5,       XMMWORD PTR [ref_ptr]

-        movdqa          xmm6,       XMMWORD PTR [src_ptr+src_stride]

-        psadbw          xmm0,       xmm1

-        movdqu          xmm1,       XMMWORD PTR [ref_ptr+ref_stride]

-        psadbw          xmm2,       xmm3

-        psadbw          xmm4,       xmm5

-        psadbw          xmm6,       xmm1

-        lea             src_ptr,    [src_ptr+src_stride*2]

-        lea             ref_ptr,    [ref_ptr+ref_stride*2]

-        paddw           xmm7,        xmm0

-        paddw           xmm7,        xmm2

-        paddw           xmm7,        xmm4

-        paddw           xmm7,        xmm6

-        sub             end_ptr,     1

-        jne             .vp8_sad16x16_sse3_loop

-        movq            xmm0,       xmm7

-        psrldq          xmm7,       8

-        paddw           xmm0,       xmm7

-        movq            rax,        xmm0

-    STACK_FRAME_DESTROY_X3

-;void vp8_copy32xn_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *dst_ptr,

-;    int  dst_stride,

-;    int height);

-global sym(vp8_copy32xn_sse3)

-sym(vp8_copy32xn_sse3):

-    STACK_FRAME_CREATE_X3

-.block_copy_sse3_loopx4:

-        lea             end_ptr,    [src_ptr+src_stride*2]

-        movdqu          xmm0,       XMMWORD PTR [src_ptr]

-        movdqu          xmm1,       XMMWORD PTR [src_ptr + 16]

-        movdqu          xmm2,       XMMWORD PTR [src_ptr + src_stride]

-        movdqu          xmm3,       XMMWORD PTR [src_ptr + src_stride + 16]

-        movdqu          xmm4,       XMMWORD PTR [end_ptr]

-        movdqu          xmm5,       XMMWORD PTR [end_ptr + 16]

-        movdqu          xmm6,       XMMWORD PTR [end_ptr + src_stride]

-        movdqu          xmm7,       XMMWORD PTR [end_ptr + src_stride + 16]

-        lea             src_ptr,    [src_ptr+src_stride*4]

-        lea             end_ptr,    [ref_ptr+ref_stride*2]

-        movdqa          XMMWORD PTR [ref_ptr], xmm0

-        movdqa          XMMWORD PTR [ref_ptr + 16], xmm1

-        movdqa          XMMWORD PTR [ref_ptr + ref_stride], xmm2

-        movdqa          XMMWORD PTR [ref_ptr + ref_stride + 16], xmm3

-        movdqa          XMMWORD PTR [end_ptr], xmm4

-        movdqa          XMMWORD PTR [end_ptr + 16], xmm5

-        movdqa          XMMWORD PTR [end_ptr + ref_stride], xmm6

-        movdqa          XMMWORD PTR [end_ptr + ref_stride + 16], xmm7

-        lea             ref_ptr,    [ref_ptr+ref_stride*4]

-        sub             height,     4

-        cmp             height,     4

-        jge             .block_copy_sse3_loopx4

-        ;Check to see if there is more rows need to be copied.

-        cmp             height, 0

-        je              .copy_is_done

-.block_copy_sse3_loop:

-        movdqu          xmm0,       XMMWORD PTR [src_ptr]

-        movdqu          xmm1,       XMMWORD PTR [src_ptr + 16]

-        lea             src_ptr,    [src_ptr+src_stride]

-        movdqa          XMMWORD PTR [ref_ptr], xmm0

-        movdqa          XMMWORD PTR [ref_ptr + 16], xmm1

-        lea             ref_ptr,    [ref_ptr+ref_stride]

-        sub             height,     1

-        jne             .block_copy_sse3_loop

-.copy_is_done:

-    STACK_FRAME_DESTROY_X3

-;void vp8_sad16x16x4d_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr_base,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad16x16x4d_sse3)

-sym(vp8_sad16x16x4d_sse3):

-    STACK_FRAME_CREATE_X4

-        PROCESS_16X2X4 0, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 2, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-%if ABI_IS_32BIT

-        pop             rbp

-%endif

-        mov             rcx,        result_ptr

-        movq            xmm0,       xmm4

-        psrldq          xmm4,       8

-        paddw           xmm0,       xmm4

-        movd            [rcx],      xmm0

-;-

-        movq            xmm0,       xmm5

-        psrldq          xmm5,       8

-        paddw           xmm0,       xmm5

-        movd            [rcx+4],    xmm0

-;-

-        movq            xmm0,       xmm6

-        psrldq          xmm6,       8

-        paddw           xmm0,       xmm6

-        movd            [rcx+8],    xmm0

-;-

-        movq            xmm0,       xmm7

-        psrldq          xmm7,       8

-        paddw           xmm0,       xmm7

-        movd            [rcx+12],   xmm0

-    STACK_FRAME_DESTROY_X4

-;void vp8_sad16x8x4d_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr_base,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad16x8x4d_sse3)

-sym(vp8_sad16x8x4d_sse3):

-    STACK_FRAME_CREATE_X4

-        PROCESS_16X2X4 0, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_16X2X4 2, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-%if ABI_IS_32BIT

-        pop             rbp

-%endif

-        mov             rcx,        result_ptr

-        movq            xmm0,       xmm4

-        psrldq          xmm4,       8

-        paddw           xmm0,       xmm4

-        movd            [rcx],      xmm0

-;-

-        movq            xmm0,       xmm5

-        psrldq          xmm5,       8

-        paddw           xmm0,       xmm5

-        movd            [rcx+4],    xmm0

-;-

-        movq            xmm0,       xmm6

-        psrldq          xmm6,       8

-        paddw           xmm0,       xmm6

-        movd            [rcx+8],    xmm0

-;-

-        movq            xmm0,       xmm7

-        psrldq          xmm7,       8

-        paddw           xmm0,       xmm7

-        movd            [rcx+12],   xmm0

-    STACK_FRAME_DESTROY_X4

-;void int vp8_sad8x16x4d_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad8x16x4d_sse3)

-sym(vp8_sad8x16x4d_sse3):

-    STACK_FRAME_CREATE_X4

-        PROCESS_8X2X4 0, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 2, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-%if ABI_IS_32BIT

-        pop             rbp

-%endif

-        mov             rcx,        result_ptr

-        punpckldq       mm4,        mm5

-        punpckldq       mm6,        mm7

-        movq            [rcx],      mm4

-        movq            [rcx+8],    mm6

-    STACK_FRAME_DESTROY_X4

-;void int vp8_sad8x8x4d_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad8x8x4d_sse3)

-sym(vp8_sad8x8x4d_sse3):

-    STACK_FRAME_CREATE_X4

-        PROCESS_8X2X4 0, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 1, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-        PROCESS_8X2X4 2, src_ptr, r0_ptr, r1_ptr, r2_ptr, r3_ptr, src_stride, ref_stride

-%if ABI_IS_32BIT

-        pop             rbp

-%endif

-        mov             rcx,        result_ptr

-        punpckldq       mm4,        mm5

-        punpckldq       mm6,        mm7

-        movq            [rcx],      mm4

-        movq            [rcx+8],    mm6

-    STACK_FRAME_DESTROY_X4

-;void int vp8_sad4x4x4d_sse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad4x4x4d_sse3)

-sym(vp8_sad4x4x4d_sse3):

-    STACK_FRAME_CREATE_X4

-        movd            mm0,        DWORD PTR [src_ptr]

-        movd            mm1,        DWORD PTR [r0_ptr]

-        movd            mm2,        DWORD PTR [src_ptr+src_stride]

-        movd            mm3,        DWORD PTR [r0_ptr+ref_stride]

-        punpcklbw       mm0,        mm2

-        punpcklbw       mm1,        mm3

-        movd            mm4,        DWORD PTR [r1_ptr]

-        movd            mm5,        DWORD PTR [r2_ptr]

-        movd            mm6,        DWORD PTR [r3_ptr]

-        movd            mm2,        DWORD PTR [r1_ptr+ref_stride]

-        movd            mm3,        DWORD PTR [r2_ptr+ref_stride]

-        movd            mm7,        DWORD PTR [r3_ptr+ref_stride]

-        psadbw          mm1,        mm0

-        punpcklbw       mm4,        mm2

-        punpcklbw       mm5,        mm3

-        punpcklbw       mm6,        mm7

-        psadbw          mm4,        mm0

-        psadbw          mm5,        mm0

-        psadbw          mm6,        mm0

-        lea             src_ptr,    [src_ptr+src_stride*2]

-        lea             r0_ptr,     [r0_ptr+ref_stride*2]

-        lea             r1_ptr,     [r1_ptr+ref_stride*2]

-        lea             r2_ptr,     [r2_ptr+ref_stride*2]

-        lea             r3_ptr,     [r3_ptr+ref_stride*2]

-        movd            mm0,        DWORD PTR [src_ptr]

-        movd            mm2,        DWORD PTR [r0_ptr]

-        movd            mm3,        DWORD PTR [src_ptr+src_stride]

-        movd            mm7,        DWORD PTR [r0_ptr+ref_stride]

-        punpcklbw       mm0,        mm3

-        punpcklbw       mm2,        mm7

-        movd            mm3,        DWORD PTR [r1_ptr]

-        movd            mm7,        DWORD PTR [r2_ptr]

-        psadbw          mm2,        mm0

-%if ABI_IS_32BIT

-        mov             rax,        rbp

-        pop             rbp

-%define     ref_stride    rax

-%endif

-        mov             rsi,        result_ptr

-        paddw           mm1,        mm2

-        movd            [rsi],      mm1

-        movd            mm2,        DWORD PTR [r1_ptr+ref_stride]

-        movd            mm1,        DWORD PTR [r2_ptr+ref_stride]

-        punpcklbw       mm3,        mm2

-        punpcklbw       mm7,        mm1

-        psadbw          mm3,        mm0

-        psadbw          mm7,        mm0

-        movd            mm2,        DWORD PTR [r3_ptr]

-        movd            mm1,        DWORD PTR [r3_ptr+ref_stride]

-        paddw           mm3,        mm4

-        paddw           mm7,        mm5

-        movd            [rsi+4],    mm3

-        punpcklbw       mm2,        mm1

-        movd            [rsi+8],    mm7

-        psadbw          mm2,        mm0

-        paddw           mm2,        mm6

-        movd            [rsi+12],   mm2

-    STACK_FRAME_DESTROY_X4

--- a/vp8/encoder/x86/sad_sse4.asm

+++ /dev/null

@@ -1,353 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-%macro PROCESS_16X2X8 1

-%if %1

-        movdqa          xmm0,       XMMWORD PTR [rsi]

-        movq            xmm1,       MMWORD PTR [rdi]

-        movq            xmm3,       MMWORD PTR [rdi+8]

-        movq            xmm2,       MMWORD PTR [rdi+16]

-        punpcklqdq      xmm1,       xmm3

-        punpcklqdq      xmm3,       xmm2

-        movdqa          xmm2,       xmm1

-        mpsadbw         xmm1,       xmm0,  0x0

-        mpsadbw         xmm2,       xmm0,  0x5

-        psrldq          xmm0,       8

-        movdqa          xmm4,       xmm3

-        mpsadbw         xmm3,       xmm0,  0x0

-        mpsadbw         xmm4,       xmm0,  0x5

-        paddw           xmm1,       xmm2

-        paddw           xmm1,       xmm3

-        paddw           xmm1,       xmm4

-%else

-        movdqa          xmm0,       XMMWORD PTR [rsi]

-        movq            xmm5,       MMWORD PTR [rdi]

-        movq            xmm3,       MMWORD PTR [rdi+8]

-        movq            xmm2,       MMWORD PTR [rdi+16]

-        punpcklqdq      xmm5,       xmm3

-        punpcklqdq      xmm3,       xmm2

-        movdqa          xmm2,       xmm5

-        mpsadbw         xmm5,       xmm0,  0x0

-        mpsadbw         xmm2,       xmm0,  0x5

-        psrldq          xmm0,       8

-        movdqa          xmm4,       xmm3

-        mpsadbw         xmm3,       xmm0,  0x0

-        mpsadbw         xmm4,       xmm0,  0x5

-        paddw           xmm5,       xmm2

-        paddw           xmm5,       xmm3

-        paddw           xmm5,       xmm4

-        paddw           xmm1,       xmm5

-%endif

-        movdqa          xmm0,       XMMWORD PTR [rsi + rax]

-        movq            xmm5,       MMWORD PTR [rdi+ rdx]

-        movq            xmm3,       MMWORD PTR [rdi+ rdx+8]

-        movq            xmm2,       MMWORD PTR [rdi+ rdx+16]

-        punpcklqdq      xmm5,       xmm3

-        punpcklqdq      xmm3,       xmm2

-        lea             rsi,        [rsi+rax*2]

-        lea             rdi,        [rdi+rdx*2]

-        movdqa          xmm2,       xmm5

-        mpsadbw         xmm5,       xmm0,  0x0

-        mpsadbw         xmm2,       xmm0,  0x5

-        psrldq          xmm0,       8

-        movdqa          xmm4,       xmm3

-        mpsadbw         xmm3,       xmm0,  0x0

-        mpsadbw         xmm4,       xmm0,  0x5

-        paddw           xmm5,       xmm2

-        paddw           xmm5,       xmm3

-        paddw           xmm5,       xmm4

-        paddw           xmm1,       xmm5

-%endmacro

-%macro PROCESS_8X2X8 1

-%if %1

-        movq            xmm0,       MMWORD PTR [rsi]

-        movq            xmm1,       MMWORD PTR [rdi]

-        movq            xmm3,       MMWORD PTR [rdi+8]

-        punpcklqdq      xmm1,       xmm3

-        movdqa          xmm2,       xmm1

-        mpsadbw         xmm1,       xmm0,  0x0

-        mpsadbw         xmm2,       xmm0,  0x5

-        paddw           xmm1,       xmm2

-%else

-        movq            xmm0,       MMWORD PTR [rsi]

-        movq            xmm5,       MMWORD PTR [rdi]

-        movq            xmm3,       MMWORD PTR [rdi+8]

-        punpcklqdq      xmm5,       xmm3

-        movdqa          xmm2,       xmm5

-        mpsadbw         xmm5,       xmm0,  0x0

-        mpsadbw         xmm2,       xmm0,  0x5

-        paddw           xmm5,       xmm2

-        paddw           xmm1,       xmm5

-%endif

-        movq            xmm0,       MMWORD PTR [rsi + rax]

-        movq            xmm5,       MMWORD PTR [rdi+ rdx]

-        movq            xmm3,       MMWORD PTR [rdi+ rdx+8]

-        punpcklqdq      xmm5,       xmm3

-        lea             rsi,        [rsi+rax*2]

-        lea             rdi,        [rdi+rdx*2]

-        movdqa          xmm2,       xmm5

-        mpsadbw         xmm5,       xmm0,  0x0

-        mpsadbw         xmm2,       xmm0,  0x5

-        paddw           xmm5,       xmm2

-        paddw           xmm1,       xmm5

-%endmacro

-%macro PROCESS_4X2X8 1

-%if %1

-        movd            xmm0,       [rsi]

-        movq            xmm1,       MMWORD PTR [rdi]

-        movq            xmm3,       MMWORD PTR [rdi+8]

-        punpcklqdq      xmm1,       xmm3

-        mpsadbw         xmm1,       xmm0,  0x0

-%else

-        movd            xmm0,       [rsi]

-        movq            xmm5,       MMWORD PTR [rdi]

-        movq            xmm3,       MMWORD PTR [rdi+8]

-        punpcklqdq      xmm5,       xmm3

-        mpsadbw         xmm5,       xmm0,  0x0

-        paddw           xmm1,       xmm5

-%endif

-        movd            xmm0,       [rsi + rax]

-        movq            xmm5,       MMWORD PTR [rdi+ rdx]

-        movq            xmm3,       MMWORD PTR [rdi+ rdx+8]

-        punpcklqdq      xmm5,       xmm3

-        lea             rsi,        [rsi+rax*2]

-        lea             rdi,        [rdi+rdx*2]

-        mpsadbw         xmm5,       xmm0,  0x0

-        paddw           xmm1,       xmm5

-%endmacro

-;void vp8_sad16x16x8_sse4(

-;    const unsigned char *src_ptr,

-;    int  src_stride,

-;    const unsigned char *ref_ptr,

-;    int  ref_stride,

-;    unsigned short *sad_array);

-global sym(vp8_sad16x16x8_sse4)

-sym(vp8_sad16x16x8_sse4):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0)           ;src_ptr

-        mov             rdi,        arg(2)           ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        PROCESS_16X2X8 1

-        PROCESS_16X2X8 0

-        PROCESS_16X2X8 0

-        PROCESS_16X2X8 0

-        PROCESS_16X2X8 0

-        PROCESS_16X2X8 0

-        PROCESS_16X2X8 0

-        PROCESS_16X2X8 0

-        mov             rdi,        arg(4)           ;Results

-        movdqa          XMMWORD PTR [rdi],    xmm1

-    ; begin epilog

-    pop         rdi

-    pop         rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_sad16x8x8_sse4(

-;    const unsigned char *src_ptr,

-;    int  src_stride,

-;    const unsigned char *ref_ptr,

-;    int  ref_stride,

-;    unsigned short *sad_array

-;);

-global sym(vp8_sad16x8x8_sse4)

-sym(vp8_sad16x8x8_sse4):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0)           ;src_ptr

-        mov             rdi,        arg(2)           ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        PROCESS_16X2X8 1

-        PROCESS_16X2X8 0

-        PROCESS_16X2X8 0

-        PROCESS_16X2X8 0

-        mov             rdi,        arg(4)           ;Results

-        movdqa          XMMWORD PTR [rdi],    xmm1

-    ; begin epilog

-    pop         rdi

-    pop         rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_sad8x8x8_sse4(

-;    const unsigned char *src_ptr,

-;    int  src_stride,

-;    const unsigned char *ref_ptr,

-;    int  ref_stride,

-;    unsigned short *sad_array

-;);

-global sym(vp8_sad8x8x8_sse4)

-sym(vp8_sad8x8x8_sse4):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0)           ;src_ptr

-        mov             rdi,        arg(2)           ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        PROCESS_8X2X8 1

-        PROCESS_8X2X8 0

-        PROCESS_8X2X8 0

-        PROCESS_8X2X8 0

-        mov             rdi,        arg(4)           ;Results

-        movdqa          XMMWORD PTR [rdi],    xmm1

-    ; begin epilog

-    pop         rdi

-    pop         rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_sad8x16x8_sse4(

-;    const unsigned char *src_ptr,

-;    int  src_stride,

-;    const unsigned char *ref_ptr,

-;    int  ref_stride,

-;    unsigned short *sad_array

-;);

-global sym(vp8_sad8x16x8_sse4)

-sym(vp8_sad8x16x8_sse4):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0)           ;src_ptr

-        mov             rdi,        arg(2)           ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        PROCESS_8X2X8 1

-        PROCESS_8X2X8 0

-        PROCESS_8X2X8 0

-        PROCESS_8X2X8 0

-        PROCESS_8X2X8 0

-        PROCESS_8X2X8 0

-        PROCESS_8X2X8 0

-        PROCESS_8X2X8 0

-        mov             rdi,        arg(4)           ;Results

-        movdqa          XMMWORD PTR [rdi],    xmm1

-    ; begin epilog

-    pop         rdi

-    pop         rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_sad4x4x8_c(

-;    const unsigned char *src_ptr,

-;    int  src_stride,

-;    const unsigned char *ref_ptr,

-;    int  ref_stride,

-;    unsigned short *sad_array

-;);

-global sym(vp8_sad4x4x8_sse4)

-sym(vp8_sad4x4x8_sse4):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    push        rsi

-    push        rdi

-    ; end prolog

-        mov             rsi,        arg(0)           ;src_ptr

-        mov             rdi,        arg(2)           ;ref_ptr

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        PROCESS_4X2X8 1

-        PROCESS_4X2X8 0

-        mov             rdi,        arg(4)           ;Results

-        movdqa          XMMWORD PTR [rdi],    xmm1

-    ; begin epilog

-    pop         rdi

-    pop         rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

--- a/vp8/encoder/x86/sad_ssse3.asm

+++ /dev/null

@@ -1,370 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-%macro PROCESS_16X2X3 1

-%if %1

-        movdqa          xmm0,       XMMWORD PTR [rsi]

-        lddqu           xmm5,       XMMWORD PTR [rdi]

-        lddqu           xmm6,       XMMWORD PTR [rdi+1]

-        lddqu           xmm7,       XMMWORD PTR [rdi+2]

-        psadbw          xmm5,       xmm0

-        psadbw          xmm6,       xmm0

-        psadbw          xmm7,       xmm0

-%else

-        movdqa          xmm0,       XMMWORD PTR [rsi]

-        lddqu           xmm1,       XMMWORD PTR [rdi]

-        lddqu           xmm2,       XMMWORD PTR [rdi+1]

-        lddqu           xmm3,       XMMWORD PTR [rdi+2]

-        psadbw          xmm1,       xmm0

-        psadbw          xmm2,       xmm0

-        psadbw          xmm3,       xmm0

-        paddw           xmm5,       xmm1

-        paddw           xmm6,       xmm2

-        paddw           xmm7,       xmm3

-%endif

-        movdqa          xmm0,       XMMWORD PTR [rsi+rax]

-        lddqu           xmm1,       XMMWORD PTR [rdi+rdx]

-        lddqu           xmm2,       XMMWORD PTR [rdi+rdx+1]

-        lddqu           xmm3,       XMMWORD PTR [rdi+rdx+2]

-        lea             rsi,        [rsi+rax*2]

-        lea             rdi,        [rdi+rdx*2]

-        psadbw          xmm1,       xmm0

-        psadbw          xmm2,       xmm0

-        psadbw          xmm3,       xmm0

-        paddw           xmm5,       xmm1

-        paddw           xmm6,       xmm2

-        paddw           xmm7,       xmm3

-%endmacro

-%macro PROCESS_16X2X3_OFFSET 2

-%if %1

-        movdqa          xmm0,       XMMWORD PTR [rsi]

-        movdqa          xmm4,       XMMWORD PTR [rdi]

-        movdqa          xmm7,       XMMWORD PTR [rdi+16]

-        movdqa          xmm5,       xmm7

-        palignr         xmm5,       xmm4,       %2

-        movdqa          xmm6,       xmm7

-        palignr         xmm6,       xmm4,       (%2+1)

-        palignr         xmm7,       xmm4,       (%2+2)

-        psadbw          xmm5,       xmm0

-        psadbw          xmm6,       xmm0

-        psadbw          xmm7,       xmm0

-%else

-        movdqa          xmm0,       XMMWORD PTR [rsi]

-        movdqa          xmm4,       XMMWORD PTR [rdi]

-        movdqa          xmm3,       XMMWORD PTR [rdi+16]

-        movdqa          xmm1,       xmm3

-        palignr         xmm1,       xmm4,       %2

-        movdqa          xmm2,       xmm3

-        palignr         xmm2,       xmm4,       (%2+1)

-        palignr         xmm3,       xmm4,       (%2+2)

-        psadbw          xmm1,       xmm0

-        psadbw          xmm2,       xmm0

-        psadbw          xmm3,       xmm0

-        paddw           xmm5,       xmm1

-        paddw           xmm6,       xmm2

-        paddw           xmm7,       xmm3

-%endif

-        movdqa          xmm0,       XMMWORD PTR [rsi+rax]

-        movdqa          xmm4,       XMMWORD PTR [rdi+rdx]

-        movdqa          xmm3,       XMMWORD PTR [rdi+rdx+16]

-        movdqa          xmm1,       xmm3

-        palignr         xmm1,       xmm4,       %2

-        movdqa          xmm2,       xmm3

-        palignr         xmm2,       xmm4,       (%2+1)

-        palignr         xmm3,       xmm4,       (%2+2)

-        lea             rsi,        [rsi+rax*2]

-        lea             rdi,        [rdi+rdx*2]

-        psadbw          xmm1,       xmm0

-        psadbw          xmm2,       xmm0

-        psadbw          xmm3,       xmm0

-        paddw           xmm5,       xmm1

-        paddw           xmm6,       xmm2

-        paddw           xmm7,       xmm3

-%endmacro

-%macro PROCESS_16X16X3_OFFSET 2

-%2_aligned_by_%1:

-        sub             rdi,        %1

-        PROCESS_16X2X3_OFFSET 1, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        jmp             %2_store_off

-%endmacro

-%macro PROCESS_16X8X3_OFFSET 2

-%2_aligned_by_%1:

-        sub             rdi,        %1

-        PROCESS_16X2X3_OFFSET 1, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        PROCESS_16X2X3_OFFSET 0, %1

-        jmp             %2_store_off

-%endmacro

-;void int vp8_sad16x16x3_ssse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad16x16x3_ssse3)

-sym(vp8_sad16x16x3_ssse3):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    SAVE_XMM 7

-    push        rsi

-    push        rdi

-    push        rcx

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        mov             rdx,        0xf

-        and             rdx,        rdi

-        jmp .vp8_sad16x16x3_ssse3_skiptable

-.vp8_sad16x16x3_ssse3_jumptable:

-        dd .vp8_sad16x16x3_ssse3_aligned_by_0  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_1  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_2  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_3  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_4  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_5  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_6  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_7  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_8  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_9  - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_10 - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_11 - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_12 - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_13 - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_14 - .vp8_sad16x16x3_ssse3_do_jump

-        dd .vp8_sad16x16x3_ssse3_aligned_by_15 - .vp8_sad16x16x3_ssse3_do_jump

-.vp8_sad16x16x3_ssse3_skiptable:

-        call .vp8_sad16x16x3_ssse3_do_jump

-.vp8_sad16x16x3_ssse3_do_jump:

-        pop             rcx                         ; get the address of do_jump

-        mov             rax,  .vp8_sad16x16x3_ssse3_jumptable - .vp8_sad16x16x3_ssse3_do_jump

-        add             rax,  rcx  ; get the absolute address of vp8_sad16x16x3_ssse3_jumptable

-        movsxd          rax,  dword [rax + 4*rdx]   ; get the 32 bit offset from the jumptable

-        add             rcx,        rax

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        jmp             rcx

-        PROCESS_16X16X3_OFFSET 0,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 1,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 2,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 3,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 4,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 5,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 6,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 7,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 8,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 9,  .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 10, .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 11, .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 12, .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 13, .vp8_sad16x16x3_ssse3

-        PROCESS_16X16X3_OFFSET 14, .vp8_sad16x16x3_ssse3

-.vp8_sad16x16x3_ssse3_aligned_by_15:

-        PROCESS_16X2X3 1

-        PROCESS_16X2X3 0

-        PROCESS_16X2X3 0

-        PROCESS_16X2X3 0

-        PROCESS_16X2X3 0

-        PROCESS_16X2X3 0

-        PROCESS_16X2X3 0

-        PROCESS_16X2X3 0

-.vp8_sad16x16x3_ssse3_store_off:

-        mov             rdi,        arg(4) ;Results

-        movq            xmm0,       xmm5

-        psrldq          xmm5,       8

-        paddw           xmm0,       xmm5

-        movd            [rdi],      xmm0

-;-

-        movq            xmm0,       xmm6

-        psrldq          xmm6,       8

-        paddw           xmm0,       xmm6

-        movd            [rdi+4],    xmm0

-;-

-        movq            xmm0,       xmm7

-        psrldq          xmm7,       8

-        paddw           xmm0,       xmm7

-        movd            [rdi+8],    xmm0

-    ; begin epilog

-    pop         rcx

-    pop         rdi

-    pop         rsi

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void int vp8_sad16x8x3_ssse3(

-;    unsigned char *src_ptr,

-;    int  src_stride,

-;    unsigned char *ref_ptr,

-;    int  ref_stride,

-;    int  *results)

-global sym(vp8_sad16x8x3_ssse3)

-sym(vp8_sad16x8x3_ssse3):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 5

-    SAVE_XMM 7

-    push        rsi

-    push        rdi

-    push        rcx

-    ; end prolog

-        mov             rsi,        arg(0) ;src_ptr

-        mov             rdi,        arg(2) ;ref_ptr

-        mov             rdx,        0xf

-        and             rdx,        rdi

-        jmp .vp8_sad16x8x3_ssse3_skiptable

-.vp8_sad16x8x3_ssse3_jumptable:

-        dd .vp8_sad16x8x3_ssse3_aligned_by_0  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_1  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_2  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_3  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_4  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_5  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_6  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_7  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_8  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_9  - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_10 - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_11 - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_12 - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_13 - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_14 - .vp8_sad16x8x3_ssse3_do_jump

-        dd .vp8_sad16x8x3_ssse3_aligned_by_15 - .vp8_sad16x8x3_ssse3_do_jump

-.vp8_sad16x8x3_ssse3_skiptable:

-        call .vp8_sad16x8x3_ssse3_do_jump

-.vp8_sad16x8x3_ssse3_do_jump:

-        pop             rcx                         ; get the address of do_jump

-        mov             rax,  .vp8_sad16x8x3_ssse3_jumptable - .vp8_sad16x8x3_ssse3_do_jump

-        add             rax,  rcx  ; get the absolute address of vp8_sad16x8x3_ssse3_jumptable

-        movsxd          rax,  dword [rax + 4*rdx]   ; get the 32 bit offset from the jumptable

-        add             rcx,        rax

-        movsxd          rax,        dword ptr arg(1) ;src_stride

-        movsxd          rdx,        dword ptr arg(3) ;ref_stride

-        jmp             rcx

-        PROCESS_16X8X3_OFFSET 0,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 1,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 2,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 3,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 4,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 5,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 6,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 7,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 8,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 9,  .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 10, .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 11, .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 12, .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 13, .vp8_sad16x8x3_ssse3

-        PROCESS_16X8X3_OFFSET 14, .vp8_sad16x8x3_ssse3

-.vp8_sad16x8x3_ssse3_aligned_by_15:

-        PROCESS_16X2X3 1

-        PROCESS_16X2X3 0

-        PROCESS_16X2X3 0

-        PROCESS_16X2X3 0

-.vp8_sad16x8x3_ssse3_store_off:

-        mov             rdi,        arg(4) ;Results

-        movq            xmm0,       xmm5

-        psrldq          xmm5,       8

-        paddw           xmm0,       xmm5

-        movd            [rdi],      xmm0

-;-

-        movq            xmm0,       xmm6

-        psrldq          xmm6,       8

-        paddw           xmm0,       xmm6

-        movd            [rdi+4],    xmm0

-;-

-        movq            xmm0,       xmm7

-        psrldq          xmm7,       8

-        paddw           xmm0,       xmm7

-        movd            [rdi+8],    xmm0

-    ; begin epilog

-    pop         rcx

-    pop         rdi

-    pop         rsi

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

--- a/vp8/encoder/x86/variance_impl_mmx.asm

+++ /dev/null

@@ -1,851 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-;unsigned int vp8_get_mb_ss_mmx( short *src_ptr )

-global sym(vp8_get_mb_ss_mmx)

-sym(vp8_get_mb_ss_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    sub         rsp, 8

-    ; end prolog

-        mov         rax, arg(0) ;src_ptr

-        mov         rcx, 16

-        pxor        mm4, mm4

-.NEXTROW:

-        movq        mm0, [rax]

-        movq        mm1, [rax+8]

-        movq        mm2, [rax+16]

-        movq        mm3, [rax+24]

-        pmaddwd     mm0, mm0

-        pmaddwd     mm1, mm1

-        pmaddwd     mm2, mm2

-        pmaddwd     mm3, mm3

-        paddd       mm4, mm0

-        paddd       mm4, mm1

-        paddd       mm4, mm2

-        paddd       mm4, mm3

-        add         rax, 32

-        dec         rcx

-        ja          .NEXTROW

-        movq        QWORD PTR [rsp], mm4

-        ;return sum[0]+sum[1];

-        movsxd      rax, dword ptr [rsp]

-        movsxd      rcx, dword ptr [rsp+4]

-        add         rax, rcx

-    ; begin epilog

-    add rsp, 8

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_get8x8var_mmx

-;(

-;    unsigned char *src_ptr,

-;    int  source_stride,

-;    unsigned char *ref_ptr,

-;    int  recon_stride,

-;    unsigned int *SSE,

-;    int *Sum

-;)

-global sym(vp8_get8x8var_mmx)

-sym(vp8_get8x8var_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    push rsi

-    push rdi

-    push rbx

-    sub         rsp, 16

-    ; end prolog

-        pxor        mm5, mm5                    ; Blank mmx6

-        pxor        mm6, mm6                    ; Blank mmx7

-        pxor        mm7, mm7                    ; Blank mmx7

-        mov         rax, arg(0) ;[src_ptr]  ; Load base addresses

-        mov         rbx, arg(2) ;[ref_ptr]

-        movsxd      rcx, dword ptr arg(1) ;[source_stride]

-        movsxd      rdx, dword ptr arg(3) ;[recon_stride]

-        ; Row 1

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        movq        mm2, mm0                    ; Take copies

-        movq        mm3, mm1                    ; Take copies

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

-        punpckhbw   mm3, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        psubsw      mm2, mm3                    ; A-B (high order) to MM2

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        paddw       mm5, mm2                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        pmaddwd     mm2, mm2                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        paddd       mm7, mm2                    ; accumulate in mm7

-        ; Row 2

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm2, mm0                    ; Take copies

-        movq        mm3, mm1                    ; Take copies

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

-        punpckhbw   mm3, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        psubsw      mm2, mm3                    ; A-B (high order) to MM2

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        paddw       mm5, mm2                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        pmaddwd     mm2, mm2                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        paddd       mm7, mm2                    ; accumulate in mm7

-        ; Row 3

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm2, mm0                    ; Take copies

-        movq        mm3, mm1                    ; Take copies

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

-        punpckhbw   mm3, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        psubsw      mm2, mm3                    ; A-B (high order) to MM2

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        paddw       mm5, mm2                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        pmaddwd     mm2, mm2                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        paddd       mm7, mm2                    ; accumulate in mm7

-        ; Row 4

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm2, mm0                    ; Take copies

-        movq        mm3, mm1                    ; Take copies

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

-        punpckhbw   mm3, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        psubsw      mm2, mm3                    ; A-B (high order) to MM2

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        paddw       mm5, mm2                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        pmaddwd     mm2, mm2                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        paddd       mm7, mm2                    ; accumulate in mm7

-        ; Row 5

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm2, mm0                    ; Take copies

-        movq        mm3, mm1                    ; Take copies

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

-        punpckhbw   mm3, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        psubsw      mm2, mm3                    ; A-B (high order) to MM2

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        paddw       mm5, mm2                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        pmaddwd     mm2, mm2                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        ;              movq        mm4, [rbx + rdx]

-        paddd       mm7, mm0                    ; accumulate in mm7

-        paddd       mm7, mm2                    ; accumulate in mm7

-        ; Row 6

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm2, mm0                    ; Take copies

-        movq        mm3, mm1                    ; Take copies

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

-        punpckhbw   mm3, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        psubsw      mm2, mm3                    ; A-B (high order) to MM2

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        paddw       mm5, mm2                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        pmaddwd     mm2, mm2                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        paddd       mm7, mm2                    ; accumulate in mm7

-        ; Row 7

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm2, mm0                    ; Take copies

-        movq        mm3, mm1                    ; Take copies

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

-        punpckhbw   mm3, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        psubsw      mm2, mm3                    ; A-B (high order) to MM2

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        paddw       mm5, mm2                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        pmaddwd     mm2, mm2                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        paddd       mm7, mm2                    ; accumulate in mm7

-        ; Row 8

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm2, mm0                    ; Take copies

-        movq        mm3, mm1                    ; Take copies

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        punpckhbw   mm2, mm6                    ; unpack to higher prrcision

-        punpckhbw   mm3, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        psubsw      mm2, mm3                    ; A-B (high order) to MM2

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        paddw       mm5, mm2                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        pmaddwd     mm2, mm2                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        paddd       mm7, mm0                    ; accumulate in mm7

-        paddd       mm7, mm2                    ; accumulate in mm7

-        ; Now accumulate the final results.

-        movq        QWORD PTR [rsp+8], mm5      ; copy back accumulated results into normal memory

-        movq        QWORD PTR [rsp], mm7        ; copy back accumulated results into normal memory

-        movsx       rdx, WORD PTR [rsp+8]

-        movsx       rcx, WORD PTR [rsp+10]

-        movsx       rbx, WORD PTR [rsp+12]

-        movsx       rax, WORD PTR [rsp+14]

-        add         rdx, rcx

-        add         rbx, rax

-        add         rdx, rbx    ;XSum

-        movsxd      rax, DWORD PTR [rsp]

-        movsxd      rcx, DWORD PTR [rsp+4]

-        add         rax, rcx    ;XXSum

-        mov         rsi, arg(4) ;SSE

-        mov         rdi, arg(5) ;Sum

-        mov         dword ptr [rsi], eax

-        mov         dword ptr [rdi], edx

-        xor         rax, rax    ; return 0

-    ; begin epilog

-    add rsp, 16

-    pop rbx

-    pop rdi

-    pop rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int

-;vp8_get4x4var_mmx

-;(

-;    unsigned char *src_ptr,

-;    int  source_stride,

-;    unsigned char *ref_ptr,

-;    int  recon_stride,

-;    unsigned int *SSE,

-;    int *Sum

-;)

-global sym(vp8_get4x4var_mmx)

-sym(vp8_get4x4var_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    push rsi

-    push rdi

-    push rbx

-    sub         rsp, 16

-    ; end prolog

-        pxor        mm5, mm5                    ; Blank mmx6

-        pxor        mm6, mm6                    ; Blank mmx7

-        pxor        mm7, mm7                    ; Blank mmx7

-        mov         rax, arg(0) ;[src_ptr]  ; Load base addresses

-        mov         rbx, arg(2) ;[ref_ptr]

-        movsxd      rcx, dword ptr arg(1) ;[source_stride]

-        movsxd      rdx, dword ptr arg(3) ;[recon_stride]

-        ; Row 1

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        ; Row 2

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        ; Row 3

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movq        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        ; Row 4

-        movq        mm0, [rax]                  ; Copy eight bytes to mm0

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        paddw       mm5, mm0                    ; accumulate differences in mm5

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        paddd       mm7, mm0                    ; accumulate in mm7

-        ; Now accumulate the final results.

-        movq        QWORD PTR [rsp+8], mm5      ; copy back accumulated results into normal memory

-        movq        QWORD PTR [rsp], mm7        ; copy back accumulated results into normal memory

-        movsx       rdx, WORD PTR [rsp+8]

-        movsx       rcx, WORD PTR [rsp+10]

-        movsx       rbx, WORD PTR [rsp+12]

-        movsx       rax, WORD PTR [rsp+14]

-        add         rdx, rcx

-        add         rbx, rax

-        add         rdx, rbx    ;XSum

-        movsxd      rax, DWORD PTR [rsp]

-        movsxd      rcx, DWORD PTR [rsp+4]

-        add         rax, rcx    ;XXSum

-        mov         rsi, arg(4) ;SSE

-        mov         rdi, arg(5) ;Sum

-        mov         dword ptr [rsi], eax

-        mov         dword ptr [rdi], edx

-        xor         rax, rax    ; return 0

-    ; begin epilog

-    add rsp, 16

-    pop rbx

-    pop rdi

-    pop rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int

-;vp8_get4x4sse_cs_mmx

-;(

-;    unsigned char *src_ptr,

-;    int  source_stride,

-;    unsigned char *ref_ptr,

-;    int  recon_stride

-;)

-global sym(vp8_get4x4sse_cs_mmx)

-sym(vp8_get4x4sse_cs_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 4

-    push rsi

-    push rdi

-    push rbx

-    ; end prolog

-        pxor        mm6, mm6                    ; Blank mmx7

-        pxor        mm7, mm7                    ; Blank mmx7

-        mov         rax, arg(0) ;[src_ptr]  ; Load base addresses

-        mov         rbx, arg(2) ;[ref_ptr]

-        movsxd      rcx, dword ptr arg(1) ;[source_stride]

-        movsxd      rdx, dword ptr arg(3) ;[recon_stride]

-        ; Row 1

-        movd        mm0, [rax]                  ; Copy eight bytes to mm0

-        movd        mm1, [rbx]                  ; Copy eight bytes to mm1

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movd        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        ; Row 2

-        movd        mm0, [rax]                  ; Copy eight bytes to mm0

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movd        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        ; Row 3

-        movd        mm0, [rax]                  ; Copy eight bytes to mm0

-        punpcklbw   mm1, mm6

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        add         rbx,rdx                     ; Inc pointer into ref data

-        add         rax,rcx                     ; Inc pointer into the new data

-        movd        mm1, [rbx]                  ; Copy eight bytes to mm1

-        paddd       mm7, mm0                    ; accumulate in mm7

-        ; Row 4

-        movd        mm0, [rax]                  ; Copy eight bytes to mm0

-        punpcklbw   mm0, mm6                    ; unpack to higher prrcision

-        punpcklbw   mm1, mm6

-        psubsw      mm0, mm1                    ; A-B (low order) to MM0

-        pmaddwd     mm0, mm0                    ; square and accumulate

-        paddd       mm7, mm0                    ; accumulate in mm7

-        movq        mm0,    mm7                 ;

-        psrlq       mm7,    32

-        paddd       mm0,    mm7

-        movq        rax,    mm0

-    ; begin epilog

-    pop rbx

-    pop rdi

-    pop rsi

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-%define mmx_filter_shift            7

-;void vp8_filter_block2d_bil4x4_var_mmx

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned short *HFilter,

-;    unsigned short *VFilter,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_filter_block2d_bil4x4_var_mmx)

-sym(vp8_filter_block2d_bil4x4_var_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 8

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    sub         rsp, 16

-    ; end prolog

-        pxor            mm6,            mm6                 ;

-        pxor            mm7,            mm7                 ;

-        mov             rax,            arg(4) ;HFilter             ;

-        mov             rdx,            arg(5) ;VFilter             ;

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        mov             rcx,            4                   ;

-        pxor            mm0,            mm0                 ;

-        movd            mm1,            [rsi]               ;

-        movd            mm3,            [rsi+1]             ;

-        punpcklbw       mm1,            mm0                 ;

-        pmullw          mm1,            [rax]               ;

-        punpcklbw       mm3,            mm0                 ;

-        pmullw          mm3,            [rax+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        movq            mm5,            mm1

-%if ABI_IS_32BIT

-        add             rsi, dword ptr  arg(1) ;ref_pixels_per_line    ;

-%else

-        movsxd          r8, dword ptr  arg(1) ;ref_pixels_per_line    ;

-        add             rsi, r8

-%endif

-.filter_block2d_bil4x4_var_mmx_loop:

-        movd            mm1,            [rsi]               ;

-        movd            mm3,            [rsi+1]             ;

-        punpcklbw       mm1,            mm0                 ;

-        pmullw          mm1,            [rax]               ;

-        punpcklbw       mm3,            mm0                 ;

-        pmullw          mm3,            [rax+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        movq            mm3,            mm5                 ;

-        movq            mm5,            mm1                 ;

-        pmullw          mm3,            [rdx]               ;

-        pmullw          mm1,            [rdx+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        movd            mm3,            [rdi]               ;

-        punpcklbw       mm3,            mm0                 ;

-        psubw           mm1,            mm3                 ;

-        paddw           mm6,            mm1                 ;

-        pmaddwd         mm1,            mm1                 ;

-        paddd           mm7,            mm1                 ;

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;

-        add             rdi,            dword ptr arg(3) ;src_pixels_per_line    ;

-%else

-        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

-        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

-        add             rsi,            r8

-        add             rdi,            r9

-%endif

-        sub             rcx,            1                   ;

-        jnz             .filter_block2d_bil4x4_var_mmx_loop       ;

-        pxor            mm3,            mm3                 ;

-        pxor            mm2,            mm2                 ;

-        punpcklwd       mm2,            mm6                 ;

-        punpckhwd       mm3,            mm6                 ;

-        paddd           mm2,            mm3                 ;

-        movq            mm6,            mm2                 ;

-        psrlq           mm6,            32                  ;

-        paddd           mm2,            mm6                 ;

-        psrad           mm2,            16                  ;

-        movq            mm4,            mm7                 ;

-        psrlq           mm4,            32                  ;

-        paddd           mm4,            mm7                 ;

-        mov             rdi,            arg(6) ;sum

-        mov             rsi,            arg(7) ;sumsquared

-        movd            dword ptr [rdi],          mm2                 ;

-        movd            dword ptr [rsi],          mm4                 ;

-    ; begin epilog

-    add rsp, 16

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_filter_block2d_bil_var_mmx

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    unsigned short *HFilter,

-;    unsigned short *VFilter,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_filter_block2d_bil_var_mmx)

-sym(vp8_filter_block2d_bil_var_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 9

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    sub         rsp, 16

-    ; end prolog

-        pxor            mm6,            mm6                 ;

-        pxor            mm7,            mm7                 ;

-        mov             rax,            arg(5) ;HFilter             ;

-        mov             rdx,            arg(6) ;VFilter             ;

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        movsxd          rcx,            dword ptr arg(4) ;Height              ;

-        pxor            mm0,            mm0                 ;

-        movq            mm1,            [rsi]               ;

-        movq            mm3,            [rsi+1]             ;

-        movq            mm2,            mm1                 ;

-        movq            mm4,            mm3                 ;

-        punpcklbw       mm1,            mm0                 ;

-        punpckhbw       mm2,            mm0                 ;

-        pmullw          mm1,            [rax]               ;

-        pmullw          mm2,            [rax]               ;

-        punpcklbw       mm3,            mm0                 ;

-        punpckhbw       mm4,            mm0                 ;

-        pmullw          mm3,            [rax+8]             ;

-        pmullw          mm4,            [rax+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm2,            mm4                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm2,            mmx_filter_shift    ;

-        movq            mm5,            mm1

-        packuswb        mm5,            mm2                 ;

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line

-%else

-        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

-        add             rsi,            r8

-%endif

-.filter_block2d_bil_var_mmx_loop:

-        movq            mm1,            [rsi]               ;

-        movq            mm3,            [rsi+1]             ;

-        movq            mm2,            mm1                 ;

-        movq            mm4,            mm3                 ;

-        punpcklbw       mm1,            mm0                 ;

-        punpckhbw       mm2,            mm0                 ;

-        pmullw          mm1,            [rax]               ;

-        pmullw          mm2,            [rax]               ;

-        punpcklbw       mm3,            mm0                 ;

-        punpckhbw       mm4,            mm0                 ;

-        pmullw          mm3,            [rax+8]             ;

-        pmullw          mm4,            [rax+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm2,            mm4                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm2,            mmx_filter_shift    ;

-        movq            mm3,            mm5                 ;

-        movq            mm4,            mm5                 ;

-        punpcklbw       mm3,            mm0                 ;

-        punpckhbw       mm4,            mm0                 ;

-        movq            mm5,            mm1                 ;

-        packuswb        mm5,            mm2                 ;

-        pmullw          mm3,            [rdx]               ;

-        pmullw          mm4,            [rdx]               ;

-        pmullw          mm1,            [rdx+8]             ;

-        pmullw          mm2,            [rdx+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm2,            mm4                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        psraw           mm2,            mmx_filter_shift    ;

-        movq            mm3,            [rdi]               ;

-        movq            mm4,            mm3                 ;

-        punpcklbw       mm3,            mm0                 ;

-        punpckhbw       mm4,            mm0                 ;

-        psubw           mm1,            mm3                 ;

-        psubw           mm2,            mm4                 ;

-        paddw           mm6,            mm1                 ;

-        pmaddwd         mm1,            mm1                 ;

-        paddw           mm6,            mm2                 ;

-        pmaddwd         mm2,            mm2                 ;

-        paddd           mm7,            mm1                 ;

-        paddd           mm7,            mm2                 ;

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;

-        add             rdi,            dword ptr arg(3) ;src_pixels_per_line    ;

-%else

-        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line    ;

-        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line    ;

-        add             rsi,            r8

-        add             rdi,            r9

-%endif

-        sub             rcx,            1                   ;

-        jnz             .filter_block2d_bil_var_mmx_loop       ;

-        pxor            mm3,            mm3                 ;

-        pxor            mm2,            mm2                 ;

-        punpcklwd       mm2,            mm6                 ;

-        punpckhwd       mm3,            mm6                 ;

-        paddd           mm2,            mm3                 ;

-        movq            mm6,            mm2                 ;

-        psrlq           mm6,            32                  ;

-        paddd           mm2,            mm6                 ;

-        psrad           mm2,            16                  ;

-        movq            mm4,            mm7                 ;

-        psrlq           mm4,            32                  ;

-        paddd           mm4,            mm7                 ;

-        mov             rdi,            arg(7) ;sum

-        mov             rsi,            arg(8) ;sumsquared

-        movd            dword ptr [rdi],          mm2                 ;

-        movd            dword ptr [rsi],          mm4                 ;

-    ; begin epilog

-    add rsp, 16

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-SECTION_RODATA

-;short mmx_bi_rd[4] = { 64, 64, 64, 64};

-align 16

-mmx_bi_rd:

-    times 4 dw 64

--- a/vp8/encoder/x86/variance_impl_sse2.asm

+++ /dev/null

@@ -1,1359 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-%define xmm_filter_shift            7

-;unsigned int vp8_get_mb_ss_sse2

-;(

-;    short *src_ptr

-;)

-global sym(vp8_get_mb_ss_sse2)

-sym(vp8_get_mb_ss_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 1

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    sub         rsp, 16

-    ; end prolog

-        mov         rax, arg(0) ;[src_ptr]

-        mov         rcx, 8

-        pxor        xmm4, xmm4

-.NEXTROW:

-        movdqa      xmm0, [rax]

-        movdqa      xmm1, [rax+16]

-        movdqa      xmm2, [rax+32]

-        movdqa      xmm3, [rax+48]

-        pmaddwd     xmm0, xmm0

-        pmaddwd     xmm1, xmm1

-        pmaddwd     xmm2, xmm2

-        pmaddwd     xmm3, xmm3

-        paddd       xmm0, xmm1

-        paddd       xmm2, xmm3

-        paddd       xmm4, xmm0

-        paddd       xmm4, xmm2

-        add         rax, 0x40

-        dec         rcx

-        ja          .NEXTROW

-        movdqa      xmm3,xmm4

-        psrldq      xmm4,8

-        paddd       xmm4,xmm3

-        movdqa      xmm3,xmm4

-        psrldq      xmm4,4

-        paddd       xmm4,xmm3

-        movq        rax,xmm4

-    ; begin epilog

-    add rsp, 16

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_get16x16var_sse2

-;(

-;    unsigned char   *  src_ptr,

-;    int             source_stride,

-;    unsigned char   *  ref_ptr,

-;    int             recon_stride,

-;    unsigned int    *  SSE,

-;    int             *  Sum

-;)

-global sym(vp8_get16x16var_sse2)

-sym(vp8_get16x16var_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    SAVE_XMM 7

-    push rbx

-    push rsi

-    push rdi

-    ; end prolog

-        mov         rsi,            arg(0) ;[src_ptr]

-        mov         rdi,            arg(2) ;[ref_ptr]

-        movsxd      rax,            DWORD PTR arg(1) ;[source_stride]

-        movsxd      rdx,            DWORD PTR arg(3) ;[recon_stride]

-        ; Prefetch data

-        lea             rcx,    [rax+rax*2]

-        prefetcht0      [rsi]

-        prefetcht0      [rsi+rax]

-        prefetcht0      [rsi+rax*2]

-        prefetcht0      [rsi+rcx]

-        lea             rbx,    [rsi+rax*4]

-        prefetcht0      [rbx]

-        prefetcht0      [rbx+rax]

-        prefetcht0      [rbx+rax*2]

-        prefetcht0      [rbx+rcx]

-        lea             rcx,    [rdx+rdx*2]

-        prefetcht0      [rdi]

-        prefetcht0      [rdi+rdx]

-        prefetcht0      [rdi+rdx*2]

-        prefetcht0      [rdi+rcx]

-        lea             rbx,    [rdi+rdx*4]

-        prefetcht0      [rbx]

-        prefetcht0      [rbx+rdx]

-        prefetcht0      [rbx+rdx*2]

-        prefetcht0      [rbx+rcx]

-        pxor        xmm0,           xmm0                        ; clear xmm0 for unpack

-        pxor        xmm7,           xmm7                        ; clear xmm7 for accumulating diffs

-        pxor        xmm6,           xmm6                        ; clear xmm6 for accumulating sse

-        mov         rcx,            16

-.var16loop:

-        movdqu      xmm1,           XMMWORD PTR [rsi]

-        movdqu      xmm2,           XMMWORD PTR [rdi]

-        prefetcht0      [rsi+rax*8]

-        prefetcht0      [rdi+rdx*8]

-        movdqa      xmm3,           xmm1

-        movdqa      xmm4,           xmm2

-        punpcklbw   xmm1,           xmm0

-        punpckhbw   xmm3,           xmm0

-        punpcklbw   xmm2,           xmm0

-        punpckhbw   xmm4,           xmm0

-        psubw       xmm1,           xmm2

-        psubw       xmm3,           xmm4

-        paddw       xmm7,           xmm1

-        pmaddwd     xmm1,           xmm1

-        paddw       xmm7,           xmm3

-        pmaddwd     xmm3,           xmm3

-        paddd       xmm6,           xmm1

-        paddd       xmm6,           xmm3

-        add         rsi,            rax

-        add         rdi,            rdx

-        sub         rcx,            1

-        jnz         .var16loop

-        movdqa      xmm1,           xmm6

-        pxor        xmm6,           xmm6

-        pxor        xmm5,           xmm5

-        punpcklwd   xmm6,           xmm7

-        punpckhwd   xmm5,           xmm7

-        psrad       xmm5,           16

-        psrad       xmm6,           16

-        paddd       xmm6,           xmm5

-        movdqa      xmm2,           xmm1

-        punpckldq   xmm1,           xmm0

-        punpckhdq   xmm2,           xmm0

-        movdqa      xmm7,           xmm6

-        paddd       xmm1,           xmm2

-        punpckldq   xmm6,           xmm0

-        punpckhdq   xmm7,           xmm0

-        paddd       xmm6,           xmm7

-        movdqa      xmm2,           xmm1

-        movdqa      xmm7,           xmm6

-        psrldq      xmm1,           8

-        psrldq      xmm6,           8

-        paddd       xmm7,           xmm6

-        paddd       xmm1,           xmm2

-        mov         rax,            arg(5) ;[Sum]

-        mov         rdi,            arg(4) ;[SSE]

-        movd DWORD PTR [rax],       xmm7

-        movd DWORD PTR [rdi],       xmm1

-    ; begin epilog

-    pop rdi

-    pop rsi

-    pop rbx

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;unsigned int vp8_get8x8var_sse2

-;(

-;    unsigned char   *  src_ptr,

-;    int             source_stride,

-;    unsigned char   *  ref_ptr,

-;    int             recon_stride,

-;    unsigned int    *  SSE,

-;    int             *  Sum

-;)

-global sym(vp8_get8x8var_sse2)

-sym(vp8_get8x8var_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    sub         rsp, 16

-    ; end prolog

-        mov         rsi,            arg(0) ;[src_ptr]

-        mov         rdi,            arg(2) ;[ref_ptr]

-        movsxd      rax,            DWORD PTR arg(1) ;[source_stride]

-        movsxd      rdx,            DWORD PTR arg(3) ;[recon_stride]

-        pxor        xmm0,           xmm0                        ; clear xmm0 for unpack

-        pxor        xmm7,           xmm7                        ; clear xmm7 for accumulating diffs

-        movq        xmm1,           QWORD PTR [rsi]

-        movq        xmm2,           QWORD PTR [rdi]

-        punpcklbw   xmm1,           xmm0

-        punpcklbw   xmm2,           xmm0

-        psubsw      xmm1,           xmm2

-        paddw       xmm7,           xmm1

-        pmaddwd     xmm1,           xmm1

-        movq        xmm2,           QWORD PTR[rsi + rax]

-        movq        xmm3,           QWORD PTR[rdi + rdx]

-        punpcklbw   xmm2,           xmm0

-        punpcklbw   xmm3,           xmm0

-        psubsw      xmm2,           xmm3

-        paddw       xmm7,           xmm2

-        pmaddwd     xmm2,           xmm2

-        paddd       xmm1,           xmm2

-        movq        xmm2,           QWORD PTR[rsi + rax * 2]

-        movq        xmm3,           QWORD PTR[rdi + rdx * 2]

-        punpcklbw   xmm2,           xmm0

-        punpcklbw   xmm3,           xmm0

-        psubsw      xmm2,           xmm3

-        paddw       xmm7,           xmm2

-        pmaddwd     xmm2,           xmm2

-        paddd       xmm1,           xmm2

-        lea         rsi,            [rsi + rax * 2]

-        lea         rdi,            [rdi + rdx * 2]

-        movq        xmm2,           QWORD PTR[rsi + rax]

-        movq        xmm3,           QWORD PTR[rdi + rdx]

-        punpcklbw   xmm2,           xmm0

-        punpcklbw   xmm3,           xmm0

-        psubsw      xmm2,           xmm3

-        paddw       xmm7,           xmm2

-        pmaddwd     xmm2,           xmm2

-        paddd       xmm1,           xmm2

-        movq        xmm2,           QWORD PTR[rsi + rax *2]

-        movq        xmm3,           QWORD PTR[rdi + rdx *2]

-        punpcklbw   xmm2,           xmm0

-        punpcklbw   xmm3,           xmm0

-        psubsw      xmm2,           xmm3

-        paddw       xmm7,           xmm2

-        pmaddwd     xmm2,           xmm2

-        paddd       xmm1,           xmm2

-        lea         rsi,            [rsi + rax * 2]

-        lea         rdi,            [rdi + rdx * 2]

-        movq        xmm2,           QWORD PTR[rsi + rax]

-        movq        xmm3,           QWORD PTR[rdi + rdx]

-        punpcklbw   xmm2,           xmm0

-        punpcklbw   xmm3,           xmm0

-        psubsw      xmm2,           xmm3

-        paddw       xmm7,           xmm2

-        pmaddwd     xmm2,           xmm2

-        paddd       xmm1,           xmm2

-        movq        xmm2,           QWORD PTR[rsi + rax *2]

-        movq        xmm3,           QWORD PTR[rdi + rdx *2]

-        punpcklbw   xmm2,           xmm0

-        punpcklbw   xmm3,           xmm0

-        psubsw      xmm2,           xmm3

-        paddw       xmm7,           xmm2

-        pmaddwd     xmm2,           xmm2

-        paddd       xmm1,           xmm2

-        lea         rsi,            [rsi + rax * 2]

-        lea         rdi,            [rdi + rdx * 2]

-        movq        xmm2,           QWORD PTR[rsi + rax]

-        movq        xmm3,           QWORD PTR[rdi + rdx]

-        punpcklbw   xmm2,           xmm0

-        punpcklbw   xmm3,           xmm0

-        psubsw      xmm2,           xmm3

-        paddw       xmm7,           xmm2

-        pmaddwd     xmm2,           xmm2

-        paddd       xmm1,           xmm2

-        movdqa      xmm6,           xmm7

-        punpcklwd   xmm6,           xmm0

-        punpckhwd   xmm7,           xmm0

-        movdqa      xmm2,           xmm1

-        paddw       xmm6,           xmm7

-        punpckldq   xmm1,           xmm0

-        punpckhdq   xmm2,           xmm0

-        movdqa      xmm7,           xmm6

-        paddd       xmm1,           xmm2

-        punpckldq   xmm6,           xmm0

-        punpckhdq   xmm7,           xmm0

-        paddw       xmm6,           xmm7

-        movdqa      xmm2,           xmm1

-        movdqa      xmm7,           xmm6

-        psrldq      xmm1,           8

-        psrldq      xmm6,           8

-        paddw       xmm7,           xmm6

-        paddd       xmm1,           xmm2

-        mov         rax,            arg(5) ;[Sum]

-        mov         rdi,            arg(4) ;[SSE]

-        movq        rdx,            xmm7

-        movsx       rcx,            dx

-        mov  dword ptr [rax],       ecx

-        movd DWORD PTR [rdi],       xmm1

-    ; begin epilog

-    add rsp, 16

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_filter_block2d_bil_var_sse2

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    int  xoffset,

-;    int  yoffset,

-;    int *sum,

-;    unsigned int *sumsquared;;

-;

-;)

-global sym(vp8_filter_block2d_bil_var_sse2)

-sym(vp8_filter_block2d_bil_var_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 9

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    push rbx

-    ; end prolog

-        pxor            xmm6,           xmm6                 ;

-        pxor            xmm7,           xmm7                 ;

-        lea             rsi,            [GLOBAL(xmm_bi_rd)]  ; rounding

-        movdqa          xmm4,           XMMWORD PTR [rsi]

-        lea             rcx,            [GLOBAL(vp8_bilinear_filters_sse2)]

-        movsxd          rax,            dword ptr arg(5)     ; xoffset

-        cmp             rax,            0                    ; skip first_pass filter if xoffset=0

-        je              filter_block2d_bil_var_sse2_sp_only

-        shl             rax,            5                    ; point to filter coeff with xoffset

-        lea             rax,            [rax + rcx]          ; HFilter

-        movsxd          rdx,            dword ptr arg(6)     ; yoffset

-        cmp             rdx,            0                    ; skip second_pass filter if yoffset=0

-        je              filter_block2d_bil_var_sse2_fp_only

-        shl             rdx,            5

-        lea             rdx,            [rdx + rcx]          ; VFilter

-        mov             rsi,            arg(0)               ;ref_ptr

-        mov             rdi,            arg(2)               ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)     ;Height

-        pxor            xmm0,           xmm0                 ;

-        movq            xmm1,           QWORD PTR [rsi]      ;

-        movq            xmm3,           QWORD PTR [rsi+1]    ;

-        punpcklbw       xmm1,           xmm0                 ;

-        pmullw          xmm1,           [rax]                ;

-        punpcklbw       xmm3,           xmm0

-        pmullw          xmm3,           [rax+16]             ;

-        paddw           xmm1,           xmm3                 ;

-        paddw           xmm1,           xmm4                 ;

-        psraw           xmm1,           xmm_filter_shift     ;

-        movdqa          xmm5,           xmm1

-        movsxd          rbx,            dword ptr arg(1) ;ref_pixels_per_line

-        lea             rsi,            [rsi + rbx]

-%if ABI_IS_32BIT=0

-        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

-%endif

-filter_block2d_bil_var_sse2_loop:

-        movq            xmm1,           QWORD PTR [rsi]               ;

-        movq            xmm3,           QWORD PTR [rsi+1]             ;

-        punpcklbw       xmm1,           xmm0                 ;

-        pmullw          xmm1,           [rax]               ;

-        punpcklbw       xmm3,           xmm0                 ;

-        pmullw          xmm3,           [rax+16]             ;

-        paddw           xmm1,           xmm3                 ;

-        paddw           xmm1,           xmm4               ;

-        psraw           xmm1,           xmm_filter_shift    ;

-        movdqa          xmm3,           xmm5                 ;

-        movdqa          xmm5,           xmm1                 ;

-        pmullw          xmm3,           [rdx]               ;

-        pmullw          xmm1,           [rdx+16]             ;

-        paddw           xmm1,           xmm3                 ;

-        paddw           xmm1,           xmm4                 ;

-        psraw           xmm1,           xmm_filter_shift    ;

-        movq            xmm3,           QWORD PTR [rdi]               ;

-        punpcklbw       xmm3,           xmm0                 ;

-        psubw           xmm1,           xmm3                 ;

-        paddw           xmm6,           xmm1                 ;

-        pmaddwd         xmm1,           xmm1                 ;

-        paddd           xmm7,           xmm1                 ;

-        lea             rsi,            [rsi + rbx]          ;ref_pixels_per_line

-%if ABI_IS_32BIT

-        add             rdi,            dword ptr arg(3)     ;src_pixels_per_line

-%else

-        lea             rdi,            [rdi + r9]

-%endif

-        sub             rcx,            1                   ;

-        jnz             filter_block2d_bil_var_sse2_loop       ;

-        jmp             filter_block2d_bil_variance

-filter_block2d_bil_var_sse2_sp_only:

-        movsxd          rdx,            dword ptr arg(6)     ; yoffset

-        cmp             rdx,            0                    ; skip all if both xoffset=0 and yoffset=0

-        je              filter_block2d_bil_var_sse2_full_pixel

-        shl             rdx,            5

-        lea             rdx,            [rdx + rcx]          ; VFilter

-        mov             rsi,            arg(0)               ;ref_ptr

-        mov             rdi,            arg(2)               ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)     ;Height

-        movsxd          rax,            dword ptr arg(1)     ;ref_pixels_per_line

-        pxor            xmm0,           xmm0                 ;

-        movq            xmm1,           QWORD PTR [rsi]      ;

-        punpcklbw       xmm1,           xmm0                 ;

-        movsxd          rbx,            dword ptr arg(3)     ;src_pixels_per_line

-        lea             rsi,            [rsi + rax]

-filter_block2d_bil_sp_only_loop:

-        movq            xmm3,           QWORD PTR [rsi]             ;

-        punpcklbw       xmm3,           xmm0                 ;

-        movdqa          xmm5,           xmm3

-        pmullw          xmm1,           [rdx]               ;

-        pmullw          xmm3,           [rdx+16]             ;

-        paddw           xmm1,           xmm3                 ;

-        paddw           xmm1,           xmm4                 ;

-        psraw           xmm1,           xmm_filter_shift    ;

-        movq            xmm3,           QWORD PTR [rdi]               ;

-        punpcklbw       xmm3,           xmm0                 ;

-        psubw           xmm1,           xmm3                 ;

-        paddw           xmm6,           xmm1                 ;

-        pmaddwd         xmm1,           xmm1                 ;

-        paddd           xmm7,           xmm1                 ;

-        movdqa          xmm1,           xmm5                 ;

-        lea             rsi,            [rsi + rax]          ;ref_pixels_per_line

-        lea             rdi,            [rdi + rbx]          ;src_pixels_per_line

-        sub             rcx,            1                   ;

-        jnz             filter_block2d_bil_sp_only_loop       ;

-        jmp             filter_block2d_bil_variance

-filter_block2d_bil_var_sse2_full_pixel:

-        mov             rsi,            arg(0)               ;ref_ptr

-        mov             rdi,            arg(2)               ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)     ;Height

-        movsxd          rax,            dword ptr arg(1)     ;ref_pixels_per_line

-        movsxd          rbx,            dword ptr arg(3)     ;src_pixels_per_line

-        pxor            xmm0,           xmm0                 ;

-filter_block2d_bil_full_pixel_loop:

-        movq            xmm1,           QWORD PTR [rsi]               ;

-        punpcklbw       xmm1,           xmm0                 ;

-        movq            xmm2,           QWORD PTR [rdi]               ;

-        punpcklbw       xmm2,           xmm0                 ;

-        psubw           xmm1,           xmm2                 ;

-        paddw           xmm6,           xmm1                 ;

-        pmaddwd         xmm1,           xmm1                 ;

-        paddd           xmm7,           xmm1                 ;

-        lea             rsi,            [rsi + rax]          ;ref_pixels_per_line

-        lea             rdi,            [rdi + rbx]          ;src_pixels_per_line

-        sub             rcx,            1                   ;

-        jnz             filter_block2d_bil_full_pixel_loop       ;

-        jmp             filter_block2d_bil_variance

-filter_block2d_bil_var_sse2_fp_only:

-        mov             rsi,            arg(0)               ;ref_ptr

-        mov             rdi,            arg(2)               ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)     ;Height

-        movsxd          rdx,            dword ptr arg(1)     ;ref_pixels_per_line

-        pxor            xmm0,           xmm0                 ;

-        movsxd          rbx,            dword ptr arg(3)     ;src_pixels_per_line

-filter_block2d_bil_fp_only_loop:

-        movq            xmm1,           QWORD PTR [rsi]       ;

-        movq            xmm3,           QWORD PTR [rsi+1]     ;

-        punpcklbw       xmm1,           xmm0                 ;

-        pmullw          xmm1,           [rax]               ;

-        punpcklbw       xmm3,           xmm0                 ;

-        pmullw          xmm3,           [rax+16]             ;

-        paddw           xmm1,           xmm3                 ;

-        paddw           xmm1,           xmm4  ;

-        psraw           xmm1,           xmm_filter_shift    ;

-        movq            xmm3,           QWORD PTR [rdi]     ;

-        punpcklbw       xmm3,           xmm0                 ;

-        psubw           xmm1,           xmm3                 ;

-        paddw           xmm6,           xmm1                 ;

-        pmaddwd         xmm1,           xmm1                 ;

-        paddd           xmm7,           xmm1                 ;

-        lea             rsi,            [rsi + rdx]

-        lea             rdi,            [rdi + rbx]          ;src_pixels_per_line

-        sub             rcx,            1                   ;

-        jnz             filter_block2d_bil_fp_only_loop       ;

-        jmp             filter_block2d_bil_variance

-filter_block2d_bil_variance:

-        movdq2q         mm6,            xmm6                ;

-        movdq2q         mm7,            xmm7                ;

-        psrldq          xmm6,           8

-        psrldq          xmm7,           8

-        movdq2q         mm2,            xmm6

-        movdq2q         mm3,            xmm7

-        paddw           mm6,            mm2

-        paddd           mm7,            mm3

-        pxor            mm3,            mm3                 ;

-        pxor            mm2,            mm2                 ;

-        punpcklwd       mm2,            mm6                 ;

-        punpckhwd       mm3,            mm6                 ;

-        paddd           mm2,            mm3                 ;

-        movq            mm6,            mm2                 ;

-        psrlq           mm6,            32                  ;

-        paddd           mm2,            mm6                 ;

-        psrad           mm2,            16                  ;

-        movq            mm4,            mm7                 ;

-        psrlq           mm4,            32                  ;

-        paddd           mm4,            mm7                 ;

-        mov             rsi,            arg(7) ; sum

-        mov             rdi,            arg(8) ; sumsquared

-        movd            [rsi],          mm2    ; xsum

-        movd            [rdi],          mm4    ; xxsum

-    ; begin epilog

-    pop rbx

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_half_horiz_vert_variance8x_h_sse2

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_half_horiz_vert_variance8x_h_sse2)

-sym(vp8_half_horiz_vert_variance8x_h_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 7

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    ; end prolog

-%if ABI_IS_32BIT=0

-    movsxd          r8, dword ptr arg(1) ;ref_pixels_per_line

-    movsxd          r9, dword ptr arg(3) ;src_pixels_per_line

-%endif

-        pxor            xmm6,           xmm6                ;  error accumulator

-        pxor            xmm7,           xmm7                ;  sse eaccumulator

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        movsxd          rcx,            dword ptr arg(4) ;Height              ;

-        movsxd          rax,            dword ptr arg(1) ;ref_pixels_per_line

-        pxor            xmm0,           xmm0                ;

-        movq            xmm5,           QWORD PTR [rsi]     ;  xmm5 = s0,s1,s2..s8

-        movq            xmm3,           QWORD PTR [rsi+1]   ;  xmm3 = s1,s2,s3..s9

-        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3) horizontal line 1

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;  next source

-%else

-        add             rsi, r8

-%endif

-vp8_half_horiz_vert_variance8x_h_1:

-        movq            xmm1,           QWORD PTR [rsi]     ;

-        movq            xmm2,           QWORD PTR [rsi+1]   ;

-        pavgb           xmm1,           xmm2                ;  xmm1 = avg(xmm1,xmm3) horizontal line i+1

-        pavgb           xmm5,           xmm1                ;  xmm = vertical average of the above

-        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

-        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d8

-        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

-        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

-        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

-        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

-        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

-        movdqa          xmm5,           xmm1                ;  save xmm1 for use on the next row

-%if ABI_IS_32BIT

-        add             esi,            dword ptr arg(1) ;ref_pixels_per_line    ;  next source

-        add             edi,            dword ptr arg(3) ;src_pixels_per_line    ;  next destination

-%else

-        add             rsi, r8

-        add             rdi, r9

-%endif

-        sub             rcx,            1                   ;

-        jnz             vp8_half_horiz_vert_variance8x_h_1     ;

-        movdq2q         mm6,            xmm6                ;

-        movdq2q         mm7,            xmm7                ;

-        psrldq          xmm6,           8

-        psrldq          xmm7,           8

-        movdq2q         mm2,            xmm6

-        movdq2q         mm3,            xmm7

-        paddw           mm6,            mm2

-        paddd           mm7,            mm3

-        pxor            mm3,            mm3                 ;

-        pxor            mm2,            mm2                 ;

-        punpcklwd       mm2,            mm6                 ;

-        punpckhwd       mm3,            mm6                 ;

-        paddd           mm2,            mm3                 ;

-        movq            mm6,            mm2                 ;

-        psrlq           mm6,            32                  ;

-        paddd           mm2,            mm6                 ;

-        psrad           mm2,            16                  ;

-        movq            mm4,            mm7                 ;

-        psrlq           mm4,            32                  ;

-        paddd           mm4,            mm7                 ;

-        mov             rsi,            arg(5) ; sum

-        mov             rdi,            arg(6) ; sumsquared

-        movd            [rsi],          mm2                 ;

-        movd            [rdi],          mm4                 ;

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_half_horiz_vert_variance16x_h_sse2

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_half_horiz_vert_variance16x_h_sse2)

-sym(vp8_half_horiz_vert_variance16x_h_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 7

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    ; end prolog

-        pxor            xmm6,           xmm6                ;  error accumulator

-        pxor            xmm7,           xmm7                ;  sse eaccumulator

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        movsxd          rcx,            dword ptr arg(4) ;Height              ;

-        movsxd          rax,            dword ptr arg(1) ;ref_pixels_per_line

-        movsxd          rdx,            dword ptr arg(3)    ;src_pixels_per_line

-        pxor            xmm0,           xmm0                ;

-        movdqu          xmm5,           XMMWORD PTR [rsi]

-        movdqu          xmm3,           XMMWORD PTR [rsi+1]

-        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3) horizontal line 1

-        lea             rsi,            [rsi + rax]

-vp8_half_horiz_vert_variance16x_h_1:

-        movdqu          xmm1,           XMMWORD PTR [rsi]     ;

-        movdqu          xmm2,           XMMWORD PTR [rsi+1]   ;

-        pavgb           xmm1,           xmm2                ;  xmm1 = avg(xmm1,xmm3) horizontal line i+1

-        pavgb           xmm5,           xmm1                ;  xmm = vertical average of the above

-        movdqa          xmm4,           xmm5

-        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

-        punpckhbw       xmm4,           xmm0

-        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d7

-        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

-        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

-        movq            xmm3,           QWORD PTR [rdi+8]

-        punpcklbw       xmm3,           xmm0

-        psubw           xmm4,           xmm3

-        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

-        paddw           xmm6,           xmm4

-        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

-        pmaddwd         xmm4,           xmm4

-        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

-        paddd           xmm7,           xmm4

-        movdqa          xmm5,           xmm1                ;  save xmm1 for use on the next row

-        lea             rsi,            [rsi + rax]

-        lea             rdi,            [rdi + rdx]

-        sub             rcx,            1                   ;

-        jnz             vp8_half_horiz_vert_variance16x_h_1     ;

-        pxor        xmm1,           xmm1

-        pxor        xmm5,           xmm5

-        punpcklwd   xmm0,           xmm6

-        punpckhwd   xmm1,           xmm6

-        psrad       xmm0,           16

-        psrad       xmm1,           16

-        paddd       xmm0,           xmm1

-        movdqa      xmm1,           xmm0

-        movdqa      xmm6,           xmm7

-        punpckldq   xmm6,           xmm5

-        punpckhdq   xmm7,           xmm5

-        paddd       xmm6,           xmm7

-        punpckldq   xmm0,           xmm5

-        punpckhdq   xmm1,           xmm5

-        paddd       xmm0,           xmm1

-        movdqa      xmm7,           xmm6

-        movdqa      xmm1,           xmm0

-        psrldq      xmm7,           8

-        psrldq      xmm1,           8

-        paddd       xmm6,           xmm7

-        paddd       xmm0,           xmm1

-        mov         rsi,            arg(5) ;[Sum]

-        mov         rdi,            arg(6) ;[SSE]

-        movd        [rsi],       xmm0

-        movd        [rdi],       xmm6

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_half_vert_variance8x_h_sse2

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_half_vert_variance8x_h_sse2)

-sym(vp8_half_vert_variance8x_h_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 7

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    ; end prolog

-%if ABI_IS_32BIT=0

-    movsxd          r8, dword ptr arg(1) ;ref_pixels_per_line

-    movsxd          r9, dword ptr arg(3) ;src_pixels_per_line

-%endif

-        pxor            xmm6,           xmm6                ;  error accumulator

-        pxor            xmm7,           xmm7                ;  sse eaccumulator

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        movsxd          rcx,            dword ptr arg(4) ;Height              ;

-        movsxd          rax,            dword ptr arg(1) ;ref_pixels_per_line

-        pxor            xmm0,           xmm0                ;

-vp8_half_vert_variance8x_h_1:

-        movq            xmm5,           QWORD PTR [rsi]     ;  xmm5 = s0,s1,s2..s8

-        movq            xmm3,           QWORD PTR [rsi+rax] ;  xmm3 = s1,s2,s3..s9

-        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3)

-        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

-        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d8

-        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

-        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

-        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

-        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

-        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

-%if ABI_IS_32BIT

-        add             esi,            dword ptr arg(1) ;ref_pixels_per_line    ;  next source

-        add             edi,            dword ptr arg(3) ;src_pixels_per_line    ;  next destination

-%else

-        add             rsi, r8

-        add             rdi, r9

-%endif

-        sub             rcx,            1                   ;

-        jnz             vp8_half_vert_variance8x_h_1          ;

-        movdq2q         mm6,            xmm6                ;

-        movdq2q         mm7,            xmm7                ;

-        psrldq          xmm6,           8

-        psrldq          xmm7,           8

-        movdq2q         mm2,            xmm6

-        movdq2q         mm3,            xmm7

-        paddw           mm6,            mm2

-        paddd           mm7,            mm3

-        pxor            mm3,            mm3                 ;

-        pxor            mm2,            mm2                 ;

-        punpcklwd       mm2,            mm6                 ;

-        punpckhwd       mm3,            mm6                 ;

-        paddd           mm2,            mm3                 ;

-        movq            mm6,            mm2                 ;

-        psrlq           mm6,            32                  ;

-        paddd           mm2,            mm6                 ;

-        psrad           mm2,            16                  ;

-        movq            mm4,            mm7                 ;

-        psrlq           mm4,            32                  ;

-        paddd           mm4,            mm7                 ;

-        mov             rsi,            arg(5) ; sum

-        mov             rdi,            arg(6) ; sumsquared

-        movd            [rsi],          mm2                 ;

-        movd            [rdi],          mm4                 ;

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_half_vert_variance16x_h_sse2

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_half_vert_variance16x_h_sse2)

-sym(vp8_half_vert_variance16x_h_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 7

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    ; end prolog

-        pxor            xmm6,           xmm6                ;  error accumulator

-        pxor            xmm7,           xmm7                ;  sse eaccumulator

-        mov             rsi,            arg(0)              ;ref_ptr

-        mov             rdi,            arg(2)              ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)    ;Height

-        movsxd          rax,            dword ptr arg(1)    ;ref_pixels_per_line

-        movsxd          rdx,            dword ptr arg(3)    ;src_pixels_per_line

-        movdqu          xmm5,           XMMWORD PTR [rsi]

-        lea             rsi,            [rsi + rax          ]

-        pxor            xmm0,           xmm0

-vp8_half_vert_variance16x_h_1:

-        movdqu          xmm3,           XMMWORD PTR [rsi]

-        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3)

-        movdqa          xmm4,           xmm5

-        punpcklbw       xmm5,           xmm0

-        punpckhbw       xmm4,           xmm0

-        movq            xmm2,           QWORD PTR [rdi]

-        punpcklbw       xmm2,           xmm0

-        psubw           xmm5,           xmm2

-        movq            xmm2,           QWORD PTR [rdi+8]

-        punpcklbw       xmm2,           xmm0

-        psubw           xmm4,           xmm2

-        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

-        paddw           xmm6,           xmm4

-        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

-        pmaddwd         xmm4,           xmm4

-        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

-        paddd           xmm7,           xmm4

-        movdqa          xmm5,           xmm3

-        lea             rsi,            [rsi + rax]

-        lea             rdi,            [rdi + rdx]

-        sub             rcx,            1

-        jnz             vp8_half_vert_variance16x_h_1

-        pxor        xmm1,           xmm1

-        pxor        xmm5,           xmm5

-        punpcklwd   xmm0,           xmm6

-        punpckhwd   xmm1,           xmm6

-        psrad       xmm0,           16

-        psrad       xmm1,           16

-        paddd       xmm0,           xmm1

-        movdqa      xmm1,           xmm0

-        movdqa      xmm6,           xmm7

-        punpckldq   xmm6,           xmm5

-        punpckhdq   xmm7,           xmm5

-        paddd       xmm6,           xmm7

-        punpckldq   xmm0,           xmm5

-        punpckhdq   xmm1,           xmm5

-        paddd       xmm0,           xmm1

-        movdqa      xmm7,           xmm6

-        movdqa      xmm1,           xmm0

-        psrldq      xmm7,           8

-        psrldq      xmm1,           8

-        paddd       xmm6,           xmm7

-        paddd       xmm0,           xmm1

-        mov         rsi,            arg(5) ;[Sum]

-        mov         rdi,            arg(6) ;[SSE]

-        movd        [rsi],       xmm0

-        movd        [rdi],       xmm6

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_half_horiz_variance8x_h_sse2

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_half_horiz_variance8x_h_sse2)

-sym(vp8_half_horiz_variance8x_h_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 7

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    ; end prolog

-%if ABI_IS_32BIT=0

-    movsxd          r8, dword ptr arg(1) ;ref_pixels_per_line

-    movsxd          r9, dword ptr arg(3) ;src_pixels_per_line

-%endif

-        pxor            xmm6,           xmm6                ;  error accumulator

-        pxor            xmm7,           xmm7                ;  sse eaccumulator

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        movsxd          rcx,            dword ptr arg(4) ;Height              ;

-        pxor            xmm0,           xmm0                ;

-vp8_half_horiz_variance8x_h_1:

-        movq            xmm5,           QWORD PTR [rsi]     ;  xmm5 = s0,s1,s2..s8

-        movq            xmm3,           QWORD PTR [rsi+1]   ;  xmm3 = s1,s2,s3..s9

-        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3)

-        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

-        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d8

-        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

-        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

-        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

-        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

-        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

-%if ABI_IS_32BIT

-        add             esi,            dword ptr arg(1) ;ref_pixels_per_line    ;  next source

-        add             edi,            dword ptr arg(3) ;src_pixels_per_line    ;  next destination

-%else

-        add             rsi, r8

-        add             rdi, r9

-%endif

-        sub             rcx,            1                   ;

-        jnz             vp8_half_horiz_variance8x_h_1        ;

-        movdq2q         mm6,            xmm6                ;

-        movdq2q         mm7,            xmm7                ;

-        psrldq          xmm6,           8

-        psrldq          xmm7,           8

-        movdq2q         mm2,            xmm6

-        movdq2q         mm3,            xmm7

-        paddw           mm6,            mm2

-        paddd           mm7,            mm3

-        pxor            mm3,            mm3                 ;

-        pxor            mm2,            mm2                 ;

-        punpcklwd       mm2,            mm6                 ;

-        punpckhwd       mm3,            mm6                 ;

-        paddd           mm2,            mm3                 ;

-        movq            mm6,            mm2                 ;

-        psrlq           mm6,            32                  ;

-        paddd           mm2,            mm6                 ;

-        psrad           mm2,            16                  ;

-        movq            mm4,            mm7                 ;

-        psrlq           mm4,            32                  ;

-        paddd           mm4,            mm7                 ;

-        mov             rsi,            arg(5) ; sum

-        mov             rdi,            arg(6) ; sumsquared

-        movd            [rsi],          mm2                 ;

-        movd            [rdi],          mm4                 ;

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_half_horiz_variance16x_h_sse2

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_half_horiz_variance16x_h_sse2)

-sym(vp8_half_horiz_variance16x_h_sse2):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 7

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    ; end prolog

-        pxor            xmm6,           xmm6                ;  error accumulator

-        pxor            xmm7,           xmm7                ;  sse eaccumulator

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        movsxd          rcx,            dword ptr arg(4) ;Height              ;

-        movsxd          rax,            dword ptr arg(1) ;ref_pixels_per_line

-        movsxd          rdx,            dword ptr arg(3)    ;src_pixels_per_line

-        pxor            xmm0,           xmm0                ;

-vp8_half_horiz_variance16x_h_1:

-        movdqu          xmm5,           XMMWORD PTR [rsi]     ;  xmm5 = s0,s1,s2..s15

-        movdqu          xmm3,           XMMWORD PTR [rsi+1]   ;  xmm3 = s1,s2,s3..s16

-        pavgb           xmm5,           xmm3                ;  xmm5 = avg(xmm1,xmm3)

-        movdqa          xmm1,           xmm5

-        punpcklbw       xmm5,           xmm0                ;  xmm5 = words of above

-        punpckhbw       xmm1,           xmm0

-        movq            xmm3,           QWORD PTR [rdi]     ;  xmm3 = d0,d1,d2..d7

-        punpcklbw       xmm3,           xmm0                ;  xmm3 = words of above

-        movq            xmm2,           QWORD PTR [rdi+8]

-        punpcklbw       xmm2,           xmm0

-        psubw           xmm5,           xmm3                ;  xmm5 -= xmm3

-        psubw           xmm1,           xmm2

-        paddw           xmm6,           xmm5                ;  xmm6 += accumulated column differences

-        paddw           xmm6,           xmm1

-        pmaddwd         xmm5,           xmm5                ;  xmm5 *= xmm5

-        pmaddwd         xmm1,           xmm1

-        paddd           xmm7,           xmm5                ;  xmm7 += accumulated square column differences

-        paddd           xmm7,           xmm1

-        lea             rsi,            [rsi + rax]

-        lea             rdi,            [rdi + rdx]

-        sub             rcx,            1                   ;

-        jnz             vp8_half_horiz_variance16x_h_1        ;

-        pxor        xmm1,           xmm1

-        pxor        xmm5,           xmm5

-        punpcklwd   xmm0,           xmm6

-        punpckhwd   xmm1,           xmm6

-        psrad       xmm0,           16

-        psrad       xmm1,           16

-        paddd       xmm0,           xmm1

-        movdqa      xmm1,           xmm0

-        movdqa      xmm6,           xmm7

-        punpckldq   xmm6,           xmm5

-        punpckhdq   xmm7,           xmm5

-        paddd       xmm6,           xmm7

-        punpckldq   xmm0,           xmm5

-        punpckhdq   xmm1,           xmm5

-        paddd       xmm0,           xmm1

-        movdqa      xmm7,           xmm6

-        movdqa      xmm1,           xmm0

-        psrldq      xmm7,           8

-        psrldq      xmm1,           8

-        paddd       xmm6,           xmm7

-        paddd       xmm0,           xmm1

-        mov         rsi,            arg(5) ;[Sum]

-        mov         rdi,            arg(6) ;[SSE]

-        movd        [rsi],       xmm0

-        movd        [rdi],       xmm6

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-SECTION_RODATA

-;    short xmm_bi_rd[8] = { 64, 64, 64, 64,64, 64, 64, 64};

-align 16

-xmm_bi_rd:

-    times 8 dw 64

-align 16

-vp8_bilinear_filters_sse2:

-    dw 128, 128, 128, 128, 128, 128, 128, 128,  0,  0,  0,  0,  0,  0,  0,  0

-    dw 112, 112, 112, 112, 112, 112, 112, 112, 16, 16, 16, 16, 16, 16, 16, 16

-    dw 96, 96, 96, 96, 96, 96, 96, 96, 32, 32, 32, 32, 32, 32, 32, 32

-    dw 80, 80, 80, 80, 80, 80, 80, 80, 48, 48, 48, 48, 48, 48, 48, 48

-    dw 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64

-    dw 48, 48, 48, 48, 48, 48, 48, 48, 80, 80, 80, 80, 80, 80, 80, 80

-    dw 32, 32, 32, 32, 32, 32, 32, 32, 96, 96, 96, 96, 96, 96, 96, 96

-    dw 16, 16, 16, 16, 16, 16, 16, 16, 112, 112, 112, 112, 112, 112, 112, 112

--- a/vp8/encoder/x86/variance_impl_ssse3.asm

+++ /dev/null

@@ -1,364 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-%define xmm_filter_shift            7

-;void vp8_filter_block2d_bil_var_ssse3

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    int  xoffset,

-;    int  yoffset,

-;    int *sum,

-;    unsigned int *sumsquared;;

-;

-;)

-;Note: The filter coefficient at offset=0 is 128. Since the second register

-;for Pmaddubsw is signed bytes, we must calculate zero offset seperately.

-global sym(vp8_filter_block2d_bil_var_ssse3)

-sym(vp8_filter_block2d_bil_var_ssse3):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 9

-    SAVE_XMM 7

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    ; end prolog

-        pxor            xmm6,           xmm6

-        pxor            xmm7,           xmm7

-        lea             rcx,            [GLOBAL(vp8_bilinear_filters_ssse3)]

-        movsxd          rax,            dword ptr arg(5)     ; xoffset

-        cmp             rax,            0                    ; skip first_pass filter if xoffset=0

-        je              .filter_block2d_bil_var_ssse3_sp_only

-        shl             rax,            4                    ; point to filter coeff with xoffset

-        lea             rax,            [rax + rcx]          ; HFilter

-        movsxd          rdx,            dword ptr arg(6)     ; yoffset

-        cmp             rdx,            0                    ; skip second_pass filter if yoffset=0

-        je              .filter_block2d_bil_var_ssse3_fp_only

-        shl             rdx,            4

-        lea             rdx,            [rdx + rcx]          ; VFilter

-        mov             rsi,            arg(0)               ;ref_ptr

-        mov             rdi,            arg(2)               ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)     ;Height

-        movdqu          xmm0,           XMMWORD PTR [rsi]

-        movdqu          xmm1,           XMMWORD PTR [rsi+1]

-        movdqa          xmm2,           xmm0

-        punpcklbw       xmm0,           xmm1

-        punpckhbw       xmm2,           xmm1

-        pmaddubsw       xmm0,           [rax]

-        pmaddubsw       xmm2,           [rax]

-        paddw           xmm0,           [GLOBAL(xmm_bi_rd)]

-        paddw           xmm2,           [GLOBAL(xmm_bi_rd)]

-        psraw           xmm0,           xmm_filter_shift

-        psraw           xmm2,           xmm_filter_shift

-        packuswb        xmm0,           xmm2

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line

-%else

-        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

-        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

-        lea             rsi,            [rsi + r8]

-%endif

-.filter_block2d_bil_var_ssse3_loop:

-        movdqu          xmm1,           XMMWORD PTR [rsi]

-        movdqu          xmm2,           XMMWORD PTR [rsi+1]

-        movdqa          xmm3,           xmm1

-        punpcklbw       xmm1,           xmm2

-        punpckhbw       xmm3,           xmm2

-        pmaddubsw       xmm1,           [rax]

-        pmaddubsw       xmm3,           [rax]

-        paddw           xmm1,           [GLOBAL(xmm_bi_rd)]

-        paddw           xmm3,           [GLOBAL(xmm_bi_rd)]

-        psraw           xmm1,           xmm_filter_shift

-        psraw           xmm3,           xmm_filter_shift

-        packuswb        xmm1,           xmm3

-        movdqa          xmm2,           xmm0

-        movdqa          xmm0,           xmm1

-        movdqa          xmm3,           xmm2

-        punpcklbw       xmm2,           xmm1

-        punpckhbw       xmm3,           xmm1

-        pmaddubsw       xmm2,           [rdx]

-        pmaddubsw       xmm3,           [rdx]

-        paddw           xmm2,           [GLOBAL(xmm_bi_rd)]

-        paddw           xmm3,           [GLOBAL(xmm_bi_rd)]

-        psraw           xmm2,           xmm_filter_shift

-        psraw           xmm3,           xmm_filter_shift

-        movq            xmm1,           QWORD PTR [rdi]

-        pxor            xmm4,           xmm4

-        punpcklbw       xmm1,           xmm4

-        movq            xmm5,           QWORD PTR [rdi+8]

-        punpcklbw       xmm5,           xmm4

-        psubw           xmm2,           xmm1

-        psubw           xmm3,           xmm5

-        paddw           xmm6,           xmm2

-        paddw           xmm6,           xmm3

-        pmaddwd         xmm2,           xmm2

-        pmaddwd         xmm3,           xmm3

-        paddd           xmm7,           xmm2

-        paddd           xmm7,           xmm3

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1)     ;ref_pixels_per_line

-        add             rdi,            dword ptr arg(3)     ;src_pixels_per_line

-%else

-        lea             rsi,            [rsi + r8]

-        lea             rdi,            [rdi + r9]

-%endif

-        sub             rcx,            1

-        jnz             .filter_block2d_bil_var_ssse3_loop

-        jmp             .filter_block2d_bil_variance

-.filter_block2d_bil_var_ssse3_sp_only:

-        movsxd          rdx,            dword ptr arg(6)     ; yoffset

-        cmp             rdx,            0                    ; Both xoffset =0 and yoffset=0

-        je              .filter_block2d_bil_var_ssse3_full_pixel

-        shl             rdx,            4

-        lea             rdx,            [rdx + rcx]          ; VFilter

-        mov             rsi,            arg(0)               ;ref_ptr

-        mov             rdi,            arg(2)               ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)     ;Height

-        movsxd          rax,            dword ptr arg(1)     ;ref_pixels_per_line

-        movdqu          xmm1,           XMMWORD PTR [rsi]

-        movdqa          xmm0,           xmm1

-%if ABI_IS_32BIT=0

-        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

-%endif

-        lea             rsi,            [rsi + rax]

-.filter_block2d_bil_sp_only_loop:

-        movdqu          xmm3,           XMMWORD PTR [rsi]

-        movdqa          xmm2,           xmm1

-        movdqa          xmm0,           xmm3

-        punpcklbw       xmm1,           xmm3

-        punpckhbw       xmm2,           xmm3

-        pmaddubsw       xmm1,           [rdx]

-        pmaddubsw       xmm2,           [rdx]

-        paddw           xmm1,           [GLOBAL(xmm_bi_rd)]

-        paddw           xmm2,           [GLOBAL(xmm_bi_rd)]

-        psraw           xmm1,           xmm_filter_shift

-        psraw           xmm2,           xmm_filter_shift

-        movq            xmm3,           QWORD PTR [rdi]

-        pxor            xmm4,           xmm4

-        punpcklbw       xmm3,           xmm4

-        movq            xmm5,           QWORD PTR [rdi+8]

-        punpcklbw       xmm5,           xmm4

-        psubw           xmm1,           xmm3

-        psubw           xmm2,           xmm5

-        paddw           xmm6,           xmm1

-        paddw           xmm6,           xmm2

-        pmaddwd         xmm1,           xmm1

-        pmaddwd         xmm2,           xmm2

-        paddd           xmm7,           xmm1

-        paddd           xmm7,           xmm2

-        movdqa          xmm1,           xmm0

-        lea             rsi,            [rsi + rax]          ;ref_pixels_per_line

-%if ABI_IS_32BIT

-        add             rdi,            dword ptr arg(3)     ;src_pixels_per_line

-%else

-        lea             rdi,            [rdi + r9]

-%endif

-        sub             rcx,            1

-        jnz             .filter_block2d_bil_sp_only_loop

-        jmp             .filter_block2d_bil_variance

-.filter_block2d_bil_var_ssse3_full_pixel:

-        mov             rsi,            arg(0)               ;ref_ptr

-        mov             rdi,            arg(2)               ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)     ;Height

-        movsxd          rax,            dword ptr arg(1)     ;ref_pixels_per_line

-        movsxd          rdx,            dword ptr arg(3)     ;src_pixels_per_line

-        pxor            xmm0,           xmm0

-.filter_block2d_bil_full_pixel_loop:

-        movq            xmm1,           QWORD PTR [rsi]

-        punpcklbw       xmm1,           xmm0

-        movq            xmm2,           QWORD PTR [rsi+8]

-        punpcklbw       xmm2,           xmm0

-        movq            xmm3,           QWORD PTR [rdi]

-        punpcklbw       xmm3,           xmm0

-        movq            xmm4,           QWORD PTR [rdi+8]

-        punpcklbw       xmm4,           xmm0

-        psubw           xmm1,           xmm3

-        psubw           xmm2,           xmm4

-        paddw           xmm6,           xmm1

-        paddw           xmm6,           xmm2

-        pmaddwd         xmm1,           xmm1

-        pmaddwd         xmm2,           xmm2

-        paddd           xmm7,           xmm1

-        paddd           xmm7,           xmm2

-        lea             rsi,            [rsi + rax]          ;ref_pixels_per_line

-        lea             rdi,            [rdi + rdx]          ;src_pixels_per_line

-        sub             rcx,            1

-        jnz             .filter_block2d_bil_full_pixel_loop

-        jmp             .filter_block2d_bil_variance

-.filter_block2d_bil_var_ssse3_fp_only:

-        mov             rsi,            arg(0)               ;ref_ptr

-        mov             rdi,            arg(2)               ;src_ptr

-        movsxd          rcx,            dword ptr arg(4)     ;Height

-        movsxd          rdx,            dword ptr arg(1)     ;ref_pixels_per_line

-        pxor            xmm0,           xmm0

-%if ABI_IS_32BIT=0

-        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

-%endif

-.filter_block2d_bil_fp_only_loop:

-        movdqu          xmm1,           XMMWORD PTR [rsi]

-        movdqu          xmm2,           XMMWORD PTR [rsi+1]

-        movdqa          xmm3,           xmm1

-        punpcklbw       xmm1,           xmm2

-        punpckhbw       xmm3,           xmm2

-        pmaddubsw       xmm1,           [rax]

-        pmaddubsw       xmm3,           [rax]

-        paddw           xmm1,           [GLOBAL(xmm_bi_rd)]

-        paddw           xmm3,           [GLOBAL(xmm_bi_rd)]

-        psraw           xmm1,           xmm_filter_shift

-        psraw           xmm3,           xmm_filter_shift

-        movq            xmm2,           XMMWORD PTR [rdi]

-        pxor            xmm4,           xmm4

-        punpcklbw       xmm2,           xmm4

-        movq            xmm5,           QWORD PTR [rdi+8]

-        punpcklbw       xmm5,           xmm4

-        psubw           xmm1,           xmm2

-        psubw           xmm3,           xmm5

-        paddw           xmm6,           xmm1

-        paddw           xmm6,           xmm3

-        pmaddwd         xmm1,           xmm1

-        pmaddwd         xmm3,           xmm3

-        paddd           xmm7,           xmm1

-        paddd           xmm7,           xmm3

-        lea             rsi,            [rsi + rdx]

-%if ABI_IS_32BIT

-        add             rdi,            dword ptr arg(3)     ;src_pixels_per_line

-%else

-        lea             rdi,            [rdi + r9]

-%endif

-        sub             rcx,            1

-        jnz             .filter_block2d_bil_fp_only_loop

-        jmp             .filter_block2d_bil_variance

-.filter_block2d_bil_variance:

-        pxor        xmm0,           xmm0

-        pxor        xmm1,           xmm1

-        pxor        xmm5,           xmm5

-        punpcklwd   xmm0,           xmm6

-        punpckhwd   xmm1,           xmm6

-        psrad       xmm0,           16

-        psrad       xmm1,           16

-        paddd       xmm0,           xmm1

-        movdqa      xmm1,           xmm0

-        movdqa      xmm6,           xmm7

-        punpckldq   xmm6,           xmm5

-        punpckhdq   xmm7,           xmm5

-        paddd       xmm6,           xmm7

-        punpckldq   xmm0,           xmm5

-        punpckhdq   xmm1,           xmm5

-        paddd       xmm0,           xmm1

-        movdqa      xmm7,           xmm6

-        movdqa      xmm1,           xmm0

-        psrldq      xmm7,           8

-        psrldq      xmm1,           8

-        paddd       xmm6,           xmm7

-        paddd       xmm0,           xmm1

-        mov         rsi,            arg(7) ;[Sum]

-        mov         rdi,            arg(8) ;[SSE]

-        movd        [rsi],       xmm0

-        movd        [rdi],       xmm6

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    RESTORE_XMM

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-SECTION_RODATA

-align 16

-xmm_bi_rd:

-    times 8 dw 64

-align 16

-vp8_bilinear_filters_ssse3:

-    times 8 db 128, 0

-    times 8 db 112, 16

-    times 8 db 96,  32

-    times 8 db 80,  48

-    times 8 db 64,  64

-    times 8 db 48,  80

-    times 8 db 32,  96

-    times 8 db 16,  112

--- a/vp8/encoder/x86/variance_mmx.c

+++ /dev/null

@@ -1,398 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "vpx_config.h"

-#include "vp8/encoder/variance.h"

-#include "vp8/common/pragmas.h"

-#include "vpx_ports/mem.h"

-#include "vp8/common/x86/filter_x86.h"

-extern void filter_block1d_h6_mmx

-(

-    const unsigned char *src_ptr,

-    unsigned short *output_ptr,

-    unsigned int src_pixels_per_line,

-    unsigned int pixel_step,

-    unsigned int output_height,

-    unsigned int output_width,

-    short *filter

-);

-extern void filter_block1d_v6_mmx

-(

-    const short *src_ptr,

-    unsigned char *output_ptr,

-    unsigned int pixels_per_line,

-    unsigned int pixel_step,

-    unsigned int output_height,

-    unsigned int output_width,

-    short *filter

-);

-extern unsigned int vp8_get_mb_ss_mmx(const short *src_ptr);

-extern unsigned int vp8_get8x8var_mmx

-(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *SSE,

-    int *Sum

-);

-extern unsigned int vp8_get4x4var_mmx

-(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *SSE,

-    int *Sum

-);

-extern void vp8_filter_block2d_bil4x4_var_mmx

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    const short *HFilter,

-    const short *VFilter,

-    int *sum,

-    unsigned int *sumsquared

-);

-extern void vp8_filter_block2d_bil_var_mmx

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    const short *HFilter,

-    const short *VFilter,

-    int *sum,

-    unsigned int *sumsquared

-);

-unsigned int vp8_variance4x4_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    vp8_get4x4var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &var, &avg) ;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 4));

-}

-unsigned int vp8_variance8x8_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &var, &avg) ;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 6));

-}

-unsigned int vp8_mse16x16_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int sse0, sse1, sse2, sse3, var;

-    int sum0, sum1, sum2, sum3;

-    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

-    vp8_get8x8var_mmx(src_ptr + 8, source_stride, ref_ptr + 8, recon_stride, &sse1, &sum1);

-    vp8_get8x8var_mmx(src_ptr + 8 * source_stride, source_stride, ref_ptr + 8 * recon_stride, recon_stride, &sse2, &sum2) ;

-    vp8_get8x8var_mmx(src_ptr + 8 * source_stride + 8, source_stride, ref_ptr + 8 * recon_stride + 8, recon_stride, &sse3, &sum3);

-    var = sse0 + sse1 + sse2 + sse3;

-    *sse = var;

-    return var;

-}

-unsigned int vp8_variance16x16_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int sse0, sse1, sse2, sse3, var;

-    int sum0, sum1, sum2, sum3, avg;

-    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

-    vp8_get8x8var_mmx(src_ptr + 8, source_stride, ref_ptr + 8, recon_stride, &sse1, &sum1);

-    vp8_get8x8var_mmx(src_ptr + 8 * source_stride, source_stride, ref_ptr + 8 * recon_stride, recon_stride, &sse2, &sum2) ;

-    vp8_get8x8var_mmx(src_ptr + 8 * source_stride + 8, source_stride, ref_ptr + 8 * recon_stride + 8, recon_stride, &sse3, &sum3);

-    var = sse0 + sse1 + sse2 + sse3;

-    avg = sum0 + sum1 + sum2 + sum3;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 8));

-}

-unsigned int vp8_variance16x8_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int sse0, sse1, var;

-    int sum0, sum1, avg;

-    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

-    vp8_get8x8var_mmx(src_ptr + 8, source_stride, ref_ptr + 8, recon_stride, &sse1, &sum1);

-    var = sse0 + sse1;

-    avg = sum0 + sum1;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 7));

-}

-unsigned int vp8_variance8x16_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int sse0, sse1, var;

-    int sum0, sum1, avg;

-    vp8_get8x8var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

-    vp8_get8x8var_mmx(src_ptr + 8 * source_stride, source_stride, ref_ptr + 8 * recon_stride, recon_stride, &sse1, &sum1) ;

-    var = sse0 + sse1;

-    avg = sum0 + sum1;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 7));

-}

-unsigned int vp8_sub_pixel_variance4x4_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse)

-{

-    int xsum;

-    unsigned int xxsum;

-    vp8_filter_block2d_bil4x4_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum, &xxsum

-    );

-    *sse = xxsum;

-    return (xxsum - ((unsigned int)(xsum * xsum) >> 4));

-}

-unsigned int vp8_sub_pixel_variance8x8_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 8,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum, &xxsum

-    );

-    *sse = xxsum;

-    return (xxsum - ((unsigned int)(xsum * xsum) >> 6));

-}

-unsigned int vp8_sub_pixel_variance16x16_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0, xsum1;

-    unsigned int xxsum0, xxsum1;

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum0, &xxsum0

-    );

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr + 8, src_pixels_per_line,

-        dst_ptr + 8, dst_pixels_per_line, 16,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum1, &xxsum1

-    );

-    xsum0 += xsum1;

-    xxsum0 += xxsum1;

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_sub_pixel_mse16x16_mmx(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    vp8_sub_pixel_variance16x16_mmx(src_ptr, src_pixels_per_line, xoffset, yoffset, dst_ptr, dst_pixels_per_line, sse);

-    return *sse;

-}

-unsigned int vp8_sub_pixel_variance16x8_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0, xsum1;

-    unsigned int xxsum0, xxsum1;

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 8,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum0, &xxsum0

-    );

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr + 8, src_pixels_per_line,

-        dst_ptr + 8, dst_pixels_per_line, 8,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum1, &xxsum1

-    );

-    xsum0 += xsum1;

-    xxsum0 += xxsum1;

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 7));

-}

-unsigned int vp8_sub_pixel_variance8x16_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum, &xxsum

-    );

-    *sse = xxsum;

-    return (xxsum - ((unsigned int)(xsum * xsum) >> 7));

-}

-unsigned int vp8_variance_halfpixvar16x16_h_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 4, 0,

-                                           ref_ptr, recon_stride, sse);

-}

-unsigned int vp8_variance_halfpixvar16x16_v_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 0, 4,

-                                           ref_ptr, recon_stride, sse);

-}

-unsigned int vp8_variance_halfpixvar16x16_hv_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 4, 4,

-                                           ref_ptr, recon_stride, sse);

-}

--- a/vp8/encoder/x86/variance_sse2.c

+++ /dev/null

@@ -1,557 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "vpx_config.h"

-#include "vp8/encoder/variance.h"

-#include "vp8/common/pragmas.h"

-#include "vpx_ports/mem.h"

-#include "vp8/common/x86/filter_x86.h"

-extern void filter_block1d_h6_mmx(const unsigned char *src_ptr, unsigned short *output_ptr, unsigned int src_pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

-extern void filter_block1d_v6_mmx(const short *src_ptr, unsigned char *output_ptr, unsigned int pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

-extern void filter_block1d8_h6_sse2(const unsigned char *src_ptr, unsigned short *output_ptr, unsigned int src_pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

-extern void filter_block1d8_v6_sse2(const short *src_ptr, unsigned char *output_ptr, unsigned int pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

-extern void vp8_filter_block2d_bil4x4_var_mmx

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    const short *HFilter,

-    const short *VFilter,

-    int *sum,

-    unsigned int *sumsquared

-);

-extern unsigned int vp8_get4x4var_mmx

-(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *SSE,

-    int *Sum

-);

-unsigned int vp8_get_mb_ss_sse2

-(

-    const short *src_ptr

-);

-unsigned int vp8_get16x16var_sse2

-(

-    const unsigned char *src_ptr,

-    int source_stride,

-    const unsigned char *ref_ptr,

-    int recon_stride,

-    unsigned int *SSE,

-    int *Sum

-);

-unsigned int vp8_get8x8var_sse2

-(

-    const unsigned char *src_ptr,

-    int source_stride,

-    const unsigned char *ref_ptr,

-    int recon_stride,

-    unsigned int *SSE,

-    int *Sum

-);

-void vp8_filter_block2d_bil_var_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int  xoffset,

-    int  yoffset,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_horiz_vert_variance8x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_horiz_vert_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_horiz_variance8x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_horiz_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_vert_variance8x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_vert_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-unsigned int vp8_variance4x4_wmt(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    vp8_get4x4var_mmx(src_ptr, source_stride, ref_ptr, recon_stride, &var, &avg) ;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 4));

-}

-unsigned int vp8_variance8x8_wmt

-(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int var;

-    int avg;

-    vp8_get8x8var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &var, &avg) ;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 6));

-}

-unsigned int vp8_variance16x16_wmt

-(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int sse0;

-    int sum0;

-    vp8_get16x16var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

-    *sse = sse0;

-    return (sse0 - ((unsigned int)(sum0 * sum0) >> 8));

-}

-unsigned int vp8_mse16x16_wmt(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int sse0;

-    int sum0;

-    vp8_get16x16var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

-    *sse = sse0;

-    return sse0;

-}

-unsigned int vp8_variance16x8_wmt

-(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int sse0, sse1, var;

-    int sum0, sum1, avg;

-    vp8_get8x8var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

-    vp8_get8x8var_sse2(src_ptr + 8, source_stride, ref_ptr + 8, recon_stride, &sse1, &sum1);

-    var = sse0 + sse1;

-    avg = sum0 + sum1;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 7));

-}

-unsigned int vp8_variance8x16_wmt

-(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    unsigned int sse0, sse1, var;

-    int sum0, sum1, avg;

-    vp8_get8x8var_sse2(src_ptr, source_stride, ref_ptr, recon_stride, &sse0, &sum0) ;

-    vp8_get8x8var_sse2(src_ptr + 8 * source_stride, source_stride, ref_ptr + 8 * recon_stride, recon_stride, &sse1, &sum1) ;

-    var = sse0 + sse1;

-    avg = sum0 + sum1;

-    *sse = var;

-    return (var - ((unsigned int)(avg * avg) >> 7));

-}

-unsigned int vp8_sub_pixel_variance4x4_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    vp8_filter_block2d_bil4x4_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum, &xxsum

-    );

-    *sse = xxsum;

-    return (xxsum - ((unsigned int)(xsum * xsum) >> 4));

-}

-unsigned int vp8_sub_pixel_variance8x8_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum, &xxsum);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum, &xxsum);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum, &xxsum);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            xoffset, yoffset,

-            &xsum, &xxsum);

-    }

-    *sse = xxsum;

-    return (xxsum - ((unsigned int)(xsum * xsum) >> 6));

-}

-unsigned int vp8_sub_pixel_variance16x16_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0, xsum1;

-    unsigned int xxsum0, xxsum1;

-    // note we could avoid these if statements if the calling function

-    // just called the appropriate functions inside.

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            xoffset, yoffset,

-            &xsum0, &xxsum0

-        );

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr + 8, src_pixels_per_line,

-            dst_ptr + 8, dst_pixels_per_line, 16,

-            xoffset, yoffset,

-            &xsum1, &xxsum1

-        );

-        xsum0 += xsum1;

-        xxsum0 += xxsum1;

-    }

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_sub_pixel_mse16x16_wmt(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    vp8_sub_pixel_variance16x16_wmt(src_ptr, src_pixels_per_line, xoffset, yoffset, dst_ptr, dst_pixels_per_line, sse);

-    return *sse;

-}

-unsigned int vp8_sub_pixel_variance16x8_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0, xsum1;

-    unsigned int xxsum0, xxsum1;

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            xoffset, yoffset,

-            &xsum0, &xxsum0);

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr + 8, src_pixels_per_line,

-            dst_ptr + 8, dst_pixels_per_line, 8,

-            xoffset, yoffset,

-            &xsum1, &xxsum1);

-        xsum0 += xsum1;

-        xxsum0 += xxsum1;

-    }

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 7));

-}

-unsigned int vp8_sub_pixel_variance8x16_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum, &xxsum);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum, &xxsum);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum, &xxsum);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            xoffset, yoffset,

-            &xsum, &xxsum);

-    }

-    *sse = xxsum;

-    return (xxsum - ((unsigned int)(xsum * xsum) >> 7));

-}

-unsigned int vp8_variance_halfpixvar16x16_h_wmt(

-    const unsigned char *src_ptr,

-    int  src_pixels_per_line,

-    const unsigned char *dst_ptr,

-    int  dst_pixels_per_line,

-    unsigned int *sse)

-{

-    int xsum0;

-    unsigned int xxsum0;

-    vp8_half_horiz_variance16x_h_sse2(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        &xsum0, &xxsum0);

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_variance_halfpixvar16x16_v_wmt(

-    const unsigned char *src_ptr,

-    int  src_pixels_per_line,

-    const unsigned char *dst_ptr,

-    int  dst_pixels_per_line,

-    unsigned int *sse)

-{

-    int xsum0;

-    unsigned int xxsum0;

-    vp8_half_vert_variance16x_h_sse2(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        &xsum0, &xxsum0);

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_variance_halfpixvar16x16_hv_wmt(

-    const unsigned char *src_ptr,

-    int  src_pixels_per_line,

-    const unsigned char *dst_ptr,

-    int  dst_pixels_per_line,

-    unsigned int *sse)

-{

-    int xsum0;

-    unsigned int xxsum0;

-    vp8_half_horiz_vert_variance16x_h_sse2(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        &xsum0, &xxsum0);

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

-}

--- a/vp8/encoder/x86/variance_ssse3.c

+++ /dev/null

@@ -1,165 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "vpx_config.h"

-#include "vp8/encoder/variance.h"

-#include "vp8/common/pragmas.h"

-#include "vpx_ports/mem.h"

-extern unsigned int vp8_get16x16var_sse2

-(

-    const unsigned char *src_ptr,

-    int source_stride,

-    const unsigned char *ref_ptr,

-    int recon_stride,

-    unsigned int *SSE,

-    int *Sum

-);

-extern void vp8_half_horiz_vert_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-extern void vp8_half_horiz_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-extern void vp8_half_vert_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-extern void vp8_filter_block2d_bil_var_ssse3

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int  xoffset,

-    int  yoffset,

-    int *sum,

-    unsigned int *sumsquared

-);

-unsigned int vp8_sub_pixel_variance16x16_ssse3

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0;

-    unsigned int xxsum0;

-    // note we could avoid these if statements if the calling function

-    // just called the appropriate functions inside.

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_ssse3(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            xoffset, yoffset,

-            &xsum0, &xxsum0);

-    }

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_sub_pixel_variance16x8_ssse3

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0;

-    unsigned int xxsum0;

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_ssse3(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            xoffset, yoffset,

-            &xsum0, &xxsum0);

-    }

-    *sse = xxsum0;

-    return (xxsum0 - ((unsigned int)(xsum0 * xsum0) >> 7));

-}

--- a/vp8/vp8_common.mk

+++ b/vp8/vp8_common.mk

@@ -64,8 +64,11 @@

 VP8_COMMON_SRCS-yes += common/reconinter.c

 VP8_COMMON_SRCS-yes += common/reconintra.c

 VP8_COMMON_SRCS-yes += common/reconintra4x4.c

+VP8_COMMON_SRCS-yes += common/sad_c.c

 VP8_COMMON_SRCS-yes += common/setupintrarecon.c

 VP8_COMMON_SRCS-yes += common/swapyv12buffer.c

+VP8_COMMON_SRCS-yes += common/variance_c.c

+VP8_COMMON_SRCS-yes += common/variance.h

@@ -83,22 +86,35 @@

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/idctllm_mmx.asm

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/idctllm_mmx_test.cc

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/iwalsh_mmx.asm

+VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/loopfilter_mmx.asm

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/recon_mmx.asm

+VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/sad_mmx.asm

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/subpixel_mmx.asm

-VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/loopfilter_mmx.asm

+VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/variance_mmx.c

+VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/variance_impl_mmx.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/idct_blk_sse2.c

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/idctllm_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/recon_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/recon_wrapper_sse2.c

+VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/sad_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/subpixel_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/loopfilter_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/iwalsh_sse2.asm

+VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/variance_sse2.c

+VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/variance_impl_sse2.asm

+VP8_COMMON_SRCS-$(HAVE_SSE3) += common/x86/sad_sse3.asm

+VP8_COMMON_SRCS-$(HAVE_SSSE3) += common/x86/sad_ssse3.asm

 VP8_COMMON_SRCS-$(HAVE_SSSE3) += common/x86/subpixel_ssse3.asm

+VP8_COMMON_SRCS-$(HAVE_SSSE3) += common/x86/variance_ssse3.c

+VP8_COMMON_SRCS-$(HAVE_SSSE3) += common/x86/variance_impl_ssse3.asm

+VP8_COMMON_SRCS-$(HAVE_SSE4_1) += common/x86/sad_sse4.asm

 ifeq ($(CONFIG_POSTPROC),yes)

 VP8_COMMON_SRCS-$(ARCH_X86)$(ARCH_X86_64) += common/x86/postproc_x86.c

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/postproc_mmx.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/postproc_sse2.asm

 endif

 ifeq ($(ARCH_X86_64),yes)

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/loopfilter_block_sse2.asm

 endif

@@ -108,6 +124,7 @@

 VP8_COMMON_SRCS-$(ARCH_ARM)  += common/arm/loopfilter_arm.c

 VP8_COMMON_SRCS-$(ARCH_ARM)  += common/arm/reconintra_arm.c

 VP8_COMMON_SRCS-$(ARCH_ARM)  += common/arm/dequantize_arm.c

+VP8_COMMON_SRCS-$(ARCH_ARM)  += common/arm/variance_arm.c

 # common (media)

 VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/bilinearfilter_arm.c

@@ -127,6 +144,12 @@

 VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/dequant_idct_v6$(ASM)

 VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/dequantize_v6$(ASM)

 VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/idct_blk_v6.c

+VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/vp8_sad16x16_armv6$(ASM)

+VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/vp8_variance8x8_armv6$(ASM)

+VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/vp8_variance16x16_armv6$(ASM)

+VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/vp8_variance_halfpixvar16x16_h_armv6$(ASM)

+VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/vp8_variance_halfpixvar16x16_v_armv6$(ASM)

+VP8_COMMON_SRCS-$(HAVE_MEDIA)  += common/arm/armv6/vp8_variance_halfpixvar16x16_hv_armv6$(ASM)

 # common (neon)

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/bilinearpredict4x4_neon$(ASM)

@@ -143,6 +166,8 @@

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/loopfiltersimpleverticaledge_neon$(ASM)

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/mbloopfilter_neon$(ASM)

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/shortidct4x4llm_neon$(ASM)

+VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/sad8_neon$(ASM)

+VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/sad16_neon$(ASM)

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/sixtappredict4x4_neon$(ASM)

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/sixtappredict8x4_neon$(ASM)

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/sixtappredict8x8_neon$(ASM)

@@ -154,3 +179,7 @@

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/idct_dequant_0_2x_neon$(ASM)

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/dequantizeb_neon$(ASM)

 VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/idct_blk_neon.c

+VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/variance_neon$(ASM)

+VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/vp8_subpixelvariance8x8_neon$(ASM)

+VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/vp8_subpixelvariance16x16_neon$(ASM)

+VP8_COMMON_SRCS-$(HAVE_NEON)  += common/arm/neon/vp8_subpixelvariance16x16s_neon$(ASM)

--- a/vp8/vp8cx.mk

+++ b/vp8/vp8cx.mk

@@ -63,7 +63,6 @@

 VP8_CX_SRCS-yes += encoder/rdopt.h

 VP8_CX_SRCS-yes += encoder/tokenize.h

 VP8_CX_SRCS-yes += encoder/treewriter.h

-VP8_CX_SRCS-yes += encoder/variance.h

 VP8_CX_SRCS-yes += encoder/mcomp.c

 VP8_CX_SRCS-yes += encoder/modecosts.c

 VP8_CX_SRCS-yes += encoder/onyx_if.c

@@ -73,13 +72,11 @@

 VP8_CX_SRCS-yes += encoder/quantize.c

 VP8_CX_SRCS-yes += encoder/ratectrl.c

 VP8_CX_SRCS-yes += encoder/rdopt.c

-VP8_CX_SRCS-yes += encoder/sad_c.c

 VP8_CX_SRCS-yes += encoder/segmentation.c

 VP8_CX_SRCS-yes += encoder/segmentation.h

 VP8_CX_SRCS-$(CONFIG_INTERNAL_STATS) += encoder/ssim.c

 VP8_CX_SRCS-yes += encoder/tokenize.c

 VP8_CX_SRCS-yes += encoder/treewriter.c

-VP8_CX_SRCS-yes += encoder/variance_c.c

 VP8_CX_SRCS-$(CONFIG_INTERNAL_STATS) += common/postproc.h

 VP8_CX_SRCS-$(CONFIG_INTERNAL_STATS) += common/postproc.c

 VP8_CX_SRCS-yes += encoder/temporal_filter.c

@@ -91,27 +88,16 @@

 VP8_CX_SRCS_REMOVE-yes += encoder/temporal_filter.c

 endif

-VP8_CX_SRCS-$(HAVE_MMX) += encoder/x86/variance_mmx.c

-VP8_CX_SRCS-$(HAVE_MMX) += encoder/x86/variance_impl_mmx.asm

-VP8_CX_SRCS-$(HAVE_MMX) += encoder/x86/sad_mmx.asm

 VP8_CX_SRCS-$(HAVE_MMX) += encoder/x86/dct_mmx.asm

 VP8_CX_SRCS-$(HAVE_MMX) += encoder/x86/subtract_mmx.asm

 VP8_CX_SRCS-$(HAVE_MMX) += encoder/x86/vp8_enc_stubs_mmx.c

 VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/dct_sse2.asm

-VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/variance_sse2.c

-VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/variance_impl_sse2.asm

-VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/sad_sse2.asm

 VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/fwalsh_sse2.asm

 VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/quantize_sse2.asm

 VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/subtract_sse2.asm

 VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/temporal_filter_apply_sse2.asm

 VP8_CX_SRCS-$(HAVE_SSE2) += encoder/x86/vp8_enc_stubs_sse2.c

-VP8_CX_SRCS-$(HAVE_SSE3) += encoder/x86/sad_sse3.asm

-VP8_CX_SRCS-$(HAVE_SSSE3) += encoder/x86/sad_ssse3.asm

-VP8_CX_SRCS-$(HAVE_SSSE3) += encoder/x86/variance_ssse3.c

-VP8_CX_SRCS-$(HAVE_SSSE3) += encoder/x86/variance_impl_ssse3.asm

 VP8_CX_SRCS-$(HAVE_SSSE3) += encoder/x86/quantize_ssse3.asm

-VP8_CX_SRCS-$(HAVE_SSE4_1) += encoder/x86/sad_sse4.asm

 VP8_CX_SRCS-$(HAVE_SSE4_1) += encoder/x86/quantize_sse4.asm

 VP8_CX_SRCS-$(ARCH_X86)$(ARCH_X86_64) += encoder/x86/quantize_mmx.asm

 VP8_CX_SRCS-$(ARCH_X86)$(ARCH_X86_64) += encoder/x86/encodeopt.asm

--- a/vp8/vp8cx_arm.mk

+++ b/vp8/vp8cx_arm.mk

@@ -15,7 +15,6 @@

 # encoder

 VP8_CX_SRCS-$(ARCH_ARM)  += encoder/arm/dct_arm.c

 VP8_CX_SRCS-$(ARCH_ARM)  += encoder/arm/quantize_arm.c

-VP8_CX_SRCS-$(ARCH_ARM)  += encoder/arm/variance_arm.c

 #File list for edsp

 # encoder

@@ -31,13 +30,7 @@

 VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_subtract_armv6$(ASM)

 VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_short_fdct4x4_armv6$(ASM)

 VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_fast_quantize_b_armv6$(ASM)

-VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_sad16x16_armv6$(ASM)

-VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_variance16x16_armv6$(ASM)

-VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_variance_halfpixvar16x16_h_armv6$(ASM)

-VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_variance_halfpixvar16x16_v_armv6$(ASM)

-VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_variance_halfpixvar16x16_hv_armv6$(ASM)

 VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_mse16x16_armv6$(ASM)

-VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/vp8_variance8x8_armv6$(ASM)

 VP8_CX_SRCS-$(HAVE_MEDIA)  += encoder/arm/armv6/walsh_v6$(ASM)

 #File list for neon

@@ -44,14 +37,8 @@

 # encoder

 VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/fastquantizeb_neon$(ASM)

 VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/picklpf_arm.c

-VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/sad8_neon$(ASM)

-VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/sad16_neon$(ASM)

 VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/shortfdct_neon$(ASM)

 VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/subtract_neon$(ASM)

-VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/variance_neon$(ASM)

 VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/vp8_mse16x16_neon$(ASM)

-VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/vp8_subpixelvariance8x8_neon$(ASM)

-VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/vp8_subpixelvariance16x16_neon$(ASM)

-VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/vp8_subpixelvariance16x16s_neon$(ASM)

 VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/vp8_memcpy_neon$(ASM)

 VP8_CX_SRCS-$(HAVE_NEON)  += encoder/arm/neon/vp8_shortwalsh4x4_neon$(ASM)

--

⑨