The Tor Browser: media/libvpx/vp8/encoder/arm/neon/shortfdct

media/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm@ac0c01689b40 (annotated)

media/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm

Thu, 15 Jan 2015 15:59:08 +0100

author: Michael Schloh von Bennewitz <michael@schloh.com>
date: Thu, 15 Jan 2015 15:59:08 +0100
branch: TOR_BUG_9701
changeset 10: ac0c01689b40
permissions: -rw-r--r--

Implement a real Private Browsing Mode condition by changing the API/ABI;
This solves Tor bug #9701, complying with disk avoidance documented in
https://www.torproject.org/projects/torbrowser/design/#disk-avoidance.

 ;
 ;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.
 ;
 ;  Use of this source code is governed by a BSD-style license
 ;  that can be found in the LICENSE file in the root of the source
 ;  tree. An additional intellectual property rights grant can be found
 ;  in the file PATENTS.  All contributing project authors may
 ;  be found in the AUTHORS file in the root of the source tree.
 ;
     EXPORT  |vp8_short_fdct4x4_neon|
     EXPORT  |vp8_short_fdct8x4_neon|
     ARM
     REQUIRE8
     PRESERVE8
     AREA ||.text||, CODE, READONLY, ALIGN=4
     ALIGN 16    ; enable use of @128 bit aligned loads
 coeff
     DCW      5352,  5352,  5352, 5352
     DCW      2217,  2217,  2217, 2217
     DCD     14500, 14500, 14500, 14500
     DCD      7500,  7500,  7500, 7500
     DCD     12000, 12000, 12000, 12000
     DCD     51000, 51000, 51000, 51000
 ;void vp8_short_fdct4x4_c(short *input, short *output, int pitch)
 |vp8_short_fdct4x4_neon| PROC
     ; Part one
     vld1.16         {d0}, [r0@64], r2
     adr             r12, coeff
     vld1.16         {d1}, [r0@64], r2
     vld1.16         {q8}, [r12@128]!        ; d16=5352,  d17=2217
     vld1.16         {d2}, [r0@64], r2
     vld1.32         {q9, q10}, [r12@128]!   ;  q9=14500, q10=7500
     vld1.16         {d3}, [r0@64], r2
     ; transpose d0=ip[0], d1=ip[1], d2=ip[2], d3=ip[3]
     vtrn.32         d0, d2
     vtrn.32         d1, d3
     vld1.32         {q11,q12}, [r12@128]    ; q11=12000, q12=51000
     vtrn.16         d0, d1
     vtrn.16         d2, d3
     vadd.s16        d4, d0, d3      ; a1 = ip[0] + ip[3]
     vadd.s16        d5, d1, d2      ; b1 = ip[1] + ip[2]
     vsub.s16        d6, d1, d2      ; c1 = ip[1] - ip[2]
     vsub.s16        d7, d0, d3      ; d1 = ip[0] - ip[3]
     vshl.s16        q2, q2, #3      ; (a1, b1) << 3
     vshl.s16        q3, q3, #3      ; (c1, d1) << 3
     vadd.s16        d0, d4, d5      ; op[0] = a1 + b1
     vsub.s16        d2, d4, d5      ; op[2] = a1 - b1
     vmlal.s16       q9, d7, d16     ; d1*5352 + 14500
     vmlal.s16       q10, d7, d17    ; d1*2217 + 7500
     vmlal.s16       q9, d6, d17     ; c1*2217 + d1*5352 + 14500
     vmlsl.s16       q10, d6, d16    ; d1*2217 - c1*5352 + 7500
     vshrn.s32       d1, q9, #12     ; op[1] = (c1*2217 + d1*5352 + 14500)>>12
     vshrn.s32       d3, q10, #12    ; op[3] = (d1*2217 - c1*5352 +  7500)>>12
     ; Part two
     ; transpose d0=ip[0], d1=ip[4], d2=ip[8], d3=ip[12]
     vtrn.32         d0, d2
     vtrn.32         d1, d3
     vtrn.16         d0, d1
     vtrn.16         d2, d3
     vmov.s16        d26, #7
     vadd.s16        d4, d0, d3      ; a1 = ip[0] + ip[12]
     vadd.s16        d5, d1, d2      ; b1 = ip[4] + ip[8]
     vsub.s16        d6, d1, d2      ; c1 = ip[4] - ip[8]
     vadd.s16        d4, d4, d26     ; a1 + 7
     vsub.s16        d7, d0, d3      ; d1 = ip[0] - ip[12]
     vadd.s16        d0, d4, d5      ; op[0] = a1 + b1 + 7
     vsub.s16        d2, d4, d5      ; op[8] = a1 - b1 + 7
     vmlal.s16       q11, d7, d16    ; d1*5352 + 12000
     vmlal.s16       q12, d7, d17    ; d1*2217 + 51000
     vceq.s16        d4, d7, #0
     vshr.s16        d0, d0, #4
     vshr.s16        d2, d2, #4
     vmlal.s16       q11, d6, d17    ; c1*2217 + d1*5352 + 12000
     vmlsl.s16       q12, d6, d16    ; d1*2217 - c1*5352 + 51000
     vmvn            d4, d4
     vshrn.s32       d1, q11, #16    ; op[4] = (c1*2217 + d1*5352 + 12000)>>16
     vsub.s16        d1, d1, d4      ; op[4] += (d1!=0)
     vshrn.s32       d3, q12, #16    ; op[12]= (d1*2217 - c1*5352 + 51000)>>16
     vst1.16         {q0, q1}, [r1@128]
     bx              lr
     ENDP
 ;void vp8_short_fdct8x4_c(short *input, short *output, int pitch)
 |vp8_short_fdct8x4_neon| PROC
     ; Part one
     vld1.16         {q0}, [r0@128], r2
     adr             r12, coeff
     vld1.16         {q1}, [r0@128], r2
     vld1.16         {q8}, [r12@128]!        ; d16=5352,  d17=2217
     vld1.16         {q2}, [r0@128], r2
     vld1.32         {q9, q10}, [r12@128]!   ;  q9=14500, q10=7500
     vld1.16         {q3}, [r0@128], r2
     ; transpose q0=ip[0], q1=ip[1], q2=ip[2], q3=ip[3]
     vtrn.32         q0, q2          ; [A0|B0]
     vtrn.32         q1, q3          ; [A1|B1]
     vtrn.16         q0, q1          ; [A2|B2]
     vtrn.16         q2, q3          ; [A3|B3]
     vadd.s16        q11, q0, q3     ; a1 = ip[0] + ip[3]
     vadd.s16        q12, q1, q2     ; b1 = ip[1] + ip[2]
     vsub.s16        q13, q1, q2     ; c1 = ip[1] - ip[2]
     vsub.s16        q14, q0, q3     ; d1 = ip[0] - ip[3]
     vshl.s16        q11, q11, #3    ; a1 << 3
     vshl.s16        q12, q12, #3    ; b1 << 3
     vshl.s16        q13, q13, #3    ; c1 << 3
     vshl.s16        q14, q14, #3    ; d1 << 3
     vadd.s16        q0, q11, q12    ; [A0 | B0] = a1 + b1
     vsub.s16        q2, q11, q12    ; [A2 | B2] = a1 - b1
     vmov.s16        q11, q9         ; 14500
     vmov.s16        q12, q10        ; 7500
     vmlal.s16       q9, d28, d16    ; A[1] = d1*5352 + 14500
     vmlal.s16       q10, d28, d17   ; A[3] = d1*2217 + 7500
     vmlal.s16       q11, d29, d16   ; B[1] = d1*5352 + 14500
     vmlal.s16       q12, d29, d17   ; B[3] = d1*2217 + 7500
     vmlal.s16       q9, d26, d17    ; A[1] = c1*2217 + d1*5352 + 14500
     vmlsl.s16       q10, d26, d16   ; A[3] = d1*2217 - c1*5352 + 7500
     vmlal.s16       q11, d27, d17   ; B[1] = c1*2217 + d1*5352 + 14500
     vmlsl.s16       q12, d27, d16   ; B[3] = d1*2217 - c1*5352 + 7500
     vshrn.s32       d2, q9, #12     ; A[1] = (c1*2217 + d1*5352 + 14500)>>12
     vshrn.s32       d6, q10, #12    ; A[3] = (d1*2217 - c1*5352 +  7500)>>12
     vshrn.s32       d3, q11, #12    ; B[1] = (c1*2217 + d1*5352 + 14500)>>12
     vshrn.s32       d7, q12, #12    ; B[3] = (d1*2217 - c1*5352 +  7500)>>12
     ; Part two
     vld1.32         {q9,q10}, [r12@128]    ; q9=12000, q10=51000
     ; transpose q0=ip[0], q1=ip[4], q2=ip[8], q3=ip[12]
     vtrn.32         q0, q2          ; q0=[A0 | B0]
     vtrn.32         q1, q3          ; q1=[A4 | B4]
     vtrn.16         q0, q1          ; q2=[A8 | B8]
     vtrn.16         q2, q3          ; q3=[A12|B12]
     vmov.s16        q15, #7
     vadd.s16        q11, q0, q3     ; a1 = ip[0] + ip[12]
     vadd.s16        q12, q1, q2     ; b1 = ip[4] + ip[8]
     vadd.s16        q11, q11, q15   ; a1 + 7
     vsub.s16        q13, q1, q2     ; c1 = ip[4] - ip[8]
     vsub.s16        q14, q0, q3     ; d1 = ip[0] - ip[12]
     vadd.s16        q0, q11, q12    ; a1 + b1 + 7
     vsub.s16        q1, q11, q12    ; a1 - b1 + 7
     vmov.s16        q11, q9         ; 12000
     vmov.s16        q12, q10        ; 51000
     vshr.s16        d0, d0, #4      ; A[0] = (a1 + b1 + 7)>>4
     vshr.s16        d4, d1, #4      ; B[0] = (a1 + b1 + 7)>>4
     vshr.s16        d2, d2, #4      ; A[8] = (a1 + b1 + 7)>>4
     vshr.s16        d6, d3, #4      ; B[8] = (a1 + b1 + 7)>>4
     vmlal.s16       q9, d28, d16    ; A[4]  = d1*5352 + 12000
     vmlal.s16       q10, d28, d17   ; A[12] = d1*2217 + 51000
     vmlal.s16       q11, d29, d16   ; B[4]  = d1*5352 + 12000
     vmlal.s16       q12, d29, d17   ; B[12] = d1*2217 + 51000
     vceq.s16        q14, q14, #0
     vmlal.s16       q9, d26, d17    ; A[4]  = c1*2217 + d1*5352 + 12000
     vmlsl.s16       q10, d26, d16   ; A[12] = d1*2217 - c1*5352 + 51000
     vmlal.s16       q11, d27, d17   ; B[4]  = c1*2217 + d1*5352 + 12000
     vmlsl.s16       q12, d27, d16   ; B[12] = d1*2217 - c1*5352 + 51000
     vmvn            q14, q14
     vshrn.s32       d1, q9, #16     ; A[4] = (c1*2217 + d1*5352 + 12000)>>16
     vshrn.s32       d3, q10, #16    ; A[12]= (d1*2217 - c1*5352 + 51000)>>16
     vsub.s16        d1, d1, d28     ; A[4] += (d1!=0)
     vshrn.s32       d5, q11, #16    ; B[4] = (c1*2217 + d1*5352 + 12000)>>16
     vshrn.s32       d7, q12, #16    ; B[12]= (d1*2217 - c1*5352 + 51000)>>16
     vsub.s16        d5, d5, d29     ; B[4] += (d1!=0)
     vst1.16         {q0, q1}, [r1@128]! ; block A
     vst1.16         {q2, q3}, [r1@128]! ; block B
     bx              lr
     ENDP
     END

The Tor Browser / annotate

media/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm@ac0c01689b40 (annotated)

media/libvpx/vp8/encoder/arm/neon/shortfdct_neon.asm