michael@0: ; michael@0: ; Copyright (c) 2010 The WebM project authors. All Rights Reserved. michael@0: ; michael@0: ; Use of this source code is governed by a BSD-style license michael@0: ; that can be found in the LICENSE file in the root of the source michael@0: ; tree. An additional intellectual property rights grant can be found michael@0: ; in the file PATENTS. All contributing project authors may michael@0: ; be found in the AUTHORS file in the root of the source tree. michael@0: ; michael@0: michael@0: michael@0: %include "vpx_ports/x86_abi_support.asm" michael@0: michael@0: michael@0: ;void copy_mem8x8_mmx( michael@0: ; unsigned char *src, michael@0: ; int src_stride, michael@0: ; unsigned char *dst, michael@0: ; int dst_stride michael@0: ; ) michael@0: global sym(vp8_copy_mem8x8_mmx) PRIVATE michael@0: sym(vp8_copy_mem8x8_mmx): michael@0: push rbp michael@0: mov rbp, rsp michael@0: SHADOW_ARGS_TO_STACK 4 michael@0: push rsi michael@0: push rdi michael@0: ; end prolog michael@0: michael@0: mov rsi, arg(0) ;src; michael@0: movq mm0, [rsi] michael@0: michael@0: movsxd rax, dword ptr arg(1) ;src_stride; michael@0: mov rdi, arg(2) ;dst; michael@0: michael@0: movq mm1, [rsi+rax] michael@0: movq mm2, [rsi+rax*2] michael@0: michael@0: movsxd rcx, dword ptr arg(3) ;dst_stride michael@0: lea rsi, [rsi+rax*2] michael@0: michael@0: movq [rdi], mm0 michael@0: add rsi, rax michael@0: michael@0: movq [rdi+rcx], mm1 michael@0: movq [rdi+rcx*2], mm2 michael@0: michael@0: michael@0: lea rdi, [rdi+rcx*2] michael@0: movq mm3, [rsi] michael@0: michael@0: add rdi, rcx michael@0: movq mm4, [rsi+rax] michael@0: michael@0: movq mm5, [rsi+rax*2] michael@0: movq [rdi], mm3 michael@0: michael@0: lea rsi, [rsi+rax*2] michael@0: movq [rdi+rcx], mm4 michael@0: michael@0: movq [rdi+rcx*2], mm5 michael@0: lea rdi, [rdi+rcx*2] michael@0: michael@0: movq mm0, [rsi+rax] michael@0: movq mm1, [rsi+rax*2] michael@0: michael@0: movq [rdi+rcx], mm0 michael@0: movq [rdi+rcx*2],mm1 michael@0: michael@0: ; begin epilog michael@0: pop rdi michael@0: pop rsi michael@0: UNSHADOW_ARGS michael@0: pop rbp michael@0: ret michael@0: michael@0: michael@0: ;void copy_mem8x4_mmx( michael@0: ; unsigned char *src, michael@0: ; int src_stride, michael@0: ; unsigned char *dst, michael@0: ; int dst_stride michael@0: ; ) michael@0: global sym(vp8_copy_mem8x4_mmx) PRIVATE michael@0: sym(vp8_copy_mem8x4_mmx): michael@0: push rbp michael@0: mov rbp, rsp michael@0: SHADOW_ARGS_TO_STACK 4 michael@0: push rsi michael@0: push rdi michael@0: ; end prolog michael@0: michael@0: mov rsi, arg(0) ;src; michael@0: movq mm0, [rsi] michael@0: michael@0: movsxd rax, dword ptr arg(1) ;src_stride; michael@0: mov rdi, arg(2) ;dst; michael@0: michael@0: movq mm1, [rsi+rax] michael@0: movq mm2, [rsi+rax*2] michael@0: michael@0: movsxd rcx, dword ptr arg(3) ;dst_stride michael@0: lea rsi, [rsi+rax*2] michael@0: michael@0: movq [rdi], mm0 michael@0: movq [rdi+rcx], mm1 michael@0: michael@0: movq [rdi+rcx*2], mm2 michael@0: lea rdi, [rdi+rcx*2] michael@0: michael@0: movq mm3, [rsi+rax] michael@0: movq [rdi+rcx], mm3 michael@0: michael@0: ; begin epilog michael@0: pop rdi michael@0: pop rsi michael@0: UNSHADOW_ARGS michael@0: pop rbp michael@0: ret michael@0: michael@0: michael@0: ;void copy_mem16x16_mmx( michael@0: ; unsigned char *src, michael@0: ; int src_stride, michael@0: ; unsigned char *dst, michael@0: ; int dst_stride michael@0: ; ) michael@0: global sym(vp8_copy_mem16x16_mmx) PRIVATE michael@0: sym(vp8_copy_mem16x16_mmx): michael@0: push rbp michael@0: mov rbp, rsp michael@0: SHADOW_ARGS_TO_STACK 4 michael@0: push rsi michael@0: push rdi michael@0: ; end prolog michael@0: michael@0: mov rsi, arg(0) ;src; michael@0: movsxd rax, dword ptr arg(1) ;src_stride; michael@0: michael@0: mov rdi, arg(2) ;dst; michael@0: movsxd rcx, dword ptr arg(3) ;dst_stride michael@0: michael@0: movq mm0, [rsi] michael@0: movq mm3, [rsi+8]; michael@0: michael@0: movq mm1, [rsi+rax] michael@0: movq mm4, [rsi+rax+8] michael@0: michael@0: movq mm2, [rsi+rax*2] michael@0: movq mm5, [rsi+rax*2+8] michael@0: michael@0: lea rsi, [rsi+rax*2] michael@0: add rsi, rax michael@0: michael@0: movq [rdi], mm0 michael@0: movq [rdi+8], mm3 michael@0: michael@0: movq [rdi+rcx], mm1 michael@0: movq [rdi+rcx+8], mm4 michael@0: michael@0: movq [rdi+rcx*2], mm2 michael@0: movq [rdi+rcx*2+8], mm5 michael@0: michael@0: lea rdi, [rdi+rcx*2] michael@0: add rdi, rcx michael@0: michael@0: movq mm0, [rsi] michael@0: movq mm3, [rsi+8]; michael@0: michael@0: movq mm1, [rsi+rax] michael@0: movq mm4, [rsi+rax+8] michael@0: michael@0: movq mm2, [rsi+rax*2] michael@0: movq mm5, [rsi+rax*2+8] michael@0: michael@0: lea rsi, [rsi+rax*2] michael@0: add rsi, rax michael@0: michael@0: movq [rdi], mm0 michael@0: movq [rdi+8], mm3 michael@0: michael@0: movq [rdi+rcx], mm1 michael@0: movq [rdi+rcx+8], mm4 michael@0: michael@0: movq [rdi+rcx*2], mm2 michael@0: movq [rdi+rcx*2+8], mm5 michael@0: michael@0: lea rdi, [rdi+rcx*2] michael@0: add rdi, rcx michael@0: michael@0: movq mm0, [rsi] michael@0: movq mm3, [rsi+8]; michael@0: michael@0: movq mm1, [rsi+rax] michael@0: movq mm4, [rsi+rax+8] michael@0: michael@0: movq mm2, [rsi+rax*2] michael@0: movq mm5, [rsi+rax*2+8] michael@0: michael@0: lea rsi, [rsi+rax*2] michael@0: add rsi, rax michael@0: michael@0: movq [rdi], mm0 michael@0: movq [rdi+8], mm3 michael@0: michael@0: movq [rdi+rcx], mm1 michael@0: movq [rdi+rcx+8], mm4 michael@0: michael@0: movq [rdi+rcx*2], mm2 michael@0: movq [rdi+rcx*2+8], mm5 michael@0: michael@0: lea rdi, [rdi+rcx*2] michael@0: add rdi, rcx michael@0: michael@0: movq mm0, [rsi] michael@0: movq mm3, [rsi+8]; michael@0: michael@0: movq mm1, [rsi+rax] michael@0: movq mm4, [rsi+rax+8] michael@0: michael@0: movq mm2, [rsi+rax*2] michael@0: movq mm5, [rsi+rax*2+8] michael@0: michael@0: lea rsi, [rsi+rax*2] michael@0: add rsi, rax michael@0: michael@0: movq [rdi], mm0 michael@0: movq [rdi+8], mm3 michael@0: michael@0: movq [rdi+rcx], mm1 michael@0: movq [rdi+rcx+8], mm4 michael@0: michael@0: movq [rdi+rcx*2], mm2 michael@0: movq [rdi+rcx*2+8], mm5 michael@0: michael@0: lea rdi, [rdi+rcx*2] michael@0: add rdi, rcx michael@0: michael@0: movq mm0, [rsi] michael@0: movq mm3, [rsi+8]; michael@0: michael@0: movq mm1, [rsi+rax] michael@0: movq mm4, [rsi+rax+8] michael@0: michael@0: movq mm2, [rsi+rax*2] michael@0: movq mm5, [rsi+rax*2+8] michael@0: michael@0: lea rsi, [rsi+rax*2] michael@0: add rsi, rax michael@0: michael@0: movq [rdi], mm0 michael@0: movq [rdi+8], mm3 michael@0: michael@0: movq [rdi+rcx], mm1 michael@0: movq [rdi+rcx+8], mm4 michael@0: michael@0: movq [rdi+rcx*2], mm2 michael@0: movq [rdi+rcx*2+8], mm5 michael@0: michael@0: lea rdi, [rdi+rcx*2] michael@0: add rdi, rcx michael@0: michael@0: movq mm0, [rsi] michael@0: movq mm3, [rsi+8]; michael@0: michael@0: movq [rdi], mm0 michael@0: movq [rdi+8], mm3 michael@0: michael@0: ; begin epilog michael@0: pop rdi michael@0: pop rsi michael@0: UNSHADOW_ARGS michael@0: pop rbp michael@0: ret