Intel MKL 사용하여 행렬곱 계산 속도 개선하기(퍼옴)

행렬곱을 계산할 때 Intel MKL을 사용하면 계산 속도가 얼마나 빨라지는지 알아보기 위하여 여러 가지 방법으로 실험을 해 보았습니다.

실험 환경

시스템

프로세서: Intel Core i7-8550U CPU
메모리: 16.0GB
운영체제: Windows 10 (64-bit)
전원 공급: AC adapter

라이브러리

Intel MKL 2019 Update 5
Eigen 3.3.7

컴파일러

MSVC++ Version 2019 (16.0)

소스 코드

완전한 소스 코드 중에서 설명을 위해 필요한 부분만 아래에 제시합니다.

방법-1. C 언어 3중 루프 사용

double *A, *B, *C; int m, n, p, i, j, k; double sum; m = 2000, p = 200, n = 1000; A = (double *)mkl_malloc( m*p*sizeof( double ), 64 ); B = (double *)mkl_malloc( p*n*sizeof( double ), 64 ); C = (double *)mkl_malloc( m*n*sizeof( double ), 64 ); for (i = 0; i < m; i++) { for (j = 0; j < n; j++) { sum = 0.0; for (k = 0; k < p; k++) sum += A[p*i+k] * B[n*k+j]; C[n*i+j] = sum; } }

방법-2. Intel MKL dgemm 함수 사용 (1개의 쓰레드)

double *A, *B, *C; int m, n, p; double alpha, beta; int thread_num; m = 2000, p = 200, n = 1000; alpha = 1.0; beta = 0.0; thread_num = 1; A = (double *)mkl_malloc( m*p*sizeof( double ), 64 ); B = (double *)mkl_malloc( p*n*sizeof( double ), 64 ); C = (double *)mkl_malloc( m*n*sizeof( double ), 64 ); mkl_set_num_threads(thread_num); cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans, m, n, p, alpha, A, p, B, n, beta, C, n);

방법-3. Intel MKL dgemm 함수 사용 (4개의 쓰레드)

방법-2의 소스 코드에서 thread_num 변수의 값을 아래와 같이 수정합니다.
thread_num = 4;

방법-4. Eigen 라이브러리 사용

int m = 2000; int p = 200; int n = 1000; MatrixXd A(m,p); MatrixXd B(p,n); MatrixXd C = A * B;

방법-5. Eigen 라이브러리 사용하고 백엔드로 Intel MKL 지정

방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 EIGEN_USE_MKL_ALL 매크로를 정의합니다.

방법-6. Eigen 라이브러리 사용하고 /arch:AVX 옵션으로 컴파일

방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /arch:AVX 를 지정합니다.

방법-7. Eigen 라이브러리 사용하고 /openmp 옵션으로 컴파일

방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /openmp 를 지정합니다.

방법-8. Eigen 라이브러리 사용하고 /openmp와 /arch:AVX옵션으로 컴파일

방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /openmp와 /arch:AVX 를 지정합니다.

계산 속도

아래 표에서 경과 시간은 변수 초기화 과정을 포함하지 않습니다.

방법설명경과 시간 (milliseconds)

방법-1	3중 루프	1194.3
방법-2	cblas_dgemm API	15.1 (1 OpenMP intel thread) 7.6 (1 TBB thread)
방법-3	cblas_dgemm API, multi-threaded	8.5 (4 OpenMP intel threads) 8.4 (4 TBB threads)
방법-4	Eigen	2782.0
방법-5	Eigen + Intel MKL backend	35.0
방법-6	Eigen with /arch:AVX	1421.0
방법-7	Eigen with /openmp	722.0
방법-8	Eigen with /openmp & /arch:AVX	407.0

참고 자료

Eigen FAQ - How can I enable vectorization?
You just need to tell your compiler to enable the corresponding instruction set, and Eigen will then detect it. If it is enabled by default, then you don’t need to do anything.
MSVC Compiler Options - /arch (x64)
The /arch option enables the use of certain instruction set extensions, particularly for vector calculation, available in processors from Intel and AMD.

Written with StackEdit.

저작자표시 (새창열림)

'개발자 > C++(Linux, Window)' 카테고리의 다른 글

캐시 라인,( C++ STL std::list 보다 std:vector를 써야하는이유) (0)	2020.10.04
[C/C++] EXTERN "C" (0)	2020.09.28
헤더 가드(Header guard) (0)	2020.08.21
Dynamic Array, L-value R-value (0)	2020.08.17
Vector Container 메모리 관리 관련 (0)	2020.08.17

영화처럼 Tistory

Intel MKL 사용하여 행렬곱 계산 속도 개선하기(퍼옴)

실험 환경

시스템

라이브러리

컴파일러

소스 코드

방법-1. C 언어 3중 루프 사용

방법-2. Intel MKL dgemm 함수 사용 (1개의 쓰레드)

방법-3. Intel MKL dgemm 함수 사용 (4개의 쓰레드)

방법-4. Eigen 라이브러리 사용

방법-5. Eigen 라이브러리 사용하고 백엔드로 Intel MKL 지정

방법-6. Eigen 라이브러리 사용하고 /arch:AVX 옵션으로 컴파일

방법-7. Eigen 라이브러리 사용하고 /openmp 옵션으로 컴파일

방법-8. Eigen 라이브러리 사용하고 /openmp와 /arch:AVX옵션으로 컴파일

계산 속도

참고 자료

'개발자 > C++(Linux, Window)' 카테고리의 다른 글

티스토리툴바

Intel MKL 사용하여 행렬곱 계산 속도 개선하기(퍼옴)

실험 환경

시스템

라이브러리

컴파일러

소스 코드

방법-1. C 언어 3중 루프 사용

방법-2. Intel MKL dgemm 함수 사용 (1개의 쓰레드)

방법-3. Intel MKL dgemm 함수 사용 (4개의 쓰레드)

방법-4. Eigen 라이브러리 사용

방법-5. Eigen 라이브러리 사용하고 백엔드로 Intel MKL 지정

방법-6. Eigen 라이브러리 사용하고 /arch:AVX 옵션으로 컴파일

방법-7. Eigen 라이브러리 사용하고 /openmp 옵션으로 컴파일

방법-8. Eigen 라이브러리 사용하고 /openmp와 /arch:AVX옵션으로 컴파일

계산 속도

참고 자료

'개발자 > C++(Linux, Window)' 카테고리의 다른 글

'개발자/C++(Linux, Window)' Related Articles

티스토리툴바