いんちょき通信: OpenCL

2012/03/16

OpenCLのC++ Bindingsを使ってみる - その1

前回にOpenCLを使用してGPUを使用した並列計算を試してみたが、デバイスの取得やGPU側でのコードの準備、データの準備や転送など、実際の計算よりも前に行う処理が煩雑だった。また、この事前処理が毎回あまり変わらない処理を書く必要があった。そこで、C++クラスとしてラップし定型処理部分を隠蔽して、煩雑な部分をさよならしようと思ったわけだ。

その前にもう一度OpenCLの規格を決めているKhronos Groupを覗いてみると、あるじゃないかC++の公式Bindingsが、もうすでに。C++ Bindings Specification [PDF] OpenCL 1.1 C++ Bindings Header File(cl.hpp)

すでにあるなら、使った方がよいと言うことで、このC++ Bindingsを試してみることにした。計算を行うまでの処理の流れは前回記載しものと同じようになるので、順番に見ていこうと思う。

まずはプラットフォームを取得することから始める。

 #define __CL_ENABLE_EXCEPTIONS
 
 #if defined(__APPLE__) || defined(__MACOSX)
    #include <OpenCL/cl.hpp>
 #else
    #include <CL/cl.hpp>
 #endif
 #include <iostream>

int main(int argc, char* argv[])
{
    try{
        std::vector platforms;
        cl::Platform::get(&platforms);
        if(platforms.size() == 0){
            std::cout << "Any Platforms is NOT FOUNT." << std::endl;
            return 1;
        }
        std::cout << platforms.size() << std::endl;
        std::string param;
        platforms.at(0).getInfo(CL_PLATFORM_PROFILE, &param);
        std::cout << param << std::endl;
     }catch(cl::Error err){
          std::cerr << "ERROR: " << err.what() << "(" << err.err() << ")" << std::endl;
     }
      return 0;
 }

まず先頭の「#define __CL_ENABLE_EXCEPTIONS」はC++例外を使用する場合に定義する必要がある。この定義があると、各OpenCLクラス内でエラーがあった場合、「cl::Error」クラスがthrowされる。

次にヘッダーファイルが"opencl.h"から"cl.hpp"に変わる。このヘッダー内で必要なOpenCLのヘッダーファイルを読み込んでいるので、他は特に必要ない。

ここまでで、とりあえずOpenCL C++ Bindingsを使用する準備は整った。

メイン関数の中身を見ていくことにする。OpenCLの例外を有効にしているので、処理部分は「try」で囲み、最後に例外クラスcl::Errorを捕捉している。

プラットフォームの取得はcl::Platformクラスのスタティックメンバ関数getを使用するが、取得したプラットフォームはvectorに格納される。このC++ Bindingsでは配列や文字列を基本的にvectorクラスやstringクラスを使用するようにしているようだ。

取得したプラットフォームの情報を確認する場合はメンバ関数のgetInfoが使用できる。第一引数は列挙型cl_platform_info、第二引数は取得した情報を格納する文字列クラスになる。列挙型cl_platform_infoの一覧はOpenCL 1.1 Specification [PDF]のTable 4.1に記載されている。C++ Bindings Specification [PDF] はOpenCL 1.1 Specification [PDF]の別紙扱いなのか、参照している部分が多い。

ひとまず、プラットフォームについてはここまでで、つぎはコンテキストの取得をしようと思う。

このブログの開発用PCはこちら

投稿情報: 01:13 カテゴリー: C++, OpenCL, プログラム | 個別ページ | コメント (0) | トラックバック (0)

2012/03/12

OpenCLで実際に計算してみる

以前にOpenCLについて少しだけ触れたが、その時はOpenCL環境を確認したのみだった。今回はOpenCLを使って実際に簡単な計算をしてみようと思う。

OpenCLで実際に計算を行うまでの流れは次のようになる。

プラットフォーム情報を取得
コンテキストを生成
コンテキスト内のデバイスを取得
使用するデバイスにコマンドキューを生成
プログラムオブジェクトの生成
プログラムのビルド
カーネルの生成
メモリオブジェクトの生成
カーネルをコマンドキューに入れる
結果の取得
リソースの解放

今回のコードはOpenCL入門―GPU&マルチコアCPU並列プログラミング for MacOS Windows LinuxのChapter 3を参考に、エラー処理を省き、実行タスクを処理が重いものに変更し、実行時間計測を入れている。実行時間の計測はBoost.Chronoを使用した。

ソースは次のようになる。

#include <iostream>
#include <cmath>
#include <boost/chrono.hpp>
#include <boost/chrono/duration.hpp>

using namespace boost;

#ifdef __APPLE__
#include 
#else
#include 
#endif //__APPLE__

const int nElements = 9000000;
const int maxDevices  = 10;

float input1[nElements];
float input2[nElements];
float output[nElements];

void addVector(float* input1, float* input2, float* output){
	for(int i = 0; i < nElements; i++){
		output[i] = sin(input1[i]) * sin(input2[i]);
		output[i] = cos(output[i]);
		output[i] = pow(output[i], output[i]);
	}
}

int main(int argc, char* argv[])
{
    cl_int status;

    cl_platform_id platforms[10];
    cl_uint num_platforms;
    status = clGetPlatformIDs(sizeof(platforms) / sizeof(platforms[0]),
		platforms,
		&num_platforms); // 1. プラットフォーム情報を取得

    cl_context_properties properties[]
        = {CL_CONTEXT_PLATFORM, (cl_context_properties)platforms[0], 0};

    cl_context context = clCreateContextFromType(properties,
        CL_DEVICE_TYPE_GPU,
        NULL,
        NULL,
        &status); // 2. コンテキストを生成

    cl_device_id devices[maxDevices];
    size_t size_return;
    status = clGetContextInfo(context,
		CL_CONTEXT_DEVICES,
		sizeof(devices),
		devices,
		&size_return); // 3. コンテキスト内のデバイスを取得

    cl_command_queue queue = clCreateCommandQueue(context,
        devices[0],
        0,
        &status); // 4. 使用するデバイスにコマンドキューを生成

    const char *sources[] = {
        "__kernel void\n\
        addVector(__global const float *input1,\n\
        __global const float *input2,\n\
        __global float *output)\n\
        {\n\
        int index = get_global_id(0);\n\
		output[index] = sin(input1[index]) * sin(input2[index]);\n\
		output[index] = cos(output[index]);\n\
		output[index] = pow(output[index], output[index]);\n\
    }\n"}; // カーネルのソースファイル

    cl_program program = clCreateProgramWithSource(context,
        1,
        (const char**)&sources,
        NULL,
        &status); // 5. プログラムオブジェクトの生成

    status = clBuildProgram(program, 1, devices, NULL, NULL, NULL);
    clUnloadCompiler(); // 6. プログラムのビルド

    cl_kernel kernel = clCreateKernel(program, "addVector", &status); // 7. カーネルの生成

    for (int i = 0; i < nElements; i++) {
        input1[i] = (float)i * 10.0f;
        input2[i] = (float)i / 20.0f;
        output[i] = 0.0f;
    }

    cl_mem memInput1 = clCreateBuffer(context,
		CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,
		sizeof(cl_float) * nElements,
		input1,
		&status); // 8. メモリオブジェクトの生成

    cl_mem memInput2 = clCreateBuffer(context,
        CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,
        sizeof(cl_float) * nElements,
        input2,
        &status);　// 8. メモリオブジェクトの生成

    cl_mem memOutput = clCreateBuffer(context,
        CL_MEM_WRITE_ONLY,
        sizeof(cl_float) * nElements,
        NULL,
        &status);　// 8. メモリオブジェクトの生成

    status = clSetKernelArg(kernel, 0, sizeof(cl_mem), (void *)&memInput1); // カーネル引数にセット
    status = clSetKernelArg(kernel, 1, sizeof(cl_mem), (void *)&memInput2); // カーネル引数にセット
    status = clSetKernelArg(kernel, 2, sizeof(cl_mem), (void *)&memOutput); // カーネル引数にセット

	 boost::chrono::steady_clock::time_point start =
		 boost::chrono::steady_clock::now(); // 時間計測開始

    size_t globalSize[] = {nElements};
    status = clEnqueueNDRangeKernel(queue,
        kernel,
        1,
        NULL,
        globalSize,
        0, 0, NULL, NULL); // 9. カーネルをコマンドキューに入れる

    status = clEnqueueReadBuffer(queue,
        memOutput,
        CL_TRUE,
        0,
        sizeof(cl_float) * nElements,
        output, 0, NULL, NULL); // 10. 結果の取得

	boost::chrono::duration sec =
		boost::chrono::steady_clock::now() - start; // 時間計測終了

    std::cout << "input1, input2, output" << std::endl;
    for (int i = 0; i < 100; i++) {
        std::cout << input1[i] << ", " << input2[i] << ", " << output[i] << std::endl;
    }
	
    std::cout << "OpenCL addVector " << sec.count() << " seconds\n";
	
    clReleaseMemObject(memOutput); // 11. リソース解放
    clReleaseMemObject(memInput2); // 11. リソース解放
    clReleaseMemObject(memInput1); // 11. リソース解放
    clReleaseKernel(kernel); // 11. リソース解放
    clReleaseProgram(program); // 11. リソース解放
    clReleaseCommandQueue(queue); // 11. リソース解放
    clReleaseContext(context); // 11. リソース解放

	boost::chrono::steady_clock::time_point start2 =
		boost::chrono::steady_clock::now(); //　時間計測開始

	addVector(input1, input2, output); // 通常の関数

	boost::chrono::duration sec2 =
		boost::chrono::steady_clock::now() - start2; // 時間計測終了

	std::cout << "Normal addVector " << sec2.count() << " seconds\n";
    return 0;
}

これをビルドし実行したところ次のような結果となった。

OpenCL addVector 0.126067 seconds
Normal addVector 1.13217 seconds

ちなみに実行環境は次のようになっている。

CPU : Core i7-2670QM (2.20GHz 4Core/8Thread VT:enable)
GPU : AMD RADEON 6770M
MEM : 8GB
HDD : 160GB SSD (Intel 320)
OS : Windows 7 Ultimate (x64)

このブログの開発用PCはこちら

投稿情報: 02:39 カテゴリー: C++, OpenCL, プログラム | 個別ページ | コメント (0) | トラックバック (0)

2011/03/02

OpenCLを使ってみる

GPUプログラミング環境としてはnVidiaのCUDAや、ATIのATI Streamなどがあるが、ハードウェアに依存してしまうので、ちょっと手を出したくない。それに対して、OpenCLは可搬性があるGPUプログラミン環境も含んだライブラリというとこで、ちょっと試してみることにした。

OpenCLのアーキテクチャを調べてみると、GPGPUライブラリだと思っていのは間違えで、デバイスとしてCPUも想定しているらしい。そのあたりの詳しい解説は、入門書もいくつかあるのでそちらを参照してほしい。

要は、CPUやGPUがOpenCLデバイスとして抽象化されていて、OpenCLホストというやつがタスクをキューに入れ、OpenCLデバイスがキューから取り出して処理するということらしい。

とりあえず、OpenCLのビルドができるかを確認するために、OpenCLのプラットフォーム情報を取り出してみる。ソースは次のような感じ。

#include 
#include 
#include 

using namespace std;

void printPlatformInfo(const cl_platform_id pid);

int main(int argc, char* argv[])
{
  cl_platform_id pform[10];
  cl_uint nPform;
  clGetPlatformIDs(sizeof(pform) / sizeof(*pform), pform, &nPform);

  cout << "Number of Platform(s) : " << nPform << endl;
  for(int i = 0; i < (int)nPform; i++){
    printPlatformInfo(pform[i]);
  }
  return EXIT_SUCCESS;
}

void printPlatformInfo(const cl_platform_id pid)
{
  char buf[BUFSIZ];
  clGetPlatformInfo(pid, CL_PLATFORM_PROFILE,
		    sizeof(buf) -1, buf, NULL);
  cout << "Platform Profile : " << buf << endl;

  clGetPlatformInfo(pid, CL_PLATFORM_VERSION,
		    sizeof(buf) -1, buf, NULL);
  cout << "Platform Version : " << buf << endl;

  clGetPlatformInfo(pid, CL_PLATFORM_NAME,
		    sizeof(buf) -1, buf, NULL);
  cout << "Platform Name : " << buf << endl;

  clGetPlatformInfo(pid, CL_PLATFORM_VENDOR,
		    sizeof(buf) -1, buf, NULL);
  cout << "Platform Vendor : " << buf << endl;

  clGetPlatformInfo(pid, CL_PLATFORM_EXTENSIONS,
		    sizeof(buf) -1, buf, NULL);
  cout << "Platform Extensions : " << endl;
}

clGetPlatformIDsという関数で、プラットフォームIDを取得し、そのIDを使ってclGetPlatformInfoでプラットフォームの情報を取得するという流れになる。

それぞれの関数のドキュメントは

にある。

Mac OS Xの場合ではヘッダーファイルが"OpenCL/opencl.h"となっているが他の環境では違うらしいので注意が必要。コマンドラインでのビルドは次のようにする

$ g++ -o testCL testCL.cpp -framework OpenCL

"-framework OpenCL"オプションをつければいいらしい。Xcodeの場合はなんかフレームワークを選べばいいっぽいがやったことはないからよくわからない。

上記のコードを手持ちのMac Bookで実行すると

Number of Platform(s) : 1
Platform Profile : FULL_PROFILE
Platform Version : OpenCL 1.0 (Aug 22 2010 18:08:16)
Platform Name : Apple
Platform Vendor : Apple
Platform Extensions :

こんな感じの結果になる。

投稿情報: 23:17 カテゴリー: Apple, C++, OpenCL | 個別ページ | コメント (0) | トラックバック (0)

いんちょき通信

INCHOKI Journal 自分的備忘録

2012/03/16

OpenCLのC++ Bindingsを使ってみる - その1

2012/03/12

OpenCLで実際に計算してみる

2011/03/02

OpenCLを使ってみる

検索

目次

最近の記事

カテゴリー

他のサービス