Vulkan

はじめに

Vulkanの概要

Vulkan（ヴァルカン）は、クロスプラットフォームの新しいグラフィックスAPIで、OpenGLの後継としてKhronos Groupによって策定されました。Vulkanの主な目的は、GPUの強力な並列処理能力を最大限に活用し、高いパフォーマンスとより低いオーバーヘッドを実現することです。

Vulkanは、OpenGLよりも「低レベル」で設計されており、GPU制御へのきめ細かなアクセスが可能です。開発者は、レンダリングパイプラインの詳細な部分までコントロールできるため、アプリケーションの要求に合わせて最適化が行えます。その一方で、APIの複雑さが高くなるため、学習曲線は急です。

Vulkanは、以下のようなワークロードを対象としています。

ゲーム
3Dアプリケーション
モバイルグラフィックス
コンピュートワークロード
データ並列ワークロード

VulkanはCPUとGPUの役割をより明確に分離し、GPUの並列能力を最大限に生かすアーキテクチャを採用しています。この設計により、より高い性能とスケーラビリティが期待できます。

次のセクションでは、Vulkanの主要な特徴と利点について説明します。

Vulkanの特徴と利点

Vulkanには以下のような主要な特徴と利点があります。

低オーバーヘッド: Vulkanは、CPU上でのドライバオーバーヘッドを最小限に抑えるように設計されています。レンダリングコマンドはバッチ化されてGPUに送られ、状態変更のオーバーヘッドを削減します。この低オーバーヘッドアーキテクチャにより、よりスムーズで高パフォーマンスなグラフィックスが実現できます。
細かい制御: Vulkanは、OpenGLよりも「低レベル」のAPIであり、開発者がレンダリングパイプラインをきめ細かく制御できます。シェーダー、メモリ管理、同期など、さまざまな側面で詳細な制御が可能です。この細かい制御により、アプリケーションの要求に合わせた最適化が行えます。
マルチスレッド対応: Vulkanは、マルチスレッドによるコマンド記録をネイティブでサポートしています。これにより、複数のCPUコアの活用が容易になり、レンダリングスループットが向上します。
コンピュートシェーダー: Vulkanには、コンピュートシェーダーが組み込まれており、GPUを使った汎用計算ワークロードの実行が可能です。機械学習、物理シミュレーション、データ並列処理などさまざまな用途に活用できます。
レイトレーシング: Vulkanには、ハードウェアレイトレーシングがネイティブでサポートされています。これにより、リアリスティックな光線追跡レンダリングが可能になり、ゲームやシミュレーションの視覚表現が向上します。
クロスプラットフォーム: Vulkanは、Windows、Linux、Android、macOSなどのデスクトップおよびモバイルプラットフォームで動作します。移植性の高いコードベースを構築でき、異なるプラットフォーム間での開発が容易です。
バックワードポータビリティ: Vulkanは、Khronos社のOpenGL ESやOpenGL向けに設計されており、これらのAPIからの移行パスが用意されています。

これらの特徴により、Vulkanは次世代のグラフィックスワークロードに対して、優れた性能とコントロール性を発揮できるAPIです。ただし、その詳細な制御機能は、開発の複雑さにもつながります。次のセクションでは、Vulkan開発環境のセットアップについて説明します。

開発環境の設定

Vulkanの開発環境をセットアップするには、以下の手順が必要になります。

Vulkan SDKをインストール
Vulkan開発の中心となるのは、LunarG社が提供するVulkan SDKです。このSDKには、Vulkan実装、ヘルパーライブラリ、デモアプリ、デバッグレイヤーなどが含まれています。最新のSDKは以下のURLからダウンロードできます。
https://vulkan.lunarg.com/sdk/home

SDKには、各プラットフォーム向けのインストーラが用意されているので、開発するOSに合わせてインストールします。
IDEの統合
次に、使用するIDEにVulkanの開発を統合する必要があります。多くの主要IDEは、Vulkan SDKを認識し、自動的に設定を行ってくれます。Visual StudioやXcodeなどの一般的なIDEをお使いの場合は、簡単に設定できるはずです。
グラフィックスドライバのインストール
お使いのGPUに適したグラフィックスドライバをインストールします。GPUベンダーのサイトから最新のドライバをダウンロードし、適切にインストールしてください。特に、レイトレーシングやコンピュート機能を使用する場合は、最新のドライバを使用することが推奨されます。
Vulkanヘッダとライブラリをインクルード
VulkanではC++を主に使用するため、IDEプロジェクトにVulkan SDKが提供するヘッダとライブラリをインクルードする必要があります。インクルード方法は開発環境によって異なりますが、通常はVulkan SDKのインストールパスを参照するよう設定します。
初期コードを書く
環境のセットアップが完了したら、以下のような基本的なVulkanコードを書いてみましょう。
```
#define VULKAN_HPP_DISPATCH_LOADER_DYNAMIC 1
#include <vulkan/vulkan.hpp>

int main() {
    vk::Instance instance; // Vulkanインスタンスを作成
    return 0;
}
```
これが正常にコンパイル、リンクできれば、お使いの環境でVulkanの開発ができる状態になります。

Vulkanの開発環境は、他のグラフィックスAPIに比べてやや複雑ですが、一度環境を整えれば、その高性能な機能を活用できるようになります。IDEの統合ツールを使えば、環境構築をスムーズに行えるでしょう。次に、Vulkanのレンダリングパイプラインについて学んでいきます。

レンダリングパイプライン

レンダリングパイプラインは、Vulkanにおける3Dグラフィックスレンダリング処理の核心部分です。以下の流れに沿って説明します。

レンダリングパイプラインの概要

Vulkanのレンダリングパイプラインは、OpenGLのそれとは異なり、GPU上で実行されるコマンドバッファによって厳密に定義されています。CPUは、GPUに送信するコマンドバッファを構築する役割を担います。

レンダリングパイプラインは、以下のサブシステムから構成されています。

コマンドバッファの記録: CPUは、GPUに送信するコマンドバッファを構築します。この際、レンダリングステートや描画コマンドを指定します。
プリミティブ集積: 頂点データは頂点シェーダーで処理され、プリミティブ集積ステージに渡されます。
ラスタライザ: プリミティブは、ラスタライザによって画面上のフラグメントに変換されます。
フラグメントシェーダー: フラグメントシェーダーは、各フラグメントの色を計算します。
デプステスト、ステンシルテスト: デプスやステンシルテストを適用し、フラグメントを受け入れるか破棄するか判断します。
フレームバッファブレンディング: 受け入れられたフラグメントは、フレームバッファと合成(ブレンド)されます。
プレゼンテーション: 最終的に、フレームバッファの内容がディスプレイに出力されます。

この一連の処理は、GPUのマッシブな並列アーキテクチャ上で高速に実行されます。レンダリングパイプラインの詳細は、コマンドバッファに厳密に定義されています。

次のセクションでは、パイプラインの中核を成す様々なシェーダーの種類と役割について説明していきます。

様々なシェーダーの種類と役割

Vulkanのレンダリングパイプラインでは、さまざまな種類のシェーダープログラムが使用されます。これらのシェーダーは、パイプラインの異なるステージで実行され、レンダリング処理の各段階を担当します。

頂点シェーダー: 頂点シェーダーは、レンダリングパイプラインの最初の段階で実行されます。頂点データ(位置、法線、テクスチャ座標など)を入力として受け取り、頂点の変換、頂点の物理シミュレーションなどの処理を行います。この段階で頂点はプリミティブに集約されます。
テッセレーションコントロールシェーダー: テッセレーションコントロールシェーダーは、曲面をパッチに分割し、そのパッチに適用する細分化レベルを決定します。高精細メッシュの生成に使われます。
テッセレーションプリミティブシェーダー: テッセレーションプリミティブシェーダーは、コントロールシェーダーによって生成された細分化パッチから、新しい頂点を生成します。
ジオメトリシェーダー: ジオメトリシェーダーは、プリミティブ集積の後に実行され、新しいプリミティブを生成したり、既存のプリミティブを破棄することができます。ビルボードスプライトの生成や、単一ジオメトリから複数のレンダリングパスを実行するレンダリングテクニックに使用されます。
フラグメントシェーダー: フラグメントシェーダーは、ラスタライザによって生成された各フラグメント(ピクセル)に対して実行されます。フラグメントのライティング計算、テクスチャマッピング、フォグなどの処理を担当し、フラグメントの最終的な色を出力します。
コンピュートシェーダー: コンピュートシェーダーは、画像やバッファに対する汎用的な並列計算を実行するためのシェーダーです。GPUによるデータ並列処理、物理シミュレーション、画像合成などの用途に使用できます。

これらのシェーダーは、SPIR-Vバイトコード(Khronos公開の中間表現)として、Vulkanのパイプラインに組み込まれます。開発者は、シェーダー言語(GLSL、HLSL、MetalSLなど)を使ってシェーダープログラムを記述し、それをSPIR-Vにオフラインでトランスパイルします。

シェーダーは、レンダリングパイプラインの非常に重要な部分を成しており、様々な用途に合わせてカスタマイズすることができます。次のセクションでは、レンダーパスの設計について説明します。

レンダーパスの設計

レンダーパスの設計は、Vulkanにおける3Dレンダリングの核心的な部分です。レンダーパスとは、レンダリングパイプラインを通過するデータの流れを定義するものです。適切なレンダーパスを設計することで、効率的で高品質な3Dレンダリングが可能になります。

フォワードレンダリング: 最も基本的なレンダーパスは、フォワードレンダリングです。このアプローチでは、ジオメトリは1度だけレンダリングされ、すべての照明計算がフラグメントシェーダーで行われます。フォワードレンダリングは実装が簡単ですが、多数のライトがある場合は非効率的になります。
ディファードレンダリング: ディファードレンダリングは、ジオメトリのレンダリングと照明計算を分離します。まず、ジオメトリデータ(位置、法線、カラーなど)をGバッファに書き込みます。次に別のパスで、蓄積された情報から最終的な色を計算します。複雑なシーンでは効率的ですが、シェーディングモデルの自由度が制限されます。
タイルドレンダリング: タイルドレンダリングは、画面をタイルに分割し、各タイルごとに効率的にレンダリングを行う手法です。モバイル/ゲームデバイスで広く採用されており、メモリバンド幅を大幅に削減できます。実装は複雑ですが、うまく設計すれば大幅な高速化が期待できます。
レイトレーシング: レイトレーシングは、光線の軌跡をシミュレートすることで、非常に高品質でリアルな映像を実現します。Vulkanにはレイトレーシングのネイティブサポートが組み込まれています。レイトレーシングは高コストですが、GPUのコンピュート性能の向上に伴い実用化が進んでいます。

レンダーパスの設計は、シーンの複雑さやターゲットハードウェア、要求される品質など、さまざまな要因を考慮する必要があります。高度なレンダリングエンジンでは、シーンの特性に応じて動的にレンダーパスを切り替えることもあります。

また、各レンダーパスには、対応するシェーダープログラムのセットが必要です。シェーダープログラムは、レンダーパスの特性に合わせて適切に設計されなければなりません。

次のセクションでは、Vulkanにおけるリソース管理、特にバッファとイメージ、メモリ管理について解説します。

リソース管理

バッファとイメージの作成と管理

Vulkanにおいて、バッファとイメージはGPUリソースの中核をなすオブジェクトです。これらは主にデータの転送、テクスチャマッピング、レンダリングターゲットなどに使用されます。Vulkanではバッファとイメージの作成と管理が明示的に行われ、開発者がリソース使用をきめ細かく制御できます。

バッファ

バッファはGPUにアップロードされる線形のデータ領域です。以下のような用途があります。

頂点バッファ: メッシュの頂点データを保持
インデックスバッファ: 頂点インデックスを保持
ユニフォームバッファ: シェーダーに渡す動的パラメータ
ストレージバッファ: コンピュートシェーダーの入出力

バッファを作成する際は、まずバッファ作成情報を指定します。サイズ、使用目的、メモリプロパティなどを設定します。次にVkBufferオブジェクトを作成し、físicalDeviceMemoryをアロケートしてバインドします。

VkBufferCreateInfo bufferInfo = {...};
VkBuffer buffer;
vkCreateBuffer(device, &bufferInfo, nullptr, &buffer);

VkMemoryRequirements memRequirements;
vkGetBufferMemoryRequirements(device, buffer, &memRequirements);

VkMemoryAllocateInfo allocInfo = {...};
VkDeviceMemory memory;
vkAllocateMemory(device, &allocInfo, nullptr, &memory);

vkBindBufferMemory(device, buffer, memory, 0);

イメージ

イメージはGPUで使用される2D、3Dのピクセルデータを保持します。主な用途は以下の通りです。

テクスチャマッピング
レンダーターゲット(カラー、デプス、ステンシルなど)
スワップチェインイメージ
転送イメージ(テクスチャのアップロード/ダウンロードなど)

イメージの作成フローはバッファとよく似ていますが、追加でイメージビューの作成が必要になります。イメージビューはイメージデータへのビュー(インターフェイス)であり、テクスチャやフレームバッファにバインドされます。

VkImageCreateInfo imageInfo = {...};
VkImage image;
vkCreateImage(device, &imageInfo, nullptr, &image);

VkMemoryRequirements memRequirements;
vkGetImageMemoryRequirements(device, image, &memRequirements);

VkImageViewCreateInfo viewInfo = {...};
VkImageView view;
vkCreateImageView(device, &viewInfo, nullptr, &view);

バッファとイメージの作成、バインド、デストラクションは、メモリリークやパフォーマンス低下を回避するため、適切に管理されなければなりません。Vulkanではリソース管理の自由度が高い代わりに、開発者がきちんと管理する責任を負います。次にメモリ管理の詳細について見ていきます。

Vulkanでは従来のパーティクルワークやテクスチャーマッピングは不要ですか？

Vulkanは従来のグラフィックスAPIと比較して、より低レベルでのハードウェア制御を提供するため、一部の概念や手法が変化する可能性がありますが、パーティクルワークやテクスチャーマッピングが完全に不要になるわけではありません。

Vulkanにおけるパーティクルワークでは、従来の方法とは異なるアプローチが必要となることがあります。具体的には、Vulkanは低レベルのハードウェア制御を提供するため、パーティクルエフェクトをレンダリングする際にはカスタムシェーダーや計算シェーダーを使用するのが一般的です。また、GPUのコンピューティング機能を活用して、パーティクルの動きや挙動を精密に制御することも可能です。

一方、テクスチャーマッピングはVulkanでも引き続き重要な技術です。この手法は、3Dモデルやオブジェクトにリアルな外観や質感を与えるために広く利用されています。Vulkanでは、テクスチャーマッピングを実装するための新しい機能や最適化が提供されており、これによりより効率的なレンダリングが実現できます。

さらに、Vulkanは柔軟なテクスチャーマッピング手法をサポートしており、開発者はさまざまな視覚効果やスタイルを実現するための道具を手に入れています。これにより、アプリケーションのビジュアル表現の幅が広がります。

このように、Vulkanは従来の手法と異なるアプローチを取ることがあるものの、パーティクルワークやテクスチャーマッピングといった基本的な概念や技術は依然として重要です。開発者はVulkanの特性を活用して、より効率的で高度なグラフィックスアプリケーションを開発することができます。

メモリ管理 -- 同期プリミティブ

Vulkanにおけるメモリ管理は、リソースの効率的な利用とパフォーマンスの最適化において重要な側面を占めています。また、並列操作を行う際の同期の取り扱いも欠かせません。

メモリアロケーション

Vulkanでは、バッファやイメージなどのリソースは、専用のデバイスメモリ領域にマップされます。デバイスメモリは、GPUメモリプールからアロケートされます。

メモリアロケーションでは、以下の点に留意する必要があります。

メモリタイプ: メモリの種類(ビデオRAM、システムRAMなど)を選択
メモリヒープ: アロケーションがなされるメモリプールを選択
アラインメント: パフォーマンス上の要件に基づくアライメント制約

適切なメモリ管理を行うことで、メモリの有効活用とパフォーマンス最適化が図れます。

メモリプーリング

大規模なリソースを個別にアロケートすると、メモリフラグメンテーションが生じる可能性があります。メモリプーリングはこの問題を解決するためのテクニックです。

メモリプーリングでは、メモリマネージャを自作し、リソースからの要求に応じてメモリチャンクを動的に割り当て・解放します。これにより、リソース間でメモリを効率的に共有し、フラグメンテーションを最小限に抑えられます。

同期プリミティブ

Vulkanは、GPUのマルチスレッド並列アーキテクチャを最大限に活用できるよう設計されています。しかし並列操作を行う際、適切な同期が必要不可欠です。

主な同期プリミティブは以下のものがあります:

フェンス: GPU実行を同期するためのフェンスオブジェクト
セマフォ: 異なるキューやバッチ間の同期に使用
バリア: メモリアクセスの同期を制御するメモリバリア
イベント: CPU-GPUの実行同期に使用

これらの同期プリミティブを適切に使うことで、レースコンディションやハザードを回避し、安全な並列実行を実現できます。同期の過剰使用は性能低下を招くため、バランスの取れた設計が重要です。

Vulkanのメモリ管理と同期プリミティブは、相対的に低レベルで露出されているため、開発者が適切に制御する必要があります。しかし、最適なメモリ利用と同期制御を行えば、GPUの並列能力を最大限に活用でき、高パフォーマンスなグラフィックスが実現できます。

レンダリング最適化

パフォーマンス分析とプロファイリング

Vulkanのレンダリング性能を最適化するには、まずパフォーマンス分析とプロファイリングが不可欠です。この作業を通じて、性能ボトルネックを特定し、改善の手がかりを得ることができます。

パフォーマンスカウンタ

Vulkanには、GPUのハードウェアパフォーマンスカウンタにアクセスするAPIが用意されています。これにより、各種パイプラインステージの実行時間、キャッシュミスレート、SIMD活用率など、低レベルの性能メトリクスを取得できます。

VkPerformanceConfigurationAcquireInfoKHR acquireInfo = {...};
VkPerformanceConfigurationKHR perfConfig;
fpAcquirePerformanceConfigurationKHR(device, &acquireInfo, &perfConfig);

VkPerformanceQuerySubmitInfoKHR submitInfo = {...};
vkQueueSubmit(queue, 1, &submitInfo, fence); 

uint64_t counterValue = 0;
VkPerformanceCounterResultKHR result = fpAcquirePerformanceCounterDataKHR(
           device, perfConfig, &counterValue, sizeof(uint64_t));

レンダリングプロファイラ

GPUベンダーが提供するグラフィックスプロファイラは、より高レベルな分析に役立ちます。レンダリングコマンドの実行時間、スレッド活用状況、パイプラインステージの詳細など、多くの情報を可視化できます。一般に、プロファイラはGPUドライバと連携してデータを取得します。

レンダリングのパフォーマンスメトリクス

分析の主なターゲットは以下のようなメトリクスです:

フレームレンダリング時間
CPUとGPUの負荷分散状況
命令スループット、テクスチャキャッシュミスレート
パイプラインステージでのボトルネックやバブル
シェーダーの性能特性
データトランスファ効率
ドロースール・ピクセル過剰処理

パフォーマンス分析の結果を基に、適切な最適化戦略を立案する必要があります。特に、Vulkanのレンダリングワークロードは他のAPIよりも細かくチューニング可能です。

次のセクションでは、具体的な最適化テクニックとして、マルチスレッドレンダリングとGPU並列処理について取り上げます。

マルチスレッドレンダリング

Vulkanは、マルチスレッドによるレンダリング処理をネイティブでサポートしています。これにより、CPUの複数コアを有効活用し、レンダリングスループットを大幅に向上させることができます。

コマンドバッファのマルチスレッド記録

Vulkanの中心的な機能の1つが、コマンドバッファのマルチスレッド記録です。複数のスレッドから並列してコマンドバッファに描画コマンドを記録でき、最終的にそれらをGPUキューにバッチ的に送信します。

std::vector<VkCommandBuffer> cmdBuffers(numThreads);
std::vector<std::thread> threads(numThreads);

for(uint32_t i=0; i<numThreads; ++i) {
    threads[i] = std::thread([&](uint32_t threadIdx){
        //コマンドバッファへの記録
        recordCommandBuffer(cmdBuffers[threadIdx], threadIdx);
    }, i);
}

//スレッドの終了を待機
for(auto& thread : threads) thread.join();

//コマンドバッファをGPUキューに送信
vkQueueSubmit(queue, cmdBuffers.size(), &submitInfo, fence);

この並列化により、CPUのマルチスレッド性能を最大限に活用できます。特に大規模シーンの処理で効果を発揮します。

レンダリングの肩代わり

マルチスレッドはレンダリング以外の処理にも応用できます。画像のアップロード、ジオメトリ変換、フラスタムカリングなどの高コスト処理を、別スレッドにオフロードすることで、メインレンダリングスレッドの負荷を下げられます。

マルチスレッドの課題

マルチスレッドではデータ競合や同期の問題に注意が必要です。バッファやイメージなどのリソースは適切にロックする必要があります。また、レンダリング命令の送出順をセマフォで同期する必要があり、設計が複雑になります。

したがって、マルチスレッド化にはスレッド分割の粒度や同期オーバーヘッドの検討が不可欠です。ただし、シーンが大規模であればあるほど、メリットも大きくなります。マルチスレッドレンダリングの活用は、Vulkanの重要な最適化ポイントです。

次のセクションでは、もうひとつの最適化の柱、GPU並列処理について解説します。

GPU並列処理

GPUの並列処理能力を最大限に活用することは、Vulkanにおけるレンダリング最適化の要です。近年のGPUはマッシブな並列アーキテクチャを持ち、数千を超えるコアを搭載しています。Vulkanではこの並列性をプログラムによって明示的にコントロールできます。

コンピュートシェーダー

Vulkanには、汎用の並列計算を実行するためのコンピュートシェーダーが組み込まれています。コンピュートシェーダーは、GPUの膨大な数のコアにデータ並列的にディスパッチされ、高度に並列化された計算を実行できます。以下のような用途があります。

物理シミュレーション(剛体、流体、clothなど)
画像合成やポストプロセス
機械学習やディープラーニングの推論
データ変換、エンコーディング
幾何演算(CSGモデリング、ボクセル処理など)

レンダリングパイプライン並列化

レンダリングパイプライン自体にも並列性があり、Vulkanではそれを活用できます。例えばタイルベースのレンダリング手法では、画面をタイルに分割し、各タイルをGPUの異なるコアで並列処理します。

さらに、ジオメトリシェーダーを利用すれば、ひとつのジオメトリから複数のレンダリングパスを生成し、それらを並列化できます。

マルチGPUレンダリング

最近のGPUには、単一のGPUダイ内に複数の物理GPUコアを搭載するマルチGPUアーキテクチャが登場しています。Vulkanはこうした環境に対応しており、マルチGPUモードでのレンダリングを実現できます。

マルチGPUレンダリングでは、シーンをGPUコア間で分割し、それぞれのコアが並行してレンダリングを行います。さらに、NVIDIAのNVLinkなどのGPU間高速インターコネクトにも対応しています。

最適化の考慮点

GPU並列処理を適切に設計するには、以下の点を考慮する必要があります。

並列化粒度: どの程度細かく並列化するか
ロード/ストアバランス: 計算とメモリ転送のバランス
データレイアウト: メモリアクセスの局所性を高める
分散/ギャザー: 計算結果の効率的な集約
同期オーバーヘッド: 過剰な同期による効率低下

GPUの並列アーキテクチャを最大限に活用すれば、レンダリングはかつてないほど高速化できます。しかし設計は複雑になるため、用途に合わせて適切な並列化戦略を検討する必要があります。 Vulkanはその自由度の高さゆえに、開発者の腕にかかっています。

上級トピック

レイトレーシング

レイトレーシングは、光の振る舞いを物理的にシミュレートし、非常に高品質で写実的なレンダリング結果を実現する手法です。Vulkanには、ハードウェアレイトレーシングをネイティブでサポートする拡張機能セットが組み込まれています。

レイトレーシングの仕組み

レイトレーシングでは、カメラ(ビューポイント)から放射状に無数の光線(レイ)を射出し、それらがシーン内の物体とどのように相互作用するかをシミュレートします。

レイが物体に交差した場合、交点での光の振る舞い(反射、屈折、吸収など)を計算
反射レイ、屈折レイを新たに追跡し、プロセスを繰り返す
最終的に視点に到達したレイの情報から、ピクセル色を決定

この手法により、ぼかし、反射、屈折、色の出血、グローバルイルミネーションなど、非常に高品質で写実的なレンダリング結果が得られます。

Vulkanのレイトレーシングパイプライン

Vulkanでは、レイトレーシング処理用の専用パイプラインが導入されています。主な構成は以下の通りです。

加速構造: レイ/ジオメトリ交差検出を高速化するBVHなどの空間データ構造
レイジェネレーションシェーダー: レイを生成し、パイプラインに投入
レイトレーシングシェーダー: レイ/ジオメトリ交差時に実行され、シェーディングやレイの再生を行う
インターセクションシェーダー: レイ/ジオメトリ交差検出のカスタマイズに使用

レイトレーシングパイプラインは、ラスタライズパイプラインとは独立に定義・実行されます。ハイブリッドレンダリングも可能で、一部レイトレーシングを活用しつつ、ラスタライズと組み合わされることもあります。

ハードウェアレイトレーシング

レイトレーシングは計算コストが高く、ソフトウェアでの実装は実用的ではありませんでした。しかし最近では、専用のレイトレーシングハードウェアがGPUに統合され始めています。ハードウェアレイトレーシングユニットの登場により、リアルタイムでのレイトレーシングが現実的になってきました。

Vulkanは、こうしたハードウェアレイトレーシング機能にネイティブに対応しています。開発者は、レイトレーシングのコードパスをうまく設計することで、ハードウェアの恩恵を受けられます。

レイトレーシングは強力な手法ですが、まだ一部の制約があり、全シーンでの使用は現実的でありません。ゲームエンジンなどでは、シーンの一部分のみレイトレーシングを使用し、他の部分はラスタライズなどの従来手法と組み合わせるハイブリッドレンダリングが一般的です。レイトレーシング活用の自由度は、Vulkanならではの特徴と言えるでしょう。

コンピュートシェーダー

コンピュートシェーダーは、Vulkanの大きな強みの1つです。これは、GPUの並列処理能力を汎用的な計算タスクに活用するためのシェーダーです。

コンピュートシェーダーの機能

コンピュートシェーダーは、GPUのマッシブなコア数に対して、データ並列的にカーネルをディスパッチします。各コアは独立してカーネル実行を行い、高度に並列化された計算を実現できます。従来のGPUでは実現が難しかった、以下のような並列計算処理がコンピュートシェーダーで可能になります。

物理シミュレーション(剛体、流体、cloth等)
画像合成、ポストエフェクト
機械学習の推論処理
データ変換、エンコーディング
ジオメトリ処理(CSG、ボクセル等)
並列アルゴリズム(ソート、スキャン等)

コンピュートパイプライン

Vulkanでは、コンピュートシェーダー用に専用のパイプラインが用意されています。このパイプラインは、ラスタライズパイプラインとは別個に定義・実行されます。

主な構成は以下の通りです。

コンピュートシェーダー: 並列カーネル関数を含む
ストレージバッファ/イメージ: 入出力データを保持
ディスパッチャラメータ: グリッドサイズ、ワークグループサイズなど

コンピュートシェーダーはきわめて汎用的で、様々な種類の並列計算に活用できますが、状況に合わせて最適化が必要不可欠です。

最適化の考慮点

並列化粒度: どの程度細かくスレッドを分割するか
メモリアクセスパターン: コアレッシングなどによる効率化
レイアウトとデータ構造: メモリ局所性の確保
分散/ギャザー演算: ワークグループ間の結果集約
同期オーバーヘッド: ワークグループ同期のコスト管理

また、コンピュートシェーダーは他のシェーダーと組み合わせて使うことも可能です。例えば、ジオメトリ処理をコンピュートで行った後、レンダリングにフィードするなどの使い方があります。

コンピュートシェーダーの出現により、GPUは単なるグラフィックス加速器から、汎用並列プロセッサへと進化を遂げました。Vulkanを使えばGPUのこの並列計算能力を、柔軟かつ効率的に利用できるのです。ゲームエンジンからディープラーニングまで、多様な分野で活用が広がっています。

Vulkanレイヤーとツール

Vulkan開発を支援するために、Khronos Groupによっていくつかのレイヤーやツールが提供されています。これらを活用することで、デバッグ、検証、プロファイリングなどの作業を効率化できます。

検証レイヤー

Vulkan検証レイヤーは、アプリケーションのVulkan API使用を監視し、潜在的な誤りやハザードを特定するためのツールです。以下のようなチェックを行います。

オブジェクト生成の適切性チェック
パラメータ値の範囲チェック
スレッド安全性の確認
必須の手順の実施チェック
リソースの確保と解放のトラッキング

検証レイヤーにより、アプリケーションのVulkan利用の正確性と健全性を高められます。デバッグ時に有効に活用できます。

GPUアシステッドレイヤー

GPUアシステッドレイヤーは、GPUそのもののハードウェア機能を利用してさまざまなチェックやツールアシストを行います。

アプリケーションのGPUコマンドをトレース・キャプチャする
レンダリング結果に対するGPUアシステッドチェック
GPUのパフォーマンスカウンタを収集
シェーダーデバッグ支援

GPUアシステッドレイヤーは、ハードウェアベンダーが提供するレイヤーで構成されています。

Vulkan エクステンションライブラリ

Vulkan機能の一部は、オプションのエクステンションライブラリとして提供されています。必要に応じてこれらをリンクし、機能を拡張できます。主なものは以下の通りです。

VK_EXT_debug_utils: 拡張デバッグユーティリティ
VK_KHR_portability_subset: ポータビリティ規格サブセット
VK_KHR_video: ビデオコーデックサポート

グラフィックスプロファイラ

GPUベンダーは、Vulkanレンダリングをプロファイリングするためのグラフィックスプロファイラツールを提供しています。レンダリングコマンド実行の詳細なトレースや、スレッド/GPU負荷分析、パイプラインパフォーマンス解析などの機能があり、最適化に役立ちます。

ツールとデバッガ

さらに、Vulkanアプリケーション開発をサポートするフル機能のIDEプラグイン等のツールやデバッガも存在します。これらのツールチェーンとうまく連携しながら開発を行うことが重要です。

Vulkanは低レベルなAPIであり、そのパワフルな機能を手動で適切に制御する必要があります。したがって、これらのツール群は開発を円滑に進め、高品質なVulkanアプリを実現する上で大きな助けとなるでしょう。

サンプルコードとデモ

基本的なレンダリングパイプラインの実装

ここでは、Vulkanで基本的な3Dレンダリングパイプラインを実装する方法を紹介します。以下のステップに従って進めていきます。

インスタンスとデバイスの作成

Vulkanでは、最初にインスタンスとデバイスを作成する必要があります。

// インスタンスを作成
VkInstance instance;
createInstance(&instance);

// デバイスを作成
VkDevice device;
createDevice(instance, &device);

コマンドプールとコマンドバッファの準備
次に、コマンドプールとコマンドバッファを作成します。コマンドバッファは、GPUに送信する描画コマンドを記録するためのものです。
```
// コマンドプールを作成
VkCommandPool cmdPool;
createCommandPool(device, &cmdPool);

// コマンドバッファを割り当て
VkCommandBuffer cmdBuffer;
allocateCommandBuffer(cmdPool, &cmdBuffer);
```

レンダリングパイプラインの構築

レンダリングパイプラインを定義し、これにシェーダーとレンダリングステートを設定します。

// 頂点シェーダーをロード
VkShaderModule vertShader = loadSPIRVShader("vertex.spv");

// フラグメントシェーダーをロード  
VkShaderModule fragShader = loadSPIRVShader("fragment.spv");

// レンダリングパイプラインを作成
VkPipeline pipeline;
createRenderPipeline(device, vertShader, fragShader, &pipeline);

頂点バッファとインデックスバッファの作成

ジオメトリデータを含む頂点バッファとインデックスバッファを作成します。

// 頂点データを用意
std::vector<Vertex> vertices = {...};

// 頂点バッファを作成
VkBuffer vertexBuffer;
createBuffer(device, vertices.data(), vertices.size() * sizeof(Vertex), &vertexBuffer);

// インデックスデータを用意 
std::vector<uint32_t> indices = {...};

// インデックスバッファを作成
VkBuffer indexBuffer;  
createBuffer(device, indices.data(), indices.size() * sizeof(uint32_t), &indexBuffer);

レンダリングコマンドの記録

レンダリングコマンドをコマンドバッファに記録します。

// コマンドバッファ記録を開始
beginCommandBuffer(cmdBuffer);

// レンダーパスの開始
vkCmdBeginRenderPass(cmdBuffer, ...);  

// パイプラインをバインド
vkCmdBindPipeline(cmdBuffer, ...);

// 頂点バッファをバインド 
vkCmdBindVertexBuffers(cmdBuffer, ...);

// インデックスバッファをバインド
vkCmdBindIndexBuffer(cmdBuffer, ...);

// ジオメトリを描画  
vkCmdDrawIndexed(cmdBuffer, ...);

// レンダーパスの終了
vkCmdEndRenderPass(cmdBuffer);

// コマンドバッファ記録を終了
endCommandBuffer(cmdBuffer);

コマンドバッファの送信と同期

記録したコマンドバッファをGPUキューに投入し、完了を待機します。

// キューにコマンドを送信
VkQueue queue;
vkQueueSubmit(queue, 1, &cmdBuffer, VK_NULL_HANDLE);

// GPU実行完了を待機
vkQueueWaitIdle(queue);

この基本的な流れに従えば、Vulkanで単純な3Dシーンをレンダリングできます。さらに、パイプラインとシェーダーを拡張したり、追加のリソース(テクスチャ、ユニフォームバッファなど)を導入することで、より高度なレンダリングが可能になります。

実装の詳細は省略しましたが、このサンプルコードでVulkanの基本的な使い方がわかるでしょう。次に、より高度なレンダリングテクニックである物理ベースレンダリングについて見ていきます。

物理ベースレンダリング

物理ベースレンダリング(Physically Based Rendering, PBR)は、現実の物理法則に基づいてマテリアルの外観をシミュレートするレンダリング手法です。Vulkanを使えば、高品質なPBRレンダリングを実装できます。

PBRの基礎

PBRでは、マテリアルの特性をミクロ的な物理パラメータ(粗さ、反射率、金属度など)で表現します。これらのパラメータを使って、正確な光の振る舞いをシミュレートできます。

正確な分散反射の計算(GGXなどのミクロファセット理論)
多重散乱の近似計算
環境マッピングによる現実的な反射/屈折
エネルギー保存に基づく適切な光輸送
物理ベースのシェーディングモデル(Cook-Torranceなど)

PBRシェーダー

Vulkanで物理ベースレンダリングを実装するには、適切なPBRシェーダーが必要不可欠です。以下のような処理を行います。

頂点シェーダー

頂点変換、スキニング
法線/接ベクトルの変換

ピクセルシェーダー

ミクロファセット分布の計算(GGX等)
フレネル項の計算
Cook-Trranceモデルによるスペキュラー項
環境マップからの間接光計算
IBL(Image Based Lighting)による全天球照明

Vulkanの活用

Vulkanの機能を活用すれば、高品質なPBRを効率的に実現できます。

デスクリプタセット: PBRマテリアル定数をまとめて転送
プッシュ定数: 光源データをピクセルごとに転送
テクスチャアレイ: アルベド、正規化roughness、metallic、AOなどをパックして格納
レイトレーシング: 正確な反射/屈折光線追跡によるGIの計算
コンピュートシェーダー: 放射輝度のプリフィルタリング

PBRは計算が重く、効率的な実装が求められます。Vulkanのリソース管理や並列処理機能を活用し、GPUパワーを最大限に引き出すことが重要です。

プロダクション事例

PBRはゲームエンジンやCADビューワーで幅広く採用されています。代表例を挙げると、Unreal Engine、Unity、CryEngine、Autodesk製品などです。物理ベースの正確なレンダリングにより、質感の再現性が大幅に向上しています。

物理ベースレンダリングの理論は複雑ですが、Vulkanを使えば効率的な実装が可能になります。徐々に主流になりつつあるこの手法をマスターすることで、よりリアリスティックで見栄えのよいレンダリングを実現できるでしょう。

ゲームエンジンとの統合

Vulkanはそのパワフルな機能とパフォーマンス特性から、次世代ゲームエンジンのグラフィックスバックエンドとして理想的な選択肢です。しかし、Vulkanを既存のゲームエンジンアーキテクチャに統合するには、いくつかの課題があります。

レンダリングアーキテクチャの再設計

従来のゲームエンジンは、OpenGLやDirectXなど高レベルグラフィックスAPIに基づいて設計されています。一方、VulkanはGPUへの低レベルアクセスを前提としているため、レンダリングアーキテクチャを根本から再構築する必要があります。

具体的には、レンダリングコマンドの記録、リソース管理、同期、マルチスレッド化など、様々な観点でVulkan向けの設計が求められます。レンダーパイプラインやリソースの抽象化レイヤーを新たに構築し、ゲームエンジンの上位層から隔離することが一般的です。

マルチプラットフォーム対応

VulkanはクロスプラットフォームAPIですが、様々なハードウェアやプラットフォームに完全に対応するのは容易ではありません。各プラットフォームの特性を抽象化し、個別の最適化を施す必要があります。

また、Vulkanの機能のサブセットしか実装されていないデバイスへの対応も求められます。機能のフォールバックパスやデバイスのキャップ管理など、ポータビリティ確保のためのメカニズムが重要になります。

レガシーとの統合

多くのゲームエンジンには、長年の開発を経て蓄積された既存コードベースがあります。Vulkanはこれらのレガシーコードとの統合が避けられません。特にレンダリングパイプラインとは異なる部分については、上手く再利用できるよう留意が必要です。

ツーリングとエコシステム

また、Vulkanを有効に使いこなすには、各種デバッグ・プロファイリングツール、シェーダー開発ツール、アセットパイプラインなどのツーリング環境が欠かせません。ゲームエンジンベンダーはこういった面でのエコシステム構築にも注力しなければなりません。

要員とスキル

Vulkanを本格的に導入するには、低レベルのグラフィックスプログラミングに精通した要員が必要不可欠です。現存するゲームエンジン開発チームにそうした技術的背景を持つ人材が不足している可能性があります。要員の確保と研修が課題となるでしょう。

Vulkanを本格採用するメリットは大きいものの、その移行には多くの困難が伴います。フル活用するには時間を要しますが、ゲームエンジンベンダーにはそのための戦略的投資が求められるでしょう。幸いなことに、Khronos GroupによるVulkan導入支援プログラムなどの支援策もあり、ベンダー間での知見の共有も進んでいます。

附録

Vulkan API リファレンス

この附録では、Vulkan APIの主要な関数とデータ構造について簡単に解説します。

インスタンスとデバイス

vkCreateInstance: Vulkanインスタンスを作成
vkEnumeratePhysicalDevices: 利用可能な物理デバイス(GPU)を列挙
vkCreateDevice: 物理デバイスからロジカルデバイスを作成

キューとコマンドバッファ

vkGetPhysicalDeviceQueueFamilyProperties: キューファミリを列挙
vkCreateCommandPool: コマンドプールを作成
vkAllocateCommandBuffers: コマンドバッファを確保
vkQueueSubmit: コマンドバッファをキューに投入

スワップチェーン

vkCreateSwapchainKHR: スワップチェーンを作成
vkGetSwapchainImagesKHR: スワップチェーンイメージを取得
vkAcquireNextImageKHR: レンダリング用のイメージを取得
vkQueuePresentKHR: レンダリング結果を反映

シェーダーとパイプライン

vkCreateShaderModule: シェーダーモジュールを作成
vkCreateGraphicsPipelines: レンダリングパイプラインを作成
vkCreateComputePipelines: コンピュートパイプラインを作成

レンダーパス

vkCmdBindPipeline: パイプラインをバインド
vkCmdSetViewport/Scissor: ビューポート/シザーを設定
vkCmdBindVertexBuffers: 頂点バッファをバインド
vkCmdBindIndexBuffer: インデックスバッファをバインド
vkCmdDrawIndexed: 頂点を描画

メモリと同期

vkAllocateMemory: デバイスメモリを確保
vkBindBufferMemory: バッファとメモリをバインド
vkBindImageMemory: イメージとメモリをバインド
vkCreateFence: フェンスを作成(GPU/CPUの同期に使用)
vkCreateSemaphore: セマフォを作成(キュー間の同期に使用)
vkCmdPipelineBarrier: パイプライン実行の同期バリアを挿入

このように、Vulkan APIはかなり低水準で、リソース管理から同期制御までさまざまな側面をカバーしています。詳細は Vulkan仕様の本文を参照する必要があります。

用語集

ここでは、Vulkanの開発で使用される主な用語について簡単に説明します。

SPIR-V: Khronos Groupが策定した、中間表現のバイナリ命令セットです。シェーダープログラムはSPIR-Vにクロスコンパイルされ、それがVulkanパイプラインにアップロードされます。
ディスパッチャーレイヤー: VulkanではOpenGLのようなシングルドライバーモデルではなく、マルチドライバーアーキテクチャを採用しています。ディスパッチャーレイヤーは、Vulkan API呼び出しをインストールされたドライバーにルーティングする役割を担います。
レイヤー: Vulkanには、ドライバーのフック機構としてレイヤーが用意されています。検証レイヤーやデバッグレイヤーなどが存在し、アプリケーションの動作を監視したり、機能を拡張したりできます。
デバッグユーティリティ: VK_EXT_debug_utils拡張により、Vulkanにデバッグユーティリティが追加されました。メッセージコールバックやオブジェクトラベリング、メモリトラッキングなどの機能があります。
レンダーパス: レンダーパスは、ジオメトリからフレームバッファまでのレンダリング処理の流れを定義するものです。フォワードレンダリング、ディファードレンダリング、タイルドレンダリングなど、さまざまな種類があります。
ロード/ストアアクション: レンダリングの開始時とレンダーターゲットの合成時に実行されるロード/ストアアクションを制御できます。これにより、レンダリングパスの最適化やレンダーターゲットの遷移の定義ができます。
スレッドセーフティ: Vulkanでは、外部からの同期を前提として、リソースにアクセスする必要があります。アプリケーション側でスレッドセーフティを確保しなければなりません。
VK_KHR_: Vulkanの標準で定義されていない拡張機能は、VK_KHR_という接頭辞が付与されたインスタンス/デバイス拡張機能として提供されています。

これらの専門用語を理解しておけば、Vulkan固有の概念をスムーズにキャッチアップできるはずです。用語の意味を把握することは、Vulkanを実践的に学んでいく上で役立つでしょう。

さらなる学習リソース

Vulkanは比較的新しいAPIであり、まだ学習リソースは限られていますが、着実に充実しつつあります。ここではVulkanをさらに学習するための有用なリソースをいくつか紹介します。

公式ドキュメンテーション

Vulkan チュートリアル (https://vulkan-tutorial.com/): 手順を追ってVulkanの基礎を学べる、入門者向けの実践的なチュートリアル
Vulkan プログラミングガイド (https://vulkan-tutorial.com/): Khronos公式の包括的なVulkanプログラミングガイド
Vulkan レイヤー設計 (https://gpuweb.github.io/Vulkan-CTS/): Vulkanレイヤーアーキテクチャの詳細な設計ドキュメント

書籍

Vulkan レッドブック (https://www.khronos.org/vulkan/): Khronos公式のVulkan仕様リファレンス
"Vulkan Programming Guide" by Graham Sellers (https://www.amazon.com/): Vulkan開発の権威によるStep-by-Stepガイド
"Vulkan Cookbook" by Pawel Lapinski (https://www.amazon.com/): ユースケースベースでVulkanプログラミングを学べる

サンプルコード

Khronos Vulkan-Samples (https://github.com/khronosadsk/Vulkan-Samples): Vulkan開発を実践的に学べる公式サンプル集
LunarXchange Samples (https://github.com/LunarG/LunarSamples): LunarGによるバリエーション豊富なサンプル
NVIDIA Vulkan Examples (https://github.com/nvpro-samples/): NVIDIAによる高度で実用的なVulkanサンプル

コミュニティ

Vulkan Programming Discord (https://vkprogcord.kotlindiscord.com/): Discord上のVulkan開発者コミュニティ
Reddit /r/Vulkan (https://www.reddit.com/r/Vulkan): Reddit上のVulkan掲示板
Vulkan Programming Guide Forums (http://forums.khronos.org/): Khronos公式フォーラム
GPU Open Community (https://gpuopen.com/): AMD GPUOpen Communityのリソース

これらのリソースを上手く活用すれば、Vulkanの理解が格段に深まるでしょう。Vulkanは複雑ですが、サンプルコードを書きながら学ぶとその本質が理解できるはずです。コミュニティの力も借りつつ、着実にVulkan開発スキルを高めていってください。

はじめに

Vulkanの概要

Vulkanの特徴と利点

開発環境の設定

レンダリングパイプライン

レンダリングパイプラインの概要

様々なシェーダーの種類と役割

レンダーパスの設計

リソース管理

バッファとイメージの作成と管理

バッファ

イメージ

メモリ管理 -- 同期プリミティブ

メモリアロケーション

メモリプーリング

同期プリミティブ

レンダリング最適化

パフォーマンス分析とプロファイリング

パフォーマンスカウンタ

レンダリングプロファイラ

レンダリングのパフォーマンスメトリクス

マルチスレッドレンダリング

コマンドバッファのマルチスレッド記録

レンダリングの肩代わり

マルチスレッドの課題

GPU並列処理

コンピュートシェーダー

レンダリングパイプライン並列化

マルチGPUレンダリング

最適化の考慮点

上級トピック

レイトレーシング

レイトレーシングの仕組み

Vulkanのレイトレーシングパイプライン

ハードウェアレイトレーシング

コンピュートシェーダー

コンピュートシェーダーの機能

コンピュートパイプライン

最適化の考慮点

Vulkanレイヤーとツール

検証レイヤー

GPUアシステッドレイヤー

Vulkan エクステンション ライブラリ

グラフィックスプロファイラ

ツールとデバッガ

サンプルコードとデモ

基本的なレンダリングパイプラインの実装

物理ベースレンダリング

PBRの基礎

PBRシェーダー

Vulkanの活用

プロダクション事例

ゲームエンジンとの統合

レンダリングアーキテクチャの再設計

マルチプラットフォーム対応

レガシーとの統合

ツーリングとエコシステム

要員とスキル

附録

Vulkan API リファレンス

用語集

さらなる学習リソース

Vulkan エクステンションライブラリ