XR最適化バイブル - XRプロジェクトにおけるドローコール最適化の基礎と実践：描画負荷を軽減する技術

XRプロジェクトにおけるドローコール最適化の基礎と実践：描画負荷を軽減する技術

Tags: ドローコール, パフォーマンス最適化, XR開発, GPU最適化, Unity, Unreal Engine

はじめに：なぜドローコール最適化はXRプロジェクトで重要なのか

ゲーム開発において、パフォーマンスの最適化は常に重要な課題ですが、特にVR（仮想現実）やAR（拡張現実）といったXRプロジェクトでは、その重要性が飛躍的に高まります。XRコンテンツは、没入感を損なわない安定したフレームレートと低レイテンシが求められ、わずかなパフォーマンス低下がユーザー体験の著しい悪化につながることがあります。

このXRプロジェクトにおけるパフォーマンスボトルネックの主要な原因の一つが「ドローコール」です。ドローコールが過多になると、CPUとGPUの両方に大きな負担がかかり、フレームレートの低下やデバイスの発熱といった問題を引き起こすことがあります。本稿では、ドローコールとは何かという基本的な概念から、その特定方法、そして具体的な削減テクニックまでを網羅的に解説し、皆様のXRプロジェクトのパフォーマンス最大化に貢献することを目指します。

ドローコールとは何か？そのメカニズムと負荷

ドローコール（Draw Call）とは、CPUがGPUに対して「このオブジェクトを描画してください」と指示を出す命令のことです。ゲームエンジンは、シーン内のオブジェクトを描画するために、一つ一つのオブジェクトに対してドローコールを発行します。

ドローコールがパフォーマンスに大きな影響を与える主な理由は以下の通りです。

APIオーバーヘッド: CPUがGPUに対してドローコールを発行する際、グラフィックスAPI（DirectX, Vulkan, OpenGLなど）を介して多くの処理（ステート設定、データ転送など）が必要となり、これに時間がかかります。オブジェクトの数が多くなると、このAPIオーバーヘッドがCPUのボトルネックとなることがあります。
ステート変更: マテリアル、シェーダー、テクスチャなどが切り替わるたびに、GPUの描画ステート（状態）が変更されます。このステート変更もGPUにとってコストの高い処理であり、ドローコール数の増加に伴って頻繁に発生し、パフォーマンスを低下させる原因となることがあります。

つまり、ドローコールはCPUとGPUの両方に負荷をかけるため、削減することがXRプロジェクトのパフォーマンス向上に直結するのです。

ドローコールを特定する：プロファイリングツールの活用

パフォーマンス問題の原因がドローコールにあるかどうかを特定するためには、プロファイリングツールの活用が不可欠です。UnityとUnreal Engineでは、それぞれ強力なプロファイリングツールが提供されています。

Unityの場合：Unity Profiler

Unity Profilerは、CPU使用率、GPU使用率、メモリ使用量など、多岐にわたるパフォーマンス情報を可視化します。ドローコールに関する情報は主に「CPU Usage」セクションの「Rendering」カテゴリに表示されます。

Profilerウィンドウを開く: Unityエディタのメニューから Window > Analysis > Profiler を選択します。
プレイモードで実行: エディタでプロジェクトをプレイモードにし、ボトルネックが発生していると思われるシーンを再生します。
CPU Usageを確認: Profilerウィンドウの上部にある「CPU Usage」グラフを選択します。
Hierarchy Viewで詳細を確認: 左側のHierarchy Viewで「Rendering」カテゴリを展開し、「Draw Batches」や「SetPass Calls」といった項目に注目します。これらの値が高い場合、ドローコールがボトルネックになっている可能性があります。

Unreal Engineの場合：Unreal InsightsとStat コマンド

Unreal Engineでは、Unreal Insightsというスタンドアロンのプロファイリングツール、およびゲーム内コマンドを使用してパフォーマンス情報を確認できます。

Unreal Insights:
- ゲームを起動し、コマンドライン引数に -trace=cpu,gpu,render などを含めて実行することで、トレースデータを記録します。
- 記録されたデータはUnreal Insightsツールで開いて分析します。「GPU」トラックや「RHI」トラックでドローコール数やシェーダーバインド数などを確認できます。
Stat コマンド:
- 開発ビルドのゲーム内でコンソールを開き（通常は ~ キー）、stat rhi コマンドを入力します。
- 画面に表示される統計情報の中で、「Draw Calls」や「Triangles」などの項目を確認できます。
- より詳細なGPUの描画情報を見る場合は stat gpu も有用です。

プロファイリングツールで得られた情報から、CPUがボトルネックになっているのか（ドローコール発行のオーバーヘッド）、それともGPUがボトルネックになっているのか（描画ステート変更や複雑なシェーダー処理）を見極めることが、適切な最適化手法を選択する上で非常に重要です。

ドローコール最適化の主要な手法

ドローコールを削減し、パフォーマンスを向上させるための具体的な手法をいくつかご紹介します。

1. バッチングの活用

バッチングとは、複数のドローコールを一つにまとめてGPUに送ることで、CPUの負荷とGPUのステート変更回数を削減する技術です。

Unityのバッチング

スタティックバッチング（Static Batching）:
- 動かない（Staticな）メッシュを結合し、単一の大きなメッシュとして描画します。これにより、複数のオブジェクトが単一のドローコールで描画されるようになります。
- 対象となるオブジェクトのMesh Rendererの「Static」フラグを有効にする必要があります。
- 条件：同じマテリアルを共有している必要はありませんが、メッシュの頂点数などの制限があります。メモリ消費が増加する可能性があります。
ダイナミックバッチング（Dynamic Batching）:
- 一定以下の頂点数の小さな動的オブジェクトを、同じマテリアルを使用している場合に自動で結合して描画します。
- CPU側でリアルタイムにメッシュを結合するため、CPU負荷が若干発生します。
- 条件：同じマテリアルを使用していること、メッシュの頂点数が小さいこと（通常300頂点以下）、スケールが統一されていることなど、多くの制約があります。
GPUインスタンシング（GPU Instancing）:
- 同一のメッシュとマテリアルを共有する多数のオブジェクトを、一つのドローコールでまとめて描画する技術です。個々のオブジェクトは異なる位置、回転、スケール、色などを持ちながらも、GPU上で効率的に処理されます。
- 特に、大量の木や草、群衆など、同じモデルを複数配置するシーンで非常に効果的です。
- 有効化方法（Unity）:
  - StandardシェーダーやURP/HDRPのLitシェーダーなど、インスタンシングに対応したマテリアルを使用します。
  - マテリアルのインスペクターで「Enable GPU Instancing」をチェックします。
  - スクリプトからマテリアルのenableInstancingプロパティをtrueに設定することも可能です。

// C#スクリプト例: マテリアルでGPUインスタンシングを有効にする
using UnityEngine;

public class EnableGPUInstancing : MonoBehaviour
{
    void Start()
    {
        Renderer renderer = GetComponent<Renderer>();
        if (renderer != null && renderer.sharedMaterial != null)
        {
            renderer.sharedMaterial.enableInstancing = true;
        }
    }
}

Unreal Engineのバッチング

自動インスタンシング: Unreal Engineでは、同じメッシュとマテリアルを使用する静的メッシュアクターは、デフォルトで自動的にインスタンシングされ、ドローコールが削減されます。
Merge Actors:
- 複数のスタティックメッシュアクターを一つの新しいスタティックメッシュアクターに結合するツールです。これにより、結合されたオブジェクトが単一のドローコールで描画されるようになります。
- 特に、小さなオブジェクトが多数隣接している場合に有効です。
- 使用方法: アウトライナーで結合したい複数のアクターを選択し、右クリック > Merge Actors を選択します。
- 注意点: 結合されたメッシュはカリング（画面外のオブジェクトを描画しない最適化）の単位が大きくなるため、カリング効率が低下する可能性があります。また、メモリ消費が増加することもあります。

2. オクルージョンカリング

オクルージョンカリング（Occlusion Culling）とは、カメラから見て他のオブジェクトによって隠れて見えないオブジェクトを、描画しないようにする技術です。これにより、ドローコール数だけでなく、描画される三角形の数も削減できます。

UnityのOcclusion Culling:
- Occlusion Cullingウィンドウ（Window > Rendering > Occlusion Culling）で、シーンをベイクしてカリングデータを生成します。
- 対象となるオブジェクトのインスペクターで「Static」フラグのサブメニューから「Occluder Static」または「Occludee Static」を適切に設定する必要があります。
- ベイク処理には時間がかかりますが、実行時のパフォーマンスに大きく貢献します。
Unreal EngineのPrecomputed Visibility:
- Unreal Engineでは、通常、ハードウェアのZバッファを利用したカリングや、手動のフォリッジカリング、ISM（Instanced Static Mesh）コンポーネントによる自動カリングが主要ですが、Precomputed Visibility Volumeを使用することで、より積極的なオクルージョンカリングを行うことも可能です。これは特にモバイルや低性能デバイス向けの複雑なシーンで有効です。

3. LOD（Level of Detail）

LOD（Level of Detail）とは、カメラからの距離に応じてオブジェクトのメッシュの複雑さ（頂点数、ポリゴン数）やマテリアルの品質を自動的に切り替える技術です。これにより、遠くにあるオブジェクトはシンプルなモデルで描画され、GPUの負荷を軽減し、間接的にドローコール数を削減します。

Unityでの設定:
- LOD Groupコンポーネントをオブジェクトに追加し、各LODレベルに対応するメッシュを設定します。
- 通常、複数のLODレベルを用意し、遠方になるほど頂点数が少ないモデルに切り替えます。
Unreal Engineでの設定:
- スタティックメッシュエディタ内で、LODの設定を行います。自動生成機能も利用できますが、手動でLODメッシュをインポートすることも推奨されます。

4. マテリアル・シェーダーの最適化

ドローコールはマテリアルの変更によっても発生しやすいため、マテリアルとシェーダーの最適化も重要です。

マテリアル数の削減:
- 可能な限り、異なるオブジェクトで同じマテリアルを共有するように設計します。
- アトラス（複数の小さなテクスチャを1枚の大きなテクスチャにまとめる）を活用し、複数のオブジェクトで同じマテリアルとテクスチャを共有できるようにします。
透過オブジェクトの削減:
- 透明なオブジェクトは「オーバードロー」（同じピクセルを複数回描画する）を引き起こし、GPUに大きな負荷をかけることがあります。可能な限り不透明なマテリアルを使用し、透過オブジェクトの数を減らしましょう。
- 特にパーティクルシステムでは透過が多用されるため注意が必要です。
シンプルなシェーダーの使用:
- 複雑な計算を行うシェーダーはGPU負荷を高めます。可能な限り軽量でシンプルなシェーダーを使用するように心がけましょう。

5. パーティクルシステムの最適化

パーティクルシステムは、多くの小さな透過オブジェクトを描画するため、ドローコールとオーバードローの両方を引き起こしやすい要素です。

パーティクルの数を減らす: 必要最低限のパーティクル数に抑えます。
寿命を短くする: 画面上に存在する時間を短くします。
透過を避ける: 可能であれば、透過を使わないパーティクルや、透過の計算がシンプルなシェーダーを使います。
バッチ処理: UnityのShurikenパーティクルシステムは、同じマテリアルを使用しているパーティクルを自動でバッチ処理しようとしますが、その効果を最大限に引き出すためには、マテリアルやテクスチャアトラスの工夫が必要です。

結論：継続的なプロファイリングとバランスの取れた最適化を

ドローコール最適化は、XRプロジェクトのパフォーマンスを向上させるための非常に効果的な手段の一つです。本稿で紹介した手法は、それぞれ異なるアプローチでドローコールを削減しますが、プロジェクトの特性やボトルネックの種類に応じて、最適な手法を選択し、組み合わせて適用することが重要です。

最適化は一度行えば終わりというものではありません。開発の各段階で定期的にプロファイリングを行い、パフォーマンスの状況を監視し、新たなボトルネックが発生していないかを確認することが重要です。また、過度な最適化は開発コストの増加やビジュアル品質の低下を招く可能性もあります。常に、ユーザー体験と開発効率のバランスを考慮しながら、効果的な最適化を進めていくことをお勧めします。

この記事が、XRプロジェクトのパフォーマンス課題に直面している皆様にとって、具体的な解決の糸口となれば幸いです。次なるステップとして、実際のプロジェクトでプロファイリングツールを起動し、ドローコール数の現状を把握することから始めてみてはいかがでしょうか。