Spanner Graph にデータを移行する

このドキュメントでは、データとアプリケーションを Spanner Graph に移行するプロセスについて説明します。移行の各段階と、ソースデータベースなどの要因に応じて各段階に推奨されるツールについて説明します。

グラフを Spanner Graph に移行する場合、次の段階で行います。

アプリケーションの要件を収集する。
Spanner Graph スキーマを設計する。
アプリケーションを Spanner Graph に移行する。
Spanner Graph をテストして調整する。
データを Spanner Graph に移行する。
データの移行を検証する。
カットオーバーとフェイルオーバーのメカニズムを構成する。

スキーマとアプリケーションを最適化してパフォーマンスを高めるには、スキーマの設計、アプリケーションの構築、Spanner Graph のテストと調整を繰り返し行う必要があります。

アプリケーションの要件を収集する

アプリケーションのニーズを満たすスキーマを設計するには、次の要件を収集します。

データモデリング
一般的なクエリパターン
レイテンシとスループットの要件

Spanner Graph スキーマを設計する

Spanner Graph スキーマの設計方法については、Spanner Graph スキーマの概要で基本的なコンセプトを確認してください。また、その他の例については Spanner Graph スキーマの作成、更新、削除をご覧ください。一般的なクエリパターンに合わせてスキーマを最適化するには、Spanner Graph スキーマを設計するためのベストプラクティスをご覧ください。

アプリケーションを Spanner Graph に移行する

まず、アプリケーションの移行に関する一般的な Spanner ガイダンスを読み、次にこのセクションのガイダンスを読んで、Spanner Graph アプリケーションの移行ガイダンスを確認します。

Spanner Graph に接続する

プログラムで Spanner Graph に接続する方法については、Spanner Graph スキーマの作成、更新、削除と Spanner Graph クエリの概要をご覧ください。

クエリを移行する

Spanner Graph クエリインターフェースは ISO GQL と互換性があり、openCypher 構文もサポートしています。詳細については、openCypher ユーザー向けの Spanner Graph リファレンスをご覧ください。

ミューテーションを移行する

アプリケーションのミューテーションロジックを移行するには、Spanner テーブルのミューテーションメカニズムを使用します。詳細については、Spanner Graph データの挿入、更新、削除をご覧ください。

Spanner Graph のテストと調整

スキーマとアプリケーションのパフォーマンスをテストして調整する方法に関する Spanner のガイダンスは、Spanner Graph にも適用されます。Spanner Graph のパフォーマンス最適化のベストプラクティスについては、Spanner Graph スキーマを設計するためのベストプラクティスと Spanner Graph クエリを調整するためのベストプラクティスをご覧ください。

データを Spanner Graph に移行する

リレーショナルデータベースからデータを移動するには、データを移行するをご覧ください。

グラフデータベースまたはリレーショナル以外のデータベースからデータを移動するには、ソースデータベースからファイルを永続化し、Cloud Storage にアップロードしてから、Dataflow を使用してインポートします。推奨されるファイル形式には、AVRO と CSV があります。詳細については、推奨される一括移行用の形式をご覧ください。

制約を処理する

スキーマに入力テーブルに定義された制約がある場合は、データのインポート中にこれらの制約に違反していないことを確認してください。制約には次のものがあります。

外部キー: ノードに対するエッジの参照に外部キー制約を定義できます。
インターリーブ: エッジ入力テーブルは、ノード入力テーブルにインターリーブされる場合があります。このインターリーブは親子関係を定義します。子を作成する前に親が存在する必要があるという暗黙的な制約があります。

インターリーブされた組織の親と、外部キー制約で参照されるエンティティを最初に読み込む必要があります。まず、グラフ内のノードを読み込み、次にエッジを読み込む必要があります。エッジが接続するノードを読み込む前にエッジを読み込むと、読み込みプロセス中に特定のキーが存在しないことを示すエラーが発生することがあります。

正しい順序でインポートするには、Google 提供のテンプレートを使用して各ステージに個別の Dataflow ジョブを定義し、ジョブを順番に実行します。たとえば、1 つの Dataflow ジョブを実行してノードをインポートし、別の Dataflow ジョブを実行してエッジをインポートできます。または、インポート順序を管理するカスタム Dataflow ジョブを作成することもできます。

Google 提供のテンプレートの詳細については、以下をご覧ください。

間違った順序でインポートすると、ジョブが失敗するか、データの一部のみが移行される可能性があります。データの一部のみが移行された場合は、移行を再度行います。

データ読み込みの効率を高める

データの読み込み効率を高めるには、データを Spanner にインポートした後にセカンダリインデックスを作成し、外部キーを定義します。このアプローチは、最初の一括読み込み時か、ダウンタイムのある移行でのみ可能です。

データの移行を検証する

データを移行したら、基本的なクエリを実行してデータの正確性を確認します。移行元データベースと移行先データベースの両方で次のクエリを実行して、結果が一致していることを確認します。

ノードとエッジの数をカウントします。
ラベルあたりのノード数とエッジ数をカウントします。
各ノードとエッジプロパティの統計情報（カウント、合計、平均、最小値、最大値）を計算します。

カットオーバーとフェイルオーバーのメカニズムを構成する

カットオーバーとフェイルオーバーのメカニズムを構成します。