障害対応

LightFile Proxyの障害対策と、障害が発生した場合の適切な対応について解説します。

ヘルスチェック

LightFile Proxyは、5分に1回、ヘルスチェック(HTTPによる死活監視)を行っています。

ヘルスチェックの履歴は、メニューのヘルスチェック履歴から閲覧できます。

ヘルスチェック履歴

メール通知

ヘルスチェックに失敗、または失敗が続いた状態から復旧したときにメールで通知を送ることができます。

メニューのダウン / 復旧時の設定から通知先メールアドレスを指定し、設定を保存ボタンを押してください。

メール通知

障害発生時の対応

オリジングループ機能によるフェイルオーバー

基本的には導入チュートリアルで解説した通り、CloudFrontのオリジングループ機能により、LightFile Proxyが仮にダウンしても、すぐに画像が表示されない障害につながることはありません。

ただし、LightFile Proxyのダウンが長期化した場合、その状態で運用を続けることは望ましくありません。切り戻し(LightFile Proxyをシステムから除外)する操作が必要です。

長期的な障害に対する切り戻し / 復旧の方法

いくつか方法が考えられますが、オリジングループにおけるオリジンの優先順位を入れ替える方法を推奨します。

推奨する理由としては、復旧作業も同様の手順で実施できるからです。

他の切り戻し方法

オリジングループからLightFile Proxyを削除したり、画像ビヘイビアのオリジン設定を元々のオリジンに戻す方法も考えられます。

切り戻し / 復旧の無人化

CloudFront連携設定を行うと、上記の長期的な障害に対する切り戻しと復旧を自動化し、一時対応を無人化できます。

ヘルスチェックの結果がNGであれば、APIを利用しCloudFrontのオリジングループの優先順位を元々のオリジン→LightFile Proxyに変更
ヘルスチェックの結果がNGから成功に戻ったら、APIを利用しCloudFrontのオリジングループの優先順位をLightFile Proxy→元々のオリジンに変更

自動的な切り戻しと復旧の登録

CloudFrontの緊急操作を追加ボタンを押し、対象のオリジングループをプルダウンから選択してください。

CloudFrontの緊急操作の追加

左がLightFile Proxyがダウンした際の挙動、右が復旧した際の挙動のプレビューです。現在のオリジングループの優先順位と、それが切り戻し / 復旧でどの様に変化するかを示しています。

プレビューの内容で問題なければ、設定を保存ボタンを押します。

切り戻しと復旧の動作確認

このCloudFrontの緊急操作が実際に作動するか、事前に動作確認できます。

安全性について

基本的にオリジングループの優先順位がどちらであっても見た目上の画像表示に変化はありません。一度確認されることをお勧めします。

切り戻しの動作確認はダウンしたときの挙動を確認するボタンを押します。逆に復旧時の動作確認は復旧したときの挙動を確認するボタンを押します。

リハーサル

動作確認を行うと、テストジョブが作成されます。実行結果がポップアップで表示されます。AWSの管理画面上でも設定が変更されたことを確認ください。

リハーサル実行結果

復旧の動作確認も忘れずに

切り戻しの動作確認を行うと、CloudFrontはLightFile Proxyを使用しない状態になります。

CloudFrontの状態変化を確認したら、復旧の動作確認も忘れずに行ってください。

リストとプレビューの更新

オリジングループのリストと、プレビューの状態はキャッシュされるためすぐに更新されません。

最新の状態を確認するにはオリジングループのリストの更新ボタンを押してください。

オリジングループのリストの更新

障害対応 ​

ヘルスチェック ​

メール通知 ​

障害発生時の対応 ​

オリジングループ機能によるフェイルオーバー ​

長期的な障害に対する切り戻し / 復旧の方法 ​

切り戻し / 復旧の無人化 ​

自動的な切り戻しと復旧の登録 ​

切り戻しと復旧の動作確認 ​

リストとプレビューの更新 ​

障害対応

ヘルスチェック

メール通知

障害発生時の対応

オリジングループ機能によるフェイルオーバー

長期的な障害に対する切り戻し / 復旧の方法

切り戻し / 復旧の無人化

自動的な切り戻しと復旧の登録

切り戻しと復旧の動作確認

リストとプレビューの更新