運用管理・評価・監査
ITIL、SLA、システム監査、内部統制、信頼性指標を整理する
このページの役割
このページは、作ったシステムをどう安定運用し、どう評価するか を整理するページです。
開発が終わったあとの「回す段階」で必要になる ITIL、SLA、システム監査、内部統制、信頼性指標 を、運用管理、合意水準、評価・監査の流れで切り分けます。
試験では、これらが「何を目的にしているのか」「どんな場面で使い分けるのか」「何を指標にするのか」を問われます。
学習のポイント
- ITIL とは何か: 開発後のシステムを「止めない」「品質を保つ」ための体系的な知識
- ITIL vs SLA: ITIL は運用の枠組み、SLA は合意した品質目標値(両立する)
- インシデント vs 問題: 「今停まっている」(症状)か「なぜ起きたのか」(原因)か
- システム監査 vs 内部統制: 第三者がたまに点検するか、組織が毎日統制するか
- 稼働率の計算: MTBF、MTTR、直列・並列での計算方法
- 安全設計の3原則: フェールセーフ、フェールソフト、フールプルーフの使い分け
ITIL(IT Infrastructure Library)
ITIL の定義とメカニズム
ITIL(IT Infrastructure Library)は、IT サービス運用を体系立てて整理した ベストプラクティス集 です。重要なポイントは「ツールや製品ではなく、運用をどう組織するか」という知識体系だということです。
システム開発の仕事は「本番リリースの瞬間」で終わりではなく、その後「何年も止めずに運用し続ける」ことが実際の価値を生みます。ITIL は、その長期的な運用を体系的・計画的・継続的に改善する ための共通言語を提供します。
試験では「ITIL は枠組み」「SLA は目標値」と切り分けることが重要です。ITIL は「何をすべきか」の構造、SLA は「どのレベルで達成するか」の具体数字です。
ITIL v3 の 5 つのライフサイクル
ITIL v3 では、IT サービスの全体を 5 つの段階(ライフサイクル)に分けます。各段階には主要なプロセスと目的があります。
| ライフサイクル | 主な目的 | 代表的なプロセス | 試験での扱われ方 |
|---|---|---|---|
| サービスストラテジ(戦略) | 事業目標に合わせた IT 戦略を立てる | サービスポートフォリオ管理、需要管理、財務管理 | 「何を提供するか」を決める段階 |
| サービスデザイン(設計) | サービスの構成と仕様を設計する | IT サービス継続性管理、キャパシティ管理、可用性管理、SLA 策定 | 「どう作るか」を決める段階 |
| サービストランジション(移行) | 開発したシステムを本番に導入する | 変更管理、リリース管理、構成管理(CMDB) | 「テスト済みのものを本番へ」 |
| サービスオペレーション(運用) | 日々のシステムを安定稼働させる | インシデント管理、問題管理、イベント管理、アクセス管理 | 「止めずに回す」が目的 |
| 継続的サービス改善(CSI) | 運用の質を継続的に向上させる | サービスレベル管理、サービス測定、改善施策の立案 | 「毎回、より良く」を実現 |
メカニズム: 各ライフサイクルが順番に進むのではなく、循環します。改善サイクルの中で「戦略→設計→移行→運用→改善→(戻って戦略へ)」という流れです。この循環が「継続的」という言葉の意味です。
サービスオペレーション(本番運用の主要プロセス)
試験では「本番運用で具体的に何をするか」が問われるため、サービスオペレーション の代表的なプロセスを深く理解することが重要です。
インシデント管理 vs 問題管理(頻出)
この 2 つはしばしば混同されますが、対象と目的が全く異なります。一つは「症状」を扱い、もう一つは「原因」を扱う並行活動です。
| 項目 | インシデント管理 | 問題管理 |
|---|---|---|
| 定義 | サービスが中断・品質低下した状態(事象) | インシデントの根本原因と対策 |
| 対象 | 症状(今、何が起きているか) | 原因(なぜそれが起きたのか) |
| 目的 | 素早く復旧させる | 再発を防止する |
| 時間軸 | 短期(数分~数時間) | 中期~長期(数日~数週間) |
| 成功の定義 | サービスが戻った | 根本原因が除去され、再発しなくなった |
| 典型例 | DB が落ちた → すぐに再起動 | DB が落ちた理由を調査 → メモリリークを発見 → パッチ適用 |
| 関連書類 | インシデントチケット(短期記録) | 問題記録、既知エラーデータベース(長期参照) |
メカニズム: インシデントが報告された直後、運用チームは並行して 2 つの活動 を始めます。一つは「とにかく復旧させる」インシデント対応で、もう一つは「なぜこんなことが起きたのか」を調べる問題管理です。つまり、復旧と根本原因調査は同時進行 します。復旧が先でなければサービスが止まったままだし、原因を調べずに再起動だけしていると、同じ障害が何度も起きます。
試験での見分け方: 「とにかく直す」「素早く復旧」という言葉が出たらインシデント。「なぜそれが起きたのか」「原因を調査」「再発防止」という言葉が出たら問題管理です。
変更管理(Change Management)
システムに加えるあらゆる変更(OS パッチ、設定変更、新機能リリース、ライブラリ更新など)を統制するプロセスです。
目的: 変更による予期しない障害(サイドエフェクト)を防ぎながら、必要な変更を計画的に進める。
流れ: 変更要求が出ると、CAB(Change Advisory Board:変更諮問委員会)という審査会が「この変更は安全か」「他のシステムに影響しないか」を検討してから実行を許可します。
標準変更 vs 緊急変更:
- 標準変更(Standard Change): ルーチン的で低リスクな変更(自動化可能)
- 緊急変更(Emergency Change): 障害復旧に必要な即座の変更(簡略プロセスで実施)
緊急時は手続きを簡略化しても、記録には残します。これが「監査証跡」となり、後の監査で「なぜこの変更を入れたのか」を説明できるようにします。
リリース管理(Release Management)
複数の変更や新機能を「まとめて」本番環境に導入するプロセスです。個別の変更を 1 つ 1 つ入れるのではなく、テスト済みのパッケージとして展開するという考え方です。
| リリース形態 | 説明 | メリット | デメリット | 適用場面 |
|---|---|---|---|---|
| フルリリース | すべてのコンポーネントを一度に交換 | テストがしやすい、回数が少ない | 障害時の影響範囲が大きい | 大型更新 |
| 段階的リリース | 複数の拠点や部門に順次導入 | 障害が出た時に部分的に止める | テスト期間が必要、調整が複雑 | リスク分散したい場合 |
| パッチリリース | 小さな修正を個別・頻繁に導入 | 時間的に短い | 変更管理の負担が増加 | ホットフィックス |
構成管理(Configuration Management)
IT 環境を構成するあらゆる要素(ハードウェア、ソフトウェア、ライセンス、ドキュメント)の情報を一元管理します。これにより「今、本番で何が動いているのか」を常に把握できます。
構成管理の 3 つの要素:
- CMDB(構成管理データベース): 全資産の情報を記録するデータベース
- 構成アイテム(CI): 管理対象(例:サーバー、OS、アプリケーション、ライセンス)
- 版管理: どのバージョンが本番で動いているか、バックアップはどこにあるかを常に把握
メカニズム:CMDB を更新し続けることで、「突然障害が起きた時に何が変わったのか」を即座に追跡できます。
キャパシティ管理(Capacity Management)
システムの処理能力を計画的に管理し、パフォーマンスを保つプロセスです。「CPU が 80% で止まる」「メモリが満杯」といった状況を事前に防ぎます。
- リソース(CPU、メモリ、ストレージ、ネットワーク帯域幅)の使用状況を継続的に監視
- 将来の需要に備えて段階的に拡張を計画
- 費用とパフォーマンスのバランスを取る
可用性管理(Availability Management)
サービスが利用可能な状態をどれだけ保つかを管理します。目標(SLA)を立てて、それを実現するための施策(冗長化、フェールオーバー等)を講じます。
メカニズム:稼働率を上げるには、故障を減らす(MTBF を大きく)か、復旧を速くする(MTTR を小さく)か、またはその両方を改善します。
SLA / SLO / OLA の 3 層構造
サービスレベルを管理する際、外部との合意、内部目標、部門間の約束という 3 つの異なるレベル があります。試験では、この 3 者の関係と使い分け を理解することが重要です。
定義と役割
| 項目 | 対象 | 定義 | 典型例 |
|---|---|---|---|
| SLA(Service Level Agreement) | 利用者と提供者の間 | 提供側が保証するサービスの品質水準(契約) | 「稼働率 99.9%、応答時間 2 秒以内」 |
| SLO(Service Level Objective) | 提供者内の内部目標 | SLA を確実に達成するため、内部的に目指す基準 | SLA が 99.9% なら、内部では 99.95% を目指す(バッファ) |
| OLA(Operational Level Agreement) | 組織内の部門間、または外部パートナーとの合意 | IT 部門内の各チーム、または外部委託先との約束 | インフラチームが「DB を 99.9% の稼働率で提供する」と他部門に約束 |
メカニズムと相互関係
3 者の関係: 外側から内側へ、段階的に「より高い目標」を設定します。
外部利用者との約束(SLA)
99.9% 稼働率
↓
内部目標(SLO)
99.95% 稼働率 ← バッファを持たせる
↓
部門間合意(OLA)
インフラチーム: 99.9%
ネットワークチーム: 99.8%
DBチーム: 99.9%
← 各部門が実現可能な目標を約束なぜバッファが必要なのか: SLA(99.9%)がぎりぎりの目標では、ちょっとの問題で達成できなくなります。だから内部的には SLO(99.95%)という高い目標を立て、多少の問題が起きても SLA を守れるようにします。
具体例で理解する
ある企業が SaaS 型の顧客管理システムを導入した場合:
- SLA(顧客へ): 「稼働率 99.9%、応答時間 3 秒以内」← 契約で約束
- SLO(IT 部門内): 「稼働率 99.95%、応答時間 2.5 秒以内」← ワンランク上の目標でバッファ確保
- OLA(IT 部門と外部 SaaS ベンダー): 「ベンダーが提供する基盤は 99.9% 保証」← SLA を実現するための支援契約
UC と NDA をどう区別するか
過去問では、SLA・OLA に似た略語として UC や NDA を混ぜてきます。ここで重要なのは、UC はサービス提供を下支えする契約、NDA は秘密保持の契約 であり、役割がまったく違うことです。
| 用語 | 正式名称 | 役割 | SLA との関係 |
|---|---|---|---|
| SLA | Service Level Agreement | 顧客と提供者のサービス品質合意 | 最上位の対外約束 |
| OLA | Operational Level Agreement | 組織内の部門間合意 | SLA を内部で支える |
| UC | Underpinning Contract | 外部委託先や回線事業者との下支え契約 | SLA を外部契約で支える |
| NDA | Non-Disclosure Agreement | 秘密情報を漏らさないための契約 | 品質水準ではなく秘密保持が目的 |
たとえば、顧客に「99.9% 稼働」を約束する SaaS 企業は、自社内では OLA を結び、データセンター事業者や回線事業者とは UC を結ぶことがあります。一方で、業務委託の打合せ前に交わす NDA は、稼働率や応答時間を定める文書ではありません。
試験で サービス水準を規定する文書はどれか と聞かれたら、NDA を外せるかがポイントです。
SLA / SLM / ITSMS / ISMS をどう切るか
年度別の設問では、SLA、SLM、ITSMS、ISMS を一気に並べて、文書 と 活動 と 管理の仕組み を混線させる問題が出ます。ここは「何者か」を先に固定すると迷いにくくなります。
| 用語 | 何者か | 主な役割 | 問題文の合図 |
|---|---|---|---|
SLA | 利用者と提供者の合意文書 | 稼働率や応答時間など、外部に約束する水準を定める | 契約、合意、保証水準 |
SLM | サービスレベル管理活動 | SLA を決め、測り、見直し、改善する | 監視、レビュー、改善、サービスレベル管理 |
ITSMS | IT サービス管理の仕組み | IT サービス全体を計画・運用・評価・改善する | サービス品質、可用性、応答時間、認証 |
ISMS | 情報セキュリティ管理の仕組み | 情報資産の機密性・完全性・可用性を守る | セキュリティ、リスク、情報保護、認証 |
SLA は外部に見せる約束、SLM はそれを回す運用管理、ITSMS は IT サービス管理全体の枠組みです。したがって、サービス品質を継続的に管理する仕組み を問われたら ITSMS、契約として何%を約束するか を問われたら SLA、その達成状況を見て改善する活動 を問われたら SLM を選びます。
また、ITSMS と ISMS は名前が似ていますが、前者は サービス品質、後者は 情報セキュリティ が中心です。可用性や応答時間 が主語なら ITSMS、漏えい・改ざん・アクセス制御 が主語なら ISMS と切ると誤答を減らせます。
ITSMS / ISMS の認証制度を登場人物で切る
認証制度が出る問題では、規格そのもの と 制度を運営する登場人物 が混ざります。ここは 誰が審査するか 誰が認めるか 何を認証するか で整理します。
| 用語 | 役割 | 問題文の合図 |
|---|---|---|
| 認証機関 | 組織を審査し、認証登録を行う | 審査、認証登録、登録証 |
| 要員認証機関 | 審査員などの力量を認証する | 審査員、力量、資格 |
| 認定機関 | 認証機関や要員認証機関の適格性を認める | 認定、第三者性、制度全体 |
| ITSMS / ISMS | 企業が構築・運用する管理の仕組み | サービス品質、情報セキュリティ、認証取得 |
また、ITSMS と ISMS では参照規格が違います。ITSMS は IT サービス管理、ISMS は情報セキュリティ管理です。したがって、JIS Q 20000-1 は IT サービス管理の文脈、ISO/IEC 27001 は情報セキュリティ管理の文脈だと切り分けます。
認証制度の設問では、固定のセキュリティレベルを守る制度 と読んでしまうと誤ります。認証は 管理の仕組みを継続的に回しているか を見るものであり、単一の設定値を守るだけではありません。
ITSMS 認証は 組織全体かどうか ではなく サービスをどう管理するか で読む
年度別の設問では、ITSMS 認証は会社全体でしか受けられない、単一組織内のサービスだけが対象 のような誤答が出やすいです。ここは 認証の対象はサービスマネジメントの仕組み であり、必ずしも会社全体を丸ごと問う制度ではないと押さえます。
| 読む観点 | 正しく押さえること | 誤りやすい読み方 |
|---|---|---|
| 何を認証するか | サービスマネジメントの仕組み | 固定の設定値や製品性能そのもの |
| 対象範囲 | サービス単位や、複数組織にまたがる運用範囲でも扱われ得る | 会社全体でしか受けられない |
| 見る内容 | 可用性、応答時間、変更管理、継続的改善 | セキュリティ設定を一律に守っているかだけを見る |
試験で 可用性や応答時間を継続的に管理、サービス単位、認証登録 とあれば、ITSMS 認証の文脈を疑います。反対に、機密性・完全性・可用性 を情報資産保護の観点で問うなら ISMS です。
システム監査
定義とメカニズム
システム監査は、情報システムが有効・安全・効率的に運用されているかを、独立した第三者が評価する活動 です。重要なポイントは「独立性」です。被監査部門から独立していなければ、「自分たちに都合よい評価」になってしまいます。
メカニズムの本質は「プロセスチェック」です。「このシステムは安全に作られたのか」「運用は正規の手続きに従っているのか」「記録は適切に残っているのか」を確認します。
試験での頻出ポイント: システム監査は「助言」が目的であり、改善の実施は被監査部門が行います。監査人は「問題を指摘する」役、「改善する」役ではありません。
4 つの原則
| 原則 | 意味 | 実務例 |
|---|---|---|
| 独立性 | 被監査部門から独立した立場で実施 | 監査人が対象システムの開発・運用に関わっていない |
| 客観性 | 事実に基づいた客観的な判断 | 感情や推測ではなく、証拠(ログ、書類、インタビュー)で判定 |
| 専門性 | IT と業務の知識を兼ね備えている | 技術的な妥当性と業務上の必要性を両方評価できる |
| 慎重性 | 正当な注意を払って実施 | 不十分な調査で結論を急がない。複数の証拠で確認 |
監査の流れ(5 ステップ)
実際の監査プロセスは以下のような順序で進みます。
- 監査計画: 何を、どれだけの期間で、どの部門を、誰が監査するかを決める
- 予備調査: 対象システムの概要を把握。ドキュメント確認、管理者インタビュー
- 本調査: 実際のシステム確認、運用ログの分析、現場作業の観察
- 監査報告: 発見事項(問題点)と改善提案を報告書にまとめて提出
- フォローアップ: 改善が実施されたかどうかを定期的に確認
監査証拠と監査調書
監査では「どうして『そこに問題がある』と判定したのか」を明確に示す必要があります。
- 監査証拠: 調査から得られた事実(システムログ、承認書、実績書、インタビュー記録)
- 監査調書: 証拠を整理・分析して、監査人が記録したドキュメント
これらが無いと「単なる感想」になるため、監査の信頼性が失われます。
助言型監査 vs 保証型監査
監査には 2 つのアプローチがあります。
| 型 | 目的 | 接し方 | 結果 |
|---|---|---|---|
| 助言型(コンサルタント的) | 改善を促す | 「ここは改善の余地があります」と協力的に提案 | 改善案の提供 |
| 保証型(監査人的) | 信頼性を検証する | 「この運用は基準に合致しているか」を冷徹に評価 | 合致・不合致の判定 |
試験では両方の概念が出るので、違いを理解しておく必要があります。
内部統制と J-SOX 法
内部統制の定義
内部統制は、企業の業務が適正に行われるための仕組みや体制 です。システム面だけでなく、組織全体のルール、手続き、監視の枠組みを含みます。
金融商品取引法(J-SOX 法)で上場企業に内部統制報告書の提出が義務付けられています。これが「内部統制が試験に出る」理由です。
4 つの目的(J-SOX 法に基づく)
| 目的 | 説明 | 具体例 |
|---|---|---|
| 業務の有効性・効率性 | 組織の目標を達成し、リソースを無駄なく使う | 不必要な作業を削減し、売上を最大化 |
| 財務報告の信頼性 | 財務諸表が正確で改ざんされていない | 売上が架空計上されていない、在庫が正確に記録されている |
| 事業活動に関する法令等の遵守 | コンプライアンス(法令・ルール遵守) | 労働法、環境基準、個人情報保護等を守る |
| 資産の保全 | 不正な盗取・毀損から会社の資産を守る | 機械を勝手に売らない、現金を盗まない |
6 つの基本的要素
内部統制を実装するには、6 つの要素が互いに支え合う必要があります。
| 要素 | 意味 | 実務例 |
|---|---|---|
| 統制環境 | 組織全体の「統制を大事にする雰囲気」 | 経営層が誠実性を示す。ルール遵守を評価基準に入れる |
| リスクの評価と対応 | リスクを認識し、優先順位をつけて対策する | 「データ漏洩のリスク」を認識 → セキュリティ投資を決定 |
| 統制活動 | 具体的な統制の実行(承認、検証等) | 購買伝票は部長の承認がないと通らない |
| 情報と伝達 | 必要な情報が関係者に届き、共有される | 新ルールの周知、Q&A の仕組み |
| モニタリング | 統制が有効に働いているかを監視 | 月次レビュー、システム監査の実施 |
| IT(情報技術)への対応 | IT システム側の統制 | アクセス管理、ログ記録、バックアップ |
IT に関する統制の 2 層
IT 統制は「基盤」と「個別業務」の 2 層で考えます。
IT 全般統制: システム開発・保守、運用管理、アクセス管理、バックアップ等の 基盤的な統制
- システム開発時に品質をチェック
- 本番環境へのアクセスを限定
- 定期的なバックアップの実施
IT 業務処理統制: 個々の業務処理の正確性・完全性を確保する 業務的な統制
- 売上入力時に、金額の妥当性をシステムが自動チェック
- 在庫減少時に、出庫伝票との照合を自動実施
メカニズム:IT 全般統制が不十分だと(例えば、誰でも本番 DB を改ざんできる)、IT 業務処理統制も機能しません。基盤あってこその業務統制です。
システム監査 / 内部統制 / コンプライアンスの切り分け
この 3 つも頻繁に混同されますが、守るべき内容、日常的に回す仕組み、独立して点検する活動 という役割差があります。
| 用語 | 何者か | 主な担い手 | 頻度 | 主な目的 |
|---|---|---|---|---|
コンプライアンス | 守るべき法令・規程・社会規範 | 組織全体 | 日常的 | 違反や不正を起こさない |
内部統制 | コンプライアンスや財務報告の信頼性を支える仕組み | 現場、管理部門、経営層 | 日常的 | 予防、牽制、記録、監視を回す |
システム監査 | 独立した立場での評価と助言 | 監査人、監査部門 | 定期的 | 統制や運用が有効かを確認する |
コンプライアンス は「何を守るべきか」であり、活動そのものの名前ではありません。内部統制 は守れる状態を作る仕組みで、システム監査 はその仕組みが本当に機能しているかを、独立した立場から確かめる活動です。したがって、監査人が自ら改善を実施する という選択肢は不適切です。
システムの信頼性指標(計算問題頻出)
定義と意味
システムの品質を数字で測るための指標群です。試験では特に計算問題が出題されやすいため、各指標の計算式と意味を確実に理解する必要があります。
| 指標 | 計算式 | 意味 | 何を改善すると上がるか |
|---|---|---|---|
| MTBF(Mean Time Between Failures) | 総稼働時間 ÷ 故障回数 | 平均故障間隔(長いほど故障しにくい) | 品質向上、コンポーネント改善 |
| MTTR(Mean Time To Repair) | 総修理時間 ÷ 故障回数 | 平均修復時間(短いほど復旧が速い) | 技術習得、自動復旧、事前準備 |
| 稼働率(可用性、アベイラビリティ) | MTBF ÷ (MTBF + MTTR) | システムが使用可能な割合(% または小数) | MTBF を大きくするか MTTR を小さくする |
可用性 / 信頼性 / 保守性 / RASIS
可用性 と 信頼性 を同じ意味で覚えると、年度別の設問でかなり落とします。壊れにくさ と 使える割合 は別物です。
| 観点 | 何を見ているか | 代表指標 | ひとことで言うと |
|---|---|---|---|
信頼性 | 壊れにくさ | MTBF | 故障と故障の間隔の長さ |
保守性 | 直しやすさ | MTTR | 故障してから復旧するまでの短さ |
可用性 | 実際に使える割合 | MTBF / (MTBF + MTTR) | 壊れにくさと直しやすさの結果 |
つまり、信頼性が高い は めったに壊れない、保守性が高い は 壊れてもすぐ直せる、可用性が高い は 全体として使える時間が長い という意味です。可用性 は 信頼性 と 保守性 の両方に影響されます。
RASIS は、システム品質を広く見るための観点です。
| 文字 | 項目 | ざっくりした意味 |
|---|---|---|
R | Reliability | 壊れにくいか |
A | Availability | 使いたいときに使えるか |
S | Serviceability | 修理・保守しやすいか |
I | Integrity | 正しく一貫した状態を保てるか |
S | Security | 不正アクセスや漏えいから守れるか |
試験では、可用性、信頼性、保守性 の 3 つが特に狙われます。計算問題 なら可用性、定義問題 なら MTBF と MTTR の対応、文章問題 なら 壊れにくい と すぐ直せる の言い換えに注意します。
メカニズムと計算の考え方
稼働率の公式 MTBF / (MTBF + MTTR) は「稼働している時間」を「稼働+停止の合計時間」で割ったものです。
例:
- MTBF = 1000 時間(平均 1000 時間ごとに故障)
- MTTR = 10 時間(平均 10 時間で直る)
- 稼働率 = 1000 / (1000 + 10) = 1000 / 1010 ≈ 0.9901 ≈ 99.01%
つまり、システムが 1010 時間の周期で 1 度故障し、そのうち 1000 時間は動いている、という意味です。
可用性の値は、停止時間に直すと感覚的に理解しやすくなります。
| 稼働率 | 1 年あたりの停止時間の目安 |
|---|---|
99% | 約 3.65 日 |
99.9% | 約 8.76 時間 |
99.99% | 約 52.56 分 |
問題文で 計画停止を含むか、サービス時間帯だけで計算するか が指定されていたら、その条件を優先します。数字だけ見て機械的に 99.9% = 8.76 時間 と当てはめないことも重要です。
直列システムの稼働率
複数のコンポーネントが直列に接続されている場合、全体の稼働率はコンポーネント稼働率の掛け算 です。1 つでも故障すると全体が止まるからです。
全体の稼働率 = R1 × R2 × ... × Rn
例: Web サーバー(稼働率 0.92)、App サーバー(0.95)、DB サーバー(0.90)が直列
全体 = 0.92 × 0.95 × 0.90 = 0.7866 ≈ 78.66%直列システムでは、稼働率が低いコンポーネントに足を引っ張られます。
並列システムの稼働率
複数のコンポーネントが並列に冗長配置されている場合、全体の稼働率は『1 から全て故障する確率を引く』 です。1 つ故障しても他が動くからです。
全体の稼働率 = 1 - (1 - R1) × (1 - R2) × ... × (1 - Rn)
例: DB サーバー 2 台が並列冗長(各稼働率 0.9)
全体 = 1 - (1 - 0.9) × (1 - 0.9) = 1 - 0.1 × 0.1 = 1 - 0.01 = 0.99 = 99%ポイント:1 台が故障する確率は 0.1、両台が同時に故障する確率は 0.1 × 0.1 = 0.01(1%)です。だから稼働率は 99% になります。
直列と並列の混合(複合システム)
実際のシステムは直列と並列が混在することが多いです。各パートを段階的に計算 します。
例: 以下の構成
Web サーバー(稼働率 0.95)
↓
DB サーバー 2 台並列(各稼働率 0.9)
↓
ストレージ(稼働率 0.92)ステップ 1: DB 2 台の並列稼働率
R_DB = 1 - (1 - 0.9)^2 = 1 - 0.01 = 0.99ステップ 2: Web → DB(並列) → Storage が直列
全体 = 0.95 × 0.99 × 0.92 ≈ 0.8627 ≈ 86.27%フォールトトレランス設計(Fault Tolerance)
3 つの基本原則
システムが故障した場合、どのように対応するかという設計方針です。試験では、3 つの原則と、その実装方法(冗長化、デュプレックス等)を理解する必要があります。
| 原則 | 説明 | メカニズム | 典型例 |
|---|---|---|---|
| フェールセーフ(Fail-Safe) | 故障時に、安全な状態に移る | 壊れた時は「危険な動作をしない」と決める | 信号機が落ちたら全て赤 → 衝突を防ぐ |
| フェールソフト(Fail-Soft) | 故障時に、機能を制限して運用を続ける | 完全性を少し落とすが、サービスは続ける | 1 サーバー落ちても他で処理を継続。応答が遅くなるが停止しない |
| フールプルーフ(Fool-Proof) | 誤操作を物理的に防ぐ | 人の誤りを前提に、操作の仕様で防止 | USB の向き 1 方向のみ → 逆向きに挿さない |
試験での見分け方:
- 「安全第一」「危険を避ける」 → フェールセーフ
- 「止めずに続ける」「機能を減らして運用」 → フェールソフト
- 「誤操作防止」「物理的に防ぐ」 → フールプルーフ
冗長化システムの形態
故障に強いシステムを作るために、待機系をどう配置するかで 3 つの形態があります。
| 形態 | 説明 | 復旧時間 | 費用 | 利用例 |
|---|---|---|---|---|
| ホットスタンバイ(Hot Standby) | 待機系が常に稼働・同期。障害時に即座に切り替え | 数秒以内 | 高い(待機系も電力消費) | ミッションクリティカルなシステム、金融 |
| コールドスタンバイ(Cold Standby) | 待機系が停止。障害時に起動して復旧 | 数時間(起動に時間) | 低い(待機系が動いていない) | バッチ処理、事務系システム |
| ウォームスタンバイ(Warm Standby) | 待機系はOS・基本システムが起動した状態で待機しているが、業務アプリケーションは停止しており、本番系とのデータ同期は行わない | 数分~数十分(業務アプリ起動+切替が必要) | 中程度 | 一般的なオンラインシステム |
メカニズム:ホットスタンバイは「常に一歩手前の準備をしている」ため、即座に切り替えられます。コールドは「何もしていない」ので起動が遅い。ウォームはその中間です。
デュプレックスシステム
2 つの同一システムを Active-Standby で配置し、Active が故障したら即座に Standby に切り替える方式です。
入力
↓
[System A] ←─── [System B]
(Active) (Standby)
↓ ↑ 障害時に自動切替
[出力]特徴:
- 稼働率が高い(Standby が常に待機)
- 常に 2 台が同じデータを保持
- A が故障したら B に即座に切り替え
- 用途:Web サーバー、DB サーバー等、可用性が重視される場面
デュアルシステム
2 つの独立したシステムが同時に同じ処理を行い、結果の一致を確認してから出力する方式です。
入力
↓
┌─────────────┐
│ [System A] │
└─────────────┘
↓
[合意器] ← 結果が一致したら出力、異なったら出力しない
↑
┌─────────────┐
│ [System B] │
└─────────────┘
↓
[出力]特徴:
- 信頼性が最高(両方の処理を比較)
- 結果が異なったら出力しない(安全重視)
- 稼働率は 100% に近いが、故障時は「停止」を選択
- 用途:航空機、医療機器、原発制御等、安全が生命に関わる場面
デュプレックス vs デュアルの比較
| 項目 | デュプレックス | デュアル |
|---|---|---|
| 構成 | Active-Standby(1 つが稼働) | 両者が常に同時稼働 |
| 故障時の反応 | Standby に即座に切り替え(サービス継続) | 両者の結果が異なったら出力しない(停止) |
| 重視する価値 | 高い稼働率、可用性 | 高い信頼性、安全性 |
| 費用 | 相対的に低い | 相対的に高い |
| 用途 | ビジネスシステム、eコマース | 安全が最優先の場面 |
メカニズム:デュプレックスは「動き続けること」を優先、デュアルは「正確であること」を優先します。
高回復力システム基盤の設問は 全モデル共通か を先に見る
高回復力システム基盤の設問では、複数の構成モデルを並べて どれにも共通する条件は何か を問うことがあります。このとき、待機系の台数やバックアップサイトの有無を先に見始めると迷いやすく、まず 共通条件 と モデル差 を分ける のが重要です。
| 観点 | 共通条件として読みやすいもの | モデル差が出やすいもの |
|---|---|---|
| 災害耐性 | 耐震・耐火・電源・空調など、基盤設備の最低要件 | 同一建物内か遠隔地か、二重化の範囲 |
| 冗長化 | 必要に応じて冗長化を検討する発想 | Active-Standby、遠隔バックアップ、同期方式 |
| 運用継続 | 障害時にどこまで業務継続したいかを定める | 即時切替か、数時間以内復旧か |
すべてのモデルに必須 と問われたら、個別構成ではなく、まず基盤設備や災害耐性のような土台条件を見てください。遠隔地バックアップや二重センタ化は強力ですが、全モデル共通とは限りません。
つまずきやすいポイント
よくある誤解と正しい理解
- 「ITIL はシステムやツール」と誤解
- ❌ ITIL は製品・ツール・ソフトウェア
- ✅ ITIL は運用ベストプラクティスの知識体系。ServiceNow、Atlassian Jira Service Management 等が「ITIL に沿ったツール」
- 「SLA が運用の全てを決める」と混同
- ❌ SLA だけで運用目標が完全に決まる
- ✅ SLA(外部契約)+ SLO(内部目標)+ OLA(部門間)で階層管理。SLA は利用者との約束に過ぎず、内部的にはより高い目標(SLO)を持つ
- 「インシデントと問題は同じもの」と見なす
- ❌ 症状と原因を区別しない
- ✅ インシデント = 症状(「今、サービスが止まっている」)、問題 = 原因(「なぜ止まったのか」)。並行活動で対応する
- 「MTBF が高い = 稼働率が高い」と誤解
- ❌ MTBF だけで稼働率が決まる
- ✅ 稼働率 = MTBF / (MTBF + MTTR) で計算。MTTR が大きければ稼働率は低い。故障しにくくても、直すのに時間がかかれば稼働率は落ちる
- 「並列システムは稼働率を足す」と計算
- ❌ 稼働率を単純に足し算
- ✅ 並列では
1 - (1-R1)(1-R2)で計算。直列ではR1 × R2で掛け算
- 「フェールセーフ = システムが停止する」と勘違い
- ❌ フェールセーフ = 停止
- ✅ フェールセーフ = 「安全な状態」に移る(必ずしも停止ではない)。信号機の例では赤信号という「安全な状態」で運用を継続
- 「ホットスタンバイは全ての場面で最良」と誤解
- ❌ ホットスタンバイが全てに優れている
- ✅ ホットスタンバイは費用が高い。バッチ処理や事務系ならコールドスタンバイで十分
- 「システム監査と内部統制は同じ活動」と混同
- ❌ 両方同じチェック活動
- ✅ 内部統制は「日常の統制」(例:毎日のアクセス管理、月次チェック)、監査は「定期的な第三者点検」。立場と頻度が異なる
- 「SLA と SLM は同じ」と混同
- ❌ SLA も SLM も「サービスレベルのこと」で同じ
- ✅ SLA は合意文書、SLM はその水準を設計・監視・改善する管理活動。
文書と運用を区別する
- 「ITSMS と ISMS はどちらも認証だから同じ」と混同
- ❌ どちらも管理システム認証なので区別不要
- ✅ ITSMS は
サービス品質、ISMS は情報セキュリティが中心。可用性や応答時間を問うなら ITSMS、漏えい対策なら ISMS
- 「コンプライアンス = 内部統制 = 監査」と混同
- ❌ どれもルールを守る活動だから同じ
- ✅ コンプライアンスは
守るべき内容、内部統制は守れる状態を作る仕組み、監査は独立して確かめる活動
- 「可用性 = 信頼性」と混同
- ❌ 壊れにくければ、そのまま可用性が高い
- ✅ 可用性は
壊れにくさと直しやすさの両方で決まる。MTBF だけでなく MTTR も見る
計算問題で引きやすい間違い
- 直列と並列を逆に計算: 直列で足し算をしてしまう
- MTTR を足し忘れ: 稼働率を計算するときに、分母に MTBF だけを使う
- 複合システムで段階計算を飛ばす: 並列部分を計算しないまま全体を掛け算
- 単位を混同: 時間と分の混在で計算ミス
問題を解くときのチェックリスト
試験問題を読む際、以下の順序で分類します。
ステップ 1:「何の分野か」を見極める
| 問われている内容 | 焦点 | 該当項目 |
|---|---|---|
| 「開発後のシステムを安定稼働」「品質を保つ」 | 運用管理 | ITIL のプロセス |
| 「利用者との合意水準」「何%のレベルで提供」 | 合意 | SLA / SLO / OLA |
| 「サービス品質を継続的に管理」「認証」「サービスマネジメント」 | 管理の仕組み | SLM / ITSMS |
| 「サービス品質の数値評価」「計算問題」 | 指標 | 稼働率、MTBF、MTTR |
| 「第三者的に確認」「チェック」「評価」 | 監査 | システム監査 |
| 「日常的に統制」「ルール遵守」「予防」 | 統制 | 内部統制 |
| 「法令遵守」「規程違反」「不正防止」 | 守るべき内容 | コンプライアンス |
| 「故障時の動作」「止めるか続けるか」 | 設計 | フェールセーフ等、冗長化形態 |
ステップ 2:「何が対象か」で判定
| キーワード | 意味 | 対応項目 |
|---|---|---|
| 「障害が起きた」「サービス停止」「復旧」 | 事象(症状) | インシデント管理 |
| 「なぜ起きたのか」「原因調査」「再発防止」 | 原因と対策 | 問題管理 |
| 「パッチを当てる」「システム更新」「本番導入」 | 変更と導入 | 変更管理、リリース管理 |
| 「今、何が動いているか」「バージョン管理」 | 資産把握 | 構成管理(CMDB) |
| 「CPU 80%」「将来の需要」「拡張計画」 | 処理能力管理 | キャパシティ管理 |
| 「99.9%」「SLA」「稼働率」「目標値」 | 品質合意 | SLA / SLO / OLA |
| 「レビュー」「継続的改善」「サービスレベル管理」 | 運用改善 | SLM |
| 「認証制度」「サービス品質管理」 | 管理の仕組み | ITSMS |
| 「法令や社内規程に沿っているか」 | 遵守対象 | コンプライアンス |
ステップ 3:「短期か長期か」で分類
| 時間軸 | 対応項目 | 目的 |
|---|---|---|
| 数分~数時間 | インシデント対応 | 即座に復旧 |
| 数日~数週間 | 問題管理、変更管理 | 根本解決、再発防止 |
| 月~四半期 | キャパシティ管理 | 拡張計画 |
| 年単位 | 継続的改善、内部統制 | 計画的な改善 |
ステップ 4:計算問題は単位を確認
| 指標 | 計算式 | 注意点 |
|---|---|---|
| 稼働率 | MTBF ÷ (MTBF + MTTR) | 小数で出すか % か確認 |
| 直列の稼働率 | R1 × R2 × R3 × ... | 掛け算(全部が動いている確率) |
| 並列の稼働率 | 1 - (1-R1)(1-R2)... | 1 から全て故障する確率を引く |
| 複合システム | 先に並列部分を計算 → それを直列で掛ける | 段階計算を忘れずに |
| 可用性の解釈 | % を停止時間へ直す | 計画停止を含むかの条件も確認 |
確認問題
確認問題 1:SLA / SLM / ITSMS / ISMS の切り分け
次の説明に最も適切な語を答えてください。
- 顧客に
稼働率 99.9%を約束する文書 - その達成状況を測定し、月次レビューで見直す管理活動
- 可用性や応答時間を含む IT サービス全体を管理し、認証対象にもなる仕組み
- 情報漏えい、改ざん、不正アクセスの対策を中心に管理する仕組み
想定される答え
-
SLA
-
SLM
-
ITSMS
-
ISMS
確認問題 2:システム監査 / 内部統制 / コンプライアンス の判定
以下の状況について、最も中心になる概念を答えてください。
- 権限申請がないと本番データへアクセスできないようにする
- 個人情報保護法や社内規程に従って業務を行う
- 独立した立場の担当者が、アクセス管理や変更管理が適切かを確認し、改善提案を出す
想定される答え
-
内部統制
-
コンプライアンス
-
システム監査
確認問題 3:可用性 / 信頼性 / 保守性 の言い換え
次の説明に対応する観点または指標を答えてください。
故障と故障の間隔が長い故障しても短時間で復旧できる全体として使える時間の割合が高い平均故障間隔平均修復時間
想定される答え
-
信頼性
-
保守性
-
可用性
-
MTBF
-
MTTR
確認問題 4:稼働率の計算と読み方
Web サーバーの MTBF = 900 時間、MTTR = 9 時間 のとき、可用性を求めてください。また、この値が年停止時間でどの程度かを概算してください。
想定される答え
- 可用性は
900 / (900 + 9) = 900 / 909 ≒ 0.9901なので、約99.01% 99%前後なので、年停止時間はおおよそ3.6 日前後- ただし、問題文に
計画停止を除くなどの条件があれば、その条件に従って判断する
確認問題 5:ITSMS 認証の読み方
次の説明のうち、正しいものを答えてください。
- ITSMS 認証は、サービス品質を継続的に管理する仕組みを見る
- ITSMS 認証は、固定のセキュリティ設定値を守っているかだけを評価する
- ITSMS 認証は、サービス単位や複数組織にまたがる運用範囲を対象にし得る
解答:
-
- 正しい
-
- 誤り
-
- 正しい
ポイント:
設定値の固定遵守よりも、管理の仕組みを継続的に回しているかが中心です。会社全体でしか受審できないと決めつけないことが重要です。
確認問題 6:高回復力システムの共通条件
次のうち、複数の高回復力システム基盤モデルに共通する条件として最も読みやすいものを答えてください。
- 常に遠隔地バックアップセンターを持つこと
- 震度 6 弱程度までの地震に耐えられる建物・設備を備えること
- すべてのサーバーを Active-Active 構成にすること
- 常に完全同期の二重化を行うこと
解答:
- 2
ポイント:
全モデル共通を聞かれたら、まず基盤設備や災害耐性の最低要件を見ます。- 遠隔地バックアップや同期方式は有力ですが、モデル差が出やすい項目です。
関連ページ
このページは役に立ちましたか?
評価とひとことを残してもらえると、内容と導線の改善に使えます。
Last updated on