AI・機械学習・深層学習の基礎
AI、機械学習、深層学習、生成AI、IoT、ビッグデータの概念、歴史、分類、活用、課題を網羅
このページの役割
このページは、中小企業診断士試験で出題される AI・機械学習・深層学習の基礎概念 を、段階的に理解できるように設計しています。試験では、用語の定義より「技術が何をするのか」「何が課題なのか」「どう使い分けるのか」が問われます。本ページは、AIの発展史からはじめて、各技術の包含関係を明確にし、具体的な応用例と実務的な課題まで、一貫したストーリーで展開しています。
学習のポイント
AI・機械学習・深層学習は階層的な関係にあります。AIはあらゆる人間の知的行為を実現する技術全般を指し、機械学習はそのうちデータから自動的にパターンを学ぶ方法、深層学習はその中で多層ニューラルネットワークを用いた方法です。試験では、この関係を図示できることが基本です。さらに、教師あり学習・教師なし学習・強化学習の3分類、そして各深層学習アーキテクチャ(CNN、RNN、Transformer)の得意分野を対応させることが求められます。
生成AIは近年出題が増加しており、従来の予測・分類AIとの違い、ハルシネーション、RAGなどのリスク対策を実務的に理解することが重要です。また、AI活用には倫理的・法的課題があり、説明可能性、バイアス、プライバシーなどの視点は、試験での「課題認識」問題でよく出現します。
AIの歴史と3つのブーム
第1次AIブーム(1950年代〜1960年代):記号論理と推論
初期のAIは、与えられたルール(if-then)から論理的に結論を導き出す記号論理的アプローチでした。コンピュータに「すべての人間は死ぬ」「ソクラテスは人間である」というルールを与えると、「ソクラテスは死ぬ」と推論する、というイメージです。この時期、研究者たちは、複雑な現実世界も十分なルールベースで表現できると期待していました。
しかし実際には、例外や曖昧性に満ちた現実世界をすべてルール化することは不可能に近く、限定的な領域(チェスや将棋)でしか高精度を実現できませんでした。このブームは1970年代に終焉を迎えます。
第2次AIブーム(1980年代):知識表現とエキスパートシステム
このブームでは、記号論理から知識表現へと焦点が移ります。医師や設計者といった専門家の知識を、体系的にデータベースと推論エンジンの形で蓄積し、意思決定を支援するシステム(エキスパートシステム)が開発されました。医療診断や機械設計の領域では、実際に産業応用され、経済的な価値を生み出しました。
しかし知識ベースのメンテナンスは手作業で負担が大きく、領域を越えた応用が難しいという限界に直面します。また、コンピュータの計算性能の制約も足かせとなり、1990年代にこのブームは衰退しました。
第3次AIブーム(2010年代〜現在):機械学習・深層学習
このブームは、AIの基本的な発想を転換させました。ルールを人間が与えるのではなく、データから自動的にパターンを学習する という方向へのシフトです。GPUの普及による計算能力の飛躍的向上、インターネットから大規模データセットの取得が可能になったこと、そしてTensorFlowやPyTorchといったオープンソースフレームワークの登場が、深層学習を実用化させました。
結果として、画像認識(顔認識、自動運転での物体検出)、自然言語処理(機械翻訳、チャットボット)、生成AI(ChatGPTなど)など、従来のAIでは実現困難だった領域での高精度な実現が可能になりました。このブームは今も継続し、AI産業は数兆ドル規模に成長しています。
3つのブームの比較表
| 項目 | 第1次(1950-60s) | 第2次(1980s) | 第3次(2010s〜) |
|---|---|---|---|
| 基盤技術 | 記号論理、推論 | 知識ベース、推論エンジン | 機械学習、深層学習 |
| 知識の源 | 手作業でルール記述 | 専門家による知識入力 | データから自動学習 |
| 得意な領域 | ゲーム、論理パズル | 医療診断、設計支援 | 画像、言語、予測、生成 |
| 主な限界 | 複雑性に対応不可 | メンテナンス負担大 | 説明性低、バイアス課題 |
| 経済規模 | 研究段階 | 産業応用で経済効果 | 数兆ドル規模 |
AI・機械学習・深層学習の包含関係
定義と包含関係
AI(Artificial Intelligence:人工知能) は最も広い概念です。推論、判断、学習、生成など、人間が知的に行うあらゆる行為をコンピュータで実現する技術の総称を指します。
機械学習(Machine Learning) は、AIの部分集合です。プログラマが明示的にすべてのルールを書くのではなく、データから自動的に規則性やパターンを学び、予測や分類ができるようになる方法を指します。「データさえあれば、学習アルゴリズムが自動的に答えを導き出す」という発想が根底にあります。
深層学習(Deep Learning / ディープラーニング) は、機械学習のさらに下位の概念です。多層のニューラルネットワーク(脳のニューロン構造を模した計算モデル)を用いた学習方法で、複雑な非線形関係をモデル化するのに優れています。
包含関係の図示
┌─────────────────────────────────────────────────────┐
│ AI(人工知能)全般 │
│ 推論、判断、学習、生成など人間の知的行為を実現 │
│ │
│ ┌──────────────────────────────────────────────┐ │
│ │ 機械学習(データから自動的にパターンを学習) │ │
│ │ 予測、分類、パターン発見 │ │
│ │ │ │
│ │ ┌────────────────────────────────────────┐ │ │
│ │ │ 深層学習(多層ニューラルネットワーク) │ │ │
│ │ │ CNN、RNN、Transformer等 │ │ │
│ │ └────────────────────────────────────────┘ │ │
│ │ │ │
│ └──────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────┘3層の比較表
| 観点 | AI | 機械学習 | 深層学習 |
|---|---|---|---|
| 定義 | 知的行為を実現する技術全般 | データから規則性を自動学習する方法 | 多層NNを使う学習法 |
| 知識の源 | ルール、データ、推論など多様 | 主にデータ | 膨大なデータ必須 |
| 適用可能性 | 最も広い | 学習可能な領域に限定 | さらに限定的(複雑パターン) |
| 計算負荷 | 低い〜高い(様々) | 中程度 | 非常に高い(GPU必須) |
| 解釈可能性 | 高い傾向 | 中程度 | 低い傾向(ブラックボックス) |
| 必要データ量 | 少ないことも可 | 中程度〜多い | 数百万〜数十億件必須 |
| 実装難易度 | 低い〜高い | 中程度 | 高い(専門知識必要) |
機械学習の3つの学習方法
教師あり学習(Supervised Learning)
教師あり学習は、正解ラベル付きのデータ から学習し、未知のデータに対して予測や分類を行う方法です。たとえば、「このメールはスパムか非スパムか」という正解ラベルが付いた過去のメール集合から学習することで、新規メールの判定ができるようになります。
教師あり学習は目的によって、分類(カテゴリ予測)と回帰(連続値予測)に分かれます。
分類(Classification)
分類は、データをカテゴリに振り分ける問題です。典型例は「購買する/しない」「不良品/良品」といった二値分類から、複数カテゴリの多値分類まであります。
ロジスティック回帰は、線形関数をシグモイド関数で確率に変換し、0から1の確率値を出力します。解釈性が高く、医療診断補助や顧客離脱予測に使われます。決定木は、「はい/いいえ」の質問を繰り返して分類を行い、判断基準が人間にも理解しやすいため、営業判定やリスク診断で重宝されます。サポートベクターマシン(SVM)は、異なるクラスを最大のマージンで分離する境界を探す手法で、高次元データに強いため、テキスト分類や画像分類に使われていました。ランダムフォレストは、複数の決定木を組み合わせたアンサンブル学習で、過学習に強く、顧客セグメンテーションや信用スコアリングで活躍しています。k-最近傍法は、未知データに最も近い「k個」のデータの多数決で分類する単純な方法で、計算は後処理のみなため、顧客タイプ判定や不正検知に適用されます。
回帰(Regression)
回帰は、連続値(数値)を予測する問題です。線形回帰は y = a + bx のような一次式で関係をモデル化し、売上予測や需要予測に使われます。重回帰は複数の説明変数から目的変数を予測し、住宅価格予測では「面積」「築年数」「駅からの距離」など複合的な要因を組み込みます。
教師なし学習(Unsupervised Learning)
教師なし学習は、正解ラベルなし に、データ内の構造やパターンを自動で発見する方法です。「顧客属性から勝手にグループを見つけたい」「画像データの次元を圧縮したい」といった場合に活躍します。
クラスタリングは、似たデータをグループ分けします。k-meansは、データをk個のクラスタに分割し、重心からの距離で分類する高速な手法で、顧客のライフスタイル分類やマーケティングセグメンテーションに使われます。階層的クラスタリングは、クラスタを段階的に統合・分割し、樹形図で可視化できるため、製品分類や生物系統分類に適しています。
次元削減は、多数の変数をより少ない変数に圧縮し、データの構造を理解します。主成分分析(PCA)は、高次元データを2次元・3次元に圧縮し、分散が最大の軸を発見することで、顧客属性の可視化やノイズ除去に使われます。
アソシエーション分析は、データ間の関連性を発見します。「バターを買う人はパンも買う」といったルールを自動抽出し、レコメンドシステムやマーケットバスケット分析に活用されます。
強化学習(Reinforcement Learning)
強化学習は、エージェント(学習者)がゲーム環境や実環境で試行錯誤しながら、報酬を最大化するように行動を学ぶ方法です。人間が「これは正解」と教えるのではなく、行動に対して報酬(reward)または罰(penalty)が返ってくることで、最適な判断ルール(ポリシー)を学習します。
典型例は、囲碁ゲームのAlphaGoです。AlphaGoは約16万局(約3000万局面)の棋譜を学習し、その後、自分自身と対局して報酬(勝利)を最大化するポリシーを確立しました。自動運転では、シミュレータ環境で報酬(安全で効率的な走行)を最大化する行動を学習し、実世界への応用につなげています。ロボット制御では、「二足歩行」「物体掴み」といった複雑な動作を報酬ベースで学習させています。
機械学習3分類の比較表
| 分類 | 教師あり学習 | 教師なし学習 | 強化学習 |
|---|---|---|---|
| データ形式 | 正解ラベル付き | ラベルなし | 報酬信号 |
| 学習目的 | 予測・分類精度の向上 | パターン・構造の発見 | 報酬最大化 |
| 代表手法 | ロジスティック回帰、決定木、SVM、k-NN、ランダムフォレスト | k-means、PCA、階層的クラスタリング、アソシエーション分析 | Q学習、ポリシー勾配法 |
| 出力形式 | クラス(カテゴリ)または数値 | クラスタまたは可視化 | 行動ポリシー |
| 実務適用例 | 不良品判定、需要予測、与信判定、顧客離脱予測 | 顧客セグメント、推薦システム、異常検知 | ゲームAI、ロボット制御、自動運転 |
| 準備の手間 | 大(正解ラベル作成に人手が必要) | 小(ラベル不要) | 中(報酬設計が重要) |
分類 / 回帰 / クラスタリング / 強化学習 / 生成AI を一気に切る
年度別では、クラスタリング と 分類、強化学習 と 教師なし学習、生成AI と 教師なし学習 を混ぜて出す設問が多いです。ここは 何を出力したいのか で切ると崩れにくくなります。
| 手法・用途 | 正解ラベル | 何を出力するか | 典型例 | 問題文の合図 |
|---|---|---|---|---|
| 分類 | ある | カテゴリ | スパム / 非スパム、不良品 / 良品 | 当たる / 当たらない、離反する / しない |
| 回帰 | ある | 連続値 | 売上金額、需要量、故障確率 | 何円、何個、何% |
| クラスタリング | ない | 似たもの同士のグループ | 顧客セグメント、自動グループ分け | 自動分類、似た顧客群、ラベルなし |
| 強化学習 | 正解ラベルではなく報酬 | 行動方針 | ゲーム、ロボット制御、経路最適化 | 試行錯誤、報酬最大化、行動学習 |
| 生成AI | 学習方法の分類ではなく用途側の呼び名 | 新しいテキスト・画像・音声など | 文章生成、画像生成、コード生成 | 作成する、生成する、要約する、対話する |
生成AI は 教師あり / 教師なし / 強化学習 と同じ軸の言葉ではありません。何を学ぶか ではなく、何を作るか の側の言葉です。したがって、設問で 文章を自動作成する、画像を生成する とあれば、まず 生成AI を疑い、そのうえで内部でどの学習法やモデルが使われているかを考える順番が安全です。
深層学習(ディープラーニング)の基本と各アーキテクチャ
ニューラルネットワークの基本構造
深層学習は、脳のニューロン構造を模した多層ニューラルネットワークに基づいています。入力層でデータを受け取り、複数の隠れ層で段階的に特徴を抽出し、出力層で最終的な予測を行います。
各ノード間は重み(w)とバイアス(b)で接続され、各層には活性化関数(ReLU、シグモイド等)が適用されます。活性化関数は、線形計算に非線形性を導入し、複雑なパターンの表現を可能にします。
層数が多くなるほど、複雑な非線形関係を表現できます。学習は逆伝播(バックプロパゲーション)によって、出力層の誤差から入力層に向けて、全層の重みを効率的に更新します。勾配降下法により、予測誤差を最小化するよう重みを調整していきます。
CNN(畳み込みニューラルネットワーク)
CNNは、画像認識や物体検出など、視覚情報の処理に特化したアーキテクチャです。人間が目で見たときの「局所的な特徴認識」(縁、色合い、テクスチャ)を階層的に学習します。
メカニズム:畳み込み層で小さなフィルタ(例:3×3ピクセル)を画像全体にスライドさせ、各領域での特徴を抽出します。プーリング層で情報を圧縮(例:2×2の最大値を取る)し、計算量を削減しながら重要な特徴を保持します。最終的に全結合層で分類判定を行います。
利点:空間的な位置関係を保持するため、画像の局所的パターンを効率的に捉えられます。パラメータ数も少ないため、計算リソースが限定的な環境でも動作します。
応用例:顔認識(セキュリティ、決済)、医療画像診断(X線、MRI解析)、自動運転(看板認識、歩行者検出)、製造業の不良品検査(微細な欠陥の自動検知)。
RNN/LSTM(時系列処理)
RNNは、時系列データや自然言語処理など、順序や文脈が重要な情報の処理に特化しています。前のタイムステップの隠れ状態が次のステップに受け継がれ、過去の情報が現在の処理に影響を与えます。
課題と改良:通常のRNNは、長い系列で学習が困難になる「勾配消失問題」に直面します。LSTMは、セルに「忘却ゲート」(古い情報を忘れる)と「入力ゲート」(新しい情報を取り込む)を導入し、長期の時間的依存性を学習できるようにしました。GRUはLSTMを簡略化した版です。
応用例:機械翻訳(日本語から英語への自動翻訳)、テキスト生成(文章の自動完成、創作)、時系列予測(株価予測、売上予測)、チャットボット(会話履歴の理解)、感情分析(テキストから肯定・否定を判定)。
Transformer(並列処理と注意機構)
Transformerは、自然言語処理の革命的なアーキテクチャです。従来のRNNが「順序通りに逐次処理」するのに対し、Transformerは「全タイムステップを同時に処理」する並列化により、計算が高速化されます。
革新的な特徴:自己注意機構(Self-Attention)により、系列内のすべての位置が相互に関連し、どの過去タイムステップが現在の処理に重要かを自動学習します。たとえば、「彼は走った」という文で、「彼」が誰を指すかを文脈から判定できます。位置エンコーディングで単語の順序情報を保持しながら、全体的な関連性を並列処理できる点が強みです。
応用例:大規模言語モデル(LLM)(GPT、Claude、Llamaなど)、質問応答システム、テキスト分類、感情分析、画像処理(Vision Transformer)。
その他の生成的アーキテクチャ
GAN(生成的対抗ネットワーク)は、生成器と識別器が競い合い、偽物を見分けられないほど高品質なデータを生成します。顔生成、写真の超解像度化、顔交換などに使われます。
拡散モデルは、ノイズが多い状態から段階的にノイズを除去して画像を生成する方法で、Stable DiffusionやDALL-E 3に採用されています。高品質で多様な画像生成が可能です。
深層学習アーキテクチャ比較表
| 項目 | CNN | RNN/LSTM | Transformer |
|---|---|---|---|
| 得意な入力 | 画像(2D/3D) | 時系列、自然言語 | 言語、長文脈 |
| 処理パターン | 局所的な空間パターン | 時系列の逐次処理 | 全体的な関連性を並列処理 |
| 計算速度 | 中程度 | 遅い(順序依存性) | 高速(完全並列化可能) |
| 長期依存学習能力 | 不要 | 困難(LSTM等で改善) | 得意(自己注意で対応) |
| 代表的モデル | ResNet、VGG、EfficientNet | LSTM、GRU | BERT、GPT、T5 |
| 必要パラメータ数 | 中程度(数百万〜数十億) | 少ない | 非常に多い(数十億〜数兆) |
| 応用領域 | 画像認識、医療診断、不良品検査 | 機械翻訳、株価予測、チャットボット | 生成AI、質問応答、テキスト生成 |
CNN / RNN / Transformer を問題文の合図で切る
年度別では、画像認識、時系列予測、LLM を並べて、アーキテクチャを取り違えさせる出し方が多いです。ここは 入力の形 と 問題文の合図 で切ると安全です。
| アーキテクチャ | 得意な入力 | 典型的な業務課題 | 問題文の合図 | 初学者が混同しやすい点 |
|---|---|---|---|---|
| CNN | 画像、映像、2次元の空間データ | 外観検査、物体認識、医療画像診断 | カメラ、画素、画像、外観、欠陥検知 | 時系列 でも使えるのではと広く考えすぎる |
| RNN / LSTM | 時系列、順序付きデータ | 売上予測、故障予兆、順番が重要な文章処理 | 時系列、連続する値、順番、過去が現在に影響 | 自然言語 = すべて Transformer と早合点しやすい |
| Transformer | 長文脈の言語データ、大規模系列データ | LLM、要約、翻訳、質問応答、生成AI | Attention、自己注意、LLM、長文、並列処理 | RNN の高速版 とだけ覚えて役割差を見失う |
受験では、工場カメラで不良品検知 なら CNN、1秒ごとのセンサーデータから故障予測 なら RNN / LSTM、大量文書を読んで要約・対話 なら Transformer と切れれば十分です。実務では境界が重なることもありますが、試験ではまず典型形で判断してください。
生成AI(Generative AI)
生成AIの定義と従来AIとの違い
生成AIは、テキスト、画像、音声、動画など、新しいコンテンツを自動生成する AI技術です。従来のAIが「与えられたデータから答えを引き出す」(判定、予測)のに対し、生成AIは「存在しなかったコンテンツを創出する」点で根本的に異なります。
従来のAIは、過去の売上データから将来の売上を予測したり、顧客属性から購買する確率を判定したりします。一方、生成AIは、プロンプト「犬の可愛い写真を描いて」に応じて、学習データには存在しなかった新しい犬の画像を生成できます。
| 観点 | 従来AI(予測・分類型) | 生成AI |
|---|---|---|
| 出力形式 | クラス(カテゴリ)、数値、ランク | テキスト、画像、音声、動画、コード |
| 学習目的 | 正解を当てることの精度向上 | データ全体の分布を学ぶこと |
| 代表技術 | ロジスティック回帰、決定木、SVM | 大規模言語モデル(LLM)、拡散モデル、GAN |
| 具体例 | 「この顧客は購買するか」の判定 | 「商品説明文を自動生成する」「パンダの画像を描く」 |
| データ要件 | 正解ラベルが必須 | 正解ラベル不要(データ分布から学習) |
| 計算コスト | 中程度 | 膨大(数千万ドル規模の投資) |
| 解釈可能性 | 比較的高い | 低い(ブラックボックス) |
| 主なリスク | データの統計的偏り | ハルシネーション、有害コンテンツ生成 |
大規模言語モデル(LLM:Large Language Model)
LLMは、膨大なテキストデータから言語の確率分布を学んだ、パラメータ数が数十億から数兆に及ぶニューラルネットワークです。ChatGPTやClaudeが代表例です。
基本原理:LLMは「前の単語列から次の単語の確率分布を予測」するという単純なタスクから学習します。この予測を繰り返すことで、文法的で意味のある文章を生成します。たとえば、「人工知能とは」と与えると、統計的に最も続きやすい単語を選び、「コンピュータが...」と生成を続けます。
スケーリング則:興味深い発見として、パラメータ数とデータ量が増えるほど、性能が向上することが実証されています。GPT-3(1750億パラメータ)がGPT-2(15億パラメータ)より大幅に高精度だったのは、単純にスケールを拡大したためです。
文脈学習(In-context Learning):LLMは、プロンプト内に例を2-3個示すだけで、その例のパターンを学習し、新規データに適用できます。モデルを再調整(ファインチューニング)する必要がなく、非常に効率的です。
汎用性:同一のLLMで、翻訳、要約、コード生成、質問応答など、多様なタスクに対応できます。これは従来の機械学習(タスクごとにモデルを再学習)とは大きく異なります。
代表的なLLMは、OpenAIのGPT(ChatGPT、GPT-4等)、AnthropicのClaude、MetaのLLaMA(オープンソース)、GoogleのGeminiなどです。
生成AIのリスク:ハルシネーション(幻覚)
ハルシネーションは、LLMが学習データに存在しない、または事実に反する情報を、自信を持って生成する現象です。
発生原因:LLMの学習目的は「尤もらしい文を生成すること」であり、「真実を述べること」ではありません。学習データに統計的パターンがあれば、それが事実かどうかは区別しないのです。また、学習データは固定的であり、最新情報を含まないため、古い情報や間違った情報を生成することがあります。
典型例:存在しない論文を引用する、実在しない人物の経歴を述べる、数学計算を誤る、架空の企業名をあたかも実在するかのように述べるなど。
対策:RAG(Retrieval-Augmented Generation)では、LLMに外部の知識ベース(企業文書、最新のWebページ)を参照させ、回答の精度を向上させます。ファインチューニングで特定領域の事実性を向上させることも有効です。最終的には、ユーザーによる検証が最も確実な対策です。AIが生成した情報を無批判に使用してはいけません。
プロンプトエンジニアリング
プロンプトエンジニアリングは、LLMに適切な指示(プロンプト)を与え、期待する出力を引き出す技術です。指示の工夫だけで、モデルの性能を大幅に改善できます。
Zero-shot:「これを日本語に翻訳してください」のように、例なしで指示するだけの方法。LLMの汎用性を活かした最もシンプルなアプローチです。
Few-shot:例を2-3個示してから本題を与える方法。例:「例①:リンゴ→fruit、例②:牛→animal、では『太郎』は?」というように、パターンを示すことで精度が向上します。
Chain-of-Thought:「ステップバイステップで考えてください」という指示で、推論過程を明示化させる方法。複雑な問題で特に効果的です。
ロール指定:「あなたは経験豊かなビジネスコンサルタントです」と役割を指定することで、そのペルソナに沿った回答を引き出します。
出力形式指定:「JSON形式で返してください」「箇条書きで」など、出力の構造を明確に指定することで、下流のシステムで処理しやすくなります。
RAG(検索拡張生成)
RAGは、LLMの回答精度を向上させるための仕組みで、外部の知識ベースを参照させながら生成を行います。
処理フロー:ユーザーが「去年の売上実績は?」と質問すると、まず検索ステップで社内の売上レポートから関連文書を検索し、拡張ステップでそれらをプロンプトに付加し、生成ステップでLLMが拡張プロンプトから回答を生成します。
利点:外部知識を参照するため、ハルシネーション削減につながります。知識ベースを更新するだけで最新情報に対応でき、モデルの再学習不要です。企業秘密の保護にも配慮しやすいです。
注意点:RAG を入れただけで安全になるわけではありません。検索対象の文書が不適切なら回答も誤りますし、プロンプト注入や情報漏えいには別途対策が必要です。
応用例:企業Q&Aシステム(よくある質問に自動応答)、技術サポートチャットボット(マニュアルをベースに問題解決)、医療文献ベースの医師補助システム。
ファインチューニング
ファインチューニングは、事前学習済みのLLMをさらに、特定タスク・領域のデータで再学習することです。
アプローチの選択肢:全層ファインチューニングはすべてのパラメータを更新しますが、時間とリソースが大量に必要です。LoRA(Low-Rank Adaptation)は、わずかなパラメータのみを追加・更新する効率的手法で、企業での活用が増えています。指示チューニングは、指示文と応答ペアで学習させ、特定領域での応答精度を向上させながら汎用性を保持します。
活用例:医療用語に特化したLLM開発、顧客対応チャットボットの社内ポリシー対応、法務文書の自動生成システム。
RAG / ファインチューニング / プロンプト改善 の使い分け
生成AIの活用設問では、知識を足したい のか、モデルの癖を変えたい のか、その場の指示を工夫したい のかが混ぜて出されます。何を変える手段かで切り分けます。
| 手段 | 何を変えるか | 向いている場面 | 向いていない場面 | 問題文の合図 |
|---|---|---|---|---|
| プロンプト改善 | 入力指示 | 出力形式を整えたい、簡単な精度改善 | 専門知識を恒久的に覚えさせたい | 指示文、few-shot、出力形式、役割指定 |
| RAG | 参照する外部知識 | 最新情報、社内文書、根拠付き回答 | モデル自体の文体や振る舞いを変えたい | 社内文書検索、根拠参照、ハルシネーション対策 |
| ファインチューニング | モデルの重み | 専門用語や応答傾向を定着させたい | 最新情報を毎日差し替えたい | 再学習、追加学習、特定領域へ最適化 |
社内規程を読んで答える、最新マニュアルを参照したい なら RAG、法務文書らしい文体を安定させたい ならファインチューニング、JSON で返してほしい ならまずプロンプト改善です。RAG は 検索して添える 技術であり、モデルそのものを再学習しているわけではありません。
自然言語処理(NLP:Natural Language Processing)
NLP処理の階層
自然言語処理は、人間の言葉の意味を段階的に分析する複数レベルを持ちます。
形態素解析:日本語の文を「形態素」(意味を持つ最小単位)に分割し、品詞タグ付けを行います。「私は犬を飼う」は「私」「は」「犬」「を」「飼う」に分割され、それぞれ「名詞」「助詞」「名詞」「助詞」「動詞」と分類されます。
構文解析:単語間の文法的関係を分析し、文の構造を把握します。「私は」が主語、「犬を」が目的語、「飼う」が述語という関係を明確にします。
意味解析:言葉の意味を理解し、多義性を解決します。「銀行」という単語が「金融機関」なのか「河岸」なのか、文脈から判定します。単語埋め込み(Word2Vec、GloVe)で、言葉の意味を数値ベクトルで表現し、意味的な距離を計算できるようにします。
NLP応用タスク
感情分析:テキストから感情(肯定・否定・中立)を自動判定します。顧客レビュー分析(「この製品は素晴らしい」=肯定)、SNS監視(ブランド関連のツイート監視)、ブランド評判管理(競合分析)に活用されます。
文書分類:テキストを定義されたカテゴリに自動分類します。スパムメール判定、ニュース自動分類、カスタマーサポートのチケット自動振り分けなどが典型例です。
チャットボット:自然言語の質問に対し、自動で応答するシステムです。従来はルールベース(IF-THEN形式で対応パターンを限定)でしたが、現代のLLM基盤チャットボットは文脈を理解し、多様な回答が可能です。
AIの活用と実務的課題
AI活用の主要分野
需要予測・売上予測:過去の売上、季節性、外部要因(天気、競合)を機械学習で学習し、未来の需要を予測します。小売、製造、物流の最適化に直結し、在庫コスト削減や品切れ防止につながります。手法は時系列回帰やLSTMです。
画像検査・不良品検出:CNNを用いた自動検査で、製造過程の微細な欠陥を自動検知します。人間の目に頼らず24時間連続監視が可能で、精度が高ければ検査員削減と品質向上を同時に実現できます。
異常検知:正常パターンから外れた振る舞いを検出します。サイバー攻撃の検知、機械故障予兆診断、不正取引検知などの安全保障に関わる領域で活躍します。教師なし学習(k-means、Isolation Forest)で、ラベルなしに異常を検知する手法が多用されます。
レコメンドシステム:顧客の購買履歴や閲覧パターンから、購入しそうな商品を提案します。協調フィルタリング(「あなたと似た顧客が買ったもの」)やコンテンツベースフィルタリングで実装されます。ECサイト、動画・音楽配信、広告配信で効果を生み出しています。
自動運転:カメラ、レーダー、LiDARからのセンサー情報をリアルタイムで処理します。CNNで物体認識、RNNで意思決定、強化学習で経路最適化といった複数のAIが統合的に動作する複雑なシステムです。
説明可能なAI(XAI:eXplainable AI)
機械学習、特に深層学習はしばしば「ブラックボックス」と呼ばれます。モデルが何らかの判定を下しても、なぜそう判定したのかが不明確です。しかし、金融機関の与信判定では「なぜ融資を断ったか」を顧客に説明する法的責任があり、医療診断では医師が判定根拠を理解・検証する必要があります。採用判定でも人事部が判定根拠を説明する義務があります。
XAI技術:LIME(Local Interpretable Model-agnostic Explanations)は、ある予測の周辺でシンプルな近似モデルを構築し、主要な特徴の寄与度を説明します。SHAP(SHapley Additive exPlanations)は、ゲーム理論の概念を用いて、各特徴の平均的な寄与度を定量化します。ランダムフォレストや決定木では、特徴量重要度を直接計算できます。
実務的アプローチ:金融や医療等の厳しい説明要件がある領域では、複雑なモデルより解釈可能なモデル(決定木、ロジスティック回帰)を優先します。やむを得ず複雑モデルを使用する場合は、事後的にXAI技術で説明を補完します。
AIバイアス(Bias)
バイアスは、学習データやモデル設計の偏りから、特定の集団に対して不公正な判定が行われる現象です。
発生源の多様性:データの統計的偏り(採用データが男性70%、女性30%の場合、女性の採用率が過度に低く判定される)。歴史的偏り(過去の差別的慣行がデータに反映され、未来に再現)。測定誤り(代理変数の不適切な選択)。サンプリング偏り(特定地域や人口層のみデータ取得)。
典型的な失敗例:AmazonはAIによる採用システムを導入しましたが、過去のデータに男性採用比率の高い傾向があったため、女性応募者を系統的に低く評価してしまいました。信用スコアリングでは、特定人種の住所を負の要因として学習し、結果的に差別的な融資判定が行われました。
対策:データの多様性確保(サンプル層の均衡化)、定期的な監査(属性別の性能差を検証)、代理変数の排除(人種・性別を直接使わない、住所のような代理も避ける)、複数モデルのアンサンブル(単一モデルの偏りを緩和)。
AI倫理・ガイドライン
AIが社会全体に影響を持つようになり、単なる「精度が高い」だけでは不十分になりました。
主要な倫理原則:人間中心のAI社会では、AIは人間を補助するツールであり置き換えではなく、意思決定の最終責任は人間にあります。透明性・説明責任により、AIの判定根拠を説明できる体制を構築します。公正性・非差別では、特定の属性に基づく差別を禁止します。セキュリティ・プライバシー保護で、学習データの個人情報を守り、敵対的攻撃への耐性を確保します。安全性・堅牢性により、予期しない入力への耐性を構築し、重大な誤判定時の代替手段を用意します。
代表的なガイドライン:EU AI規則は、高リスクAI(採用、金融、法執行)に対する厳格な規制を課しています。日本の「人間中心のAI社会原則」(2019年)は、安全性、公正性、透明性、アカウンタビリティを強調しています。ISO/IEC 42001はAIマネジメントの国際規格です。
個人情報保護との関係
AIの学習には大量データが必須ですが、個人情報の収集・利用には法的制限があります。
関連法令:GDPR(EU一般データ保護規則)は、「忘れられる権利」(データ削除要求)や、機械学習での自動判定に対する説明・異議申し立て権を定めています。日本の個人情報保護法は、個人情報の利用目的の特定と第三者提供規制を規定しています。
実務的課題:データの匿名化・仮名化処理後、学習精度が低下することがあります。複数データを組み合わせると個人識別可能になる「再識別リスク」があります。学習データから学習済みモデルを逆算する「モデル盗用」も懸念されます。
対策:差分プライバシー(個人データを特定できなくなるノイズを加える)、フェデレーション学習(データを中央に集めず、分散地点で学習し、結果のみ共有)、定期的なセキュリティ監査。
IoTとビッグデータ、およびAIとの連携
IoTの4層構造
IoT(Internet of Things)は、センサー付きデバイスをネットワークでつなぎ、データを集め、分析・活用するシステムの総称です。4層の構造を理解することが試験では重要です。
デバイス層:温度・加速度・GPS・カメラセンサーなど、物理量や画像をデジタルデータに変換します。組込OSが搭載され、初期的なデータ処理を行うこともあります。
ネットワーク層:センサーデータをプラットフォーム層に送信します。5G、Wi-Fi、Bluetooth、MQTT、Zigbee、LoRaWANなど、通信距離、速度、消費電力の要件に応じて規格が使い分けられます。
プラットフォーム層:AWS IoT Core、Azure IoT Hubなど、クラウドサービスでデータを蓄積・処理します。または、エッジコンピューティングでデバイス近くで処理することもあります。
アプリケーション層:Tableau、Power BI、機械学習など、蓄積・処理されたデータを分析し、可視化や自動制御につなげます。
IoT / エッジ / LPWA / クラウド の役割分担
IoT の設問では、IoT そのもの、通信方式、近くで処理する技術、中央で蓄積・分析する基盤 を意図的に混ぜることがあります。
| 用語 | 何者か | 主な役割 | 典型例 |
|---|---|---|---|
| IoT | モノをネットワークにつなぐ全体システム | センサーで収集し、通信し、活用する | 工場設備監視、スマートメーター |
| エッジコンピューティング | データ発生地点近くで処理する考え方 | 低遅延、即時判定、通信量削減 | 異常時だけクラウドへ通知 |
| LPWA | 低消費電力・広域向けの通信方式群 | 小さなデータを長距離・低電力で送る | LoRaWAN、NB-IoT |
| クラウド | 中央側の蓄積・分析基盤 | 大量保存、長期分析、AI 学習 | AWS IoT Core、Azure IoT Hub |
迷ったら、センサーで集める仕組み全体 が IoT、近くで先に処理する のが エッジ、省電力で遠くへ送る通信 が LPWA、集約して重い分析をする場所 が クラウド です。
エッジコンピューティング vs クラウドコンピューティング
クラウドコンピューティング(中央集約型)では、センサーデータを一箇所に集約し、遠隔のデータセンターで処理します。豊富な計算リソースで複雑な分析が可能で、アップデートが容易です。欠点は、ネットワーク遅延、障害時の停止、プライバシー懸念です。非リアルタイム分析やAI学習に適しています。
エッジコンピューティング(分散型)では、データ生成地点やネットワーク端でリアルタイムに処理します。低遅延、ネットワーク障害への耐性、リアルタイム制御が可能で、プライバシー保護も容易です。欠点は、計算リソース限定、スケーラビリティ課題、複雑分析困難です。リアルタイム制御や異常検知の即時警報に適しています。
実務的アプローチ:ハイブリッドが主流です。エッジで即時処理(ノイズ除去、圧縮、異常検知)を行い、処理済み・重要データのみクラウドに送信することで通信効率を高めます。クラウドで長期分析、AI学習、予測を行うという分担が標準的です。
ビッグデータの5V
Volume(量):テラバイト、ペタバイト単位の膨大なデータで、従来のRDB(リレーショナルデータベース)では管理困難です。Hadoopなどの分散ストレージが必要になります。
Velocity(速度):リアルタイムまたは準リアルタイムで流入し続けるストリーミングデータで、Kafka、Spark Streamingなどのストリーム処理基盤が必須です。
Variety(多様性):構造化データ(RDB、CSV)だけでなく、非構造化データ(画像、動画、テキスト)を統合処理します。複数ソースからのデータ統合が前提です。
Veracity(品質・真正性):データの正確性、完全性が保証されず、ノイズ、欠損、重複があります。データ品質の確保・検証が重要なタスクです。
Value(価値):分析から有用な知見や経済的価値を引き出すことが最終目的です。単なる「データがあるから分析する」ではなく、ビジネス課題から逆算した目的意識が不可欠です。
IoT × AI × ビッグデータの統合フロー
IoT(データ収集:センサーからリアルタイムデータ取得)
↓
ビッグデータ(蓄積・処理:分散ストレージに格納、クレンジング)
↓
AI(分析・予測・生成:機械学習で知見抽出)
↓
アクション(在庫調整、異常警報、営業提案等)
↓
フィードバック(改善・最適化)→ IoTへ(学習結果を反映)実務例:製造業では、機械IoT(センサー)が工場のデータを収集し、ビッグデータで蓄積・処理し、AIの故障予測で予防メンテナンスを実行します。小売業では、POS・顧客IoTから販売データを集約し、ビッグデータで統合分析し、AIの需要予測で在庫配分を最適化します。医療では、可視化デバイスから患者データを取得し、ビッグデータで蓄積し、AI診断補助で治療ガイダンスを提供します。農業では、土壌・気象センサーから圃場データを集め、ビッグデータで分析し、AI収量予測で施肥・灌漑を最適化します。
データサイエンスの標準プロセス
CRISP-DM(Cross-Industry Standard Process for Data Mining)
データ分析プロジェクトの標準的なプロセスで、6つのフェーズが循環します。
1. ビジネス理解:ビジネス課題を明確にし、データ分析で何を解決したいか定義します。KPI(達成指標)を設定し、利害関係者の合意を得ます。
2. データ理解:どのようなデータソースが利用可能か、データの特性(量、型、品質)を探索的に分析します。
3. データ準備:必要なデータを抽出し、欠損値補填、外れ値除外、重複排除などのクレンジングを行います。特徴量エンジニアリングで、機械学習に適した新しい変数を作成します。
4. モデリング:どのアルゴリズムを選ぶか、パラメータをどう調整するか、試行錯誤的に学習します。複数モデルの比較検討が一般的です。
5. 評価:学習済みモデルをテストデータで性能評価し、ビジネス要件を満たすか検証します。
6. 展開:本番環境への組込、運用開始、定期的な精度監視。
これら6フェーズは循環し、フィードバックにより継続的に改善されます。
CRISP-DM の各段階を仕事の順番で切る
CRISP-DM はアルゴリズム名ではなく、分析プロジェクトをどう進めるか の標準手順です。まずモデルを作る と覚えると、年度別の誤答に引っかかりやすくなります。
| フェーズ | 何をしている段階か | 典型タスク | 問題文の合図 |
|---|---|---|---|
| ビジネス理解 | 解くべき経営課題を定める | KPI 設定、目的整理、関係者合意 | 何を改善したいか、成功条件 |
| データ理解 | 使えるデータの状態を把握する | データ探索、分布確認、欠損確認 | どんなデータがあるか、品質確認 |
| データ準備 | 学習できる形に整える | クレンジング、結合、特徴量作成 | 前処理、欠損補完、加工 |
| モデリング | 学習手法を試す | アルゴリズム選択、学習、調整 | 学習、ハイパーパラメータ、モデル比較 |
| 評価 | ビジネス要件を満たすか検証する | テスト、妥当性確認、再検討 | 精度評価、要件達成、導入可否 |
| 展開 | 現場運用へ載せる | 本番組込、監視、継続改善 | 運用開始、監視、保守 |
精度が高いから導入する ではなく、そもそも何を解くのか から始めるのが CRISP-DM です。試験では ビジネス理解 と モデリング、データ理解 と データ準備 を入れ替えた選択肢が典型的な誤りです。
特徴量エンジニアリング(Feature Engineering)
機械学習の成功は、データ量やモデルの複雑さより、特徴量の質に大きく左右されます。生データから、モデルの性能を高める新しい変数を作成するプロセスです。
具体例:顧客の購買日時から、購買間隔(日数)、曜日、季節といった特徴量を作成することで、モデルがパターンを認識しやすくなります。売上金額から、対前年伸び率、移動平均を作成することで、トレンドを捕捉できます。
領域知識の重要性:営業部長や製造部長といったドメイン専門家との協働で、業務的に意味のある特徴量を発見することが重要です。ただし、闇雲に特徴量を増やすと過学習のリスクが高まるため、説明可能性と性能のバランスが求められます。
特徴量エンジニアリングでやってよいこと / 危ないこと
特徴量エンジニアリングは 変数を増やす作業 ではなく、業務上意味のある説明変数へ変換する作業 です。試験では、予測時点では使えない情報 を入れてしまう選択肢が典型的な誤りです。
| 例 | 評価 | 理由 |
|---|---|---|
購買日時から 曜日 や 月初 / 月末 を作る | 適切 | 予測時点で利用可能で、意味のある特徴量だから |
気温データから 前日との差 や 移動平均 を作る | 適切 | 元データを要約してパターンを見やすくするから |
審査結果を予測するのに、審査後に確定する 最終承認者コメント を入れる | 不適切 | 予測時点で存在せず、データリークになるから |
| テストデータも含めて平均値を計算し、正規化の基準に使う | 不適切 | 学習前に未来の情報を見てしまうから |
データリーク とは、本来予測時点では使えない未来情報や正解に近い情報が紛れ込み、見かけ上の精度だけが高くなる状態です。現場で予測するときに本当にその値を知っているか を自問すると、危ない特徴量を弾きやすくなります。
過学習(オーバーフィッティング)と対策
定義:モデルが学習データに過度に適合し、未見データ(テストデータ)での性能が大幅に低下する現象です。
典型的な例:学習データでの正解率が99%なのに、テストデータでは60%に落ちる大きなギャップが生じます。
対策:正則化(L1、L2正則化)でモデルの複雑さにペナルティを課す。学習データを追加して一般化能力を向上させる。層数や特徴量を削減してモデルを簡略化する。ドロップアウトで隠れニューロンをランダムに無効化し、アンサンブル効果を得る。早期停止で検証誤差が上昇し始めたら学習を中止する。クロスバリデーションでデータを複数分割し、異なる組み合わせで複数回学習し、真の性能を評価する。
過学習 / 過小学習 / 良い学習 を見分ける
年度別では、訓練データでは高精度 という言い方だけで良いモデルだと思わせる設問が出ます。訓練データ と 検証・テストデータ の差で見ると切りやすいです。
| 状態 | 訓練データの成績 | 検証・テストデータの成績 | 何が起きているか | 典型対策 |
|---|---|---|---|---|
| 過学習 | 高い | 低い | ノイズまで覚えている | 正則化、データ追加、特徴量削減、早期停止 |
| 過小学習 | 低い | 低い | モデルが単純すぎて学べていない | モデル改善、特徴量追加、学習不足の解消 |
| 良い学習 | 高い | 近い水準で高い | 汎化できている | 監視しながら運用へ進める |
訓練では99%、テストでは60% なら過学習を疑います。逆に両方とも低いなら、まずはモデルや特徴量が足りていない可能性を考えます。
データ分割と性能評価
データを3つに分割することが標準的です。学習データ(60%)でモデルパラメータを最適化し、検証データ(20%)でハイパーパラメータをチューニングと過学習チェックを行い、テストデータ(20%)で最終性能を評価します。特に、テストデータは学習時に一切見せず、性能評価の信頼性を保ちます。時系列データの場合は、時系列順に分割し、未来のデータを使う誤りを避けます。
学習データ / 検証データ / テストデータ の役割分担
全部のデータで学習したほうが精度が上がる と短絡すると、評価が壊れます。ここは 学ぶためのデータ と 選ぶためのデータ と 最終確認のデータ を分けてください。
| データ | 何に使うか | やってよいこと | やってはいけないこと |
|---|---|---|---|
| 学習データ | モデルを学習させる | 重み更新、パラメータ最適化 | 最終性能の判断 |
| 検証データ | モデルや設定を選ぶ | ハイパーパラメータ調整、過学習チェック | 何度も見て最終評価に使うこと |
| テストデータ | 最終性能を確認する | 完成後に一度だけ評価 | 学習や調整に使うこと |
時系列では、未来データを先に見てしまうと現場では再現できないため、ランダム分割より 時系列順分割 が基本です。テストデータを見ながら調整した 時点で、そのテストは 検証データ に変質してしまいます。
交差検証をどう使い分けるか
データが少ないときに 1 回だけ学習・評価して終わり にすると、たまたま良い分割だっただけで高評価になることがあります。そこで使うのが 交差検証 です。
| 方法 | 何をするか | 向いている場面 | 注意点 |
|---|---|---|---|
| ホールドアウト法 | 学習 / 検証 / テストに 1 回だけ分ける | データ量が十分あるとき | 分け方の偶然に左右されやすい |
| k 分割交差検証 | データを k 分割し、順番に検証用へ回す | データ量が限られる一般的な場面 | 計算回数が増える |
| 層化 k 分割交差検証 | 各分割でクラス比率をなるべく保つ | 不正検知や病気診断などの不均衡分類 | クラス比率を崩すと評価がぶれやすい |
| 時系列交差検証 | 過去で学習し、未来で検証する順序を守る | 売上予測、需要予測、故障予兆 | ランダム分割は使わない |
交差検証 と聞いたら、まず データを分け直して何度も確かめる 話だと捉えてください。とくに 不均衡分類 なら 層化、時系列 なら 未来を先に見ない が合図です。
回帰タスクでは誤差指標を使う
回帰は 売上金額 や 気温 のような連続値を当てるタスクです。分類の 正解率 ではなく、どれだけ外れたか を見る指標を使います。
| 指標 | 計算イメージ | 何を見ているか | 向いている場面 | 注意点 |
|---|---|---|---|---|
| MAE | 誤差の絶対値の平均 | 平均的に何だけ外したか | 誤差の量を素直に見たいとき | 大きな外れ値を特別には重くしない |
| MSE | 誤差の二乗の平均 | 大きな誤差を強く罰する | 大外しを強く嫌うとき | 単位が二乗になるので直感的に読みにくい |
| RMSE | MSE の平方根 | 大きな誤差を重く見つつ、元の単位で読みたい | 実務での解釈もしやすくしたいとき | MAE より外れ値の影響を受けやすい |
| MAPE | 誤差を実績値で割った比率の平均 | 相対誤差を百分率で見たい | 商品ごとの規模差をまたいで比較したいとき | 実績値が 0 に近いと不安定 |
| WAPE | 誤差総和を実績総和で割る | 全体としてどれくらい外したか | 売上総量ベースで全体誤差を見たいとき | 個々の小さい案件の誤差は埋もれやすい |
RMSE = √MSE なので、MSE と RMSE は別の系統の指標ではなく親子関係 です。相対誤差を見たい なら MAPE / WAPE、大きな外れを重く見たい なら MSE / RMSE、まず平均的な外れ幅を知りたい なら MAE と考えると切りやすくなります。
回帰指標を計算するときの手順
回帰指標の計算問題では、式だけ覚えていると途中で崩れます。まずは 各データの誤差を1行ずつ書く ことを徹底してください。
| 手順 | 何をするか | MAE / RMSE / WAPE でどう使うか |
|---|---|---|
| 1 | 誤差 = 予測値 - 実績値 を出す | 符号付きのズレを確認する |
| 2 | 誤差の絶対値を出す | MAE、WAPE の材料になる |
| 3 | 誤差を二乗する | MSE、RMSE の材料になる |
| 4 | 行ごとに足し合わせる | 平均か総和かを見分ける |
| 5 | 最後に平均・平方根・比率へ変換する | MAE、RMSE、WAPE を完成させる |
たとえば 実績 = 100, 120、予測 = 90, 135 なら、誤差は -10, 15、絶対誤差は 10, 15、二乗誤差は 100, 225 です。ここから MAE = (10 + 15) / 2、RMSE = √((100 + 225) / 2)、WAPE = (10 + 15) / (100 + 120) と追えば、何を平均しているか と 何を全体比で見ているか が区別しやすくなります。
混同行列と評価指標
分類問題の評価では、まず混同行列を 表として読めること が重要です。TP / FP / FN / TN の略語だけ覚えても、分母を取り違えると得点できません。
| 実際\予測 | 陽性 | 陰性 |
|---|---|---|
| 陽性 | TP: 本当に陽性を陽性と当てた | FN: 本当は陽性なのに見逃した |
| 陰性 | FP: 本当は陰性なのに陽性と誤判定した | TN: 本当に陰性を陰性と当てた |
| 指標 | 分母 | 何を見ているか | まず疑う場面 |
|---|---|---|---|
| 正解率 | 全体件数 | 全体でどれだけ当たったか | クラス比率が極端でない |
| 適合率 | TP + FP | 陽性と予測したもののうち、本当に陽性か | 誤警報を減らしたい |
| 再現率 | TP + FN | 本当の陽性をどれだけ拾えたか | 見逃しを減らしたい |
| F値 | 適合率と再現率から計算 | 両者のバランス | 片方だけ高いのを避けたい |
適合率 は 予測した陽性の質、再現率 は 本当の陽性の取りこぼしの少なさ です。問題文で 正常メールを迷惑メール扱いしたくない なら適合率、病気の人を見逃したくない なら再現率を先に疑ってください。
クラス不均衡では正解率を疑う
陽性が1%しかない 問題で、全部を陰性と予測しても 正解率99% になります。これが、正解率が高い = 良いモデル ではない理由です。
| 状況 | 正解率だけで見ると | 実際の問題 | まず見るべき指標 |
|---|---|---|---|
| 病気の人が少ない検査 | 高く見えやすい | 病人を見逃すと危険 | 再現率 |
| 不正取引が少ない検知 | 高く見えやすい | 不正を見逃すと損失が大きい | 再現率、F値 |
| スパムメール判定 | 高く見えても安心できない | 正常メールを誤って捨てると困る | 適合率 |
たとえば 1000 件中 10 件だけ不正 のデータで、全件を 正常 と予測すると 990 / 1000 = 99% です。しかし不正 10 件は 1 件も拾えていないので、再現率は 0% です。
AUC-ROC をどう読むか
AUC-ROC は、分類のしきい値を動かしたときに、どれだけ陽性を上位に押し上げられているか をまとめて見る指標です。
| 用語 | 意味 | 見方 |
|---|---|---|
| ROC 曲線 | 横軸に偽陽性率、縦軸に真陽性率をとった曲線 | 左上へ張り付くほど望ましい |
| AUC | ROC 曲線の下の面積 | 1 に近いほど良く、0.5 付近ならランダム |
AUC が高い ことは、陽性を陰性より上位に並べる力が強い ことを意味します。ただし、実際の運用では どのしきい値で止めるか を別に決める必要があります。極端なクラス不均衡では、AUC だけで満足せず、適合率や再現率も併せて見てください。
ROC 曲線と PR 曲線をどう使い分けるか
ROC と PR はどちらも しきい値を動かしたときのモデルの振る舞い を見る図ですが、見る重点が違います。
| 曲線 | 軸 | 向いている場面 | 迷ったときの基準 |
|---|---|---|---|
| ROC 曲線 | 横軸 偽陽性率、縦軸 真陽性率 | 全体として陽性を上位に並べられるかを見たい | クラス比率が極端でない、モデル比較をしたい |
| PR 曲線 | 横軸 再現率、縦軸 適合率 | 陽性が少なく、拾った陽性の質も見たい | 不正検知、障害検知、病気診断の一次検査 |
陽性が極端に少ない問題では、陰性を大量に正しく当てるだけで ROC が良く見えることがあります。このため、クラス不均衡が強いときは PR 曲線も確認する のが安全です。年度別では 不正が 1%、異常がまれ、病気が少数 といった言い回しが出たら、PR 曲線や適合率・再現率を優先して考えてください。
正解率 / 適合率 / 再現率 / F値 を 1 枚で切る
評価指標は、何を見落としたくないか、何を誤検知したくないか で使い分けます。式だけではなく、分母に何が入るか を理解すると混同しにくくなります。
| 指標 | 計算式 | 何を見ているか | 向いている場面 |
|---|---|---|---|
| 正解率 | (TP + TN) / 全体 | 全体でどれだけ当たったか | クラス比率が極端でないとき |
| 適合率 | TP / (TP + FP) | 陽性と予測したもののうち、本当に陽性か | 誤警報を減らしたいとき |
| 再現率 | TP / (TP + FN) | 本当の陽性をどれだけ拾えたか | 見逃しを減らしたいとき |
| F値 | 2 × 適合率 × 再現率 / (適合率 + 再現率) | 適合率と再現率のバランス | 両方を同時に重視したいとき |
スパムではないメールを誤って削除したくない なら 適合率、病気の人を見逃したくない なら 再現率 をまず疑ってください。正解率が高い だけでは、陽性がごく少ない問題では役に立たないことがあります。
| シナリオ | 重視する指標 | 理由 |
|---|---|---|
| 医療スクリーニング(大量検査) | 再現率 | 病気を見落とすことは致命的 |
| 医療確定診断(精密検査) | 適合率 | 不必要な治療は避けるべき |
| スパム判定 | 適合率 | 正常メールを削除してはならない |
| 不正検知(詐欺・盗難) | 再現率 | 不正行為の見落としは許されない |
| 推薦システム | AUC、NDCG | 上位結果の質が重要 |
時系列特徴量を作るときの基本
時系列予測では、過去のどの情報を特徴量に変えるか が精度を大きく左右します。ここでも、予測時点で本当に分かる情報だけを使う のが絶対条件です。
| 特徴量例 | 何を表すか | 使いどころ | 注意点 |
|---|---|---|---|
| ラグ特徴量 | 1日前、1週間前、1か月前の値 | 売上や需要の連続性を捉える | 未来の値を混ぜない |
| 移動平均 | 直近数期間の平均 | ノイズをならしてトレンドを見る | 中央移動平均のように未来を含めない |
| 移動標準偏差 | 直近数期間のばらつき | 需要の不安定さ、変動性を見る | 期間の取り方で意味が変わる |
| 季節性特徴量 | 曜日、月、祝日、月末フラグ | 周期的な変動を捉える | 業務実態に合う周期を使う |
| イベント特徴量 | キャンペーン、天候、障害発生有無 | 外部要因を反映する | 予測時点で取得できるか確認する |
危ないのは、翌週売上 を予測するのに 翌週を含む平均 を作ることです。これは未来情報を先に見ており、データリークになります。時系列では 過去だけで作れる特徴量か を毎回確認してください。
試験で頻出する誤解と対策
誤解1:「生成AI = すべてのAI」と混同する
ChatGPTやDALL-Eが話題になり、AIはすべて生成型だと思い込む傾向があります。実際には、生成AIは技術の一部にすぎません。企業実務では、需要予測、不良品判定、与信判定といった従来の予測・分類AIが圧倒的多数派です。
対策:AI → 機械学習 → 深層学習 → 生成AI という包含関係を固定し、各層で異なる用途があることを理解します。「この問題は予測・分類か、それとも新しいコンテンツを生成する必要があるのか」という切り分けが基本です。
誤解2:「データさえあれば、機械学習で全て解決」と期待する
データがあればAIが自動的に答えを出すと期待する初心者は多いです。実際には、データの質が低い、不足している、特徴量エンジニアリングで領域知識が不可欠、モデル選択やパラメータチューニングは試行錯誤が多いなど、多くの課題があります。
対策:CRISP-DMプロセスを理解し、ビジネス理解とデータ理解に時間をかけることが成功の鍵です。機械学習は「銀弾」ではなく、課題解決のための一つの手段にすぎません。
誤解3:「正解率95% = 良いモデル」と短絡する
学習データで95%の正解率を達成しても、テストデータ(未見データ)では60%に落ちることはよくあります。過学習により、ノイズまで学習してしまう典型例です。
対策:学習データ、検証データ、テストデータを明確に分割し、テストデータでの性能が最終評価です。クロスバリデーションで信頼性を確保します。
誤解4:「説明可能性は後付けできる」と後回しにする
ひとまずブラックボックスモデルで精度を追求し、後で説明性を足すと考える実装者がいます。しかし金融、医療、人事等では最初から説明可能性が求められることが多く、後付けは困難です。
対策:要件分析時に説明可能性の必要度を確認します。必要なら、シンプルなモデル(決定木、ロジスティック回帰)から検討を開始します。
誤解5:「バイアスは技術的に完全排除できる」と過度に期待する
XAIやデータ補正でバイアスを0にできると思う人がいます。しかし、バイアスは現実の不公正を映した結果であり、技術的改善だけでは対応不可です。
対策:バイアスの定期監査、多様性確保、ステークホルダー参加による意思決定が重要です。組織的・法的対応も同時に必須です。
誤解6:「クラスタリング = 教師あり学習」と取り違える
クラスタリングは、ラベルのないデータを自動で似た集団に分ける手法です。教師あり のように正解を当てるのではなく、まとまりを見つける のが役割です。
対策:答えが用意されているか を先に確認します。正解ラベルがあるなら教師あり、ないなら教師なしを疑います。
誤解7:「生成AI = 教師なし学習の別名」と短絡する
生成AIは 何を作るか の観点の言葉であり、教師なし学習は どう学ぶか の分類です。同じ軸の言葉ではありません。
対策:まず 予測・分類か、生成か を切り、そのあとで どのモデルや学習法か を考えます。
誤解8:「IoT = センサーそのもの」と縮めて覚える
センサーは IoT の一部ですが、IoT は センサー + 通信 + 蓄積 + 活用 の全体システムです。LPWA や エッジ はその周辺技術です。
対策:何を集めるか、どう送るか、どこで処理するか の 3 点で役割を分けて覚えます。
誤解9:「RAG = モデルを再学習した状態」と思い込む
RAG は、外部知識を 検索して添える 仕組みです。モデルの重みを書き換えるわけではないため、社内文書が更新されたら知識ベース側を更新すればよく、毎回再学習する必要はありません。
対策:検索して参照 なら RAG、モデルそのものの癖を変える ならファインチューニングと切って覚えます。
誤解10:「XAI があれば公平性や正確性まで自動で解決する」と考える
XAI は なぜその予測になったかを説明しやすくする 技術であり、精度向上やバイアス解消を自動で保証するものではありません。
対策:XAI は 説明 の道具、バイアス対策は 監査やデータ改善、精度向上は モデル改善 と役割を分けます。
誤解11:「CRISP-DM はモデリングから始めればよい」と順序を逆にする
モデルを先に作ってから課題を探すのは、手段先行です。試験では、ビジネス理解 や データ理解 を飛ばしてモデリングする選択肢が誤答としてよく出ます。
対策:課題を決める → データを知る → 整える → 学習する → 評価する → 現場で使う の順を、業務の流れとして覚えます。
誤解12:「テストデータを使って調整しても問題ない」と思う
テストデータは 最後の実力確認 に使うためのものです。これを見ながら特徴量やパラメータを調整すると、見かけの成績だけが良くなり、実運用の性能を正しく測れなくなります。
対策:調整は学習データと検証データで行い、テストデータは最後まで触らないと覚えます。
誤解13:「正解率が高ければ十分」と考える
不正検知や病気診断のように、陽性が少ない問題では、全部陰性と予測 しても正解率だけ高く見えることがあります。
対策:見逃しを減らしたいのか、誤警報を減らしたいのかを先に決め、適合率・再現率・F値を使い分けます。
誤解14:「回帰でも正解率で評価できる」と考える
売上予測や価格予測のように、正解が連続値である問題に 当たった / 外れた の発想を持ち込むと、回帰と分類が混ざります。
対策:連続値 が答えなら回帰です。回帰では どれだけ外れたか を見るので、MAE / MSE / RMSE / MAPE / WAPE を疑ってください。
誤解15:「MSE と RMSE は同じ尺度で読める」と考える
MSE は誤差を二乗した平均なので、元データの単位とは一致しません。MSE = 100 を、そのまま 10 個ずれた のように読むのは誤りです。
対策:元の単位で読みたいなら RMSE や MAE を使います。RMSE = √MSE という関係を固定しておくと崩れません。
誤解16:「AUC が高ければ、しきい値設計は不要」と考える
AUC はモデル全体の並べ方の上手さを見る指標であり、何点以上を陽性にするか までは決めてくれません。
対策:AUC はモデル比較、適合率・再現率は運用時のしきい値判断と役割を分けます。
誤解17:「交差検証なら、時系列でもランダム分割でよい」と考える
時系列予測で未来データを学習に混ぜると、現実では使えない情報を先に見てしまいます。これでは精度が良く見えても再現性がありません。
対策:時系列では 過去で学習し、未来で検証する 順序を守ります。交差検証も時系列順にスライドさせる方法を使います。
試験で問われるポイント
ポイント1:「予測・分類」 vs 「生成」を切り分ける
問題文の判断:「この顧客は購買するか」は分類(教師あり学習)、「顧客の購買確率を予測」も回帰的分類、「商品説明文を自動生成」は生成AI(LLM)、「商品画像をイラスト化」は生成AI(画像生成モデル)。
選択肢評価のコツ:従来の分類技術で対応可能か判断します。可能ならシンプルな選択肢、不可ならば生成AIを示唆する選択肢が正答の傾向があります。
ポイント2:「技術的課題」 vs 「運用・倫理的課題」を識別する
技術的課題:過学習、データ不足、特徴量設計の工夫、モデル精度評価。
運用・倫理的課題:バイアス検査、説明責任、個人情報保護、セキュリティ(敵対的攻撃対策)、ステークホルダーの受容性。
判断方法:技術改善だけで解決しない課題が多い場合、組織的・法的対応を強調した選択肢が正答になります。
ポイント3:「学習方法」 vs 「データ基盤」を分けて考える
学習方法の話:教師あり/なし、どのアルゴリズムを選ぶか。
データ基盤の話:何をセンサリングするか、ビッグデータの蓄積・品質管理、エッジ vs クラウド。
問題のポイント:「機械学習の精度向上」と「データ基盤の構築」は別問題です。質問の焦点に応じて切り分けることが重要です。
ポイント4:「過去の成功事例」と「自社課題」の照合
試験でよく出る思考法:他社の成功例(画像検査で不良品検知)を紹介し、「自社でも応用できるか」を問う形式。
解答の視点:成功事例の技術そのものより、「その技術が解いた課題」を抽象化し、自社課題とマッチングする思考が必要です。要件(データ質、業務プロセス、リソース)が異なれば、単純な流用は不可です。
ポイント5:「リスク・課題の認識」が問われていることに気付く
問題構成:(1)新技術の説明、(2)活用メリット、(3)「課題は何か」「注意点は何か」を選ぶ形式。
対策:技術の利点だけでなく、ハルシネーション、説明可能性、バイアス、プライバシー、セキュリティの課題を常に想起することが重要です。
ポイント6:「回帰」か「分類」かで評価指標を切り替える
回帰 なら MAE / MSE / RMSE / MAPE / WAPE、分類 なら正解率 / 適合率 / 再現率 / F値 / AUC-ROC をまず疑います。
対策:答えが 連続値 なのか、カテゴリ なのかを先に見てください。ここを誤ると、式を知っていても選択肢を切れません。
ポイント7:「不均衡分類」では正解率をそのまま信用しない
問題構成:不正検知、異常検知、疾病検査のように、陽性が少ない場面で高い正解率を見せる選択肢が出ます。
対策:全部陰性でも高得点にならないか を一度考えます。見逃し重視なら再現率、誤警報重視なら適合率、総合比較なら F値や AUC を見ます。
ポイント8:「交差検証」は分け直しの方法まで問われる
問題構成:データが少ない場面で、1回分割だけで評価する 選択肢や、時系列をランダムに混ぜる 選択肢が誤答として出ます。
対策:一般データなら k 分割、クラス不均衡なら層化 k 分割、時系列なら未来を先に見ない分割と覚えてください。
確認問題
問1:AIの歴史と技術トレンド
問題
第1次から第3次のAIブームの特徴を比較する場合、以下のうち正しいものはどれか。
A. 第1次ブームは自動推論に基づき、複雑な現実世界のすべての知識をルール化可能だと考えていた。
B. 第2次ブームは手作業による知識入力が必要であり、エキスパートシステムの形式でドメイン知識を体系化した。
C. 第3次ブームはビッグデータと計算資源の充実により、機械学習・深層学習で自動的にデータからパターンを学習する方向に転換した。
D. 第3次ブームでは、過去2つのブームの技術(推論、知識表現)は完全に廃止され、機械学習にのみ集約された。
解答:B、C
解説
-
A(誤):第1次ブームでも複雑性に対応できない限界は認識されていました。ルール化困難な領域は知られていました。
-
B(正):第2次ブームの本質です。医師や設計者の知識をIF-THENルール形式で蓄積し、推論エンジンで参照する仕組みが典型です。
-
C(正):第3次ブームの核心です。GPU等の計算力向上、ビッグデータ利用可能性により、ニューラルネットワークが実用化されました。
-
D(誤):推論や知識表現の技術は今も使用されています。ただし、主要トレンドが機械学習にシフトしたというのが正確です。
問2:機械学習の分類と活用例の対応
問題
以下の活用例と、最も適した分類を対応させよ。
- 「顧客が来月に離反するかどうかを予測したい」
- 「来月の売上金額を予測したい」
- 「顧客の属性から、似た顧客同士を自動でグループ分けしたい」
- 「倉庫ロボットが試行錯誤しながら最短経路を学びたい」
- 「FAQ 回答文を自動生成したい」
a. 教師あり学習(分類) b. 教師あり学習(回帰) c. 教師なし学習(クラスタリング) d. 強化学習 e. 生成AI
解答
1 → a、2 → b、3 → c、4 → d、5 → e
解説
- 1番:
離反する / しないというカテゴリを当てるので、教師あり学習の 分類 - 2番:売上金額という連続値を予測するので、教師あり学習の 回帰
- 3番:正解ラベルなしで似た顧客群を見つけるので、教師なし学習の クラスタリング
- 4番:試行錯誤しながら報酬を最大化するので 強化学習
- 5番:新しい文章を作るので 生成AI
問3:深層学習アーキテクチャの選択
問題
ある製造企業が「1秒ごとの機械センサー値(温度・振動・音)から、3ヶ月分のデータで3日後の故障確率を予測したい」という課題に直面している。最も適切なアーキテクチャはどれか。
A. CNN(畳み込みニューラルネットワーク)
B. RNN/LSTM
C. Transformer
D. 教師なし学習(k-means)
解答:B
解説
-
A(誤):CNNは空間的構造(画像の2D/3D)に適しており、時系列の逐次依存には向きません。
-
B(正):RNN/LSTMは時系列予測の定番です。過去のセンサー値が現在の状態に影響し、さらに未来に影響するという時間的依存性をキャプチャできます。LSTMの「忘却ゲート」で、3ヶ月の長期パターンも学習可能です。
-
C(応用的には可能):Transformerも時系列予測に適用可能です。ただし、受験で
時系列を順に学ぶ標準的な手法を問われた場合は、まず RNN/LSTM を選ぶのが安全です。 -
D(不十分):k-meansは「予測」ではなく「分類」です。正常パターンから大きく外れたセンサー値を「異常」と判定する補助手法には使えますが、「故障する確率」を定量化できません。
補足:実務では Transformer 系の時系列モデルも増えていますが、試験では 時系列処理 = RNN / LSTM をまず押さえれば十分です。
問4:IoT / エッジ / LPWA / クラウド の切り分け
問題
以下の説明に最も適切な語を答えてください。
- 工場の温度センサーや位置センサーをネットワークでつなぎ、データを収集して活用する全体システム
- センサーの近くで異常判定を行い、必要なデータだけを上位へ送る考え方
- 小さなデータを低消費電力で広い範囲に送る通信方式
- 集めたデータを大量に蓄積し、長期分析や AI 学習を行う基盤
解答
1 → IoT 2 → エッジコンピューティング 3 → LPWA 4 → クラウド
解説
- 1番:IoT はセンサー単体ではなく、収集から活用までを含む全体システムです。
- 2番:エッジは
近くで先に処理することが本質です。低遅延や通信量削減が狙いです。 - 3番:LPWA は通信方式です。LoRaWAN や NB-IoT が代表例です。
- 4番:クラウドは中央で蓄積・分析する基盤です。大量保存や AI 学習に向きます。
問5:CNN / RNN / Transformer の対応
問題
次の業務課題に対して、最も典型的なアーキテクチャを対応させてください。
- 工場ラインのカメラ映像から表面の傷を検出したい
- 1時間ごとの売上推移から翌週の需要を予測したい
- 10万件のマニュアルを参照しながら、利用者の質問に自然文で回答したい
a. CNN b. RNN / LSTM c. Transformer
解答
1 → a、2 → b、3 → c
解説
- 1番:画像の局所特徴を捉えるので CNN が典型です。
- 2番:順番に並ぶ時系列データなので RNN / LSTM が受験上の基本です。
- 3番:長文脈を扱いながら自然文を生成するので Transformer が中心です。
問6:RAG / ファインチューニング / XAI の使い分け
問題
次の状況で、最も中心になる考え方や手段を答えてください。
(A)社内規程集を参照しながら、最新ルールに沿って回答させたい
(B)法律文書らしい語彙や文体を、モデルに安定して出力させたい
(C)融資審査モデルについて、なぜ否決判定になったかを担当者が説明できるようにしたい
解答例
- (A)RAG
- (B)ファインチューニング
- (C)XAI
解説
- A:外部知識を検索して参照するので RAG が適切です。
- B:モデルの応答傾向そのものを変えたいのでファインチューニングです。
- C:判定理由の説明性が主眼なので XAI が中心です。
問7:CRISP-DM の段階判定
問題
次の活動を CRISP-DM のどの段階に対応させるか答えてください。
- 売上改善を目的に、在庫削減と欠品防止を両立する KPI を決める
- POS データの欠損や外れ値を点検する
- 曜日や天候から新しい説明変数を作る
- ランダムフォレストと回帰モデルを比較する
- テストデータで精度を確認し、現場要件を満たすか判断する
a. ビジネス理解 b. データ理解 c. データ準備 d. モデリング e. 評価
解答
1 → a、2 → b、3 → c、4 → d、5 → e
解説
- 1番:何を改善したいかを定めるのでビジネス理解です。
- 2番:データの状態を把握しているのでデータ理解です。
- 3番:学習しやすい形へ加工しているのでデータ準備です。
- 4番:アルゴリズムを試しているのでモデリングです。
- 5番:性能と要件を照合しているので評価です。
問8:適合率 / 再現率 / F値 の計算
問題
ある不正検知モデルの結果が次の通りだった。
- TP = 40
- FP = 10
- FN = 20
- TN = 130
このとき、適合率、再現率、F値を求めてください。
解答例
- 適合率 =
40 / (40 + 10)= 0.8 - 再現率 =
40 / (40 + 20)= 0.667 - F値 =
2 × 0.8 × 0.667 / (0.8 + 0.667)≒ 0.727
解説
- 適合率は
陽性と予測したものが分母です。 - 再現率は
実際に陽性だったものが分母です。 - F値は、どちらか一方だけ高くても上がりにくい指標です。
問9:過学習とデータ分割の判定
問題
次の記述のうち、最も適切なものを 1 つ選んでください。
A. 学習データで高精度なら、そのモデルは実運用でも高精度だと判断できる。
B. テストデータを見ながら特徴量を調整すると、最終評価の信頼性が下がる。
C. 検証データは不要であり、学習データとテストデータの2分割で常に十分である。
D. 時系列データでも、未来データを先に含むランダム分割の方が公平である。
解答:B
解説
- A(誤):学習データだけ高く、テストで低いなら過学習の可能性があります。
- B(正):テストデータを調整に使うと、本来の実力確認ができなくなります。
- C(誤):ハイパーパラメータ調整や過学習確認のために検証データが有効です。
- D(誤):時系列では未来情報を先に見ると現実の予測手順を壊します。
問10:特徴量エンジニアリングとデータリーク
問題
次の特徴量のうち、審査時点で融資可否を予測するモデルに入れるものとして最も不適切なものを 1 つ選んでください。
A. 申込日から見た過去6か月の返済遅延回数
B. 申込時点の年収と勤続年数
C. 審査完了後に担当者が記入した最終承認コメント
D. 申込日時から作成した曜日フラグ
解答:C
解説
- A:審査時点で利用可能なので適切です。
- B:申込時点で分かる属性なので適切です。
- C:審査後にしか存在しない情報であり、データリークです。
- D:日時から作れる派生特徴量なので適切です。
問11:MAE / MSE / RMSE / MAPE / WAPE の使い分け
問題
次の状況で、最も中心になる評価指標を答えてください。
(A)平均して何円ずれているかを、そのまま金額の単位で読みたい
(B)大きな予測外れを特に重く評価したい
(C)商品ごとに売上規模が異なるため、相対誤差を百分率で見たい
(D)期間全体の売上総額に対して、どれくらい外したかを 1 つの比率で見たい
解答例
- (A)MAE
- (B)RMSE または MSE
- (C)MAPE
- (D)WAPE
解説
- A:平均的な外れ幅を元の単位で読みたいので MAE です。
- B:二乗誤差を使う MSE / RMSE は大きな外れに厳しくなります。
- C:実績値に対する割合で見るので MAPE です。
- D:誤差総和を実績総和で割るので WAPE です。
問12:クラス不均衡と AUC-ROC の判断
問題
ある不正検知データでは、1000 件中 10 件だけが不正だった。モデル A は全件を 正常 と予測し、モデル B は不正の多くを拾うが誤警報も一定数出す。このとき、次の記述のうち最も適切なものを 1 つ選んでください。
A. モデル A は正解率が 99% なので、モデル B より常に優れている。
B. クラス不均衡では、正解率だけでなく再現率や AUC-ROC も確認する。
C. AUC-ROC は回帰問題で使う代表指標である。
D. AUC-ROC が高ければ、しきい値を決める必要はない。
解答:B
解説
- A(誤):陽性が極端に少ないと、全部陰性でも高い正解率になります。
- B(正):見逃しを減らしたいなら再現率、モデル全体の識別力を見るなら AUC-ROC が有効です。
- C(誤):AUC-ROC は分類で使います。
- D(誤):AUC はモデル比較に役立ちますが、運用時にはしきい値を別に決める必要があります。
問13:交差検証と時系列分割の判定
問題
次の記述のうち、最も適切なものを 1 つ選んでください。
A. データが少ないときでも、1 回だけのホールドアウト法で十分であり、交差検証は不要である。
B. 不均衡分類では、各分割でクラス比率をなるべく保つ層化 k 分割交差検証が有効である。
C. 時系列予測では、未来データも均等に混ざるようにランダム分割するのが公平である。
D. 交差検証を行ったら、テストデータは不要である。
解答:B
解説
- A(誤):1 回の分割だけでは偶然の影響を受けやすいです。
- B(正):クラス比率を保つと、分割による評価のぶれを減らせます。
- C(誤):時系列では未来情報を先に見てはいけません。
- D(誤):最終的な実力確認として、独立したテストデータはなお重要です。
問14:混同行列の読み取り
問題
ある故障検知モデルの結果が次の混同行列で得られた。
| 実際\予測 | 故障 | 正常 |
|---|---|---|
| 故障 | 36 | 9 |
| 正常 | 12 | 143 |
このとき、次の値を求めてください。
- 適合率
- 再現率
- 正解率
解答例
- 適合率 =
36 / (36 + 12)= 0.75 - 再現率 =
36 / (36 + 9)= 0.8 - 正解率 =
(36 + 143) / 200= 0.895
解説
- 適合率の分母は
陽性と予測した数なので36 + 12 - 再現率の分母は
実際に陽性だった数なので36 + 9 - 正解率は
対角線上の正解数 / 全体数です
問15:ROC 曲線と PR 曲線の使い分け
問題
次の状況で、まず重視すべき見方として最も適切なものを答えてください。
(A)100 万件中 500 件だけが不正取引であるデータで、見逃しと誤警報の両方を見ながらモデルを比較したい
(B)陽性と陰性の件数がほぼ同程度で、分類器の全体的な識別力を比較したい
解答例
- (A)PR 曲線 をまず重視する
- (B)ROC 曲線 をまず重視する
解説
- A:陽性が非常に少ないので、適合率と再現率のバランスを見た方が実務に近いです。
- B:クラス比率が極端でなければ、ROC 曲線で全体的な識別力を比較しやすいです。
問16:回帰指標の計算
問題
3 日間の需要予測結果が次の通りだった。
| 日 | 実績 | 予測 |
|---|---|---|
| 1 | 100 | 110 |
| 2 | 80 | 70 |
| 3 | 120 | 150 |
このとき、MAE、RMSE、WAPE を求めてください。
解答例
まず誤差を整理します。
| 日 | 誤差 | 絶対誤差 | 二乗誤差 |
|---|---|---|---|
| 1 | 10 | 10 | 100 |
| 2 | -10 | 10 | 100 |
| 3 | 30 | 30 | 900 |
- MAE =
(10 + 10 + 30) / 3= 16.7 - RMSE =
√((100 + 100 + 900) / 3)=√366.7≒ 19.1 - WAPE =
(10 + 10 + 30) / (100 + 80 + 120)=50 / 300= 0.167
解説
- MAE は絶対誤差の平均です。
- RMSE は二乗誤差平均の平方根なので、大きな外れをより重く見ます。
- WAPE は
全体でどれくらい外したかを売上総量や需要総量に対する比率で見ています。
問17:時系列特徴量とデータリーク
問題
翌日の需要を予測するモデルで使う特徴量として、最も不適切なものを 1 つ選んでください。
A. 前日売上
B. 過去 7 日間の移動平均
C. 翌日を含む 3 日移動平均
D. 曜日フラグ
解答:C
解説
- A:予測時点で分かる過去値なので使えます。
- B:過去だけで計算していれば適切です。
- C:翌日の実績を含むので、未来情報を先に見ています。典型的なデータリークです。
- D:曜日は事前に分かるため使えます。
関連ページ
このページは役に立ちましたか?
評価とひとことを残してもらえると、内容と導線の改善に使えます。
Last updated on