統計学の基礎
代表値、散布度、相関分析、回帰分析、正規分布、仮説検定の完全ガイド
このページの役割
このページの役割
このページは、中小企業診断士試験の経営情報システム科目で必出となる統計学の基礎を、体系的かつ実務的に解説します。式の暗記ではなく、各指標が「何を測るのか」「結果をどう読むのか」「どの場面で使うのか」を明確にすることが目的です。
経営判断の現場では、データから正しく情報を引き出す能力が求められます。このページを通じて、統計的な考え方の骨格を身につけることで、試験でも実務でも通用する力を養います。
このページの読み方
- 学習のポイントから、このページが何を強調するかを把握する
- 試験で何が問われるかで出題傾向を認識する
- 記述統計→正規分布→相関分析→回帰分析→確率と仮説検定の順で読み進める
- 各セクションの計算例で手を動かして理解を深める
- 典型的なつまずきと問題を解くときの観点で試験対策を固める
- 確認問題で自分の理解度を測定する
学習のポイント
- 記述統計の基本: 代表値(平均、中央値、最頻値)と散布度(分散、標準偏差)は別の概念。用途で使い分ける
- 外れ値への感度: 平均は外れ値に弱く、中央値は強い。データの性質に応じた指標選択が重要
- 正規分布の活用: 自然界や経営データの多くが正規分布に従う。68-95-99.7ルールは実務的に強力
- 相関と因果の分離: 相関係数が高くても、因果関係とは限らない。交絡変数や擬似相関に注意
- 回帰分析の役割: 予測式を立てるときに使う。相関分析とは異なる統計的な目的を持つ
- 仮説検定の判定基準: p値や有意性は「統計的根拠」を示すだけで、実務的な重要性を示すわけではない
- 適切な手法の選択: データの性質や研究質問に応じて、正しい統計手法を選ぶことが成功の鍵
試験で何が問われるか
- 代表値の使い分けと計算(平均、中央値、最頻値が一致する/しない場合の判定)
- 散布度の意味と計算(分散、標準偏差、変動係数、四分位数)
- 正規分布と偏差値の計算・解釈
- 相関係数の定義、強さの解釈、相関と因果の区別
- 回帰分析の概念、単回帰式(y = a + bx)の読み方、決定係数 R²
- 正規分布の68-95-99.7ルール(確率の推定)
- 仮説検定の流れ、帰無仮説、対立仮説、有意水準、p値
- 第1種の過誤と第2種の過誤の概念
- ABC分析、時系列分析、クロス集計など応用手法の基本
記述統計:データを整理する
代表値:データの中心を表す
代表値とは、データセット全体の特徴を 1 つの数値で表す指標です。データの「中心的な水準」を示しますが、データの分布によって、どの代表値を選ぶかが変わります。
平均値(算術平均)
すべてのデータを合計して、データの個数で割った値です。最も一般的に使われます。
計算式: 平均値 = (すべてのデータの合計) ÷ (データ個数)
記号: x̄ (エックスバー) で表現。x₁ + x₂ + ... + xₙ を n で割った値。
特徴: 外れ値に強く引っ張られやすい。計算に全データを使うため、統計的な処理が簡単。
何を示すか: データが「平均的には」どのレベルにあるかを示します。全体の水準把握に適します。
中央値(メジアン)
データを大きさの順に並べたとき、ちょうど真ん中に位置する値です。データ数が偶数の場合は、中央の 2 つの値の平均。
計算方法:
- データ数が奇数の場合:並べた中央の値
- データ数が偶数の場合:中央の 2 つの値の平均
特徴: 外れ値の影響を受けにくい。データが歪んでいる場合に有効。
何を示すか: 「上半分と下半分を分ける」値。極端な値に左右されない「代表値」です。
最頻値(モード)
データの中で最も頻繁に現れる値です。複数存在する場合もあります。
計算方法: データを見て、最も繰り返し出現する値を数えます。
特徴: 離散的なカテゴリーデータに向いている。分布の「山」がどこにあるかを示す。
何を示すか: データの「最も典型的な」パターンを示します。アンケート結果や商品の売上数など、離散データの中心を知りたいときに活躍。
代表値の比較表
| 指標 | 計算方法 | 外れ値への強さ | 用途 | 注意点 |
|---|---|---|---|---|
| 平均値 | すべてのデータの合計÷個数 | 弱い(引っ張られやすい) | 統計処理全般、標準偏差との組み合わせ | 分布が歪むと不適切 |
| 中央値 | 並べたときの真ん中 | 強い(安定的) | 所得、不動産価格など歪んだデータ | 正規分布では平均と同じ |
| 最頻値 | 最も現れる値 | 強い | カテゴリーデータ、分布の山の位置 | 複数存在する場合がある |
計算例:データセット 42
平均値の計算手順:
- すべてのデータを足す:2 + 3 + 3 + 5 + 7 + 8 + 42 = 70
- データの個数を数える:7 個
- 合計をデータ数で割る:70 ÷ 7 = 10
平均値 = 10
中央値の計算手順:
- データを小さい順に並べる:2, 3, 3, 5, 7, 8, 42
- 7 個あるので、真ん中(4 番目)を見つける:2, 3, 3, 5, 7, 8, 42
- 中央値 = 5
最頻値の計算手順:
- どの値が最も多く出現しているか数える
- 3 が 2 回出現(最多)、その他は 1 回
- 最頻値 = 3
解釈: 外れ値 42 が平均値を大きく引き上げ、10 になっています。しかし中央値 5 は、より「典型的な」値を示しています。給与、不動産価格、売上など実務データに外れ値がある場合は、中央値が現実的です。
散布度:ばらつきの大きさを測る
平均が同じでも、データの散らばり方は異なることがあります。散布度(ばらつきの大きさ)を測る指標が重要です。
分散(バリアンス)
各データが平均からどの程度離れているかを、二乗して平均した値です。ばらつきの大きさを定量的に示します。
計算式: 分散 = (各データと平均の差) を二乗して、全部足して、個数で割る
言葉での説明: 各データが平均値からどれだけ離れているか(偏差)を二乗して、その平均を求めます。二乗するのは、負の数を避けるため。
記号と計算: 分散をs²で表します。s² = [(x₁ - x̄)² + (x₂ - x̄)² + ... + (xₙ - x̄)²] ÷ n
何を示すか: ばらつきの大きさを数値化します。分散が大きい = データがばらついている。分散が小さい = データが集中している。
標準偏差(スタンダード・デビエーション)
分散の平方根です。分散と異なり、元のデータと同じ単位を持つため、実務的に解釈しやすいです。
計算式: 標準偏差 = √分散
何を示すか: 「平均からどの程度のズレが『普通』か」を示します。分散より実務的です。
利点: 分散は単位が「元のデータの二乗」になるため解釈が難しいですが、標準偏差は元の単位(例:万円、個)で表せます。
計算例:データセット 12
ステップ1:平均値を計算
- 合計:4 + 6 + 8 + 10 + 12 = 40
- 個数:5
- 平均:40 ÷ 5 = 8
ステップ2:各データの偏差(平均との差)を計算
| データ | 偏差(データ - 平均) |
|---|---|
| 4 | 4 - 8 = -4 |
| 6 | 6 - 8 = -2 |
| 8 | 8 - 8 = 0 |
| 10 | 10 - 8 = 2 |
| 12 | 12 - 8 = 4 |
ステップ3:偏差を二乗
| データ | 偏差 | 偏差の二乗 |
|---|---|---|
| 4 | -4 | 16 |
| 6 | -2 | 4 |
| 8 | 0 | 0 |
| 10 | 2 | 4 |
| 12 | 4 | 16 |
| 合計 | 0 | 40 |
ステップ4:分散を計算
- 偏差の二乗の合計:40
- データ個数:5
- 分散 = 40 ÷ 5 = 8
ステップ5:標準偏差を計算
- 標準偏差 = √8 ≈ 2.83
解釈: データは平均 8 を中心に、約 2.83 の幅でばらついています。通常、データの約 68% は「平均 - 1×標準偏差」から「平均 + 1×標準偏差」の範囲に収まります。この場合、5.17 から 10.83 の範囲にデータが集中することを期待します。
変動係数:単位の異なるデータを比較する
異なる単位や平均レベルのデータを比較するとき、分散や標準偏差だけでは不十分です。変動係数(相対的なばらつき)を使います。
計算式: 変動係数 = (標準偏差 ÷ 平均) × 100%
何を示すか: 「平均に対して、ばらつきがどの程度の割合か」を示します。同じ標準偏差でも、平均が大きいとばらつきは相対的に小さいです。
用途: 売上(万円)と費用率(%)など、単位が異なるデータのばらつきを比較する場合。変動係数が小さいほど、平均に対して安定しています。
計算例:
- A商品:平均 100万円、標準偏差 20万円 → 変動係数 = (20÷100)×100% = 20%
- B商品:平均 1000万円、標準偏差 150万円 → 変動係数 = (150÷1000)×100% = 15%
解釈:B商品の方がばらつきが相対的に小さい(安定している)と判断できます。
四分位数と箱ひげ図
データを 4 等分する 3 つの値(第1四分位数、第2四分位数=中央値、第3四分位数)と、最小値、最大値を用いて、データの分布を視覚化します。
四分位数の定義:
- 第1四分位数(Q1): データの下から 25% の位置。データの下半分の中央
- 第2四分位数(Q2): 中央値(50% の位置)。全体の真ん中
- 第3四分位数(Q3): データの下から 75% の位置。データの上半分の中央
- 四分位範囲(IQR): IQR = Q3 - Q1。中央の 50% がどの幅に分布しているか
外れ値の判定基準: 外れ値は一般に以下の範囲外にあるデータです:
- 下限:Q1 - 1.5 × IQR
- 上限:Q3 + 1.5 × IQR
箱ひげ図の読み方: 「箱」の上下が Q1 と Q3、中の線が Q2(中央値)、「ひげ」が最小・最大値を表します。外れ値は個別の点で表示されます。
計算例:データセット 25(9個)
- データを順に並べる:2, 3, 5, 7, 8, 9, 12, 15, 25
- 中央値(Q2)= 8 番目ではなく 5 番目 = 8
- 下半分 7 の中央 = (3 + 5) ÷ 2 = 4(Q1)
- 上半分 25 の中央 = (12 + 15) ÷ 2 = 13.5(Q3)
- IQR = 13.5 - 4 = 9.5
正規分布:最も重要な分布
正規分布の特徴
**正規分布(ノーマル・ディストリビューション)**は、自然界や経営データの多くが従う分布です。次の性質があります:
- 左右対称:平均を中心に、左右対称の釣り鐘型。美しい対称性を持つ。
- 平均 = 中央値 = 最頻値:すべてが一致する。正規分布ではこの 3 つの値が常に同じです。
- 標準偏差で規則的:データの広がり方が標準偏差で完全に決まります。
- 実務的意味:製造業の製品寸法、テスト成績、人の身長、売上の日次変動など、多くの現象が近似的に正規分布に従います。
68-95-99.7ルール(経験則)
正規分布では、以下の確率規則が成り立ちます。試験と実務で頻出です。
ルールの内容:
- 平均 ± 1×標準偏差の範囲に:68.3% が入る
- 平均 ± 2×標準偏差の範囲に:95.4% が入る
- 平均 ± 3×標準偏差の範囲に:99.7% が入る
記号での表記: 平均を μ(ミュー)、標準偏差を σ(シグマ)とすると、以下が成り立ちます。
実務的な活用:
| 範囲 | 確率 | 範囲外の割合 | 応用例 |
|---|---|---|---|
| ±1σ | 68% | 32%(約3分の1) | 工程正常性の判定。この範囲外なら要調査 |
| ±2σ | 95% | 5%(約20分の1) | 品質管理の管理限界。この範囲外は不良品の可能性 |
| ±3σ | 99.7% | 0.3%(約300分の1) | 異常値の判定基準。この範囲外はほぼ確実に異常 |
計算例:ある工場で、製品の重量は平均 1000g、標準偏差 10g の正規分布に従うとします。
- 990g ~ 1010g(平均 ± 1σ)に収まる製品:約 68%
- 980g ~ 1020g(平均 ± 2σ)に収まる製品:約 95%
- 970g ~ 1030g(平均 ± 3σ)に収まる製品:約 99.7%
標準正規分布(Z 分布)
平均 0、標準偏差 1 に標準化した分布です。任意の正規分布を標準正規分布に変換することで、統計表を共通利用できます。
標準化(Z スコア化)の計算方法:
Z スコア = (データ値 - 平均) ÷ 標準偏差
何を示すか: あるデータが平均から何個の標準偏差分離れているかを示します。
計算例:
- 平均 60 点、標準偏差 10 点のテストで 70 点を取った場合
- Z = (70 - 60) ÷ 10 = 1
- この学生は「平均より 1σ 上」にいます
統計表の活用: Z スコアが決まれば、標準正規分布表から「どの程度のレアさか」を読み取れます。Z = 1 なら上位約 16%、Z = 2 なら上位約 2.3% です。
偏差値の計算
テストや評価で使われる偏差値は、標準正規分布を 50 を中心にスケーリングしたものです。
計算式: 偏差値 = 50 + 10 × Z スコア = 50 + 10 × [(データ値 - 平均) ÷ 標準偏差]
何を示すか: 「50 を平均としたときの、相対的な位置」。偏差値 50 = 平均。偏差値 60 = 平均より 1σ 上(上位約 16%)。
計算手順例:
あるテストで、受験者平均は 60 点、標準偏差は 10 点です。あなたが 70 点を取得した場合:
ステップ1:Z スコアを計算
- Z = (70 - 60) ÷ 10 = 1
ステップ2:偏差値を計算
- 偏差値 = 50 + 10 × 1 = 60
ステップ3:解釈
- 偏差値 60 は平均より 1σ 上(上位約 16%)を意味します。受験者の約 84% がこの人より下です。
実務的な活用: 偏差値を使うことで、異なるテスト間でも「相対的な成績」を比較できます。テスト A で偏差値 55、テスト B で偏差値 55 なら、両者は「同じレベル」です。
相関分析:2 つの変数の関係を見る
相関係数の定義
**相関係数(r)**は、2 つの変数がどの程度一緒に動くかを測ります。
何を示すか: 「2つの変数がどれほど関連しているか」の強さと方向を、-1 から 1 の数値で表します。
相関係数の範囲: -1 ≤ r ≤ 1
- r = 1:完全な正の相関。一方が増えると他方も必ず増える
- r = -1:完全な負の相関。一方が増えると他方は必ず減る
- r = 0:無相関。関係がない
計算の直感的理解: 2 つのデータセット X と Y について、「X が平均から上にぶれているときに、Y も上にぶれているか」を調べる。プラスなら正の相関。
相関の強さ解釈表
統計的な目安として、以下の区分が使われることが多いです(分野による変動あり):
| 相関係数の範囲(絶対値) | 解釈 | 実務例 |
|---|---|---|
| 0.7 以上 | 強い相関 | 広告費と売上、気温と冷飲売上、営業経験年数と成績 |
| 0.5 ~ 0.7 | 中程度の相関 | 学習時間と成績、人員数と生産量 |
| 0.3 ~ 0.5 | 弱い相関 | 企業規模と研修投資、店舗面積と来客数 |
| 0.3 未満 | ほぼ無相関 | 随意支出と気象データ、誕生日と売上 |
重要な注意: 「強い」「中程度」の定義は分野により異なります。経済学では 0.5 で中程度、医学では 0.3 でも有意義とされることがあります。
正の相関、負の相関、無相関
| 相関タイプ | 方向 | 具体例 | 散布図の見た目 |
|---|---|---|---|
| 正の相関 | 一方が増えると他方も増える | 広告費 ↑、売上 ↑ | 左下から右上への傾向 |
| 負の相関 | 一方が増えると他方は減る | 価格 ↑、販売数量 ↓ | 左上から右下への傾向 |
| 無相関 | 関係がない | 誕生日と売上 | 散在したパターン、規則性なし |
視覚的に判断するとき: 散布図(XY平面にデータ点をプロット)を見て、点がどのパターンに従うかで相関を感覚的に判断できます。
相関と因果関係:重要な区別
最大の誤り: 「相関が高い = 因果関係がある」と解釈すること。
相関係数が高くても、因果関係を示さない場合が 3 つあります:
1. 方向不明の因果
変数 A と B に相関があるとき、「A が B を引き起こす」のか「B が A を引き起こす」のかは、相関だけでは判定不可。
例と詳細: 売上と広告費の相関が高いとします。
- 仮説1:「広告費を増やす → 売上が増える」(広告が売上の原因)
- 仮説2:「売上が増える → 広告予算が増える」(売上が広告予算の原因)
- 相関だけからは、どちらが本当か判別できません。
試験での対策: 因果の方向が問われたときは、「相関からは判定できない」が正解。
2. 交絡変数(第3の変数)
A と B が相関していても、実は C(交絡変数)が両方に影響している場合。
有名な例:アイスクリーム売上と熱中症患者の相関は 0.9 で非常に高い。
- 表面的には:「アイス売上 ↑ → 熱中症 ↑」に見える
- 実際には:気温 ↑ → アイスクリーム売上 ↑、気温 ↑ → 熱中症患者 ↑
- 交絡変数「気温」が両方を同時に増やしている
別の例:企業規模と研修投資の相関が 0.6
- 交絡変数の可能性:利益率。利益が高い大企業ほど研修投資も多い
- 実は「企業規模 → 研修投資」ではなく、「利益 → 両方が増える」
試験での対策: 相関が高くても「実は第3の変数が原因」の可能性を常に考える。
3. 擬似相関(スプリアス相関)
全く無関係な 2 つの変数が、たまたま相関を示すこともあります。サンプル数が少ないと特に起こりやすい。
例:全世界の映画興行収入とノーベル賞受賞者数の相関が 0.8。
- これは完全な偶然。何の因果関係もありません
- サンプル数が少ないと、ランダムで高い相関が生じることがあります
試験での対策: 常識的に「関係がありえない」なら、統計的な相関は無視する。
散布図の読み方
相関係数は 1 つの数字ですが、散布図(複数データ点をプロット)を見ることで、より正確に関係を理解できます。
散布図から読み取ること:
- 直線的な関係:相関係数で充分。単回帰分析も有効。
- 曲線的な関係:相関係数は低いが、実は強い非線形関係。このとき「相関 = 0.3だから無関係」は誤り。
- 外れ値の存在:1 つ2 つの極端なデータが相関係数を大きく変える可能性。詳細に調査が必要。
- グループ構造:2 つのグループが別々に分布。全体の相関は低いが、グループ内では高い可能性。
具体例:
- 営業経験年数と売上成績の散布図を見て、「ほぼ直線に従う」なら r = 0.8 で信頼できます
- 「バラバラだが、わずかな正の傾向」なら r = 0.3 で正確です
- 「1 人の成績が異常に高い」なら、その外れ値の原因(特別なスキル、運など)を調査
回帰分析:予測式を立てる
単回帰分析の概念
回帰分析は、ある変数(独立変数 x)を用いて、別の変数(従属変数 y)を説明・予測する統計手法です。
回帰式:y = a + bx
ここで:
- x:説明変数(原因側)。例:広告費
- y:目的変数(結果側)。例:売上
- a:切片。x = 0 のときの y の値。グラフが y 軸と交わる点
- b:傾き。x が 1 単位増えたときの y の変化量。回帰係数と呼ぶ
何を示すか: 「x と y の間の平均的な直線関係」を示します。「x を知れば、y をおおよそ予測できる」ということです。
最小二乗法の考え方
実データはすべてが直線上に載りません。回帰直線は、予測値と実観測値の誤差を最小化するように引きます。これが最小二乗法です。
何をしているのか:
- 各データ点から、提案した直線までの距離(誤差)を計算
- その距離の二乗を全部足す(二乗するのは負の誤差を避けるため)
- 誤差の二乗和が最小になるように、a と b を決める
直感的な理解: 「データ点にできるだけ近い直線」を探しています。直線の上下にバラバラに散らばったデータについて、その「平均的な動き」を捉える。
計算例:広告費(万円)と売上(百万円)の単回帰
データセット:
| 広告費(x) | 売上(y) |
|---|---|
| 1 | 5 |
| 2 | 8 |
| 3 | 10 |
| 4 | 12 |
| 5 | 15 |
ステップ1:平均値を計算
- x の平均(x̄)= (1 + 2 + 3 + 4 + 5) ÷ 5 = 3
- y の平均(ȳ)= (5 + 8 + 10 + 12 + 15) ÷ 5 = 10
ステップ2:傾き b を計算(共分散と分散を使う)
表を作ります。(x - 3)と(y - 10)の積、そして(x - 3)の二乗を計算。
| x | y | (x - 3) | (y - 10) | (x - 3)(y - 10) | (x - 3)² |
|---|---|---|---|---|---|
| 1 | 5 | -2 | -5 | 10 | 4 |
| 2 | 8 | -1 | -2 | 2 | 1 |
| 3 | 10 | 0 | 0 | 0 | 0 |
| 4 | 12 | 1 | 2 | 2 | 1 |
| 5 | 15 | 2 | 5 | 10 | 4 |
| 合計 | 24 | 10 |
傾き b = (x と y が共に平均からズレている積の合計) ÷ (x が平均からズレている二乗の合計)
- b = 24 ÷ 10 = 2.4
ステップ3:切片 a を計算
- a = ȳ - b × x̄ = 10 - 2.4 × 3 = 10 - 7.2 = 2.8
ステップ4:回帰式を書く
ŷ = 2.8 + 2.4x
(ŷは「y ハット」と読み、予測値を意味します)
ステップ5:解釈
- 切片 2.8:広告費が 0 のときの売上予測は 2.8 百万円
- 傾き 2.4:広告費が 1 万円増加すると、売上は 240 万円(2.4 百万円)増加する見込み
ステップ6:予測例
広告費が 6 万円の場合、売上を予測:
- ŷ = 2.8 + 2.4 × 6 = 2.8 + 14.4 = 17.2 百万円
結果:広告費 6 万円では売上は約 17.2 百万円と予測されます。
決定係数 R²(回帰の説明力)
決定係数 R²は、回帰式がデータのばらつきをどれほど説明しているかを示す指標です。
範囲と意味: 0 ≤ R² ≤ 1
- R² = 1:完全予測。全データが直線上に載る
- R² = 0.7:変動の 70% が説明される。かなり説明力がある
- R² = 0.3:変動の 30% が説明される。説明力は限定的
- R² = 0:説明力がない。x と y に関係がない
計算の関係: R² = (相関係数 r)²
例えば、相関係数 r = 0.8 なら、R² = 0.8² = 0.64(64% 説明)。
実務的な読み方: 営業経験年数と売上成績の r = 0.8 なら、R² = 0.64。経験が売上の 64% を説明し、残り 36% は他の要因(営業スキル、商品知識、顧客属性など)による。
重相関係数 / 決定係数 / 自由度調整済み決定係数 をどう切るか
回帰の設問では、重相関係数、決定係数、自由度調整済み決定係数 を近い選択肢として並べ、どれが負になり得るか、説明変数を増やすとどうなるか を問うことがあります。ここは 何を示す指標か と 取り得る範囲 を分けて覚えるのが安全です。
| 指標 | 何を見るか | 取り得る範囲 | 問題文の合図 | 初学者が誤りやすい点 |
|---|---|---|---|---|
| 重相関係数 | 複数の説明変数と目的変数が、全体としてどれくらい強く結びついているか | 0 以上 1 以下 | 相関の強さ、負になるか、複数変数 | 単相関係数のように 負になる と思い込む |
| 決定係数 R² | 回帰式が目的変数のばらつきをどれくらい説明しているか | 0 以上 1 以下 | 説明力、当てはまり、何%説明できるか | 相関係数そのもの と混同する |
| 自由度調整済み決定係数 | 説明変数の数まで考慮して、見かけの当てはまりを補正した説明力 | 負になることがある | 自由度調整、説明変数が多い、データ数が少ない | 決定係数と同じく常に 0 以上 だと思う |
決定係数 R² は説明変数を増やすと一般に下がりにくい一方、自由度調整済み決定係数 は 説明変数を増やしたが効果が薄い ときに下がることがあります。したがって、説明変数を増やすと必ず良く見える のを補正するのが自由度調整の役割です。
また、最小二乗法は説明変数が 2 つ以上でも使えます。 重回帰だから最小二乗法は使えない という理解は誤りです。診断士試験では 何が必ず成り立つか を問われるので、重相関係数は負にならない、自由度調整済み決定係数は負になり得る を先に固定してください。
重回帰分析の概念
実務では x が 1 つではなく、複数の要因が y に影響します。そこで重回帰分析を使います。
重回帰式: y = a + b₁x₁ + b₂x₂ + ... + bₙxₙ
例えば、売上に影響する要因:
- x₁:広告費
- x₂:営業人員数
- x₃:営業経験年数(平均)
売上 = 5 + 2.4 × 広告費 + 3.0 × 人員数 + 0.8 × 経験年数
解釈方法:
- 人員数と経験年数が同じなら、広告費が 1 万円増えると売上は 2.4 百万円増え、他のすべてが同じなら、営業人員が 1 人増えると売上は 3.0 百万円増える。
利点: 複数の要因を同時に考慮できる。しかし計算が複雑なため、通常は統計ソフト使用。
多重共線性(マルチコリニアリティ)
複数の説明変数が高い相関を持つと、重回帰分析の結果が不安定になります。これを多重共線性と呼びます。
何が起こるか: 説明変数 x₁ と x₂ が高い相関(例:r = 0.9)を持つ場合、「x₁ の効果」と「x₂ の効果」が区別しにくくなる。
例: 売上 = a + b₁ × 広告費 + b₂ × テレビCM本数
広告費とテレビCM本数は高い相関を持つ(広告費が多いほど CM 本数が多い)なら、どちらが売上を増やしているかが不明確。
対策:
- 高相関の説明変数を同時に入れない
- 相関が高い変数は 1 つだけを選ぶ
- 分散拡大係数(VIF)をチェック(VIF > 10 なら要注意)
確率の基礎
加法定理(OR の確率)
2 つ以上の事象が「どれか 1 つ起こる」確率を計算します。
基本形: P(A または B) = P(A) + P(B) - P(A かつ B)
何を示すか: 「事象 A が起こる確率」と「事象 B が起こる確率」を足すとき、両方が起こる確率を引く。(重複を避けるため)
簡単な例: 1 つのサイコロを振るとき:
- P(3 が出る または 5 が出る) = P(3) + P(5) = 1/6 + 1/6 = 1/3
実務例: ある営業が「顧客 A から受注する確率 40%」「顧客 B から受注する確率 30%」「両方から受注する確率 10%」のとき、「少なくとも 1 つから受注する確率」:
- P(A または B) = 0.4 + 0.3 - 0.1 = 0.6(60%)
乗法定理(AND の確率)
2 つ以上の事象が「すべて起こる」確率を計算します。
基本形:P(A かつ B) = P(A) × P(B|A)
ここで P(B|A) は「A が起きたという条件下での B の確率」(条件付き確率)。
独立事象の場合(A と B が無関係):
- P(A かつ B) = P(A) × P(B)
何を示すか: 複数の事象が同時に起こるには、各事象の確率を掛ける。
簡単な例: サイコロを 2 回振るとき:
- P(1回目が 3 かつ 2 回目が 5) = P(3) × P(5) = 1/6 × 1/6 = 1/36
実務例: 営業 A の受注率 70%、営業 B の受注率 80% が独立なら、両方が受注する確率:
- P(両方受注) = 0.7 × 0.8 = 0.56(56%)
独立事象と従属事象
独立事象: ある事象が起こるかどうかが、他の事象に影響しない。
- 例:サイコロを 2 回振る。1 回目の結果は 2 回目に影響しない
従属事象: ある事象が起こるかどうかが、他の事象に影響する。
- 例:カードを 1 枚引いて「戻さずに」2 枚目を引く。1 枚目に何が出たかで 2 枚目の確率が変わる
計算の違い:
- 独立:P(A かつ B) = P(A) × P(B)
- 従属:P(A かつ B) = P(A) × P(B|A)(A の後での B の条件付き確率を使う)
捕獲再捕獲法:全体件数を推定する
ソフトウェアの不良件数や、検査で見逃されているエラー件数を推定したいときに使われるのが 捕獲再捕獲法(Lincoln-Petersen推定) です。すべてを完全に数えられない状況でも、2回の調査結果の重複から全体数を逆算します。
| 記号 | 意味 |
|---|---|
| M | 第1回で見つかった件数 |
| C | 第2回で見つかった件数 |
| R | 両方で重複して見つかった件数 |
| N | 推定したい全体件数 |
推定式は次のとおりです。
N ≒ (M × C) ÷ R考え方は、第1回で見つかった割合 M / N と 第2回の中で重複した割合 R / C を対応させることです。
M / N ≒ R / C
→ N ≒ (M × C) / R例
- 第1検査で 80 件のエラーを発見
- 第2検査で 60 件のエラーを発見
- そのうち 20 件は重複
N ≒ (80 × 60) ÷ 20 = 240 件したがって、全体では約 240 件のエラーがあると推定できます。すでに見つけた件数との差を考えれば、未発見件数の概算にも使えます。
試験では、重複件数 R が小さいほど全体推定値は大きくなる ことも重要です。重複が少ないということは、2回の検査で別々の不良を多く見つけているため、まだ未発見がかなり残っている可能性が高いからです。
仮説検定:統計的な根拠で判定する
仮説検定の流れ(全体像)
仮説検定は、「データから得られた証拠が、ある主張を支持するか」を統計的に判定するプロセスです。
大まかな流れ:
- 帰無仮説と対立仮説を設定
- 有意水準を決定(通常 5% または 1%)
- 検定統計量を計算(t 値、χ² など)
- p 値を求める(確率表から)
- p 値と有意水準を比較して判定
何をしているか(直感的に): 「帰無仮説(『差がない』『効果がない』)が本当だとしたら、このデータが得られる確率は何%か」を計算し、非常に低ければ「帰無仮説は間違い」と結論。
帰無仮説と対立仮説
帰無仮説(H₀:Null Hypothesis): 「差がない」「効果がない」「関係がない」という慎重な仮説。検定は常にこれを棄却できるかを問う。
例:
- 「新商品と旧商品の売上に差はない」
- 「営業経験年数と売上に関係がない」
対立仮説(H₁:Alternative Hypothesis): 帰無仮説の反対。研究者が「本当はこうなのでは」と予想する仮説。
例:
- 「新商品と旧商品の売上に差がある」
- 「営業経験年数と売上に正の関係がある」
なぜこの流れか: 直感的には「対立仮説が正しいか」を問いたいのですが、統計学では慎重に「帰無仮説を棄却できるか」という逆を問う。これで偽陽性(ウソの発見)を避ける。
有意水準(α)と p 値
有意水準(α:アルファ): 「帰無仮説を棄却する基準」。通常 0.05(5%)または 0.01(1%)。
意味: 「帰無仮説が正しいのに、誤って棄却する確率」の上限。5% なら「100 回検定して、5 回は偽陽性が出てもいい」という許容度。
p 値: 「帰無仮説が正しいと仮定したとき、これ以上に極端なデータが得られる確率」。
判定ルール:
- p < α なら帰無仮説を棄却。「統計的に有意な差がある」
- p ≥ α なら帰無仮説を棄却できない。「有意な差があるとは言えない」
重要な勘違い: p = 0.03 は「帰無仮説が正しい確率が 3%」ではなく、「帰無仮説が正しいという前提で、このデータ以上に極端な結果が 3% の確率で起こる」という意味。
第1種の過誤と第2種の過誤
仮説検定には 2 種類の誤りがあります:
| 過誤の種類 | 定義 | 確率 | 意味 | 現実例 |
|---|---|---|---|---|
| 第1種の誤り(α誤り) | 帰無仮説が正しいのに棄却してしまう | α | 偽陽性。「ないものをあると判定」 | 効果がない薬を「効果あり」と誤認 |
| 第2種の誤り(β誤り) | 帰無仮説が誤りなのに棄却しない | β | 偽陰性。「あるものをないと判定」 | 効果がある薬を「効果なし」と誤認 |
トレードオフ: α を厳しくする(偽陽性を減らす)と β が増えやすく、β を小さくする(偽陰性を減らす)と α が増える傾向。両立はできません。
検出力(1 - β): 「帰無仮説が間違っているとき、それを正しく検出する確率」。高い方が望ましい。通常は 80% 以上を目指します。
検定の手順(詳細)
ステップ1:帰無仮説と対立仮説を明確に設定
例:「新営業手法の導入により、平均売上が増えるか」
- H₀:新手法導入前後で平均売上に差なし
- H₁:新手法導入で平均売上が増加
ステップ2:有意水準を決定
通常 α = 0.05(5%)。厳しく判定したければ 0.01(1%)。
ステップ3:検定統計量を計算
データから、t 値や χ² 値などを計算。(方法は検定の種類による)
ステップ4:p 値を求める
計算した検定統計量から、統計表を使って p 値を算出。
ステップ5:判定
- p < 0.05 なら「有意な差あり。帰無仮説を棄却」
- p ≥ 0.05 なら「有意な差があると言えない。帰無仮説を棄却できない」
ステップ6:結論を述べる
「統計的に有意な差が見られた」か「見られなかった」か、そして実務的な意味を述べる。
主な検定手法の概要
t 検定(2 グループの平均比較)
用途: 2 つのグループの平均に差があるか判定
具体例: A 営業所と B 営業所の平均売上が異なるか判定したい。各営業所の売上データを集めて、両者が有意に異なるか検定。
検定統計量:
t = (グループ1の平均 - グループ2の平均) ÷ √(各グループのばらつきを合わせた標準誤差)
分子は平均の差(大きいほど差が明確)、分母はデータのばらつきを考慮(ばらつきが大きいと、差は相対的に小さい)。
χ² 検定(カイ二乗検定:分類データの関係)
用途: カテゴリー変数間の関係があるか判定
具体例: 「性別(男/女)」と「商品選好(商品 A/B)」に関連があるか判定したい。クロス集計表を作り、男は A を好む傾向があるか、女は B を好む傾向があるか検定。
クロス集計表から χ² 統計量を計算し、変数の独立性を検定。
F 検定(3 グループ以上の平均比較)
用途: 複数グループ(3 つ以上)間に有意な差があるか判定
具体例: A、B、C の 3 営業所の平均売上に有意な差があるか判定。2 グループ比較の拡張。
分散分析(ANOVA)とも呼ばれます。
どの検定へ行くか を問い方で切る
統計の設問では、分布名を暗記しているかよりも、何を比べたいのか を読めるかが重要です。平均、分類の関係、3 群以上の比較、成功 / 失敗の回数 をまず切り分けると、誤答しにくくなります。
| 問い方 | データの型 | まず考える手法・分布 | 問題文の合図 |
|---|---|---|---|
| 2 つのグループの平均に差があるか | 連続量 | t 検定(条件によっては z 検定) | 平均売上、平均点、平均処理時間 |
| 3 つ以上のグループの平均に差があるか | 連続量 | F 検定 / 分散分析 | A・B・C の比較、複数群、平均差 |
| 2 つのカテゴリー変数に関係があるか | 分類データ | χ² 検定 | クロス集計、独立性、男女別・店舗別 |
| 成功 / 失敗の回数や比率を扱うか | 0 / 1 の離散データ | 二項分布 | 当たり回数、不良品数、成功確率 |
平均売上が 50 万円から 52 万円へ上がったように見える といった設問は、まず 平均 の話なので、発想としては t 検定 / z 検定 側です。逆に 100 件中 8 件が不良 のように 成功回数・失敗回数 を数えるなら、二項分布の文脈が自然です。何を数えているのか を主語にすると、分布名の丸暗記に頼らず切れます。
その他の応用手法
ABC 分析(パレート分析)
顧客、商品、取引先などを重要度でランク分けし、経営資源を効率配分する手法。データの「重要な 20%」に集中することで、成果の 80% が得られるという原理(パレートの法則)に基づきます。
分類基準:
| 分類 | 売上などの累積構成比 | 商品・顧客数の構成比 | 対策 |
|---|---|---|---|
| A グループ | 60 ~ 80% | 10 ~ 20% | 最優先。顧客満足・利益率向上に集中。離反防止が重要。 |
| B グループ | 80 ~ 90% | 20 ~ 30% | 中程度。効率化で利益を作る。段階的に育成。 |
| C グループ | 90 ~ 100% | 50 ~ 70% | 低優先。簡素化または撤退検討。定期的に見直し。 |
実務例と計算の流れ:
全商品 100 品目の売上データがある場合:
- 売上の高い順に並べる
- 売上の累積比率を計算
- 品目数の累積比率と対比
- 上位 20 品目(20%)で全売上の 80% を占めるなら、これが A グループ
- その次 30 品目が 80~90% を占めるなら B グループ
- 残り 50 品目が 90~100% なら C グループ
マトリックス表示:ABC分析結果を 2×2 表で視覚化することもあります。(売上規模 vs 成長率、利益率 vs 顧客数など)
時系列分析
時間とともに変化するデータを分析し、将来を予測します。
移動平均
直近 n 期間の平均を次々と計算する方法。トレンド(長期的な傾向)を抽出し、季節変動を除去します。
計算方法:
移動平均(t 時点)= (t 時点のデータ + 1期前 + 2期前 + ... + (n-1)期前) ÷ n
具体例:売上の 3 ヶ月移動平均
- 1月~3月の平均
- 2月~4月の平均
- 3月~5月の平均
- ...
何をしているか: 毎月の売上はバラバラでも、3 ヶ月ごとの平均を見ると「長期的なトレンド」が見えやすくなります。
実務的な活用: 季節変動(夏に売上が上がる商品など)を除去し、本質的な景気トレンドを把握。
指数平滑法
最近のデータに大きな重みを付けて平滑化します。最新の動向をすばやく反映。
計算式: 予測値(次期)= α × 最新実績値 + (1 - α) × 前期予測値
ここで α は平滑定数(0 < α < 1)。α が大きいほど最新データを重視。
具体例:α = 0.3、前期予測が 100、今期実績が 110 なら:
- 次期予測 = 0.3 × 110 + 0.7 × 100 = 33 + 70 = 103
何をしているか: 過去のすべてを均等に扱うのではなく、最近ほど重く見る。トレンド変化への反応が速い。
クロス集計表(分割表)
2 つ以上のカテゴリー変数の関係を行と列で整理。χ² 検定で独立性を検定します。
例:性別と営業所の分布
| 東京 | 大阪 | 福岡 | 合計 | |
|---|---|---|---|---|
| 男 | 45 | 30 | 20 | 95 |
| 女 | 35 | 25 | 15 | 75 |
| 合計 | 80 | 55 | 35 | 170 |
読み方:
- 男性 95 人のうち 45 人が東京(47.4%)
- 女性 75 人のうち 35 人が東京(46.7%)
- 性別と営業所の分布がほぼ同じなら、独立(関係がない)
χ² 検定: 「性別と営業所は本当に独立か」を統計的に判定。
典型的なつまずき
1. 平均だけで判断し、外れ値や分布を無視
誤り: 5 つの営業所の売上が [500, 510, 520, 530, 3000] 万円の場合、平均 1012 万円で「平均的な売上」と評価し、リソース配分を決定。
問題点: 1 人の高成績者(3000 万円)が平均値を大きく引き上げていて、実際の「代表的な」売上ではない。
正しい対応:
- 中央値 520 万円を見て、「通常の売上はこの程度」と判定
- 外れ値 3000 を特別に分析:特別なスキルか、特別な顧客か、データ入力誤りか
- 平均値と中央値の乖離 = 外れ値や歪んだ分布の信号
2. 相関が高い = 因果関係がある、と短絡
誤り: 「営業経験年数と売上が相関 r = 0.85 ⇒ 経験が売上を決める」と結論し、採用・教育戦略を決定。
問題点: 複数の説明が可能です。
正しい対応:
- 相関 0.85 は「非常に関連が深い」を意味するが、因果ではない
- 他の説明を検討:
- 経験が売上を高めているのか?
- 売上の高い営業が長く留まっているのか?(離職率が関係)
- 両者とも「市場景気」に影響されているのか?
- 追加の調査で因果メカニズムを確認
3. 相関と回帰を同じと考える
誤り: 「相関係数が 0.7 だから、回帰式で説明力は 70%」と評価。
問題点: これは間違いです。
正しい対応: 説明力(R²)= (相関係数)² = 0.7² = 0.49 = 49%。相関係数の自乗が説明力。
- 相関 0.7 なら説明力は 49%(残り 51% は他の要因)
- 相関 0.5 なら説明力は 25%(かなり限定的)
4. 有意差がある = 実務的に重要
誤り: サンプル数 10,000 人で「新商品購買意向が 40% → 41% に増加(p < 0.01)」を「有意だから重要」と判定し、大規模投資を決定。
問題点: 統計的有意性(偶然ではない)と実務的有意性(業務上価値がある)は別物。
正しい対応:
- 1% の増加が採算に合うか、マーケティング効果として実務的か吟味
- 有意差はあっても「小さい」可能性がある
- サンプル数が大きいほど、小さな差も有意になる
5. p 値を誤解する
誤り: 「p = 0.03 だから、帰無仮説が正しい確率は 3%」と解釈。
問題点: これは統計学的に間違いです。
正しい解釈: 「帰無仮説(『差がない』)が正しいという仮定の下で、これ以上に極端なデータが得られる確率が 3%」という意味。帰無仮説が正しい確率そのものではありません。
言い換え: 帰無仮説が本当に正しければ、同じ実験を 100 回繰り返すと 3 回くらいは今回と同じかもっと極端な結果が出る、ということ。
6. 標本サイズを無視する
誤り: 10 人のサンプルで「平均売上は 500 万円、標準偏差 50 万円」と報告し、「確実に 450 ~ 550 万円」と主張。
問題点: サンプルサイズが小さいと、推定精度が非常に悪い。
正しい対応:
- サンプルサイズが小さいと標準誤差が大きく、信頼区間(「大体この範囲」)が非常に広い
- 信頼区間:350 ~ 650 万円 など、使えないほど広い可能性
- リサーチデザインで適切なサンプルサイズを事前計画
問題を解くときの観点
問題文の意図を読み分ける
「中心」を問う場合 → 平均、中央値、最頻値から選ぶ。外れ値有無で判定。
- 「代表値は」「平均的な」という文言
- 外れ値がある場合は中央値を選ぶ
「ばらつき」を問う場合 → 分散、標準偏差、範囲、四分位範囲を検討。
- 「どの程度ばらついているか」「安定性は」という文言
- 単位の異なるデータなら変動係数
「関係」を問う場合 → 相関係数か回帰分析か、目的で使い分け。
- 相関 = 「2つがどう関連しているか」「強さと方向」
- 回帰 = 「予測式」「x から y を説明」
「差」を問う場合 → 仮説検定(t 検定、χ² など)へ。
- 「有意差がある」「統計的に異なるか」という文言
- p 値や有意水準と比較
選択肢の検証ステップ
- 計算確認: 平均 = (ΣX) / n を手計算で確認。計算ミスはよくある。
- 単位確認: 結果の単位が問題文と一致しているか。標準偏差が「万円」、分散が「万円²」など単位がズレていないか。
- 範囲チェック:
- 相関係数が -1 ≤ r ≤ 1 か
- 確率が 0 ≤ P ≤ 1 か
- 偏差値が 0 ≤ 値か(通常は 30 ~ 70 の範囲)
- 因果を避ける: 「相関が高い → 因果」の陥穽を避ける。選択肢に「AはBを引き起こす」と書かれていたら、相関だけからは結論できない。
- 有意の読み方: 「有意」は「差があるという根拠」であり「重要」ではない。実務的な大きさも検討。
データ読み込みの注意
- 平均と中央値が大きく異なる ⇒ 外れ値か歪んだ分布の可能性。分布図を確認。
- 標準偏差が平均と同程度 ⇒ データのばらつきが非常に大きい。変動係数が 50% 以上は不安定性を示唆。
- 相関係数 0.3 未満 ⇒ ほぼ無相関。因果を推測しない。「関係がない」が正解。
- p 値が 0.05 に近い(0.045 など) ⇒ 境界線上。結論は慎重に。有意性の判定より、実務的な大きさを重視。
記述試験での説明ポイント
- 指標を選んだ理由を明示: 「外れ値の影響を考慮して中央値を選択した」という根拠を述べる。
- 数値と文脈をセットで説明: 「相関 r = 0.65(中程度)で、予測力は限定的である」と数値の解釈も。
- 因果関係を推測せず、関連性に留める: 「相関により関連がうかがえるが、因果メカニズムは別途検証が必要」と慎重な姿勢。
- 有意性と実務的重要性を分ける: 「統計的に有意な差が見られたが、実務的な効果サイズは確認が必要」と区別。
確認問題
問1:代表値の計算と使い分け
ある経営コンサルタント企業の 7 人のアナリストの年間報酬(万円)が以下の通りです:
[500, 520, 540, 560, 580, 600, 2500]
(1)平均値、中央値、最頻値を計算してください。
(2)この企業の「代表的な報酬水準」を説明する際、どの指標を使うべきか、理由とともに述べてください。
(3)標準偏差が約 750 である場合、統計的な解釈を述べてください。
解答
(1)
- 平均値: (500 + 520 + 540 + 560 + 580 + 600 + 2500) ÷ 7 = 5800 ÷ 7 ≈ 828.6 万円
- 中央値: データを順に並べると [500, 520, 540, 560, 580, 600, 2500]。真ん中は 4 番目の 560 万円
- 最頻値: すべて異なる値なので、最頻値は なし(一様分布)
(2)中央値(560 万円)を使うべき
理由:1 人の高報酬者(2500 万円)が平均値を大きく引き上げ、828.6 万円では実態を反映しません。外れ値の影響を受けにくい中央値が、「代表的な」水準をより正確に示します。
(3)標準偏差の解釈
標準偏差 750 万円は、平均 828.6 万円に対して非常に大きい(変動係数 = 750 ÷ 828.6 ≈ 90%)。これは報酬のばらつきが極めて大きく、データが正規分布に従わず、かつ外れ値が存在することを示唆します。実務的には、報酬体系の見直しが必要かもしれません。
問2:相関分析と因果関係
ある小売企業で、10 店舗の「販売員の平均年齢」と「月間売上」の相関係数が r = 0.92 と非常に高いことが判明しました。経営層から「若い販売員を採用すれば売上が増える」と主張されています。
(1)この主張は統計的に正当化されるか、説明してください。
(2)なぜ相関が高いのか、他の説明の可能性を 2 つ述べてください。
(3)本当の原因を特定するために、どのような追加調査をすべきか提案してください。
解答
(1)統計的には正当化されません。
相関係数 r = 0.92 は「非常に強い関係」を示しますが、因果関係を証明しません。相関は「平行して動く」を意味するだけで、「一方が他方を引き起こす」を示しません。
(2)他の説明の可能性:
-
交絡変数(店舗年数): 古い店舗ほど販売員が年配で売上が低い、新しい店舗ほど若い販売員で売上が高い。年齢でなく「店舗の新旧」が売上を左右しているかもしれません。
-
方向の逆転: 売上が高い店舗は賃金競争力があり若い優秀人材を採用でき、売上が低い店舗は限定人材で年配者が多くなっている。「売上が年齢を決める」可能性。
その他:市場環境、立地、競合状況など。
(3)追加調査案:
- 同じ年齢の販売員がいる複数店舗で、売上パフォーマンスを比較
- 販売員の年齢層以外の要因(店舗設立時期、立地、商品ミックス)を統計的にコントロール
- 過去の売上推移と販売員構成の変化を追跡し、因果方向を検討
- 年齢と売上の関係に「交絡変数」を組み込んだ重回帰分析
結論:相関 0.92 は「無視できない関連」ですが、採用戦略を決める前に因果メカニズムを検証すべきです。
問3:正規分布と意思決定
ある製造業の品質管理では、商品の重量が平均 1000g、標準偏差 10g の正規分布に従うことが確認されています。
(1)68-95-99.7 ルールを使い、980g から 1020g の範囲に入る商品の比率を計算してください。
(2)品質保証部は「1030g 以上の商品は不良品とみなす」と定めています。不良品率を推定してください。
(3)不良品率を 0.1% 以下に下げるには、品質管理をどのように改善すべきか、統計的な観点から提案してください。
解答
(1)980g ~ 1020g の比率
計算:
- 980g = 平均 - 2 × σ = 1000 - 2 × 10
- 1020g = 平均 + 2 × σ = 1000 + 2 × 10
68-95-99.7 ルール:±2σ の範囲には約 95.4% が収まります。
(2)1030g 以上の不良品率
計算:
- 1030g = 平均 + 3 × σ = 1000 + 3 × 10
±3σ の範囲には 99.7% が収まるため、3σ を超える部分は (100% - 99.7%) ÷ 2 = 0.15%
1030g 以上は約 0.15%(両側で 0.3%、片側なので 0.15%)
(3)不良品率を 0.1% 以下にする提案
-
方法 A(標準偏差の削減): 製造工程の精密化で σ を 10g から 6.7g 以下に改善すれば、1030g を ±3.5σ 以上に押し出せます(不良率 0.023%)。
-
方法 B(工程能力指数の向上): 製造機械の調整精度向上、材料品質の厳選、作業者トレーニング充実で σ を削減。六シグマなどの品質改善手法を導入。
-
方法 C(規格値の検討): 1030g の規格が顧客要求に対して妥当か、緩和が可能かを経営と協議。不要に厳しい規格なら、緩和で不良率を下げられます。
統計的には「標準偏差の削減」が最優先課題。現行の工程では 0.1% 達成は困難です。
問4:回帰指標の切り分け
次の説明に最も適切な語を答えてください。
(A)複数の説明変数と目的変数の結びつきの強さを表し、負になることはない指標
(B)回帰式の説明力を表すが、説明変数を増やすと一般に下がりにくい指標
(C)説明変数の数を考慮して説明力を補正するため、場合によっては負になる指標
(D)説明変数が 2 つ以上ある重回帰でも使われる代表的な推定法
解答
- (A)重相関係数
- (B)決定係数(R²)
- (C)自由度調整済み決定係数
- (D)最小二乗法
ポイント
負になるかを聞かれたら、まず自由度調整済み決定係数を疑います。相関の強さと説明力は別物です。前者は重相関係数、後者は決定係数です。
問5:検定手法と第1種 / 第2種の誤り
次の状況で、最も中心になる検定手法または概念を答えてください。
(A)A 店と B 店の平均売上に差があるか確かめたい
(B)商品選好が性別と関係しているか、クロス集計表で確かめたい
(C)A・B・C の 3 営業所で平均売上に差があるか確かめたい
(D)真の差はないのに 差がある と判定してしまった
(E)真の差はあるのに 差がない と見逃してしまった
(F)100 個中の不良品数のように、成功 / 失敗の回数をモデル化したい
解答
- (A)t 検定
- (B)χ² 検定
- (C)F 検定(分散分析)
- (D)第1種の誤り
- (E)第2種の誤り
- (F)二項分布
ポイント
平均を比べたいのか、分類の関係を見たいのか、回数を数えたいのかを先に切り分けます。ないのにあると言うが第1種、あるのにないと言うが第2種です。
関連ページ
このページは役に立ちましたか?
評価とひとことを残してもらえると、内容と導線の改善に使えます。
Last updated on