テクノロジー AI 非公開: 機械学習における混同行列とは何ですか?

機械学習における混同行列とは何ですか?

混同行列は、教師あり機械学習アルゴリズムの分類タイプのパフォーマンスを評価するツールです。

機械学習における混同行列とは何ですか?
機械学習における混同行列とは何ですか?

混同マトリックスとは何ですか?

私たち人間は、真実と嘘であっても、物事を異なる方法で認識します。私にとって10cmの長さの線が、あなたにとっては9cmの線に見えるかもしれません。ただし、実際の値は 9、10、またはその他の値である可能性があります。私たちが推測するのは予測値です。

私たちの脳が独自のロジックを適用して何かを予測するのと同じように、機械もさまざまなアルゴリズム (機械学習アルゴリズムと呼ばれます) を適用して、質問の予測値に到達します。繰り返しますが、これらの値は実際の値と同じである場合もあれば、異なる場合もあります。

競争の激しい世界では、パフォーマンスを理解するために、 自分 の予測が正しいかどうかを知りたいと考えます。同様に、機械学習アルゴリズムのパフォーマンスは、正しく予測が行われた 回数 によって判断できます。

では、機械学習アルゴリズムとは何でしょうか?

機械は、機械学習アルゴリズムと呼ばれる特定のロジックまたは一連の命令を適用することで、問題に対する特定の答えに到達しようとします。機械学習アルゴリズムには、教師あり、教師なし、強化の 3 つのタイプがあります。

最も単純なタイプのアルゴリズムは監視されており、私たちがすでに答えを知っている場合、大量のデータを使用してアルゴリズムをトレーニングすることで、その答えに到達するようにマシンをトレーニングします。これは、子供が異なる年齢グループの人々を区別する方法と同じです。彼らの特徴を何度も見つめます。

教師あり ML アルゴリズムには、分類と回帰の 2 つのタイプがあります。

分類アルゴリズムは、一連の基準に基づいてデータを分類または並べ替えます。たとえば、ピザが好きな人、ピザが嫌いな人など、食べ物の好みに基づいて顧客をグループ化するアルゴリズムが必要な場合は、デシジョン ツリー、ランダム フォレスト、ナイーブ ベイズ、または SVM などの分類アルゴリズムを使用します (サポートベクターマシン)。

これらのアルゴリズムのうちどれが最も良い結果をもたらすでしょうか?あるアルゴリズムを他のアルゴリズムではなく選択する必要があるのはなぜですか?

混同行列を入力してください…。

混同行列は 、データセットの分類における分類アルゴリズムの精度に関する情報を提供する行列または表です。まあ、人間を混乱させるための名前ではありませんが、誤った予測が多すぎると、おそらくアルゴリズムが混乱したことを意味します 😉!

したがって、混同行列は、分類アルゴリズムのパフォーマンスを評価する方法です。

どうやって?

前述の二項問題にさまざまなアルゴリズムを適用したとします。つまり、ピザが好きか嫌いかに基づいて人々を分類 (分離) するということです。正解に最も近い値を持つアルゴリズムを評価するには、混同行列を使用します。二項分類問題 (好き/嫌い、真/偽、1/0) の場合、混同行列は次の 4 つのグリッド値を与えます。

  • 真陽性 (TP)
  • 真陰性 (TN)
  • 誤検知 (FP)
  • 偽陰性 (FN)

混同行列の 4 つのグリッドは何ですか?

混同行列を使用して決定された 4 つの値は、行列のグリッドを形成します。

真陽性 (TP) と真陰性 (TN) は、分類アルゴリズムによって正しく予測された値です。

  • TP はピザが好きな人を表し、モデルは彼らを正しく分類しました。
  • TN はピザが嫌いな人を表し、モデルはそれらを正しく分類しました。

偽陽性 (FP) と偽陰性 (FN) は、分類子によって誤って予測された値です。

  • FP はピザが好きではない人 (ネガティブ) を表しますが、分類子はピザが好きだと予測しました (誤ってポジティブ)。 FP はタイプ I エラーとも呼ばれます。
  • FN はピザが好きな人 (肯定的) を表しますが、分類器はピザが好きではないと予測しました (誤って否定的)。 FN はタイプ II エラーとも呼ばれます。

この概念をさらに理解するために、実際のシナリオを考えてみましょう。

Covid 検査を受けた 400 人のデータセットがあるとします。これで、Covid 陽性者数と陰性者数を決定するさまざまなアルゴリズムの結果が得られました。

比較のための 2 つの混同行列を次に示します。

両方を見ると、1 番目の アルゴリズムの方が正確であると言いたくなるかもしれません。ただし、具体的な結果を得るには、精度、精度、およびどのアルゴリズムが優れているかを証明するその他の多くの値を測定できるいくつかのメトリクスが必要です。

混同行列を使用したメトリクスとその重要性

分類器が正しい予測を行ったかどうかを判断するのに役立つ主な指標は次のとおりです。

#1. リコール/感度

再現率、感度、真陽性率 (TPR)、または検出確率は、総陽性者 (つまり、TP と FN) に対する正しい陽性予測 (TP) の比率です。

R = TP/(TP + FN)

再現率は、生成された可能性のある正しい陽性結果の数のうち返された正しい陽性結果の尺度です。 Recall の値が高いほど、偽陰性が少なくなり、アルゴリズムにとっては良いことになります。偽陰性を知ることが重要な場合は、Recall を使用します。たとえば、ある人の心臓に複数の閉塞があり、その人がまったく元気であることがモデルで示されている場合、それが致命的であることが判明する可能性があります。

#2. 精度

精度は、真陽性と偽陽性の両方を含む、予測されたすべての陽性結果のうちの正しい陽性結果の尺度です。

Pr = TP/(TP + FP)

誤検知が無視できないほど重要である場合、精度は非常に重要です。たとえば、人は糖尿病ではないが、モデルでは糖尿病であることが示され、医師が特定の薬を処方したとします。これは重篤な副作用を引き起こす可能性があります。

#3. 特異性

特異性または真陰性率 (TNR) は、陰性となる可能性のあるすべての結果の中から見つかった正しい陰性結果です。

S = TN/(TN + FP)

これは、分類器が負の値をどの程度適切に識別しているかを示す尺度です。

#4. 正確さ

精度は、予測の総数のうち正しい予測の数です。したがって、50 個のサンプルから 20 個の正の値と 10 個の負の値を正しく見つけた場合、モデルの精度は 30/50 になります。

精度 A = (TP + TN)/(TP + TN + FP + FN)

#5. 有病率

有病率は、すべての結果のうち得られた陽性結果の数の尺度です。

P = (TP + FN)/(TP + TN + FP + FN)

#6. Fスコア

場合によっては、4 つのグリッドの組み合わせの単なる算術平均である精度と再現率だけを使用して 2 つの分類子 (モデル) を比較することが難しいことがあります。このような場合、調和平均である F スコアまたは F1 スコアを使用できます。これは、非常に高い値に対してあまり変化しないため、より正確です。 F スコア (最大 1) が高いほど、モデルが優れていることを示します。

F スコア = 2*精度*再現率/ (再現率 + 精度)

誤検知と誤検知の両方に対処することが重要な場合、F1 スコアは優れた指標となります。たとえば、新型コロナウイルス陽性ではない人(ただし、アルゴリズムではそう示されています)を不必要に隔離する必要はありません。同様に、新型コロナウイルス陽性者(しかしアルゴリズムはそうではないと言っている)も隔離する必要がある。

#7。 ROC曲線

データのバランスが取れている場合、「精度」や「精度」などのパラメーターは優れた指標となります。不均衡なデータセットの場合、精度が高くても分類器が効率的であるとは限りません。たとえば、グループの生徒 100 人中 90 人がスペイン語を知っています。ここで、アルゴリズムが 100 人全員がスペイン語を知っていると判断したとしても、その精度は 90% となり、モデルについて誤ったイメージを与える可能性があります。データセットが不均衡な場合には、ROC などの指標がより効果的な決定要因となります。

ROC (受信者動作特性) 曲線は、さまざまな分類しきい値でのバイナリ分類モデルのパフォーマンスを視覚的に表示します。これは、TPR (真陽性率) と FPR (偽陽性率) のプロットであり、さまざまなしきい値で (1 – 特異度) として計算されます。プロット内の 45 度 (左上) に最も近い値が、最も正確なしきい値です。しきい値が高すぎると、偽陽性はあまり発生しませんが、偽陰性が多くなり、その逆も同様です。

一般に、さまざまなモデルの ROC 曲線がプロットされる場合、最大の曲線下面積 (AUC) を持つモデルがより優れたモデルとみなされます。

分類子 I と分類子 II の混同行列のすべてのメトリック値を計算してみましょう。

精度は分類子 II の方が高く、分類子 I の精度がわずかに高いことがわかります。当面の問題に基づいて、意思決定者は分類子 I または II を選択できます。

N x N 混同行列

これまで、バイナリ分類器の混同行列を見てきました。 「はい/いいえ」や「好き/嫌い」だけではなく、さらに多くのカテゴリがあったとしたらどうでしょうか。たとえば、アルゴリズムが赤、緑、青の画像を並べ替える場合です。このタイプの分類は、マルチクラス分類と呼ばれます。出力変数の数によって行列のサイズも決まります。したがって、この場合、混同行列は 3×3 になります。

まとめ

混同行列は、分類アルゴリズムのパフォーマンスに関する詳細な情報を提供するため、優れた評価システムです。これは、処理すべきパラメータが 3 つ以上ある場合、バイナリ分類器だけでなくマルチクラス分類器にもうまく機能します。混同行列を視覚化するのは簡単で、混同行列を使用して F スコア、精度、ROC、精度などのパフォーマンスの他のすべての指標を生成できます。

回帰問題に対する ML アルゴリズムの選択方法についても説明します。

「機械学習における混同行列とは何ですか?」についてわかりやすく解説!絶対に観るべきベスト2動画

混同行列を解説
学習結果の評価混同行列

混同行列は、教師あり機械学習アルゴリズムの分類タイプのパフォーマンスを評価するツールです。

機械学習における混同行列とは何ですか?
機械学習における混同行列とは何ですか?

混同マトリックスとは何ですか?

私たち人間は、真実と嘘であっても、物事を異なる方法で認識します。私にとって10cmの長さの線が、あなたにとっては9cmの線に見えるかもしれません。ただし、実際の値は 9、10、またはその他の値である可能性があります。私たちが推測するのは予測値です。

私たちの脳が独自のロジックを適用して何かを予測するのと同じように、機械もさまざまなアルゴリズム (機械学習アルゴリズムと呼ばれます) を適用して、質問の予測値に到達します。繰り返しますが、これらの値は実際の値と同じである場合もあれば、異なる場合もあります。

競争の激しい世界では、パフォーマンスを理解するために、 自分 の予測が正しいかどうかを知りたいと考えます。同様に、機械学習アルゴリズムのパフォーマンスは、正しく予測が行われた 回数 によって判断できます。

では、機械学習アルゴリズムとは何でしょうか?

機械は、機械学習アルゴリズムと呼ばれる特定のロジックまたは一連の命令を適用することで、問題に対する特定の答えに到達しようとします。機械学習アルゴリズムには、教師あり、教師なし、強化の 3 つのタイプがあります。

最も単純なタイプのアルゴリズムは監視されており、私たちがすでに答えを知っている場合、大量のデータを使用してアルゴリズムをトレーニングすることで、その答えに到達するようにマシンをトレーニングします。これは、子供が異なる年齢グループの人々を区別する方法と同じです。彼らの特徴を何度も見つめます。

教師あり ML アルゴリズムには、分類と回帰の 2 つのタイプがあります。

分類アルゴリズムは、一連の基準に基づいてデータを分類または並べ替えます。たとえば、ピザが好きな人、ピザが嫌いな人など、食べ物の好みに基づいて顧客をグループ化するアルゴリズムが必要な場合は、デシジョン ツリー、ランダム フォレスト、ナイーブ ベイズ、または SVM などの分類アルゴリズムを使用します (サポートベクターマシン)。

これらのアルゴリズムのうちどれが最も良い結果をもたらすでしょうか?あるアルゴリズムを他のアルゴリズムではなく選択する必要があるのはなぜですか?

混同行列を入力してください…。

混同行列は 、データセットの分類における分類アルゴリズムの精度に関する情報を提供する行列または表です。まあ、人間を混乱させるための名前ではありませんが、誤った予測が多すぎると、おそらくアルゴリズムが混乱したことを意味します 😉!

したがって、混同行列は、分類アルゴリズムのパフォーマンスを評価する方法です。

どうやって?

前述の二項問題にさまざまなアルゴリズムを適用したとします。つまり、ピザが好きか嫌いかに基づいて人々を分類 (分離) するということです。正解に最も近い値を持つアルゴリズムを評価するには、混同行列を使用します。二項分類問題 (好き/嫌い、真/偽、1/0) の場合、混同行列は次の 4 つのグリッド値を与えます。

  • 真陽性 (TP)
  • 真陰性 (TN)
  • 誤検知 (FP)
  • 偽陰性 (FN)

混同行列の 4 つのグリッドは何ですか?

混同行列を使用して決定された 4 つの値は、行列のグリッドを形成します。

真陽性 (TP) と真陰性 (TN) は、分類アルゴリズムによって正しく予測された値です。

  • TP はピザが好きな人を表し、モデルは彼らを正しく分類しました。
  • TN はピザが嫌いな人を表し、モデルはそれらを正しく分類しました。

偽陽性 (FP) と偽陰性 (FN) は、分類子によって誤って予測された値です。

  • FP はピザが好きではない人 (ネガティブ) を表しますが、分類子はピザが好きだと予測しました (誤ってポジティブ)。 FP はタイプ I エラーとも呼ばれます。
  • FN はピザが好きな人 (肯定的) を表しますが、分類器はピザが好きではないと予測しました (誤って否定的)。 FN はタイプ II エラーとも呼ばれます。

この概念をさらに理解するために、実際のシナリオを考えてみましょう。

Covid 検査を受けた 400 人のデータセットがあるとします。これで、Covid 陽性者数と陰性者数を決定するさまざまなアルゴリズムの結果が得られました。

比較のための 2 つの混同行列を次に示します。

両方を見ると、1 番目の アルゴリズムの方が正確であると言いたくなるかもしれません。ただし、具体的な結果を得るには、精度、精度、およびどのアルゴリズムが優れているかを証明するその他の多くの値を測定できるいくつかのメトリクスが必要です。

混同行列を使用したメトリクスとその重要性

分類器が正しい予測を行ったかどうかを判断するのに役立つ主な指標は次のとおりです。

#1. リコール/感度

再現率、感度、真陽性率 (TPR)、または検出確率は、総陽性者 (つまり、TP と FN) に対する正しい陽性予測 (TP) の比率です。

R = TP/(TP + FN)

再現率は、生成された可能性のある正しい陽性結果の数のうち返された正しい陽性結果の尺度です。 Recall の値が高いほど、偽陰性が少なくなり、アルゴリズムにとっては良いことになります。偽陰性を知ることが重要な場合は、Recall を使用します。たとえば、ある人の心臓に複数の閉塞があり、その人がまったく元気であることがモデルで示されている場合、それが致命的であることが判明する可能性があります。

#2. 精度

精度は、真陽性と偽陽性の両方を含む、予測されたすべての陽性結果のうちの正しい陽性結果の尺度です。

Pr = TP/(TP + FP)

誤検知が無視できないほど重要である場合、精度は非常に重要です。たとえば、人は糖尿病ではないが、モデルでは糖尿病であることが示され、医師が特定の薬を処方したとします。これは重篤な副作用を引き起こす可能性があります。

#3. 特異性

特異性または真陰性率 (TNR) は、陰性となる可能性のあるすべての結果の中から見つかった正しい陰性結果です。

S = TN/(TN + FP)

これは、分類器が負の値をどの程度適切に識別しているかを示す尺度です。

#4. 正確さ

精度は、予測の総数のうち正しい予測の数です。したがって、50 個のサンプルから 20 個の正の値と 10 個の負の値を正しく見つけた場合、モデルの精度は 30/50 になります。

精度 A = (TP + TN)/(TP + TN + FP + FN)

#5. 有病率

有病率は、すべての結果のうち得られた陽性結果の数の尺度です。

P = (TP + FN)/(TP + TN + FP + FN)

#6. Fスコア

場合によっては、4 つのグリッドの組み合わせの単なる算術平均である精度と再現率だけを使用して 2 つの分類子 (モデル) を比較することが難しいことがあります。このような場合、調和平均である F スコアまたは F1 スコアを使用できます。これは、非常に高い値に対してあまり変化しないため、より正確です。 F スコア (最大 1) が高いほど、モデルが優れていることを示します。

F スコア = 2*精度*再現率/ (再現率 + 精度)

誤検知と誤検知の両方に対処することが重要な場合、F1 スコアは優れた指標となります。たとえば、新型コロナウイルス陽性ではない人(ただし、アルゴリズムではそう示されています)を不必要に隔離する必要はありません。同様に、新型コロナウイルス陽性者(しかしアルゴリズムはそうではないと言っている)も隔離する必要がある。

#7。 ROC曲線

データのバランスが取れている場合、「精度」や「精度」などのパラメーターは優れた指標となります。不均衡なデータセットの場合、精度が高くても分類器が効率的であるとは限りません。たとえば、グループの生徒 100 人中 90 人がスペイン語を知っています。ここで、アルゴリズムが 100 人全員がスペイン語を知っていると判断したとしても、その精度は 90% となり、モデルについて誤ったイメージを与える可能性があります。データセットが不均衡な場合には、ROC などの指標がより効果的な決定要因となります。

ROC (受信者動作特性) 曲線は、さまざまな分類しきい値でのバイナリ分類モデルのパフォーマンスを視覚的に表示します。これは、TPR (真陽性率) と FPR (偽陽性率) のプロットであり、さまざまなしきい値で (1 – 特異度) として計算されます。プロット内の 45 度 (左上) に最も近い値が、最も正確なしきい値です。しきい値が高すぎると、偽陽性はあまり発生しませんが、偽陰性が多くなり、その逆も同様です。

一般に、さまざまなモデルの ROC 曲線がプロットされる場合、最大の曲線下面積 (AUC) を持つモデルがより優れたモデルとみなされます。

分類子 I と分類子 II の混同行列のすべてのメトリック値を計算してみましょう。

精度は分類子 II の方が高く、分類子 I の精度がわずかに高いことがわかります。当面の問題に基づいて、意思決定者は分類子 I または II を選択できます。

N x N 混同行列

これまで、バイナリ分類器の混同行列を見てきました。 「はい/いいえ」や「好き/嫌い」だけではなく、さらに多くのカテゴリがあったとしたらどうでしょうか。たとえば、アルゴリズムが赤、緑、青の画像を並べ替える場合です。このタイプの分類は、マルチクラス分類と呼ばれます。出力変数の数によって行列のサイズも決まります。したがって、この場合、混同行列は 3×3 になります。

まとめ

混同行列は、分類アルゴリズムのパフォーマンスに関する詳細な情報を提供するため、優れた評価システムです。これは、処理すべきパラメータが 3 つ以上ある場合、バイナリ分類器だけでなくマルチクラス分類器にもうまく機能します。混同行列を視覚化するのは簡単で、混同行列を使用して F スコア、精度、ROC、精度などのパフォーマンスの他のすべての指標を生成できます。

回帰問題に対する ML アルゴリズムの選択方法についても説明します。

「機械学習における混同行列とは何ですか?」についてわかりやすく解説!絶対に観るべきベスト2動画

混同行列を解説
学習結果の評価混同行列