ホーム テクノロジー AI 機械学習における回帰と分類の説明

機械学習における回帰と分類の説明


回帰と分類は、機械学習の最も基本的かつ重要な領域の 2 つです。

機械学習を始めたばかりの場合、回帰アルゴリズムと分類アルゴリズムを区別するのは難しい場合があります。これらのアルゴリズムがどのように機能するのか、いつ使用するのかを理解することは、正確な予測と効果的な意思決定を行うために非常に重要です。

まずは機械学習について見ていきましょう。

機械学習とは何ですか?

機械学習とは
機械学習とは

機械学習は、明示的にプログラムされずにコンピューターに学習と意思決定を教える方法です。これには、データセット上でコンピューター モデルをトレーニングし、モデルがデータ内のパターンと関係に基づいて予測や決定を行えるようにすることが含まれます。

機械学習には、教師あり学習、教師なし学習、強化学習の 3 つの主なタイプがあります。

教師あり学習では、入力データと対応する正しい出力を含むラベル付きトレーニング データがモデルに提供されます。モデルの目標は、トレーニング データから学習したパターンに基づいて、新しい未確認データの出力について予測を行うことです。

教師なし学習では、モデルにはラベル付きトレーニング データが与えられません。代わりに、データ内のパターンと関係を個別に発見する必要があります。これは、データ内のグループやクラスターを識別したり、異常や異常なパターンを見つけたりするために使用できます。

そして強化学習では、エージェントは報酬を最大化するために環境と対話する方法を学習します。これには、環境から受け取るフィードバックに基づいて意思決定を行うようにモデルをトレーニングすることが含まれます。

ミリリットル
ミリリットル

機械学習は、画像および音声認識、自然言語処理、不正行為検出、自動運転車など、さまざまなアプリケーションで使用されています。さまざまな業界で多くのタスクを自動化し、意思決定を改善する可能性があります。

この記事では主に、教師あり機械学習に含まれる分類と回帰の概念に焦点を当てます。始めましょう!

機械学習における分類

分類は、特定の入力にクラス ラベルを割り当てるモデルのトレーニングを含む機械学習手法です。これは教師あり学習タスクであり、入力データと対応するクラス ラベルの例を含むラベル付きデータセットでモデルがトレーニングされることを意味します。

このモデルは、入力データとクラス ラベルの関係を学習して、新しい未確認の入力のクラス ラベルを予測することを目的としています。

ロジスティック回帰、デシジョン ツリー、サポート ベクター マシンなど、分類に使用できるさまざまなアルゴリズムが多数あります。アルゴリズムの選択は、データの特性とモデルの望ましいパフォーマンスによって異なります。

一般的な分類アプリケーションには、スパム検出、感情分析、不正検出などがあります。これらのそれぞれの場合において、入力データにはテキスト、数値、またはその両方の組み合わせが含まれる可能性があります。クラス ラベルは、バイナリ (例: スパムか非スパム) またはマルチクラス (例: ポジティブ、ニュートラル、ネガティブなセンチメント) の場合があります。

たとえば、製品の顧客レビューのデータセットを考えてみましょう。入力データはレビューのテキストである可能性があり、クラス ラベルは評価 (肯定的、中立、否定的など) である可能性があります。このモデルはラベル付きレビューのデータセットでトレーニングされ、これまでに見たことのない新しいレビューの評価を予測できるようになります。

ML 分類アルゴリズムの種類

機械学習にはいくつかの種類の分類アルゴリズムがあります。

ロジスティック回帰

これは二項分類に使用される線形モデルです。特定のイベントが発生する確率を予測するために使用されます。ロジスティック回帰の目標は、予測された確率と観察された結果の間の誤差を最小限に抑える最適な係数 (重み) を見つけることです。

これは、勾配降下法などの最適化アルゴリズムを使用して、モデルがトレーニング データに可能な限り適合するまで係数を調整することによって行われます。

ディシジョン ツリー

これらは、特徴値に基づいて意思決定を行うツリー状のモデルです。これらは、バイナリ分類とマルチクラス分類の両方に使用できます。デシジョン ツリーには、そのシンプルさや相互運用性など、いくつかの利点があります。

また、トレーニングと予測も高速で、数値データとカテゴリデータの両方を処理できます。ただし、特にツリーが深くて枝が多い場合は、過学習が発生する傾向があります。

ランダムフォレスト分類

ランダム フォレスト分類は、複数のデシジョン ツリーの予測を組み合わせて、より正確で安定した予測を行うアンサンブル手法です。個々のツリーの予測が平均化され、モデル内の分散が減少するため、単一の決定ツリーよりも過学習の傾向が低くなります。

エイダブースト

これは、トレーニング セット内の誤って分類されたサンプルの重みを適応的に変更するブースティング アルゴリズムです。二項分類によく使用されます。

ナイーブ・ベイズ

ナイーブ ベイズは、新しい証拠に基づいてイベントの確率を更新する方法であるベイズの定理に基づいています。これは、テキスト分類やスパム フィルタリングによく使用される確率的分類器です。

K最近隣

K 最近傍法 (KNN) は、分類および回帰タスクに使用されます。これは、最近傍のクラスに基づいてデータ ポイントを分類するノンパラメトリックな方法です。 KNN には、そのシンプルさ、実装の容易さなど、いくつかの利点があります。また、数値データとカテゴリ データの両方を処理でき、基礎となるデータ分布についてはいかなる仮定も行いません。

勾配ブースティング

これらは、順番にトレーニングされる弱学習器のアンサンブルであり、各モデルは前のモデルの間違いを修正しようとします。これらは分類と回帰の両方に使用できます。

機械学習における回帰

機械学習では、回帰は教師あり学習の一種であり、目的は 1 つ以上の入力特徴 (予測子または独立変数とも呼ばれます) に基づいて AC 従属変数を予測することです。

回帰アルゴリズムは、入力と出力の間の関係をモデル化し、その関係に基づいて予測を行うために使用されます。回帰は、連続従属変数とカテゴリ従属変数の両方に使用できます。

一般に、回帰の目的は、入力特徴に基づいて出力を正確に予測できるモデルを構築し、入力特徴と出力の間の根本的な関係を理解することです。

回帰分析は、経済学、金融、マーケティング、心理学などのさまざまな分野で、さまざまな変数間の関係を理解し​​て予測するために使用されます。これはデータ分析と機械学習の基本的なツールであり、予測を行い、傾向を特定し、データを駆動する根本的なメカニズムを理解するために使用されます。

たとえば、単純な線形回帰モデルの目標は、サイズ、位置、その他の特徴に基づいて家の価格を予測することかもしれません。家の大きさとその場所が独立変数となり、家の価格が従属変数となります。

このモデルは、複数の家の大きさと位置、およびそれらに対応する価格を含む入力データでトレーニングされます。モデルがトレーニングされると、そのサイズと場所を考慮して住宅の価格を予測するために使用できます。

ML 回帰アルゴリズムの種類

回帰アルゴリズムはさまざまな形式で利用でき、各アルゴリズムの使用法は、属性値の種類、近似曲線のパターン、独立変数の数などのパラメーターの数によって異なります。よく使用される回帰手法には次のものがあります。

線形回帰

この単純な線形モデルは、一連の特徴に基づいて連続値を予測するために使用されます。これは、データに線を当てはめることによって、特徴とターゲット変数の間の関係をモデル化するために使用されます。

多項式回帰

これは、データに曲線を当てはめるために使用される非線形モデルです。これは、フィーチャとターゲット変数の間の関係が線形でない場合に、その関係をモデル化するために使用されます。これは、線形モデルに高次の項を追加して、従属変数と独立変数の間の非線形関係を捉えるという考えに基づいています。

リッジ回帰

これは、線形回帰における過学習に対処する線形モデルです。これは、モデルの複雑さを軽減するためにコスト関数にペナルティ項を追加する線形回帰の正規化バージョンです。

サポートベクトル回帰

SVM と同様、サポート ベクトル回帰は、従属変数と独立変数の間のマージンを最大化する超平面を見つけることによってデータの近似を試みる線形モデルです。

ただし、分類に使用される SVM とは異なり、SVR は回帰タスクに使用され、その目的はクラス ラベルではなく連続値を予測することです。

なげなわ回帰

これは、線形回帰での過学習を防ぐために使用されるもう 1 つの正規化線形モデルです。係数の絶対値に基づいてコスト関数にペナルティ項を追加します。

ベイジアン線形回帰

ベイジアン線形回帰は、ベイズの定理に基づく線形回帰への確率論的アプローチであり、新しい証拠に基づいてイベントの確率を更新する方法です。

この回帰モデルは、データを与えられたモデル パラメーターの事後分布を推定することを目的としています。これは、パラメータにわたる事前分布を定義し、ベイズの定理を使用して観察されたデータに基づいて分布を更新することによって行われます。

回帰と分類

回帰と分類は教師あり学習の 2 つのタイプであり、一連の入力特徴に基づいて出力を予測するために使用されることを意味します。ただし、この 2 つにはいくつかの重要な違いがあります。

回帰分類
意味連続値を予測する教師あり学習の一種カテゴリ値を予測する教師あり学習の一種
出力タイプ継続的離散
評価指標平均二乗誤差 (MSE)、二乗平均平方根誤差 (RMSE)精度、精度、再現率、F1 スコア
アルゴリズム線形回帰、なげなわ、リッジ、KNN、デシジョン ツリーロジスティック回帰、SVM、単純ベイズ、KNN、デシジョン ツリー
モデルの複雑さそれほど複雑ではないモデルより複雑なモデル
仮定特徴とターゲット間の線形関係機能とターゲットの関係についての特定の仮定はありません
クラスの不均衡適用できない問題になる可能性があります
外れ値モデルのパフォーマンスに影響を与える可能性があります通常は問題ありません
機能の重要性機能は重要度によってランク付けされます機能は重要度によってランク付けされません
応用例価格、温度、数量の予測電子メールがスパムかどうかの予測、顧客離れの予測

学習リソース

機械学習の概念を理解するために最適なオンライン リソースを選択するのは難しいかもしれません。私たちは、信頼性の高いプラットフォームが提供する人気のコースを調査し、回帰と分類に関するトップの ML コースの推奨事項を紹介しました。

#1. Python での機械学習分類ブートキャンプ

これはUdemyプラットフォームで提供されるコースです。デシジョン ツリーやロジスティック回帰などのさまざまな分類アルゴリズムと手法をカバーし、ベクトル マシンをサポートします。

コース1
コース1

また、過学習、バイアスと分散のトレードオフ、モデルの評価などのトピックについて学ぶこともできます。このコースでは、sci-kit-learn や pandas などの Python ライブラリを使用して、機械学習モデルを実装および評価します。したがって、このコースを開始するには、Python の基本的な知識が必要です。

#2. Python での機械学習回帰マスタークラス

このUdemyコースでは、トレーナーは、線形回帰、多項式回帰、Lasso & Ridge回帰手法など、さまざまな回帰アルゴリズムの基本と基礎となる理論をカバーします。

コース2
コース2

このコースを終了するまでに、回帰アルゴリズムを実装し、さまざまな主要業績評価指標を使用してトレーニングされた機械学習モデルのパフォーマンスを評価できるようになります。

まとめ

機械学習アルゴリズムは多くのアプリケーションで非常に役立ち、多くのプロセスの自動化と合理化に役立ちます。 ML アルゴリズムは、統計手法を使用してデータのパターンを学習し、それらのパターンに基づいて予測や決定を行います。

大量のデータに基づいてトレーニングすることができ、人間が手動で行うのは困難または時間がかかるタスクを実行するために使用できます。

各 ML アルゴリズムには長所と短所があり、アルゴリズムの選択はデータの性質とタスクの要件によって異なります。解決しようとしている特定の問題に対して、適切なアルゴリズムまたはアルゴリズムの組み合わせを選択することが重要です。

間違ったタイプのアルゴリズムを使用すると、パフォーマンスの低下や不正確な予測につながる可能性があるため、問題に適したタイプのアルゴリズムを選択することが重要です。どのアルゴリズムを使用すればよいかわからない場合は、回帰アルゴリズムと分類アルゴリズムの両方を試して、データセットでのパフォーマンスを比較すると役立つ場合があります。

この記事が機械学習における回帰と分類の学習に役立つことを願っています。また、主要な機械学習モデルについて学ぶことに興味があるかもしれません。

「機械学習における回帰と分類の説明」についてわかりやすく解説!絶対に観るべきベスト2動画

【機械学習入門】Pythonで機械学習を実装したい人がはじめに見る動画(教師あり学習・回帰)
【完全版】この動画1本で機械学習実装(Python)の基礎を習得!忙しい人のための速習コース