現代の人工知能 (AI) の分野では、強化学習 (RL) が最も注目されている研究トピックの 1 つです。 AI および機械学習 (ML) の開発者は、開発するインテリジェントなアプリやツールを即興で作成するための RL の実践にも焦点を当てています。
機械学習は、すべての AI 製品の背後にある原理です。人間の開発者は、さまざまな ML 手法を使用して、インテリジェントなアプリやゲームなどをトレーニングします。ML は非常に多様化した分野であり、さまざまな開発チームがマシンをトレーニングする新しい方法を備えています。
このような有利な ML 手法の 1 つが深層強化学習です。ここでは、マシンの望ましくない動作を罰し、インテリジェント マシンからの望ましいアクションに報酬を与えます。専門家は、この ML 手法は AI に自らの経験から学習させるに違いないと考えています。
人工知能と機械学習でのキャリアを検討している場合は、インテリジェントなアプリとマシンの強化学習方法に関するこの究極のガイドを読み続けてください。
機械学習における強化学習とは何ですか?
RL は、コンピューター プログラムに機械学習モデルを教えることです。その後、アプリケーションは学習モデルに基づいて一連の決定を下すことができます。ソフトウェアは、潜在的に複雑で不確実な環境において目標に到達する方法を学習します。この種の機械学習モデルでは、AI はゲームのようなシナリオに直面します。
AI アプリは試行錯誤を利用して、目前の問題に対する創造的な解決策を発明します。 AI アプリが適切な ML モデルを学習すると、制御するマシンにプログラマーが望むいくつかのタスクを実行するように指示します。
正しい決定とタスクの完了に基づいて、AI は報酬を受け取ります。ただし、AI が間違った選択をすると、報酬ポイントを失うなどのペナルティが課せられます。 AI アプリケーションの最終目標は、ゲームに勝つために最大数の報酬ポイントを蓄積することです。
AI アプリのプログラマーは、ゲームのルールや報酬ポリシーを設定します。プログラマーは、AI が解決する必要がある問題も提供します。他の ML モデルとは異なり、AI プログラムはソフトウェア プログラマーからヒントを受け取りません。
AI は、最大の報酬を獲得するためにゲームの課題を解決する方法を見つけ出す必要があります。このアプリは、試行錯誤、ランダムな試行、スーパーコンピューターのスキル、および洗練された思考プロセス戦術を使用して、解決策に到達します。
AI プログラムに強力なコンピューティング インフラストラクチャを装備し、その思考システムをさまざまな並行ゲームプレイや歴史的なゲームプレイに接続する必要があります。そうすれば、AIは人間が想像できないクリティカルで高度な創造性を発揮できるようになります。
強化学習の一般的な例
#1. 人間最高の囲碁棋士に勝つ

Google の子会社である DeepMind Technologies の AlphaGo AI は、RL ベースの機械学習の代表的な例の 1 つです。 AI は囲碁と呼ばれる中国のボード ゲームをプレイします。これは戦術と戦略に焦点を当てた 3,000 年前のゲームです。
プログラマーは、AlphaGo の指導に RL メソッドを使用しました。それは人間とそれ自身との間で何千もの囲碁ゲームセッションを行いました。そして2016年には世界最高の囲碁棋士イ・セドルを1対1の勝負で破った。
#2. 現実世界のロボット工学
人間は、作業が事前に計画され、反復的に行われる生産ラインで長い間ロボットを使用してきました。しかし、行動が事前に計画されていない現実世界に対応する汎用ロボットを作成する必要がある場合、それは大きな課題となります。
しかし、強化学習対応 AI は、2 つの場所間のスムーズでナビゲート可能な短いルートを発見できる可能性があります。
#3. 自動運転車
自動運転車の研究者は、AI に次のことを教えるために RL 手法を広く使用しています。
- ダイナミックパス
- 軌道の最適化
- 駐車や車線変更などの移動計画
- コントローラー、(電子制御ユニット)ECU、(マイコン)MCUなどの最適化
- 高速道路でのシナリオベースの学習
#4. 自動冷却システム

RL ベースの AI は、巨大なオフィス ビル、ビジネス センター、ショッピング モール、そして最も重要なデータ センターの冷却システムのエネルギー消費を最小限に抑えるのに役立ちます。 AI は数千の熱センサーからデータを収集します。
また、人間と機械の活動に関するデータも収集します。これらのデータから、AI は将来の発熱の可能性を予測し、冷却システムのオンとオフを適切に切り替えてエネルギーを節約します。
強化学習モデルをセットアップする方法
次の方法に基づいて RL モデルをセットアップできます。
#1. ポリシーベース
このアプローチにより、AI プログラマーは報酬を最大化するための理想的なポリシーを見つけることができます。ここでは、プログラマは value 関数を使用しません。ポリシーベースの方法を設定すると、強化学習エージェントは、各ステップで実行されるアクションによって AI が報酬ポイントを最大化できるようにポリシーの適用を試みます。
ポリシーには主に次の 2 種類があります。
#1.決定的: ポリシーは、任意の状態で同じアクションを生成できます。
#2.確率的: 生成されるアクションは発生確率によって決まります。
#2. 価値観に基づく
逆に、値ベースのアプローチは、プログラマが最適な値関数 (任意の状態におけるポリシーに基づく最大値) を見つけるのに役立ちます。一度適用されると、RL エージェントは、当該ポリシーに基づいて 1 つまたは複数の州での長期収益を期待します。
#3. モデルベース
モデルベースの RL アプローチでは、AI プログラマーが環境の仮想モデルを作成します。次に、RL エージェントは環境内を移動し、そこから学習します。
強化学習の種類
#1. ポジティブ強化学習 (PRL)
ポジティブ学習とは、予想される動作が再び起こる確率を高めるためにいくつかの要素を追加することを意味します。この学習方法は、RL エージェントの動作にプラスの影響を与えます。 PRL は、AI の特定の動作の強度も向上させます。
PRL タイプの学習強化では、AI が長期にわたって変化に適応できるように準備する必要があります。しかし、ポジティブな学習を注入しすぎると、状態に過剰な負荷がかかり、AI の効率が低下する可能性があります。

#2. 負の強化学習 (NRL)
RL アルゴリズムが AI の否定的な行動を回避または停止するのに役立つと、AI はそこから学習して今後の行動を改善します。それはネガティブ学習として知られています。特定の行動要件を満たすためだけに AI に限定的なインテリジェンスを提供するだけです。
強化学習の実生活での使用例
#1. e コマース ソリューションの開発者は、パーソナライズされた製品またはサービスの提案ツールを構築しました。ツールの API をオンライン ショッピング サイトに接続できます。そして、AIは個々のユーザーから学習し、カスタムの商品やサービスを提案します。
#2. オープンワールド ビデオ ゲームには無限の可能性があります。ただし、ゲーム プログラムの背後には AI プログラムがあり、プレイヤーの入力から学習し、未知の状況に適応するためにビデオ ゲーム コードを変更します。
#3. AI ベースの株式取引および投資プラットフォームは、RL モデルを使用して株式と世界的な指数の動きから学習します。したがって、彼らは投資または取引のための株式を提案する確率モデルを定式化します。
#4. YouTube、Metacafe、Dailymotion などのオンライン ビデオ ライブラリは、RL モデルでトレーニングされた AI ボットを使用して、パーソナライズされたビデオをユーザーに提案します。
強化学習に関する一般的な課題
- RL アルゴリズムは通常、環境固有のことを学習します。したがって、彼らは一般化すること、つまり、それらの学習を新しい状況に適用することに苦労します。
- コードとモデルが利用できない場合、アプローチを再現したり改善したりすることは困難です。
- 実際のアプリケーションに関しては、RL アルゴリズムが安全かつ倫理的な意思決定を生成することを確認するのは簡単ではありません。
- 効果的な RL には大量のデータと経験が必要となるため、時間とコストがかかります。
- RL アルゴリズムは、新しいアクションの探索と既存の知識の活用のバランスをとることができないことがよくあります。
- 非ゼロ報酬信号のこのまばらさにより、RL エージェントの効果的な学習が困難になります。
強化学習 vs.教師あり学習
強化学習は、AI エージェントが順番に意思決定を行えるようにトレーニングすることを目的としています。一言で言えば、AI の出力は現在の入力の状態に依存すると考えることができます。同様に、RL アルゴリズムへの次の入力は、過去の入力の出力に依存します。

人間のチェスプレイヤーとチェスのゲームをする AI ベースのロボット マシンは、RL 機械学習モデルの例です。
逆に、教師あり学習では、プログラマーは、開始時に与えられた入力またはその他の初期入力に基づいて意思決定を行うように AI エージェントをトレーニングします。環境物体を認識する自動運転車の AI は、教師あり学習の優れた例です。
強化学習 vs.教師なし学習
ここまでは、RL メソッドが AI エージェントに機械学習モデル ポリシーからの学習を促すことを理解しました。主に、AI は最大の報酬ポイントを獲得できるステップのみを実行します。 RL は、AI が試行錯誤を通じて即興で学習できるように支援します。
一方、教師なし学習では、AI プログラマーがラベルなしのデータを使用して AI ソフトウェアを導入します。また、ML インストラクターは、データ構造やデータ内で何を探すべきかについて AI に何も指示しません。このアルゴリズムは、指定された未知のデータセットに関する独自の観察をカタログ化することで、さまざまな決定を学習します。
強化学習コース
基本を学習したので、高度な強化学習を学習するためのオンライン コースをいくつか紹介します。また、LinkedIn やその他のソーシャル プラットフォームで紹介できる証明書も取得できます。
強化学習の専門分野: Coursera
ML コンテキストを使用した強化学習の中核となる概念を習得したいと考えていますか?この Coursera RL コースは オンラインで利用でき、自分のペースでの学習と認定のオプションが付いていますので、お試しください。このコースは、背景スキルとして以下を備えている場合に適しています。

- Pythonのプログラミング知識
- 基本的な統計概念
- 擬似コードとアルゴリズムを Python コードに変換できます
- 2~3年のソフトウェア開発経験
- コンピュータ サイエンス分野の学部 2 年生も対象となります
このコースは 4.8 つ星の評価を受けており、さまざまな時期に 36,000 人を超える学生がすでにこのコースに登録しています。さらに、候補者が Coursera の特定の資格基準を満たしている場合、このコースには財政援助が付いています。
最後に、アルバータ大学の Alberta Machine Intelligence Institute がこのコースを提供しています (単位は授与されません)。コンピューター サイエンスの分野で著名な教授がコースの講師を務めます。コースを完了すると、Coursera 認定資格を取得できます。
PythonでのAI強化学習: Udemy
金融市場やデジタルマーケティングに興味があり、その分野向けのインテリジェントなソフトウェアパッケージを開発したい場合は、 RLに関するこのUdemyコース をチェックする必要があります。 RL の核となる原則とは別に、トレーニング コンテンツでは、オンライン広告と株式取引のための RL ソリューションを開発する方法についても指導します。

このコースで取り上げる注目すべきトピックは次のとおりです。
- RL の概要
- 動的プログラミング
- モネ・カルロ
- 近似方法
- RLとの株式取引プロジェクト
これまでに 42,000 人を超える学生がこのコースに参加しました。このオンライン学習リソースは現在 4.6 つ星の評価を獲得しており、これは非常に印象的です。さらに、このコースは、学習コンテンツがフランス語、英語、スペイン語、ドイツ語、イタリア語、ポルトガル語で利用できるため、グローバルな学生コミュニティに応えることを目的としています。
Pythonでの深層強化学習: Udemy
ディープラーニングと人工知能に対する好奇心と基本的な知識がある場合は、Udemy の Python によるこの上級 RL コース を試すことができます。学生から 4.6 つ星の評価を得ているこのコースも、AI/ML の文脈で RL を学ぶ人気のコースです。
このコースには 12 のセクションがあり、次の重要なトピックを取り上げます。
- OpenAI Gym と基本的な RL テクニック
- TD ラムダ
- A3C
- Theano の基本
- Tensorflow の基本
- 初心者向けの Python コーディング
コース全体には 10 時間 40 分の投資が必要です。テキストとは別に、79 の専門家による講義セッションも付属しています。
深層強化学習のエキスパート: Udacity
Nvidia Deep Learning Institute や Unity などの AI/ML の世界リーダーから高度な機械学習を学びたいですか? Udacity はあなたの夢を実現させます。 ML エキスパートになるには、この 深層強化学習 コースを確認してください。

ただし、高度な Python、中級統計、確率論、TensorFlow、PyTorch、Keras のバックグラウンドを持っている必要があります。
コースを完了するには、最長 4 か月の熱心な学習が必要です。コース全体を通じて、Deep Deterministic Policy Gradients (DDPG)、Deep Q-Networks (DQN) などの重要な RL アルゴリズムを学習します。
最後の言葉
強化学習は AI 開発の次のステップです。 AI 開発機関や IT 企業は、信頼できる AI トレーニング方法論を作成するために、この分野に投資を注ぎ込んでいます。
RL は大幅に進歩しましたが、開発の範囲はさらに増えています。たとえば、別々の RL エージェントは、それらの間で知識を共有しません。したがって、車を運転するためにアプリをトレーニングしている場合、学習プロセスは遅くなります。物体検出や道路参照などの RL エージェントはデータを共有しないためです。
このような課題には、創造性と ML の専門知識を投資する機会があります。オンライン コースにサインアップすると、高度な RL 手法と実際のプロジェクトでのその応用についての知識をさらに深めることができます。
もう 1 つの関連する学習は、AI、機械学習、深層学習の違いです。