複雑な環境下で使える高効率な強化学習アルゴリズム（No.0198）

<< 技術一覧に戻る

概要

複雑な環境下でも高い計算効率を示す強化学習アルゴリズム。

機械学習市場は数十億ドル規模の市場であり、年平均成長率（CAGR）44.1%で急速な成長が見込まれています。機械学習を活用したソリューションは、顧客体験を向上させるために世界中の組織で広く採用されています。今後数年間で、様々な産業分野（ウェブサービス、ロボティクス、データ分析）における機械学習の応用が飛躍的に増加すると予想されます。しかし、従来の機械学習法は、タスクに関連しないが量が膨大な情報を含んだ複雑な環境では計算効率が低くなってしまいます。深井朋樹教授らの研究グループは、少ない試行回数で最適な行動を効率的に学習する新しい強化学習アルゴリズムを開発しました。最小限のメモリで計算でき効率的な学習を可能にします。

応用

ウェブサービス
ロボット工学
企業データ分析

利点

高い計算効率
低いメモリ負荷

技術のポイント

このアルゴリズムは、1）報酬ベースの推論：現在の状態から次の状態を予測するのではなく、状態を入力として報酬を予測する方法、2）効率的な状態マッピングルール：一つ一つの観測値ではなく、複数の観測値の組み合わせに状態を割り当てる、3）不確実な事後状態に対するトムソンサンプリング：ベルマン方程式と事後状態のサンプリングを組み合わせることで、適切な行動を選択、の３つのプロセスに基づいています。

メディア掲載・プレゼンテーション

問い合わせ先

OIST Innovation 技術移転セクション

tls@oist.jp
+81(0)98-966-8937

複雑な環境下で使える高効率な強化学習アルゴリズム（No.0198）

<< 技術一覧に戻る

神経情報・脳計算ユニット