Q Star

  • 威胁人类生存?OpenAI究竟发现了什么?

    OpenAI使用的Q*可能是指贝尔曼方程中的最优值函数,Q学习可以通过探索所有可能的路径,学习到通往预期奖励的最短路径(最短路线),通过试错找到更优化的路径,并随着时间的推移达到优化状态,每次都做出更好的决策。

    2023-11-24