代尔夫特理工博士项目

项目介绍

离线强化学习旨在仅从已有数据集中学习有效的序列决策策略,从而避免在实际环境中进行可能成本高昂、风险较大或耗时过长的在线交互。这一范式在医疗、自主系统与机器人等领域具有重要潜力,能够充分挖掘大规模历史数据的价值。然而,现有离线强化学习方法通常依赖于核方法或神经网络逼近器,其归纳偏置往往与Q函数的几何结构不匹配,导致收敛速度慢、样本效率低。

本项目提出一种新颖的离线强化学习方法,即利用热带核(即max-plus核)进行Q函数的函数逼近。其核心动机源于动态规划与强化学习中关键的贝尔曼算子与max-plus代数运算之间内在的结构相容性。为克服纯max-plus线性函数可能存在的表示能力限制,我们进一步引入核方法,通过隐式将数据映射到高维特征空间,从而实现更丰富、非线性的函数逼近。

在本项目中,入选博士生将建立基于热带核的离线强化学习的理论基础,并设计可扩展的算法。研究内容包括:识别最优Q函数位于热带函数空间的马尔可夫决策过程类别,并在该类空间中建立核逼近的表示定理;同时,针对热带函数空间中核方法固有的计算挑战(如模型规模爆炸、约束条件二次增长等),入选博士生将设计可扩展核逼近技术的热带类比方案,并为相应的回归问题开发高效的优化求解器。

推荐

所属院系:代尔夫特理工大学,土木工程与地球科学学院

项目时长:4 年申请要求和方式

申请要求:·系统与控制、计算机科学、工程、应用数学或相关领域的理学硕士学位;·扎实的数学基础,即熟练掌握线性代数、分析、概率、优化,理想情况下还应具备一些泛函分析或逼近论的知识;·具备(凸)优化和算法设计方面的经验。

申请方式:特招公开项目,按照项目要求通过申请系统递交材料。

推荐
上一篇

挤破头!想进全美地狱难度的八大Top级商学院这些信息值得参考……

下一篇

香港科技大学博士后项目

返回顶部