本发明涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。具体包括以下步骤:引入部分可观测马尔可夫决策过程建立环境交互模型;构建包括一个主智能体及多个子智能体的模型框架,得到高性能主智能体作为深度强化学习教师模型;对教师模型策略剪枝,得到稀疏化学生模型,测量冗余度后对稀疏化学生模型进行重构并重新训练,得到高性能学生轻量化模型;将高性能学生轻量化模型部署在车载定位设备上,实时定位校正卫星参数并获取校正后的定位信息;将校正后的定位信息按照时间序列输出到真实路面;本发明能够实现对城市复杂环境的动态学习,并能够设置于车载定位设备上,大幅提升车载动态变化定位精度。