二零二三年 优质公开课无人驾驶.pptxVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
物流人工智能技术技能培训;任务二 无人驾驶 ;;;1.传感;2.感知;3.决策;;BP神经网络反向传递过程 主要依据 WIDROW-HOFF学习规则及梯度下降法通过数学推导演变,不断对权值和阀值进行更新可得下式: 式中:i、j分别代表两个不同的节点; 为节点i和节点j之间的权值; 为节点j的阈值; 和 不断进行运算更新;E(w , b)为误差函数,最后一项为误差函数对权值或阈值的一阶偏导。;二、卷积神经网络在无人驾驶感知技术上的应用;卷积层前向传播: 式中:是第1-1层的第i个特征图;是第1层第j个卷积核;是偏置参数。 卷积层的反向传播: 式中: 表示第l层的卷积层; 表示第1+1层的池化层;up( )是将第1+1层的大小拓展为第l层的特征图大小; 为激活函数的导数,。表示多个元素相乘。;3.特征提取及目标检测分类方法;3.2目标检测及分类算法比较;4.实验过程;4.1MATLAB计算机视觉工具箱结合卷积神经网络的目标检测 通过调用改进算法模型并结合计算机视觉工具箱,自动驾驶工具箱和神经网络工具箱,以实现不同场景多目标车辆的检测识别。如图4所示。文中卷积神经网络算法基于 Faster rann改进如下: (1)将RPN换成更加精准检测的FPN,减少Proposal个数,将多特征信息融合以提高准确度 (2)通过增加ROI,以避免多辆车行驶时有效信息被遮挡而识别不准的情况; (3)将基础网络由VGG16换成 ResNet残差网络,使深度神经网络在训练过程中随着层数增加而网络性能不易被弱化。;4.2数据分析;4.3自动驾驶工具箱 在 Simulink的 Automated Driving System Toolbox(自动驾驶系统工具箱)中进行图5所示的视觉感知模型设计。;4.4道路场景模拟 下述方案是与图5的 Simulink视觉感知模型搭配的立交场景模型构建步骤 (1)进行主干道的构建,然后添加一条同样的直道,构成双向车辆行驶道路。接着进行匝道和环岛建立,实现初步的图6所示立交场景道路模型。 (2)通过以点成线的方式构建如图7所示的运动体行驶路径。 (3)在 Sensor Canvas(场景画布)中进行如图8所示的车辆感知传感器构建,浅红色区域为雷达检测范围,浅蓝色区域为摄像头检测范围。 (4)将整个立交场景及???动体传感器构建完成后,运行该模型可看到图9所示的动态感知图,便于实时观测目标检测情况。;4.5模型生成及自动代码生成 (1)通过驾驶场景设计器将道路场景、车辆、行人、障碍物及运动体路径规划配置好后,若运行结果满足需求,则可进行 EXPORT输出。输出后可自动生成设计场景的 MATLAB代码和相关数据参数见表1。 (2)通过 Simulink将自动驾驶感知系统的模型设计完成后,进行相关参数配置。配置后可进行基于C/C++的 Embedded Coder Quick Star编译,完成相关编译选项后便可自动生成C/C++代码。将自动生成的代码经过微调优化便可移植到所需工程文件中,便于在嵌入式控制器上使用,进而验证出上述设计方案具备合理性。;三、基于深度递归强化学习的无人自动驾驶策略;2.深度强化学习;基于策略的强化学习算法则通过直接对策略进行参数化建模,直接训练策略函数获得最优策略,可以直接应用在连续动作空间的任务求解。 基于策略的算法还可以分为确定性策略算法和随机策略算法,在确定性策略下,动作是状态的确定性函数,策略网络直接输岀动作值,如DDPG、TD3;在随机策略下,策略网络输出动作的概率分布,如TRPO、PPO。 在 TORCS虚拟驾驶引擎中,车辆智能体的动作空间为连续空间,为了获得更加准确的控制方案,本文采用基于确定性策略的强化学习算法,直接输出车辆控制动作。;3.基于深度递归强化学习算法;算法采用 Actor- Critic架构, Actor是动作策略网络 ,负责与环境交互,将状态映射到动作空间的唯一动作a,Critic网络Q(s,a)负责对策略进行评价,近似于动作价值函数,用于评价动作的好坏程度。Critic网络基于Q- learning的贝尔曼方程进行网络更新: 其中, Actor网络则是采用策略梯度进行网络更新:;;为了解决值函数和策略耦合问题,同时采用延迟策略更新方法, critic网络参数每更新次后更新一次 actor网络,同时更新actor- critic目标网络参数。 这里将 Actor- Critic架构与长短时网络进行结合,在Actor策略网络和 Critic评价网络中分别将其中一层全连接层替换成LSTM递归网络层,替换后的 actor- critic网络架构如图2所详细算法步骤如表2所示。;表2:深

文档评论(0)

培优教育 + 关注
实名认证
文档贡献者

从事中小学专业高端辅导20年,特级教师。

1亿VIP精品文档

相关文档