人工智能的致胜之道

11/29/2021

随着功能范围的扩大，现代汽车的应用开发投入也水涨船高。保时捷工程集团之所以深耕 PERL，是因为这项基于深度强化学习（Deep Reinforcement Learning）的创新应用方法大大缩减了应用开发的时间和成本投入。

专家们普遍认为，2016 年是人工智能（AI）发展史上的里程碑。当时的普通欧美民众普遍没有注意到一则消息：计算机程序 AlphaGo 以 4:1 的成绩在围棋比赛中击败了韩国棋手李世石。这是计算机首次在这一亚洲传统策略游戏中占据上风。在此之前，人们还无法教会软件这一棋类游戏的复杂策略，为此所需的计算能力和计算时间都是空前的。而令这一局面发生转变的，是利用深度强化学习方法来训练计算机围棋软件的人工智能。

Matteo Skull, Engineer at Porsche Engineering, 2021, Porsche AG

人工智能的顶级领域之一

深度强化学习作为一种新兴的方法，被视为是人工智能的顶级领域之一。近年来，只有依靠全新且强大的硬件支持，才有可能更为广泛地应用这一方法并在实际应用中积累经验。深度强化学习是一种自学习人工智能程序，是深度学习与强化学习传统方法的集合体。其基本原理是：算法（专家称之为“代理”）与其环境互动，如果行动带来好的结果，代理就会得到奖励分；如果失败，则会受到扣分的惩罚。代理的目标是获得尽可能多的奖励分。

为此，代理在训练阶段通过简易试错程序来摸索、制定自己的策略。训练模板为系统预先提供了不同情况或状态下的启动和目标参数。然后，系统会寻找由当前值到达目标值的不同方法。每一步它都通过神经网络近似计算相应的奖励分。代理将结果抽象化，并利用这些结果为后续的算术运算进行预测：在给定的情况或状态下，哪种措施将产生最好的结果？就这样，它形成了自己的方法论，也就是所谓的“政策”，在完成学习阶段后，它会将这些“政策”应用于其他运算。

“PERL 高度灵活，因为发动机结构、排量或充电系统等参数对于学习成功率没有影响。” 保时捷工程集团工程师 Matteo Skull

与其他类型的人工智能（例如从成对的输入和输出数据中学习的监督学习，或以模式识别为目标的无监督学习）不同，深度强化学习可以训练长期策略。这是因为如果短期失误能够有利于未来取得成功，那么系统会允许发生这样的失误。即使是李世石这种级别的高手，最终也不敌通过如此方法训练出来的计算机程序 AlphaGo。

在发动机标定中的使用

深度强化学习在围棋比赛中的表现，令保时捷工程集团的专家们萌生了将该方法用于汽车领域复杂应用任务的想法。“毕竟，为了实现最佳的系统调校，汽车也需要最优策略。”保时捷工程集团的工程师 Matteo Skull 介绍。于是诞生了一种全新的标定方法：保时捷工程集团强化学习（PERL）。“在深度强化学习的帮助下，我们训练 PERL 的算法，要令其不仅能够优化单个参数，还要能掌握为整个函数取得最优整体应用结果的策略。”Skull 说，“这个方法依靠自我学习，具有效率高的优点，而且普遍适用于车辆开发的许多领域。”

Strategy board game Go, 2021, Porsche AG — 复杂性超乎想象：围棋属于经典的策略棋盘游戏，其目标是在棋盘上用自己的棋子占据比对手更多的格子。例如，与国际象棋相比，围棋只有黑棋和白棋两种棋子，并且只有一种走法，即下子。围棋的高度复杂性源于 19 乘 19 的棋盘网格上有着多达 10¹⁷⁰ 种棋子组合方式，超出了人类围棋手的训练极限。由于在对弈过程中，围棋的胜负高度依赖于人的直觉，偶然性对棋局的走势没有影响，所以围棋本就适合人工智能的参与，AlphaGo 与李世石的对弈就深刻地证明了这一点。这位前围棋冠军也被人工智能的强大所深深折服：2019 年底，李世石宣布退出职业围棋比赛。

PERL 方法的应用基本上可以分为两个阶段：首先是训练，然后在真实发动机应用上进行实践。 Skull 以扭矩模型为例，发动机控制系统用它来计算每个工作点在曲轴上的当前扭矩。在学习阶段，唯一需要输入到 PERL 中的是旧项目的测量数据集，例如来自前代发动机的数据。“PERL 高度灵活，因为发动机结构、排量或充电系统等参数对学习成功率没有影响。关键只是在于训练和后期的目标应用都使用相同的模型方法，这样算法就能正确地转化结果。”Skull 说。

Dr. Matthias Bach, Senior Manager Engine Calibration and Mechanics at Porsche Engineering, 2021, Porsche AG

在训练过程中，系统会学习给定扭矩模型校准的最佳应用方法。在综合特性曲线的特征点上，它将标定值与测量数据集里的值进行比较，并根据所得到的奖励分，借助神经网络来近似计算效用函数。第一个神经网络可以预估目前未知状态的奖励。然后，第二个神经网络，即所谓的政策网络会预测在特定状态下，哪种行动会带来最大的收益。

持续检查结果

在此基础上，PERL 制定出由当前值到达目标值的最佳策略。训练完成后，PERL 就可以在发动机上参与实际应用任务了。在发动机测试台的试验过程中，算法利用训练好的标定策略实时计算出最佳扭矩校准，并立即在发动机上再次进行测试和验证。在应用运行过程中，系统会对自己得出的结果进行检查和调整，例如当综合特性曲线中某一点的参数变化会对另一点产生影响时。

“此外，我们既可以为PERL 指定扭矩曲线的计算精度，也可以对计算出的网格点之间的插值给定平滑系数。这样一来，我们就能使应用更加强大，以抵消制造公差或发动机部件在其使用寿命内磨损所带来的影响。”保时捷工程发动机应用和机械学专业负责人 Matthias Bach 博士解释说。

“我们凭借 PERL 能使应用更加强大，以抵消制造公差或发动机部件在其使用寿命内磨损所带来的影响。” 保时捷工程发动机应用和机械学专业负责人 Matthias Bach

在未来，PERL 的性能将有助于减少迅速增长的应用开发投入，这是新车开发的最大挑战之一。斯图加特大学汽车工程学院车辆传动系主任、斯图加特汽车工程与车辆发动机研究所（FKFS）所长 Michael Bargende 以传动系为例解释了这个难题：“混动化趋势和更高要求的尾气测试使得应用参数的数量进一步增加。动力总成和市场的多样化以及认证程序的变化，也增加了需要开发的应用的数量。”Bargende 对这一新方法的潜力深信不疑，“强化学习将在未来的发动机和动力总成应用领域发挥关键作用。”

大大降低应用开发投入

依靠当今的传统工具，例如基于模型的应用，单个参数的自动设置（如发动机管理的综合特性曲线）通常不够完美，必须由应用工程师手动修改。此外，在开发过程中，即使软件没有变化，发动机的每一个硬件变化都需要对应用做出相应调整。因此，标定的质量和用时在很大程度上取决于应用工程师的技能和经验。“目前的应用程序需要耗费大量的时间和金钱。如今，为了对单个参数进行依据综合特性曲线的计算（例如气缸充气），必须预留出大约 4 到 6 周的开发时间，另外还要承担高额的测试台成本。”Bach 说。对于一款发动机的整体应用而言，相应地会产生较高的时间和成本投入。“有了 PERL，我们可以大大减少这些投入。”Bach 对未来展望道。

综述

保时捷工程集团创新的 PERL 方法使用深度强化学习来开发发动机应用的最佳策略（所谓的“政策”）。专家认为，这一基于人工智能的新方法，是未来掌握发动机和传动系领域日益复杂的技术的关键因素。

信息

文：Richard Backhaus
受访人：Matteo Skull, Dr. Matthias Bach

本文首次刊发于保时捷工程杂志《Porsche Engineering》1/2021

人工智能的致胜之道

人工智能的顶级领域之一

在发动机标定中的使用

持续检查结果

大大降低应用开发投入

综述

信息

Frederic Damköhler

相关文章

电力驱动，水上驰骋

聚焦振动：看保时捷如何通过道路模拟测试台优化驾驶动态

TABASKO：如钢铁般坚固

基于人工智能的驾驶舒适性评估器