伯克利研究表明在人类驾驶中引入10%自动驾驶车，可以让车流量提升超过30%

只要一到连续假期，高速公路或是各景点一定到处大塞车，虽然已经是2019年了，AI、自动驾驶车也开始上街跑还不能完全自动化，但已经比人类驾驶拥有更多的优势。

一方面，半自动驾驶没有一些常规限制：它们反应迅速，可以长距离协调操作，最重要的是，运营公司可以简单地修改其刹车和加速模式以减少拥塞。

但是，半自动驾驶真的能够减轻塞车的情况吗？还是说当半自动汽车和人类驾驶汽车在同一条路上行驶的时候会加剧塞车情况？

一位伯克利大学的研究生、特斯拉自动驾驶组的实习生Eugene Vinitsky通过调查发现，虽然目前只有一小部分车辆是半自动的，但现有研究表明即使很小的出现率（3-4％）也足以开始缓解拥塞。

也就是说，鉴于AV（Autonomous Vehicles：自动驾驶汽车）的独特功能，我们希望确保其驾驶模式的设计能够最大限度地满足道路要求。AV的正确部署应尽量减少堵塞，降低总能耗，并最大限度地提高道路的通行能力。

但是最佳驾驶策略的研究关键问题是没有形成共识。

对于自动驾驶汽车公司来说，没有一个简单的指标可以让他们评估并实施其驾驶策略。

换句话说，当前半自动驾驶的部署没有基准，即可以用来比较不同研究组和方法进展的标准化问题。

如果能有设计合理的基准，就可以检查AV的驾驶行为并快速为其评分，确保在道路上行驶的都是最佳设计的AV。此外，基准应该促进研究，使研究人员能够轻松快速地尝试新技术和算法，了解这些技术和算法是如何解决拥塞问题的。

论文地址

为了填补这一空白，Eugene Vinitsky在CORL上发布的论文提出了集中式混合自动驾驶交通控制中的11个新基准。所谓的集中式混合自动驾驶交通控制是指车辆和交通信号灯由一台计算机控制的交通控制。

以下的研究内容是以Eugene Vinitsky第一人称撰写的内容：

这些基准会作为Flow工具项目的一部分，这个项目用于在交通仿真器SUMO和AIMSUN中将控制和强化学习（使用RLlib和rllab作为强化学习库）应用于自动驾驶车辆和交通信号灯。这些基准中获得高分意味着实际拥塞指标的改进，例如平均行驶速度，道路系统总延迟和道路吞吐量。通过在这些基准上取得的进展，希望可以回答有关AV应用的基本问题，并给出现实世界中部署可改善拥塞的AV的路线图。

本文前面描述的基准场景包括以下设置：

以下Gif展示了在这些基准中发现的紧急行为案例，很有趣也很有意义，图中显示了瓶颈的一部分，其中四车道整合为两车道，后续的二车道整合一车道并未示出。

上半部显示的人类驾驶的情形。人类所驾驶汽车随意地由四车道驶入两车道，由于车道整合导致瓶颈继而发展成为拥塞，降低了整个道路系统的速度。在下方的Gif图中，在人类驾驶车辆（橙色）中混入了自动驾驶车辆（红色）。我们发现自动驾驶车辆通过学习控制其进入整合车道的速度，进而有助于后面的车辆顺利切入整合车道。尽管只有十分之一的车辆是自动驾驶的，但道路系统能够保持不拥挤，并且车流量提高了35％。

一旦我们制定好了基准，我们就要确保研究人员有一组基准值来检查他们的算法。我们执行了一个小规模的超参数扫描，然后将找到最佳超参数提供以下RL算法运使用：增强随机搜索，近端策略优化，进化策略和信任区域策略优化。

下面图表的第一行表示在训练时间内使用一组指标奖励的基准分数。每个图对应于一个场景，显示其算法获得分数与训练时间的函数关系。如果算法分数偏离这些数值，就可以立即知道算法是否正确。

然而，从对拥塞的影响这一角度来看，真正重要的是最后的图表，即我们根据真正影响拥塞的指标对算法进行的评分。这些指标包括：8字形和整合车道的平均行驶速度，交通网中每辆车的平均延迟，以及瓶颈路段每小时车辆的总流出量。中间四列是算法根据这些基准指标的评分，最后一列是完全人类驾驶的得分。请注意，所有这些基准的AV出现率都相对较低，从最低的7％到最高的25％（即每14辆车中1辆AV到每4辆车1辆AV）。完全人类驾驶一栏中的拥塞指标都严重恶化，这表明即使出现率非常低，AV也可以对拥塞产生惊人的影响。

那么AV究竟是如何缓解拥塞的呢？下面的动图展示了一种可能的机制，它比较了在主干道匝道入口完全人类驾驶的情形（上半部）和每十辆车中有一辆是自动驾驶（红色）而其它九辆是人类驾驶（白色）的情形。在这两种情形下，人类驾驶员都想尽快冲入主道，而几乎不关心主道上的车辆。

在完全人类驾驶的情况下，车辆紧密地跟随，当匝道上的车冲入主道时，后面的车辆需要急踩刹车，导致“车辆聚集”。然而，在存在AV的情况下，自动驾驶车辆在接近匝道入口时加速进而拉开了与后面车辆之间的距离。较大的距离会形成缓冲区，因此当匝道上车辆进入主道时，主道上的车只需轻踩刹车就可避让开。

虽然我们无法用数学方法证明，但我们相当确定我们的结果都没有达到最佳分数。而我们的论文给出了一些论据，表明我们只是找到了局部最小值。

目前还有一大堆完全没有解决的问题。首先，这些基准只是用于完全集中式的情况，即所有汽车都由一台中央计算机控制。任何真正的道路驾驶策略算法都可能必须是分布式的：我们能否在不降低效果的情况下使用分布式？此外，还有一些公平原则没有讨论。

如下面的视频所示，通过完全拦住某车道可以显著改善瓶颈路段的车辆流出；虽然这种道路驾驶策略是有效的，但是它在奖励了其他驾驶员的同时严重惩罚被拦截车道上的驾驶员，这不可避免会导致狂暴情绪。

最后，还有一个颇具吸引力的泛化问题。对于每个独特的驾驶场景，似乎很难部署一个统一的驾驶策略; 是否有可能找到一个适用于不同类型交通网络的单一控制策略？我们的目标是在未来的一系列基准中解决所有这些问题。