互联网和人类行为的博弈均衡

本文为新式拥塞控制提供依据。

博弈均衡与化学平衡一样都建立在统计学之上，统计学关联众数参与者与随机过程，这本身说明大量的随机背后存在一个稳定的不动点，本文就此写一点想法。

在互联网中，用户之间的流量互相影响，博弈模型可描述这种关系。

博弈模型中，所有参与者均选择策略使自己收益最大化，纳什均衡(一种博弈均衡)是指这样一种稳定状态，该状态下参与者不能通过改变策略进一步提高收益。

在互联网中，每个用户在网络拓扑、网络质量等背景因素下，路由系统为其选择一个最优路径传输数据。而这些用户的选择会相互影响，形成一个博弈模型。在这个博弈模型的纳什均衡点，所有用户的流量传输达到均衡，无法再通过改变策略来提高自己的收益，即稳定的最优状态。

为什么会有这样的稳定状态？先从用户行为的规律性说起。

至少在目前看来，互联网流量多由人触发(未来不一定，可能流量由 AI 触发，但 AI 也遵循和人一样的 “自然法则”)，而人的行为有规律性。虽然人们共同生活在一个庞大的统计复用系统(即世界)中，虽然理论上这样的系统充满了不确定性和不可预知性，但其实人的行为非常规律，每个人的行为都或多或少存在一定的周期。

比如有人每天吃完饭会沿固定线路散步，有人每周五晚上会吃一顿烤鱼。我曾经开玩笑说，我们自以为世界很大，可能性很多，可我们每天遇到的人就那固定几个。每天午饭后在工作的园区散步的可能是同样几波人，每天坐地铁上班的可能也是同样的人，如果留心，可能会在固定时间固定地点看到固定的人，他们都是熟悉的陌生人。

这些熟悉的陌生人同样在固定的时间固定的地点看剧，刷手机，即便仅仅拿起手机无所事事，经常点开的也是那几个熟悉的 app，再加上推荐系统加持，人的视野会逐渐收敛，进而流量也逐渐收敛。

固定的人在固定的时间地点产生固定的流量，这似乎解释了一切问题，可导致这种规律的又是什么？为什么一个人每天都在 11 点 50 分去吃饭，而不是今天 12 点，明天 12 点 15，后天再试试 12 点 50。因为人类设计的系统本身不因人的行为而改变，即系统是输入无关的，人们很难找到尝试的方向，也就是说，只有试了才能知道结果，而不能在尝试之前预测，在已知有足够 “最佳” 的策略后，人们就没了继续尝试的动机。

如交通信号灯，无论车流量怎么改变，红绿灯亮灯间隔不会改变，换句话说，你无法通过利用红绿灯的亮灯模式而获益。系统本身固定后，其它变量在一系列的探测后总会固定下来，此时成本最低，收益最佳。

每当我搬到一个新城市，或换了一份新工作，我对此感受颇深。我会花几天到一个月时间尝试不同时间上下班，直到找到一个各方面权衡都差不多的，从此就固定在那个时间。如果所有人的上下班时间都在每天改变，我可能永远都找不到这个 “最佳点”。我这么想的，别人也是，于是每个人都能找到自己的 “最佳点”。

只有足够多的人朝同一个方向调整策略，才能驱使单一个人调整策略，否则找到 “最佳点” 后就不再变化，个人不再变化，整体也就不再变化。这背后有一个统计学真理，能让系统稳定下来的最大力量就是随机，随机可以湮没掉人们朝同一方向调整策略的动力。我稍微解释一下。

我们假设系统是输入无关的，每一个个人都无法预测往哪个方向调整策略会更好，A 可能觉得是 d1 方向，但在 B 看来可能是 -d1 方向，而 C 看来是 d2 方向…每个人倾向的策略调整方向在整体上看，相互抵消了，无法形成合力朝向同一个方向，那么最好的策略就是 “不动”。封闭空间的气体趋向于同一温度，也因为如此。

于是人群的行为便可预测，互联网流量也变得可预测。

来看事情另一面，如果系统不是输入无关，而随着人的行为变化，会怎样？

显然，这个变化规律一定会被发现而被利用，人们就有了跟踪这个模式改变自己行为以获益的动机。比如地铁间隔根据人流调整，早上 7 点，等车的人少，间隔很久，人们不想等待，于是都在 8 点后才进站以减少等车时间，但所有人都会采取这个策略，于是拥挤开始增加，终于有人受不了，选择提前到站等待，当人们都这样考虑时，高峰期就会提前，直到到达人们的另一个决策点，是选择即到即走，还是选择多睡一会儿。系统开始像个钟摆一样左右颠簸。所以，为了避免系统变得不可预测，地铁往往会选择固定时间段固定间隔。这算一个少数者博弈。

当然，如果不是上班时间，睡觉时间有 deadline，高峰期后因此持续往后延，直到第二天早上回到原点画一个圈(为什么我们的计时系统是一个圈，而不是一条勇往直前的直线)，后面还会提到这一点。

大部分统计复用系统被设计为输入无关，不随使用者的变化而变化，否则系统将变得颠簸，不稳定，不可预测。这大概就是这种 “非生态” 系统不像 “N 体系统” 那样捉摸不定的原因，像三体系统那样，引力来自系统本身，同时又影响系统本身。

但我们可以通过了解用户所采用的策略和行为规律，通过博弈论的方法来分析和预测互联网流量模型的行为规律，从而更好地利用网络资源吗？当然可以，但要悄悄的。

还是上面的原因，如果每个人都尝试了解这种规律，如果每个用户都有了流量画像，那么这些用户肯定会利用这个流量画像使自己受益，比如说，如果每个司机都知道工作日晚高峰某个路口严重拥堵，那个地方也就不会拥堵了。流量将因此而开始颠簸。

我不赞同公开全局画像(如果有的话)，不赞同利用这种相对全局的模式，这么多年我可以避开道路拥塞，可以买到抢购货，很大程度上就是靠这类信息差。当学校食堂门口火车票代售点排起长队时，如果他们知道花一块钱坐 20分钟公交车到火车站售票大厅就能买到车票，那么售票大厅就要排队了，于是接下来售票点就空闲了。

博弈均衡似乎天然公平。以 BBR probe 为例，带宽占比越小的 flow 加速比越大，这意味着它有足够充分的理由继续 probe，占比越大的 flow 继续 probe 只会降低其效能，还记得 E = maxBW/minRTT 吗？直到均分带宽，达到均衡后，谁也没有动机继续 probe，这就达到了稳态。

虽然人的行为具有规律性是好的，也 “最优”，最 “省力”，但依然没有解释人的行为为什么必须规律性。全体参与者随系统演化，心随影动，岂不是一幅更壮美的图景？

博弈模型勾勒的是一个行为系统，而博弈的背景总有固定因子不受参与者行为影响，它们与输入无关。除非将所有背景拉到前台一起单调演化，否则系统将摆动。

比如太阳自传公转周期不随人意志转移，而这却影响了人的生物钟，进而决定人的行为，日出而作，日落而息。包括四季，气温，动植物生长周期，都属输入无关，而这些背景勾勒了参与者行为的基本面。

客观讲，我们不能把 “摆动”，“抖动”，“波动”，“颠簸” 当作坏事，这些词的意义，在好的一面意味着弹性，大雪压青松，弯而不折，就是这意思。

人类设计的系统之所以普遍采取固定规则，说到底还是因为人们选择了高效而牺牲了弹性。人并不是非要规律性，而是在输入无关的固定背景下，为了组织效率而选择了规律性。地球有一半时间是夜晚，不适合组织生产，只有固定白天一日三餐的理念，才能更好组织集体生产，而这种固定行为一旦开始就成了习惯，当你早上 6 点必须起床在 7 点前吃了早饭，你的人体结构决定了你正好到了 12 点左右会饿，于是吃午饭。

也正因如此，回到前面的例子，由于人们的工作时间不可能单调延后，高峰期摆动的时间才有限，固定时间点的固定发车间隔实际效果是限制了这种摆动的幅度，于是人们的生活变得规律，固定时间出门，固定时间乘车，某种意义上你不得不这么做，因为换其它时间并不会更好。

整个人类社会从此就像上了发条的机器，自动地，有规律地运转。越到后来，“自由” 带来的不确定性越低。原始人最自由，进入农业社会后，受农作物影响，人不得不花更多精力在特定时间照料这些作物，进入工业社会，人的行为和机器捆绑在一起，机器不停，旁边就要有人，如今的信息时代，工人基本都处在 24 小时 oncall 状态。与人类社会相对的是自然生态，生物圈，食物网，弹性大，但低效。

结论是，越追求高效，随机因素就越小，从而弹性就越小。

回到本文写作的本意，互联网也有纳什均衡点，而且还不止一个，这些纳什均衡点可描述诸如路由，拥塞控制，协议部署等多种博弈行为，以网络可靠性和可用性为度量，这些均衡点肯定存在并自发达到。所以我认为诸如 CDN 厂商和各互联网公司叫卖的 “更优质” 的传输服务有点言过其实，没有谁可以更优质。用以下的观点理解拥塞控制和传输协议是高尚的，作为代步工具，在统计复用的的道路上，R8 并不会比 A4L 更快到达目的地，R8 比 A4L 更好的数据是在无人跑道上 “竞速” 出来的结果，当然，可能座椅也更高档些。

最近上下班路上读了《纳什均衡与博弈论》这本书，为我此前提出关于新样式拥塞控制方法(参考：新式拥塞控制)找到了依据，化学反应是分子统计交互，所有化学反应物质决定均衡条件。在博弈中，混合策略驱动复杂性构造，即进化。博弈描述了进化过程，创造了多样性。因此，人群也总会稳定，由人群触发的网络流量也因此自带规律和模式。这篇算个读后感吧。

浙江温州皮鞋湿，下雨进水不会胖。

互联网和人类行为的博弈均衡相关推荐

创业与投资的思维博弈均衡，是创投长期成功之道
2015年被普遍视为中国企业服务创业元年,自2015年至今三年来出现了不少优秀的企业服务创业案例.在2018年初的时候,专注于中国企业服务创投服务的咨询机构.定位于中国TMT产业升级与融合加速器钛资本 ...
Matlab逆向归纳法,6.完全信息动态博弈—逆向归纳法和子博弈完美均衡.ppt
第6讲完全信息动态博弈 --逆向归纳法和子博弈完美均衡完全且完美信息动态博弈完全且完美信息动态博弈参与人1从行动集A1选择行动a1 参与人2观察到a1,之后从行动集A2选择行动a2 两个人的收 ...
巨头博弈工业互联网的“大航海时代”
文/智能相对论(aixdlun) 作者/陈选滨地理大发现,又名大航海时代或探索时代.新航路的开辟. 在这个时期,欧洲的航海家们在王室的支持下,组织船队向世界各处的海洋航行,探索新的贸易路线和寻找新的 ...
论文阅读：大型对抗性不完美信息博弈的均衡发现 AAAI/ACM SIGAI Best Paper
论文最后附上下载地址. 注:论文属于公开的,欢迎下载. 目录 1.介绍 2.论文主要部分介绍 3.论文下载地址 1.介绍 Noam Brown 详述了大型对抗性不完美信息博弈中均衡计算的一系列进展.不 ...
演化博弈理论与应用研究综述[转]
原文地址:http://blog.sina.com.cn/s/blog_49d15689010009oq.html 演化博弈理论与应用研究综述王文宾,达庆利,陈伟达 (东南大学经济管理学院,南京,2 ...
35+的互联网人都哪去了
最近,经常被问到这样的问题,比如这样的: 杭哥好,目前在头条实习,发现周围真的几乎没有35+员工,那互联网大部分的35+员工都去哪了呢?以及怎么看待有一些关于35的言论总被人提? 1.第一波互联网从业 ...
CF98E Help Shrek and Donkey（纳什博弈 + 大讨论）
problem 洛谷链接 solution 纳什均衡是博弈论中一种解的概念,它是指满足下面性质的策略组合:任何一位玩家在此策略组合下单方面改变自己的策略,其他玩家策略不变,都不会提高自身的收益. 一 ...
面试官问：HTTP 的负载均衡你了解么？你不是说了你们用的Nginx么？说一下把。...
1.HTTP 重定向 1.1 重定向是什么重定向(Redirect)就是通过各种方法将各种网络请求重新定个方向转到其它位置(如:网页重定向.域名的重定向.路由选择的变化也是对数据报文经由路径的一种重 ...
博弈论纳什均衡囚徒困境智猪博弈
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步 1.博弈论是什么博弈论(game t ...

互联网和人类行为的博弈均衡

互联网和人类行为的博弈均衡相关推荐

最新文章

热门文章