7月5日在第九届中国指挥控制大会上,李德毅院士用脑和认知科学将指挥与控制科学带到新高度!智能化时代到来,随着感知智能、行为智能和认知智能的发展,未来的指挥与指控将迈向新台阶。博伊德环作为最著名的指挥与控制模型,有着深刻的理论内涵,李院士从下一代人工智能发展的高度解开了博伊德环的认知之谜。

今天我想讨论一个很实质性的问题,就是在当今和未来战争中智能将到底起到什么作用?尤其是在万物互联的背景下,智能包括人工智能怎么发挥作用?

十多年前,军事科学院专门对博伊德的战略理论进行了翻译和研究,博伊德的战略理论对美国军事影响很大。十年后,我们用脑和认知科学再看一下博伊德环到底讲的是什么、我们能做什么。

1、“OODA”循环理论的核心

大家都知道,OODA环是观察(Observe)、判断(Orient)、决策(Decide)、行动(Act)。其核心到底是什么?这就有必要了解一下博伊德这个人。博伊德生于1927年,1997年去世,他是一个非常厉害的战斗机飞行员,在上校退役后他的研究兴趣广泛,很多是认知科学方面,尤其在1995年发表了著名的演讲叫“胜负的本质”。他是改革美国军队的幕后力量,对全球军事变革有重大影响,而且是一个很有个性、特立独行的学者,对孙子、成吉思汗、毛泽东等东方军事思想的研究很深。从上校军事飞行员到军事科学家,他非常主张对话交流,在后半生对科学、工程和技术有深刻的思考,最终完善了OODA循环理论。博伊德提出一个重要观点,叫指挥去中心、控制去中心,他认为一大摞作战原则也无法告诉这些原则之间如何相互影响以及如何去做。我们常说力量到边,到底如何到边?冲突模式、概念螺旋、破坏和创造、战略博弈、指挥控制有机设计,是他的五个核心思想,在胜负的本质中进行了阐述。

OODA环是冲突对抗形式化的图形表达,描述作战双方在时间、物理空间、认知空间的螺旋发展与对抗形态。博伊德环不仅仅就是Observation、Orientation、Decision、Action这个四要素闭环,还有很多箭头,怎么理解?

观察里面有一句重要的话:不仅仅是感知,更要融入周围环境,对所处的外部变化有细致察觉,用心体察自己和对手的体力、脑力以及心力差异。观察是主观性的,感知是被动性的。Orientation是其中最重要的一环,里面又有五个小圈,讲的是基因、文化、先验知识、新信息、分析/综合等等。Orientation有再定位的意思,正如我们做无人驾驶中的SLAM,同步定位和映射,你在哪里,要到哪里去,目的地还有多远。任务导向,判断态势,如果判断有困难,要重回战场感知,可能陷入循环,无法进入下一个环节。由判断到行动之间的决心生成,态势判断做得好,作战决心生成和行动计划就会很明确,而如果观察和判断不到位,就很难决策,需要迅速回到前两步去,甚至陷入局部死循环。行动,他是从能量机动理论发展起来的,主要讲机动,尤其是在机械化战争时期,机动很重要,机动能够改变战场情况,后来又提到火力、软杀伤。

我们把这张图进行了解读,观察和行动在物理空间,判断和决策是在认知空间,箭头代表时间的螺旋,这张图反映了时间、物理空间、认知空间之间的关系。博伊德环的三个基本点:

(1)敌对双方互相较量,看谁更快、更高质量完成“观察—判断—决策—行动”的循环。双方都从观察开始,洞察自己、洞察环境和敌人。基于观察,获取相关外部信息,判断感知到的威胁,及时调整系统,做出应对的决策,以快吃慢。

(2)OODA循环周期由冲突的规模决定,空战常以秒杀,缩短我方博伊德环的循环周期,延长敌方循环周期,切入敌环内部,我快你慢,通过隐晦、诡计、奇兵、机动等手段,将敌方置于无力合作的孤岛,隔绝敌方重心,制造猜疑、紧张、摩擦,控制战斗节奏,最终瘫痪瓦解。双方的 OODA环都随时间形成螺旋。

(3)判断环节最为关键,如果不理解作战使命,对战场威胁判断有误,如何达成作战目标不明确,或者对于周围的环境感知理解有误,必然做出错误决策。

这些思想跟孙子兵法、毛泽东军事思想非常吻合,尤其是1936年毛泽东在《中国革命战争的战略问题》中的一段话,基本上和博伊德环是一样的,他说“指挥员的正确的部署来源于正确的决心,正确的决心来源于正确的判断,正确的判断来源于周到的和必要的侦察,和对于各种侦察材料的联贯起来的思索。”关键在思考、在认知作战,毛主席在著作里讲到了怎么去思索:去粗取精、去伪存真、由此及彼、由表及里,这就是认知活动的过程。

博伊德理论极大冲击克劳塞维茨等传统军事思想,在他去世之后,其理论受到包括美国在内的各国军队热捧,持续被深化,成为武装冲突形式化描述的法宝。当前依托网络的体系作战,几乎就是一连串的武装冲突而已!

2、“OODA环”解读

这个环里面最难理解的是这四个问号。

第一个,Orientation→Action,判断到行动的隐藏指导与控制,什么样的情况下不用决策就直接进入行动。

第二个,Orientation→Observation,判断到观察的反馈。

第三个,Decision→Observation,决策到观察的反馈。

第四个,Action by interaction with environment→Observation。环境交互的反馈。

如果这四个问号说不清楚,就很难深入理解博伊德环理论。尤其费解的是中间的Orientation,其内部的遗传基因、文化传统、先期经验、新信息、以及分析/综合等五个图,除了与遗传基因的连接是单箭头,其他都是双箭头,博伊德没有把这个说清楚。

对于OODA环很多学者从不同的视角进行解读,也有的把并不严谨的观点强加到了博伊德身上,对于众说纷纭的OODA,我觉得我们研究军事要聚焦,首先要注意到底想讲什么。

2008年我曾讲过对C4KISR一体化联合作战的理解,在一体化指挥网络的基础上来完成联合作战,我把它分成了保障域(计算机、通信、信息、网络)、感知域(情报、侦察、监视),认知域(指挥与控制),行动域(电子战和火力打击)。联指、飞行大队、海上编队、集团军同样都是OODA环。

十年之后,我认真研读了博伊德的作战理论,提出四个解读。

解读一:没有什么未来战争,所谓战争就是一次次武装冲突,多个战斗离散组合成序列,成为战役。关键的一场战斗很可能就是一场战役,关键的一场战役很可能就是一场战争,无论是战争、战役、战斗、作战双方任何规模的作战单元,都可以用一个有向的OODA环,来形式化表达在时间、物理空间和认知空间的活动。所以它有普适性,我们可以解读为:战场跨模态感知,任务导向、态势判断,决心和行动计划,机动和软/硬杀伤。

解读二:判断是最重要的一个环节。未来战场环境,参与作战的要素越来越多, 根据作战使命对战场态势的实时感知和理解变得越来越困难。 这个环节是指任务导向,聚焦态势,判断威胁,明确离完成作战使命的目标还有多少差距。这是体系作战中或最强、或最弱的链条,敌我谁胜谁负,常常就卡在“判断”环节上。以前我们是“侦、控、打、评”,现在是“侦、判(评)、控、打”。

解读三:武装冲突是作战双方一个回合接着一个回合的战场对决,加快己方 OODA 环的形成, 在作战中占据主动,切入并阻滞敌 OODA 环, 使得敌方陷入局部小循环、死循环,难以及时行动。每一个回合都是敌我双方观察、判断、决策和行动四个周期组成的环与环的对抗,看谁能主动控制战斗的节奏。似乎不应该存在环环相扣等解读。

解读四:“OODA 环”可以描述任意作战单元的循环,但不体现体系作战情况下各作战单元之间的层次关系、指挥关系和协同关系,支撑“OODA环”的网络生态不可或缺;博伊德对不确定性和认知科学有深刻见地,可惜没有关注脑科学和人工智能。

3、从“OODA 环”到“OODA+ 环”

扩展一:用一体化指挥网支撑多作战单元,表达单元之间的层次、指挥和协同关系,构成OODA环的生态。

这样的情况下怎么样联合打击呢?可以用战略力量进行打击,海上、陆上、空中都可以打击,各打各的吗?这里面隐藏的重要空间就是一体化指挥网,支撑着各路决心和行动计划发挥功能,尤其重要的是研判环节的态势共享,这是第一个“+”的内涵。

扩展二:用脑和认知科学解开博伊德之迷。

Orientation的五部分:基因和信仰、素质养成、先期经验、新信息、演绎和归纳。

我们做驾驶脑的过程中深深体会到我们应该把人脑的认知跟整个脑科学适当区分开,要把智能跟意识区分开,我们要做一个有感知、有认知、有行动、可交互、能训练、自生长的轮式机器人,其中最重要的就是要搞清楚驾驶脑,驾驶认知中的OODA+环。我们在新一代人工智能中提出行为智能和感知智能可以称为交互智能,认知智能里面有计算智能、记忆智能,行为智能和记忆智能比计算更重要。

新一代人工智能的核心是什么?我个人认为是交互、学习、记忆。感知、认知,加上具身行为智能形成了OODA+环。

十几年前我们就开始做驾驶脑,经过几次改造,从1.0、2.0、3.0,现在在天津港做港口物流无人驾驶,在东北做大田作业无人驾驶,就是用这样的思路来做的。我们认为驾驶本质上不是靠技术,是靠经验、靠记忆,很多驾驶先验知识,我曾经讲过一个专门防止侧翻的的记忆棒。

总而言之,我们走的是感知、认知和行动,而不是简单的感知、决策和控制,感知不足以决策,因为重要的参与判断决策的过程是认知。因此,我把刚才的四个问号做一个解读。动机训练形成的知识增量未来深度的学习、成熟的综合模式,实际上判断和决策是分不开的,我们把它加在一起,一个叫做记忆、一个叫计算,计算是记忆约束下的技能。判断到观察隐含的指导与控制反馈叫做任务注意力,对战场感知要有主观的目的要求,想看什么。毛主席有一句名言“感知这个东西你要深刻的理解它,只有深刻的理解这个东西才能深刻的感知它”,就是讲的这个反馈。作为一个机制,这是第一个问号的解读。第二个问号,什么叫隐藏的指导与控制前馈,不需要决策直接行动了?我认为是习惯和本能的指导控制,感知行为,感知就是行为,不要决策,大概就是这个意思。从决策到观察的反馈,就是这一轮的决心你必须知道下一轮的反馈。还有一个就是行动与环境的交互。这样下来博伊德的理论就变得更加丰满。

最后我们思考认知活动的模型是什么?是“时间之箭”留下的双驱动在物理域和认知域的迭代痕迹。博伊德理论给我们三个环,一个叫OODA、一个是OOA,还有一个OOHT。OODA环在左边,OOA/OOHT环右边。OODA环讲的是理性认知、讲的是因果可解释,演绎推理,封闭性和确定性,封闭边界的决策。右边的两个环讲的是记忆智能,讲的是经常直觉、难得顿悟,是归纳推理,是开放性和不确定性,顿悟形成假说,创造边界,转入演绎。于是时间轨迹图就形成了。 每个人的时间轨迹都不一样,迭代中的不确定性与顿悟。

进一步我们可以构建出战场的OODA+环。开放变化的战争环境,通过观察变成瞬时记忆,在工作记忆里面任务导向、聚焦态势、判断威胁,决策形成方案,长期的记忆里面用知识图谱正确的触发知识的提取,自身的行为智能构成自动化的反馈。

我们有两种方式获得行为决策,一是通过记忆的行为模式,还有用一般的模型来进行计算的数据。还有两个协同,一个是瞬时记忆、工作记忆和长期记忆之间的协同,一个是记忆和计算的行动,所以整个模型应该是双驱动、双循环、双协同,表现了时间关系和空间关系,t是当前的时刻,t-是刚刚过去的时刻,应用这个时间的趋势才能够得到势,势就是未来的行为,势比态更重要,这张图已经不是空间结构图,而是时空结构图。这样的图可以用来学习、用来训练。

扩展三:OODA+ 环用于训练和演习,练为战,练即战。

面向训练情景,通过感知理解来修改丰富场景记忆库,我们有了一个理性认知和感性认知的迭代模型,就可以通过它巩固知识(微重构),训练有的时候是有指导的学习,我曾经讲过不要把“有指导的学习”说成是“有监督的学习”,现在讲指导。我有一句观点:“智能植根于教育,文明是智能的生态”,教育太重要了,人类智能之所以高出其他的生物,一个最重要的是人类发明了文字符号,人类有了文明、有了文化,没有哪一个生物种类能像人一样把一生当中的1/4时间用来接受教育,这是把群体智能变为个体智能的重要阶段,这个很重要。

我想这个智能同样可以应用于其他情景,一个运动员明天就奥运比赛了,再怎么指挥他也发挥不了超常的水平,今天飞行员的表现就是他训练的表现,而不是靠指挥和控制可以控制得住的。有指导的训练是群体智能转为个体智能的过程,是行为模型累积的过程,是素质养成的过程。

体系作战能力,即基于网络灵活构建OODA环的敏捷作战能力。在一体化指挥网的支撑下,可通过外循环、内协同的“OODA+ 环” ,将各级指战员及其智能代理的认知,时刻同物理战场建立映射并保持交互,通过有指导的训练和自主学习,情境数据和知识模型双驱动,归纳和演绎迭代推进,实现认知模式的积累和快提取,新认知模式的自主学习,自主决策,与时俱进,形成一次次战场的决心和行动计划,通过机动、火力或电子战,以快吃慢,精确打击。

如果说我们的战争经过冷兵器、热兵器时代,热兵器靠弓箭、靠火药,我们在机械化战争中,走的是OODA 1.0版本,火力至胜、机动至胜,打消耗战。到信息化战争我们是OODA 2.0版本,是数据至胜、信息至胜,今天我们已经走向智能化战争的时代,OODA 版本3.0,认知至胜、素质至胜。在机械化战争时期,是火力优势、机动优势。到信息化战争时期,电子战优势、传感器优势、情报融合优势。今天我们在这个阶段,判断的优势、态势认知的优势、记忆智能的优势,就是你的本能熔化在你的血液里,是认知的优势、是素质的优势、是智能代理的优势,是机器智能的优势。如果我们能把博伊德这样一个优秀飞行员的水平物化到博伊德脑,假如我们的战争都是博伊德脑在作战,这会是什么战争。

我用这段话来结束我的报告:“依托网络的体系作战,随着“OODA+ 环”重心的转移和循环的加速,引发人工智能提升指战员素质,甚至作为指战员的智能代理,参与武装冲突的诸多遐想。随着智能润物细无声地向动能武器的渗透, 军事即政治,任务即指挥,发现即锁定,锁定即摧毁,训练即作战,素质即胜利。”。

指挥与控制,不忘初心!怎么样在智能作战中发挥我们东方的优势,引起我们太多的遐想了。在这个过程当中我征询了很多意见,画了一个螺旋,希望大家能够引起兴趣。谢谢大家!

文章排版校对:刘亚丽

声明:本文来自中国指挥与控制学会,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。