<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.1 20151215//EN" "http://jats.nlm.nih.gov/publishing/1.1/JATS-journalpublishing1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xml:lang="en" article-type="research-article" dtd-version="1.1">
<front>
<journal-meta>
<journal-id journal-id-type="pmc">CMC</journal-id>
<journal-id journal-id-type="nlm-ta">CMC</journal-id>
<journal-id journal-id-type="publisher-id">CMC</journal-id>
<journal-title-group>
<journal-title>Computers, Materials &#x0026; Continua</journal-title>
</journal-title-group>
<issn pub-type="epub">1546-2226</issn>
<issn pub-type="ppub">1546-2218</issn>
<publisher>
<publisher-name>Tech Science Press</publisher-name>
<publisher-loc>USA</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="publisher-id">73202</article-id>
<article-id pub-id-type="doi">10.32604/cmc.2026.073202</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Article</subject>
</subj-group>
</article-categories>
<title-group>
<article-title>Segment-Conditioned Latent-Intent Framework for Cooperative Multi-UAV Search</article-title>
<alt-title alt-title-type="left-running-head">Segment-Conditioned Latent-Intent Framework for Cooperative Multi-UAV Search</alt-title>
<alt-title alt-title-type="right-running-head">Segment-Conditioned Latent-Intent Framework for Cooperative Multi-UAV Search</alt-title>
</title-group>
<contrib-group>
<contrib id="author-1" contrib-type="author">
<name name-style="western"><surname>Hou</surname><given-names>Gang</given-names></name><xref ref-type="aff" rid="aff-1">1</xref><xref ref-type="author-notes" rid="afn1">#</xref></contrib>
<contrib id="author-2" contrib-type="author">
<name name-style="western"><surname>Liu</surname><given-names>Aifeng</given-names></name><xref ref-type="aff" rid="aff-1">1</xref><xref ref-type="author-notes" rid="afn1">#</xref></contrib>
<contrib id="author-3" contrib-type="author">
<name name-style="western"><surname>Zhao</surname><given-names>Tao</given-names></name><xref ref-type="aff" rid="aff-1">1</xref></contrib>
<contrib id="author-4" contrib-type="author">
<name name-style="western"><surname>Wei</surname><given-names>Wenyuan</given-names></name><xref ref-type="aff" rid="aff-2">2</xref></contrib>
<contrib id="author-5" contrib-type="author">
<name name-style="western"><surname>Li</surname><given-names>Bo</given-names></name><xref ref-type="aff" rid="aff-1">1</xref></contrib>
<contrib id="author-6" contrib-type="author" corresp="yes">
<name name-style="western"><surname>Liu</surname><given-names>Jiancheng</given-names></name><xref ref-type="aff" rid="aff-3">3</xref><xref rid="cor1" ref-type="corresp">&#x002A;</xref><email>jianchengliu@njust.edu.cn</email></contrib>
<contrib id="author-7" contrib-type="author" corresp="yes">
<name name-style="western"><surname>Wei</surname><given-names>Siwen</given-names></name><xref ref-type="aff" rid="aff-4">4</xref><xref ref-type="aff" rid="aff-5">5</xref><xref rid="cor1" ref-type="corresp">&#x002A;</xref><email>siwen_wei@stu.xidian.edu.cn</email></contrib>
<aff id="aff-1"><label>1</label><institution>Northwest Institute of Mechanical and Electrical Engineering</institution>, <addr-line>Xianyang, 712099</addr-line>, <country>China</country></aff>
<aff id="aff-2"><label>2</label><institution>Department of Railway Transportation Operations Management, Baotou Railway Vocational &#x0026; Technical College</institution>, <addr-line>Baotou, 014060</addr-line>, <country>China</country></aff>
<aff id="aff-3"><label>3</label><institution>School of Mechanical Engineering, Nanjing University of Science and Technology</institution>, <addr-line>Nanjing, 210094</addr-line>, <country>China</country></aff>
<aff id="aff-4"><label>4</label><institution>Shaanxi Key Laboratory of Antenna and Control Technology</institution>, <addr-line>Xi&#x2019;an, 710076</addr-line>, <country>China</country></aff>
<aff id="aff-5"><label>5</label><institution>39th Research Institute of China Electronics Technology Group Corporation</institution>, <addr-line>Xi&#x2019;an, 710076</addr-line>, <country>China</country></aff>
</contrib-group>
<author-notes>
<corresp id="cor1"><label>&#x002A;</label>Corresponding Authors: Jiancheng Liu. Email: jianchengliu@njust.edu.cn; Siwen Wei. Email: <email>siwen_wei@stu.xidian.edu.cn</email></corresp>
<fn id="afn1">
<p><sup>#</sup>These authors contributed equally to this work</p>
</fn>
</author-notes>
<pub-date date-type="collection" publication-format="electronic">
<year>2026</year>
</pub-date>
<pub-date date-type="pub" publication-format="electronic">
<day>10</day><month>2</month><year>2026</year>
</pub-date>
<volume>87</volume>
<issue>1</issue>
<elocation-id>96</elocation-id>
<history>
<date date-type="received">
<day>12</day>
<month>09</month>
<year>2025</year>
</date>
<date date-type="accepted">
<day>24</day>
<month>12</month>
<year>2025</year>
</date>
</history>
<permissions>
<copyright-statement>&#x00A9; 2026 The Authors.</copyright-statement>
<copyright-year>2026</copyright-year>
<copyright-holder>Published by Tech Science Press.</copyright-holder>
<license xlink:href="https://creativecommons.org/licenses/by/4.0/">
<license-p>This work is licensed under a <ext-link ext-link-type="uri" xlink:type="simple" xlink:href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International License</ext-link>, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.</license-p>
</license>
</permissions>
<self-uri content-type="pdf" xlink:href="TSP_CMC_73202.pdf"></self-uri>
<abstract>
<p>Cooperative multi-UAV search requires jointly optimizing wide-area coverage, rapid target discovery, and endurance under sensing and motion constraints. Resolving this coupling enables scalable coordination with high data efficiency and mission reliability. We formulate this problem as a discounted Markov decision process on an occupancy grid with a cellwise Bayesian belief update, yielding a Markov state that couples agent poses with a probabilistic target field. On this belief&#x2013;MDP we introduce a segment-conditioned latent-intent framework, in which a discrete intent head selects a latent skill every <italic>K</italic> steps and an intra-segment GRU policy generates per-step control conditioned on the fixed intent; both components are trained end-to-end with proximal updates under a centralized critic. On the <inline-formula id="ieqn-1"><mml:math id="mml-ieqn-1"><mml:mn>50</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:mn>50</mml:mn></mml:math></inline-formula> grid, coverage and discovery convergence times are reduced by up to 48% and 40% relative to a flat actor-critic benchmark, and the aggregated convergence metric improves by about 12% compared with a state-of-the-art hierarchical method. Qualitative analyses further reveal stable spatial sectorization, low path overlap, and fuel-aware patrolling, indicating that segment-conditioned latent intents provide an effective and scalable mechanism for coordinated multi-UAV search.</p>
</abstract>
<kwd-group kwd-group-type="author">
<kwd>Multi-agent reinforcement learning</kwd>
<kwd>Markov decision process</kwd>
<kwd>multi-UAV cooperative search</kwd>
</kwd-group>
</article-meta>
</front>
<body>
<sec id="s1">
<label>1</label>
<title>Introduction</title>
<p>Cooperative search with multiple unmanned aerial vehicles (UAVs) enables rapid, wide-area situational awareness for surveillance, humanitarian response, and defense operations, where parallel sensing and timely localization of mission-relevant targets are critical [<xref ref-type="bibr" rid="ref-1">1</xref>,<xref ref-type="bibr" rid="ref-2">2</xref>]. These demands are further amplified by the proliferation of IoT devices and the emergence of next-generation (6G-ready) network architectures, in which UAV-assisted infrastructures are increasingly deployed as agile aerial nodes for real-time sensing, surveillance, and data collection in dense IoT environments [<xref ref-type="bibr" rid="ref-3">3</xref>&#x2013;<xref ref-type="bibr" rid="ref-5">5</xref>]. In such settings, decision policies must simultaneously promote broad spatial coverage, high-probability target discovery, and fuel-aware persistence under partial observability and dynamic interaction among agents, which renders joint planning inherently high dimensional and nonstationary.</p>
<p>Conventional approaches to multi-UAV search span graph-based planning, swarm heuristics, game-theoretic coordination, and evolutionary/metaheuristic optimizers [<xref ref-type="bibr" rid="ref-6">6</xref>&#x2013;<xref ref-type="bibr" rid="ref-8">8</xref>]. While these methods provide valuable baselines, they typically assume static or fully observable environments, rely on strong prior modeling or hand-crafted heuristics, and offer limited support for online adaptation, multi-agent credit assignment, and principled trade-offs between coverage, discovery, and endurance. Deep reinforcement learning has recently advanced UAV navigation by learning directly from interaction and coping with uncertainty [<xref ref-type="bibr" rid="ref-9">9</xref>&#x2013;<xref ref-type="bibr" rid="ref-11">11</xref>]. In multi-agent settings, centralized training with decentralized execution (CTDE) alleviates nonstationarity [<xref ref-type="bibr" rid="ref-12">12</xref>&#x2013;<xref ref-type="bibr" rid="ref-14">14</xref>], yet flat (single-level) DRL still struggles with long-horizon exploration, joint action-space blowup, and ambiguous credit assignment as team size grows [<xref ref-type="bibr" rid="ref-15">15</xref>].</p>
<p>Hierarchical reinforcement learning (HRL) provides temporal abstraction and subgoal structure through manager&#x2013;worker decompositions and value-function factorizations [<xref ref-type="bibr" rid="ref-16">16</xref>,<xref ref-type="bibr" rid="ref-17">17</xref>]. Canonical architectures such as FeUdal Networks and the Option-Critic framework instantiate these principles via goal-conditioned managers and learnable options [<xref ref-type="bibr" rid="ref-18">18</xref>], but typically require delicate intrinsic-reward design or learned termination functions that are prone to option collapse and training instability. Recent multi-agent extensions further exploit hierarchical organization to facilitate cooperative decision-making [<xref ref-type="bibr" rid="ref-19">19</xref>,<xref ref-type="bibr" rid="ref-20">20</xref>], yet often rely on hand-crafted subtask taxonomies, predefined communication patterns, or centralized coordinators that do not transfer seamlessly to fully cooperative, partially observed settings. Surveys underscore the potential of HRL for scalable aerial coordination [<xref ref-type="bibr" rid="ref-21">21</xref>,<xref ref-type="bibr" rid="ref-22">22</xref>]; nevertheless, these designs can incur additional variance and computational overhead when applied to belief-based multi-UAV search with tightly coupled objectives. Maximum-entropy regularization has been shown to enhance exploration and coordination [<xref ref-type="bibr" rid="ref-23">23</xref>], yet systematically aligning exploratory behavior with mission-level coverage objectives and energy constraints remains a central open challenge.</p>
<p>This work introduces a segment-conditioned latent-intent framework for cooperative multi-UAV search (SCLI&#x2013;CMUS) that unifies temporal abstraction, coordinated exploration, and endurance awareness within a single CTDE policy. The environment is modeled as a discounted Markov decision process on a discretized workspace endowed with a Bayesian cellwise update of the occupancy field. Within one end-to-end differentiable policy, a discrete <italic>intent head</italic> selects a latent skill every <italic>K</italic> steps to guide medium-horizon behavior, while an <italic>action head</italic> driven by an intra-segment GRU issues per-step yaw increments conditioned on the fixed intent and local features. Compared with FeUdal-style and Option-Critic architectures, this fixed-horizon, discrete-intent design retains sufficient temporal expressiveness while avoiding termination-related instabilities and keeping per-step computation close to that of a recurrent actor-critic with a single additional categorical head. To reconcile heterogeneous signal scales and stabilize training, we employ a three-parameter, scale-calibrated saturated reward that jointly accounts for information gain, coverage efficiency, and energy&#x2013;time cost. The principal contributions of this work are summarized as follows:
<list list-type="simple">
<list-item><label>1.</label><p>We propose Segment&#x2013;Conditioned Latent&#x2013;Intent for Cooperative Multi&#x2013;UAV Search (SCLI&#x2013;CMUS), a CTDE framework that couples a discrete intent selector&#x2014;updated at fixed segment boundaries&#x2014;with an intra-segment recurrent controller in a single end-to-end differentiable policy.</p></list-item>
<list-item><label>2.</label><p>We develop a three-coefficient, scale-calibrated saturated reward that jointly balances information gain, coverage efficiency, and energy&#x2013;time costs.</p></list-item>
<list-item><label>3.</label><p>Comprehensive experiments demonstrating faster learning, improved overage/discovery convergence times, and robust qualitative behaviors across representative UAV team sizes.</p></list-item>
</list></p>
<p>The remainder of this paper is structured as follows. <xref ref-type="sec" rid="s2">Section 2</xref> reviews related work on cooperative multi-UAV search, planning-based coordination, and (hierarchical) multi-agent reinforcement learning. <xref ref-type="sec" rid="s3">Section 3</xref> presents the belief-based MDP formulation and the proposed segment-conditioned latent-intent framework, while <xref ref-type="sec" rid="s4">Section 4</xref> details the experimental setup, benchmarks, and ablation studies. Finally, <xref ref-type="sec" rid="s5">Section 5</xref> summarizes the findings and outlines directions for future research.</p>
</sec>
<sec id="s2">
<label>2</label>
<title>Related Work</title>
<p>Conventional planning approaches for UAV search largely build on graph-search and shortest-path heuristics, which perform well in static and fully observable environments [<xref ref-type="bibr" rid="ref-6">6</xref>,<xref ref-type="bibr" rid="ref-24">24</xref>]. However, such methods do not naturally accommodate multi-agent credit assignment, online replanning under sensing uncertainty, or principled division of labor among multiple vehicles. Swarm-style schemes based on artificial potential fields, flocking rules, or pheromone deposition provide lightweight, decentralized coordination with low communication burden [<xref ref-type="bibr" rid="ref-7">7</xref>,<xref ref-type="bibr" rid="ref-25">25</xref>], and learned heuristics can amortize local perception-to-action mappings [<xref ref-type="bibr" rid="ref-26">26</xref>]. These approaches, though attractive for their simplicity, are susceptible to local minima, lack mechanisms to globally optimize coupled coverage&#x2013;discovery&#x2013;endurance trade-offs, and often require extensive manual retuning when environment statistics change.</p>
<p>Game-theoretic and metaheuristic frameworks offer alternative tools for cooperative search and routing. Potential games and market-based task allocation furnish equilibrium concepts and scalable assignment rules [<xref ref-type="bibr" rid="ref-27">27</xref>,<xref ref-type="bibr" rid="ref-28">28</xref>], while differential games capture adversarial or pursuit&#x2013;evasion interactions in continuous time [<xref ref-type="bibr" rid="ref-28">28</xref>]. Evolutionary and metaheuristic optimizers traverse nonconvex search spaces and can handle multiple objective criteria in path planning and routing [<xref ref-type="bibr" rid="ref-29">29</xref>,<xref ref-type="bibr" rid="ref-30">30</xref>], with recent advances in motion-encoded multi-parent crossovers improving solution diversity [<xref ref-type="bibr" rid="ref-8">8</xref>]. Nonetheless, their reliance on strong prior modeling, offline optimization, and substantial computational budgets limits their ability to adapt online in uncertain, time-critical environments.</p>
<p>Deep reinforcement learning (DRL) has achieved notable success in UAV navigation by learning policies directly from interaction, thereby coping with uncertainty and enabling online adaptation [<xref ref-type="bibr" rid="ref-9">9</xref>]. Single-vehicle studies have demonstrated obstacle-aware, threat-aware maneuvering and memory-augmented exploration in complex environments [<xref ref-type="bibr" rid="ref-10">10</xref>,<xref ref-type="bibr" rid="ref-11">11</xref>,<xref ref-type="bibr" rid="ref-31">31</xref>,<xref ref-type="bibr" rid="ref-32">32</xref>]. In multi-agent settings, centralized training with decentralized execution (CTDE) has become a standard paradigm: decentralized actors are trained against a centralized critic to mitigate nonstationarity and stabilize learning [<xref ref-type="bibr" rid="ref-12">12</xref>], and recent work emphasizes resilience and meta-adaptation under distribution shift [<xref ref-type="bibr" rid="ref-13">13</xref>,<xref ref-type="bibr" rid="ref-14">14</xref>]. However, flat (single-level) DRL typically struggles to align long-horizon exploration with local motion control, suffers from joint action-space blowup as team size grows, and faces ambiguous multi-agent credit assignment [<xref ref-type="bibr" rid="ref-15">15</xref>]. Maximum-entropy and entropy-regularized formulations can improve exploration and coordination [<xref ref-type="bibr" rid="ref-23">23</xref>], but designing reward structures that explicitly couple information gain, coverage efficiency, and energy&#x2013;time costs remains challenging in belief-based multi-UAV search.</p>
<p>Hierarchical reinforcement learning (HRL) introduces temporal abstraction and subgoal structure through manager&#x2013;worker decompositions and value-function factorizations [<xref ref-type="bibr" rid="ref-16">16</xref>,<xref ref-type="bibr" rid="ref-17">17</xref>]. Canonical architectures such as FeUdal Networks and the Option-Critic framework realize these principles via goal-conditioned managers and learnable options [<xref ref-type="bibr" rid="ref-18">18</xref>,<xref ref-type="bibr" rid="ref-33">33</xref>], but typically require carefully designed intrinsic rewards or learned termination functions that are prone to option collapse, premature termination, and training instability. Against this backdrop, the segment-conditioned latent-intent framework developed in this work is intended to preserve the advantages of temporal abstraction while mitigating practical difficulties associated with option termination and hand-crafted subtask hierarchies.</p>
</sec>
<sec id="s3">
<label>3</label>
<title>Method</title>
<p><xref ref-type="fig" rid="fig-1">Fig. 1</xref> provides an overview of the proposed framework. The environment yields a probabilistic occupancy map <inline-formula id="ieqn-2"><mml:math id="mml-ieqn-2"><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula>, local observations <inline-formula id="ieqn-3"><mml:math id="mml-ieqn-3"><mml:msubsup><mml:mi>o</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula>, and agent coordinates <inline-formula id="ieqn-4"><mml:math id="mml-ieqn-4"><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula>. These signals are fused by an encoder (GRU) into global information features that condition two heads within a single policy: a discrete skill head <inline-formula id="ieqn-5"><mml:math id="mml-ieqn-5"><mml:msub><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03D5;</mml:mi></mml:msub></mml:math></inline-formula> that selects a segment intent <inline-formula id="ieqn-6"><mml:math id="mml-ieqn-6"><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula> every <italic>K</italic> steps, and an action head <inline-formula id="ieqn-7"><mml:math id="mml-ieqn-7"><mml:msub><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03B8;</mml:mi></mml:msub></mml:math></inline-formula> that issues per-step yaw-increment commands conditioned on the fixed intent and an autoregressive hidden state. A centralized critic <inline-formula id="ieqn-8"><mml:math id="mml-ieqn-8"><mml:msub><mml:mi>V</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub></mml:math></inline-formula> evaluates behaviour on the belief state and supplies advantages for step-level and segment-level updates; experience tuples are stored in a replay buffer.</p>
<fig id="fig-1">
<label>Figure 1</label>
<caption>
<title>Overview of the segment-conditioned latent-intent framework for cooperative multi-UAV search (SCLI-CMUS). Left: environment and trajectories of multiple UAVs (colours identify agents; stars indicate targets; orange dots denote end points). Middle: inputs to the encoder comprising the probability map <inline-formula id="ieqn-9"><mml:math id="mml-ieqn-9"><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula>, local observation <inline-formula id="ieqn-10"><mml:math id="mml-ieqn-10"><mml:msubsup><mml:mi>o</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula>, and UAV coordinates <inline-formula id="ieqn-11"><mml:math id="mml-ieqn-11"><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula>; the encoder (GRU) produces global information features. Right: policy heads and learning signals. The skill head <inline-formula id="ieqn-12"><mml:math id="mml-ieqn-12"><mml:msub><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03D5;</mml:mi></mml:msub></mml:math></inline-formula> selects a discrete intent every <italic>K</italic> steps; the action head <inline-formula id="ieqn-13"><mml:math id="mml-ieqn-13"><mml:msub><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03B8;</mml:mi></mml:msub></mml:math></inline-formula> outputs per-step yaw increments conditioned on the intent and an autoregressive state</title>
</caption>
<graphic mimetype="image" mime-subtype="tif" xlink:href="CMC_73202-fig-1.tif"/>
</fig>
<p>The main symbols used in the formulation and policy parameterization are summarized in <xref ref-type="table" rid="table-1">Table 1</xref>.</p>
<table-wrap id="table-1">
<label>Table 1</label>
<caption>
<title>Core notation used in the problem formulation and policy</title>
</caption>
<table>
<colgroup>
<col align="center" width="38mm"/>
<col align="center" width="38mm"/>
<col align="center" width="65mm"/> </colgroup>
<thead>
<tr>
<th>Category</th>
<th>Symbol</th>
<th>Description</th>
</tr>
</thead>
<tbody>
<tr>
<td rowspan="3">Environment &#x0026; State</td>
<td><inline-formula id="ieqn-14"><mml:math id="mml-ieqn-14"><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msub><mml:mi>D</mml:mi><mml:mi>X</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>D</mml:mi><mml:mi>Y</mml:mi></mml:msub></mml:math></inline-formula></td>
<td>Discretized grid workspace and its size.</td>
</tr>
<tr>
<td><inline-formula id="ieqn-15"><mml:math id="mml-ieqn-15"><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>N</mml:mi></mml:math></inline-formula></td>
<td>UAV index set and team size.</td>
</tr>
<tr>
<td><inline-formula id="ieqn-16"><mml:math id="mml-ieqn-16"><mml:msub><mml:mi>S</mml:mi><mml:mi>t</mml:mi></mml:msub></mml:math></inline-formula></td>
<td>MDP state (UAV poses and belief field).</td>
</tr>
<tr>
<td rowspan="2">Sensing &#x0026; Coverage</td>
<td><inline-formula id="ieqn-17"><mml:math id="mml-ieqn-17"><mml:msub><mml:mi>R</mml:mi><mml:mrow><mml:mtext>sen</mml:mtext></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msub><mml:mtext>Cov</mml:mtext><mml:mi>u</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula></td>
<td>Sensing radius and per-UAV cell coverage indicator.</td>
</tr>
<tr>
<td><inline-formula id="ieqn-18"><mml:math id="mml-ieqn-18"><mml:msub><mml:mrow><mml:mi>&#x1D4B1;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;CovRate</mml:mtext><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula></td>
<td>Visited cell set and instantaneous coverage ratio.</td>
</tr>
<tr>
<td rowspan="2">Belief &#x0026; Reward</td>
<td><inline-formula id="ieqn-19"><mml:math id="mml-ieqn-19"><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula></td>
<td>Cellwise occupancy belief and full belief field.</td>
</tr>
<tr>
<td><inline-formula id="ieqn-20"><mml:math id="mml-ieqn-20"><mml:msub><mml:mi>R</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo></mml:math></inline-formula></td>
<td>Team reward, normalized components, reward weights <inline-formula id="ieqn-21"><mml:math id="mml-ieqn-21"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula>, discount factor <inline-formula id="ieqn-22"><mml:math id="mml-ieqn-22"><mml:mi>&#x03B3;</mml:mi></mml:math></inline-formula>, and discounted return <italic>J</italic>.</td>
</tr>
<tr>
<td></td>
<td><inline-formula id="ieqn-23"><mml:math id="mml-ieqn-23"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>&#x03B3;</mml:mi><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>J</mml:mi></mml:math></inline-formula></td>
<td></td>
</tr>
<tr>
<td rowspan="2">Latent Intents &#x0026; Segments</td>
<td><inline-formula id="ieqn-24"><mml:math id="mml-ieqn-24"><mml:mi>K</mml:mi><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:math></inline-formula></td>
<td>Segment length and segment-start time index.</td>
</tr>
<tr>
<td><inline-formula id="ieqn-25"><mml:math id="mml-ieqn-25"><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>M</mml:mi></mml:math></inline-formula></td>
<td>Latent intent of UAV <inline-formula id="ieqn-26"><mml:math id="mml-ieqn-26"><mml:mi>u</mml:mi></mml:math></inline-formula> at <inline-formula id="ieqn-27"><mml:math id="mml-ieqn-27"><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:math></inline-formula> and number of discrete intents.</td>
</tr>
<tr>
<td rowspan="2">Actions &#x0026; Policy</td>
<td><inline-formula id="ieqn-28"><mml:math id="mml-ieqn-28"><mml:mrow><mml:mi>&#x1D49C;</mml:mi></mml:mrow><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>&#x03B1;</mml:mi></mml:math></inline-formula></td>
<td>Discrete yaw&#x2013;increment set, action of UAV <inline-formula id="ieqn-29"><mml:math id="mml-ieqn-29"><mml:mi>u</mml:mi></mml:math></inline-formula>, and increment magnitude.</td>
</tr>
<tr>
<td><inline-formula id="ieqn-30"><mml:math id="mml-ieqn-30"><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03D5;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03B8;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msub><mml:mi>V</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub></mml:math></inline-formula></td>
<td>Skill head, action head, and centralized critic.</td>
</tr>
<tr>
<td rowspan="2">Features &#x0026; Hidden state</td>
<td><inline-formula id="ieqn-31"><mml:math id="mml-ieqn-31"><mml:msubsup><mml:mi>o</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mtext>map</mml:mtext></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mtext>loc</mml:mtext><mml:mo>,</mml:mo><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mi>G</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula></td>
<td>Local observation, belief-map feature, local feature, and aggregated summary.</td>
</tr>
<tr>
<td><inline-formula id="ieqn-32"><mml:math id="mml-ieqn-32"><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msub><mml:mtext>GRU</mml:mtext><mml:mi>&#x03C9;</mml:mi></mml:msub></mml:math></inline-formula></td>
<td>Recurrent hidden state and GRU encoder.</td>
</tr>
</tbody>
</table>
</table-wrap>
<sec id="s3_1">
<label>3.1</label>
<title>MDP Formulation for Cooperative Multi-UAV Search</title>
<p>We model cooperative multi-UAV search as a discounted Markov decision process on a discretized workspace. Let the two-dimensional workspace be discretized as
<disp-formula id="eqn-1"><label>(1)</label><mml:math id="mml-eqn-1" display="block"><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mo>=</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2223;</mml:mo><mml:mi>x</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x2026;</mml:mo><mml:mo>,</mml:mo><mml:msub><mml:mi>D</mml:mi><mml:mi>X</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>y</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x2026;</mml:mo><mml:mo>,</mml:mo><mml:msub><mml:mi>D</mml:mi><mml:mi>Y</mml:mi></mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mo>,</mml:mo></mml:math></disp-formula>where each cell <inline-formula id="ieqn-33"><mml:math id="mml-ieqn-33"><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> either contains a target or is empty, and <inline-formula id="ieqn-34"><mml:math id="mml-ieqn-34"><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msub><mml:mi>D</mml:mi><mml:mi>X</mml:mi></mml:msub><mml:msub><mml:mi>D</mml:mi><mml:mi>Y</mml:mi></mml:msub></mml:math></inline-formula> denotes the total number of grid cells. Time is discrete <inline-formula id="ieqn-35"><mml:math id="mml-ieqn-35"><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mn>2</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x2026;</mml:mo></mml:math></inline-formula>. The cellwise occupancy posterior is
<disp-formula id="eqn-2"><label>(2)</label><mml:math id="mml-eqn-2" display="block"><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mi mathvariant="double-struck">P</mml:mi></mml:mrow><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mrow><mml:mtext>cell&#xA0;</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mrow><mml:mtext>&#xA0;contains a target</mml:mtext></mml:mrow><mml:mspace width="thinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">|</mml:mo></mml:mrow></mml:mstyle><mml:mspace width="thinmathspace" /><mml:msub><mml:mrow><mml:mi>&#x1D4B5;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn><mml:mo>:</mml:mo><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>with <inline-formula id="ieqn-36"><mml:math id="mml-ieqn-36"><mml:msub><mml:mrow><mml:mi>&#x1D4B5;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn><mml:mo>:</mml:mo><mml:mi>t</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula> the <inline-formula id="ieqn-37"><mml:math id="mml-ieqn-37"><mml:mi>&#x03C3;</mml:mi></mml:math></inline-formula>-algebra generated by all measurements up to <inline-formula id="ieqn-38"><mml:math id="mml-ieqn-38"><mml:mi>t</mml:mi></mml:math></inline-formula>. The initial prior <inline-formula id="ieqn-39"><mml:math id="mml-ieqn-39"><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> is specified from domain knowledge (uniform). Denote by <inline-formula id="ieqn-40"><mml:math id="mml-ieqn-40"><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula> the full occupancy field.</p>
<p>We now specify the agent set, action space, kinematics, joint control, and state representation. Let <inline-formula id="ieqn-41"><mml:math id="mml-ieqn-41"><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow><mml:mo>=</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x2026;</mml:mo><mml:mo>,</mml:mo><mml:mi>N</mml:mi><mml:mo fence="false" stretchy="false">}</mml:mo></mml:math></inline-formula> index the UAVs. UAV <inline-formula id="ieqn-42"><mml:math id="mml-ieqn-42"><mml:mi>u</mml:mi></mml:math></inline-formula> has planar position <inline-formula id="ieqn-43"><mml:math id="mml-ieqn-43"><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2208;</mml:mo><mml:msup><mml:mrow><mml:mi mathvariant="double-struck">R</mml:mi></mml:mrow><mml:mn>2</mml:mn></mml:msup></mml:math></inline-formula> and heading <inline-formula id="ieqn-44"><mml:math id="mml-ieqn-44"><mml:msubsup><mml:mi>&#x03C8;</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2208;</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mo>&#x2212;</mml:mo><mml:mi>&#x03C0;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x03C0;</mml:mi><mml:mo stretchy="false">]</mml:mo></mml:math></inline-formula>. Each UAV selects a discrete yaw&#x2013;increment action
<disp-formula id="eqn-3"><label>(3)</label><mml:math id="mml-eqn-3" display="block"><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D49C;</mml:mi></mml:mrow><mml:mo>=</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mo>&#x2212;</mml:mo><mml:mi>&#x03B1;</mml:mi><mml:mo>,</mml:mo><mml:mspace width="thinmathspace" /><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mspace width="thinmathspace" /><mml:mo>+</mml:mo><mml:mi>&#x03B1;</mml:mi><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mrow><mml:mtext>&#xA0;(degrees)</mml:mtext></mml:mrow><mml:mo>,</mml:mo></mml:math></disp-formula>where <inline-formula id="ieqn-45"><mml:math id="mml-ieqn-45"><mml:mi>&#x03B1;</mml:mi><mml:mo>=</mml:mo><mml:mn>45</mml:mn></mml:math></inline-formula>, and the action evolves under constant&#x2013;speed kinematics with sampling step <inline-formula id="ieqn-46"><mml:math id="mml-ieqn-46"><mml:mi mathvariant="normal">&#x0394;</mml:mi><mml:mi>t</mml:mi><mml:mo>&#x003E;</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula> and speed <inline-formula id="ieqn-47"><mml:math id="mml-ieqn-47"><mml:mi>v</mml:mi><mml:mo>&#x003E;</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula>.</p>
<p>Given a chosen yaw&#x2013;increment action <inline-formula id="ieqn-48"><mml:math id="mml-ieqn-48"><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula> and constant-speed motion, the heading and planar position of UAV <inline-formula id="ieqn-49"><mml:math id="mml-ieqn-49"><mml:mi>u</mml:mi></mml:math></inline-formula> evolve according to
<disp-formula id="eqn-4"><label>(4)</label><mml:math id="mml-eqn-4" display="block"><mml:mrow><mml:mo>{</mml:mo><mml:mtable columnalign="left left" rowspacing=".2em" columnspacing="1em" displaystyle="false"><mml:mtr><mml:mtd><mml:msubsup><mml:mi>&#x03C8;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>=</mml:mo><mml:msubsup><mml:mi>&#x03C8;</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>+</mml:mo><mml:mstyle displaystyle="true" scriptlevel="0"><mml:mfrac><mml:mi>&#x03C0;</mml:mi><mml:mn>180</mml:mn></mml:mfrac></mml:mstyle><mml:mspace width="thinmathspace" /><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>=</mml:mo><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>+</mml:mo><mml:mi>v</mml:mi><mml:mi mathvariant="normal">&#x0394;</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mo>[</mml:mo><mml:mtable rowspacing="4pt" columnspacing="1em"><mml:mtr><mml:mtd><mml:mi>cos</mml:mi><mml:mo>&#x2061;</mml:mo><mml:msubsup><mml:mi>&#x03C8;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>u</mml:mi></mml:msubsup></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mi>sin</mml:mi><mml:mo>&#x2061;</mml:mo><mml:msubsup><mml:mi>&#x03C8;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>u</mml:mi></mml:msubsup></mml:mtd></mml:mtr></mml:mtable><mml:mo>]</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable><mml:mo fence="true" stretchy="true" symmetric="true"></mml:mo></mml:mrow></mml:math></disp-formula>where <inline-formula id="ieqn-50"><mml:math id="mml-ieqn-50"><mml:mi>v</mml:mi></mml:math></inline-formula> is the constant forward speed and <inline-formula id="ieqn-51"><mml:math id="mml-ieqn-51"><mml:mi mathvariant="normal">&#x0394;</mml:mi><mml:mi>t</mml:mi></mml:math></inline-formula> is the sampling interval.</p>
<p>Collecting all per-agent yaw&#x2013;increment actions yields the joint action vector
<disp-formula id="eqn-5"><label>(5)</label><mml:math id="mml-eqn-5" display="block"><mml:msub><mml:mrow><mml:mtext mathvariant="bold">a</mml:mtext></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mn>1</mml:mn></mml:msubsup><mml:mo>,</mml:mo><mml:mo>&#x2026;</mml:mo><mml:mo>,</mml:mo><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>N</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x1D49C;</mml:mi></mml:mrow><mml:mi>N</mml:mi></mml:msup><mml:mo>.</mml:mo></mml:math></disp-formula></p>
<p>The MDP state collects agent poses and the occupancy field, namely
<disp-formula id="eqn-6"><label>(6)</label><mml:math id="mml-eqn-6" display="block"><mml:msub><mml:mi>S</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mo fence="false" stretchy="false">{</mml:mo><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mi>&#x03C8;</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>.</mml:mo></mml:math></disp-formula></p>
<p>Each UAV carries an omnidirectional sensing disc of radius <inline-formula id="ieqn-52"><mml:math id="mml-ieqn-52"><mml:msub><mml:mi>R</mml:mi><mml:mrow><mml:mtext>sen</mml:mtext></mml:mrow></mml:msub><mml:mo>&#x003E;</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula>. A grid cell <inline-formula id="ieqn-53"><mml:math id="mml-ieqn-53"><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> is classified as fully observed by UAV <inline-formula id="ieqn-54"><mml:math id="mml-ieqn-54"><mml:mi>u</mml:mi></mml:math></inline-formula> at time <inline-formula id="ieqn-55"><mml:math id="mml-ieqn-55"><mml:mi>t</mml:mi></mml:math></inline-formula> if all four vertices <inline-formula id="ieqn-56"><mml:math id="mml-ieqn-56"><mml:mi mathvariant="normal">&#x2202;</mml:mi><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> lie within the disc centered at <inline-formula id="ieqn-57"><mml:math id="mml-ieqn-57"><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula>:
<disp-formula id="eqn-7"><label>(7)</label><mml:math id="mml-eqn-7" display="block"><mml:msub><mml:mrow><mml:mtext>Cov</mml:mtext></mml:mrow><mml:mi>u</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mtable columnalign="left left" rowspacing=".2em" columnspacing="1em" displaystyle="false"><mml:mtr><mml:mtd><mml:mn>1</mml:mn><mml:mo>,</mml:mo></mml:mtd><mml:mtd><mml:mstyle displaystyle="true" scriptlevel="0"><mml:munder><mml:mo movablelimits="true" form="prefix">max</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msup><mml:mi>x</mml:mi><mml:mrow><mml:mi mathvariant="normal">&#x2032;</mml:mi></mml:mrow></mml:msup><mml:mo>,</mml:mo><mml:msup><mml:mi>y</mml:mi><mml:mrow><mml:mi mathvariant="normal">&#x2032;</mml:mi></mml:mrow></mml:msup><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mi mathvariant="normal">&#x2202;</mml:mi><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:munder><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo symmetric="true" maxsize="1.2em" minsize="1.2em">&#x2016;</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2212;</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:msup><mml:mi>x</mml:mi><mml:mrow><mml:mi mathvariant="normal">&#x2032;</mml:mi></mml:mrow></mml:msup><mml:mo>,</mml:mo><mml:msup><mml:mi>y</mml:mi><mml:mrow><mml:mi mathvariant="normal">&#x2032;</mml:mi></mml:mrow></mml:msup><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo symmetric="true" maxsize="1.2em" minsize="1.2em">&#x2016;</mml:mo></mml:mrow></mml:mstyle><mml:mo>&#x2264;</mml:mo><mml:msub><mml:mi>R</mml:mi><mml:mrow><mml:mrow><mml:mtext>sen</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo></mml:mstyle></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn><mml:mo>,</mml:mo></mml:mtd><mml:mtd><mml:mrow><mml:mtext>otherwise</mml:mtext></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable><mml:mo fence="true" stretchy="true" symmetric="true"></mml:mo></mml:mrow></mml:math></disp-formula></p>
<p>The instantaneous covered set is defined by
<disp-formula id="eqn-8"><label>(8)</label><mml:math id="mml-eqn-8" display="block"><mml:msub><mml:mrow><mml:mi>&#x1D4B1;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mo>:</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:msub><mml:mrow><mml:mtext>Cov</mml:mtext></mml:mrow><mml:mi>u</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2265;</mml:mo><mml:mn>1</mml:mn><mml:mo>}</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:math></disp-formula>where the coverage ratio at time <inline-formula id="ieqn-58"><mml:math id="mml-ieqn-58"><mml:mi>t</mml:mi></mml:math></inline-formula> is given by <inline-formula id="ieqn-59"><mml:math id="mml-ieqn-59"><mml:mtext>CovRate</mml:mtext><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:msub><mml:mrow><mml:mi>&#x1D4B1;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:math></inline-formula>. The cumulative exploration status of a cell is recorded by
<disp-formula id="eqn-9"><label>(9)</label><mml:math id="mml-eqn-9" display="block"><mml:mrow><mml:mtext>Visited</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mi mathvariant="double-struck">I</mml:mi></mml:mrow><mml:mrow><mml:mo>{</mml:mo><mml:mi mathvariant="normal">&#x2203;</mml:mi><mml:mspace width="thinmathspace" /><mml:mi>&#x03C4;</mml:mi><mml:mo>&#x2264;</mml:mo><mml:mi>t</mml:mi><mml:mo>:</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:msub><mml:mrow><mml:mtext>Cov</mml:mtext></mml:mrow><mml:mi>u</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>&#x03C4;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2265;</mml:mo><mml:mn>1</mml:mn><mml:mo>}</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:math></disp-formula></p>
<p>Let <inline-formula id="ieqn-60"><mml:math id="mml-ieqn-60"><mml:msubsup><mml:mi>Z</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula> denote the measurement field collected by UAV <inline-formula id="ieqn-61"><mml:math id="mml-ieqn-61"><mml:mi>u</mml:mi></mml:math></inline-formula> at time <inline-formula id="ieqn-62"><mml:math id="mml-ieqn-62"><mml:mi>t</mml:mi></mml:math></inline-formula>. For any covered cell <inline-formula id="ieqn-63"><mml:math id="mml-ieqn-63"><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> with <inline-formula id="ieqn-64"><mml:math id="mml-ieqn-64"><mml:msub><mml:mtext>Cov</mml:mtext><mml:mi>u</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:math></inline-formula>, the binary detector on UAV <inline-formula id="ieqn-65"><mml:math id="mml-ieqn-65"><mml:mi>u</mml:mi></mml:math></inline-formula> obeys
<disp-formula id="eqn-10"><label>(10)</label><mml:math id="mml-eqn-10" display="block"><mml:mrow><mml:mi mathvariant="double-struck">P</mml:mi></mml:mrow><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>Z</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mspace width="thinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">|</mml:mo></mml:mrow></mml:mstyle><mml:mspace width="thinmathspace" /><mml:msub><mml:mi>T</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>=</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mtable columnalign="left left" rowspacing=".2em" columnspacing="1em" displaystyle="false"><mml:mtr><mml:mtd><mml:msubsup><mml:mi>P</mml:mi><mml:mi>D</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo></mml:mtd><mml:mtd><mml:mrow><mml:mtext>if&#xA0;</mml:mtext></mml:mrow><mml:msub><mml:mi>T</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msubsup><mml:mi>P</mml:mi><mml:mrow><mml:mi>F</mml:mi><mml:mi>A</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo></mml:mtd><mml:mtd><mml:mrow><mml:mtext>if&#xA0;</mml:mtext></mml:mrow><mml:msub><mml:mi>T</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable><mml:mo fence="true" stretchy="true" symmetric="true"></mml:mo></mml:mrow></mml:math></disp-formula>where <inline-formula id="ieqn-66"><mml:math id="mml-ieqn-66"><mml:msubsup><mml:mi>Z</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo fence="false" stretchy="false">}</mml:mo></mml:math></inline-formula> is the binary measurement at cell <inline-formula id="ieqn-67"><mml:math id="mml-ieqn-67"><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> and time <inline-formula id="ieqn-68"><mml:math id="mml-ieqn-68"><mml:mi>t</mml:mi></mml:math></inline-formula>, <inline-formula id="ieqn-69"><mml:math id="mml-ieqn-69"><mml:msub><mml:mi>T</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>&#x2208;</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo fence="false" stretchy="false">}</mml:mo></mml:math></inline-formula> denotes the hidden occupancy of cell <inline-formula id="ieqn-70"><mml:math id="mml-ieqn-70"><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula>, and <inline-formula id="ieqn-71"><mml:math id="mml-ieqn-71"><mml:msubsup><mml:mi>P</mml:mi><mml:mi>D</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula>, <inline-formula id="ieqn-72"><mml:math id="mml-ieqn-72"><mml:msubsup><mml:mi>P</mml:mi><mml:mrow><mml:mi>F</mml:mi><mml:mi>A</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula> are the detection and false&#x2013;alarm probabilities of UAV <inline-formula id="ieqn-73"><mml:math id="mml-ieqn-73"><mml:mi>u</mml:mi></mml:math></inline-formula>, respectively. The set of UAVs that cover <inline-formula id="ieqn-74"><mml:math id="mml-ieqn-74"><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> at time <inline-formula id="ieqn-75"><mml:math id="mml-ieqn-75"><mml:mi>t</mml:mi></mml:math></inline-formula> is
<disp-formula id="eqn-11"><label>(11)</label><mml:math id="mml-eqn-11" display="block"><mml:msub><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">{</mml:mo></mml:mrow></mml:mstyle><mml:mi>u</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow><mml:mo>:</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msub><mml:mrow><mml:mtext>Cov</mml:mtext></mml:mrow><mml:mi>u</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">}</mml:mo></mml:mrow></mml:mstyle><mml:mo>.</mml:mo></mml:math></disp-formula></p>
<p>Under conditional independence given <inline-formula id="ieqn-76"><mml:math id="mml-ieqn-76"><mml:msub><mml:mi>T</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>, the joint likelihoods for the measurements on <inline-formula id="ieqn-77"><mml:math id="mml-ieqn-77"><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> at time <inline-formula id="ieqn-78"><mml:math id="mml-ieqn-78"><mml:mi>t</mml:mi></mml:math></inline-formula> are
<disp-formula id="eqn-12"><label>(12)</label><mml:math id="mml-eqn-12" display="block"><mml:mrow><mml:mo>{</mml:mo><mml:mtable columnalign="left" rowspacing="4pt" columnspacing="1em"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mn>1</mml:mn></mml:msub><mml:mo>=</mml:mo><mml:munder><mml:mo movablelimits="false">&#x220F;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>&#x2208;</mml:mo><mml:msub><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:munder><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>P</mml:mi><mml:mi>D</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:msup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mrow><mml:msubsup><mml:mi>Z</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mn>1</mml:mn><mml:mo>&#x2212;</mml:mo><mml:msubsup><mml:mi>P</mml:mi><mml:mi>D</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:msup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mrow><mml:mn>1</mml:mn><mml:mo>&#x2212;</mml:mo><mml:msubsup><mml:mi>Z</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup><mml:mo>,</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo>=</mml:mo><mml:munder><mml:mo movablelimits="false">&#x220F;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>&#x2208;</mml:mo><mml:msub><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:munder><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>P</mml:mi><mml:mrow><mml:mi>F</mml:mi><mml:mi>A</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:msup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mrow><mml:msubsup><mml:mi>Z</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mn>1</mml:mn><mml:mo>&#x2212;</mml:mo><mml:msubsup><mml:mi>P</mml:mi><mml:mrow><mml:mi>F</mml:mi><mml:mi>A</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:msup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mrow><mml:mn>1</mml:mn><mml:mo>&#x2212;</mml:mo><mml:msubsup><mml:mi>Z</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable><mml:mo fence="true" stretchy="true" symmetric="true"></mml:mo></mml:mrow></mml:math></disp-formula></p>
<p>The cellwise Bayesian update is then
<disp-formula id="eqn-13"><label>(13)</label><mml:math id="mml-eqn-13" display="block"><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mtable columnalign="left left" rowspacing=".2em" columnspacing="1em" displaystyle="false"><mml:mtr><mml:mtd><mml:mstyle displaystyle="true" scriptlevel="0"><mml:mfrac><mml:mrow><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mspace width="thinmathspace" /><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mn>1</mml:mn></mml:msub></mml:mrow><mml:mrow><mml:mspace width="thinmathspace" /><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mspace width="thinmathspace" /><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mn>1</mml:mn></mml:msub><mml:mo>+</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mn>1</mml:mn><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mspace width="thinmathspace" /><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mspace width="thinmathspace" /></mml:mrow></mml:mfrac></mml:mstyle><mml:mo>,</mml:mo></mml:mtd><mml:mtd><mml:msub><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2260;</mml:mo><mml:mi>&#x2205;</mml:mi><mml:mo>,</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo></mml:mtd><mml:mtd><mml:msub><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mi>&#x2205;</mml:mi><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable><mml:mo fence="true" stretchy="true" symmetric="true"></mml:mo></mml:mrow></mml:math></disp-formula></p>
<p>The transition kernel induced by the deterministic kinematics and the cellwise Bayesian update is
<disp-formula id="eqn-14"><label>(14)</label><mml:math id="mml-eqn-14" display="block"><mml:mrow><mml:mi mathvariant="double-struck">P</mml:mi></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>&#x2223;</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mtext mathvariant="bold">a</mml:mtext></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mspace width="negativethinmathspace" /><mml:munderover><mml:mo>&#x220F;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:mi>&#x03B4;</mml:mi><mml:mspace width="thinmathspace" /><mml:mspace width="thinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2212;</mml:mo><mml:msubsup><mml:mrow><mml:mtext mathvariant="bold">p</mml:mtext></mml:mrow><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2212;</mml:mo><mml:mi>v</mml:mi><mml:mi mathvariant="normal">&#x0394;</mml:mi><mml:mi>t</mml:mi><mml:mo stretchy="false">[</mml:mo><mml:mi>cos</mml:mi><mml:mo>&#x2061;</mml:mo><mml:msubsup><mml:mi>&#x03C8;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mi>sin</mml:mi><mml:mo>&#x2061;</mml:mo><mml:msubsup><mml:mi>&#x03C8;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:msup><mml:mo stretchy="false">]</mml:mo><mml:mi mathvariant="normal">&#x22A4;</mml:mi></mml:msup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mspace width="negativethinmathspace" /><mml:mspace width="negativethinmathspace" /><mml:munder><mml:mo>&#x220F;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow></mml:mrow></mml:munder><mml:mspace width="negativethinmathspace" /><mml:mspace width="negativethinmathspace" /><mml:mi>&#x03B4;</mml:mi><mml:mspace width="thinmathspace" /><mml:mspace width="thinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2212;</mml:mo><mml:mrow><mml:mtext>Bayes</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:msub><mml:mi>Z</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>.</mml:mo></mml:math></disp-formula></p>
<p>The team reward adopts a scale-calibrated saturated form, first define analytic normalizers
<disp-formula id="eqn-15"><label>(15)</label><mml:math id="mml-eqn-15" display="block"><mml:msub><mml:mi>U</mml:mi><mml:mrow><mml:mo movablelimits="true" form="prefix">max</mml:mo></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mi>&#x03C0;</mml:mi><mml:msubsup><mml:mi>R</mml:mi><mml:mrow><mml:mrow><mml:mtext>sen</mml:mtext></mml:mrow></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msub><mml:mi>E</mml:mi><mml:mrow><mml:mo movablelimits="true" form="prefix">max</mml:mo></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mi>c</mml:mi><mml:mn>0</mml:mn></mml:msub><mml:mi>N</mml:mi><mml:mi mathvariant="normal">&#x0394;</mml:mi><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:msub><mml:mi>c</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub><mml:mfrac><mml:mi>&#x03C0;</mml:mi><mml:mn>180</mml:mn></mml:mfrac><mml:mi>N</mml:mi><mml:mi>&#x03B1;</mml:mi><mml:mo>,</mml:mo></mml:math></disp-formula>with fixed coefficients <inline-formula id="ieqn-79"><mml:math id="mml-ieqn-79"><mml:msub><mml:mi>c</mml:mi><mml:mn>0</mml:mn></mml:msub><mml:mo>=</mml:mo><mml:mn>1.0</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:msup><mml:mn>10</mml:mn><mml:mrow><mml:mo>&#x2212;</mml:mo><mml:mn>3</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula> and <inline-formula id="ieqn-80"><mml:math id="mml-ieqn-80"><mml:msub><mml:mi>c</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mn>1.0</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:msup><mml:mn>10</mml:mn><mml:mrow><mml:mo>&#x2212;</mml:mo><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula>, and construct dimensionless components
<disp-formula id="eqn-16"><label>(16)</label><mml:math id="mml-eqn-16" display="block"><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mi>H</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2212;</mml:mo><mml:mi>H</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mrow><mml:mo>+</mml:mo></mml:mrow><mml:mn>1</mml:mn><mml:mo stretchy="false">)</mml:mo><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:msub><mml:mi>U</mml:mi><mml:mrow><mml:mo movablelimits="true" form="prefix">max</mml:mo></mml:mrow></mml:msub><mml:mi>ln</mml:mi><mml:mo>&#x2061;</mml:mo><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mfrac><mml:msub><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:msub><mml:mi>E</mml:mi><mml:mrow><mml:mo movablelimits="true" form="prefix">max</mml:mo></mml:mrow></mml:msub></mml:mfrac><mml:mo>.</mml:mo></mml:math></disp-formula></p>
<p>The saturated team reward is then
<disp-formula id="eqn-17"><label>(17)</label><mml:math id="mml-eqn-17" display="block"><mml:msub><mml:mi>R</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mspace width="thinmathspace" /><mml:mi>tanh</mml:mi><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>+</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mspace width="thinmathspace" /><mml:mi>tanh</mml:mi><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mspace width="thinmathspace" /><mml:mi>tanh</mml:mi><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msub><mml:mrow><mml:mover><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow><mml:mo>&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>where <inline-formula id="ieqn-81"><mml:math id="mml-ieqn-81"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula>, <inline-formula id="ieqn-82"><mml:math id="mml-ieqn-82"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula>, and <inline-formula id="ieqn-83"><mml:math id="mml-ieqn-83"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula> are positive weighting coefficients that control the relative importance of information gain, coverage efficiency, and energy&#x2013;time cost, respectively.</p>
<p>The reward components are defined as follows. The entropy of the belief field is
<disp-formula id="eqn-18"><label>(18)</label><mml:math id="mml-eqn-18" display="block"><mml:mi>H</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow></mml:mrow></mml:munder><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">[</mml:mo></mml:mrow></mml:mstyle><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mi>ln</mml:mi><mml:mo>&#x2061;</mml:mo><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2212;</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mn>1</mml:mn><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mi>ln</mml:mi><mml:mo>&#x2061;</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mn>1</mml:mn><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">]</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>the coverage efficiency term is
<disp-formula id="eqn-19"><label>(19)</label><mml:math id="mml-eqn-19" display="block"><mml:msub><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow></mml:mrow></mml:mfrac><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow></mml:mrow></mml:munder><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mspace width="thinmathspace" /><mml:mi mathvariant="normal">&#x0394;</mml:mi><mml:msub><mml:mi>V</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x22C5;</mml:mo><mml:mfrac><mml:mrow><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow></mml:mrow></mml:munder><mml:mrow><mml:mi mathvariant="double-struck">I</mml:mi></mml:mrow><mml:mspace width="negativethinmathspace" /><mml:mrow><mml:mo>{</mml:mo><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:msub><mml:mrow><mml:mtext>Cov</mml:mtext></mml:mrow><mml:mi>u</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2265;</mml:mo><mml:mn>1</mml:mn><mml:mo>}</mml:mo></mml:mrow><mml:mspace width="thinmathspace" /><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:mo movablelimits="true" form="prefix">max</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">{</mml:mo></mml:mrow></mml:mstyle><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow></mml:mrow></mml:munder><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:msub><mml:mrow><mml:mtext>Cov</mml:mtext></mml:mrow><mml:mi>u</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mspace width="thinmathspace" /><mml:msub><mml:mi>b</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">}</mml:mo></mml:mrow></mml:mstyle></mml:mrow></mml:mfrac><mml:mo>,</mml:mo></mml:math></disp-formula>where the energy&#x2013;time cost term is defined as
<disp-formula id="eqn-20"><label>(20)</label><mml:math id="mml-eqn-20" display="block"><mml:msub><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mi>c</mml:mi><mml:mn>0</mml:mn></mml:msub><mml:mspace width="thinmathspace" /><mml:mi>N</mml:mi><mml:mspace width="thinmathspace" /><mml:mi mathvariant="normal">&#x0394;</mml:mi><mml:mi>t</mml:mi><mml:mtext>&#x00A0;</mml:mtext><mml:mo>+</mml:mo><mml:mtext>&#x00A0;</mml:mtext><mml:msub><mml:mi>c</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub><mml:mspace width="thinmathspace" /><mml:mfrac><mml:mi>&#x03C0;</mml:mi><mml:mn>180</mml:mn></mml:mfrac><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:math></disp-formula>with <inline-formula id="ieqn-84"><mml:math id="mml-ieqn-84"><mml:mi mathvariant="normal">&#x0394;</mml:mi><mml:msub><mml:mi>V</mml:mi><mml:mrow><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mtext>Visited</mml:mtext><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2212;</mml:mo><mml:mtext>Visited</mml:mtext><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>t</mml:mi><mml:mspace width="negativethinmathspace" /><mml:mo>&#x2212;</mml:mo><mml:mspace width="negativethinmathspace" /><mml:mn>1</mml:mn><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> denoting the incremental visitation indicator at cell <inline-formula id="ieqn-85"><mml:math id="mml-ieqn-85"><mml:mo stretchy="false">(</mml:mo><mml:mi>x</mml:mi><mml:mo>,</mml:mo><mml:mi>y</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula>, and <inline-formula id="ieqn-86"><mml:math id="mml-ieqn-86"><mml:mrow><mml:mi mathvariant="double-struck">I</mml:mi></mml:mrow><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mo>&#x22C5;</mml:mo><mml:mo fence="false" stretchy="false">}</mml:mo></mml:math></inline-formula> the indicator function. The coefficients <inline-formula id="ieqn-87"><mml:math id="mml-ieqn-87"><mml:msub><mml:mi>c</mml:mi><mml:mn>0</mml:mn></mml:msub><mml:mo>&#x003E;</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula> and <inline-formula id="ieqn-88"><mml:math id="mml-ieqn-88"><mml:msub><mml:mi>c</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub><mml:mo>&#x003E;</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula> control the time-related and turning-related energy costs, respectively.</p>
<p>The planning objective is the discounted return
<disp-formula id="eqn-21"><label>(21)</label><mml:math id="mml-eqn-21" display="block"><mml:mi>J</mml:mi><mml:mo>=</mml:mo><mml:mrow><mml:mi mathvariant="double-struck">E</mml:mi></mml:mrow><mml:mspace width="negativethinmathspace" /><mml:mrow><mml:mo>[</mml:mo><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mi mathvariant="normal">&#x221E;</mml:mi></mml:munderover><mml:msup><mml:mi>&#x03B3;</mml:mi><mml:mi>t</mml:mi></mml:msup><mml:msub><mml:mi>R</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>]</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:mi>&#x03B3;</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo></mml:math></disp-formula>which fully specifies the discounted MDP on the state <inline-formula id="ieqn-89"><mml:math id="mml-ieqn-89"><mml:msub><mml:mi>S</mml:mi><mml:mi>t</mml:mi></mml:msub></mml:math></inline-formula> and underpins the two-timescale latent&#x2013;skill policy in <xref ref-type="sec" rid="s3_2">Section 3.2</xref>.</p>
</sec>
<sec id="s3_2">
<label>3.2</label>
<title>Segment-Conditioned Latent-Intent Policy Parameterization</title>
<p>On the discounted MDP of <xref ref-type="sec" rid="s3_1">Section 3.1</xref>, each agent is equipped with a slow latent skill that governs behaviour over a fixed segment of <italic>K</italic> steps, while fast per-step actions are generated conditionally on the current skill and an autoregressive hidden state.</p>
<p>Let segment boundaries be <inline-formula id="ieqn-90"><mml:math id="mml-ieqn-90"><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mi>k</mml:mi><mml:mi>K</mml:mi></mml:math></inline-formula> with <inline-formula id="ieqn-91"><mml:math id="mml-ieqn-91"><mml:mi>K</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi mathvariant="double-struck">N</mml:mi></mml:mrow></mml:math></inline-formula>. At each segment start <inline-formula id="ieqn-92"><mml:math id="mml-ieqn-92"><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:math></inline-formula>, agent <inline-formula id="ieqn-93"><mml:math id="mml-ieqn-93"><mml:mi>u</mml:mi></mml:math></inline-formula> samples a categorical latent skill from a skill head conditioned on a summary of global and local information,
<disp-formula id="eqn-22"><label>(22)</label><mml:math id="mml-eqn-22" display="block"><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x223C;</mml:mo><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03D5;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mi>z</mml:mi><mml:mo>&#x2223;</mml:mo><mml:msubsup><mml:mi>G</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msubsup><mml:mi>z</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2261;</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo></mml:math></disp-formula>where <inline-formula id="ieqn-94"><mml:math id="mml-ieqn-94"><mml:mi>z</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x2026;</mml:mo><mml:mo>,</mml:mo><mml:mi>M</mml:mi><mml:mo fence="false" stretchy="false">}</mml:mo></mml:math></inline-formula> denotes the discrete intent index, and the skill remains fixed within the current segment <inline-formula id="ieqn-95"><mml:math id="mml-ieqn-95"><mml:mi>t</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mo stretchy="false">[</mml:mo><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:mspace width="thinmathspace" /><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>+</mml:mo><mml:mi>K</mml:mi><mml:mo>&#x2212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy="false">]</mml:mo></mml:math></inline-formula>. The summary <inline-formula id="ieqn-96"><mml:math id="mml-ieqn-96"><mml:msubsup><mml:mi>G</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula> aggregates a spatial feature of the belief field with local encodings and team statistics,
<disp-formula id="eqn-23"><label>(23)</label><mml:math id="mml-eqn-23" display="block"><mml:msubsup><mml:mi>G</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>=</mml:mo><mml:mrow><mml:mtext>Agg</mml:mtext></mml:mrow><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mrow><mml:mtext>map</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:mspace width="thinmathspace" /><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mrow><mml:mtext>loc</mml:mtext></mml:mrow><mml:mo>,</mml:mo><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:mspace width="thinmathspace" /><mml:mo fence="false" stretchy="false">{</mml:mo><mml:msubsup><mml:mi>p</mml:mi><mml:mi>t</mml:mi><mml:mi>v</mml:mi></mml:msubsup><mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mrow><mml:mi>v</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>where <inline-formula id="ieqn-97"><mml:math id="mml-ieqn-97"><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mtext>map</mml:mtext></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:mtext>CNN</mml:mtext><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:mi>b</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle></mml:math></inline-formula> encodes the global belief map, and <inline-formula id="ieqn-98"><mml:math id="mml-ieqn-98"><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mtext>loc</mml:mtext><mml:mo>,</mml:mo><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:mtext>enc</mml:mtext><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>o</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> encodes the local observation of UAV <inline-formula id="ieqn-99"><mml:math id="mml-ieqn-99"><mml:mi>u</mml:mi></mml:math></inline-formula>. <inline-formula id="ieqn-100"><mml:math id="mml-ieqn-100"><mml:mtext>Agg</mml:mtext><mml:mo stretchy="false">(</mml:mo><mml:mo>&#x22C5;</mml:mo><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> is a permutation-invariant aggregation function over team states, and <inline-formula id="ieqn-101"><mml:math id="mml-ieqn-101"><mml:mtext>Emb</mml:mtext><mml:mo stretchy="false">(</mml:mo><mml:mi>z</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2208;</mml:mo><mml:msup><mml:mrow><mml:mi mathvariant="double-struck">R</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mi>d</mml:mi><mml:mi>z</mml:mi></mml:msub></mml:mrow></mml:msup></mml:math></inline-formula> denotes a learnable embedding associated with intent <inline-formula id="ieqn-102"><mml:math id="mml-ieqn-102"><mml:mi>z</mml:mi></mml:math></inline-formula>.</p>
<p>For each agent <inline-formula id="ieqn-103"><mml:math id="mml-ieqn-103"><mml:mi>u</mml:mi></mml:math></inline-formula>, a hidden state evolves within the segment via a GRU driven by local features and the current skill embedding,
<disp-formula id="eqn-24"><label>(24)</label><mml:math id="mml-eqn-24" display="block"><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mtext>GRU</mml:mtext></mml:mrow><mml:mi>&#x03C9;</mml:mi></mml:msub><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>h</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>&#x2212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">[</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mrow><mml:mtext>loc</mml:mtext></mml:mrow><mml:mo>,</mml:mo><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mtext>&#xA0;</mml:mtext><mml:mo>&#x2295;</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mrow><mml:mtext>Emb</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">]</mml:mo></mml:mrow></mml:mstyle><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>with parameters <inline-formula id="ieqn-104"><mml:math id="mml-ieqn-104"><mml:mi>&#x03C9;</mml:mi></mml:math></inline-formula> and concatenation <inline-formula id="ieqn-105"><mml:math id="mml-ieqn-105"><mml:mo>&#x2295;</mml:mo></mml:math></inline-formula>. The resulting state, coupled with the belief feature, parameterizes the action head:
<disp-formula id="eqn-25"><label>(25)</label><mml:math id="mml-eqn-25" display="block"><mml:msubsup><mml:mi>&#x2113;</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mtext>MLP</mml:mtext></mml:mrow><mml:mi>&#x03B8;</mml:mi></mml:msub><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">(</mml:mo></mml:mrow></mml:mstyle><mml:mo stretchy="false">[</mml:mo><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mtext>&#xA0;</mml:mtext><mml:mo>&#x2295;</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mrow><mml:mtext>map</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mo stretchy="false">]</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>&#x2208;</mml:mo><mml:msup><mml:mrow><mml:mi mathvariant="double-struck">R</mml:mi></mml:mrow><mml:mrow><mml:mn>3</mml:mn></mml:mrow></mml:msup><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03B8;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>=</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x2223;</mml:mo><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mrow><mml:mtext>Emb</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mrow><mml:mtext>map</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mi>exp</mml:mi><mml:mo>&#x2061;</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>&#x2113;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>,</mml:mo><mml:mi>k</mml:mi></mml:mrow><mml:mrow><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:msup><mml:mi>k</mml:mi><mml:mrow><mml:mi mathvariant="normal">&#x2032;</mml:mi></mml:mrow></mml:msup><mml:mo>&#x2208;</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mo>&#x2212;</mml:mo><mml:mi>&#x03B1;</mml:mi><mml:mo>,</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mo>+</mml:mo><mml:mi>&#x03B1;</mml:mi><mml:mo fence="false" stretchy="false">}</mml:mo></mml:mrow></mml:munder><mml:mi>exp</mml:mi><mml:mo>&#x2061;</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>&#x2113;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>,</mml:mo><mml:msup><mml:mi>k</mml:mi><mml:mrow><mml:mi mathvariant="normal">&#x2032;</mml:mi></mml:mrow></mml:msup></mml:mrow><mml:mrow><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mfrac><mml:mo>,</mml:mo></mml:math></disp-formula>with parameters <inline-formula id="ieqn-106"><mml:math id="mml-ieqn-106"><mml:mi>&#x03B8;</mml:mi></mml:math></inline-formula>.</p>
<p>Collecting parameters <inline-formula id="ieqn-107"><mml:math id="mml-ieqn-107"><mml:mi mathvariant="normal">&#x0398;</mml:mi><mml:mo>=</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mi>&#x03D5;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x03B8;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x03C9;</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula>, the joint policy over a segment factorizes into skill selections at <inline-formula id="ieqn-108"><mml:math id="mml-ieqn-108"><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:math></inline-formula> and per-step action selections conditioned on the fixed skill and the evolving hidden state,
<disp-formula id="eqn-26"><label>(26)</label><mml:math id="mml-eqn-26" display="block"><mml:msub><mml:mi mathvariant="normal">&#x03A0;</mml:mi><mml:mrow><mml:mi mathvariant="normal">&#x0398;</mml:mi></mml:mrow></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msub><mml:mrow><mml:mtext mathvariant="bold">z</mml:mtext></mml:mrow><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mtext mathvariant="bold">a</mml:mtext></mml:mrow><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>:</mml:mo><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>+</mml:mo><mml:mi>K</mml:mi><mml:mo>&#x2212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>&#x2223;</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>:</mml:mo><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>+</mml:mo><mml:mi>K</mml:mi><mml:mo>&#x2212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>=</mml:mo><mml:munderover><mml:mo>&#x220F;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03D5;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2223;</mml:mo><mml:msubsup><mml:mi>G</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mtext>&#x00A0;</mml:mtext><mml:munderover><mml:mo>&#x220F;</mml:mo><mml:mrow><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>+</mml:mo><mml:mi>K</mml:mi><mml:mo>&#x2212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:munderover><mml:mtext>&#xA0;</mml:mtext><mml:munderover><mml:mo>&#x220F;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03B8;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mspace width="negativethinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2223;</mml:mo><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mrow><mml:mtext>Emb</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mrow><mml:mtext>map</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>where <inline-formula id="ieqn-109"><mml:math id="mml-ieqn-109"><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup></mml:math></inline-formula> evolves according to <xref ref-type="disp-formula" rid="eqn-24">(24)</xref>.</p>
<p>Learning objectives are matched to these timescales. The segment return starting at <inline-formula id="ieqn-110"><mml:math id="mml-ieqn-110"><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:math></inline-formula> is
<disp-formula id="eqn-27"><label>(27)</label><mml:math id="mml-eqn-27" display="block"><mml:msubsup><mml:mi>G</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>K</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>&#x03C4;</mml:mi><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mi>K</mml:mi><mml:mo>&#x2212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:munderover><mml:msup><mml:mi>&#x03B3;</mml:mi><mml:mi>&#x03C4;</mml:mi></mml:msup><mml:msub><mml:mi>R</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub><mml:mo>+</mml:mo><mml:mi>&#x03C4;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo></mml:math></disp-formula>where <inline-formula id="ieqn-111"><mml:math id="mml-ieqn-111"><mml:mi>&#x03B3;</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> is the discount factor, and the stepwise (infinite-horizon) return is given by <inline-formula id="ieqn-112"><mml:math id="mml-ieqn-112"><mml:msub><mml:mi>G</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>&#x03C4;</mml:mi><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mi mathvariant="normal">&#x221E;</mml:mi></mml:mrow></mml:munderover><mml:msup><mml:mi>&#x03B3;</mml:mi><mml:mi>&#x03C4;</mml:mi></mml:msup><mml:msub><mml:mi>R</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mi>&#x03C4;</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>. A centralized value function on the belief state augmented by latent and hidden summaries is introduced as
<disp-formula id="eqn-28"><label>(28)</label><mml:math id="mml-eqn-28" display="block"><mml:msub><mml:mi mathvariant="normal">&#x039E;</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msub><mml:mi>S</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mo fence="false" stretchy="false">{</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mo fence="false" stretchy="false">{</mml:mo><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msub><mml:mi>V</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi mathvariant="normal">&#x039E;</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2248;</mml:mo><mml:mrow><mml:mi mathvariant="double-struck">E</mml:mi></mml:mrow><mml:mspace width="thinmathspace" /><mml:mspace width="thinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">[</mml:mo></mml:mrow></mml:mstyle><mml:msub><mml:mi>G</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>&#x2223;</mml:mo><mml:msub><mml:mi mathvariant="normal">&#x039E;</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">]</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>which supports low-variance advantage estimates at both levels. With temporal-difference residuals and generalized advantage estimation,
<disp-formula id="eqn-29"><label>(29)</label><mml:math id="mml-eqn-29" display="block"><mml:msub><mml:mi>&#x03B4;</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mi>R</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo>+</mml:mo><mml:mi>&#x03B3;</mml:mi><mml:msub><mml:mi>V</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi mathvariant="normal">&#x039E;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mi>V</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi mathvariant="normal">&#x039E;</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msub><mml:mrow><mml:mover><mml:mi>A</mml:mi><mml:mo stretchy="false">&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>&#x2113;</mml:mi><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mi mathvariant="normal">&#x221E;</mml:mi></mml:mrow></mml:munderover><mml:mo stretchy="false">(</mml:mo><mml:mi>&#x03B3;</mml:mi><mml:mi>&#x03BB;</mml:mi><mml:msup><mml:mo stretchy="false">)</mml:mo><mml:mi>&#x2113;</mml:mi></mml:msup><mml:mspace width="thinmathspace" /><mml:msub><mml:mi>&#x03B4;</mml:mi><mml:mrow><mml:mi>t</mml:mi><mml:mo>+</mml:mo><mml:mi>&#x2113;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mspace width="1em" /><mml:mi>&#x03BB;</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mo stretchy="false">[</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy="false">]</mml:mo><mml:mo>,</mml:mo></mml:math></disp-formula>the segment-level advantage at <inline-formula id="ieqn-113"><mml:math id="mml-ieqn-113"><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:math></inline-formula> is
<disp-formula id="eqn-30"><label>(30)</label><mml:math id="mml-eqn-30" display="block"><mml:msubsup><mml:mrow><mml:mover><mml:mi>A</mml:mi><mml:mo stretchy="false">&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mrow><mml:mtext>skill</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:msubsup><mml:mi>G</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>K</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mrow><mml:mover><mml:mi>b</mml:mi><mml:mo stretchy="false">&#x00AF;</mml:mo></mml:mover></mml:mrow><mml:mi>&#x03C6;</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi mathvariant="normal">&#x03A5;</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msub><mml:mi mathvariant="normal">&#x03A5;</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msub><mml:mi>S</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:msubsup><mml:mi>G</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mrow><mml:mi>&#x1D4B0;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>where <inline-formula id="ieqn-114"><mml:math id="mml-ieqn-114"><mml:msub><mml:mrow><mml:mover><mml:mi>b</mml:mi><mml:mo stretchy="false">&#x00AF;</mml:mo></mml:mover></mml:mrow><mml:mi>&#x03C6;</mml:mi></mml:msub></mml:math></inline-formula> is a <italic>K</italic>-step baseline with parameters <inline-formula id="ieqn-115"><mml:math id="mml-ieqn-115"><mml:mi>&#x03C6;</mml:mi></mml:math></inline-formula>.</p>
<p>Optimization is carried out by proximal policy updates at both timescales. For the action head, define the probability ratio
<disp-formula id="eqn-31"><label>(31)</label><mml:math id="mml-eqn-31" display="block"><mml:msubsup><mml:mi>r</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:mi>&#x03B8;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03B8;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2223;</mml:mo><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mrow><mml:mtext>Emb</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mrow><mml:mtext>map</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mrow><mml:msub><mml:mi>&#x03B8;</mml:mi><mml:mrow><mml:mrow><mml:mtext>old</mml:mtext></mml:mrow></mml:mrow></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2223;</mml:mo><mml:msubsup><mml:mi>h</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mrow><mml:mtext>Emb</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:msubsup><mml:mi>g</mml:mi><mml:mi>t</mml:mi><mml:mrow><mml:mrow><mml:mtext>map</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mfrac><mml:mo>,</mml:mo></mml:math></disp-formula>and minimize the clipped surrogate aggregated over agents,
<disp-formula id="eqn-32"><label>(32)</label><mml:math id="mml-eqn-32" display="block"><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mtext>PPO-act</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>&#x03B8;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x03C8;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mo>&#x2212;</mml:mo><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:mrow><mml:mi mathvariant="double-struck">E</mml:mi></mml:mrow><mml:mspace width="thinmathspace" /><mml:mspace width="thinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">[</mml:mo></mml:mrow></mml:mstyle><mml:mo movablelimits="true" form="prefix">min</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>r</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:msub><mml:mrow><mml:mover><mml:mi>A</mml:mi><mml:mo stretchy="false">&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mrow><mml:mtext>clip</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>r</mml:mi><mml:mi>t</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x00B1;</mml:mo><mml:mi>&#x03F5;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:msub><mml:mrow><mml:mover><mml:mi>A</mml:mi><mml:mo stretchy="false">&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">]</mml:mo></mml:mrow></mml:mstyle><mml:mo>+</mml:mo><mml:msub><mml:mi>c</mml:mi><mml:mi>v</mml:mi></mml:msub><mml:mspace width="thinmathspace" /><mml:mrow><mml:mi mathvariant="double-struck">E</mml:mi></mml:mrow><mml:mspace width="thinmathspace" /><mml:mspace width="thinmathspace" /><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">[</mml:mo></mml:mrow></mml:mstyle><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi>V</mml:mi><mml:mi>&#x03C8;</mml:mi></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi mathvariant="normal">&#x039E;</mml:mi><mml:mi>t</mml:mi></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mrow><mml:mover><mml:mi>V</mml:mi><mml:mo stretchy="false">&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:msup><mml:mo stretchy="false">)</mml:mo><mml:mn>2</mml:mn></mml:msup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">]</mml:mo></mml:mrow></mml:mstyle><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mi>c</mml:mi><mml:mrow><mml:mrow><mml:mtext>ent</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:mrow><mml:mi mathvariant="double-struck">E</mml:mi></mml:mrow><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">[</mml:mo></mml:mrow></mml:mstyle><mml:mrow><mml:mi>&#x0210B;</mml:mi></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03B8;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">]</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>with clip parameter <inline-formula id="ieqn-116"><mml:math id="mml-ieqn-116"><mml:mi>&#x03F5;</mml:mi><mml:mo>&#x003E;</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula>, weights <inline-formula id="ieqn-117"><mml:math id="mml-ieqn-117"><mml:msub><mml:mi>c</mml:mi><mml:mi>v</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>c</mml:mi><mml:mrow><mml:mtext>ent</mml:mtext></mml:mrow></mml:msub><mml:mo>&#x003E;</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula>, and bootstrap target <inline-formula id="ieqn-118"><mml:math id="mml-ieqn-118"><mml:msub><mml:mrow><mml:mover><mml:mi>V</mml:mi><mml:mo stretchy="false">&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mi>t</mml:mi></mml:msub></mml:math></inline-formula>. For the skill head, the segment&#x2013;start ratio
<disp-formula id="eqn-33"><label>(33)</label><mml:math id="mml-eqn-33" display="block"><mml:msubsup><mml:mi>r</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>z</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:mi>&#x03D5;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03D5;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2223;</mml:mo><mml:msubsup><mml:mi>G</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mrow><mml:msub><mml:mi>&#x03D5;</mml:mi><mml:mrow><mml:mrow><mml:mtext>old</mml:mtext></mml:mrow></mml:mrow></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>z</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo>&#x2223;</mml:mo><mml:msubsup><mml:mi>G</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mfrac></mml:math></disp-formula>leads to the segment&#x2013;level surrogate
<disp-formula id="eqn-34"><label>(34)</label><mml:math id="mml-eqn-34" display="block"><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mtext>PPO-skill</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>&#x03D5;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mo>&#x2212;</mml:mo><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:mrow><mml:mi mathvariant="double-struck">E</mml:mi></mml:mrow><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">[</mml:mo></mml:mrow></mml:mstyle><mml:mo movablelimits="true" form="prefix">min</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">(</mml:mo></mml:mrow></mml:mstyle><mml:msubsup><mml:mi>r</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>z</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mspace width="thinmathspace" /><mml:msubsup><mml:mrow><mml:mover><mml:mi>A</mml:mi><mml:mo stretchy="false">&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mrow><mml:mtext>skill</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mrow><mml:mtext>clip</mml:mtext></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>r</mml:mi><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mi>z</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>,</mml:mo><mml:mi>u</mml:mi></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x00B1;</mml:mo><mml:mi>&#x03F5;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mspace width="thinmathspace" /><mml:msubsup><mml:mrow><mml:mover><mml:mi>A</mml:mi><mml:mo stretchy="false">&#x005E;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:msub><mml:mi>t</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mrow><mml:mtext>skill</mml:mtext></mml:mrow></mml:mrow></mml:msubsup><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">)</mml:mo></mml:mrow></mml:mstyle><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.623em" minsize="1.623em">]</mml:mo></mml:mrow></mml:mstyle><mml:mo>&#x2212;</mml:mo><mml:msub><mml:mi>c</mml:mi><mml:mrow><mml:mrow><mml:mtext>ent-z</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>u</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:mrow><mml:mi mathvariant="double-struck">E</mml:mi></mml:mrow><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">[</mml:mo></mml:mrow></mml:mstyle><mml:mrow><mml:mi>&#x0210B;</mml:mi></mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:msubsup><mml:mi>&#x03C0;</mml:mi><mml:mi>&#x03D5;</mml:mi><mml:mi>u</mml:mi></mml:msubsup><mml:mo stretchy="false">)</mml:mo><mml:mstyle scriptlevel="0"><mml:mrow><mml:mo maxsize="1.2em" minsize="1.2em">]</mml:mo></mml:mrow></mml:mstyle><mml:mo>,</mml:mo></mml:math></disp-formula>with <inline-formula id="ieqn-119"><mml:math id="mml-ieqn-119"><mml:msub><mml:mi>c</mml:mi><mml:mrow><mml:mtext>ent-z</mml:mtext></mml:mrow></mml:msub><mml:mo>&#x003E;</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula>. Combining both timescales yields the overall objective
<disp-formula id="eqn-35"><label>(35)</label><mml:math id="mml-eqn-35" display="block"><mml:munder><mml:mo movablelimits="true" form="prefix">min</mml:mo><mml:mrow><mml:mi>&#x03B8;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x03D5;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x03C8;</mml:mi></mml:mrow></mml:munder><mml:mtext>&#xA0;</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mtext>total</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mtext>PPO-act</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>&#x03B8;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x03C8;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>+</mml:mo><mml:msub><mml:mrow><mml:mi>&#x02112;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mtext>PPO-skill</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>&#x03D5;</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>.</mml:mo></mml:math></disp-formula></p>
</sec>
</sec>
<sec id="s4">
<label>4</label>
<title>Experiments</title>
<sec id="s4_1">
<label>4.1</label>
<title>Parameter Setting</title>
<p>All experiments strictly follow the discounted MDP and sensing specification described above, and adopt the conventional benchmark setting used in prior cooperative search studies [<xref ref-type="bibr" rid="ref-28">28</xref>,<xref ref-type="bibr" rid="ref-34">34</xref>], with stationary targets and ideal, latency-free inter-UAV communication. The basic setup consists of a <inline-formula id="ieqn-120"><mml:math id="mml-ieqn-120"><mml:mn>50</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:mn>50</mml:mn></mml:math></inline-formula> grid with three UAVs and ten stationary targets. The sensor footprint is set to <inline-formula id="ieqn-121"><mml:math id="mml-ieqn-121"><mml:msub><mml:mi>R</mml:mi><mml:mrow><mml:mtext>sen</mml:mtext></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0.8</mml:mn></mml:math></inline-formula> (in grid-cell units), which determines per-step observable area and thereby the rate of uncertainty reduction. Optimization proceeds with PPO using <inline-formula id="ieqn-122"><mml:math id="mml-ieqn-122"><mml:mi>&#x03B3;</mml:mi><mml:mo>=</mml:mo><mml:mn>0.99</mml:mn></mml:math></inline-formula>, <inline-formula id="ieqn-123"><mml:math id="mml-ieqn-123"><mml:mi>&#x03BB;</mml:mi><mml:mo>=</mml:mo><mml:mn>0.95</mml:mn></mml:math></inline-formula>, and clipping coefficient <inline-formula id="ieqn-124"><mml:math id="mml-ieqn-124"><mml:mi>&#x03F5;</mml:mi><mml:mo>=</mml:mo><mml:mn>0.20</mml:mn></mml:math></inline-formula>; actor and critic learning rates are both <inline-formula id="ieqn-125"><mml:math id="mml-ieqn-125"><mml:mn>3</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:msup><mml:mn>10</mml:mn><mml:mrow><mml:mo>&#x2212;</mml:mo><mml:mn>4</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula>. Reward shaping follows the three-parameter saturated design in <xref ref-type="disp-formula" rid="eqn-17">Eq. (17)</xref>, with <inline-formula id="ieqn-126"><mml:math id="mml-ieqn-126"><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mn>1.0</mml:mn><mml:mo>,</mml:mo><mml:mspace width="thinmathspace" /><mml:mn>1.0</mml:mn><mml:mo>,</mml:mo><mml:mspace width="thinmathspace" /><mml:mn>0.1</mml:mn><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> to balance information gain and coverage against energy&#x2013;time penalization on a common scale.</p>
<p>All baseline networks are configured with comparable capacity and are trained using similar batch sizes. For the PPO-based SCLI&#x2013;CMUS, we use on-policy trajectory batches without long-term replay, whereas the MADDPG-based methods rely on a replay buffer of fixed capacity with minibatch sampling.</p>
</sec>
<sec id="s4_2">
<label>4.2</label>
<title>Performance Benchmark</title>
<p><list list-type="simple">
<list-item><label>1.</label><p><bold>DQN method [<xref ref-type="bibr" rid="ref-35">35</xref>]:</bold> Each UAV runs an independent Deep Q-Network on its local observation to estimate action values for the discrete yaw increments. The absence of explicit coordination limits information sharing and typically degrades scalability in larger or cluttered maps.</p></list-item>
<list-item><label>2.</label><p><bold>ACO method [<xref ref-type="bibr" rid="ref-36">36</xref>]:</bold> Ant Colony Optimization governs motion through a pheromone field over the grid, where each UAV behaves as an &#x201C;ant&#x201D; that deposits and follows trails. The induced three-dimensional pheromone tensor encodes heading preferences per cell and per agent.</p></list-item>
<list-item><label>3.</label><p><bold>MADDPG [<xref ref-type="bibr" rid="ref-28">28</xref>]:</bold> A canonical CTDE actor&#x2013;critic baseline on the same Markov decision formulation. It employs decentralized actors with a centralized critic and experience replay. Using identical observation and reward interfaces enables a direct assessment of the gains attributable to hierarchical intent mechanisms and difference-reward shaping.</p></list-item>
<list-item><label>4.</label><p><bold>Maximum-Entropy RL (ME-RL) [<xref ref-type="bibr" rid="ref-23">23</xref>]:</bold> An entropy-regularized extension of MADDPG that incorporates spatial entropy and fuzzy logic to encourage exploration and coordination under communication and energy considerations.</p></list-item>
<list-item><label>5.</label><p><bold>DTH&#x2013;MADDPG [<xref ref-type="bibr" rid="ref-34">34</xref>]:</bold> A hierarchical reinforcement-learning framework with a slow strategic controller and a set of fast decentralized executors. The strategic layer updates intermittently to assign high-level intents (region/waypoint directives) to the team, while the executor layer implements per-UAV control via MADDPG under CTDE with replay.</p></list-item>
</list></p>
</sec>
<sec id="s4_3">
<label>4.3</label>
<title>Evaluation Metrics</title>
<p>We report task performance through spatial coverage and target discovery, and we quantify search efficiency via convergence times to fixed performance levels. Let <inline-formula id="ieqn-127"><mml:math id="mml-ieqn-127"><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow></mml:math></inline-formula> denote the grid, <inline-formula id="ieqn-128"><mml:math id="mml-ieqn-128"><mml:msub><mml:mrow><mml:mi>&#x1D4B1;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mo>&#x2286;</mml:mo><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow></mml:math></inline-formula> the set of cells visited at least once by time <inline-formula id="ieqn-129"><mml:math id="mml-ieqn-129"><mml:mi>t</mml:mi></mml:math></inline-formula>, <inline-formula id="ieqn-130"><mml:math id="mml-ieqn-130"><mml:msub><mml:mi>N</mml:mi><mml:mo>&#x22C6;</mml:mo></mml:msub></mml:math></inline-formula> the total number of targets, and <inline-formula id="ieqn-131"><mml:math id="mml-ieqn-131"><mml:msub><mml:mi>N</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> the number detected by time <inline-formula id="ieqn-132"><mml:math id="mml-ieqn-132"><mml:mi>t</mml:mi></mml:math></inline-formula>. Define the instantaneous fractions
<disp-formula id="eqn-36"><label>(36)</label><mml:math id="mml-eqn-36" display="block"><mml:mi>&#x03BA;</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:msub><mml:mrow><mml:mi>&#x1D4B1;</mml:mi></mml:mrow><mml:mi>t</mml:mi></mml:msub><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x1D49F;</mml:mi></mml:mrow><mml:mrow><mml:mo stretchy="false">|</mml:mo></mml:mrow></mml:mrow></mml:mfrac><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:mi>&#x03B4;</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msub><mml:mi>N</mml:mi><mml:mrow><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msub><mml:mi>N</mml:mi><mml:mo>&#x22C6;</mml:mo></mml:msub></mml:mfrac><mml:mo>.</mml:mo></mml:math></disp-formula></p>
<p>To capture the speed at which operational effectiveness is achieved, introduce coverage and discovery convergence times as first hitting times of prescribed thresholds <inline-formula id="ieqn-133"><mml:math id="mml-ieqn-133"><mml:msub><mml:mi>&#x03C1;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03C1;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub><mml:mo>&#x2208;</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy="false">]</mml:mo></mml:math></inline-formula>:
<disp-formula id="eqn-37"><label>(37)</label><mml:math id="mml-eqn-37" display="block"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mo movablelimits="true" form="prefix">inf</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mi>t</mml:mi><mml:mo>&#x2208;</mml:mo><mml:msub><mml:mrow><mml:mi mathvariant="double-struck">N</mml:mi></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo>:</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>&#x03BA;</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2265;</mml:mo><mml:msub><mml:mi>&#x03C1;</mml:mi><mml:mrow><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mo>,</mml:mo><mml:mspace width="2em" /><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mo movablelimits="true" form="prefix">inf</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mi>t</mml:mi><mml:mo>&#x2208;</mml:mo><mml:msub><mml:mrow><mml:mi mathvariant="double-struck">N</mml:mi></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo>:</mml:mo><mml:mtext>&#xA0;</mml:mtext><mml:mi>&#x03B4;</mml:mi><mml:mo stretchy="false">(</mml:mo><mml:mi>t</mml:mi><mml:mo stretchy="false">)</mml:mo><mml:mo>&#x2265;</mml:mo><mml:msub><mml:mi>&#x03C1;</mml:mi><mml:mrow><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:mrow></mml:msub><mml:mo fence="false" stretchy="false">}</mml:mo><mml:mo>.</mml:mo></mml:math></disp-formula></p>
<p>In all experiments we set <inline-formula id="ieqn-134"><mml:math id="mml-ieqn-134"><mml:msub><mml:mi>&#x03C1;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mi>&#x03C1;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0.85</mml:mn></mml:math></inline-formula>. Smaller values of <inline-formula id="ieqn-135"><mml:math id="mml-ieqn-135"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> and <inline-formula id="ieqn-136"><mml:math id="mml-ieqn-136"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> indicate faster attainment of wide-area exploration and target acquisition, respectively, and correlate with reduced flight time and energy expenditure.</p>
</sec>
<sec id="s4_4">
<label>4.4</label>
<title>Performance Evaluation</title>
<p>This section quantifies learning efficiency and asymptotic performance of the proposed method relative to a strong baseline. <xref ref-type="fig" rid="fig-2">Fig. 2</xref> reports episode&#x2013;wise learning curves, where the horizontal axis denotes the training episode index and the vertical axis denotes the total episode reward computed under the reward design in <xref ref-type="sec" rid="s3_1">Section 3.1</xref>. Curves correspond to the mean over repeated runs, and shaded bands depict variability across runs.</p>
<fig id="fig-2">
<label>Figure 2</label>
<caption>
<title>Episode reward vs. training episode for MADDPG (blue) and SCLI&#x2013;CMUS (red). The horizontal axis denotes episode index; the vertical axis denotes total reward per episode; shaded regions indicate variability across runs. (<bold>a</bold>) <inline-formula id="ieqn-137"><mml:math id="mml-ieqn-137"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>3</mml:mn></mml:math></inline-formula> UAVs, (<bold>b</bold>) <inline-formula id="ieqn-138"><mml:math id="mml-ieqn-138"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>5</mml:mn></mml:math></inline-formula> UAVs, (<bold>c</bold>) <inline-formula id="ieqn-139"><mml:math id="mml-ieqn-139"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>7</mml:mn></mml:math></inline-formula> UAVs</title>
</caption>
<graphic mimetype="image" mime-subtype="tif" xlink:href="CMC_73202-fig-2.tif"/>
</fig>
<p>A consistent pattern emerges across all subplots. The proposed SCLI&#x2013;CMUS (red) rises sharply at early episodes and reaches a high plateau with markedly reduced dispersion, whereas MADDPG (blue) exhibits slower ascent, a lower steady level, and wider fluctuations. This behaviour is most pronounced in <xref ref-type="fig" rid="fig-2">Fig. 2a</xref> with three agents, where SCLI&#x2013;CMUS achieves a visibly higher steady reward and converges in substantially fewer episodes. The gap persists in <xref ref-type="fig" rid="fig-2">Fig. 2b</xref>, indicating that the advantage is robust when scaling to five agents. The reduced variance of SCLI&#x2013;CMUS is consistent with the segment&#x2013;conditioned intent mechanism and the saturated, scale&#x2013;balanced reward, which together suppress redundant exploration and stabilize gradient updates.</p>

<p>The scaling trend with agent count is also informative. Moving from three to seven agents, both methods display a gradual reduction in asymptotic reward, which is consistent with fixed&#x2013;horizon evaluation: faster attainment of high coverage leaves a longer terminal phase dominated by energy&#x2013;time penalization. Despite this shift in absolute level, SCLI&#x2013;CMUS maintains a persistent margin and tighter confidence bands in <xref ref-type="fig" rid="fig-2">Fig. 2c</xref>, indicating improved coordination under higher platform density.</p>

<p>In <xref ref-type="table" rid="table-2">Table 2</xref> (Search Area &#x003D; 50 <inline-formula id="ieqn-140"><mml:math id="mml-ieqn-140"><mml:mo>&#x00D7;</mml:mo></mml:math></inline-formula> 50), the proposed SCLI&#x2013;CMUS achieves the best coverage and discovery convergence across all team sizes. For <inline-formula id="ieqn-141"><mml:math id="mml-ieqn-141"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>3</mml:mn></mml:math></inline-formula>, SCLI&#x2013;CMUS reduces <inline-formula id="ieqn-142"><mml:math id="mml-ieqn-142"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> to 1102 and <inline-formula id="ieqn-143"><mml:math id="mml-ieqn-143"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> to 1232, yielding improvements of approximately 36% and 29% relative to MADDPG (1718/1723) and 32% and 23% relative to ME&#x2013;RL (1611/1598). Against the strongest hierarchical baseline (DTH&#x2013;MADDPG), SCLI&#x2013;CMUS still provides 21% faster coverage and <inline-formula id="ieqn-144"><mml:math id="mml-ieqn-144"><mml:mn>9</mml:mn><mml:mi mathvariant="normal">&#x0025;</mml:mi></mml:math></inline-formula> faster discovery (1397/1348 vs. 1102/1232). As the team scales, the margins persist. For <inline-formula id="ieqn-145"><mml:math id="mml-ieqn-145"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>5</mml:mn></mml:math></inline-formula>, <inline-formula id="ieqn-146"><mml:math id="mml-ieqn-146"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> and <inline-formula id="ieqn-147"><mml:math id="mml-ieqn-147"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> fall to 860/1137, improving over MADDPG by 43%/20% and over DTH&#x2013;MADDPG by 13%/10%. At <inline-formula id="ieqn-148"><mml:math id="mml-ieqn-148"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>7</mml:mn></mml:math></inline-formula>, SCLI&#x2013;CMUS attains 710/997, exceeding MADDPG by 48%/40% and DTH&#x2013;MADDPG by 11%/6%. The aggregate &#x201C;Total&#x201D; column confirms the trend: <inline-formula id="ieqn-149"><mml:math id="mml-ieqn-149"><mml:mn>6038</mml:mn></mml:math></inline-formula> for SCLI&#x2013;CMUS vs. <inline-formula id="ieqn-150"><mml:math id="mml-ieqn-150"><mml:mn>6853</mml:mn></mml:math></inline-formula> for DTH&#x2013;MADDPG (<inline-formula id="ieqn-151"><mml:math id="mml-ieqn-151"><mml:mo>&#x2248;</mml:mo><mml:mspace width="negativethinmathspace" /><mml:mn>12</mml:mn><mml:mi mathvariant="normal">&#x0025;</mml:mi></mml:math></inline-formula> gain) and 9400 for MADDPG (<inline-formula id="ieqn-152"><mml:math id="mml-ieqn-152"><mml:mo>&#x2248;</mml:mo><mml:mspace width="negativethinmathspace" /><mml:mn>36</mml:mn><mml:mi mathvariant="normal">&#x0025;</mml:mi></mml:math></inline-formula> gain). These gains are attributable to segment-conditioned intent selection and scale-calibrated reward saturation, which jointly suppress redundant footprint overlap, prioritize high-entropy regions, and stabilize critic estimates under CTDE.</p>
<table-wrap id="table-2">
<label>Table 2</label>
<caption>
<title>Coverage convergence time <inline-formula id="ieqn-153"><mml:math id="mml-ieqn-153"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> and discovery convergence time <inline-formula id="ieqn-154"><mml:math id="mml-ieqn-154"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> for 15&#x2013;target scenarios under varying team size <inline-formula id="ieqn-155"><mml:math id="mml-ieqn-155"><mml:mi>N</mml:mi><mml:mo>&#x2208;</mml:mo><mml:mo fence="false" stretchy="false">{</mml:mo><mml:mn>3</mml:mn><mml:mo>,</mml:mo><mml:mn>5</mml:mn><mml:mo>,</mml:mo><mml:mn>7</mml:mn><mml:mo fence="false" stretchy="false">}</mml:mo></mml:math></inline-formula>. Lower is better; the best value in each column is typeset in <bold>bold</bold> and marked with <inline-formula id="ieqn-156"><mml:math id="mml-ieqn-156"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></title>
</caption>
<table>
<colgroup>
<col align="center" width="11mm"/>
<col align="center" width="35mm"/>
<col align="center" width="9mm"/>
<col align="center" width="9mm"/>
<col align="center" width="9mm"/>
<col align="center" width="9mm"/>
<col align="center" width="9mm"/>
<col align="center" width="9mm"/>
<col align="center" width="11mm"/> </colgroup>
<thead>
<tr>
<th rowspan="2">Search area</th>
<th align="center" rowspan="2">Method</th>
<th colspan="2"><inline-formula id="ieqn-157"><mml:math id="mml-ieqn-157"><mml:mrow><mml:mtext mathvariant="bold">N=3</mml:mtext></mml:mrow></mml:math></inline-formula></th>
<th colspan="2"><inline-formula id="ieqn-158"><mml:math id="mml-ieqn-158"><mml:mrow><mml:mtext mathvariant="bold">N=5</mml:mtext></mml:mrow></mml:math></inline-formula></th>
<th colspan="2"><inline-formula id="ieqn-159"><mml:math id="mml-ieqn-159"><mml:mrow><mml:mtext mathvariant="bold">N=7</mml:mtext></mml:mrow></mml:math></inline-formula></th>
<th>Total</th>
</tr>
<tr>
<th><inline-formula id="ieqn-160"><mml:math id="mml-ieqn-160"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-161"><mml:math id="mml-ieqn-161"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-162"><mml:math id="mml-ieqn-162"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-163"><mml:math id="mml-ieqn-163"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-164"><mml:math id="mml-ieqn-164"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-165"><mml:math id="mml-ieqn-165"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th></th>
</tr>
</thead>
<tbody>
<tr>
<td rowspan="6">50 <inline-formula id="ieqn-166"><mml:math id="mml-ieqn-166"><mml:mo>&#x00D7;</mml:mo></mml:math></inline-formula> 50</td>
<td><bold>SCLI&#x2013;CMUS (Ours)</bold></td>
<td><bold>1102<inline-formula id="ieqn-167"><mml:math id="mml-ieqn-167"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1232<inline-formula id="ieqn-168"><mml:math id="mml-ieqn-168"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>860<inline-formula id="ieqn-169"><mml:math id="mml-ieqn-169"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1137<inline-formula id="ieqn-170"><mml:math id="mml-ieqn-170"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>710<inline-formula id="ieqn-171"><mml:math id="mml-ieqn-171"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>997<inline-formula id="ieqn-172"><mml:math id="mml-ieqn-172"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>6038<inline-formula id="ieqn-173"><mml:math id="mml-ieqn-173"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
</tr>
<tr>
<td>DTH-MADDPG</td>
<td>1397</td>
<td>1348</td>
<td>987</td>
<td>1266</td>
<td>798</td>
<td>1057</td>
<td>6853</td>
</tr>
<tr>
<td>ME&#x2013;RL</td>
<td>1611</td>
<td>1598</td>
<td>1377</td>
<td>1308</td>
<td>1241</td>
<td>1537</td>
<td>8673</td>
</tr>
<tr>
<td>MADDPG</td>
<td>1718</td>
<td>1723</td>
<td>1510</td>
<td>1424</td>
<td>1357</td>
<td>1668</td>
<td>9400</td>
</tr>
<tr>
<td>DQN</td>
<td>2256</td>
<td>1784</td>
<td>1998</td>
<td>1601</td>
<td>1657</td>
<td>1828</td>
<td>11124</td>
</tr>
<tr>
<td>ACO</td>
<td>3304</td>
<td>3202</td>
<td>2160</td>
<td>2148</td>
<td>1882</td>
<td>1964</td>
<td>14662</td>
</tr>
<tr>
<td rowspan="2">60 <inline-formula id="ieqn-174"><mml:math id="mml-ieqn-174"><mml:mo>&#x00D7;</mml:mo></mml:math></inline-formula> 60</td>
<td><bold>SCLI&#x2013;CMUS</bold></td>
<td><bold>1214<inline-formula id="ieqn-175"><mml:math id="mml-ieqn-175"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1371<inline-formula id="ieqn-176"><mml:math id="mml-ieqn-176"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>970<inline-formula id="ieqn-177"><mml:math id="mml-ieqn-177"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1315<inline-formula id="ieqn-178"><mml:math id="mml-ieqn-178"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>820<inline-formula id="ieqn-179"><mml:math id="mml-ieqn-179"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1107<inline-formula id="ieqn-180"><mml:math id="mml-ieqn-180"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>6797<inline-formula id="ieqn-181"><mml:math id="mml-ieqn-181"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
</tr>
<tr>
<td>DTH-MADDPG</td>
<td>1561</td>
<td>1577</td>
<td>1065</td>
<td>1410</td>
<td>897</td>
<td>1188</td>
<td>7698</td>
</tr>
<tr>
<td rowspan="2">70 <inline-formula id="ieqn-182"><mml:math id="mml-ieqn-182"><mml:mo>&#x00D7;</mml:mo></mml:math></inline-formula> 70</td>
<td><bold>SCLI&#x2013;CMUS</bold></td>
<td><bold>1377<inline-formula id="ieqn-183"><mml:math id="mml-ieqn-183"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1456<inline-formula id="ieqn-184"><mml:math id="mml-ieqn-184"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1084<inline-formula id="ieqn-185"><mml:math id="mml-ieqn-185"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1470<inline-formula id="ieqn-186"><mml:math id="mml-ieqn-186"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>991<inline-formula id="ieqn-187"><mml:math id="mml-ieqn-187"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>1317<inline-formula id="ieqn-188"><mml:math id="mml-ieqn-188"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td><bold>7695<inline-formula id="ieqn-189"><mml:math id="mml-ieqn-189"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
</tr>
<tr>
<td>DTH-MADDPG</td>
<td>1419</td>
<td>1571</td>
<td>1139</td>
<td>1554</td>
<td>1010</td>
<td>1399</td>
<td>8092</td>
</tr>
</tbody>
</table>
</table-wrap>
<p>The scaling behavior with <italic>N</italic> is also consistent and informative. All methods exhibit decreasing <inline-formula id="ieqn-190"><mml:math id="mml-ieqn-190"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> and <inline-formula id="ieqn-191"><mml:math id="mml-ieqn-191"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> as the team grows, reflecting the intrinsic parallelism of multi-UAV coverage. However, SCLI&#x2013;CMUS shows the steepest decline, indicating that additional agents are efficiently utilized rather than inducing interference. In particular, the improvement from <inline-formula id="ieqn-192"><mml:math id="mml-ieqn-192"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>3</mml:mn></mml:math></inline-formula> to <inline-formula id="ieqn-193"><mml:math id="mml-ieqn-193"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>7</mml:mn></mml:math></inline-formula> is 36% for coverage (<inline-formula id="ieqn-194"><mml:math id="mml-ieqn-194"><mml:mn>1102</mml:mn><mml:mspace width="negativethinmathspace" /><mml:mo stretchy="false">&#x2192;</mml:mo><mml:mspace width="negativethinmathspace" /><mml:mn>710</mml:mn></mml:math></inline-formula>) and 19% for discovery (<inline-formula id="ieqn-195"><mml:math id="mml-ieqn-195"><mml:mn>1232</mml:mn><mml:mspace width="negativethinmathspace" /><mml:mo stretchy="false">&#x2192;</mml:mo><mml:mspace width="negativethinmathspace" /><mml:mn>997</mml:mn></mml:math></inline-formula>), whereas MADDPG improves by 21% and 3% over the same range. The hierarchical baseline DTH&#x2013;MADDPG narrows the gap relative to flat actor&#x2013;critic learners, yet it remains consistently behind SCLI&#x2013;CMUS, suggesting that segment-consistent skill conditioning and the three-parameter saturated reward yield more effective division of labor and faster attainment of operational performance.</p>
<p>To further probe this behaviour, we extended the comparison between SCLI&#x2013;CMUS and the strongest hierarchical baseline (DTH&#x2013;MADDPG) from the <inline-formula id="ieqn-196"><mml:math id="mml-ieqn-196"><mml:mn>50</mml:mn><mml:mspace width="thinmathspace" /><mml:mrow><mml:mo>&#x00D7;</mml:mo></mml:mrow><mml:mspace width="thinmathspace" /><mml:mn>50</mml:mn></mml:math></inline-formula> workspace to larger search areas of <inline-formula id="ieqn-197"><mml:math id="mml-ieqn-197"><mml:mn>60</mml:mn><mml:mspace width="thinmathspace" /><mml:mrow><mml:mo>&#x00D7;</mml:mo></mml:mrow><mml:mspace width="thinmathspace" /><mml:mn>60</mml:mn></mml:math></inline-formula> and <inline-formula id="ieqn-198"><mml:math id="mml-ieqn-198"><mml:mn>70</mml:mn><mml:mspace width="thinmathspace" /><mml:mrow><mml:mo>&#x00D7;</mml:mo></mml:mrow><mml:mspace width="thinmathspace" /><mml:mn>70</mml:mn></mml:math></inline-formula>. The <inline-formula id="ieqn-199"><mml:math id="mml-ieqn-199"><mml:mn>50</mml:mn><mml:mspace width="thinmathspace" /><mml:mrow><mml:mo>&#x00D7;</mml:mo></mml:mrow><mml:mspace width="thinmathspace" /><mml:mn>50</mml:mn></mml:math></inline-formula> case already shows that DTH&#x2013;MADDPG is the closest competitor in terms of coverage and discovery convergence, so these larger maps provide a more stringent test of scalability. As the search area grows to <inline-formula id="ieqn-200"><mml:math id="mml-ieqn-200"><mml:mn>60</mml:mn><mml:mspace width="thinmathspace" /><mml:mrow><mml:mo>&#x00D7;</mml:mo></mml:mrow><mml:mspace width="thinmathspace" /><mml:mn>60</mml:mn></mml:math></inline-formula>, the advantage of SCLI&#x2013;CMUS becomes most pronounced: the total convergence-score gap between the two methods increases to 6797 vs. 7698, i.e., an absolute difference of 901, larger than the corresponding gap on the <inline-formula id="ieqn-201"><mml:math id="mml-ieqn-201"><mml:mn>50</mml:mn><mml:mspace width="thinmathspace" /><mml:mrow><mml:mo>&#x00D7;</mml:mo></mml:mrow><mml:mspace width="thinmathspace" /><mml:mn>50</mml:mn></mml:math></inline-formula> grid (6038 vs. 6853). This indicates that on moderately larger workspaces, segment-conditioned intents and belief-based reward shaping yield more efficient spatial partitioning and reduce redundant coverage more effectively than the dual-timescale controller in DTH&#x2013;MADDPG.</p>
</sec>
<sec id="s4_5">
<label>4.5</label>
<title>Sensitivity Analysis</title>
<p>We next examine the sensitivity of SCLI&#x2013;CMUS to the three reward weights <inline-formula id="ieqn-202"><mml:math id="mml-ieqn-202"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula>, <inline-formula id="ieqn-203"><mml:math id="mml-ieqn-203"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula>, and <inline-formula id="ieqn-204"><mml:math id="mml-ieqn-204"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula> in (17). Since information gain is the primary driver of target discovery in belief-based search, we fix <inline-formula id="ieqn-205"><mml:math id="mml-ieqn-205"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x02110;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:math></inline-formula> throughout and vary <inline-formula id="ieqn-206"><mml:math id="mml-ieqn-206"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula> and <inline-formula id="ieqn-207"><mml:math id="mml-ieqn-207"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula> around the nominal setting <inline-formula id="ieqn-208"><mml:math id="mml-ieqn-208"><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mn>1.0</mml:mn><mml:mo>,</mml:mo><mml:mn>0.1</mml:mn><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> used in <xref ref-type="sec" rid="s4_1">Section 4.1</xref>.</p>
<p>Representative results for <inline-formula id="ieqn-209"><mml:math id="mml-ieqn-209"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>5</mml:mn></mml:math></inline-formula> are summarized in <xref ref-type="table" rid="table-3">Table 3</xref>. The coverage weight <inline-formula id="ieqn-210"><mml:math id="mml-ieqn-210"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula> controls how strongly the policy prioritizes expanding the visited set: a low value (<inline-formula id="ieqn-211"><mml:math id="mml-ieqn-211"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0.5</mml:mn></mml:math></inline-formula>) yields markedly larger <inline-formula id="ieqn-212"><mml:math id="mml-ieqn-212"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> and <inline-formula id="ieqn-213"><mml:math id="mml-ieqn-213"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula> (up to 1150/1450), whereas a high value (<inline-formula id="ieqn-214"><mml:math id="mml-ieqn-214"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>1.5</mml:mn></mml:math></inline-formula>) achieves the fastest coverage (851 steps at <inline-formula id="ieqn-215"><mml:math id="mml-ieqn-215"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>0.05</mml:mn></mml:math></inline-formula>) but consistently slower target discovery (<inline-formula id="ieqn-216"><mml:math id="mml-ieqn-216"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub><mml:mo>&#x2248;</mml:mo><mml:mn>1230</mml:mn></mml:math></inline-formula>&#x2013;1280). The energy&#x2013;time coefficient <inline-formula id="ieqn-217"><mml:math id="mml-ieqn-217"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula> regulates motion aggressiveness: with <inline-formula id="ieqn-218"><mml:math id="mml-ieqn-218"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>1.0</mml:mn></mml:math></inline-formula>, the setting <inline-formula id="ieqn-219"><mml:math id="mml-ieqn-219"><mml:mo stretchy="false">(</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub><mml:mo stretchy="false">)</mml:mo><mml:mo>=</mml:mo><mml:mo stretchy="false">(</mml:mo><mml:mn>1.0</mml:mn><mml:mo>,</mml:mo><mml:mn>0.10</mml:mn><mml:mo stretchy="false">)</mml:mo></mml:math></inline-formula> attains the best overall trade-off, with <inline-formula id="ieqn-220"><mml:math id="mml-ieqn-220"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>860</mml:mn></mml:math></inline-formula> and the globally minimal <inline-formula id="ieqn-221"><mml:math id="mml-ieqn-221"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mrow><mml:mtext mathvariant="bold">1137</mml:mtext></mml:mrow></mml:math></inline-formula>, while both smaller and larger <inline-formula id="ieqn-222"><mml:math id="mml-ieqn-222"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula> slightly degrade either coverage or discovery.</p>
<table-wrap id="table-3">
<label>Table 3</label>
<caption>
<title>Sensitivity of coverage and discovery convergence times to reward weights for <inline-formula id="ieqn-223"><mml:math id="mml-ieqn-223"><mml:mi>N</mml:mi><mml:mo>=</mml:mo><mml:mn>5</mml:mn></mml:math></inline-formula> UAVs</title>
</caption>
<table>
<colgroup>
<col align="center" width="11mm"/>
<col align="center" width="11mm"/>
<col align="center" width="11mm"/>
<col align="center" width="11mm"/>
<col align="center" width="11mm"/>
<col align="center" width="20mm"/>
<col align="center" width="11mm"/>
<col align="center" width="11mm"/>
<col align="center" width="20mm"/> </colgroup>
<thead>
<tr>
<th><inline-formula id="ieqn-224"><mml:math id="mml-ieqn-224"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-225"><mml:math id="mml-ieqn-225"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-226"><mml:math id="mml-ieqn-226"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula>/<inline-formula id="ieqn-227"><mml:math id="mml-ieqn-227"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-228"><mml:math id="mml-ieqn-228"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-229"><mml:math id="mml-ieqn-229"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-230"><mml:math id="mml-ieqn-230"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula>/<inline-formula id="ieqn-231"><mml:math id="mml-ieqn-231"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-232"><mml:math id="mml-ieqn-232"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x1D49E;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-233"><mml:math id="mml-ieqn-233"><mml:msub><mml:mi>&#x03BB;</mml:mi><mml:mrow><mml:mrow><mml:mi>&#x2130;</mml:mi></mml:mrow></mml:mrow></mml:msub></mml:math></inline-formula></th>
<th><inline-formula id="ieqn-234"><mml:math id="mml-ieqn-234"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>cov</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula>/<inline-formula id="ieqn-235"><mml:math id="mml-ieqn-235"><mml:msub><mml:mi>&#x03C4;</mml:mi><mml:mrow><mml:mtext>det</mml:mtext></mml:mrow></mml:msub></mml:math></inline-formula></th>
</tr>
</thead>
<tbody>
<tr>
<td rowspan="4">0.5</td>
<td>0.05</td>
<td>1040/1320</td>
<td rowspan="4">1.0</td>
<td>0.05</td>
<td>869/1180</td>
<td rowspan="4">1.5</td>
<td>0.05</td>
<td><bold>851<inline-formula id="ieqn-236"><mml:math id="mml-ieqn-236"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold>/1250</td>
</tr>
<tr>
<td>0.10</td>
<td>1075/1360</td>
<td>0.10</td>
<td>860/<bold>1137<inline-formula id="ieqn-237"><mml:math id="mml-ieqn-237"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula></bold></td>
<td>0.10</td>
<td>867/1247</td>
</tr>
<tr>
<td>0.15</td>
<td>1110/1405</td>
<td>0.15</td>
<td>878/1210</td>
<td>0.15</td>
<td>863/1230</td>
</tr>
<tr>
<td>0.20</td>
<td>1150/1450</td>
<td>0.20</td>
<td>875/1260</td>
<td>0.20</td>
<td>889/1280</td>
</tr>
</tbody>
</table>
<table-wrap-foot><fn id="table-3fn1" fn-type="other"><p>The best value in each column is typeset in <bold>bold</bold> and marked with (<inline-formula id="ieqn-238"><mml:math id="mml-ieqn-238"><mml:mo stretchy="false">&#x2193;</mml:mo></mml:math></inline-formula>).</p></fn>
</table-wrap-foot>
</table-wrap>
</sec>
<sec id="s4_6">
<label>4.6</label>
<title>Case Study</title>
<p>This case study provides a qualitative examination of cooperative behaviour under the proposed policy in a <inline-formula id="ieqn-239"><mml:math id="mml-ieqn-239"><mml:mn>50</mml:mn><mml:mspace width="thinmathspace" /><mml:mrow><mml:mo>&#x00D7;</mml:mo></mml:mrow><mml:mspace width="thinmathspace" /><mml:mn>50</mml:mn></mml:math></inline-formula> workspace with three UAVs and ten fixed targets. <xref ref-type="fig" rid="fig-3">Fig. 3</xref> depicts colour&#x2013;coded trajectories at three representative time stamps. At <inline-formula id="ieqn-240"><mml:math id="mml-ieqn-240"><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mn>300</mml:mn></mml:math></inline-formula> (<xref ref-type="fig" rid="fig-3">Fig. 3a</xref>), the team has already established a clear spatial allocation: trajectories exhibit strong inter-agent separation and limited crossovers. Large uncovered areas are partitioned implicitly, and each UAV conducts frontier-seeking sweeps within its assigned sector. The resulting footprints cover disjoint corridors with small overlap, which accelerates global coverage while preventing early concentration around the same cells.</p>
<fig id="fig-3">
<label>Figure 3</label>
<caption>
<title>Trajectories of three UAVs in a <inline-formula id="ieqn-241"><mml:math id="mml-ieqn-241"><mml:mn>50</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:mn>50</mml:mn></mml:math></inline-formula> workspace with ten fixed targets at representative time stamps. Dashed paths are colour coded by agent (red, blue, green); black stars mark target locations. Panels: (<bold>a</bold>) <inline-formula id="ieqn-242"><mml:math id="mml-ieqn-242"><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mn>300</mml:mn></mml:math></inline-formula>, early exploration with clear sector separation; (<bold>b</bold>) <inline-formula id="ieqn-243"><mml:math id="mml-ieqn-243"><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mn>1000</mml:mn></mml:math></inline-formula>, intensified sampling around informative regions with limited boundary crossings; (<bold>c</bold>) <inline-formula id="ieqn-244"><mml:math id="mml-ieqn-244"><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mn>1500</mml:mn></mml:math></inline-formula>, steady patrolling within sectors with low redundant coverage</title>
</caption>
<graphic mimetype="image" mime-subtype="tif" xlink:href="CMC_73202-fig-3.tif"/>
</fig>
<p>At <inline-formula id="ieqn-245"><mml:math id="mml-ieqn-245"><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mn>1000</mml:mn></mml:math></inline-formula> (<xref ref-type="fig" rid="fig-3">Fig. 3b</xref>), the belief map has concentrated around multiple target locations, and paths become denser in those neighbourhoods. Agents maintain sector integrity while adapting their local loops to repeatedly interrogate high-probability cells. Boundary incursions are rare and occur only where adjacent sectors meet, indicating stable intent selection and limited handover cost. The joint pattern reflects a balanced exploration&#x2013;exploitation regime: residual unexplored pockets are swept, and detected vicinities receive increased sampling frequency.</p>

<p>At <inline-formula id="ieqn-246"><mml:math id="mml-ieqn-246"><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mn>1500</mml:mn></mml:math></inline-formula> (<xref ref-type="fig" rid="fig-3">Fig. 3c</xref>), the team enters a persistent monitoring phase. Each UAV continues to patrol its sector with short, recurrent loops centred on previously informative regions. The path overlap remains low and the blank areas show no redundant revisits, which is consistent with the energy&#x2013;time penalization in the reward and the segment-consistent action generation.</p>

</sec>
</sec>
<sec id="s5">
<label>5</label>
<title>Conclusion</title>
<p>This work has presented a segment-conditioned latent-intent framework for cooperative multi-UAV search that formulates the problem as a discounted MDP on an occupancy grid with a cellwise Bayesian belief update and parameterizes decision making by a single end-to-end policy combining a discrete intent head, updated every <italic>K</italic> steps, with an intra-segment GRU action head trained under a centralized critic, together with a three-coefficient, scale-calibrated saturated reward balancing information gain, coverage efficiency, and energy&#x2013;time cost. Across grids of size <inline-formula id="ieqn-247"><mml:math id="mml-ieqn-247"><mml:mn>50</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:mn>50</mml:mn></mml:math></inline-formula>, <inline-formula id="ieqn-248"><mml:math id="mml-ieqn-248"><mml:mn>60</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:mn>60</mml:mn></mml:math></inline-formula>, and <inline-formula id="ieqn-249"><mml:math id="mml-ieqn-249"><mml:mn>70</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:mn>70</mml:mn></mml:math></inline-formula>, the proposed method consistently outperforms strong flat and hierarchical reinforcement-learning baselines: on the <inline-formula id="ieqn-250"><mml:math id="mml-ieqn-250"><mml:mn>50</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:mn>50</mml:mn></mml:math></inline-formula> workspace, coverage and discovery convergence times are reduced by up to 48% and 40% relative to a flat actor&#x2013;critic method, and the aggregated convergence metric improves by about 12% compared with a state-of-the-art hierarchical baseline, with the largest total improvement observed on the <inline-formula id="ieqn-251"><mml:math id="mml-ieqn-251"><mml:mn>60</mml:mn><mml:mo>&#x00D7;</mml:mo><mml:mn>60</mml:mn></mml:math></inline-formula> grid. Future work will extend the framework to adaptive intent durations and heterogeneous platforms, incorporate bandwidth&#x2013;limited communication and collision&#x2013;avoidance constraints, model moving targets and three&#x2013;dimensional kinematics, and pursue field deployment with sim&#x2013;to&#x2013;real transfer and formal performance guarantees.</p>
</sec>
</body>
<back>
<ack>
<p>None.</p>
</ack>
<sec>
<title>Funding Statement</title>
<p>The authors received no specific funding for this study.</p>
</sec>
<sec>
<title>Author Contributions</title>
<p>Gang Hou, Aifeng Liu, Tao Zhao: Investigation, Data Curation, Writing&#x2014;Original Draft. Siwen Wei, Wenyuan Wei, Bo Li: Review and Editing, Visualization. Jiancheng Liu, Siwen Wei: Writing&#x2014;Review and Editing, Supervision. All authors reviewed the results and approved the final version of the manuscript.</p>
</sec>
<sec sec-type="data-availability">
<title>Availability of Data and Materials</title>
<p>Not applicable.</p>
</sec>
<sec>
<title>Ethics Approval</title>
<p>Not applicable.</p>
</sec>
<sec sec-type="COI-statement">
<title>Conflicts of Interest</title>
<p>The authors declare no conflicts of interest to report regarding the present study.</p>
</sec>
<ref-list content-type="authoryear">
<title>References</title>
<ref id="ref-1"><label>[1]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Yanmaz</surname> <given-names>E</given-names></string-name></person-group>. <article-title>Joint or decoupled optimization: multi-UAV path planning for search and rescue</article-title>. <source>Ad Hoc Netw</source>. <year>2023</year>;<volume>138</volume>(<issue>3</issue>):<fpage>103018</fpage>. doi:<pub-id pub-id-type="doi">10.1016/j.adhoc.2022.103018</pub-id>.</mixed-citation></ref>
<ref id="ref-2"><label>[2]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Liu</surname> <given-names>X</given-names></string-name>, <string-name><surname>Su</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Wu</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Guo</surname> <given-names>Y</given-names></string-name></person-group>. <article-title>Multi-conflict-based optimal algorithm for multi-UAV cooperative path planning</article-title>. <source>Drones</source>. <year>2023</year>;<volume>7</volume>(<issue>3</issue>):<fpage>217</fpage>. doi:<pub-id pub-id-type="doi">10.3390/drones7030217</pub-id>.</mixed-citation></ref>
<ref id="ref-3"><label>[3]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Chen</surname> <given-names>Z</given-names></string-name>, <string-name><surname>Zhang</surname> <given-names>T</given-names></string-name>, <string-name><surname>Hong</surname> <given-names>T</given-names></string-name></person-group>. <article-title>IoT-enhanced multi-base station networks for real-time UAV surveillance and tracking</article-title>. <source>Drones</source>. <year>2025</year>;<volume>9</volume>(<issue>8</issue>):<fpage>558</fpage>. doi:<pub-id pub-id-type="doi">10.3390/drones9080558</pub-id>.</mixed-citation></ref>
<ref id="ref-4"><label>[4]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Andreou</surname> <given-names>A</given-names></string-name>, <string-name><surname>Mavromoustakis</surname> <given-names>CX</given-names></string-name>, <string-name><surname>Markakis</surname> <given-names>E</given-names></string-name>, <string-name><surname>Bourdena</surname> <given-names>A</given-names></string-name>, <string-name><surname>Mastorakis</surname> <given-names>G</given-names></string-name></person-group>. <article-title>UAV-asisted IoT network framework with hybrid deep reinforcement and federated learning</article-title>. <source>Sci Rep</source>. <year>2025</year>;<volume>15</volume>(<issue>1</issue>):<fpage>37107</fpage>. doi:<pub-id pub-id-type="doi">10.1038/s41598-025-21014-5</pub-id>; <pub-id pub-id-type="pmid">41131055</pub-id></mixed-citation></ref>
<ref id="ref-5"><label>[5]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Nguyen</surname> <given-names>DC</given-names></string-name>, <string-name><surname>Ding</surname> <given-names>M</given-names></string-name>, <string-name><surname>Pathirana</surname> <given-names>PN</given-names></string-name>, <string-name><surname>Seneviratne</surname> <given-names>A</given-names></string-name>, <string-name><surname>Li</surname> <given-names>J</given-names></string-name>, <string-name><surname>Niyato</surname> <given-names>D</given-names></string-name>, <etal>et al</etal></person-group>. <article-title>6G Internet of Things: a comprehensive survey</article-title>. <source>IEEE Internet Things J</source>. <year>2021</year>;<volume>9</volume>(<issue>1</issue>):<fpage>359</fpage>&#x2013;<lpage>83</lpage>. doi:<pub-id pub-id-type="doi">10.1109/jiot.2021.3103320</pub-id>.</mixed-citation></ref>
<ref id="ref-6"><label>[6]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Qu</surname> <given-names>L</given-names></string-name>, <string-name><surname>Fan</surname> <given-names>J</given-names></string-name></person-group>. <article-title>Unmanned combat aerial vehicle path planning in complex environment using multi-strategy sparrow search algorithm with double-layer coding</article-title>. <source>J King Saud Univ&#x2014;Comput Inf Sci</source>. <year>2024</year>;<volume>36</volume>(<issue>10</issue>):<fpage>102255</fpage>. doi:<pub-id pub-id-type="doi">10.1016/j.jksuci.2024.102255</pub-id>.</mixed-citation></ref>
<ref id="ref-7"><label>[7]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Elmokadem</surname> <given-names>T</given-names></string-name>, <string-name><surname>Savkin</surname> <given-names>AV</given-names></string-name></person-group>. <article-title>Computationally-efficient distributed algorithms of navigation of teams of autonomous UAVs for 3D coverage and flocking</article-title>. <source>Drones</source>. <year>2021</year>;<volume>5</volume>(<issue>4</issue>):<fpage>124</fpage>. doi:<pub-id pub-id-type="doi">10.3390/drones5040124</pub-id>.</mixed-citation></ref>
<ref id="ref-8"><label>[8]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Alanezi</surname> <given-names>MA</given-names></string-name>, <string-name><surname>Bouchekara</surname> <given-names>HR</given-names></string-name>, <string-name><surname>Apalara</surname> <given-names>TAA</given-names></string-name>, <string-name><surname>Shahriar</surname> <given-names>MS</given-names></string-name>, <string-name><surname>Sha&#x2019;aban</surname> <given-names>YA</given-names></string-name>, <string-name><surname>Javaid</surname> <given-names>MS</given-names></string-name>, <etal>et al</etal></person-group>. <article-title>Dynamic target search using multi-UAVs based on motion-encoded genetic algorithm with multiple parents</article-title>. <source>IEEE Access</source>. <year>2022</year>;<volume>10</volume>:<fpage>77922</fpage>&#x2013;<lpage>39</lpage>. doi:<pub-id pub-id-type="doi">10.1109/access.2022.3190395</pub-id>.</mixed-citation></ref>
<ref id="ref-9"><label>[9]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Wang</surname> <given-names>F</given-names></string-name>, <string-name><surname>Zhu</surname> <given-names>XP</given-names></string-name>, <string-name><surname>Zhou</surname> <given-names>Z</given-names></string-name>, <string-name><surname>Tang</surname> <given-names>Y</given-names></string-name></person-group>. <article-title>Deep-reinforcement-learning-based UAV autonomous navigation and collision avoidance in unknown environments</article-title>. <source>Chin J Aeronaut</source>. <year>2024</year>;<volume>37</volume>(<issue>3</issue>):<fpage>237</fpage>&#x2013;<lpage>57</lpage>. doi:<pub-id pub-id-type="doi">10.1016/j.cja.2023.09.033</pub-id>.</mixed-citation></ref>
<ref id="ref-10"><label>[10]</label><mixed-citation publication-type="conf-proc"><person-group person-group-type="author"><string-name><surname>Chen</surname> <given-names>J</given-names></string-name>, <string-name><surname>Liu</surname> <given-names>L</given-names></string-name>, <string-name><surname>Zhang</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Chen</surname> <given-names>W</given-names></string-name>, <string-name><surname>Zhang</surname> <given-names>L</given-names></string-name>, <string-name><surname>Lin</surname> <given-names>Z</given-names></string-name></person-group>. <article-title>Research on UAV path planning based on particle swarm optimization and soft actor-critic</article-title>. In: <conf-name>Proceedings of the 2024 China Automation Congress (CAC); 2024 Nov 1&#x2013;3; Qingdao, China</conf-name>. p. <fpage>6166</fpage>&#x2013;<lpage>71</lpage>.</mixed-citation></ref>
<ref id="ref-11"><label>[11]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Xue</surname> <given-names>D</given-names></string-name>, <string-name><surname>Lin</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Wei</surname> <given-names>S</given-names></string-name>, <string-name><surname>Zhang</surname> <given-names>Z</given-names></string-name>, <string-name><surname>Qi</surname> <given-names>W</given-names></string-name>, <string-name><surname>Liu</surname> <given-names>J</given-names></string-name>, <etal>et al</etal></person-group>. <article-title>Leveraging hierarchical temporal importance sampling and adaptive noise modulation to enhance resilience in multi-agent task execution systems</article-title>. <source>Neurocomputing</source>. <year>2025</year>;<volume>637</volume>(<issue>1&#x2013;2</issue>):<fpage>130134</fpage>. doi:<pub-id pub-id-type="doi">10.1016/j.neucom.2025.130134</pub-id>.</mixed-citation></ref>
<ref id="ref-12"><label>[12]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Lee</surname> <given-names>J</given-names></string-name>, <string-name><surname>Friderikos</surname> <given-names>V</given-names></string-name></person-group>. <article-title>Interference-aware path planning optimization for multiple UAVs in beyond 5G networks</article-title>. <source>J Commun Netw</source>. <year>2022</year>;<volume>24</volume>(<issue>2</issue>):<fpage>125</fpage>&#x2013;<lpage>38</lpage>. doi:<pub-id pub-id-type="doi">10.23919/jcn.2022.000006</pub-id>.</mixed-citation></ref>
<ref id="ref-13"><label>[13]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Wang</surname> <given-names>K</given-names></string-name>, <string-name><surname>Gou</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Xue</surname> <given-names>D</given-names></string-name>, <string-name><surname>Liu</surname> <given-names>J</given-names></string-name>, <string-name><surname>Qi</surname> <given-names>W</given-names></string-name>, <string-name><surname>Hou</surname> <given-names>G</given-names></string-name>, <etal>et al</etal></person-group>. <article-title>Resilience augmentation in unmanned weapon systems via multi-layer attention graph convolutional neural networks</article-title>. <source>Comput Mater Contin</source>. <year>2024</year>;<volume>80</volume>(<issue>2</issue>):<fpage>2941</fpage>&#x2013;<lpage>62</lpage>. doi:<pub-id pub-id-type="doi">10.32604/cmc.2024.052893</pub-id>.</mixed-citation></ref>
<ref id="ref-14"><label>[14]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Wang</surname> <given-names>K</given-names></string-name>, <string-name><surname>Xue</surname> <given-names>D</given-names></string-name>, <string-name><surname>Gou</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Qi</surname> <given-names>W</given-names></string-name>, <string-name><surname>Li</surname> <given-names>B</given-names></string-name>, <string-name><surname>Liu</surname> <given-names>J</given-names></string-name>, <etal>et al</etal></person-group>. <article-title>Meta-path-guided causal inference for hierarchical feature alignment and policy optimization in enhancing resilience of UWSoS</article-title>. <source>J Supercomput</source>. <year>2025</year>;<volume>81</volume>(<issue>2</issue>):<fpage>358</fpage>. doi:<pub-id pub-id-type="doi">10.1007/s11227-024-06848-6</pub-id>.</mixed-citation></ref>
<ref id="ref-15"><label>[15]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Wang</surname> <given-names>N</given-names></string-name>, <string-name><surname>Li</surname> <given-names>Z</given-names></string-name>, <string-name><surname>Liang</surname> <given-names>X</given-names></string-name>, <string-name><surname>Li</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Zhao</surname> <given-names>F</given-names></string-name></person-group>. <article-title>Cooperative target search of UAV swarm with communication distance constraint</article-title>. <source>Math Probl Eng</source>. <year>2021</year>;<volume>2021</volume>(<issue>1</issue>):<fpage>3794329</fpage>. doi:<pub-id pub-id-type="doi">10.1155/2021/3794329</pub-id>.</mixed-citation></ref>
<ref id="ref-16"><label>[16]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Gou</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Wei</surname> <given-names>S</given-names></string-name>, <string-name><surname>Xu</surname> <given-names>K</given-names></string-name>, <string-name><surname>Liu</surname> <given-names>J</given-names></string-name>, <string-name><surname>Li</surname> <given-names>K</given-names></string-name>, <string-name><surname>Li</surname> <given-names>B</given-names></string-name>, <etal>et al</etal></person-group>. <article-title>Hierarchical reinforcement learning with kill chain-informed multi-objective optimization to enhance resilience in autonomous unmanned swarm</article-title>. <source>Neural Netw</source>. <year>2025</year>;<volume>195</volume>(<issue>2</issue>):<fpage>108255</fpage>. doi:<pub-id pub-id-type="doi">10.1016/j.neunet.2025.108255</pub-id>; <pub-id pub-id-type="pmid">41213201</pub-id></mixed-citation></ref>
<ref id="ref-17"><label>[17]</label><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Huh</surname> <given-names>D</given-names></string-name>, <string-name><surname>Mohapatra</surname> <given-names>P</given-names></string-name></person-group>. <article-title>Multi-agent reinforcement learning: a comprehensive survey</article-title>. <comment>arXiv:2312.10256. 2023</comment>.</mixed-citation></ref>
<ref id="ref-18"><label>[18]</label><mixed-citation publication-type="conf-proc"><person-group person-group-type="author"><string-name><surname>Vezhnevets</surname> <given-names>AS</given-names></string-name>, <string-name><surname>Osindero</surname> <given-names>S</given-names></string-name>, <string-name><surname>Schaul</surname> <given-names>T</given-names></string-name>, <string-name><surname>Heess</surname> <given-names>N</given-names></string-name>, <string-name><surname>Jaderberg</surname> <given-names>M</given-names></string-name>, <string-name><surname>Silver</surname> <given-names>D</given-names></string-name>, <etal>et al.</etal></person-group> <article-title>Feudal networks for hierarchical reinforcement learning</article-title>. In: <conf-name>Proceedings of the 34th International Conference on Machine Learning; 2017 Aug 6&#x2013;11; Sydney, NSW, Australia</conf-name>, pp. <fpage>3540</fpage>&#x2013;<lpage>9</lpage>.</mixed-citation></ref>
<ref id="ref-19"><label>[19]</label><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Ahilan</surname> <given-names>S</given-names></string-name>, <string-name><surname>Dayan</surname> <given-names>P</given-names></string-name></person-group>. <article-title>Feudal multi-agent hierarchies for cooperative reinforcement learning</article-title>. <comment>arXiv:1901.08492. 2019</comment>.</mixed-citation></ref>
<ref id="ref-20"><label>[20]</label><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Tang</surname> <given-names>H</given-names></string-name>, <string-name><surname>Hao</surname> <given-names>J</given-names></string-name>, <string-name><surname>Lv</surname> <given-names>T</given-names></string-name>, <string-name><surname>Chen</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Zhang</surname> <given-names>Z</given-names></string-name>, <string-name><surname>Jia</surname> <given-names>H</given-names></string-name>, <etal>et al.</etal></person-group> <article-title>Hierarchical deep multiagent reinforcement learning with temporal abstraction</article-title>. <comment>arXiv:1809.09332. 2018</comment>.</mixed-citation></ref>
<ref id="ref-21"><label>[21]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Lyu</surname> <given-names>M</given-names></string-name>, <string-name><surname>Zhao</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Huang</surname> <given-names>C</given-names></string-name>, <string-name><surname>Huang</surname> <given-names>H</given-names></string-name></person-group>. <article-title>Unmanned aerial vehicles for search and rescue: a survey</article-title>. <source>Remote Sens</source>. <year>2023</year>;<volume>15</volume>(<issue>13</issue>):<fpage>3266</fpage>. doi:<pub-id pub-id-type="doi">10.3390/rs15133266</pub-id>.</mixed-citation></ref>
<ref id="ref-22"><label>[22]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Rahman</surname> <given-names>M</given-names></string-name>, <string-name><surname>Sarkar</surname> <given-names>NI</given-names></string-name>, <string-name><surname>Lutui</surname> <given-names>R</given-names></string-name></person-group>. <article-title>A survey on multi-UAV path planning: classification, algorithms, open research problems, and future directions</article-title>. <source>Drones</source>. <year>2025</year>;<volume>9</volume>(<issue>4</issue>):<fpage>263</fpage>. doi:<pub-id pub-id-type="doi">10.3390/drones9040263</pub-id>.</mixed-citation></ref>
<ref id="ref-23"><label>[23]</label><mixed-citation publication-type="conf-proc"><person-group person-group-type="author"><string-name><surname>Zhao</surname> <given-names>L</given-names></string-name>, <string-name><surname>Gao</surname> <given-names>Z</given-names></string-name>, <string-name><surname>Hawbani</surname> <given-names>A</given-names></string-name>, <string-name><surname>Zhao</surname> <given-names>W</given-names></string-name>, <string-name><surname>Mao</surname> <given-names>C</given-names></string-name>, <string-name><surname>Lin</surname> <given-names>N</given-names></string-name></person-group>. <article-title>Fuzzy-MADDPG based multi-UAV cooperative search in network-limited environments</article-title>. In: <conf-name>Proceedings of the 2024 International Conference on Information and Communication Technologies for Disaster Management (ICT-DM); 2024 Nov 19&#x2013;21; Setif, Algeria</conf-name>, p. <fpage>1</fpage>&#x2013;<lpage>7</lpage>.</mixed-citation></ref>
<ref id="ref-24"><label>[24]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Kelner</surname> <given-names>JM</given-names></string-name>, <string-name><surname>Burzynski</surname> <given-names>W</given-names></string-name>, <string-name><surname>Stecz</surname> <given-names>W</given-names></string-name></person-group>. <article-title>Modeling UAV swarm flight trajectories using rapidly-exploring random tree algorithm</article-title>. <source>J King Saud Univ&#x2014;Comput Inf Sci</source>. <year>2024</year>;<volume>36</volume>(<issue>1</issue>):<fpage>101909</fpage>. doi:<pub-id pub-id-type="doi">10.1016/j.jksuci.2023.101909</pub-id>.</mixed-citation></ref>
<ref id="ref-25"><label>[25]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Zhang</surname> <given-names>X</given-names></string-name>, <string-name><surname>Ali</surname> <given-names>M</given-names></string-name></person-group>. <article-title>A bean optimization-based cooperation method for target searching by swarm UAVs in unknown environments</article-title>. <source>IEEE Access</source>. <year>2020</year>;<volume>8</volume>:<fpage>43850</fpage>&#x2013;<lpage>62</lpage>. doi:<pub-id pub-id-type="doi">10.1109/access.2020.2977499</pub-id>.</mixed-citation></ref>
<ref id="ref-26"><label>[26]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Chaves</surname> <given-names>AN</given-names></string-name>, <string-name><surname>Cugnasca</surname> <given-names>PS</given-names></string-name>, <string-name><surname>Jose</surname> <given-names>J</given-names></string-name></person-group>. <article-title>Adaptive search control applied to search and rescue operations using unmanned aerial vehicles (UAVs)</article-title>. <source>IEEE Latin Am Trans</source>. <year>2014</year>;<volume>12</volume>(<issue>7</issue>):<fpage>1278</fpage>&#x2013;<lpage>83</lpage>. doi:<pub-id pub-id-type="doi">10.1109/tla.2014.6948863</pub-id>.</mixed-citation></ref>
<ref id="ref-27"><label>[27]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Qamar</surname> <given-names>RA</given-names></string-name>, <string-name><surname>Sarfraz</surname> <given-names>M</given-names></string-name>, <string-name><surname>Rahman</surname> <given-names>A</given-names></string-name>, <string-name><surname>Ghauri</surname> <given-names>SA</given-names></string-name></person-group>. <article-title>Multi-criterion multi-UAV task allocation under dynamic conditions</article-title>. <source>J King Saud Univ&#x2014;Comput Inf Sci</source>. <year>2023</year>;<volume>35</volume>(<issue>9</issue>):<fpage>101734</fpage>. doi:<pub-id pub-id-type="doi">10.1016/j.jksuci.2023.101734</pub-id>.</mixed-citation></ref>
<ref id="ref-28"><label>[28]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Hou</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Zhao</surname> <given-names>J</given-names></string-name>, <string-name><surname>Zhang</surname> <given-names>R</given-names></string-name>, <string-name><surname>Cheng</surname> <given-names>X</given-names></string-name>, <string-name><surname>Yang</surname> <given-names>L</given-names></string-name></person-group>. <article-title>UAV swarm cooperative target search: a multi-agent reinforcement learning approach</article-title>. <source>IEEE Trans Intell Veh</source>. <year>2023</year>;<volume>9</volume>(<issue>1</issue>):<fpage>568</fpage>&#x2013;<lpage>78</lpage>. doi:<pub-id pub-id-type="doi">10.1109/tiv.2023.3316196</pub-id>.</mixed-citation></ref>
<ref id="ref-29"><label>[29]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Hou</surname> <given-names>K</given-names></string-name>, <string-name><surname>Yang</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Yang</surname> <given-names>X</given-names></string-name>, <string-name><surname>Lai</surname> <given-names>J</given-names></string-name></person-group>. <article-title>Distributed cooperative search algorithm with task assignment and receding horizon predictive control for multiple unmanned aerial vehicles</article-title>. <source>IEEE Access</source>. <year>2021</year>;<volume>9</volume>:<fpage>6122</fpage>&#x2013;<lpage>36</lpage>. doi:<pub-id pub-id-type="doi">10.1109/access.2020.3048974</pub-id>.</mixed-citation></ref>
<ref id="ref-30"><label>[30]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Phung</surname> <given-names>MD</given-names></string-name>, <string-name><surname>Ha</surname> <given-names>QP</given-names></string-name></person-group>. <article-title>Safety-enhanced UAV path planning with spherical vector-based particle swarm optimization</article-title>. <source>Appl Soft Comput</source>. <year>2021</year>;<volume>107</volume>(<issue>2</issue>):<fpage>107376</fpage>. doi:<pub-id pub-id-type="doi">10.1016/j.asoc.2021.107376</pub-id>.</mixed-citation></ref>
<ref id="ref-31"><label>[31]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Tang</surname> <given-names>J</given-names></string-name>, <string-name><surname>Liang</surname> <given-names>Y</given-names></string-name>, <string-name><surname>Li</surname> <given-names>K</given-names></string-name></person-group>. <article-title>Dynamic scene path planning of uavs based on deep reinforcement learning</article-title>. <source>Drones</source>. <year>2024</year>;<volume>8</volume>(<issue>2</issue>):<fpage>60</fpage>. doi:<pub-id pub-id-type="doi">10.3390/drones8020060</pub-id>.</mixed-citation></ref>
<ref id="ref-32"><label>[32]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Sabzekar</surname> <given-names>S</given-names></string-name>, <string-name><surname>Samadzad</surname> <given-names>M</given-names></string-name>, <string-name><surname>Mehditabrizi</surname> <given-names>A</given-names></string-name>, <string-name><surname>Tak</surname> <given-names>AN</given-names></string-name></person-group>. <article-title>A deep reinforcement learning approach for UAV path planning incorporating vehicle dynamics with acceleration control</article-title>. <source>Unmanned Syst</source>. <year>2024</year>;<volume>12</volume>(<issue>03</issue>):<fpage>477</fpage>&#x2013;<lpage>98</lpage>. doi:<pub-id pub-id-type="doi">10.1142/s2301385024420044</pub-id>.</mixed-citation></ref>
<ref id="ref-33"><label>[33]</label><mixed-citation publication-type="conf-proc"><person-group person-group-type="author"><string-name><surname>Bacon</surname> <given-names>PL</given-names></string-name>, <string-name><surname>Harb</surname> <given-names>J</given-names></string-name>, <string-name><surname>Precup</surname> <given-names>D</given-names></string-name></person-group>. <article-title>The option-critic architecture</article-title>. In: <conf-name>Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence; 2017 Feb 4&#x2013;9; San Francisco, CA, USA</conf-name>. p. <fpage>1726</fpage>&#x2013;<lpage>34</lpage>.</mixed-citation></ref>
<ref id="ref-34"><label>[34]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Liu</surname> <given-names>J</given-names></string-name>, <string-name><surname>Wei</surname> <given-names>S</given-names></string-name>, <string-name><surname>Li</surname> <given-names>B</given-names></string-name>, <string-name><surname>Wang</surname> <given-names>T</given-names></string-name>, <string-name><surname>Qi</surname> <given-names>W</given-names></string-name>, <string-name><surname>Han</surname> <given-names>X</given-names></string-name>, <etal>et al</etal></person-group>. <article-title>Dual-timescale hierarchical MADDPG for Multi-UAV cooperative search</article-title>. <source>J King Saud Univ Comput Inf Sci</source>. <year>2025</year>;<volume>37</volume>(<issue>6</issue>):<fpage>1</fpage>&#x2013;<lpage>17</lpage>. doi:<pub-id pub-id-type="doi">10.1007/s44443-025-00156-6</pub-id>.</mixed-citation></ref>
<ref id="ref-35"><label>[35]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Harikumar</surname> <given-names>K</given-names></string-name>, <string-name><surname>Senthilnath</surname> <given-names>J</given-names></string-name>, <string-name><surname>Sundaram</surname> <given-names>S</given-names></string-name></person-group>. <article-title>Multi-UAV oxyrrhis marina-inspired search and dynamic formation control for forest firefighting</article-title>. <source>IEEE Trans Autom Sci Eng</source>. <year>2018</year>;<volume>16</volume>(<issue>2</issue>):<fpage>863</fpage>&#x2013;<lpage>73</lpage>. doi:<pub-id pub-id-type="doi">10.1109/tase.2018.2867614</pub-id>.</mixed-citation></ref>
<ref id="ref-36"><label>[36]</label><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Perez-Carabaza</surname> <given-names>S</given-names></string-name>, <string-name><surname>Besada-Portas</surname> <given-names>E</given-names></string-name>, <string-name><surname>Lopez-Orozco</surname> <given-names>JA</given-names></string-name>, <string-name><surname>de la Cruz</surname> <given-names>JM</given-names></string-name></person-group>. <article-title>Ant colony optimization for multi-UAV minimum time search in uncertain domains</article-title>. <source>Appl Soft Comput</source>. <year>2018</year>;<volume>62</volume>(<issue>4</issue>):<fpage>789</fpage>&#x2013;<lpage>806</lpage>. doi:<pub-id pub-id-type="doi">10.1016/j.asoc.2017.09.009</pub-id>.</mixed-citation></ref>
</ref-list>
</back></article>