IPv6随路遥测实战指南 第2篇:IPv6随路遥测架构设计

摘要

本文将带你深入了解IPv6随路遥测的系统架构设计,帮助你建立完整的技术框架认知。你将学到网络遥测框架的整体架构、IFIT框架的核心功能组件、数据采集机制、测量模式分类,以及IFIT部署自动化的实现原理。

学习目标

阅读完本文后,你将能够:

  • 理解NTF框架:掌握网络遥测框架(NTF)的四层模块架构和设计理念
  • 掌握IFIT框架:深入理解IFIT框架的核心功能和测量模式
  • 认识数据采集机制:了解随路测量的数据采集方法和流程
  • 理解测量模式:掌握端到端、边缘到边缘、直接导出等测量模式
  • 了解部署自动化:认识IFIT部署自动化的实现机制和价值

本文由”51学通信”(公众号:51学通信,站长:爱卫生)原创分享。如需深入交流或获取更多通信技术资料,欢迎添加微信:gprshome201101。


一、网络遥测框架(NTF)概述

网络遥测框架(Network Telemetry Framework,NTF)是IPv6随路遥测的顶层架构设计。

1.1 网络遥测的定义与价值

网络遥测是远程获取设备测量参数的技术体系:

flowchart TD
    A[网络遥测] --> B[远程数据采集]
    A --> C[自动化测量]
    A --> D[实时数据推送]

    B --> B1[设备参数]
    B --> B2[网络状态]
    B --> B3[业务性能]

    C --> C1[主动测量]
    C --> C2[被动测量]
    C --> C3[混合测量]

    D --> D1[推模式]
    D --> D2[流式数据]
    D --> D3[实时性]

    E[核心价值] --> F["支持闭环<br/>自动化运维"]

图表讲解:这张图展示了网络遥测的核心能力。远程数据采集意味着运维人员不需要登录每个设备,可以集中获取全网数据。自动化测量包括主动、被动和混合三种方式,可以根据场景灵活选择。实时数据推送使用推模式,数据主动上报到采集器,实现流式数据处理。网络遥测的核心价值在于为闭环自动化运维提供了数据基础——没有实时、准确的数据,任何智能运维都只是空谈。51学通信认为,理解网络遥测需要从系统视角出发,它不是单一的技术,而是完整的技术体系。

1.2 网络遥测数据的特点

网络遥测数据具有与传统OAM数据不同的特征:

flowchart TD
    A[遥测数据特征] --> B[数据来源广泛]
    A --> C[数据类型多样]
    A --> D[数据量大]
    A --> E[实时性要求高]

    B --> B1[数据平面]
    B --> B2[控制平面]
    B --> B3[管理平面]
    B --> B4[外部事件]

    C --> C1[统计数据]
    C --> C2[事件记录]
    C --> C3[日志信息]
    C --> B4[状态快照]

    D --> D1["海量数据流"]
    D --> D2["高速处理需求"]

    E --> E1["流式推送"]
    E --> E2["机器消费"]

    F[处理要求] --> G["自动化处理<br/>智能化分析"]

图表讲解:这张图展示了网络遥测数据的四大特征。数据来源广泛意味着遥测数据可以来自网络的各个层面,包括数据平面、控制平面、管理平面,甚至外部事件。数据类型多样涵盖统计数据、事件记录、日志信息、状态快照等。数据量大和实时性要求高意味着传统的手工处理方式不再适用,需要自动化的处理和智能化的分析。51学通信提醒,这些特征决定了遥测系统的架构设计必须考虑高并发、实时处理和自动化分析能力。

1.3 NTF的四层模块架构

RFC 9232定义了两级网络遥测框架架构:

flowchart TD
    A[NTF顶层架构] --> B[管理平面遥测<br/>MPT]
    A --> C[控制平面遥测<br/>CPT]
    A --> D[数据平面遥测<br/>DPT]
    A --> E[外部数据和事件遥测<br/>EDET]

    B --> B1["配置和运行状态"]
    B --> B2["CLI/SNMP/Netconf"]
    B --> B3[主控CPU]

    C --> C1["控制协议/信令"]
    C --> C2["路由信息"]
    C --> C3["路由表RIB"]

    D --> D1["流和包质量"]
    D --> D2["QoS/流量统计"]
    D --> D3["转发表FIB/ACL"]
    D --> B4["转发芯片CPU"]

    E --> E1["社会事件"]
    E --> E2["环境事件"]
    E --> E3["外部数据源"]

    F[统一接口] --> G["应用获取数据<br/>分析并执行操作"]

图表讲解:这张图展示了NTF的四层模块架构。管理平面遥测关注设备的配置和运行状态,主要通过CLI、SNMP、Netconf等协议获取数据,数据来自主控CPU。控制平面遥测关注控制协议、信令和路由信息,数据来自路由表(RIB)。数据平面遥测关注流和包的质量、QoS、流量统计等,数据来自转发表(FIB)、ACL以及转发芯片CPU。外部数据和事件遥测关注社会事件、环境事件等外部数据源。这四个模块通过统一接口向应用提供数据,应用可以跨模块获取数据、综合分析并执行操作。51学通信认为,这种分层架构设计使得遥测系统既保持了模块的独立性,又提供了统一的访问方式,是架构设计的典范。


二、IFIT框架的核心功能

IFIT(In-situ Flow Information Telemetry)框架是IPv6随路遥测的核心实现。

2.1 IFIT框架的整体架构

IFIT框架整合了随路测量的完整功能链:

flowchart TD
    A[IFIT框架] --> B[数据平面功能]
    A --> C[控制平面功能]
    A --> D[管理平面功能]

    B --> B1[Alternate Marking<br/>IFIT-AM]
    B --> B2[IOAM封装<br/>IFIT-IOAM]

    C --> C1[IGP能力通告]
    C --> C2[BGP-LS拓扑上报]
    C --> C3[BGP SR Policy扩展]

    D --> D1[配置管理]
    D --> D2[采集管理]
    D --> D3[分析可视化]

    E[数据流向] --> F["采集 -> 处理 -><br/>上报 -> 分析"]

图表讲解:这张图展示了IFIT框架的完整功能架构。数据平面功能包括Alternate Marking(IFIT-AM)和IOAM封装(IFIT-IOAM)两种技术路线,分别适应不同的测量需求。控制平面功能通过IGP、BGP-LS、BGP SR Policy等协议扩展,实现了能力通告、拓扑上报和策略下发。管理平面功能提供配置管理、采集管理和分析可视化等完整的管理能力。数据流向是从采集到处理到上报再到分析,形成完整的闭环。51学通信认为,IFIT框架的价值在于它不是一个孤立的技术点,而是整合了数据平面、控制平面、管理平面的完整解决方案,这才是它能够实现商用部署的关键。

2.2 IFIT支持的测量模式

IFIT框架支持三种核心测量模式:

flowchart TD
    A[IFIT测量模式] --> B[端到端E2E]
    A --> C[边缘到边缘E2E]
    A --> D[直接导出DE]

    B --> B1["入口到出口<br/>完整路径测量"]
    B --> B2["适用于IP专线<br/>端到端SLA"]

    C --> C1["域内测量<br/>减少数据上报"]
    C --> C2["适用于跨域<br/>网络场景"]

    D --> D1["本地采集<br/>本地分析"]
    D --> D2["实时性最强"]
    D --> D3["适用于边缘<br/>计算场景"]

    E[模式选择] --> F["业务需求"]
    E --> G["网络拓扑"]
    E --> H["部署策略"]

图表讲解:这张图展示了IFIT框架支持的三种测量模式。端到端(End-to-End)模式从业务入口到出口的完整路径进行测量,适用于IP专线等需要端到端SLA保证的场景。边缘到边缘(Edge-to-Edge)模式只测量域内路径,减少了跨域数据上报的需求,适用于跨域网络场景。直接导出(Direct Export)模式在本地采集和分析数据,实时性最强,适用于边缘计算场景。选择合适的测量模式需要考虑业务需求、网络拓扑和部署策略等多重因素。51学通信建议,在实际部署中通常会组合使用多种测量模式,以满足不同业务的不同需求。

2.3 IFIT部署自动化的实现机制

IFIT框架的一个重要特性是支持大规模部署的自动化:

sequenceDiagram
    participant Device as 网络设备
    participant IGP as IGP协议
    participant BGP as BGP协议
    participant Controller as 控制器

    Note over Device,Controller: 第一阶段:能力发现
    Device->>IGP: 1. 发布IFIT能力TLV
    IGP->>Controller: 2. 洪泛能力信息

    Note over Device,Controller: 第二阶段:拓扑上报
    Device->>BGP: 3. 上报链路状态和属性
    BGP->>Controller: 4. BGP-LS收集拓扑

    Note over Device,Controller: 第三阶段:策略下发
    Controller->>Device: 5. 下发测量策略
    Device->>Device: 6. 自动配置测量实例

    Note over Device,Controller: 第四阶段:数据上报
    Device->>Controller: 7. 上报随路测量数据
    Controller->>Controller: 8. 分析和可视化

图表讲解:这个序列图展示了IFIT部署自动化的完整流程。第一阶段是能力发现,网络设备通过IGP协议发布IFIT能力TLV,控制器通过IGP洪泛学习网络中的设备能力。第二阶段是拓扑上报,设备通过BGP-LS上报链路状态和属性信息,控制器收集网络拓扑。第三阶段是策略下发,控制器根据网络状态和业务需求下发测量策略,设备自动配置测量实例。第四阶段是数据上报,设备上报随路测量数据,控制器进行分析和可视化。51学通信特别提醒,这个自动化流程的核心是标准化——通过标准的协议扩展(IGP TLV、BGP-LS等)实现多厂商设备的互操作性,这是大规模商用部署的基础。


三、数据采集机制与测量模式

数据采集是随路遥测的核心功能,理解其机制对于掌握整个技术至关重要。

3.1 随路测量的数据采集流程

随路测量的数据采集是一个多步骤的协同过程:

flowchart TD
    A[数据采集流程] --> B[流量识别]
    A --> C[数据包标记]
    A --> D[信息采集]
    A --> E[数据处理]

    B --> B1["五元组匹配"]
    B --> B2["ACL规则"]
    B --> B3["VRF标识"]
    B --> B4["隧道标识"]

    C --> C1["设置标志位"]
    C --> C2["添加IOAM选项"]
    C --> C3["携带测量指令"]

    D --> D1["路径信息"]
    D --> D2["时延信息"]
    D --> D3["队列信息"]
    D --> D4["丢包信息"]

    E --> E1["本地聚合"]
    E --> E2["抑制上报"]
    E --> E3["直接导出"]

    F[采集目标] --> G["真实业务流<br/>实时采集<br/>逐跳精细"]

图表讲解:这张图展示了随路测量数据采集的完整流程。流量识别是第一步,通过五元组、ACL规则、VRF标识、隧道标识等方式识别需要测量的业务流。数据包标记是第二步,通过设置标志位或添加IOAM选项来携带测量指令和空间。信息采集是第三步,每个转发节点根据采集指令收集路径、时延、队列、丢包等信息。数据处理是第四步,可以选择本地聚合、抑制上报或直接导出等不同处理方式。随路测量的采集目标是对真实业务流进行实时采集,实现逐跳的精细测量。51学通信认为,这个流程设计的精妙之处在于它既保证了测量的精确性,又通过多种优化机制控制了网络开销。

3.2 智能流选择与上报抑制机制

智能流选择和上报抑制是控制随路测量开销的关键机制:

flowchart TD
    A[智能流选择] --> B[基于优先级]
    A --> C[基于业务类型]
    A --> D[动态调整]

    B --> B1["金流:精细测量"]
    B --> B2["银流:轻量测量"]
    B --> B3["铜流:不测量"]

    C --> C1["语音/视频"]
    C --> C2["数据业务"]
    C --> C3["信令业务"]

    D --> D1["网络负载自适应"]
    D --> D2["时间策略"]
    D --> D3["事件触发"]

    E[上报抑制] --> F["正常情况<br/>汇总上报"]
    E --> G["异常情况<br/>详细上报"]
    E --> H["路径变化<br/>立即上报"]

图表讲解:这张图展示了智能流选择和上报抑制机制的完整设计。智能流选择基于优先级、业务类型和动态调整三个维度。基于优先级将流分为金流(高价值,精细测量)、银流(中价值,轻量测量)、铜流(低价值,不测量)。基于业务类型为语音/视频、数据业务、信令业务设计不同的测量策略。动态调整根据网络负载、时间策略和事件触发自适应调整测量强度。上报抑制机制确保在正常情况下只汇总上报统计数据,在异常情况(如性能劣化)或路径变化时才详细上报。51学通信提醒,这些优化机制是随路遥测能够大规模商用的关键——如果没有这些机制,随路测量的网络开销将是不可接受的。

3.3 三种测量模式的详细对比

三种测量模式在技术实现和应用场景上有显著差异:

flowchart TD
    A[测量模式对比] --> B[E2E端到端]
    A --> C[E2E边缘到边缘]
    A --> D[DE直接导出]

    B --> B1["测量范围<br/>入口到出口"]
    B --> B2["数据上报<br/>出口节点"]
    B --> B3["适用场景<br/>IP专线"]

    C --> C1["测量范围<br/>域内"]
    C --> C2["数据上报<br/>边缘节点"]
    C --> C3["适用场景<br/>跨域网络"]

    D --> D1["测量范围<br/>单节点"]
    D --> D2["数据上报<br/>本地"]
    D --> D3["适用场景<br/>边缘计算"]

    E[技术选择] --> F["精度 vs 开销<br/>可视性 vs 复杂度"]

图表讲解:这张图详细对比了三种测量模式的技术特点。端到端模式的测量范围是从入口到出口的完整路径,数据在出口节点上报,适用于IP专线等需要完整路径可视化的场景。边缘到边缘模式只测量域内路径,数据在边缘节点上报,适用于跨域网络等需要减少上报数据的场景。直接导出模式的测量范围只有单个节点,数据在本地处理和上报,适用于边缘计算等需要实时响应的场景。选择测量模式需要在精度与开销、可视性与复杂度之间进行权衡。51学通信建议,在实际部署中,通常会在核心网络使用边缘到边缘模式(减少跨域上报),在专线等关键业务使用端到端模式(保证SLA),在边缘节点使用直接导出模式(快速响应)。


四、数据平面技术与IOAM

数据平面技术是随路测量的基础,IOAM是其中的核心标准。

4.1 IOAM的技术定义与选项类型

IOAM(In-situ OAM)定义了丰富的随路测量选项:

flowchart TD
    A[IOAM选项类型] --> B[Trace<br/>追踪选项]
    A --> C[Proof-of-Transit<br/>传输验证]
    A --> D[Edge-to-Edge<br/>边缘到边缘]
    A --> E[Direct Export<br/>直接导出]

    B --> B1["逐跳路径信息"]
    B --> B2["节点标识<br/>接口标识"]
    B --> B3["时间戳信息"]
    B --> B4["队列信息"]

    C --> C1["路径验证"]
    C --> B2["包传输证明"]
    C --> C3["丢包检测"]

    D --> D1["域内测量"]
    D --> D2["边界节点处理"]
    D --> C3["减少上报数据"]

    E --> E1["本地采集<br/>本地分析"]
    E --> E2["实时响应"]
    E --> E3["减轻中心负载"]

    F[技术演进] --> G["持续优化<br/>功能增强"]

图表讲解:这张图展示了IOAM定义的四种核心选项类型。Trace(追踪)选项用于收集逐跳路径信息,包括节点标识、接口标识、时间戳、队列信息等详细数据。Proof-of-Transit(传输验证)选项用于验证数据包的实际传输路径,提供包传输证明和丢包检测能力。Edge-to-Edge(边缘到边缘)选项用于域内测量,由边界节点进行处理,减少上报数据量。Direct Export(直接导出)选项在本地采集和分析数据,实现实时响应并减轻中心负载。IOAM技术仍在持续演进中,功能不断增强。51学通信特别强调,IOAM的模块化设计使得可以根据具体需求选择合适的选项组合,避免了”一刀切”的资源浪费。

4.2 IOAM数据字段的封装格式

IOAM数据字段需要封装在数据包中进行传输:

flowchart TD
    A[IOAM封装] --> B[IPv6扩展头]
    A --> C[SRH段路由头]
    A --> D[HBH逐跳头]

    B --> B1["DOH封装"]
    B --> B2["EH封装链"]

    C --> C1["SRH TLV"]
    C --> C2["与Segment List<br/>协同"]

    D --> D1["逐跳处理"]
    D --> D2["所有节点<br/>可见"]

    E[封装选择] --> F["网络拓扑"]
    E --> G["设备能力"]
    E --> H["测量需求"]

图表讲解:这张图展示了IOAM数据字段的多种封装方式。IPv6扩展头提供了多种封装选择,包括DOH(Destination Options Header)和EH(Encapsulation Header)封装链。SRH(Segment Routing Header)段路由头是一个重要的封装位置,可以通过TLV(Type-Length-Value)格式携带IOAM数据,与Segment List协同工作。HBH(Hop-by-Hop)逐跳头是另一种选择,所有节点都能看到封装的数据。封装方式的选择需要考虑网络拓扑、设备能力和测量需求等因素。51学通信认为,SRH封装是随路遥测与SRv6技术协同的最佳方式,因为它天然支持路径信息和测量信息的集成。

4.3 Alternate Marking方法的工作原理

Alternate Marking(替代标记)是实现随路测量的另一种重要方法:

sequenceDiagram
    participant I as 入口节点
    participant N1 as 中间节点1
    participant N2 as 中间节点2
    participant E as 出口节点

    Note over I,E: 测量周期N
    I->>I: 1. 标记红色包
    I->>N1: 2. 发送红色数据包
    N1->>N1: 3. 红色计数+
    I->>N1: 4. 发送绿色数据包
    N1->>N1: 5. 绿色计数+
    N1->>N2: 6. 转发数据包
    N2->>N2: 7. 分别计数
    N2->>E: 8. 转发数据包
    E->>E: 9. 分别计数<br/>计算丢包和时延

    Note over I,E: 测量周期N+1<br/>重复上述过程

图表讲解:这个序列图展示了Alternate Marking方法的工作原理。在每个测量周期内,入口节点交替标记”红色”和”绿色”数据包。每个中间节点分别统计红色和绿色数据包的数量。出口节点通过比较红色和绿色数据包的计数差异,可以计算出丢包率;通过比较红色和绿色数据包的平均时延差异,可以计算出时延。这种方法的优势是不需要为每个数据包携带测量信息,大大减少了网络开销。51学通信提醒,Alternate Marking特别适合周期性的性能监控和SLA验证,是网络质量管理的有效工具。


五、控制平面协议扩展

控制平面的协议扩展是IFIT框架实现自动化的基础。

5.1 IGP协议扩展(IS-IS/OSPFv3)

IGP协议扩展用于在网络中广播IFIT能力:

flowchart TD
    A[IGP扩展] --> B[能力通告TLV]
    A --> C[设备角色]
    A --> D[扩展方式]

    B --> B1["IFIT能力支持"]
    B --> B2["测量模式支持"]
    B --> B3["上报方式支持"]

    C --> C1["入口节点"]
    C --> C2["中间节点"]
    C --> C3["出口节点"]

    D --> D1["IS-IS扩展"]
    D --> D2["OSPFv3扩展"]

    E[通告流程] --> F["设备启动时<br/>发布能力TLV"]
    E --> G["控制器监听<br/>学习网络能力"]
    E --> H["建立能力视图"]

图表讲解:这张图展示了IGP协议扩展的核心内容。能力通告TLV定义了IFIT能力支持、测量模式支持、上报方式支持等信息。设备角色包括入口节点(负责标记)、中间节点(负责采集)、出口节点(负责计算)三种。扩展方式包括IS-IS扩展和OSPFv3扩展两种。通告流程是:设备启动时发布能力TLV,控制器监听并学习网络中各设备的IFIT能力,建立全网的能力视图。51学通信认为,IGP能力通告是部署自动化的第一步,也是最关键的一步——只有控制器准确掌握了网络设备的测量能力,才能做出正确的部署决策。

5.2 BGP-LS扩展用于拓扑上报

BGP-LS扩展用于向控制器上报网络拓扑信息:

flowchart TD
    A[BGP-LS扩展] --> B[链路属性TLV]
    A --> C[节点属性TLV]
    A --> D[前缀属性TLV]

    B --> B1["链路带宽"]
    B --> B2["链路时延"]
    B --> B3["链路丢包率"]

    C --> C1["设备能力"]
    C --> C2["设备角色"]
    C --> C3["位置信息"]

    D --> D1["IP前缀]
    D --> D2["SRv6 SID"]
    D --> D3["标签信息"]

    E[上报机制] --> F["增量更新"]
    E --> G["触发上报"]

图表讲解:这张图展示了BGP-LS扩展的上报内容。链路属性TLV携带链路的带宽、时延、丢包率等性能属性,这些信息对于流量工程和路径优化至关重要。节点属性TLV携带设备能力、设备角色、位置信息等,帮助控制器理解网络中的设备部署情况。前缀属性TLV携带IP前缀、SRv6 SID、标签信息等路由相关信息。上报机制采用增量更新和触发上报相结合的方式,既保证实时性又控制上报开销。51学通信特别提醒,BGP-LS扩展是控制器获取网络拓扑信息的主要渠道,这些信息对于制定合理的随路遥测部署策略至关重要。

5.3 BGP SR Policy扩展用于策略下发

BGP SR Policy扩展用于向网络设备下发随路遥测策略:

flowchart TD
    A[BGP SR Policy扩展] --> B[IOAM相关Sub-TLV]
    A --> C[策略下发流程]
    A --> D[策略类型]

    B --> B1["预分配Trace"]
    B --> B2["增量Trace"]
    B --> B3["直接导出"]
    B --> B4["边缘到边缘"]
    B --> B5["增强AM"]

    C --> C1["控制器生成"]
    C --> C2["BGP发布"]
    C --> C3["头节点接收<br/>应用到转发面"]

    D --> D1["Color标识"]
    D --> D2["测量实例ID"]
    D --> C3["采集周期"]
    D --> D4["上报策略"]

    E[部署自动化] --> F["策略自动下发<br/>无需人工配置"]

图表讲解:这张图展示了BGP SR Policy扩展的核心功能。IOAM相关的Sub-TLV包括预分配Trace、增量Trace、直接导出、边缘到边缘、增强AM等多种测量选项。策略下发流程是:控制器生成策略,通过BGP协议发布,头节点接收并应用到转发面。策略类型包括Color标识(用于流量识别)、测量实例ID、采集周期、上报策略等参数。部署自动化的价值在于策略可以自动下发,无需人工逐个设备配置。51学通信认为,BGP SR Policy扩展与SDN控制器的结合,实现了随路遥测的集中化管理,这是与SDN网络架构完美契合的设计。


六、部署自动化与系统价值

部署自动化是IFIT框架区别于传统OAM的关键特征。

6.1 部署自动化的实现层次

IFIT的部署自动化在多个层面实现:

flowchart TD
    A[部署自动化] --> B[能力层自动化]
    A --> C[策略层自动化]
    A --> D[运维层自动化]

    B --> B1["设备能力自动发现<br/>IGP通告"]
    B --> B2["拓扑自动学习<br/>BGP-LS"]

    C --> C1["策略自动生成"]
    C --> C2["策略自动下发<br/>SR Policy"]
    C --> B3["实例自动创建"]

    D --> D1["数据自动采集"]
    D --> D2["异常自动检测"]
    D --> D3["报告自动生成"]

    E[自动化价值] --> F["降低部署复杂度<br/>提升运维效率"]

图表讲解:这张图展示了IFIT部署自动化的三个层次。能力层自动化通过IGP通告实现设备能力的自动发现,通过BGP-LS实现拓扑的自动学习。策略层自动化实现策略的自动生成、自动下发和实例的自动创建。运维层自动化实现数据的自动采集、异常的自动检测和报告的自动生成。这三个层次的自动化共同构成了完整的自动化部署体系。51学通信认为,部署自动化是IFIT框架能够大规模商用的关键——如果没有自动化,在大规模网络中部署随路遥测将是一项极其复杂和易错的任务。

6.2 IFIT与传统OAM的架构对比

IFIT框架与传统OAM在架构设计上有根本差异:

flowchart TD
    A[架构对比] --> B[传统OAM]
    A --> C[IFIT框架]

    B --> B1["带外测量"]
    B --> B2["人工触发"]
    B --> B3["逐设备配置"]
    B --> B4["离线分析"]

    C --> C1["带内测量"]
    C --> C2["自动化触发"]
    C --> C3["策略自动下发"]
    C --> C4["实时分析"]

    E[架构转变] --> F["从工具到平台<br/>从被动到主动<br/>从人工到智能"]

图表讲解:这张图对比了IFIT框架与传统OAM的架构差异。传统OAM采用带外测量、人工触发、逐设备配置、离线分析的方式,本质上是一种”工具”——需要人工操作的工具。IFIT框架采用带内测量、自动化触发、策略自动下发、实时分析的方式,本质上是一个”平台”——能够自动运行的平台。这种架构转变代表了从工具到平台、从被动到主动、从人工到智能的根本性变化。51学通信认为,理解这个架构差异是理解IFIT价值的关键——它不是一个更好的测量工具,而是一个全新的测量平台。


七、总结

本文全面介绍了IPv6随路遥测的架构设计,包括网络遥测框架、IFIT框架、数据采集机制等核心内容。

核心要点回顾

  1. NTF框架:四层模块架构(管理平面、控制平面、数据平面、外部事件遥测)提供了统一的遥测数据抽象
  2. IFIT框架:整合了Alternate Marking和IOAM两种技术路线,支持端到端、边缘到边缘、直接导出三种测量模式
  3. 数据采集机制:智能流选择和上报抑制机制平衡了测量精度和网络开销
  4. 控制平面扩展:IGP、BGP-LS、BGP SR Policy等协议扩展实现了部署自动化
  5. 部署自动化:从能力发现到策略下发的完整自动化流程

51学通信认为,IPv6随路遥测架构设计的核心价值在于它构建了一个完整的、可商用的技术系统。这个系统不仅有强大的测量能力,更重要的是有完善的自动化机制,这使得它能够在大规模网络中实际部署并产生价值。理解这个架构是深入掌握IPv6随路遥测技术的基础。

下篇预告

下一篇我们将深入探讨IPv6随路遥测的数据平面技术,详细解析Alternate Marking和IOAM的工作原理、封装机制、时间同步要求,以及它们在SRv6网络中的实现方式。


常见问题解答

Q1:NTF框架的四层模块是如何协同工作的?应用如何跨模块获取数据?

:NTF框架的四层模块(管理平面遥测MPT、控制平面遥测CPT、数据平面遥测DPT、外部数据和事件遥测EDET)通过统一的架构和接口协同工作,为应用提供全面的数据服务。

这四层模块基于数据来源和导出位置进行划分,每层模块负责不同类型的数据。管理平面遥测主要获取设备的配置和运行状态数据,通过CLI、SNMP、Netconf等协议,数据来自设备的主控CPU。控制平面遥测关注控制协议和路由信息,数据来自路由表(RIB)。数据平面遥测关注流和包的质量信息,数据来自转发表(FIB)、ACL以及转发芯片CPU。外部数据和事件遥测关注外部事件和社会、环境等信息。

跨模块数据获取通过统一的数据抽象和接口实现。RFC 9232定义的两级架构确保了不同模块之间的一致性。应用可以通过统一的API访问任意模块的数据,不需要关心数据的具体来源。例如,一个网络优化应用可能需要同时使用数据平面的流量统计和控制平面的路由信息,IFIT框架提供了统一的机制来关联和分析这些数据。

数据融合是多模块协同的关键。对于需要来自多个模块数据的应用,数据源需要通过公共名称或标识符进行关联,才能发挥综合分析的价值。例如,要分析某个业务的端到端性能,可能需要融合数据平面的测量数据、控制平面的路由信息和管理平面的设备状态。

51学通信提醒,理解NTF框架的模块化设计对于系统设计很重要。这种分层设计使得新功能可以方便地添加到相应模块,而不影响其他模块。同时,统一的抽象简化了应用开发,应用开发者不需要关心底层数据来源的差异,只需要关注业务逻辑本身。


Q2:智能流选择和上报抑制机制是如何平衡测量精度和网络开销的?

:智能流选择和上报抑制机制通过精细化的流量分类和策略化的数据上报,实现了测量精度和网络开销的动态平衡。

智能流选择的核心思想是”不平等对待所有流量”。网络中的流量价值不同,对测量精度的需求也不同。高价值的”金流”(如金融交易、工业控制)需要精细的实时测量;中等价值的”银流”(如普通企业业务)需要周期性的性能监控;低价值的”铜流”(如互联网访问)可以采用抽样或统计测量。这种差异化的测量策略确保了有限资源被用在最重要的地方,既保证了关键业务的测量精度,又控制了整体的网络开销。

智能流选择的实现依赖于灵活的流识别机制。可以通过五元组(源IP、目的IP、源端口、目的端口、协议)、ACL规则、VRF标识、隧道标识等多种方式识别和分类流量。更先进的实现还可以基于DPI(深度包检测)识别应用层协议,或者基于业务上下文动态调整流量分类。例如,在网络负载较轻时,可以增加测量流的比例;在网络负载较重时,可以减少测量流的比例。

上报抑制机制进一步优化了数据上报策略。在正常情况下,设备只汇总上报统计数据(如周期性的性能指标),不需要上报每个数据包的详细信息。只有当异常情况发生时(如路径变化、性能劣化超过阈值),才触发详细的上报。这种”按需上报”的策略大大减少了不必要的数据传输,既节省了网络带宽,又减轻了控制器的处理负担。

上报抑制的一个关键挑战是确定什么是”异常”。这需要设置合理的阈值,避免误报和漏报。阈值可以是固定的(如时延超过10ms),也可以是动态的(基于历史数据的统计分析)。51学通信认为,合理的阈值设置是平衡测量精度和网络开销的艺术——阈值太高会导致问题发现延迟,阈值太低会产生大量误报。


Q3:三种测量模式(E2E、E2E边缘到边缘、DE)分别适用于什么场景?如何选择?

:三种测量模式分别适用于不同的网络场景和业务需求,选择时需要考虑网络拓扑、业务重要性、跨域要求和实时性需求等因素。

端到端(End-to-End)模式适用于需要完整路径可视化的场景,如IP专线、关键业务监控等。在这种模式下,从业务入口到出口的所有转发节点都会参与测量,最终在出口节点汇总计算结果。端到端模式的优势是提供最完整的可视化能力,可以精确定位问题发生的具体位置。劣势是产生的数据量较大,对于长路径或跨域场景可能存在可扩展性问题。端到端模式最适合那些对SLA要求极高、网络拓扑相对简单的场景。

边缘到边缘(Edge-to-Edge)模式适用于跨域网络或大规模网络场景。在这种模式下,每个管理域只测量域内的路径,在域的边界节点进行数据汇总和上报。这种方式减少了跨域的数据传输,也保护了域内的隐私信息。边缘到边缘模式的问题是无法提供完整的端到端可视性,端到端问题需要跨域协同分析。这种模式最适合运营商网络或大型企业网络的分段管理场景。

直接导出(Direct Export)模式适用于需要本地快速响应的场景,如边缘计算、本地分析等。在这种模式下,采集点将数据直接导出到本地分析系统,不上报到中央控制器。这种模式的实时性最好,响应最快,但缺乏全局视角,无法进行跨节点的综合分析。直接导出模式最适合边缘计算场景,或者作为其他模式的补充(在异常情况下本地快速分析)。

选择测量模式时,51学通信建议遵循以下原则:

  1. 优先考虑业务需求——关键业务优先选择端到端模式
  2. 考虑网络规模——大规模网络优先选择边缘到边缘模式
  3. 考虑实时性要求——高实时性需求可以考虑直接导出
  4. 考虑跨域场景——跨域网络必须使用边缘到边缘模式
  5. 组合使用多种模式——实际部署中通常不会只使用单一模式

Q4:BGP SR Policy扩展是如何实现随路遥测策略下发的?与SDN控制器如何协同?

:BGP SR Policy扩展通过定义新的TLV类型来携带随路遥测策略信息,与SDN控制器协同实现智能化的策略管理和下发。

BGP SR Policy扩展的核心是在SR Policy中添加了随路遥测相关的Sub-TLV,包括:

  1. IOAM预分配Trace选项Sub-TLV:定义预分配的Trace选项参数
  2. IOAM增量Trace选项Sub-TLV:定义增量Trace选项参数
  3. IOAM直接导出选项Sub-TLV:定义直接导出选项参数
  4. IOAM边缘到边缘选项Sub-TLV:定义边缘到边缘选项参数
  5. 增强AM Sub-TLV:定义增强的Alternate Marking参数

这些Sub-TLV携带了随路遥测所需的关键信息,如测量实例ID、采集周期、上报策略、过滤条件等。

策略下发的流程是:首先,SDN控制器通过BGP-LS收集网络拓扑和设备能力信息。然后,控制器根据业务需求生成随路遥测策略,将策略编码为BGP SR Policy并通过BGP协议发布到网络中。头节点( ingress节点)接收并解析SR Policy,将策略应用到转发面,开始随路测量。中间节点和出口节点根据策略执行相应的采集和上报动作。

SDN控制器与BGP SR Policy的协同体现在多个方面。控制器负责全局的策略制定和优化,它可以根据网络状态、业务需求、SLA要求等因素动态调整策略。BGP SR Policy作为策略分发通道,利用现有的BGP基础设施,不需要建设新的协议通道。控制器可以实时监控网络性能,当检测到异常或趋势时,动态调整测量策略(如增加测量粒度、启用新的测量功能)。

51学通信认为,这种协同设计体现了”控制与转发分离”的理念。控制平面(SDN控制器 + BGP)负责智能决策,转发平面负责执行。这种架构不仅提高了灵活性,还增强了可扩展性——新的测量功能可以通过扩展Sub-TV来定义,不需要改变转发平面的硬件逻辑。


Q5:IFIT部署自动化需要网络设备支持哪些能力?存量设备如何处理?

:IFIT部署自动化需要网络设备支持多方面的能力,包括协议支持、数据面能力、性能能力等。对于存量设备,需要采取过渡策略。

网络设备需要支持以下核心能力:

  1. 协议支持:支持IGP(IS-IS/OSPFv3)的能力通告扩展,支持BGP-LS的拓扑上报扩展,支持BGP SR Policy的策略下发扩展
  2. 数据面能力:支持识别和标记被测数据包,支持采集和记录随路测量信息,支持多种测量模式
  3. 性能能力:具备足够的处理能力和存储空间来支持随路测量功能,不影响业务转发性能
  4. 可编程性:支持通过软件升级增加新的测量功能和选项

对于存量设备的处理,有以下几种策略:

  1. 分层部署:在核心层部署支持IFIT的新设备,接入层存量设备保持现状。新设备可以覆盖大部分关键业务流,提供主要的测量价值。
  2. 边缘部署:在网络边缘部署支持IFIT的设备,实现边缘网络的可视化。核心网络可以暂时保持现状。
  3. 代理模式:对于不支持IFIT的关键节点,可以部署旁路监控设备,通过镜像或分光的方式获取流量信息,模拟随路测量的效果。
  4. 渐进替换:制定设备升级计划,逐步替换不支持IFIT的老旧设备。可以结合正常的设备更新周期,优先替换关键路径上的设备。

51学通信提醒,存量设备的处理需要考虑投资回报。不是所有设备都需要立即升级,应该优先升级那些最能产生价值的设备。例如,核心路由器、汇聚交换机应该优先升级,因为它们覆盖了大量的业务流量。接入层设备可以暂时保持现状,因为单个设备的影响范围有限。

从长远来看,IPv6随路遥测是网络运维的发展方向。存量设备的处理应该与网络演进规划相结合。如果网络已经计划向SRv6演进,那么IFIT能力的升级应该作为SRv6升级的一部分同步推进。这样可以避免重复投资,提高投资效率。