Bonding / Team — NIC 이중화

Linux 커널 NIC 이중화 분석: Bonding(802.3ad LACP, Active-Backup, balance-xor/tlb/alb), Team 드라이버, LACP 상태머신, SR-IOV 연동, Bonding+VLAN 스택, 대규모 운영 모니터링을 다룹니다.

관련 문서: MACVLAN, IPVLAN, veth, TUN/TAP 가상 네트워크 인터페이스는 가상 네트워크 인터페이스 페이지(Page)로 분리되었습니다.

전제 조건: 네트워크 스택(Network Stack)과 디바이스 드라이버 문서를 먼저 읽으세요. NIC 이중화(Bonding)와 Team 드라이버는 물리 NIC 위에 동작하는 소프트웨어 계층입니다.

일상 비유: Bonding은 여러 개의 차선을 하나로 합쳐 고속도로를 만드는 것과 같습니다. Active-Backup은 예비 차선을 두는 것이고, LACP는 여러 차선을 동시에 활용하는 것입니다. Team 드라이버는 같은 목적의 차세대 도구로, 더 유연한 제어판을 제공합니다.

핵심 요약

NIC 이중화의 핵심 — Bonding은 여러 물리 NIC를 하나의 논리 인터페이스로 묶어 장애 시 자동 전환(failover)과 대역폭(Bandwidth) 집계(aggregation)를 제공합니다.
7가지 모드 — Active-Backup(단순 이중화), 802.3ad LACP(스위치 연동 집계), balance-xor/rr/tlb/alb 등 용도별 모드를 선택합니다.
Team vs Bonding — Team 드라이버는 Netlink 기반 사용자 공간(User Space) 제어로 유연성이 높고, Bonding은 커널 내부 완결형으로 안정성과 호환성이 우수합니다.
Bonding + VLAN 스택 — Bonding 위에 VLAN 태깅을 쌓아 이중화와 네트워크 분리를 동시에 달성할 수 있습니다.
SR-IOV 연동 — VF(Virtual Function)와 Bonding을 결합하면 하드웨어 가속과 이중화를 동시에 달성할 수 있습니다.

단계별 이해

Bonding 기초 파악
Active-Backup과 802.3ad LACP 모드의 동작 원리를 이해하고, bond_main.c의 핵심 자료구조(bonding, slave)를 파악합니다.
모드별 차이 비교
7가지 Bonding 모드의 해시(Hash) 정책, 페일오버 메커니즘, 스위치 요구사항을 비교하여 환경에 맞는 모드를 선택합니다.
Team 드라이버와 비교
Team 드라이버의 Netlink 기반 사용자 공간 제어 방식과 Bonding의 커널 완결형 방식을 비교하고, SR-IOV+Bonding 연동 구조를 이해합니다.
실전 구성과 트러블슈팅
Bonding+VLAN 스택, SR-IOV+Bonding, 대규모 운영 모니터링 등 실무 시나리오를 연습하고 흔한 실수를 파악합니다.

Bonding 개요

Linux Bonding은 여러 물리 NIC를 하나의 논리 인터페이스로 묶어 이중화(redundancy)와 부하 분산(load balancing)을 제공합니다. bonding 커널 모듈(Kernel Module)(drivers/net/bonding/)로 구현되며, 7가지 모드를 지원합니다. 커널 2.0부터 존재해온 가장 오래된 NIC 집계 기술로, 현재까지 가장 널리 사용됩니다.

Bonding 전체 아키텍처: 애플리케이션 → bond0(논리 디바이스) → slave NIC들 → 물리 스위치

Bonding 모드

모드	이름	설명	스위치 설정	최대 대역폭(Bandwidth)
0	`balance-rr`	라운드 로빈(Round Robin): 패킷(Packet)을 순서대로 분산	필요 (정적 EtherChannel)	N × link speed (TX+RX)
1	`active-backup`	Active-Standby: 활성 슬레이브 하나만 사용	불필요	1 × link speed
2	`balance-xor`	XOR 해시(Hash): xmit_hash_policy 기반 분산	필요 (정적 EtherChannel)	N × link speed (TX+RX)
3	`broadcast`	모든 슬레이브로 동일 패킷 전송 (fault tolerance용)	필요	1 × link speed (TX), N × (RX)
4	`802.3ad`	LACP: IEEE 802.3ad 동적 링크 집계	필요 (LACP 지원)	N × link speed (TX+RX)
5	`balance-tlb`	송신 부하 분산 (Adaptive TLB)	불필요	N × link speed (TX), 1 × (RX)
6	`balance-alb`	송수신 부하 분산 (Adaptive ALB)	불필요	N × link speed (TX+RX)

모드 선택 가이드:

스위치 설정 불가능 → active-backup(안정), balance-tlb/alb(성능)
스위치 LACP 지원 → 802.3ad (업계 표준, 권장)
스위치 정적 LAG만 지원 → balance-xor
장애 내성이 최우선 → broadcast (모든 슬레이브에 복제 전송)

Bonding 커널 구조

/* drivers/net/bonding/bond_main.c — 핵심 구조체 */
struct bonding {
    struct net_device       *dev;             /* bond 디바이스 */
    struct bond_opt_value   params;

    struct slave __rcu      *curr_active_slave; /* active-backup: 활성 슬레이브 */
    struct slave __rcu      *primary_slave;

    struct list_head        slave_list;       /* 슬레이브 목록 */
    s32                     slave_cnt;

    struct bond_params      params;
    struct ad_bond_info     ad_info;          /* 802.3ad LACP 정보 */

    struct workqueue_struct *wq;
    struct delayed_work     mii_work;         /* MII 모니터링 */
    struct delayed_work     arp_work;         /* ARP 모니터링 */
    struct delayed_work     ad_work;          /* LACP 워크 */
    /* ... */
};

struct slave {
    struct net_device       *dev;             /* 슬레이브 NIC */
    struct bonding          *bond;
    s16                     delay;
    unsigned long           last_link_up;

    u8                      backup:1,         /* 백업 상태 여부 */
                            inactive:1;
    u32                     speed;            /* 링크 속도 */
    u8                      duplex;
    u32                     link;             /* BOND_LINK_UP/DOWN/... */
    /* ... */
};

Bonding 구성

# --- 모드 1: active-backup (가장 일반적) ---
ip link add bond0 type bond mode active-backup miimon 100
ip link set eth0 master bond0
ip link set eth1 master bond0
ip addr add 10.0.0.1/24 dev bond0
ip link set bond0 up

# --- 모드 4: 802.3ad (LACP) ---
ip link add bond0 type bond mode 802.3ad \
    miimon 100 \
    lacp_rate fast \
    xmit_hash_policy layer3+4

ip link set eth0 master bond0
ip link set eth1 master bond0
ip link set bond0 up

# 해시 정책 옵션 (xmit_hash_policy)
#   layer2        : src/dst MAC (기본값)
#   layer2+3      : src/dst MAC + IP
#   layer3+4      : src/dst IP + Port (권장)
#   encap2+3      : 터널 내부 L2+L3
#   encap3+4      : 터널 내부 L3+L4

# Bonding 상태 확인
cat /proc/net/bonding/bond0

# 실시간 슬레이브 전환 (active-backup)
ip link set bond0 type bond active_slave eth1

# ARP 모니터링 (MII 대신)
ip link set bond0 type bond arp_interval 200 arp_ip_target 10.0.0.254

LACP 모범 사례: 802.3ad 모드에서는 lacp_rate fast(1초 간격 LACPDU)와 xmit_hash_policy layer3+4를 권장합니다. 스위치 측에서도 LACP를 활성화하고 동일한 해시 알고리즘을 설정해야 합니다.

Bonding 모드별

각 모드는 bond_xmit_*() 함수와 별도의 수신 처리 로직을 가집니다. 커널 소스에서 모드 선택은 bond_set_mode_ops()가 담당합니다.

7가지 Bonding 모드의 TX 패킷 분산 방식과 커널 함수 매핑(Mapping)

Mode 0: balance-rr (라운드 로빈)

bond_xmit_roundrobin()은 내부 카운터 rr_tx_counter를 증가시키며 슬레이브를 순환 선택합니다. 패킷 단위 분산이므로 단일 TCP 연결의 패킷이 서로 다른 경로로 전송되어 수신 측에서 패킷 재정렬(reordering)이 발생할 수 있습니다.

/* drivers/net/bonding/bond_main.c — Round Robin TX */
static netdev_tx_t bond_xmit_roundrobin(struct sk_buff *skb,
                                        struct net_device *bond_dev)
{
    struct bonding *bond = netdev_priv(bond_dev);
    struct slave *slave;

    /* IGMP/MLD는 항상 curr_active_slave로 전송 (브로드캐스트 루프 방지) */
    if (isBroadcastorMulticast(skb))
        return bond_xmit_activebackup(skb, bond_dev);

    slave = bond_xmit_roundrobin_slave_get(bond, skb);
    if (slave)
        bond_dev_queue_xmit(bond, skb, slave->dev);
    else
        bond_tx_drop(bond_dev, skb);

    return NETDEV_TX_OK;
}

/* packets_per_slave: 한 슬레이브에 연속 전송할 패킷 수 (기본 1)
 * 값을 높이면 재정렬은 줄지만 분산 효율이 낮아짐 */

balance-rr 주의사항: TCP는 패킷 순서에 민감합니다. 라운드 로빈은 단일 TCP 플로우의 패킷이 서로 다른 물리 경로를 타므로 지연(Latency) 차이에 의한 재정렬이 빈번합니다. 이는 TCP 성능 저하(불필요한 재전송(Retransmission), cwnd 감소)를 유발합니다. TCP 워크로드에는 balance-xor나 802.3ad가 더 적합합니다.

Mode 1: active-backup

가장 간단하고 안정적인 모드입니다. curr_active_slave 하나만 TX/RX에 사용하고 나머지는 대기합니다. 활성 슬레이브 장애 시 bond_change_active_slave()가 백업 슬레이브를 활성화하고, GARP(Gratuitous ARP)를 전송하여 스위치 FDB를 갱신합니다.

/* drivers/net/bonding/bond_main.c — Active-Backup TX */
static netdev_tx_t bond_xmit_activebackup(struct sk_buff *skb,
                                            struct net_device *bond_dev)
{
    struct bonding *bond = netdev_priv(bond_dev);
    struct slave *slave;

    slave = rcu_dereference(bond->curr_active_slave);
    if (slave)
        bond_dev_queue_xmit(bond, skb, slave->dev);
    else
        bond_tx_drop(bond_dev, skb);

    return NETDEV_TX_OK;
}

/* 페일오버 시 호출 — GARP로 스위치 FDB 갱신 */
static void bond_change_active_slave(struct bonding *bond,
                                     struct slave *new_active)
{
    struct slave *old_active = rtnl_dereference(bond->curr_active_slave);

    if (old_active == new_active)
        return;

    /* bond MAC 주소를 새 활성 슬레이브에 설정 */
    if (new_active) {
        bond_set_slave_active_flags(new_active, BOND_SLAVE_NOTIFY_NOW);
        /* ... */
    }

    rcu_assign_pointer(bond->curr_active_slave, new_active);

    /* Gratuitous ARP 전송: 스위치가 새 포트로 MAC 학습 */
    if (netif_running(bond->dev)) {
        bond_send_gratuitous_arp(bond);
        bond_send_unsolicited_na(bond);  /* IPv6 NA */
    }
}

primary 옵션: primary eth0을 설정하면 eth0이 복구되었을 때 자동으로 active로 복귀합니다. primary_reselect 옵션으로 복귀 정책을 제어합니다: always(기본: 항상 복귀), better(더 좋은 슬레이브일 때만), failure(현재 active 장애 시만 변경).

Mode 4: 802.3ad (LACP)

IEEE 802.3ad(현재 802.1AX) 표준 기반의 Link Aggregation Control Protocol(LACP)을 사용합니다. 양쪽 장비(호스트+스위치)가 LACPDU를 교환하여 동적으로 링크 그룹을 형성합니다. TX 분산은 bond_3ad_xmit_xor()가 담당하며, xmit_hash_policy에 따라 해시 기반으로 슬레이브를 선택합니다.

/* drivers/net/bonding/bond_3ad.c — LACP 핵심 구조체 */
struct lacpdu {
    u8  subtype;               /* 0x01 = LACP */
    u8  version_number;         /* 0x01 */

    /* Actor (자신) 정보 */
    u8  actor_type;             /* TLV type = 1 */
    u8  actor_length;           /* 20 */
    u16 actor_system_priority;
    u8  actor_system[6];       /* MAC 주소 */
    u16 actor_key;              /* Aggregation Key */
    u16 actor_port_priority;
    u16 actor_port;             /* 포트 번호 */
    u8  actor_state;            /* LACP 상태 비트 */

    /* Partner (상대방) 정보 */
    u8  partner_type;           /* TLV type = 2 */
    u8  partner_length;
    u16 partner_system_priority;
    u8  partner_system[6];
    u16 partner_key;
    u16 partner_port_priority;
    u16 partner_port;
    u8  partner_state;

    u8  collector_type;         /* TLV type = 3 */
    u16 collector_max_delay;
    /* ... padding ... */
};

/* LACP 상태 비트 (actor_state / partner_state) */
#define LACP_STATE_ACTIVITY     0x01  /* Active LACP (vs Passive) */
#define LACP_STATE_TIMEOUT      0x02  /* Short timeout (1s vs 30s) */
#define LACP_STATE_AGGREGATION  0x04  /* Aggregatable */
#define LACP_STATE_SYNCHRONIZATION 0x08 /* In sync with partner */
#define LACP_STATE_COLLECTING   0x10  /* 수집 가능 */
#define LACP_STATE_DISTRIBUTING 0x20  /* 분배 가능 */
#define LACP_STATE_DEFAULTED    0x40  /* 기본값 사용 중 */
#define LACP_STATE_EXPIRED      0x80  /* 만료됨 */

Mode 5: balance-tlb (Adaptive Transmit Load Balancing)

스위치 설정 없이 TX 부하를 분산합니다. 각 슬레이브의 링크 속도에 비례하여 트래픽을 배분합니다. RX는 curr_active_slave로만 수신됩니다. 핵심은 __bond_slave_update_tlb()가 주기적으로 슬레이브별 부하를 측정하고 TX 슬레이브를 재배치(Relocation)하는 것입니다.

/* drivers/net/bonding/bond_alb.c — TLB 슬레이브 선택 */
static struct slave *tlb_choose_channel(
    struct bonding *bond,
    u32 hash_index,
    u32 skb_len)
{
    struct tlb_client_info *hash_entry;

    hash_entry = &(BOND_ALB_INFO(bond).tx_hashtbl[hash_index]);

    /* 이 해시에 이미 할당된 슬레이브가 있고 UP이면 재사용 */
    if (hash_entry->tx_slave && bond_slave_can_tx(hash_entry->tx_slave))
        return hash_entry->tx_slave;

    /* 부하가 가장 낮은 슬레이브 선택 */
    hash_entry->tx_slave = tlb_get_least_loaded_slave(bond);
    return hash_entry->tx_slave;
}

/* 주기적 리밸런싱 — 부하가 편중되면 해시 엔트리를 다른 슬레이브로 이동 */
static void bond_tlb_rebalance(struct bonding *bond)
{
    /* 모든 해시 엔트리 순회 → 과부하 슬레이브의 엔트리를 저부하 슬레이브로 재배치 */
    /* 재배치 주기: lp_interval (기본 1초) */
}

Mode 6: balance-alb (Adaptive Load Balancing)

TLB의 확장으로, TX 분산에 더해 RX도 분산합니다. ARP 응답을 가로채서 각 peer에게 서로 다른 슬레이브의 MAC 주소를 알려주는 방식(rlb_teach_disabled_mac_on_primary())으로 수신 트래픽도 여러 슬레이브에 분산합니다.

/* drivers/net/bonding/bond_alb.c — RLB(Receive Load Balancing) 핵심 */
/* ARP 응답을 가로채서 소스 MAC을 특정 슬레이브의 MAC으로 변경 */
static void rlb_update_client(struct rlb_client_info *client)
{
    /* client->slave에 할당된 슬레이브의 MAC을
     * ARP 응답의 src MAC으로 설정 → peer는 이 MAC으로 패킷 전송
     * → 해당 슬레이브가 직접 RX 수신 */
}

/* RLB 해시 테이블: IP 주소 기반으로 peer별 수신 슬레이브 매핑 */
struct rlb_client_info {
    __be32           ip_src;       /* peer IP */
    __be32           ip_dst;       /* 자신의 IP */
    u8               mac_src[6];   /* peer MAC */
    u8               mac_dst[6];   /* 할당된 슬레이브 MAC */
    struct slave     *slave;       /* 할당된 수신 슬레이브 */
    u32              ntt;          /* need to transmit (ARP 갱신 필요) */
    struct rlb_client_info *next;
    struct rlb_client_info *prev;
};

ALB 제한사항: RLB는 ARP 기반이므로 IPv4에서만 동작합니다. IPv6 환경에서는 TLB 부분만 작동하고 RX 분산은 불가합니다. 또한 VLAN 태그가 있는 ARP 패킷의 경우 일부 스위치에서 MAC 학습 문제가 발생할 수 있습니다.

802.3ad LACP 프로토콜

LACP(Link Aggregation Control Protocol)는 양쪽 장비가 주기적으로 LACPDU(LACP Data Unit)를 교환하여 링크 집계 그룹(LAG)을 동적으로 형성하고 유지합니다. 커널 구현은 drivers/net/bonding/bond_3ad.c에 있습니다.

LACP 상태 머신: Initialize → Port Disabled → Expired → Active → Collecting → Distributing

LACP 상태 머신

Linux bonding의 LACP 구현은 IEEE 802.3ad 부속서 43에 정의된 3개의 상태 머신을 구현합니다:

상태 머신	역할	커널 함수
Receive Machine	LACPDU 수신 처리, Partner 정보 갱신	`ad_rx_machine()`
Periodic TX Machine	주기적 LACPDU 전송 (fast/slow)	`ad_periodic_machine()`
Mux Machine	포트의 Collecting/Distributing 상태 전환	`ad_mux_machine()`

/* drivers/net/bonding/bond_3ad.c — Mux 상태 머신 */
static void ad_mux_machine(struct port *port)
{
    switch (port->sm_mux_state) {
    case AD_MUX_DETACHED:
        /* Aggregator에 연결되면 WAITING으로 전환 */
        if (port->selected == BOND_AD_SELECTED)
            port->sm_mux_state = AD_MUX_WAITING;
        break;

    case AD_MUX_WAITING:
        /* wait_while_timer 만료 후 ATTACHED로 */
        if (port->sm_mux_timer_counter == 0)
            port->sm_mux_state = AD_MUX_ATTACHED;
        break;

    case AD_MUX_ATTACHED:
        /* Partner가 sync+collecting이면 COLLECTING_DISTRIBUTING */
        if (port->partner_oper.port_state & LACP_STATE_SYNCHRONIZATION)
            port->sm_mux_state = AD_MUX_COLLECTING_DISTRIBUTING;
        break;

    case AD_MUX_COLLECTING_DISTRIBUTING:
        /* 정상 동작 상태 — TX/RX 모두 가능 */
        if (!(port->partner_oper.port_state & LACP_STATE_SYNCHRONIZATION))
            port->sm_mux_state = AD_MUX_ATTACHED;
        break;
    }
}

/* Periodic TX Machine — LACPDU 전송 주기 결정 */
static void ad_periodic_machine(struct port *port)
{
    /* lacp_rate fast  → 매 1초 (AD_FAST_PERIODIC_TIME)
     * lacp_rate slow  → 매 30초 (AD_SLOW_PERIODIC_TIME)
     * Partner가 Activity=0이고 자신도 Activity=0이면 전송 안 함 */

    if (port->sm_periodic_timer_counter == 0) {
        port->ntt = true;  /* Need To Transmit */
        /* ad_lacpdu_send()로 LACPDU 전송 */
    }
}

Aggregator와 Key 개념

Aggregation Key는 동일한 LAG에 속할 수 있는 포트를 결정하는 값입니다. 커널은 속도(speed)와 듀플렉스(duplex)를 조합하여 Key를 생성합니다. Key가 동일한 포트만 같은 Aggregator에 배치됩니다.

/* drivers/net/bonding/bond_3ad.c — Key 생성 */
static u16 __get_link_speed(struct port *port)
{
    /* ethtool로 가져온 속도를 LACP 속도 상수로 변환 */
    /* 10M=1, 100M=2, 1G=3, 2.5G=4, 5G=5, 10G=6, ... */
}

/* ad_key = (duplex << 8) | speed
 * 같은 speed+duplex인 포트만 같은 Aggregator에 소속 */
static u32 __get_agg_selection_mode(struct port *port)
{
    struct bonding *bond = __get_bond_by_port(port);
    /* ad_select 옵션:
     * stable   — 가장 많은 포트를 가진 aggregator 우선 (기본)
     * bandwidth — 총 대역폭이 가장 큰 aggregator 우선
     * count    — 포트 수가 가장 많은 aggregator 우선 */
    return bond->params.ad_select;
}

LACP fast vs slow:

lacp_rate fast: LACPDU를 매 1초 전송, 타임아웃 3초. 장애 감지가 빠르지만 CPU/대역폭 소비 약간 증가
lacp_rate slow: LACPDU를 매 30초 전송, 타임아웃 90초. 리소스 절약되지만 장애 감지 느림
프로덕션 환경에서는 fast를 권장 — 스위치 장애 시 3초 이내 감지 가능

장애 감지와 페일오버

Bonding은 두 가지 링크 모니터링 방식을 제공합니다: MII 모니터링(L1/L2 수준)과 ARP 모니터링(L3 수준). 두 방식은 동시 사용이 불가합니다.

MII 모니터링 기반 active-backup 페일오버 시퀀스

MII 모니터링

MII(Media Independent Interface) 모니터링은 NIC의 물리적 링크 상태(carrier)를 주기적으로 확인합니다. miimon 간격(밀리초)마다 bond_mii_monitor()가 실행됩니다.

/* drivers/net/bonding/bond_main.c — MII 모니터링 */
static void bond_mii_monitor(struct work_struct *work)
{
    struct bonding *bond = container_of(work, struct bonding,
                                         mii_work.work);
    struct slave *slave;

    bond_for_each_slave_rcu(bond, slave, iter) {
        u8 link = bond_check_dev_link(bond, slave->dev);

        switch (slave->link) {
        case BOND_LINK_UP:
            if (link != BMSR_LSTATUS) {
                /* 링크 다운 감지 → FAIL 상태로 전환 */
                slave->link = BOND_LINK_FAIL;
                slave->delay = bond->params.downdelay;
            }
            break;

        case BOND_LINK_FAIL:
            if (link == BMSR_LSTATUS) {
                /* 복구됨 → 다시 UP */
                slave->link = BOND_LINK_UP;
            } else if (slave->delay <= 0) {
                /* downdelay 만료 → 진짜 DOWN */
                slave->link = BOND_LINK_DOWN;
                bond_set_slave_inactive_flags(slave, ...);
            } else {
                slave->delay--;
            }
            break;

        case BOND_LINK_DOWN:
            if (link == BMSR_LSTATUS) {
                slave->link = BOND_LINK_BACK;
                slave->delay = bond->params.updelay;
            }
            break;

        case BOND_LINK_BACK:
            if (link != BMSR_LSTATUS) {
                slave->link = BOND_LINK_DOWN;
            } else if (slave->delay <= 0) {
                slave->link = BOND_LINK_UP;
                bond_set_slave_active_flags(slave, ...);
            } else {
                slave->delay--;
            }
            break;
        }
    }

    /* 활성 슬레이브가 없으면 새로 선택 */
    if (bond_should_change_active(bond))
        bond_select_active_slave(bond);

    /* 다음 모니터링 예약 */
    queue_delayed_work(bond->wq, &bond->mii_work,
                       msecs_to_jiffies(bond->params.miimon));
}

ARP 모니터링

ARP 모니터링은 지정된 IP(arp_ip_target)에 ARP 요청을 보내고 응답 수신 여부로 링크 상태를 판단합니다. MII가 감지하지 못하는 스위치 장애, VLAN 미스매치, 상위 경로 장애를 감지할 수 있습니다.

# ARP 모니터링 설정 (MII와 동시 사용 불가)
ip link add bond0 type bond mode active-backup \
    arp_interval 200 \
    arp_ip_target 10.0.0.1,10.0.0.254 \
    arp_validate active \
    arp_all_targets any

# arp_validate 옵션:
#   none    — ARP 응답 검증 안 함 (기본)
#   active  — 활성 슬레이브의 ARP 응답만 검증
#   backup  — 백업 슬레이브의 ARP 응답만 검증
#   all     — 모든 슬레이브의 ARP 응답 검증
#   filter  — ARP 타겟 이외의 소스에서 온 ARP도 수신 카운트
#   filter_active — filter + active 조합
#   filter_backup — filter + backup 조합

# arp_all_targets 옵션:
#   any  — 하나라도 응답하면 링크 UP (기본)
#   all  — 모든 타겟이 응답해야 링크 UP

MII vs ARP 모니터링 비교:

항목	MII	ARP
감지 계층	L1/L2 (물리 링크)	L3 (IP 연결성)
감지 속도	빠름 (miimon ms)	느림 (arp_interval × miss_max)
스위치 장애 감지	불가 (물리 포트 UP 유지)	가능
네트워크 부하	없음	ARP 패킷 발생
VLAN 미스매치 감지	불가	가능
권장 사용처	직접 연결, 일반 환경	다중 홉, 복잡한 토폴로지(Topology)

페일오버 시간 최적화:

miimon=100 + downdelay=0: 최대 100ms 이내 감지 (최소값)
miimon=100 + downdelay=200: 200~300ms (flapping 방지 추천)
updelay=200: 복구 시 200ms 대기 (스위치 STP convergence 대기)
802.3ad + lacp_rate fast: LACP 타임아웃 3초 이내 감지
num_grat_arp=2: GARP를 2회 전송하여 스위치 FDB 갱신 신뢰성 향상

해시 정책과 부하 분산 알고리즘

xmit_hash_policy는 Mode 2(balance-xor), Mode 4(802.3ad)에서 패킷을 어떤 슬레이브로 보낼지 결정하는 해시 함수를 선택합니다. 해시 결과를 슬레이브 수로 모듈러 연산하여 대상 슬레이브를 결정합니다.

xmit_hash_policy 옵션별 해시 입력 필드와 분산 특성 비교

/* drivers/net/bonding/bond_main.c — 해시 함수 구현 */
static u32 bond_xmit_hash(struct bonding *bond,
                          struct sk_buff *skb)
{
    struct flow_keys flow;
    u32 hash;

    switch (bond->params.xmit_hash_policy) {
    case BOND_XMIT_POLICY_LAYER2:
        return bond_eth_hash(skb);

    case BOND_XMIT_POLICY_LAYER23:
        hash = bond_eth_hash(skb);
        if (skb_flow_dissect_flow_keys(skb, &flow, 0))
            return bond_l23_hash(hash, &flow);
        return hash;

    case BOND_XMIT_POLICY_LAYER34:
        if (skb_flow_dissect_flow_keys(skb, &flow, 0))
            return bond_l34_hash(skb, &flow);
        return bond_eth_hash(skb);  /* fallback to L2 */

    case BOND_XMIT_POLICY_ENCAP23:
    case BOND_XMIT_POLICY_ENCAP34:
        return bond_encap_hash(skb, bond->params.xmit_hash_policy);

    default:
        return 0;
    }
}

/* L3+4 해시: src/dst IP + src/dst Port */
static inline u32 bond_l34_hash(struct sk_buff *skb,
                                 struct flow_keys *flow)
{
    u32 hash = flow_get_u32_src(flow) ^ flow_get_u32_dst(flow);
    hash ^= (u32)flow->ports.src ^ ((u32)flow->ports.dst << 16);
    hash ^= hash >> 16;
    hash ^= hash >> 8;
    return hash >> 1;  /* 최종 해시 → % slave_cnt로 슬레이브 선택 */
}

해시 정책의 함정: 해시 기반 분산은 플로우(flow) 단위입니다. 단일 대용량 플로우(예: iperf 단일 TCP 연결)는 아무리 좋은 해시 정책을 써도 하나의 슬레이브만 사용합니다. 실질적 대역폭 향상을 보려면 다수의 동시 연결이 필요합니다. 단일 연결 대역폭이 중요하면 balance-rr이 유일한 옵션이지만, TCP 재정렬 부작용을 감수해야 합니다.

Bonding 흔한 실수와 트러블슈팅

증상	원인	해결
802.3ad에서 한 슬레이브만 사용됨	스위치 LACP 미설정 또는 해시 정책 문제	스위치에서 LACP 활성화, `xmit_hash_policy layer3+4` 설정
페일오버 후 통신 두절 10~30초	스위치 FDB 갱신 지연, GARP 미전송	`num_grat_arp=3`, `num_unsol_na=3` 설정
active-backup에서 양쪽 모두 active	스위치 포트 미러링 또는 설정 오류	`cat /proc/net/bonding/bond0`으로 상태 확인
balance-rr에서 TCP 성능 저하	패킷 재정렬로 인한 재전송	`balance-xor` 또는 `802.3ad`로 변경
LACP에서 슬레이브가 aggregator에 안 들어감	속도/듀플렉스 불일치 (Key 다름)	모든 슬레이브 동일 속도/듀플렉스 확인
링크 flapping (UP↔DOWN 반복)	케이블 불량, downdelay 미설정	`downdelay=200`, `updelay=200` 설정
bond0에 IP 할당 후 통신 불가	슬레이브에 IP가 남아있음	슬레이브의 IP 제거: `ip addr flush dev eth0`
ALB/TLB에서 RX가 분산 안 됨	TLB는 RX 분산 없음, ALB는 IPv4만 지원	RX 분산 필요시 ALB + IPv4 사용, 또는 802.3ad
NetworkManager가 bond를 방해	NM이 슬레이브를 개별 관리	NM으로 bond 구성하거나 `NM_CONTROLLED=no`

# Bonding 디버깅 명령어 모음

# 1. 기본 상태 확인
cat /proc/net/bonding/bond0

# 2. 슬레이브별 상세 정보
ip -d link show bond0
ip -d link show eth0
ip -d link show eth1

# 3. LACP 상태 확인 (802.3ad)
cat /proc/net/bonding/bond0 | grep -A 20 "802.3ad"

# 4. 해시 분산 확인 — 각 슬레이브의 TX/RX 패킷 수 비교
ip -s link show eth0 | grep -A 1 "TX:"
ip -s link show eth1 | grep -A 1 "TX:"

# 5. 커널 로그에서 bonding 이벤트 확인
dmesg | grep -i bond
journalctl -k | grep -i bond

# 6. LACPDU 패킷 캡처
tcpdump -i eth0 -nn ether proto 0x8809 -v

# 7. 강제 페일오버 테스트
ip link set eth0 down   # 활성 슬레이브 강제 다운
cat /proc/net/bonding/bond0 | grep "Currently Active"
ip link set eth0 up     # 복구

# 8. sysfs 파라미터 확인/변경
cat /sys/class/net/bond0/bonding/mode
cat /sys/class/net/bond0/bonding/xmit_hash_policy
cat /sys/class/net/bond0/bonding/lacp_rate
cat /sys/class/net/bond0/bonding/ad_actor_sys_prio
echo "layer3+4" > /sys/class/net/bond0/bonding/xmit_hash_policy

XDP 프로그램 호환성 검증(Linux 6.13)

Linux 6.13에서는 bpf/bonding sanity check가 추가되어, XDP 프로그램이 연결된 상태에서 bond의 해시 정책을 변경하는 경우 호환성을 사전에 검증합니다. 기존에는 XDP 프로그램을 bond0에 붙인 뒤 xmit_hash_policy를 변경하면 일부 슬레이브가 XDP_REDIRECT 타겟 역할을 못 하는 미묘한 경쟁 조건(Race Condition)이 발생할 수 있었습니다.

/* drivers/net/bonding/bond_main.c — 6.13 추가 sanity check */
static int bond_xdp_check(struct bonding *bond,
                          struct netlink_ext_ack *extack)
{
    /* XDP가 연결된 경우, 해시 정책이 XDP와 호환 가능한지 확인
       balance-rr, balance-alb, balance-tlb는 XDP와 호환 불가 */
    if (bond_xdp_is_active(bond) &&
        !bond_xdp_check_hashpolicy(bond)) {
        NL_SET_ERR_MSG(extack,
            "XDP 연결 상태에서 현재 해시 정책은 지원되지 않습니다");
        return -EOPNOTSUPP;
    }
    return 0;
}

# XDP + bonding 검증 실패 사례 (6.13+)
ip link add bond0 type bond mode 802.3ad
ip link set eth0 master bond0
ip link set eth1 master bond0

# XDP 프로그램 부착
ip link set bond0 xdpgeneric obj xdp_prog.o sec xdp

# 호환 불가능한 정책으로 변경 시도 → 거부됨
ip link set bond0 type bond xmit_hash_policy vlan+srcmac
# Error: XDP 연결 상태에서 현재 해시 정책은 지원되지 않습니다

# 해결: XDP 먼저 제거 → 정책 변경 → XDP 재부착

ALB 모드 ARP 경로 use-after-free 수정

Linux 6.13 사이클에서는 ALB(Adaptive Load Balancing) 모드의 ARP 프레임 처리 경로에서 use-after-free 취약점(Vulnerability)이 수정되었습니다. 장치가 빠르게 UP/DOWN을 반복할 때 KASAN이 탐지했던 이슈로, bond_alb_monitor() 워크와 bond_alb_handle_link_change() 사이의 동시성 문제였습니다.

/* drivers/net/bonding/bond_alb.c — 수정 핵심 */
void bond_alb_handle_link_change(struct bonding *bond,
                                  struct slave *slave,
                                  char link)
{
    struct alb_bond_info *bond_info = &(BOND_ALB_INFO(bond));

    /* 수정: slave 포인터 유효성 검증 + RCU grace period 대기 */
    spin_lock_bh(&bond->mode_lock);
    if (!rcu_access_pointer(slave->dev->rx_handler_data)) {
        spin_unlock_bh(&bond->mode_lock);
        return;  /* 이미 detach된 slave의 콜백 방어 */
    }
    ...
    spin_unlock_bh(&bond->mode_lock);
}

영향 범위: mode=balance-alb(mode 6)를 사용하는 환경 + IPv4 ARP 트래픽 집중 구간. 플레이북: KASAN 활성 커널로 스트레스 테스트, dmesg | grep bond_alb로 경고 메시지 확인. stable 백포트: 6.6.y, 6.12.y 계열.

Team 드라이버

Team은 bonding의 현대적 대안으로, Netlink 기반 사용자 공간(User Space) 제어와 모듈러 아키텍처를 제공합니다. 커널 모듈(drivers/net/team/)은 최소한의 프레임워크만 제공하고, 실제 정책 로직은 teamd 데몬과 libteam 라이브러리에서 구현됩니다. RHEL/CentOS 7+에서 bonding의 권장 대안으로 소개되었습니다.

Team 아키텍처: teamd(유저스페이스) ↔ Netlink ↔ team_core(커널) ↔ 포트(물리 NIC)

항목	Bonding	Team
설정 인터페이스	sysfs / module params	Netlink / D-Bus / JSON
런타임 재설정	제한적	완전 지원
사용자 공간 제어	없음	`teamd` 데몬
TX 해시 확장	고정 5가지	사용자 정의 가능
LACP 구현	커널 내	`teamd` (libteam)
NetworkManager	지원	지원 (더 나은 통합)

# Team 인터페이스 생성 (ip 명령)
ip link add team0 type team

# teamd를 이용한 active-backup 구성
teamd -d -t team0 -c '{
    "runner": {"name": "activebackup"},
    "link_watch": {"name": "ethtool"},
    "ports": {
        "eth0": {"prio": 100},
        "eth1": {"prio": 50}
    }
}'

# teamd를 이용한 LACP 구성
teamd -d -t team0 -c '{
    "runner": {
        "name": "lacp",
        "active": true,
        "fast_rate": true,
        "tx_hash": ["eth", "ipv4", "ipv6", "tcp", "udp"]
    },
    "link_watch": {"name": "ethtool"},
    "ports": {
        "eth0": {},
        "eth1": {}
    }
}'

# 상태 확인
teamdctl team0 state
teamdctl team0 state view

# 런타임 포트 추가/제거
teamdctl team0 port add eth2
teamdctl team0 port remove eth2

/* drivers/net/team/team_core.c — Team 핵심 구조체 */
struct team {
    struct net_device       *dev;
    struct team_pcpu_stats __percpu *pcpu_stats;

    const struct team_mode  *mode;            /* runner 모드 */
    struct list_head        port_list;        /* 포트 목록 */
    unsigned int            port_count;

    struct list_head        option_list;      /* 설정 옵션 */
    struct list_head        option_inst_list;

    const struct team_mode_ops *ops;
    bool                    user_carrier_enabled;
    /* ... */
};

/* Team mode 인터페이스 */
struct team_mode_ops {
    int  (*init)(struct team *team);
    void (*exit)(struct team *team);
    bool (*transmit)(struct team *team, struct sk_buff *skb);
    rx_handler_result_t (*receive)(struct team *team,
                                    struct team_port *port,
                                    struct sk_buff *skb);
    /* ... */
};

LACP 상태머신

LACP 프로토콜은 IEEE 802.3ad(현재 802.1AX) 표준에 정의된 3개의 상태 머신과 3개의 타이머(Timer)로 구성됩니다. 커널의 bond_3ad.c는 이 상태 머신을 ad_rx_machine(), ad_periodic_machine(), ad_mux_machine() 세 함수로 구현합니다. 각 포트는 독립적인 상태 머신 인스턴스를 가지며, Actor(자신)와 Partner(상대방)의 상태를 추적합니다.

Actor/Partner 상태 비트

actor_state와 partner_state는 8비트 필드로, 각 비트가 LACP 동작을 제어합니다. 양쪽이 LACPDU를 교환하면서 상대방의 상태를 학습하고, 자신의 상태를 결정합니다.

비트	이름	값	의미	커널 상수
0	Activity	0x01	Active LACP (1) vs Passive (0)	`LACP_STATE_ACTIVITY`
1	Timeout	0x02	Short timeout=1s (1) vs Long=30s (0)	`LACP_STATE_TIMEOUT`
2	Aggregation	0x04	이 포트가 집계 가능 (1)	`LACP_STATE_AGGREGATION`
3	Synchronization	0x08	Aggregator에 동기화됨 (1)	`LACP_STATE_SYNCHRONIZATION`
4	Collecting	0x10	수신 프레임 수집 가능 (1)	`LACP_STATE_COLLECTING`
5	Distributing	0x20	송신 프레임 분배 가능 (1)	`LACP_STATE_DISTRIBUTING`
6	Defaulted	0x40	Partner 정보가 기본값 사용 중 (1)	`LACP_STATE_DEFAULTED`
7	Expired	0x80	Partner 타임아웃으로 만료됨 (1)	`LACP_STATE_EXPIRED`

Active vs Passive LACP:

Active (Activity=1): 자발적으로 LACPDU 전송. Linux bonding에서 lacp_rate 설정에 따라 주기 결정
Passive (Activity=0): 상대방이 Active일 때만 응답. 양쪽 모두 Passive이면 LACP 협상이 시작되지 않음
프로덕션에서는 최소 한쪽을 Active로 설정 (Linux bonding은 기본 Active)

LACPDU 프레임 구조

LACPDU는 IEEE 802.3 Slow Protocols 프레임(EtherType 0x8809)으로, 목적지 MAC 01:80:C2:00:00:02(멀티캐스트)에 전송됩니다. 프레임 크기는 정확히 110바이트입니다.

/* LACPDU 프레임 전체 구조 (110 bytes payload) */
struct lacpdu {
    /* Slow Protocol Header */
    u8  subtype;                /* 0x01 = LACP */
    u8  version;                /* 0x01 */

    /* Actor TLV (Type=1, Length=20) */
    u8  actor_type;              /* 0x01 */
    u8  actor_length;            /* 0x14 (20) */
    __be16 actor_sys_priority;   /* 시스템 우선순위 (기본 65535) */
    u8  actor_system[6];        /* 시스템 MAC (bond MAC) */
    __be16 actor_key;            /* Aggregation Key (speed|duplex) */
    __be16 actor_port_priority;  /* 포트 우선순위 (기본 255) */
    __be16 actor_port;           /* 포트 번호 (0x0001~) */
    u8  actor_state;             /* 8비트 상태 필드 */
    u8  actor_reserved[3];

    /* Partner TLV (Type=2, Length=20) */
    u8  partner_type;            /* 0x02 */
    u8  partner_length;          /* 0x14 (20) */
    __be16 partner_sys_priority;
    u8  partner_system[6];
    __be16 partner_key;
    __be16 partner_port_priority;
    __be16 partner_port;
    u8  partner_state;
    u8  partner_reserved[3];

    /* Collector TLV (Type=3, Length=16) */
    u8  collector_type;          /* 0x03 */
    u8  collector_length;        /* 0x10 (16) */
    __be16 collector_max_delay;  /* Collector Max Delay */
    u8  collector_reserved[12];

    /* Terminator TLV (Type=0, Length=0) + padding */
    u8  terminator_type;         /* 0x00 */
    u8  terminator_length;       /* 0x00 */
    u8  reserved[50];
};

LACP 타이머와 타임아웃

타이머	Fast 모드	Slow 모드	역할
Periodic Timer	1초	30초	LACPDU 전송 주기
Current While Timer	3초 (3x1s)	90초 (3x30s)	Partner LACPDU 수신 타임아웃
Wait While Timer	2초 (고정)		Aggregator 선택 대기
Churn Detection	60초 (고정)		상태 불안정(churn) 감지

/* drivers/net/bonding/bond_3ad.h — LACP 타이머 상수 */
#define AD_FAST_PERIODIC_TIME      1     /* fast: 1초 */
#define AD_SLOW_PERIODIC_TIME      30    /* slow: 30초 */
#define AD_SHORT_TIMEOUT           3     /* fast timeout: 3초 */
#define AD_LONG_TIMEOUT            90    /* slow timeout: 90초 */
#define AD_CHURN_DETECTION_TIME    60    /* churn 감지: 60초 */
#define AD_AGGREGATE_WAIT_TIME     2     /* aggregator 대기: 2초 */

/* Receive Machine에서 타임아웃 처리 */
static void ad_rx_machine(struct lacpdu *lacpdu,
                          struct port *port)
{
    if (port->sm_rx_state == AD_RX_CURRENT) {
        /* current_while_timer가 만료되면 EXPIRED로 전환 */
        if (port->sm_rx_timer_counter == 0) {
            port->sm_rx_state = AD_RX_EXPIRED;
            port->partner_oper.port_state |= LACP_STATE_EXPIRED;
            port->partner_oper.port_state &= ~LACP_STATE_SYNCHRONIZATION;
            /* timeout을 Short로 변경하여 빠른 복구 시도 */
            port->partner_oper.port_state |= LACP_STATE_TIMEOUT;
            port->sm_rx_timer_counter = AD_SHORT_TIMEOUT;
        }
    }

    if (port->sm_rx_state == AD_RX_EXPIRED) {
        /* Short timeout도 만료 → DEFAULTED (Partner 정보 초기화) */
        if (port->sm_rx_timer_counter == 0)
            port->sm_rx_state = AD_RX_DEFAULTED;
    }
}

Aggregator 선택 알고리즘

하나의 bond 디바이스에 여러 Aggregator가 존재할 수 있습니다 (속도/듀플렉스가 다른 포트 그룹). ad_select 옵션으로 어떤 Aggregator를 활성화할지 결정합니다.

/* drivers/net/bonding/bond_3ad.c — Aggregator 선택 */
static void ad_agg_selection_logic(struct aggregator *agg,
                                   bool *update)
{
    struct aggregator *best = NULL;
    struct aggregator *active;
    struct bonding *bond = agg->slave->bond;

    switch (bond->params.ad_select) {
    case BOND_AD_STABLE:
        /* 기본값: 현재 활성 aggregator를 유지
         * 새 aggregator가 더 많은 포트를 가져도 변경하지 않음
         * → 안정적이지만 최적 대역폭 활용 안 될 수 있음 */
        if (active && active->num_of_ports > 0)
            best = active;
        break;

    case BOND_AD_BANDWIDTH:
        /* 총 대역폭(ports × speed)이 가장 큰 aggregator 선택
         * → 동적으로 최적 대역폭 제공 */
        bond_for_each_slave(bond, slave, iter) {
            agg = &(SLAVE_AD_INFO(slave)->aggregator);
            if (__agg_bandwidth(agg) > __agg_bandwidth(best))
                best = agg;
        }
        break;

    case BOND_AD_COUNT:
        /* 포트 수가 가장 많은 aggregator 선택
         * → 포트 수 기준 단순 비교 */
        bond_for_each_slave(bond, slave, iter) {
            agg = &(SLAVE_AD_INFO(slave)->aggregator);
            if (agg->num_of_ports > best->num_of_ports)
                best = agg;
        }
        break;
    }

    /* 활성 aggregator 변경 시 모든 포트의 Mux 상태 재평가 */
    if (best != active)
        *update = true;
}

LACP Mux 상태머신 전이도: DETACHED → WAITING → ATTACHED → COLLECTING → COLLECTING_DISTRIBUTING

Mux Machine 내부 구현

Mux Machine은 포트의 실제 TX/RX 활성 상태를 제어합니다. ad_mux_machine()에서 Aggregator 선택 결과와 Partner의 동기화 상태를 기반으로 DETACHED → WAITING → ATTACHED → COLLECTING → COLLECTING_DISTRIBUTING 전이를 수행합니다.

/* drivers/net/bonding/bond_3ad.c — Mux Machine 핵심 로직 */
static void ad_mux_machine(struct port *port, bool *update_slave_arr)
{
    switch (port->sm_mux_state) {
    case AD_MUX_DETACHED:
        if (port->selected == SELECTED ||
            port->selected == STANDBY)
            port->sm_mux_state = AD_MUX_WAITING;
        break;

    case AD_MUX_WAITING:
        if (port->selected == UNSELECTED)
            port->sm_mux_state = AD_MUX_DETACHED;
        else if (port->sm_mux_timer_counter == 0)
            port->sm_mux_state = AD_MUX_ATTACHED;
        break;

    case AD_MUX_ATTACHED:
        if (port->selected == UNSELECTED)
            port->sm_mux_state = AD_MUX_DETACHED;
        else if (port->partner_oper.port_state &
                 LACP_STATE_SYNCHRONIZATION)
            port->sm_mux_state = AD_MUX_COLLECTING_DISTRIBUTING;
        break;

    case AD_MUX_COLLECTING_DISTRIBUTING:
        if (!(port->partner_oper.port_state &
              LACP_STATE_SYNCHRONIZATION)) {
            /* Partner가 동기화 해제 → 다시 ATTACHED로 역전이 */
            port->sm_mux_state = AD_MUX_ATTACHED;
            /* Collecting/Distributing 비트 해제 */
            port->actor_oper_port_state &=
                ~(LACP_STATE_COLLECTING | LACP_STATE_DISTRIBUTING);
        }
        break;
    }
}

802.3ad LACP 협상 시퀀스

LACP 협상은 양쪽이 LACPDU를 교환하면서 단계적으로 진행됩니다. 초기 링크 업부터 COLLECTING_DISTRIBUTING 상태까지의 전체 시퀀스를 추적합니다.

LACP 핸드셰이크: 양쪽 장비가 LACPDU를 교환하며 Activity → Sync → Collecting → Distributing 순서로 협상

LACP 협상 실패 원인:

양쪽 모두 Passive 모드 — LACPDU를 먼저 보내는 쪽이 없어 협상 시작 불가
Key 불일치 — 한쪽 포트가 1G, 다른 쪽이 10G이면 같은 Aggregator에 소속 불가
System Priority 충돌 — 양쪽 시스템 우선순위(Priority)가 같고 MAC도 같은 극단적 경우 (가상환경에서 발생)
LACPDU 필터링 — 중간 스위치나 방화벽(Firewall)이 멀티캐스트 MAC 01:80:C2:00:00:02를 차단

Bonding 드라이버 내부 구조

Bonding 드라이버의 핵심은 struct bonding(bond_dev_priv)과 struct slave 리스트입니다. 모드별로 다른 xmit 함수가 호출되며, 모든 모드에서 공통적으로 RX handler(bond_handle_frame())가 수신 패킷을 처리합니다.

/* bond_dev_priv 접근 — netdev_priv()로 bonding 구조체 획득 */
struct bonding *bond = netdev_priv(bond_dev);

/* slave 리스트 순회 매크로 */
#define bond_for_each_slave_rcu(bond, slave, iter) \
    list_for_each_entry_rcu(slave, &(bond)->slave_list, list)

/* 모드별 xmit 함수 디스패치 */
static const struct net_device_ops bond_netdev_ops = {
    .ndo_start_xmit     = bond_start_xmit,
    .ndo_select_queue    = bond_select_queue,
    .ndo_get_stats64     = bond_get_stats,
    .ndo_set_mac_address = bond_set_mac_address,
    .ndo_change_mtu      = bond_change_mtu,
    .ndo_fix_features    = bond_fix_features,
    /* ... */
};

/* bond_start_xmit() 내부에서 모드별 분기 */
static netdev_tx_t bond_start_xmit(struct sk_buff *skb,
                                    struct net_device *dev)
{
    struct bonding *bond = netdev_priv(dev);

    switch (BOND_MODE(bond)) {
    case BOND_MODE_ROUNDROBIN:
        return bond_xmit_roundrobin(skb, dev);
    case BOND_MODE_ACTIVEBACKUP:
        return bond_xmit_activebackup(skb, dev);
    case BOND_MODE_XOR:
        return bond_xmit_xor(skb, dev);
    case BOND_MODE_BROADCAST:
        return bond_xmit_broadcast(skb, dev);
    case BOND_MODE_8023AD:
        return bond_3ad_xmit_xor(skb, dev);
    case BOND_MODE_TLB:
    case BOND_MODE_ALB:
        return bond_alb_xmit(skb, dev);
    default:
        bond_tx_drop(dev, skb);
        return NETDEV_TX_OK;
    }
}

RX Handler와 수신 경로

Bonding 슬레이브에 도착한 패킷은 bond_handle_frame() RX handler를 통해 bond 디바이스로 전달됩니다. 모드에 따라 패킷 수신 정책이 다릅니다.

/* drivers/net/bonding/bond_main.c — RX handler */
static rx_handler_result_t bond_handle_frame(
    struct sk_buff **pskb)
{
    struct sk_buff *skb = *pskb;
    struct slave *slave = bond_slave_get_rcu(skb->dev);
    struct bonding *bond = slave->bond;

    /* LACPDU 수신 처리 (802.3ad 모드) */
    if (skb->protocol == htons(ETH_P_SLOW))
        return bond_3ad_lacpdu_recv(skb, slave);

    /* active-backup: 백업 슬레이브의 패킷은 드롭 */
    if (BOND_MODE(bond) == BOND_MODE_ACTIVEBACKUP) {
        if (slave != rcu_dereference(bond->curr_active_slave))
            return RX_HANDLER_EXACT;  /* 백업 슬레이브 → 드롭 */
    }

    /* ALB: 모든 슬레이브에서 수신 (RX 분산 위해) */
    /* XOR/RR/802.3ad: 모든 슬레이브에서 수신 허용 */

    skb->dev = bond->dev;  /* skb를 bond 디바이스로 재설정 */
    return RX_HANDLER_ANOTHER;
}

Active-Backup

Active-Backup(Mode 1)은 가장 널리 사용되는 모드입니다. 단순하지만 primary_reselect, fail_over_mac, Gratuitous ARP/NA 전송 등 다양한 세부 정책이 있어 실무에서 정확한 이해가 중요합니다.

primary_reselect 정책

값	이름	동작	사용 시나리오
0	`always`	primary 슬레이브가 복구되면 항상 active로 전환	특정 NIC가 반드시 주 경로여야 하는 경우
1	`better`	복구된 primary가 현재 active보다 우선순위가 높을 때만 전환	다중 백업 슬레이브, 우선순위 기반 선택
2	`failure`	현재 active가 장애일 때만 primary로 전환	불필요한 페일오버 최소화 (안정성 최우선)

fail_over_mac 옵션

기본적으로 모든 슬레이브는 bond 디바이스의 MAC 주소를 공유합니다. 그러나 일부 NIC(특히 Broadcom bnx2)는 MAC 변경을 지원하지 않습니다. fail_over_mac 옵션으로 MAC 처리 방식을 변경할 수 있습니다.

값	이름	동작
0	`none`	기본: 모든 슬레이브에 bond MAC 설정 (GARP로 스위치 FDB 갱신)
1	`active`	활성 슬레이브의 MAC만 bond MAC으로 설정, 페일오버 시 새 슬레이브에 이전 MAC 설정
2	`follow`	bond MAC이 활성 슬레이브의 원래 MAC을 따라감 (bond MAC 자체가 변경됨)

Gratuitous ARP/NA 전송

페일오버 시 스위치의 FDB(Forwarding Database)를 갱신하기 위해 Gratuitous ARP(IPv4)와 Unsolicited Neighbor Advertisement(IPv6)를 전송합니다.

/* drivers/net/bonding/bond_main.c — GARP 전송 */
static void bond_send_gratuitous_arp(struct bonding *bond)
{
    struct slave *slave = rcu_dereference(bond->curr_active_slave);

    /* bond 디바이스의 모든 IPv4 주소에 대해 GARP 전송 */
    bond_arp_send_all(bond, slave);
    /* GARP: sender IP = target IP = bond의 IP
     * sender MAC = bond의 MAC → 스위치가 이 MAC의 포트를 학습 */
}

static void bond_send_unsolicited_na(struct bonding *bond)
{
    /* IPv6 Unsolicited NA: 새 슬레이브의 포트로
     * bond의 link-local, global 주소에 대한 NA 전송
     * → 이웃 노드의 Neighbor Cache 갱신 */
    bond_ns_send_all(bond, slave);
}

/* num_grat_arp / num_unsol_na: GARP/NA 전송 횟수 (기본 1)
 * 값을 높이면 (2~3) FDB 갱신 신뢰성 향상
 * peer_notify_delay: 연속 전송 간 지연 (밀리초) */

Active-Backup 페일오버 상세: Link Down 감지 → downdelay → 슬레이브 전환 → GARP/NA 전송 → FDB 갱신

페일오버 타이밍 분석

Active-Backup 모드의 전체 페일오버 시간은 여러 구성 요소의 합입니다. 최적 설정으로 100ms 이내, 기본 설정으로 200~500ms의 절체 시간이 발생합니다.

구성 요소	기본값	최적값	설명
링크 다운 감지	miimon=100ms	miimon=50ms	MII 폴링(Polling) 주기 (최소 감지 시간)
downdelay	0ms	100~200ms	링크 flapping 방지 (miimon 배수)
슬레이브 전환	<1ms	<1ms	bond_change_active_slave() 실행
GARP 전송	1회	3회 (100ms 간격)	스위치 FDB 갱신 시간
스위치 FDB 학습	~10ms	~10ms	스위치가 GARP을 처리하는 시간
STP convergence	30~50초	0 (PortFast)	STP가 있으면 추가 지연, PortFast 필수

# Active-Backup 최적 페일오버 설정 (총 ~150ms 목표)
ip link add bond0 type bond \
    mode active-backup \
    miimon 50 \
    downdelay 100 \
    updelay 200 \
    primary eth0 \
    primary_reselect failure \
    fail_over_mac active \
    num_grat_arp 3 \
    peer_notify_delay 50 \
    num_unsol_na 3

# ARP 모니터링으로 L3 연결성까지 확인 (MII 대신/추가)
# 주의: arp_interval과 miimon은 동시 사용 불가
ip link add bond0 type bond \
    mode active-backup \
    arp_interval 100 \
    arp_ip_target 10.0.0.1,10.0.0.2 \
    arp_validate active \
    arp_all_targets any \
    primary eth0

# arp_validate 옵션:
# none:   ARP 응답 검증 안 함 (기본)
# active: active 슬레이브의 ARP 응답만 검증
# backup: backup 슬레이브의 ARP 응답도 검증
# all:    모든 슬레이브의 ARP 응답 검증
# filter: ARP target이 아닌 소스에서 온 ARP도 검증에 활용

# arp_all_targets 옵션:
# any:    하나라도 응답하면 링크 UP 유지 (기본)
# all:    모든 target이 응답해야 링크 UP 유지

Active-Backup 최적화 팁:

primary eth0 primary_reselect failure: 불필요한 페일백 방지 (현재 active가 정상이면 유지)
fail_over_mac active: MAC 변경 불가 NIC(Broadcom bnx2 등) 사용 시 필수
num_grat_arp 3 peer_notify_delay 50: GARP 3회, 50ms 간격 전송으로 신뢰성 확보
downdelay 100 updelay 200: 링크 flapping 방지, STP convergence 대기
ARP 모니터링 vs MII: MII는 물리 링크만 감지, ARP는 L3 연결성까지 확인 (스위치 내부 장애도 감지)
스위치 포트에 PortFast(STP)를 반드시 설정하여 STP convergence 지연 제거

Balance-XOR / Balance-RR

Balance-RR 재순서화 문제

Balance-RR(Mode 0)은 패킷을 라운드 로빈으로 슬레이브에 분산합니다. per-packet 분산이므로 단일 TCP 연결의 패킷이 서로 다른 물리 경로를 타고, 경로별 지연 차이로 인해 수신 측에서 패킷 재정렬(out-of-order)이 발생합니다.

파라미터	기본값	설명
`packets_per_slave`	1	한 슬레이브에 연속 전송할 패킷 수. 0=랜덤, 1=순수 RR

/* packets_per_slave 동작 */
static struct slave *bond_xmit_roundrobin_slave_get(
    struct bonding *bond, struct sk_buff *skb)
{
    struct slave *slave;
    int slave_cnt = READ_ONCE(bond->slave_cnt);

    if (bond->params.packets_per_slave == 0) {
        /* 랜덤 선택: prandom_u32() % slave_cnt */
        slave = bond_get_slave_by_id(bond,
                    prandom_u32() % slave_cnt);
    } else {
        /* rr_tx_counter를 packets_per_slave 단위로 증가
         * packets_per_slave=1: 패킷마다 슬레이브 교체 (최대 분산)
         * packets_per_slave=N: N개 패킷 후 다음 슬레이브
         * → 값이 클수록 재정렬 감소, 분산 효율 감소 */
        int idx = bond->rr_tx_counter++ / bond->params.packets_per_slave;
        slave = bond_get_slave_by_id(bond, idx % slave_cnt);
    }
    return slave;
}

TCP 재정렬의 실질적 영향:

TCP가 3개 이상의 중복 ACK(duplicate ACK)를 수신하면 Fast Retransmit 발동 → 불필요한 재전송
tcp_reordering 커널 파라미터(기본 3)를 높이면 완화되지만 실제 패킷 손실 감지가 느려짐
UDP는 재정렬에 민감하지 않으므로 RR이 적합한 경우도 있음 (DNS, 미디어 스트리밍)
실무에서는 balance-xor layer3+4나 802.3ad layer3+4가 대부분의 워크로드에 더 적합

Balance-XOR 해시 분배 상세

Balance-XOR(Mode 2)는 해시 기반 per-flow 분산입니다. 동일 플로우(src/dst IP+Port)는 항상 같은 슬레이브를 사용하므로 TCP 재정렬 문제가 없습니다. 단, 해시 분포의 균등성은 플로우 수와 다양성에 의존합니다.

Balance-XOR: 해시 함수로 플로우별 슬레이브 선택, 동일 플로우는 항상 같은 슬레이브 사용

xmit_hash_policy 해시 함수 상세

해시 정책은 bond_xmit_hash()에서 패킷의 어떤 필드를 해시 입력으로 사용할지 결정합니다. 802.3ad와 balance-xor 모드 모두 동일한 해시 함수를 사용합니다.

정책	해시 입력	적합 워크로드	분산 균등성
`layer2`	src_mac XOR dst_mac	비-IP 트래픽, L2 환경	낮음 (소수 피어 시 편중)
`layer2+3`	src_mac XOR dst_mac XOR src_ip XOR dst_ip	동일 MAC, 다수 IP 피어	중간
`layer3+4`	src_ip XOR dst_ip XOR src_port XOR dst_port	범용 TCP/UDP (권장)	높음
`encap2+3`	내부 L2+L3 (VXLAN/GRE/GENEVE 터널(Tunnel) 내부)	오버레이(Overlay) 네트워크	높음
`encap3+4`	내부 L3+L4 (터널 내부 IP+Port)	오버레이 + 다수 플로우	매우 높음
`vlan+srcmac`	VLAN ID XOR src_mac (커널 5.0+)	다중 VLAN, 동일 서브넷	VLAN 수에 비례

/* drivers/net/bonding/bond_main.c — 해시 함수 구현 */
static u32 bond_xmit_hash(struct bonding *bond,
                           struct sk_buff *skb)
{
    switch (bond->params.xmit_hash_policy) {
    case BOND_XMIT_POLICY_LAYER2:
        return bond_eth_hash(skb);
        /* hash = src_mac[5] ^ dst_mac[5] */

    case BOND_XMIT_POLICY_LAYER23:
        return bond_eth_hash(skb) ^
               bond_l3_hash(skb);
        /* hash = (mac_hash) ^ (src_ip ^ dst_ip) */

    case BOND_XMIT_POLICY_LAYER34:
        return bond_l34_hash(skb);
        /* hash = src_ip ^ dst_ip ^ src_port ^ dst_port
         * 비-TCP/UDP 패킷은 L3만 사용 (ICMP, ARP 등) */

    case BOND_XMIT_POLICY_ENCAP23:
    case BOND_XMIT_POLICY_ENCAP34:
        return bond_encap_hash(skb, bond);
        /* VXLAN/GRE/GENEVE: 외부 헤더를 벗기고 내부 헤더로 해시
         * skb_flow_dissect_flow_keys()로 터널 내부 파싱 */

    case BOND_XMIT_POLICY_VLAN_SRCMAC:
        return bond_vlan_srcmac_hash(skb);
        /* hash = vlan_id ^ src_mac (멀티 VLAN 환경 최적화) */
    }
}

encap 정책과 터널 분산:

VXLAN/GRE 터널에서 layer3+4를 사용하면 외부 헤더만 해시되어 모든 터널 트래픽이 하나의 슬레이브로 편중
encap3+4는 내부 패킷의 L3+L4를 해시하여 터널 내부 플로우별 분산 달성
OVS VXLAN, Kubernetes Calico VXLAN, Docker overlay 환경에서는 encap3+4 필수
스위치 측에서도 inner header hashing을 지원해야 양방향 균등 분산 가능

Bonding + VLAN 스택

Bonding과 VLAN은 함께 사용되는 가장 일반적인 조합입니다. 스택 순서(bond-over-VLAN vs VLAN-over-bond)에 따라 동작이 크게 달라지며, MTU 관리에 주의가 필요합니다.

VLAN over Bond (권장)

물리 NIC들을 먼저 bond로 묶고, bond 디바이스 위에 VLAN 인터페이스를 생성합니다. 가장 일반적이고 권장되는 구성입니다.

# VLAN over Bond: bond0 위에 여러 VLAN 생성
ip link add bond0 type bond mode 802.3ad miimon 100 lacp_rate fast \
    xmit_hash_policy layer3+4
ip link set eth0 master bond0
ip link set eth1 master bond0
ip link set bond0 up

# bond0 위에 VLAN 인터페이스 생성
ip link add link bond0 name bond0.100 type vlan id 100
ip link add link bond0 name bond0.200 type vlan id 200
ip addr add 10.1.0.1/24 dev bond0.100
ip addr add 10.2.0.1/24 dev bond0.200
ip link set bond0.100 up
ip link set bond0.200 up

# 구조: Application → bond0.100/200 → bond0 → eth0/eth1 → Switch(trunk)

Bond over VLAN (특수 용도)

VLAN 인터페이스를 먼저 만들고, VLAN 인터페이스를 bond의 슬레이브로 사용합니다. 서로 다른 스위치의 서로 다른 VLAN을 하나의 bond로 묶는 특수한 시나리오에 사용됩니다.

# Bond over VLAN: 이미 존재하는 VLAN 인터페이스를 슬레이브로 사용
# 주의: 이 구성은 802.3ad를 사용할 수 없음 (LACPDU가 VLAN 태그 통과 문제)
ip link add link eth0 name eth0.100 type vlan id 100
ip link add link eth1 name eth1.100 type vlan id 100
ip link set eth0.100 up
ip link set eth1.100 up

ip link add bond0 type bond mode active-backup miimon 100
ip link set eth0.100 master bond0
ip link set eth1.100 master bond0
ip link set bond0 up

# 구조: Application → bond0 → eth0.100/eth1.100 → eth0/eth1

MTU 관리

구성	MTU 설정	주의사항
VLAN over Bond	bond0에 MTU 설정 → VLAN이 상속	VLAN 태그(4B)로 인해 물리 NIC은 MTU+4 지원 필요
Bond over VLAN	각 VLAN에 MTU 설정 → bond가 최소값 사용	슬레이브 간 MTU 불일치 시 bond가 최소값으로 제한
Jumbo Frame	`ip link set bond0 mtu 9000`	스위치, 모든 슬레이브, 경로상 모든 장비 MTU 일치 필요

# Jumbo Frame 설정 (VLAN over Bond)
ip link set eth0 mtu 9000
ip link set eth1 mtu 9000
ip link set bond0 mtu 9000
# VLAN MTU는 bond MTU를 초과할 수 없음
ip link set bond0.100 mtu 9000  # OK
ip link set bond0.100 mtu 9200  # ERROR: mtu > bond mtu

# MTU 확인
ip -d link show bond0 | grep mtu
ip -d link show eth0 | grep mtu

802.1ad Q-in-Q 구성

서비스 프로바이더 환경에서는 Q-in-Q(IEEE 802.1ad)를 사용하여 고객별 VLAN을 외부 S-VLAN으로 캡슐화(Encapsulation)합니다. Bond 위에 S-VLAN(외부)을 생성하고, S-VLAN 위에 C-VLAN(내부)을 스택합니다.

# 802.1ad Q-in-Q over Bond 구성
# 구조: Application → C-VLAN(100) → S-VLAN(1000) → bond0 → eth0/eth1

# 1. Bond 생성
ip link add bond0 type bond mode 802.3ad miimon 100 lacp_rate fast
ip link set eth0 master bond0
ip link set eth1 master bond0
ip link set bond0 up

# 2. S-VLAN (802.1ad, EtherType 0x88a8) 생성
ip link add link bond0 name bond0.s1000 type vlan id 1000 protocol 802.1ad
ip link set bond0.s1000 up

# 3. C-VLAN (802.1Q, EtherType 0x8100) 생성 — S-VLAN 위에
ip link add link bond0.s1000 name bond0.s1000.c100 type vlan id 100
ip addr add 10.100.0.1/24 dev bond0.s1000.c100
ip link set bond0.s1000.c100 up

# 결과 프레임 구조:
# [Ethernet][S-VLAN:0x88a8,ID=1000][C-VLAN:0x8100,ID=100][IP][Payload]
# MTU 주의: 외부 태그(4B) + 내부 태그(4B) = 8B 추가 오버헤드
ip link set eth0 mtu 9008   # 9000 + 8 (double tag)
ip link set eth1 mtu 9008
ip link set bond0 mtu 9008

VLAN Filtering 상호작용

커널 4.0+에서 bond 디바이스는 NETIF_F_HW_VLAN_CTAG_FILTER 기능을 통해 슬레이브 NIC의 하드웨어 VLAN 필터링을 활용합니다. Bond 위에 VLAN을 추가하면 해당 VLAN ID가 모든 슬레이브의 하드웨어 필터에 자동으로 등록됩니다.

/* drivers/net/bonding/bond_main.c — VLAN 추가 시 슬레이브 동기화 */
static int bond_vlan_rx_add_vid(struct net_device *bond_dev,
                                 __be16 proto, u16 vid)
{
    struct bonding *bond = netdev_priv(bond_dev);
    struct slave *slave;
    struct list_head *iter;

    /* 모든 슬레이브에 VLAN 필터 등록 */
    bond_for_each_slave(bond, slave, iter) {
        vlan_vid_add(slave->dev, proto, vid);
        /* 슬레이브 NIC가 HW VLAN filter를 지원하면
         * NIC의 MAC 필터 테이블에 VID가 추가됨
         * → 해당 VLAN의 프레임만 NIC에서 호스트로 전달 */
    }
    return 0;
}

/* 슬레이브 추가 시 기존 VLAN 전체 동기화 */
static int bond_enslave(struct net_device *bond_dev,
                        struct net_device *slave_dev, ...)
{
    /* ... 슬레이브 설정 ... */
    /* bond에 이미 등록된 모든 VLAN을 새 슬레이브에 복제 */
    vlan_vids_add_by_dev(slave_dev, bond_dev);
    /* ... */
}

VLAN + Bonding 주의사항:

802.3ad(LACP) + VLAN: 스위치에서 trunk 포트로 설정하고, LACP는 native VLAN에서 동작
ALB/TLB + VLAN: RLB의 ARP 가로채기가 VLAN 태그가 있는 ARP 패킷에서 실패할 수 있음
Bond over VLAN에서 LACP는 LACPDU가 VLAN 태그를 통과해야 하므로 스위치에서 지원 여부 확인 필수
QinQ(802.1ad) 환경에서는 외부 VLAN을 bond 위에, 내부 VLAN을 외부 VLAN 위에 스택
VLAN filtering 미지원 NIC 사용 시 bond0에서 promiscuous 모드가 활성화되어 불필요한 프레임까지 커널에 전달 (CPU 부담 증가)

Team 드라이버 vs Bonding 비교

Team은 bonding의 차세대 대안으로 설계되었지만, 두 기술은 각각 장단점이 있습니다. RHEL 8에서 Team을 권장했으나, RHEL 9에서는 다시 bonding으로 복귀하는 추세입니다.

Team Runner 상세

Runner	대응 Bonding 모드	구현 위치	특징
`activebackup`	Mode 1	커널	link_watch 이벤트 기반 전환, priority 기반 선택
`lacp`	Mode 4	teamd (유저스페이스)	유저스페이스 LACP 구현, tx_hash 커스텀 가능
`loadbalance`	Mode 2/5/6	teamd	BPF 기반 TX 해시, tx_balancer로 동적 재분배
`roundrobin`	Mode 0	커널	단순 라운드 로빈, 동일한 재정렬 문제
`broadcast`	Mode 3	커널	모든 포트로 복제 전송
`random`	없음	커널	랜덤 선택 (bonding에 없는 모드)

Team Netlink API

# teamdctl 주요 명령어
teamdctl team0 state                    # 전체 상태 조회
teamdctl team0 state item get setup.runner_name  # runner 이름
teamdctl team0 port add eth2            # 런타임 포트 추가
teamdctl team0 port remove eth2         # 런타임 포트 제거
teamdctl team0 port config update eth0 '{"prio": 100}'  # 포트 설정 변경

# JSON 설정 파일 예시 (loadbalance runner)
teamd -d -t team0 -c '{
    "runner": {
        "name": "loadbalance",
        "tx_hash": ["eth", "ipv4", "ipv6", "tcp", "udp"],
        "tx_balancer": {
            "name": "basic",
            "balancing_interval": 100
        }
    },
    "link_watch": {
        "name": "ethtool",
        "delay_up": 200,
        "delay_down": 200
    },
    "ports": {
        "eth0": {"prio": 100, "sticky": true},
        "eth1": {"prio": 50}
    }
}'

# NetworkManager로 Team 구성 (nmcli)
nmcli con add type team con-name team0 ifname team0 \
    team.runner activebackup
nmcli con add type team-slave con-name team0-eth0 \
    ifname eth0 master team0
nmcli con add type team-slave con-name team0-eth1 \
    ifname eth1 master team0

Team 런타임 모드 변경

Team의 가장 큰 차별점은 런타임 중 모드(runner) 변경이 가능하다는 점입니다. Bonding에서는 모드 변경 시 인터페이스를 down해야 하지만, Team은 Netlink API를 통해 트래픽 중단 없이 전환할 수 있습니다.

# Team 런타임 모드 변경 예시
# activebackup → loadbalance로 변경 (트래픽 최소 중단)
teamdctl team0 state item set setup.runner_name loadbalance

# 런타임 포트 우선순위 변경
teamdctl team0 port config update eth0 '{"prio": 200}'
teamdctl team0 port config update eth1 '{"prio": 100}'

# 런타임 link_watch 변경
teamdctl team0 state item set setup.link_watch.name arp_ping
teamdctl team0 state item set setup.link_watch.target_host 10.0.0.1

# Bonding은 모드 변경 시 반드시 down 필요
ip link set bond0 down
ip link set bond0 type bond mode balance-xor  # down 상태에서만 변경 가능
ip link set bond0 up

기능 매트릭스 비교

기능	Bonding	Team
LACP 구현 위치	커널 (bond_3ad.c)	유저스페이스 (teamd)
런타임 모드 변경	불가 (down 필요)	가능 (Netlink)
런타임 포트 추가/제거	가능 (ip link set)	가능 (teamdctl)
커스텀 해시 (BPF)	불가	가능
D-Bus API	없음	지원
최대 슬레이브 수	무제한	무제한
커널 모듈 수	1 (bonding)	2+ (team, team_mode_*)
IPv6 NA 페일오버	지원	지원
ethtool link watch	MII monitor (커널)	ethtool/arp_ping/nsna_ping
RHEL 9 상태	권장	deprecated
Ubuntu/Debian	기본 지원	libteam 별도 설치

Bonding vs Team 선택 가이드 (최근 배포판 기준):

Bonding 선택: LACP가 필요한 경우 (커널 내 구현으로 더 안정적), 레거시 환경, 대부분의 프로덕션
Team 선택: 런타임 재설정이 빈번한 환경, BPF 기반 커스텀 해시가 필요한 경우
RHEL 9 참고: RHEL 9에서 Team은 deprecated로 표시, bonding 사용 권장
두 기술 모두 ip link, nmcli, systemd-networkd로 관리 가능

SR-IOV + Bonding

SR-IOV(Single Root I/O Virtualization)는 하나의 물리 NIC를 여러 Virtual Function(VF)으로 분할하여 VM이나 컨테이너(Container)에 직접 할당합니다. VF를 Bonding 슬레이브로 사용하면 SR-IOV의 하드웨어 가속과 Bonding의 이중화를 동시에 얻을 수 있습니다.

SR-IOV + Bonding: 서로 다른 PF의 VF를 VM 내부에서 bond하여 NIC 이중화와 하드웨어 가속 동시 달성

SR-IOV + Bonding 구성

# 1. SR-IOV VF 생성 (호스트에서)
echo 4 > /sys/class/net/enp1s0f0/device/sriov_numvfs
echo 4 > /sys/class/net/enp2s0f0/device/sriov_numvfs

# 2. VF를 VM에 PCI passthrough로 할당 (libvirt/QEMU)
# <hostdev mode='subsystem' type='pci'>
#   <source><address domain='0x0000' bus='0x01' slot='0x10' function='0x0'/></source>
# </hostdev>

# 3. VM 내부에서 VF Bond 구성
ip link add bond0 type bond mode active-backup miimon 100 \
    primary enp1s0f0v0 fail_over_mac active
ip link set enp1s0f0v0 master bond0   # PF0의 VF
ip link set enp2s0f0v0 master bond0   # PF1의 VF
ip addr add 10.0.0.10/24 dev bond0
ip link set bond0 up

# 4. switchdev 모드 (하드웨어 오프로드, Mellanox ConnectX-5+)
devlink dev eswitch set pci/0000:01:00.0 mode switchdev
# switchdev 모드에서는 VF의 representer가 호스트에 생성되어
# OVS/tc flower 규칙을 HW로 오프로드 가능

# 5. VF 상태 확인
ip link show enp1s0f0  # PF에서 VF 목록 확인
ip link set enp1s0f0 vf 0 mac 00:11:22:33:44:55  # VF MAC 설정
ip link set enp1s0f0 vf 0 vlan 100                 # VF에 VLAN 할당
ip link set enp1s0f0 vf 0 spoofchk on             # MAC/VLAN 스푸핑 방지

하드웨어 LAG 오프로드 (mlx5/ice)

최신 NIC 드라이버(Mellanox ConnectX-5+의 mlx5, Intel E810의 ice)는 bonding 처리를 하드웨어로 오프로드하여 CPU 부담 없이 LAG를 구현합니다. 커널의 NETDEV_CHANGEUPPER netdev 이벤트를 통해 NIC 드라이버가 bonding 구성 변경을 감지합니다.

/* 하드웨어 LAG 오프로드 흐름 */

/* 1. bond에 슬레이브 추가 시 netdev 이벤트 발생 */
/* drivers/net/bonding/bond_main.c */
call_netdevice_notifiers(NETDEV_CHANGEUPPER, slave_dev);

/* 2. NIC 드라이버가 이벤트 수신하여 HW LAG 활성화 */
/* drivers/net/ethernet/mellanox/mlx5/core/lag/lag.c */
static int mlx5_lag_netdev_event(struct notifier_block *nb,
                                  unsigned long event, void *ptr)
{
    struct net_device *ndev = netdev_notifier_info_to_dev(ptr);

    if (event == NETDEV_CHANGEUPPER) {
        struct netdev_notifier_changeupper_info *info = ptr;
        if (netif_is_bond_master(info->upper_dev)) {
            /* 같은 HCA의 두 포트가 bond에 참여 → HW LAG 활성화 */
            mlx5_lag_add_netdev(ldev, ndev);
            /* FW에 LAG 포트 매핑 설정, 하드웨어 해시 테이블 구성 */
        }
    }
}

/* 3. HW LAG 활성 시 bond_dev_queue_xmit() 경로:
 *    - 소프트웨어 해시 대신 NIC FW가 패킷을 물리 포트에 분배
 *    - TC flower / OVS offload 규칙이 두 포트에 동시 적용
 *    - 페일오버도 FW 레벨에서 처리 (us 단위 절체) */

NIC	드라이버	HW LAG 모드	지원 Bonding 모드	비고
Mellanox ConnectX-5/6/7	mlx5	LAG + TC offload	802.3ad, active-backup	동일 HCA 듀얼 포트 필수
Intel E810	ice	Active-backup offload	active-backup	SRIOV + bond HW 절체
Broadcom P2100	bnxt_en	TC offload LAG	802.3ad	커널 5.18+

SR-IOV + Bonding 실무 팁:

fail_over_mac active: VF는 MAC 변경이 제한될 수 있으므로 반드시 설정
서로 다른 PF의 VF를 bond: 동일 PF의 VF를 bond하면 물리적 이중화가 안 됨
mode 1(active-backup) 권장: VF에서 802.3ad LACP는 스위치 설정이 복잡하고 VF 특성상 제약이 있음
DPDK + Bond: DPDK 환경에서는 rte_eth_bond로 PMD 레벨 bonding 사용
성능: VF bond는 일반 bond 대비 CPU 부담이 적음 (하드웨어 기반 패킷 분류)
HW LAG 확인: dmesg | grep "lag\|bond" 또는 devlink dev info로 HW LAG 활성 여부 확인

네트워크 네임스페이스(Namespace)와 Bonding

Bonding과 네트워크 네임스페이스(netns)의 조합은 컨테이너 환경에서 자주 발생하지만, 몇 가지 중요한 제약이 있습니다.

netns 이동 제약

인터페이스	netns 이동	제약사항
bond 디바이스	가능	슬레이브가 같은 netns에 있어야 함
bond 슬레이브	불가	bond에 연결된 상태에서는 이동 불가, 먼저 분리 필요
MACVLAN on bond	가능	parent(bond)는 원래 netns에 유지, MACVLAN만 이동
IPVLAN on bond	가능	parent(bond)는 원래 netns에 유지, IPVLAN만 이동

# 패턴 1: 호스트에서 bond → MACVLAN → 컨테이너 netns로 이동
# 물리 NIC 이중화 + 컨테이너 격리 동시 달성
ip link add bond0 type bond mode 802.3ad miimon 100
ip link set eth0 master bond0
ip link set eth1 master bond0
ip link set bond0 up

# bond 위에 MACVLAN 생성 후 컨테이너 netns로 이동
ip netns add container1
ip link add macvlan0 link bond0 type macvlan mode bridge
ip link set macvlan0 netns container1
ip netns exec container1 ip addr add 192.168.1.100/24 dev macvlan0
ip netns exec container1 ip link set macvlan0 up
ip netns exec container1 ip route add default via 192.168.1.1

# 패턴 2: bond 자체를 netns로 이동 (테스트/격리 목적)
# 주의: 슬레이브도 같은 netns에 있어야 하므로 먼저 슬레이브 이동
ip netns add isolated
ip link set eth0 netns isolated
ip link set eth1 netns isolated
ip netns exec isolated ip link add bond0 type bond mode active-backup miimon 100
ip netns exec isolated ip link set eth0 master bond0
ip netns exec isolated ip link set eth1 master bond0
ip netns exec isolated ip link set bond0 up

# 패턴 3: IPVLAN L3S + bond (Kubernetes Calico 스타일)
ip link add ipvl0 link bond0 type ipvlan mode l3s
ip link set ipvl0 netns container1
ip netns exec container1 ip addr add 10.244.1.10/32 dev ipvl0
ip netns exec container1 ip link set ipvl0 up
ip netns exec container1 ip route add default dev ipvl0
# 호스트에서 라우팅 추가
ip route add 10.244.1.10/32 dev bond0

컨테이너 런타임 연동

컨테이너 런타임(Docker, containerd, CRI-O)에서 bonding을 활용하는 패턴과 CNI(Container Network Interface) 플러그인 연동 방법입니다.

# CNI bond 플러그인 설정 (/etc/cni/net.d/10-bond.conflist)
# containernetworking-plugins에 포함된 bond CNI 사용
{
    "cniVersion": "0.4.0",
    "name": "bond-net",
    "plugins": [
        {
            "type": "bond",
            "ifname": "bond0",
            "mode": "active-backup",
            "miimon": "100",
            "failOverMac": 1,
            "linksInContainer": true,
            "links": [
                {"name": "net1"},
                {"name": "net2"}
            ],
            "ipam": {
                "type": "host-local",
                "subnet": "10.244.0.0/16"
            }
        }
    ]
}

# Kubernetes Multus + Bond CNI: Pod에 이중화된 보조 네트워크 할당
# NetworkAttachmentDefinition 리소스로 bond 네트워크 정의 후
# Pod annotation으로 연결:
# k8s.v1.cni.cncf.io/networks: bond-net

# 호스트 bond + Docker macvlan 조합
# 호스트에서 bond0 구성 후 Docker가 bond0 위에 macvlan 생성
docker network create -d macvlan \
    --subnet=10.0.0.0/24 --gateway=10.0.0.1 \
    -o parent=bond0 -o macvlan_mode=bridge \
    bond-macvlan

# CRI-O + IPVLAN on bond: 호스트 bond0 위에 IPVLAN L3S
# /etc/cni/net.d/20-ipvlan-bond.conf
{
    "cniVersion": "0.4.0",
    "type": "ipvlan",
    "name": "ipvlan-bond",
    "master": "bond0",
    "mode": "l3s",
    "ipam": {"type": "host-local", "subnet": "10.244.0.0/16"}
}

컨테이너 환경에서의 Bonding 패턴 요약:

호스트 레벨 bond + 컨테이너 MACVLAN/IPVLAN: 가장 일반적, 호스트 NIC 이중화 + 컨테이너 격리(Isolation)
Pod 내부 bond (Multus + bond CNI): SR-IOV VF 이중화, DPDK 워크로드
VM 내부 bond: KVM/QEMU에서 virtio-net 또는 VF passthrough 슬레이브
netns 제약 주의: bond 슬레이브는 bond와 같은 netns에 있어야 하므로, CNI가 인터페이스를 올바른 순서로 이동해야 함

대규모 운영과 모니터링

프로덕션 환경에서 다수의 bond 인터페이스, 4x25G LACP, 100G+ 집계 대역폭을 운영할 때의 모니터링, 튜닝, 운영 지침입니다.

다중 Bond 구성

# 다중 Bond 구성 예시: 관리 + 데이터 트래픽 분리

# Bond 1: 관리 네트워크 (active-backup, 안정성 우선)
ip link add bond-mgmt type bond mode active-backup miimon 100 \
    primary eth0 primary_reselect failure
ip link set eth0 master bond-mgmt
ip link set eth1 master bond-mgmt
ip addr add 10.0.0.1/24 dev bond-mgmt
ip link set bond-mgmt up

# Bond 2: 데이터 네트워크 (802.3ad, 대역폭 우선)
ip link add bond-data type bond mode 802.3ad miimon 100 \
    lacp_rate fast xmit_hash_policy layer3+4
ip link set eth2 master bond-data
ip link set eth3 master bond-data
ip link set eth4 master bond-data
ip link set eth5 master bond-data
ip link set bond-data up

# bond-data 위에 VLAN 분리
ip link add link bond-data name bond-data.100 type vlan id 100  # Storage
ip link add link bond-data name bond-data.200 type vlan id 200  # VM traffic
ip addr add 10.1.0.1/24 dev bond-data.100
ip addr add 10.2.0.1/24 dev bond-data.200

# 4x25G LACP 구성 (총 100Gbps 집계 대역폭)
ip link add bond-100g type bond mode 802.3ad miimon 100 \
    lacp_rate fast xmit_hash_policy encap3+4 \
    ad_actor_sys_prio 65535
ip link set enp1s0f0 master bond-100g  # 25G port 1
ip link set enp1s0f1 master bond-100g  # 25G port 2
ip link set enp2s0f0 master bond-100g  # 25G port 3
ip link set enp2s0f1 master bond-100g  # 25G port 4
ip link set bond-100g up

모니터링

# === /proc/net/bonding/ 상세 출력 ===
cat /proc/net/bonding/bond0
# 주요 확인 항목:
# - Bonding Mode: IEEE 802.3ad Dynamic link aggregation
# - Transmit Hash Policy: layer3+4
# - MII Status: up (각 슬레이브)
# - LACP Rate: fast
# - Aggregator ID: (모든 슬레이브가 동일한지 확인)
# - Partner Mac Address: (스위치의 MAC — 스위치 장애 시 변경됨)

# === ethtool 슬레이브 상태 ===
ethtool eth0 | grep -E "Speed|Duplex|Link"
# Speed: 25000Mb/s / Duplex: Full / Link detected: yes

# === 슬레이브별 트래픽 분산 모니터링 ===
# TX/RX bytes를 비교하여 해시 분산 균등성 확인
watch -n 1 'for dev in eth0 eth1 eth2 eth3; do
    echo "$dev: $(cat /sys/class/net/$dev/statistics/tx_bytes) TX, \
$(cat /sys/class/net/$dev/statistics/rx_bytes) RX"
done'

# === LACP 파트너 정보 확인 ===
# 파트너 MAC이 변경되면 스위치 장애/교체를 의미
grep -A 5 "Partner" /proc/net/bonding/bond0

# === sysfs를 통한 실시간 파라미터 조회 ===
cat /sys/class/net/bond0/bonding/slaves       # 슬레이브 목록
cat /sys/class/net/bond0/bonding/active_slave  # 활성 슬레이브 (mode 1)
cat /sys/class/net/bond0/bonding/ad_aggregator # Aggregator ID (mode 4)
cat /sys/class/net/bond0/bonding/ad_partner_mac # 파트너 MAC

# === LACPDU 실시간 캡처 ===
tcpdump -i eth0 -nn -v ether proto 0x8809 2>&1 | head -50

# === Prometheus/Node Exporter 연동 ===
# node_exporter의 bonding collector가 자동으로 수집:
# node_bonding_active (활성 슬레이브 수)
# node_bonding_slaves (총 슬레이브 수)
# AlertManager 규칙 예시:
# alert: BondingSlavesDown
#   expr: node_bonding_active < node_bonding_slaves
#   for: 5m

SNMP ifTable과 Bonding

SNMP 기반 모니터링 시스템(Zabbix, Nagios, Cacti)에서 bonding 인터페이스를 모니터링할 때, /proc/net/dev에 bond 디바이스와 각 슬레이브가 독립된 인터페이스로 표시됩니다. net-snmp의 ifTable에서 bond 집계 대역폭을 정확히 산출하려면 슬레이브 통계를 합산해야 합니다.

# SNMP ifTable에서 bonding 인터페이스 확인
snmpwalk -v2c -c public localhost IF-MIB::ifDescr
# IF-MIB::ifDescr.2 = STRING: bond0
# IF-MIB::ifDescr.3 = STRING: eth0
# IF-MIB::ifDescr.4 = STRING: eth1

# bond0의 ifSpeed는 슬레이브 합산 속도
snmpget -v2c -c public localhost IF-MIB::ifSpeed.2
# 802.3ad 2×25G → ifSpeed = 50000000000 (50Gbps)

# 슬레이브별 카운터로 분산율 확인
snmpget -v2c -c public localhost IF-MIB::ifHCOutOctets.3  # eth0 TX
snmpget -v2c -c public localhost IF-MIB::ifHCOutOctets.4  # eth1 TX

# Prometheus node_exporter 메트릭 상세
# node_bonding_active{master="bond0"} 2         → 활성 슬레이브 수
# node_bonding_slaves{master="bond0"} 2          → 총 슬레이브 수
# node_network_transmit_bytes_total{device="eth0"} → 슬레이브별 TX
# node_network_receive_bytes_total{device="eth0"}  → 슬레이브별 RX

# Prometheus AlertManager 규칙 예시
# groups:
# - name: bonding
#   rules:
#   - alert: BondingSlavesDown
#     expr: node_bonding_active < node_bonding_slaves
#     for: 5m
#     labels: {severity: critical}
#     annotations:
#       summary: "Bond {{ $labels.master }} has degraded slaves"
#
#   - alert: BondSlaveTrafficImbalance
#     expr: |
#       max by (master) (rate(node_network_transmit_bytes_total{device=~"eth.*"}[5m]))
#       / min by (master) (rate(node_network_transmit_bytes_total{device=~"eth.*"}[5m]))
#       > 3
#     for: 15m
#     annotations:
#       summary: "Bond slaves TX imbalance > 3:1 ratio"

대규모 운영 체크리스트:

IRQ affinity: 각 슬레이브 NIC의 IRQ를 서로 다른 CPU 코어에 배정 (irqbalance 또는 수동 설정)
Ring buffer: 고대역폭 환경에서 ethtool -G ethN rx 4096 tx 4096으로 버퍼(Buffer) 확대
XPS/RPS: 멀티큐 NIC에서 /sys/class/net/ethN/queues/tx-N/xps_cpus 설정
NAPI budget: /proc/sys/net/core/netdev_budget 조정 (기본 300 → 필요시 600)
Adaptive Coalescing: ethtool -C ethN adaptive-rx on adaptive-tx on
LACPDU 모니터링: LACP Partner MAC 변경 감지 → 스위치 장애 알림
슬레이브 분산 감시: TX bytes 편차 > 30%이면 해시 정책 또는 워크로드 패턴 점검
SNMP polling 주기: ifHCOutOctets/ifHCInOctets는 64비트 카운터, 300초 주기 충분
ethtool -S: NIC별 하드웨어 카운터(rx_drops, tx_errors) 직접 확인 — 커널 통계에 반영 안 되는 HW 오류 감지

가상 NIC 성능 비교

각 가상 네트워크 인터페이스의 성능과 오버헤드(Overhead)를 비교합니다. 실제 성능은 하드웨어, 커널 버전, 워크로드에 따라 달라지지만, 상대적 순위와 특성은 일관됩니다.

인터페이스	TX 오버헤드	RX 오버헤드	Throughput (상대)	Latency	XDP 지원
MACVLAN	매우 낮음	MAC hash lookup	95~98%	최소	O (passthru)
IPVLAN L3	낮음	IP lookup	93~97%	최소	O
veth + bridge	중간	bridge FDB lookup	80~90%	낮음	O
veth + XDP	낮음	XDP native	90~95%	최소	O (native)
TAP + vhost-net	중간	vhost worker	70~85%	중간	X
TAP (userspace)	높음	유저 read()	40~60%	높음	X
TUN	높음	유저 read()	40~60%	높음	X

Bonding 모드별 성능 특성:

모드	단일 플로우 대역폭	다중 플로우 대역폭	CPU 오버헤드	페일오버 속도
active-backup	1×link	1×link	최소	100ms~300ms
balance-rr	N×link (재정렬 있음)	N×link	낮음	100ms~300ms
balance-xor	1×link	N×link	낮음 (해시)	100ms~300ms
802.3ad	1×link	N×link	중간 (LACP)	1s~3s (LACP)
balance-tlb	1×link	N×link (TX)	중간 (리밸런싱)	100ms~300ms
balance-alb	1×link	N×link (TX+RX)	중간~높음	100ms~300ms

실무 시나리오

시나리오 1: 고가용성 서버 (active-backup + ARP 모니터링)

# 서버 NIC 이중화 — 스위치 설정 없이 HA 구성
# eth0: 1G NIC (슬롯1), eth1: 1G NIC (슬롯2, 다른 스위치 연결 권장)

# bond 생성 (active-backup + ARP 모니터링)
ip link add bond0 type bond \
    mode active-backup \
    primary eth0 \
    primary_reselect always \
    arp_interval 200 \
    arp_ip_target 10.0.0.1 \
    arp_validate active \
    num_grat_arp 3 \
    fail_over_mac active

# 슬레이브 추가
ip link set eth0 down
ip link set eth1 down
ip link set eth0 master bond0
ip link set eth1 master bond0

# IP 설정
ip addr add 10.0.0.100/24 dev bond0
ip link set bond0 up

# 기본 게이트웨이
ip route add default via 10.0.0.1 dev bond0

# systemd-networkd로 영구 설정 (/etc/systemd/network/)
# 10-bond0.netdev, 20-bond0.network, 30-eth0.network, 30-eth1.network

시나리오 2: 고처리량 서버 (802.3ad LACP 4×10G)

# 4×10G NIC LACP 구성 — 스위치 LACP 활성화 필수

ip link add bond0 type bond \
    mode 802.3ad \
    miimon 100 \
    downdelay 200 \
    updelay 200 \
    lacp_rate fast \
    xmit_hash_policy layer3+4 \
    ad_select bandwidth \
    min_links 2

# 4개 슬레이브 추가
for i in 0 1 2 3; do
    ip link set eth${i} down
    ip link set eth${i} master bond0
done

ip addr add 10.0.0.100/24 dev bond0
ip link set bond0 up

# min_links=2: 최소 2개 슬레이브 활성이어야 bond0 UP 유지
# ad_select=bandwidth: 총 대역폭이 가장 큰 aggregator 선택

# 스위치 측 설정 예시 (Cisco)
# interface port-channel 1
#   switchport mode trunk
# interface range GigabitEthernet0/1-4
#   channel-group 1 mode active
#   channel-protocol lacp

시나리오 3: 컨테이너 네트워킹 (veth + bridge)

# Docker 스타일 컨테이너 네트워킹 수동 구성

# 1. 브리지 생성
ip link add br0 type bridge
ip addr add 172.17.0.1/16 dev br0
ip link set br0 up

# 2. NAT 설정 (컨테이너 → 외부)
iptables -t nat -A POSTROUTING -s 172.17.0.0/16 ! -o br0 -j MASQUERADE
echo 1 > /proc/sys/net/ipv4/ip_forward

# 3. 컨테이너 네임스페이스 생성
ip netns add container1

# 4. veth 쌍 생성 및 연결
ip link add veth-host type veth peer name veth-cont
ip link set veth-host master br0
ip link set veth-host up
ip link set veth-cont netns container1

# 5. 컨테이너 내부 설정
ip netns exec container1 bash -c "
    ip link set lo up
    ip link set veth-cont name eth0
    ip addr add 172.17.0.2/16 dev eth0
    ip link set eth0 up
    ip route add default via 172.17.0.1
"

# 6. 테스트
ip netns exec container1 ping -c 3 8.8.8.8

시나리오 4: MACVLAN 기반 컨테이너 (브리지(Bridge) 없는 고성능)

# MACVLAN bridge 모드 — 브리지 없이 물리 네트워크에 직접 연결

# 1. MACVLAN 생성 → 네임스페이스에 배치
ip netns add vm1
ip link add macvlan-vm1 link eth0 type macvlan mode bridge
ip link set macvlan-vm1 netns vm1

# 2. 네임스페이스 내부 설정 (물리 네트워크의 IP 대역 사용)
ip netns exec vm1 bash -c "
    ip link set lo up
    ip link set macvlan-vm1 name eth0
    ip addr add 192.168.1.50/24 dev eth0
    ip link set eth0 up
    ip route add default via 192.168.1.1
"

# 3. 외부에서 직접 접근 가능 (별도 MAC 주소)
ping 192.168.1.50

# 주의: 호스트 eth0 ↔ MACVLAN 컨테이너 간 직접 통신은 불가
# (같은 물리 인터페이스 위의 MACVLAN은 호스트와 직접 통신 못 함)
# 해결: 호스트에도 macvlan 인터페이스를 만들어 사용

시나리오 5: TUN 기반 사용자 VPN 구현

/* 간단한 TUN 기반 VPN 프레임워크 (개념 코드) */
#include <linux/if_tun.h>
#include <sys/epoll.h>

int main(void) {
    char dev[IFNAMSIZ] = "tun-vpn";
    int tun_fd = tun_alloc(dev, IFF_TUN | IFF_NO_PI);

    /* TUN 인터페이스에 IP 할당 */
    system("ip addr add 10.8.0.1/24 dev tun-vpn");
    system("ip link set tun-vpn up");
    system("ip link set tun-vpn mtu 1400");  /* 캡슐화 오버헤드 고려 */

    /* UDP 소켓으로 원격 피어 연결 */
    int udp_fd = socket(AF_INET, SOCK_DGRAM, 0);
    /* bind + connect to remote peer ... */

    /* epoll 이벤트 루프 */
    int epfd = epoll_create1(0);
    /* tun_fd와 udp_fd를 epoll에 등록 */

    while (1) {
        struct epoll_event events[2];
        int n = epoll_wait(epfd, events, 2, -1);

        for (int i = 0; i < n; i++) {
            if (events[i].data.fd == tun_fd) {
                /* TUN → UDP: 로컬 패킷을 읽어서 암호화 후 원격으로 전송 */
                int len = read(tun_fd, buf, sizeof(buf));
                encrypt(buf, len, encrypted);
                sendto(udp_fd, encrypted, enc_len, 0, ...);
            }
            if (events[i].data.fd == udp_fd) {
                /* UDP → TUN: 원격 패킷을 읽어서 복호화 후 TUN에 주입 */
                int len = recvfrom(udp_fd, buf, sizeof(buf), 0, ...);
                decrypt(buf, len, decrypted);
                write(tun_fd, decrypted, dec_len);
            }
        }
    }
}

Bonding 드라이버 내부 TX/RX 아키텍처

Bonding 드라이버의 TX/RX 데이터 경로는 모드별로 다른 함수를 호출하지만, 공통적인 프레임워크를 공유합니다. bond_start_xmit()이 모드별 TX 함수를 디스패치(Dispatch)하고, bond_handle_frame()이 모든 모드의 RX를 처리합니다. 아래 다이어그램은 TX/RX 경로의 전체 흐름과 모드별 분기점을 보여줍니다.

Bonding 드라이버 TX/RX 데이터 경로: TX는 모드별 분기 후 슬레이브 선택, RX는 공통 핸들러(Handler)에서 모드별 정책 적용

bond_select_active_slave() 슬레이브 선택 알고리즘

활성 슬레이브 선택은 bond_select_active_slave()가 담당합니다. primary 설정, 슬레이브 우선순위, 링크 상태를 종합적으로 고려합니다.

/* drivers/net/bonding/bond_main.c — 활성 슬레이브 선택 */
static void bond_select_active_slave(struct bonding *bond)
{
    struct slave *best_slave = NULL;
    struct slave *slave;
    struct list_head *iter;

    /* 1단계: primary 슬레이브가 UP이면 우선 선택 */
    if (bond->params.primary[0]) {
        slave = bond_find_slave_by_dev(bond, bond->primary_slave->dev);
        if (slave && slave->link == BOND_LINK_UP) {
            switch (bond->params.primary_reselect) {
            case BOND_PRI_RESELECT_ALWAYS:
                best_slave = slave;  /* 항상 primary 우선 */
                break;
            case BOND_PRI_RESELECT_BETTER:
                /* primary가 현재 active보다 우선순위 높으면 선택 */
                if (!bond->curr_active_slave ||
                    slave->prio > bond->curr_active_slave->prio)
                    best_slave = slave;
                break;
            case BOND_PRI_RESELECT_FAILURE:
                /* 현재 active 장애일 때만 primary로 전환 */
                if (!bond->curr_active_slave ||
                    bond->curr_active_slave->link != BOND_LINK_UP)
                    best_slave = slave;
                break;
            }
        }
    }

    /* 2단계: primary 없거나 DOWN이면 첫 번째 UP 슬레이브 선택 */
    if (!best_slave) {
        bond_for_each_slave(bond, slave, iter) {
            if (slave->link == BOND_LINK_UP) {
                best_slave = slave;
                break;
            }
        }
    }

    /* 3단계: 선택된 슬레이브가 현재 active와 다르면 전환 */
    if (best_slave != rtnl_dereference(bond->curr_active_slave))
        bond_change_active_slave(bond, best_slave);
}

LACPDU 송수신 처리

LACPDU 송신은 ad_lacpdu_send(), 수신은 bond_3ad_rx_indication()에서 처리됩니다. LACPDU는 Slow Protocol 멀티캐스트(Multicast) 주소 01:80:C2:00:00:02로 전송됩니다.

/* drivers/net/bonding/bond_3ad.c — LACPDU 전송 */
static int ad_lacpdu_send(struct port *port)
{
    struct slave *slave = port->slave;
    struct sk_buff *skb;
    struct lacpdu_header *lacpdu_header;

    skb = dev_alloc_skb(sizeof(struct lacpdu_header));
    if (!skb)
        return -ENOMEM;

    /* 이더넷 헤더 구성 */
    lacpdu_header = skb_put(skb, sizeof(*lacpdu_header));
    memcpy(lacpdu_header->hdr.h_dest, lacpdu_mcast_addr, ETH_ALEN);
    /* dst: 01:80:C2:00:00:02 (Slow Protocol 멀티캐스트) */
    memcpy(lacpdu_header->hdr.h_source, slave->dev->dev_addr, ETH_ALEN);
    lacpdu_header->hdr.h_proto = htons(ETH_P_SLOW);  /* 0x8809 */

    /* LACPDU 페이로드 구성 — Actor/Partner 정보 채우기 */
    __ad_fill_lacpdu(&lacpdu_header->lacpdu, port);

    skb->dev = slave->dev;
    skb->protocol = htons(ETH_P_SLOW);

    return dev_queue_xmit(skb);
}

/* LACPDU 수신 처리 — bond_handle_frame()에서 호출 */
static int bond_3ad_rx_indication(struct lacpdu *lacpdu,
                                  struct slave *slave)
{
    struct port *port = &(SLAVE_AD_INFO(slave)->port);

    /* Partner 정보 갱신 */
    __record_pdu(lacpdu, port);
    /* partner_oper.system = lacpdu->actor_system
     * partner_oper.key = lacpdu->actor_key
     * partner_oper.port_state = lacpdu->actor_state */

    /* RX Machine 상태 전이 */
    ad_rx_machine(lacpdu, port);
    /* current_while_timer 리셋 (타임아웃 연장) */

    /* Mux Machine 재평가 — Partner 상태 변경에 따른 전이 */
    ad_mux_machine(port, &update);

    /* NTT(Need To Transmit) 설정 시 즉시 LACPDU 응답 */
    if (port->ntt) {
        ad_lacpdu_send(port);
        port->ntt = false;
    }
    return 0;
}

NetworkManager / systemd-networkd로 Bonding 구성

프로덕션 환경에서는 ip link 명령 대신 NetworkManager(nmcli) 또는 systemd-networkd로 영구 설정을 관리합니다. 재부팅 후에도 bonding 설정이 유지되며, 서비스 관리 도구와 통합됩니다.

NetworkManager (nmcli) 구성

# === 802.3ad LACP Bond (nmcli) ===

# 1. Bond 커넥션 생성
nmcli con add type bond \
    con-name bond0 \
    ifname bond0 \
    bond.options "mode=802.3ad,miimon=100,lacp_rate=fast,xmit_hash_policy=layer3+4"

# 2. 슬레이브 추가
nmcli con add type ethernet \
    con-name bond0-eth0 \
    ifname eth0 \
    master bond0

nmcli con add type ethernet \
    con-name bond0-eth1 \
    ifname eth1 \
    master bond0

# 3. IP 설정
nmcli con mod bond0 \
    ipv4.method manual \
    ipv4.addresses "10.0.0.100/24" \
    ipv4.gateway "10.0.0.1" \
    ipv4.dns "8.8.8.8"

# 4. 활성화
nmcli con up bond0

# === Active-Backup Bond (nmcli) ===
nmcli con add type bond \
    con-name bond-mgmt \
    ifname bond-mgmt \
    bond.options "mode=active-backup,miimon=100,primary=eth0,\
primary_reselect=failure,fail_over_mac=active,num_grat_arp=3"

nmcli con add type ethernet con-name bond-mgmt-eth0 ifname eth0 master bond-mgmt
nmcli con add type ethernet con-name bond-mgmt-eth1 ifname eth1 master bond-mgmt
nmcli con up bond-mgmt

# === Bond 상태 확인 (nmcli) ===
nmcli con show bond0
nmcli dev show bond0
nmcli -f BOND con show bond0

systemd-networkd 구성

# === /etc/systemd/network/10-bond0.netdev ===
[NetDev]
Name=bond0
Kind=bond

[Bond]
Mode=802.3ad
TransmitHashPolicy=layer3+4
MIIMonitorSec=100ms
LACPTransmitRate=fast
MinLinks=1

# === /etc/systemd/network/20-bond0.network ===
[Match]
Name=bond0

[Network]
Address=10.0.0.100/24
Gateway=10.0.0.1
DNS=8.8.8.8

# === /etc/systemd/network/30-eth0.network ===
[Match]
Name=eth0

[Network]
Bond=bond0

# === /etc/systemd/network/30-eth1.network ===
[Match]
Name=eth1

[Network]
Bond=bond0

# 적용
systemctl restart systemd-networkd
networkctl status bond0

# === Bond + VLAN (systemd-networkd) ===
# /etc/systemd/network/40-bond0-vlan100.netdev
[NetDev]
Name=bond0.100
Kind=vlan

[VLAN]
Id=100

# /etc/systemd/network/50-bond0-vlan100.network
[Match]
Name=bond0.100

[Network]
Address=10.1.0.1/24

Bonding + VLAN + Bridge 복합 스택

서버 가상화(Virtualization) 환경에서 가장 일반적인 네트워크 스택은 Physical NIC → Bonding → VLAN → Bridge → VM/Container입니다. 이 4계층 스택으로 NIC 이중화, 트래픽 분리, 가상 네트워크 연결을 동시에 달성합니다.

서버 가상화 환경의 전형적 네트워크 스택: NIC → Bond → VLAN → Bridge → VM

# === 전체 구성 스크립트: Bond + VLAN + Bridge ===

# 1. Bond 생성 (802.3ad LACP)
ip link add bond0 type bond mode 802.3ad \
    miimon 100 lacp_rate fast \
    xmit_hash_policy layer3+4 \
    downdelay 200 updelay 200

# 2. 물리 NIC을 슬레이브로 추가
for dev in eth0 eth1 eth2; do
    ip link set $dev down
    ip link set $dev master bond0
done
ip link set bond0 up

# 3. VLAN 인터페이스 생성
ip link add link bond0 name bond0.100 type vlan id 100  # App 네트워크
ip link add link bond0 name bond0.200 type vlan id 200  # DB 네트워크
ip link add link bond0 name bond0.300 type vlan id 300  # 관리 네트워크

# 4. Bridge 생성 및 VLAN 연결
ip link add br-app type bridge
ip link set bond0.100 master br-app
ip link set br-app up
ip link set bond0.100 up

ip link add br-db type bridge
ip link set bond0.200 master br-db
ip link set br-db up
ip link set bond0.200 up

# 5. 관리 VLAN에 직접 IP 할당 (호스트 관리용)
ip addr add 10.3.0.1/24 dev bond0.300
ip link set bond0.300 up

# 6. VM TAP 인터페이스를 브리지에 연결
ip tuntap add dev vnet0 mode tap
ip link set vnet0 master br-app
ip link set vnet0 up

# 7. MTU 설정 (Jumbo Frame)
for dev in eth0 eth1 eth2 bond0 bond0.100 bond0.200 bond0.300 br-app br-db; do
    ip link set $dev mtu 9000
done

# 검증
bridge link show
cat /proc/net/bonding/bond0
ip -d link show bond0

고가용성 구성 패턴

NIC 이중화만으로는 단일 스위치 장애를 대비할 수 없습니다. 진정한 고가용성(HA)을 달성하려면 서버 NIC + 스위치 이중화를 동시에 구현해야 합니다.

이중 스위치 HA: MLAG+LACP(패턴 A)는 대역폭 최적화, active-backup(패턴 B)는 단순성 최적화

# === 패턴 A: MLAG + 802.3ad (서버 설정) ===
# 스위치 쌍이 MLAG/vPC로 연결된 환경
# 서버는 스위치 쌍을 단일 LACP 파트너로 인식
ip link add bond0 type bond mode 802.3ad \
    miimon 100 lacp_rate fast \
    xmit_hash_policy layer3+4 \
    min_links 2

# eth0,eth1 → Switch A / eth2,eth3 → Switch B
for dev in eth0 eth1 eth2 eth3; do
    ip link set $dev master bond0
done
ip link set bond0 up

# === 패턴 B: active-backup 교차 연결 ===
# eth0 → Switch A, eth1 → Switch B (서로 다른 스위치)
ip link add bond0 type bond mode active-backup \
    miimon 100 \
    primary eth0 \
    primary_reselect failure \
    num_grat_arp 3 \
    fail_over_mac active

ip link set eth0 master bond0  # Switch A
ip link set eth1 master bond0  # Switch B
ip link set bond0 up

# 스위치 A 전체 장애 시 자동으로 eth1(Switch B)로 절체
# 장점: 스위치 간 MLAG/vPC 불필요, 벤더 혼용 가능

고가용성 설계 지침:

물리적 분리: 각 슬레이브 NIC를 서로 다른 PCI 슬롯/PCIe 버스(Bus)에 배치하여 단일 HW 장애 영향 최소화
스위치 이중화: MLAG(Cisco vPC, Arista MLAG, Juniper MC-LAG) 또는 active-backup 교차 연결
min_links: 802.3ad에서 min_links=2 설정으로 슬레이브 1개만 남았을 때 bond DOWN 처리 (부분 장애 감지)
lacp_rate fast: 스위치 장애 시 3초 이내 감지 (slow는 90초)
모니터링 경고: node_bonding_active < node_bonding_slaves 발생 시 5분 이내 알림

공식 문서 기준 최신 운영 포인트

2026년 4월 21일 기준 커널 공식 문서를 보면, Bonding 운영의 핵심은 새 기능 추가보다 어떤 제어면을 기준으로 설정을 읽고 쓰는가에 있습니다. Bonding HOWTO는 오래된 ifenslave 도구를 사실상 구형 경로로 두고, iproute2(netlink) 또는 sysfs로 구성하라고 분명히 설명합니다. 따라서 최근 운영에서는 "bond 옵션을 어디에 적었는가"보다 "이 값이 netlink에 반영된 상태인지, sysfs에만 남은 상태인지"를 구분하는 편이 더 중요합니다.

링크 감시는 선택이 아니라 필수 전제입니다

공식 Bonding 문서는 miimon 또는 arp_interval와 arp_ip_target 같은 감시 옵션을 설정하지 않으면 심각한 네트워크 성능 저하가 발생할 수 있다고 강하게 경고합니다. 즉 Bonding은 "묶으면 자동으로 안전해지는 장치"가 아니라, 감시 정책이 있어야만 장애 전환이 의미를 가지는 장치입니다. 최신 기능을 쓰더라도 이 전제가 빠지면 failover가 늦거나 잘못된 링크를 살아 있다고 오판할 수 있습니다.

운영 기준: bond를 만들고 나서 mode만 확인하면 충분하지 않습니다. 최소한 miimon 또는 ARP/NS 기반 감시 조합이 설정돼 있는지 같이 확인해야 합니다.

802.3ad는 netlink 기준 옵션 해석을 따라야 합니다

공식 문서는 actor_port_prio가 802.3ad 모드에서 동작하고 netlink 인터페이스로 제공된다고 설명합니다. 또 ad_select가 stable, bandwidth, count, actor_port_prio 같은 선택 정책을 가진다고 명시합니다. 따라서 802.3ad 운영에서는 단순히 LACP가 up인지 보는 수준을 넘어서, 어그리게이터 선택 정책과 포트 우선순위가 실제로 어떤 기준으로 적용되는지를 netlink 또는 /proc/net/bonding 출력에서 함께 확인해야 합니다.

Team은 존재하지만 문서 표면은 Bonding보다 훨씬 얇습니다

공식 team 문서는 현재도 비교적 짧고 개념 중심입니다. 반면 bonding HOWTO는 여전히 방대한 운영 옵션과 감시 항목을 상세히 다룹니다. 이 차이는 실무에서 "Bonding과 Team이 같은 수준으로 문서화된 대체재"라고 보기 어렵다는 뜻입니다. 즉 최신 커널에서도 운영 세부 옵션과 장애 해석 기준은 Bonding 문서 쪽이 더 풍부한 1차 자료로 남아 있습니다.

Bonding 설정은 ifenslave보다 netlink 또는 sysfs 기준으로 관리합니다.
장애 전환 검증 시 mode와 함께 miimon, ARP/NS 감시 조합을 반드시 확인합니다.
802.3ad는 포트 우선순위와 ad_select 정책을 같이 봐야 실제 선택 결과를 설명할 수 있습니다.
Bonding 위에 ipvlan, VLAN, VRF를 얹는 경우 상위 논리 장치 문제와 하위 링크 감시 문제를 분리해서 봐야 합니다.

참고자료

커널 공식 문서: Bonding — 리눅스 bonding 드라이버 공식 문서입니다
커널 공식 문서: Team — Team 드라이버 공식 문서입니다
IEEE 802.3ad — Link Aggregation(LACP) 표준 규격입니다
man ip-link(8) — bond/team 인터페이스 생성 매뉴얼 페이지입니다
drivers/net/bonding/ 소스 디렉터리 — 커널 bonding 드라이버 소스 코드입니다
LWN: bonding support aggregator selection based on port priority — 6.18 포트 우선순위 기반 어그리게이터 선택 패치(Patch)입니다

이 주제와 관련된 다른 문서를 더 깊이 이해하고 싶다면 다음을 참고하세요.

Bonding / Team — NIC 이중화

핵심 요약

단계별 이해

Bonding 개요

Bonding 모드

Bonding 커널 구조

Bonding 구성

Bonding 모드별

Mode 0: balance-rr (라운드 로빈)

Mode 1: active-backup

Mode 4: 802.3ad (LACP)

Mode 5: balance-tlb (Adaptive Transmit Load Balancing)

Mode 6: balance-alb (Adaptive Load Balancing)

802.3ad LACP 프로토콜

LACP 상태 머신

Aggregator와 Key 개념

장애 감지와 페일오버

MII 모니터링

ARP 모니터링

해시 정책과 부하 분산 알고리즘

Bonding 흔한 실수와 트러블슈팅

XDP 프로그램 호환성 검증(Linux 6.13)

ALB 모드 ARP 경로 use-after-free 수정

Team 드라이버

LACP 상태머신

Actor/Partner 상태 비트

LACPDU 프레임 구조

LACP 타이머와 타임아웃

Aggregator 선택 알고리즘

Mux Machine 내부 구현

802.3ad LACP 협상 시퀀스

Bonding 드라이버 내부 구조

RX Handler와 수신 경로

Active-Backup

primary_reselect 정책

fail_over_mac 옵션

Gratuitous ARP/NA 전송

페일오버 타이밍 분석

Balance-XOR / Balance-RR

Balance-RR 재순서화 문제

Balance-XOR 해시 분배 상세

xmit_hash_policy 해시 함수 상세

Bonding + VLAN 스택

VLAN over Bond (권장)

Bond over VLAN (특수 용도)

MTU 관리

802.1ad Q-in-Q 구성

VLAN Filtering 상호작용

Team 드라이버 vs Bonding 비교

Team Runner 상세

Team Netlink API

Team 런타임 모드 변경

기능 매트릭스 비교

SR-IOV + Bonding

SR-IOV + Bonding 구성

하드웨어 LAG 오프로드 (mlx5/ice)

네트워크 네임스페이스(Namespace)와 Bonding

netns 이동 제약

컨테이너 런타임 연동

대규모 운영과 모니터링

다중 Bond 구성

모니터링

SNMP ifTable과 Bonding

가상 NIC 성능 비교

실무 시나리오

시나리오 1: 고가용성 서버 (active-backup + ARP 모니터링)

시나리오 2: 고처리량 서버 (802.3ad LACP 4×10G)

시나리오 3: 컨테이너 네트워킹 (veth + bridge)

시나리오 4: MACVLAN 기반 컨테이너 (브리지(Bridge) 없는 고성능)

시나리오 5: TUN 기반 사용자 VPN 구현

Bonding 드라이버 내부 TX/RX 아키텍처

bond_select_active_slave() 슬레이브 선택 알고리즘

LACPDU 송수신 처리

NetworkManager / systemd-networkd로 Bonding 구성

NetworkManager (nmcli) 구성

systemd-networkd 구성

Bonding + VLAN + Bridge 복합 스택

고가용성 구성 패턴

최신 커널 변경사항 (6.15 ~ 6.18)

ESP 오프로드 전파(Linux 6.13)