IP 프로토콜 (IPv4/IPv6)

Linux 커널 IPv4/IPv6 프로토콜의 핵심 처리 경로를 심층 분석합니다. 라우팅(Routing)/FIB 조회, ARP/NDP 기반 이웃 해석, 단편화(Fragmentation)/재조립, 체크섬(Checksum) 검증, TTL/Hop Limit 및 ICMP 오류 처리, 듀얼스택 환경의 상호작용을 포함해 커널 내부 자료구조와 함수 경로를 연결해 설명하며, MTU/PMTUD·경로 불일치·드롭 문제 디버깅(Debugging) 포인트까지 다룹니다.

전제 조건: 네트워크 스택(Network Stack)과 라우팅 문서를 먼저 읽으세요. 제어 평면과 데이터 평면이 분리되어 동작하므로, 규칙 갱신 시점과 실제 적용 지연(Latency)을 함께 확인해야 합니다.

일상 비유: 이 주제는 도로 표지판 갱신과 교통 흐름 제어(Flow Control)와 비슷합니다. 표지판을 바꿔도 차량 흐름 반영에는 시간이 필요하듯이, 경로/정책 갱신과 패킷(Packet) 처리 시점은 분리해서 봐야 합니다.

핵심 요약

패킷 수명주기 — ingress, 처리, egress 경로를 연결합니다.
큐/버퍼(Buffer) 모델 — sk_buff와 큐 지점의 역할을 분리합니다.
정책/데이터 분리 — 제어 평면과 데이터 평면을 구분합니다.
성능 지표 — PPS, 지연, 드롭 원인을 함께 분석합니다.
오프로딩(Offloading) 경계 — NIC/XDP/DPDK 경계를 명확히 유지합니다.

단계별 이해

경로 고정
문제가 발생한 ingress/egress 지점을 먼저 특정합니다.
큐 관찰
백로그와 드롭 위치를 계측합니다.
정책 반영 확인
라우팅/필터 변경이 데이터 경로에 반영됐는지 봅니다.
부하 검증
실제 트래픽 패턴에서 재현성을 확인합니다.

관련 표준: RFC 791 (IPv4), RFC 8200 (IPv6), RFC 826 (ARP), RFC 4861 (NDP), RFC 1042 (LLC/SNAP) — IP 프로토콜과 데이터 링크 계층 표준입니다. 종합 목록은 참고자료 — 표준 & 규격 섹션을 참고하세요.

IPv4 프로토콜

IPv4(Internet Protocol version 4, RFC 791)는 인터넷의 핵심 네트워크 계층 프로토콜입니다. 32비트 주소 체계(약 43억 개), 가변 길이 헤더(20~60바이트), 헤더 체크섬, 단편화/재조합, TTL 기반 루프 방지 등의 메커니즘을 제공합니다. 리눅스 커널은 net/ipv4/ 디렉토리에 IPv4 전체 스택을 구현하며, 수신(ip_rcv), 라우팅(ip_route_input), 포워딩(ip_forward), 전송(ip_output) 경로가 Netfilter 훅과 긴밀하게 연동됩니다.

IPv4

이 섹션에서는 IPv4 헤더의 각 필드와 커널 처리 경로를 상세히 분석합니다. 체크섬 알고리즘(RFC 1071)과 아키텍처별 최적화, 증분 갱신(RFC 1624), 하드웨어 오프로드, 단편화/PMTUD, IP 옵션 처리까지 커널 소스 레벨에서 다룹니다.

IPv4 헤더 구조와 커널 처리

/* include/uapi/linux/ip.h */
struct iphdr {
#if defined(__LITTLE_ENDIAN_BITFIELD)
    __u8    ihl:4,         /* Internet Header Length (단위: 4바이트) */
            version:4;    /* IP 버전 (항상 4) */
#elif defined(__BIG_ENDIAN_BITFIELD)
    __u8    version:4,
            ihl:4;
#endif
    __u8    tos;             /* Type of Service / DSCP + ECN */
    __be16  tot_len;         /* 패킷 전체 길이 (헤더 + 페이로드) */
    __be16  id;              /* 식별자 (단편화용) */
    __be16  frag_off;        /* 플래그(3bit) + Fragment Offset(13bit) */
    __u8    ttl;             /* Time To Live */
    __u8    protocol;        /* 상위 프로토콜 (6=TCP, 17=UDP, 132=SCTP) */
    __sum16 check;           /* 헤더 체크섬 */
    union {
        struct {
            __be32  saddr;   /* 소스 IP 주소 */
            __be32  daddr;   /* 목적지 IP 주소 */
        };
        __be32 addrs[2];
    };
    /* IP 옵션 (ihl > 5일 때, 최대 40바이트) */
};

코드 설명

include/uapi/linux/ip.h에 정의된 struct iphdr은 IPv4 헤더의 커널 내 표현입니다.

ihl / version#if defined(__LITTLE_ENDIAN_BITFIELD) 조건부 컴파일로 비트 필드 순서를 엔디안(Endianness)에 맞게 배치합니다. ihl은 헤더 길이를 4바이트 단위로 나타내며 최솟값은 5(20바이트)입니다.
tos상위 6비트가 DSCP(QoS 분류), 하위 2비트가 ECN(혼잡 알림)으로 사용됩니다.
tot_len헤더와 페이로드(Payload)를 합한 패킷 전체 길이이며, 네트워크 바이트 순서(Byte Order)(__be16)로 저장됩니다.
id / frag_off단편화(Fragmentation)에 사용되는 필드입니다. frag_off는 상위 3비트가 플래그(DF, MF), 하위 13비트가 오프셋(Offset)입니다.
ttl / protocolttl은 매 홉(hop)마다 감소하여 무한 루프를 방지하고, protocol은 상위 프로토콜 번호(6=TCP, 17=UDP)를 지정합니다.
check헤더 전용 체크섬으로, TTL 변경 시 매 홉마다 재계산이 필요합니다. ip_fast_csum()으로 검증합니다.
saddr / daddr32비트 소스/목적지 IP 주소이며, union으로 배열 접근(addrs[2])도 가능합니다.

ℹ️

tos 필드의 상위 6비트는 DSCP(Differentiated Services Code Point)이고, 하위 2비트는 ECN(Explicit Congestion Notification)입니다. ECN은 라우터가 혼잡을 감지하면 패킷을 드롭하는 대신 ECN 비트를 설정하여 송신자에게 알리는 메커니즘으로, TCP 혼잡 제어(Congestion Control)와 긴밀하게 연동됩니다.

IPv4 수신 경로 (ip_rcv)

/* net/ipv4/ip_input.c — IPv4 패킷 수신 진입점 */
int ip_rcv(struct sk_buff *skb, struct net_device *dev,
           struct packet_type *pt, struct net_device *orig_dev)
{
    struct iphdr *iph;

    /* 1. 기본 검증 */
    if (!pskb_may_pull(skb, sizeof(struct iphdr)))
        goto drop;

    iph = ip_hdr(skb);

    /* 2. 버전, IHL, 길이 검증 */
    if (iph->ihl < 5 || iph->version != 4)
        goto inhdr_error;
    if (ntohs(iph->tot_len) < (iph->ihl * 4))
        goto inhdr_error;

    /* 3. 헤더 체크섬 검증 */
    if (ip_fast_csum((u8 *)iph, iph->ihl))
        goto csum_error;

    /* 4. Netfilter PREROUTING 훅 */
    return NF_HOOK(NFPROTO_IPV4, NF_INET_PRE_ROUTING,
                   dev_net(dev), NULL, skb, dev, NULL,
                   ip_rcv_finish);
    /* → ip_rcv_finish → 라우팅 결정 → ip_local_deliver 또는 ip_forward */
}

/* ip_rcv_finish → ip_route_input_noref → 라우팅 결정 */
/*   목적지가 로컬: ip_local_deliver → ip_local_deliver_finish */
/*   목적지가 외부: ip_forward → ip_forward_finish */
/*   브로드캐스트:  ip_local_deliver (+ 포워딩 가능) */
/*   멀티캐스트:    ip_mr_input (멀티캐스트 라우팅) */

코드 설명

net/ipv4/ip_input.c의 ip_rcv()는 L2에서 올라온 IPv4 패킷의 진입점(Entry Point)입니다. 호출 체인: ip_rcv → NF_HOOK(NF_INET_PRE_ROUTING) → ip_rcv_finish → 라우팅 결정.

pskb_may_pull()skb의 선형 영역에 최소 IP 헤더(20바이트)가 확보되어 있는지 검사합니다. 부족하면 페이지(Page)드 데이터를 선형 영역으로 끌어옵니다.
ihl < 5 || version != 4IHL이 5 미만이면 헤더가 최소 크기보다 작으므로 유효하지 않고, 버전이 4가 아니면 IPv4 패킷이 아닙니다.
ip_fast_csum()아키텍처별로 최적화된 헤더 체크섬 검증 함수입니다. 반환값이 0이 아니면 체크섬 오류로 드롭합니다.
NF_HOOK(NF_INET_PRE_ROUTING)Netfilter PREROUTING 훅을 통과시킵니다. iptables/nftables의 PREROUTING 체인, conntrack, DNAT이 여기서 적용됩니다. 통과 후 콜백(Callback) ip_rcv_finish가 호출됩니다.
ip_rcv_finish → 라우팅 결정ip_rcv_finish()는 ip_route_input_noref()로 FIB(Forwarding Information Base)를 조회하여 목적지가 로컬이면 ip_local_deliver(), 외부면 ip_forward()로 분기합니다.

IP 체크섬 (Checksum)

IP 체크섬은 RFC 1071에 정의된 1의 보수(one's complement) 합 알고리즘을 사용합니다. IPv4 헤더의 무결성(Integrity)을 보장하는 핵심 메커니즘으로, 매 홉(hop)마다 TTL이 감소하므로 라우터는 체크섬을 매번 재계산해야 합니다.

체크섬 알고리즘 원리

IP 체크섬은 헤더를 16비트 워드 단위로 나누어 1의 보수 덧셈을 수행한 뒤, 결과의 1의 보수를 취합니다:

/*
 * RFC 1071 — Internet Checksum 알고리즘
 *
 * 1. 체크섬 필드를 0으로 설정
 * 2. 헤더를 16비트 워드 단위로 분할
 * 3. 모든 워드를 1의 보수 합산 (캐리 발생 시 하위에 더함)
 * 4. 최종 합의 1의 보수(비트 반전)가 체크섬 값
 *
 * 검증: 체크섬 포함하여 전체 합산 → 결과가 0xFFFF이면 유효
 */

/* 단순 구현 (이해용 — 실제 커널은 최적화 버전 사용) */
static __sum16 simple_ip_checksum(const void *data, int len)
{
    const __be16 *ptr = data;
    u32 sum = 0;
    int nwords = len / 2;

    while (nwords-- > 0)
        sum += *ptr++;

    /* 홀수 바이트 처리 (IP 헤더에서는 발생하지 않지만 범용 구현) */
    if (len & 1)
        sum += *(u8 *)ptr;

    /* 캐리 폴딩: 상위 16비트를 하위 16비트에 반복 합산 */
    while (sum >> 16)
        sum = (sum & 0xFFFF) + (sum >> 16);

    return (__sum16)~sum;
}

ℹ️

1의 보수 연산 특성: 일반 2의 보수 덧셈과 달리, 1의 보수 합에서는 캐리(carry)가 발생하면 결과에 1을 더합니다(end-around carry). 이 특성 덕분에 바이트 순서(endianness)에 독립적이며, 합산 순서를 바꿔도 결과가 동일합니다. 또한 체크섬 계산에 체크섬 필드 자체를 포함해도 최종 결과가 0xFFFF(또는 ~0)이 되어 검증이 단순합니다.

커널 체크섬 구현

리눅스 커널은 성능을 위해 아키텍처별 최적화된 체크섬 함수를 제공합니다:

/* arch/x86/include/asm/checksum.h — x86 최적화 */
static inline __sum16 ip_fast_csum(const void *iph, unsigned int ihl)
{
    unsigned int sum;

    asm(
        "  movl (%1), %0\\n"          /* 첫 번째 32비트 워드 로드 */
        "  subl $4, %2\\n"            /* ihl -= 4 (최소 5이므로 1부터 루프) */
        "  jbe 2f\\n"
        "  addl 4(%1), %0\\n"         /* 두 번째 워드 가산 */
        "  adcl 8(%1), %0\\n"         /* ADC: 캐리 포함 가산 (1의 보수 합) */
        "  adcl 12(%1), %0\\n"        /* 네 번째 워드 */
        "1: adcl 16(%1), %0\\n"       /* 루프: IP 옵션 영역 */
        "  lea 4(%1), %1\\n"
        "  decl %2\\n"
        "  jne 1b\\n"
        "  adcl $0, %0\\n"            /* 마지막 캐리 추가 */
        "  movl %0, %2\\n"
        "  shrl $16, %0\\n"           /* 상위 16비트 */
        "  addw %w2, %w0\\n"          /* 16비트 폴딩 */
        "  adcl $0, %0\\n"
        "  notl %0\\n"                 /* 비트 반전 (1의 보수) */
        "2:"
        : "=r"(sum), "=r"(iph), "=r"(ihl)
        : "1"(iph), "2"(ihl)
        : "memory"
    );
    return (__sum16)sum;
}

/*
 * ip_fast_csum 동작 요약:
 *   - 32비트 단위로 ADC(Add with Carry) 명령어 사용
 *   - 처음 4워드(20바이트 기본 헤더)는 언롤링으로 분기 없이 처리
 *   - IP 옵션이 있으면(ihl > 5) 루프로 추가 워드 처리
 *   - 최종 32비트 → 16비트 폴딩 + NOT
 *   - 반환값 0 = 체크섬 유효, 비-0 = 오류
 */

/* include/net/checksum.h — 범용 체크섬 유틸리티 */

/* 부분 체크섬 계산 (임의 길이 데이터) */
__wsum csum_partial(const void *buff, int len, __wsum wsum);
/*
 * 데이터 버퍼의 부분 체크섬을 계산하여 기존 wsum에 누적.
 * TCP/UDP 페이로드 체크섬 계산의 핵심 함수.
 * 아키텍처별 어셈블리 최적화 제공 (x86, ARM, MIPS 등).
 *
 * x86_64: ADCQ 명령어로 64비트 단위 처리 → 대용량 데이터에서 2배 빠름
 * ARM: LDMIA + ADC 조합으로 레지스터 파이프라인 최적화
 */

/* 32비트 합을 16비트 체크섬으로 최종 폴딩 */
static inline __sum16 csum_fold(__wsum csum)
{
    u32 sum = (__force u32)csum;
    sum = (sum & 0xFFFF) + (sum >> 16);  /* 첫 번째 폴딩 */
    sum = (sum & 0xFFFF) + (sum >> 16);  /* 두 번째 폴딩 (캐리 전파) */
    return (__sum16)~sum;
}

/* 체크섬 검증: 전체 합이 0이면 유효 */
static inline __sum16 csum_verify(__wsum csum)
{
    return csum_fold(csum);  /* 결과가 0이면 유효 */
}

/* IP 헤더에 체크섬 기록 (송신 경로) */
static inline void ip_send_check(struct iphdr *iph)
{
    iph->check = 0;
    iph->check = ip_fast_csum((unsigned char *)iph, iph->ihl);
    /*
     * 송신 경로에서 IP 헤더 완성 후 호출.
     * ip_output() → ip_finish_output() 직전에 실행.
     *
     * 주요 호출 위치:
     *   - ip_build_and_send_pkt(): SYN+ACK 응답
     *   - ip_queue_xmit(): 일반 TCP 송신
     *   - ip_push_pending_frames(): UDP 등 지연 송신
     *   - ip_forward_finish(): 포워딩 (증분 갱신 후 호출하지 않음 — ip_decrease_ttl 사용)
     */
}

/* ip_do_csum — 아키텍처 독립적 IP 체크섬 (fallback) */
unsigned short ip_compute_csum(const void *buff, int len);
/*
 * 임의 길이 데이터의 체크섬 계산 (csum_fold + csum_partial 조합)
 * ICMP 등 IP가 아닌 프로토콜의 체크섬 계산에 사용.
 * 내부적으로: return csum_fold(csum_partial(buff, len, 0));
 */

체크섬 산술 헬퍼 함수

커널은 체크섬 값을 조합하거나 변환하기 위한 다양한 산술 헬퍼를 제공합니다. 이 함수들은 include/net/checksum.h에 정의되어 있으며, 체크섬을 부분적으로 계산한 뒤 결합하거나, 프로토콜 스택의 각 계층에서 누적 합산할 때 핵심적으로 사용됩니다:

/* include/net/checksum.h — 체크섬 산술 연산 */

/* 두 부분 체크섬을 1의 보수 합으로 결합 */
static inline __wsum csum_add(__wsum csum, __wsum addend)
{
    u32 res = (__force u32)csum;
    res += (__force u32)addend;
    return (__force __wsum)(res + (res < (__force u32)addend));
    /*
     * 핵심: res < addend 이면 캐리 발생 → +1 (end-around carry)
     *
     * 사용 예:
     *   __wsum total = csum_add(csum_partial(hdr, hdr_len, 0),
     *                           csum_partial(payload, pay_len, 0));
     *   → 헤더와 페이로드의 부분 체크섬을 결합
     *
     * 수신 경로에서:
     *   csum_add(skb->csum, pseudo_header_csum)
     *   → HW 체크섬(CHECKSUM_COMPLETE) + 의사 헤더 합산
     */
}

/* 체크섬에서 특정 값을 빼기 (1의 보수 감산) */
static inline __wsum csum_sub(__wsum csum, __wsum addend)
{
    return csum_add(csum, ~addend);
    /*
     * 1의 보수 체계에서 빼기 = 비트 반전 후 더하기
     * ~addend는 addend의 1의 보수 (비트 반전)
     *
     * 사용 예: skb_pull() 후 제거된 헤더의 체크섬 보정
     *   skb->csum = csum_sub(skb->csum, csum_partial(removed_hdr, len, 0));
     *
     * NAT에서도 사용:
     *   old 값 빼고 new 값 더하기 = 증분 갱신의 기초
     */
}

/* __sum16(16비트) → __wsum(32비트) 확장 (폴딩의 역연산) */
static inline __wsum csum_unfold(__sum16 n)
{
    return (__force __wsum)n;
    /*
     * 16비트 체크섬을 32비트 wsum으로 제로 확장.
     * csum_fold()의 역연산.
     *
     * 증분 갱신에서 기존 체크섬 필드를 wsum으로 변환할 때 사용:
     *   __wsum old = csum_unfold(*checksum_field);
     *   __wsum new = csum_add(csum_sub(old, old_val), new_val);
     *   *checksum_field = csum_fold(new);
     */
}

/* 블록 단위 부분 체크섬을 오프셋 고려하여 합산 */
static inline __wsum csum_block_add(__wsum csum, __wsum csum2, int offset)
{
    u32 sum = (__force u32)csum2;
    /* 홀수 오프셋이면 바이트 스왑 — 바이트 정렬 보정 */
    if (offset & 1)
        sum = ((sum & 0xFF00FF) << 8) + ((sum >> 8) & 0xFF00FF);
    return csum_add(csum, (__force __wsum)sum);
    /*
     * 비연속 메모리 블록의 체크섬을 합산할 때 사용.
     * 예: scatter-gather I/O에서 각 fragment의 체크섬을 합산
     *
     * offset이 홀수이면 16비트 워드 경계가 어긋나므로
     * 바이트 스왑으로 보정해야 정확한 1의 보수 합이 됨.
     *
     * skb_checksum()에서 paged data 처리 시:
     *   for (각 frag) {
     *       __wsum frag_csum = csum_partial(frag_data, frag_len, 0);
     *       csum = csum_block_add(csum, frag_csum, offset);
     *       offset += frag_len;
     *   }
     */
}

/* csum_block_add의 역연산 (블록 체크섬 제거) */
static inline __wsum csum_block_sub(__wsum csum, __wsum csum2, int offset)
{
    return csum_block_add(csum, ~csum2, offset);
    /* skb에서 특정 블록을 제거할 때 체크섬 보정에 사용 */
}

/* csum_block_add의 최적화 변형 — 이미 정렬된 경우 */
static inline __wsum csum_block_add_ext(__wsum csum, __wsum csum2,
                                        int offset, int len)
{
    return csum_block_add(csum, csum2, offset);
    /* len 매개변수는 향후 최적화를 위해 예약 (현재 미사용) */
}

💡

csum_block_add의 바이트 스왑(Swap) 이유: 1의 보수 체크섬은 16비트 워드 단위로 합산합니다. 데이터가 홀수 오프셋(Offset)에서 시작하면 바이트 정렬이 이전 블록과 달라집니다. 예를 들어 바이트열 [AA BB CC DD]에서 오프셋 1 시작이면 [BB CC] [DD ??]로 워드가 분할되어, 오프셋 0의 [AA BB] [CC DD]와 다른 합이 됩니다. csum_block_add는 이 차이를 바이트 스왑으로 보정하여 마치 연속 메모리처럼 정확한 체크섬을 계산합니다.

데이터 복사 + 체크섬 동시 계산

커널은 메모리 복사와 체크섬 계산을 하나의 패스(single pass)로 수행하는 함수들을 제공합니다. 데이터를 한 번만 읽으므로 캐시(Cache) 효율이 높고, 대용량 페이로드(Payload)에서 성능 이점이 큽니다:

/* arch/x86/lib/csum-copy_64.S 등 — 아키텍처별 최적화 */

/* 커널 공간 → 커널 공간 복사 + 체크섬 */
__wsum csum_partial_copy_nocheck(const void *src, void *dst,
                                  int len, __wsum sum);
/*
 * src → dst로 len 바이트를 복사하면서 동시에 체크섬 누적.
 * "nocheck"는 페이지 폴트 검사를 하지 않는다는 의미 (커널 주소만 사용).
 *
 * 사용 예 — TCP 재전송 큐 복사:
 *   __wsum csum = 0;
 *   csum = csum_partial_copy_nocheck(orig_data, new_data, len, csum);
 *   // csum에는 복사된 데이터의 체크섬이 누적됨
 *
 * x86_64 구현: REP MOVSB + ADC 조합으로 복사와 합산을 동시에 수행.
 * 별도로 csum_partial()을 호출하는 것보다 캐시 미스가 절반으로 줄어듦.
 */

/* 사용자 공간 → 커널 공간 복사 + 체크섬 (수신 경로) */
__wsum csum_partial_copy_from_user(const void __user *src,
                                    void *dst, int len,
                                    __wsum sum, int *err_ptr);
/*
 * 사용자 공간에서 커널로 복사하면서 체크섬 계산.
 * 페이지 폴트 발생 가능 → *err_ptr에 오류 코드 설정.
 *
 * 사용 예 — sendmsg() 경로:
 *   사용자 버퍼 → skb 데이터 영역 복사 시 체크섬 동시 계산
 *   → CHECKSUM_PARTIAL이 아닌 경우 SW 체크섬 계산에 활용
 */

/* 커널 공간 → 사용자 공간 복사 + 체크섬 (송신 경로) */
__wsum csum_and_copy_to_user(const void *src,
                              void __user *dst, int len,
                              __wsum sum, int *err_ptr);
/*
 * 커널에서 사용자 공간으로 복사하면서 체크섬 계산.
 *
 * 사용 예 — recvmsg() 경로:
 *   skb 데이터 → 사용자 버퍼 복사 시 체크섬 동시 검증
 *   tcp_recvmsg() → skb_copy_datagram_msg() 경로에서 활용
 */

/* 사용자 공간 → 커널 공간 복사 + 체크섬 (sendmsg 최적화) */
__wsum csum_and_copy_from_user(const void __user *src,
                                void *dst, int len,
                                __wsum sum, int *err_ptr);
/*
 * csum_partial_copy_from_user()와 유사하지만,
 * 최신 커널에서는 이 함수로 통합되는 추세.
 *
 * UDP sendmsg() → ip_make_skb() → __ip_append_data() 경로:
 *   사용자 버퍼에서 skb 페이지로 복사하면서 체크섬을 누적 계산
 *   → 나중에 csum_fold()로 최종 체크섬 생성
 */

ℹ️

복사+체크섬 결합의 성능: 대형 패킷(예: 64KB GSO 세그먼트)에서 데이터를 두 번 순회(복사 1회 + 체크섬 1회)하면 캐시 라인(Cache Line)을 두 번 로드해야 합니다. csum_partial_copy_nocheck()는 한 번의 순회로 양쪽을 처리하여 L1/L2 캐시 히트율을 크게 향상시킵니다. x86_64에서 64바이트 캐시 라인 기준, 64KB 데이터의 경우 약 1024회의 불필요한 캐시 라인 로드를 절약합니다.

증분 체크섬 갱신 (Incremental Update)

라우터가 패킷을 포워딩할 때 TTL을 감소시키면 체크섬도 갱신해야 합니다. RFC 1624에 따라 전체를 재계산하지 않고 변경된 필드만으로 증분 갱신하여 성능을 최적화합니다:

/* include/net/ip.h — TTL 감소 + 체크섬 증분 갱신 */
static inline int ip_decrease_ttl(struct iphdr *iph)
{
    u32 check = (__force u32)iph->check;
    check += (__force u32)htons(0x0100);
    /*
     * TTL은 8번째 바이트 (offset 8).
     * TTL이 1 감소하면 16비트 워드 관점에서 상위 바이트가 1 감소.
     * 1의 보수 합에서 필드 감소 = 체크섬에 해당 차이를 더함.
     * htons(0x0100) = 빅엔디안에서 TTL 바이트 위치의 +1.
     *
     * 1의 보수 산술: ~(C + (-m) + m') = ~C' (RFC 1624)
     *   C  = 기존 체크섬의 1의 보수
     *   m  = 변경 전 값
     *   m' = 변경 후 값
     *   C' = 새 체크섬의 1의 보수
     */
    iph->check = (__force __sum16)(check + (check >= 0xFFFF));
    /* check >= 0xFFFF: 캐리 발생 시 +1 (end-around carry) */
    return --iph->ttl;
}

/* net/core/utils.c — 범용 증분 체크섬 갱신 */
void inet_proto_csum_replace4(__sum16 *sum, struct sk_buff *skb,
                              __be32 from, __be32 to, bool pseudohdr)
{
    /*
     * NAT에서 IP 주소 변경 시 사용.
     * from: 변경 전 주소, to: 변경 후 주소
     * pseudohdr: true면 TCP/UDP 의사 헤더 체크섬도 갱신
     *
     * 내부적으로 csum_replace4() 호출:
     *   ~csum_partial(&to, 4, csum_partial(&from_complement, 4, ~old_csum))
     *
     * 핵심: 전체 패킷을 다시 순회하지 않고 O(1)에 체크섬 갱신
     */
    if (skb->ip_summed != CHECKSUM_PARTIAL) {
        *sum = csum_fold(
            csum_partial((u8 *)&to, 4,
                csum_partial((u8 *)&from, 4,
                    ~csum_unfold(*sum))));
    } else if (pseudohdr) {
        *sum = ~csum_fold(
            csum_partial((u8 *)&to, 4,
                csum_partial((u8 *)&from, 4,
                    csum_unfold(*sum))));
    }
}

/* 2바이트 필드 변경 (포트 번호 등) */
void inet_proto_csum_replace2(__sum16 *sum, struct sk_buff *skb,
                              __be16 from, __be16 to, bool pseudohdr);
/* NAT에서 포트 변환(NAPT) 시 TCP/UDP 체크섬 증분 갱신에 사용 */

/* 저수준 증분 갱신 함수 (inet_proto_csum_replace*의 내부) */
static inline void csum_replace4(__sum16 *sum,
                                   __be32 from, __be32 to)
{
    *sum = csum_fold(
        csum_partial((u8 *)&to, 4,
            csum_partial((u8 *)&from, 4,
                ~csum_unfold(*sum))));
    /*
     * inet_proto_csum_replace4()의 핵심 로직.
     * skb->ip_summed 상태를 고려하지 않는 단순 버전.
     *
     * 알고리즘: ~(~old_csum + ~old_val + new_val)
     *   = old_csum - old_val + new_val (1의 보수 산술)
     *
     * IP 헤더 체크섬 직접 갱신 시 사용:
     *   csum_replace4(&iph->check, old_saddr, new_saddr);
     */
}

static inline void csum_replace2(__sum16 *sum,
                                   __be16 old, __be16 new)
{
    *sum = ~csum16_add(csum16_sub(~(*sum), old), new);
    /*
     * 2바이트 필드 변경 시 체크섬 증분 갱신.
     * TCP/UDP 포트 번호 변경에 사용.
     *
     * 사용 예 — NAPT 포트 변환:
     *   csum_replace2(&tcph->check, old_port, new_port);
     */
}

/* IPv6 128비트 주소 변경 시 체크섬 증분 갱신 */
void inet_proto_csum_replace16(__sum16 *sum, struct sk_buff *skb,
                               const __be32 *from, const __be32 *to,
                               bool pseudohdr);
/*
 * IPv6 NAT에서 128비트 주소 변경 시 사용.
 * 내부적으로 4바이트 단위로 4회 반복하여 증분 갱신:
 *   for (i = 0; i < 4; i++)
 *       inet_proto_csum_replace4(sum, skb, from[i], to[i], pseudohdr);
 *
 * IPv6에는 IP 헤더 체크섬이 없으므로 TCP/UDP 의사 헤더 체크섬만 갱신.
 * NFT_NAT, ip6tables MASQUERADE 등에서 사용.
 */

/* diff 기반 체크섬 갱신 (임의 길이 변경) */
void inet_proto_csum_replace_by_diff(__sum16 *sum,
                                     struct sk_buff *skb,
                                     __wsum diff, bool pseudohdr);
/*
 * 미리 계산된 체크섬 차이(diff)를 적용.
 * 가변 길이 데이터 변경 시 유용.
 *
 * 사용 예 — BPF 프로그램에서:
 *   __wsum diff = csum_sub(csum_partial(new_data, new_len, 0),
 *                          csum_partial(old_data, old_len, 0));
 *   inet_proto_csum_replace_by_diff(&csum, skb, diff, true);
 *
 * bpf_l4_csum_replace() 헬퍼의 내부 구현에서도 사용.
 */

💡

증분 갱신의 성능 이점: 표준 IP 헤더(20바이트)의 체크섬 재계산은 10회의 16비트 덧셈이 필요하지만, 증분 갱신은 단 1~2회의 32비트 연산으로 완료됩니다. 고속 라우팅(포워딩 경로)에서 매 패킷마다 수행되므로 이 최적화는 매우 중요합니다. Netfilter NAT에서 IP 주소와 포트를 동시에 변경할 때도 inet_proto_csum_replace4와 inet_proto_csum_replace2를 순차적으로 호출하여 O(1)에 처리합니다.

ℹ️

NAT 체크섬 갱신 순서: SNAT/DNAT에서 IP 주소와 포트를 동시에 변경할 때, 체크섬 갱신 순서가 중요합니다. 일반적인 순서는: (1) inet_proto_csum_replace4()로 IP 주소 변경분을 L4 체크섬(TCP/UDP check 필드)에 반영, (2) inet_proto_csum_replace2()로 포트 변경분을 L4 체크섬에 반영, (3) csum_replace4()로 IP 주소 변경분을 L3 체크섬(IP header check 필드)에 반영. L3와 L4는 독립적이므로 순서를 바꿔도 결과는 동일하지만, 커널 코드에서는 L4 → L3 순서가 일반적입니다.

TCP/UDP 의사 헤더 체크섬

TCP와 UDP는 IP 계층의 주소 정보를 체크섬에 포함하기 위해 의사 헤더(pseudo-header)를 사용합니다. 이 설계는 잘못된 호스트로 배달된 패킷을 상위 계층에서 탐지할 수 있게 합니다:

의사 헤더 필드	크기	설명
Source Address	4 bytes (IPv4)	송신 IP 주소
Destination Address	4 bytes (IPv4)	수신 IP 주소
Zero	1 byte	항상 0 (패딩(Padding))
Protocol	1 byte	`IPPROTO_TCP` 또는 `IPPROTO_UDP`
TCP/UDP Length	2 bytes	L4 헤더 + payload 길이

의사 헤더는 실제로 전송되지 않으며, 체크섬 계산 시에만 포함됩니다.

/* include/net/ip.h — 의사 헤더 체크섬 계산 */
static inline __wsum csum_tcpudp_nofold(
    __be32 saddr, __be32 daddr,
    __u32 len, __u8 proto, __wsum sum)
{
    /* x86 최적화 구현 (인라인 어셈블리) */
    asm(
        "  addl %1, %0\\n"    /* sum += saddr */
        "  adcl %2, %0\\n"    /* sum += daddr + carry */
        "  adcl %3, %0\\n"    /* sum += (proto << 8) + len + carry */
        "  adcl $0, %0\\n"    /* 마지막 캐리 추가 */
        : "=r"(sum)
        : "g"(daddr), "g"(saddr),
          "g"((u32)((u32)len + ((u32)proto << 8))),
          "0"(sum)
    );
    return sum;
}

/* 최종 TCP/UDP 체크섬 = csum_fold(의사 헤더 + 헤더 + 페이로드) */
static inline __sum16 csum_tcpudp_magic(
    __be32 saddr, __be32 daddr,
    __u32 len, __u8 proto, __wsum sum)
{
    return csum_fold(csum_tcpudp_nofold(saddr, daddr, len, proto, sum));
}

/* 전송 경로에서 TCP 체크섬 계산 예시 */
/* tcp_v4_send_check() → tcp_v4_check() */
static inline __sum16 tcp_v4_check(int len, __be32 saddr,
                                    __be32 daddr, __wsum base)
{
    return csum_tcpudp_magic(saddr, daddr, len, IPPROTO_TCP, base);
    /*
     * base = csum_partial(TCP 헤더 + 페이로드)
     * 의사 헤더(src_ip, dst_ip, 프로토콜, 길이) + 실제 데이터를
     * 하나의 1의 보수 합으로 통합
     *
     * HW offload 시 (CHECKSUM_PARTIAL):
     *   의사 헤더 체크섬만 미리 계산하여 TCP 헤더의 check 필드에 기록
     *   NIC가 나머지(TCP 헤더 + 페이로드) 합산을 HW로 처리
     */
}

프로토콜별 체크섬 함수

각 프로토콜(TCP, UDP, ICMP 등)은 고유한 체크섬 처리 흐름을 가집니다. 커널은 이를 위한 전용 함수들을 제공합니다:

/* ======== TCP 체크섬 함수 ======== */

/* TCP 체크섬 완전성 검증 (수신 경로) */
static inline bool tcp_checksum_complete(struct sk_buff *skb)
{
    return !skb_csum_unnecessary(skb) &&
           __skb_checksum_complete(skb);
    /*
     * TCP 수신 경로(tcp_v4_rcv)에서 호출.
     *
     * 1) CHECKSUM_UNNECESSARY → 즉시 통과 (HW가 검증 완료)
     * 2) CHECKSUM_COMPLETE → skb->csum + 의사 헤더 합산하여 검증
     * 3) CHECKSUM_NONE → SW로 전체 체크섬 재계산
     *
     * 내부적으로 __skb_checksum_complete()는:
     *   __sum16 csum = csum_fold(skb_checksum(skb, 0, skb->len, skb->csum));
     *   → 0이면 유효, 비-0이면 손상
     *
     * 실패 시 TCP MIB 카운터 InCsumErrors 증가:
     *   TCP_MIB_CSUMERRORS
     */
}

/* TCP 체크섬 계산 및 기록 (송신 경로) */
void tcp_v4_send_check(struct sock *sk, struct sk_buff *skb)
{
    struct inet_sock *inet = inet_sk(sk);
    struct tcphdr *th = tcp_hdr(skb);

    __tcp_v4_send_check(skb, inet->inet_saddr, inet->inet_daddr);
    /*
     * __tcp_v4_send_check() 내부:
     *   1) skb->ip_summed == CHECKSUM_PARTIAL이면:
     *      th->check = ~tcp_v4_check(len, saddr, daddr, 0);
     *      → 의사 헤더 체크섬의 보수만 기록 (NIC가 나머지 계산)
     *      → skb->csum_start / skb->csum_offset 설정
     *
     *   2) 그 외:
     *      th->check = tcp_v4_check(len, saddr, daddr,
     *                               csum_partial(th, th->doff * 4, skb->csum));
     *      → SW로 전체 체크섬 계산
     *
     * 호출 위치:
     *   tcp_transmit_skb() → __tcp_transmit_skb() → tcp_v4_send_check()
     *   모든 TCP 세그먼트 송신 시 호출됨 (SYN, ACK, DATA, FIN 등)
     */
}

/* TCP 체크섬 초기화 (수신 경로 진입점) */
static inline int tcp_v4_checksum_init(struct sk_buff *skb)
{
    struct iphdr *iph = ip_hdr(skb);
    struct tcphdr *th = tcp_hdr(skb);

    if (skb->ip_summed == CHECKSUM_COMPLETE) {
        /* HW가 제공한 csum에 의사 헤더 합산 → 0이면 유효 */
        if (!tcp_v4_check(skb->len, iph->saddr, iph->daddr, skb->csum)) {
            skb->ip_summed = CHECKSUM_UNNECESSARY;
            return 0;
        }
    }
    /* SW 검증 준비: 의사 헤더 체크섬을 skb->csum에 미리 저장 */
    skb->csum = csum_tcpudp_nofold(iph->saddr, iph->daddr,
                                    skb->len, IPPROTO_TCP, 0);
    return 0;
    /*
     * tcp_v4_rcv() 초반에 호출.
     * 이후 tcp_checksum_complete()에서 skb->csum에 누적된
     * 의사 헤더 + 데이터 합산으로 최종 검증.
     */
}

/* ======== UDP 체크섬 함수 ======== */

/* UDP 체크섬 초기화 (수신 경로) */
static inline int udp4_csum_init(struct sk_buff *skb,
                                  struct udphdr *uh, int proto)
{
    struct iphdr *iph = ip_hdr(skb);

    if (uh->check == 0) {
        /* UDP 체크섬 0 = 비사용 (IPv4만 허용, IPv6에서는 불법) */
        skb->ip_summed = CHECKSUM_UNNECESSARY;
        return 0;
    }

    if (skb->ip_summed == CHECKSUM_COMPLETE) {
        /* HW csum + 의사 헤더 합산 → 유효 여부 확인 */
        if (!csum_tcpudp_magic(iph->saddr, iph->daddr,
                               skb->len, proto, skb->csum))
            skb->ip_summed = CHECKSUM_UNNECESSARY;
    }

    if (skb->ip_summed != CHECKSUM_UNNECESSARY)
        skb->csum = csum_tcpudp_nofold(iph->saddr, iph->daddr,
                                        skb->len, proto, 0);
    return 0;
    /*
     * __udp4_lib_rcv()에서 호출.
     *
     * IPv4 UDP 특수 사항:
     *   - check == 0: 체크섬 미사용 → 즉시 UNNECESSARY
     *   - RFC 768: "If the computed checksum is zero,
     *     it is transmitted as all ones"
     *   - 따라서 수신 시 check == 0xFFFF도 유효
     *
     * IPv6 UDP는 check == 0이 허용되지 않음:
     *   udp6_csum_init()에서 check == 0이면 패킷 드롭
     */
}

/* UDP 체크섬 계산 (송신 경로 — SW fallback) */
static inline __wsum udp_csum(struct sk_buff *skb)
{
    __wsum csum = csum_partial(udp_hdr(skb),
                               sizeof(struct udphdr), skb->csum);
    /*
     * skb->csum에는 페이로드의 부분 체크섬이 이미 누적되어 있음
     * (__ip_append_data()에서 csum_and_copy_from_user()로 계산)
     *
     * UDP 헤더(8바이트)의 체크섬을 추가하여 반환.
     * 이후 csum_tcpudp_magic()으로 의사 헤더를 합산하면 최종 체크섬.
     */
    return csum;
}

void udp4_hwcsum(struct sk_buff *skb, __be32 src, __be32 dst);
/*
 * HW 체크섬 오프로드를 위한 UDP 설정.
 * ip_summed = CHECKSUM_PARTIAL일 때 호출.
 *
 * 의사 헤더 체크섬을 미리 계산하여 uh->check에 기록:
 *   uh->check = ~csum_tcpudp_magic(src, dst, len, IPPROTO_UDP, 0);
 *
 * scatter-gather 비활성 시 (단일 선형 버퍼):
 *   skb->ip_summed = CHECKSUM_NONE;
 *   uh->check = csum_tcpudp_magic(src, dst, len, IPPROTO_UDP,
 *                                  csum_partial(uh, len, 0));
 *   → 작은 패킷은 SW 계산이 더 효율적
 */

/* UDP-Lite: 부분 체크섬 지원 */
static inline __wsum udplite_csum(struct sk_buff *skb)
{
    int cscov = min_t(int, ntohs(udp_hdr(skb)->len), skb->len);
    return skb_checksum(skb, 0, cscov, 0);
    /*
     * UDP-Lite (RFC 3828): 체크섬 적용 범위를 선택 가능.
     * uh->len 필드가 체크섬 커버리지 길이를 지정.
     * 실시간 오디오/비디오에서 일부 손상 허용 시 유용.
     *
     * 체크섬 커버리지:
     *   0 → 전체 패킷 (표준 UDP와 동일)
     *   8 → 헤더만 (최소)
     *   n → 처음 n 바이트만 보호
     */
}

/* ======== ICMP 체크섬 함수 ======== */

/* ICMP 체크섬 검증 (수신 경로) */
static inline bool icmp_checksum_validate(struct sk_buff *skb)
{
    return skb_checksum_simple_validate(skb);
    /*
     * ICMP는 의사 헤더를 사용하지 않음 (TCP/UDP와 다름).
     * ICMP 헤더 + 데이터 전체에 대해 단순 체크섬만 검증.
     *
     * skb_checksum_simple_validate() 내부:
     *   if (ip_summed == CHECKSUM_COMPLETE)
     *       → csum_fold(skb->csum) == 0이면 유효
     *   else
     *       → skb_checksum(skb, 0, skb->len, 0) → fold → 0이면 유효
     *
     * icmp_rcv()에서 호출. 실패 시 ICMP_MIB_CSUMERRORS 증가.
     */
}

/* ICMP 체크섬 계산 (송신 경로) */
/* icmp_push_reply()에서: */
struct icmphdr *icmph;
icmph->checksum = 0;
icmph->checksum = csum_fold(
    csum_partial(icmph, skb->len - skb_transport_offset(skb),
                 skb->csum));
/*
 * ICMP 송신 시 체크섬 계산 흐름:
 *   1. icmph->checksum = 0으로 초기화
 *   2. ICMP 헤더 + 페이로드의 csum_partial() 계산
 *   3. skb->csum에 이미 누적된 페이로드 부분합과 합산
 *   4. csum_fold()로 최종 16비트 체크섬 생성
 *
 * ICMP Echo Reply의 최적화:
 *   요청 패킷의 체크섬으로부터 증분 갱신 가능
 *   (type 필드만 변경: 8→0, code는 동일)
 */

/* ICMPv6 체크섬 (의사 헤더 사용!) */
/* ICMPv6는 ICMP와 달리 TCP/UDP처럼 의사 헤더를 포함 */
static inline __sum16 csum_ipv6_magic_icmpv6(
    const struct in6_addr *saddr,
    const struct in6_addr *daddr,
    __u32 len, __wsum csum)
{
    return csum_ipv6_magic(saddr, daddr, len, IPPROTO_ICMPV6, csum);
    /*
     * ICMPv6 (RFC 4443)는 IPv6 의사 헤더를 체크섬에 포함.
     * IPv4 ICMP와의 핵심 차이점:
     *   - IPv4 ICMP: 체크섬 = ICMP 헤더 + 데이터만
     *   - ICMPv6: 체크섬 = 의사 헤더 + ICMPv6 헤더 + 데이터
     *
     * 이유: IPv6에는 IP 헤더 체크섬이 없으므로,
     * 잘못된 주소로 배달된 패킷을 탐지하기 위해 의사 헤더 필요.
     *
     * 영향받는 프로토콜:
     *   - Neighbor Discovery (NDP): NS, NA, RS, RA
     *   - MLD (Multicast Listener Discovery)
     *   - ICMPv6 Echo Request/Reply
     */
}

/* ======== Netfilter 체크섬 함수 ======== */

int nf_ip_checksum(struct sk_buff *skb, unsigned int hook,
                   unsigned int dataoff, u_int8_t protocol);
/*
 * Netfilter 훅에서 패킷 체크섬을 검증하는 범용 함수.
 * conntrack, NAT, iptables 규칙 평가 전에 호출.
 *
 * 동작:
 *   1) CHECKSUM_UNNECESSARY → 즉시 통과
 *   2) protocol == 0 (IP 헤더만): ip_fast_csum()으로 검증
 *   3) protocol != 0 (TCP/UDP): 의사 헤더 + 페이로드 체크섬 검증
 *
 * hook 매개변수에 따른 최적화:
 *   NF_INET_PRE_ROUTING: ip_rcv()에서 IP 헤더 검증 완료 → L4만 검증
 *   NF_INET_LOCAL_IN: 이미 검증된 경우 스킵 가능
 *
 * Conntrack에서 사용 예:
 *   nf_conntrack_tcp_packet()에서 TCP 체크섬 검증
 *   → 유효하지 않으면 conntrack 추적하지 않음
 */

int nf_checksum(struct sk_buff *skb, unsigned int hook,
                unsigned int dataoff, u_int8_t protocol,
                unsigned short family);
/*
 * IPv4/IPv6 통합 체크섬 검증 함수.
 * family에 따라 nf_ip_checksum() 또는 nf_ip6_checksum() 호출.
 * nf_tables (nft) 프레임워크에서 주로 사용.
 */

/* ======== BPF 체크섬 헬퍼 ======== */

/* BPF 프로그램에서 사용 가능한 체크섬 헬퍼 함수들 */
s64 bpf_csum_diff(__be32 *from, u32 from_size,
                   __be32 *to, u32 to_size,
                   __wsum seed);
/*
 * BPF_FUNC_csum_diff — BPF 프로그램에서 체크섬 차이 계산.
 * from 데이터와 to 데이터의 체크섬 차이를 반환.
 *
 * XDP/TC BPF에서 패킷 수정 시:
 *   diff = bpf_csum_diff(old_data, 4, new_data, 4, 0);
 *   bpf_l3_csum_replace(skb, IP_CSUM_OFFSET, 0, diff, 0);
 *   bpf_l4_csum_replace(skb, TCP_CSUM_OFFSET, 0, diff, BPF_F_PSEUDO_HDR);
 */

int bpf_l3_csum_replace(struct sk_buff *skb, u32 offset,
                        u64 from, u64 to, u64 flags);
/*
 * BPF_FUNC_l3_csum_replace — L3 (IP) 체크섬 증분 갱신.
 * offset: skb 내 체크섬 필드의 오프셋
 * flags: 2 또는 4 (변경 크기 바이트)
 *
 * 내부적으로 inet_proto_csum_replace{2,4}() 호출.
 */

int bpf_l4_csum_replace(struct sk_buff *skb, u32 offset,
                        u64 from, u64 to, u64 flags);
/*
 * BPF_FUNC_l4_csum_replace — L4 (TCP/UDP) 체크섬 증분 갱신.
 * BPF_F_PSEUDO_HDR 플래그: 의사 헤더 변경을 고려한 갱신.
 *
 * XDP 프로그램의 DNAT 구현 예:
 *   // IP 주소 변경
 *   bpf_l3_csum_replace(skb, IP_CSUM_OFF, old_ip, new_ip, 4);
 *   bpf_l4_csum_replace(skb, TCP_CSUM_OFF, old_ip, new_ip,
 *                        4 | BPF_F_PSEUDO_HDR);
 *   // 포트 변경
 *   bpf_l4_csum_replace(skb, TCP_CSUM_OFF, old_port, new_port, 2);
 */

💡

프로토콜별 체크섬 차이 요약: (1) IP 헤더: 헤더만 보호, 매 홉 재계산, 의사 헤더 없음. (2) TCP/UDP: 헤더+페이로드+의사 헤더, 종단 간 보호. (3) ICMP: 헤더+데이터, 의사 헤더 없음 (IPv4). (4) ICMPv6: 헤더+데이터+의사 헤더 (IPv4 ICMP와 다름!). (5) UDP-Lite: 체크섬 커버리지 길이 선택 가능. 이 차이들을 정확히 이해해야 패킷 조작(NAT, BPF, Netfilter) 시 올바른 체크섬 갱신이 가능합니다.

하드웨어 체크섬 오프로드 상세

최신 NIC는 체크섬 계산을 하드웨어로 수행하여 CPU 부담을 크게 줄입니다. sk_buff의 ip_summed 필드와 관련 필드들이 이를 제어합니다:

/* sk_buff 체크섬 관련 필드 */
struct sk_buff {
    /* ... */
    __u8   ip_summed:2;       /* CHECKSUM_NONE/UNNECESSARY/COMPLETE/PARTIAL */
    union {
        __wsum csum;           /* 수신: HW가 계산한 raw 체크섬 (COMPLETE) */
        struct {
            __u16 csum_start;  /* 송신: 체크섬 계산 시작 오프셋 (skb->head 기준) */
            __u16 csum_offset; /* 송신: 체크섬 저장 위치 (csum_start 기준) */
        };
    };
    /* ... */
};

/* ======== 수신 경로 (RX) ======== */

/* 1) CHECKSUM_COMPLETE: NIC가 L4 전체 패킷 합을 계산하여 제공 */
/*    드라이버: skb->csum에 HW 체크섬 저장 */
/*    스택: skb_checksum_validate()에서 의사 헤더만 추가로 합산하여 검증 */
static inline bool __skb_checksum_validate_needed(
    struct sk_buff *skb, bool zero_okay, __wsum pseudohdr)
{
    if (skb->ip_summed == CHECKSUM_COMPLETE) {
        /* HW csum + 의사 헤더 합산 → 폴딩 → 0이면 유효 */
        if (!csum_fold(csum_add(skb->csum, pseudohdr)))
            return false;  /* 유효 → SW 재검증 불필요 */
    }
    return true;  /* SW 검증 필요 */
}

/* 2) CHECKSUM_UNNECESSARY: NIC가 체크섬 검증까지 완료 */
/*    가장 빠름. loopback, 일부 고급 NIC */

/* 3) CHECKSUM_NONE: HW 지원 없음 → SW 전체 검증 */

/* ======== 송신 경로 (TX) ======== */

/* CHECKSUM_PARTIAL: 프로토콜 스택이 의사 헤더 체크섬만 계산 */
/*   NIC가 csum_start부터 패킷 끝까지의 체크섬을 계산하여 */
/*   csum_start + csum_offset 위치에 기록 */
static inline void skb_set_transport_header_csum(
    struct sk_buff *skb, int offset)
{
    skb->ip_summed = CHECKSUM_PARTIAL;
    skb->csum_start = skb_headroom(skb) + offset;
    skb->csum_offset = offsetof(struct tcphdr, check);
    /* TCP: csum_offset = 16 (check 필드의 오프셋) */
    /* UDP: csum_offset = 6  (check 필드의 오프셋) */
}

/* NIC가 HW offload를 지원하지 않을 때의 SW fallback */
int skb_checksum_help(struct sk_buff *skb)
{
    /*
     * CHECKSUM_PARTIAL → CHECKSUM_NONE으로 변환
     * SW로 체크섬을 직접 계산하여 패킷에 기록
     *
     * 호출 시점:
     *   - NIC가 NETIF_F_HW_CSUM / NETIF_F_IP_CSUM 미지원
     *   - Netfilter가 패킷을 변조하여 HW offload 불가능
     *   - veth, bridge 등 가상 디바이스 경유
     */
    __wsum csum;
    int offset = skb->csum_start - skb_headroom(skb);

    csum = skb_checksum(skb, offset, skb->len - offset, 0);
    *(__sum16 *)(skb->data + offset + skb->csum_offset) = csum_fold(csum);
    skb->ip_summed = CHECKSUM_NONE;
    return 0;
}

skb 체크섬 조작 함수 상세

네트워크 스택은 sk_buff의 체크섬 상태를 조작하는 다양한 헬퍼 함수를 제공합니다. 패킷 수신/송신/변조의 각 단계에서 체크섬 일관성을 유지하는 데 핵심적입니다:

/* ======== skb 체크섬 계산 ======== */

/* skb 전체(선형 + paged) 데이터의 체크섬 계산 */
__wsum skb_checksum(const struct sk_buff *skb,
                    int offset, int len, __wsum csum);
/*
 * skb의 offset부터 len 바이트의 체크섬을 계산하여 csum에 누적.
 *
 * 핵심: skb는 선형 영역(skb->data)과 paged 영역(skb_shinfo(skb)->frags)으로
 * 구성되므로 두 영역을 모두 순회해야 합니다.
 *
 * 내부 동작:
 *   1. 선형 영역: csum_partial(skb->data + offset, copy, csum)
 *   2. Paged frags: 각 frag를 kmap_atomic()으로 매핑 후
 *      csum_partial() + csum_block_add()로 오프셋 보정하며 누적
 *   3. Frag list: skb_shinfo(skb)->frag_list의 sub-skb 재귀 처리
 *
 * 사용 위치:
 *   - skb_checksum_help(): PARTIAL → NONE 변환 시
 *   - __skb_checksum_complete(): 수신 경로 SW 검증
 *   - tcp_checksum_complete(): TCP 체크섬 검증
 *
 * 주의: paged data가 highmem에 있을 수 있으므로
 *       kmap_atomic()/kunmap_atomic() 사용.
 *       이 함수는 sleep 불가능한 컨텍스트에서도 안전.
 */

/* ======== skb 체크섬 검증 헬퍼 ======== */

/* 범용 체크섬 검증 (TCP/UDP/SCTP 공통) */
static inline bool skb_csum_unnecessary(const struct sk_buff *skb)
{
    return ((skb->ip_summed == CHECKSUM_UNNECESSARY) ||
            skb->csum_valid);
    /*
     * HW가 체크섬 검증을 완료했는지 확인.
     * CHECKSUM_UNNECESSARY: NIC가 직접 검증 완료
     * csum_valid: 이전 단계에서 SW 검증 통과
     *
     * 이 함수가 true 반환 → SW 재검증 생략 가능.
     * tcp_checksum_complete(), __udp_lib_checksum_complete() 등에서 사용.
     */
}

/* L4 프로토콜 체크섬 완전 검증 (SW fallback) */
__sum16 __skb_checksum_complete(struct sk_buff *skb);
/*
 * SW로 skb 전체 체크섬을 계산하여 검증.
 * 반환값 0 = 유효, 비-0 = 손상.
 *
 * 내부: csum_fold(skb_checksum(skb, 0, skb->len, skb->csum))
 *
 * 주요 호출 경로:
 *   tcp_checksum_complete() → __skb_checksum_complete()
 *   udp_lib_checksum_complete() → __skb_checksum_complete()
 *
 * skb->csum에 이미 의사 헤더 합이 저장되어 있어야 정확한 검증 가능.
 * (tcp_v4_checksum_init, udp4_csum_init 등에서 사전 설정)
 *
 * 성공 시 skb->csum_valid = 1로 설정 → 이후 재검증 생략.
 */

/* 단순 체크섬 검증 (의사 헤더 없는 프로토콜용) */
static inline __sum16 skb_checksum_simple_validate(struct sk_buff *skb)
{
    return skb_checksum_validate(skb, 0, true, false, 0,
                                  null_compute_pseudo);
    /*
     * ICMP, IGMP 등 의사 헤더가 없는 프로토콜의 체크섬 검증.
     * 의사 헤더 계산 함수로 null_compute_pseudo(항상 0)를 전달.
     *
     * 사용 위치:
     *   icmp_rcv() → skb_checksum_simple_validate()
     *   igmp_rcv() → skb_checksum_simple_validate()
     */
}

/* 체크섬 초기화 (수신 경로 진입점) */
static inline int skb_checksum_init(struct sk_buff *skb,
                                      __u16 proto,
                                      inet_compute_pseudo_fn compute_pseudo)
{
    return skb_checksum_init_zero_check(skb, proto, 0, compute_pseudo);
    /*
     * L4 체크섬 검증을 위한 초기 설정.
     *
     * 동작:
     *   CHECKSUM_COMPLETE인 경우:
     *     의사 헤더 + skb->csum 합산 → 유효하면 UNNECESSARY로 승격
     *   그 외:
     *     의사 헤더 체크섬을 skb->csum에 저장 (나중에 SW 검증용)
     *
     * compute_pseudo: 프로토콜별 의사 헤더 계산 함수
     *   - tcp4: tcp_v4_check()
     *   - udp4: udp_v4_check()
     *   - tcp6: tcp_v6_check()
     *   - udp6: udp_v6_check()
     */
}

/* ======== skb 조작 시 체크섬 보정 ======== */

/* skb_pull() 후 제거된 헤더의 체크섬 보정 */
static inline void skb_postpull_rcsum(struct sk_buff *skb,
                                       const void *start,
                                       unsigned int len)
{
    if (skb->ip_summed == CHECKSUM_COMPLETE)
        skb->csum = csum_sub(skb->csum,
                              csum_partial(start, len, 0));
    /*
     * skb_pull()로 헤더를 제거하면 skb->data 이동 → csum 범위 변경.
     * CHECKSUM_COMPLETE의 csum은 L4 전체 체크섬이므로,
     * 제거된 헤더의 체크섬을 빼야 정확한 L4 체크섬 유지.
     *
     * 사용 예 — VLAN 헤더 제거:
     *   __vlan_hwaccel_pull_tag()에서:
     *   skb_postpull_rcsum(skb, vhdr, VLAN_HLEN);
     *
     * GRE 디캡슐레이션:
     *   gre_rcv()에서 GRE 헤더 strip 후 호출
     *
     * 중요: CHECKSUM_PARTIAL/NONE/UNNECESSARY에는 영향 없음.
     */
}

/* skb_push() 후 추가된 헤더의 체크섬 보정 */
static inline void skb_postpush_rcsum(struct sk_buff *skb,
                                       const void *start,
                                       unsigned int len)
{
    if (skb->ip_summed == CHECKSUM_COMPLETE)
        skb->csum = csum_add(skb->csum,
                              csum_partial(start, len, 0));
    /*
     * skb_push()로 헤더를 추가하면 csum에 새 헤더의 체크섬을 더함.
     *
     * 사용 예 — VLAN 태그 삽입:
     *   vlan_insert_tag()에서 호출
     *
     * 터널 캡슐화:
     *   ip_tunnel_xmit() → iptunnel_handle_offloads()에서
     *   외부 IP/GRE 헤더 추가 시 호출
     */
}

/* skb 데이터 변경 후 체크섬 무효화 */
static inline void skb_checksum_none_assert(const struct sk_buff *skb)
{
    BUG_ON(skb->ip_summed != CHECKSUM_NONE);
    /* 디버깅용: ip_summed가 NONE이 아니면 BUG 트리거.
     * 수신 드라이버가 HW 체크섬을 설정하지 않을 때 사용. */
}

/* 수신 패킷 체크섬 완전 검증 후 user space 복사 */
int skb_copy_and_csum_datagram_msg(struct sk_buff *skb,
                                    int hlen,
                                    struct msghdr *msg);
/*
 * 수신 패킷의 데이터를 사용자 공간으로 복사하면서 체크섬 검증.
 * recvmsg() 시스템 콜 경로에서 사용.
 *
 * 동작:
 *   1. CHECKSUM_UNNECESSARY → 단순 복사 (검증 생략)
 *   2. CHECKSUM_COMPLETE → 복사하면서 체크섬 검증
 *      → csum_and_copy_to_user() 활용
 *   3. 복사 완료 후 csum_fold() → 0이면 유효
 *
 * UDP recvmsg() 경로:
 *   udp_recvmsg() → skb_copy_and_csum_datagram_msg()
 *   → 복사와 검증을 한 패스로 수행 → 캐시 효율 극대화
 *
 * TCP에서는 이미 tcp_v4_rcv()에서 검증 완료이므로
 * 이 함수 대신 단순 skb_copy_datagram_msg() 사용.
 */

/* 송신 경로: skb를 NIC로 전달하기 전 체크섬 처리 */
int skb_csum_hwoffload_help(struct sk_buff *skb,
                            const netdev_features_t features);
/*
 * dev_queue_xmit() → validate_xmit_skb() 경로에서 호출.
 * NIC의 체크섬 오프로드 능력에 따라 적절한 처리를 결정:
 *
 *   1) NIC가 해당 프로토콜의 HW 체크섬 지원:
 *      → 아무것도 하지 않음 (CHECKSUM_PARTIAL 유지)
 *
 *   2) NIC가 미지원:
 *      → skb_checksum_help() 호출하여 SW로 체크섬 계산
 *      → CHECKSUM_PARTIAL → CHECKSUM_NONE 전환
 *
 * features: NIC의 netdev_features (NETIF_F_*_CSUM 등)
 * 반환값: 0 (성공), -EINVAL (실패 — 패킷 드롭)
 */

⚠️

skb_postpull_rcsum/skb_postpush_rcsum 사용 시 주의: 이 함수들은 CHECKSUM_COMPLETE일 때만 동작합니다. 커널 모듈(Kernel Module)에서 패킷을 수정할 때 흔한 실수는 ip_summed 상태를 확인하지 않고 skb->csum을 직접 변경하는 것입니다. 항상 skb_postpull_rcsum()/skb_postpush_rcsum()을 사용하거나, 패킷 수정 후 skb->ip_summed = CHECKSUM_NONE으로 설정하여 SW 재검증을 강제하세요.

⚠️

체크섬 오프로드와 패킷 캡처: tcpdump/Wireshark에서 송신 패킷의 체크섬이 잘못된 것으로 표시되는 경우가 많습니다. 이는 CHECKSUM_PARTIAL 상태에서 캡처 시점에 아직 NIC가 체크섬을 계산하지 않았기 때문입니다. 수신 측에서는 정상 체크섬이 확인됩니다. ethtool -K eth0 tx-checksum-ipv4 off로 오프로드를 비활성화하면 SW가 체크섬을 계산하여 캡처에서도 올바른 값을 볼 수 있습니다.

NIC 체크섬 피처 플래그

피처 플래그	설명	적용 범위
`NETIF_F_IP_CSUM`	IPv4 TCP/UDP HW 체크섬 (L4)	IPv4 + TCP/UDP만. 의사 헤더 포함 HW 계산
`NETIF_F_IPV6_CSUM`	IPv6 TCP/UDP HW 체크섬 (L4)	IPv6 + TCP/UDP만
`NETIF_F_HW_CSUM`	범용 HW 체크섬	임의 프로토콜. `csum_start`/`csum_offset` 기반으로 NIC가 계산
`NETIF_F_RXCSUM`	수신 HW 체크섬 검증	NIC가 수신 패킷 체크섬을 검증하여 `CHECKSUM_COMPLETE` 또는 `CHECKSUM_UNNECESSARY` 설정

# 현재 NIC의 체크섬 오프로드 상태 확인
ethtool -k eth0 | grep checksum
# rx-checksumming: on
# tx-checksumming: on
#   tx-checksum-ipv4: on
#   tx-checksum-ipv6: on
#   tx-checksum-ip-generic: off [not requested]

# 개별 제어
ethtool -K eth0 rx off          # 수신 체크섬 오프로드 비활성화
ethtool -K eth0 tx-checksum-ipv4 off  # 송신 IPv4 체크섬 오프로드 비활성화

중첩 체크섬 오프로드 (csum_level)

터널(Tunnel) 캡슐화(Encapsulation)(VXLAN, GRE, Geneve 등)에서는 외부/내부 헤더 각각에 체크섬이 존재합니다. skb->csum_level 필드는 NIC가 몇 단계 깊이까지 체크섬을 검증했는지를 나타냅니다:

/* include/linux/skbuff.h — csum_level 필드 */
struct sk_buff {
    /* ... */
    __u8   csum_level:2;      /* 중첩 체크섬 검증 깊이 (0~3) */
    /*
     * CHECKSUM_UNNECESSARY와 함께 사용.
     *
     * csum_level = 0: 가장 바깥쪽 L4 체크섬만 검증됨 (기본)
     * csum_level = 1: 한 단계 캡슐화된 내부 L4도 검증됨
     * csum_level = 2: 두 단계 중첩 캡슐화의 내부까지 검증됨
     * csum_level = 3: 세 단계 중첩까지 (이론적 최대)
     *
     * 예시 — VXLAN 패킷:
     *   [외부 Ethernet] [외부 IP] [외부 UDP] [VXLAN] [내부 Ethernet] [내부 IP] [내부 TCP]
     *
     *   NIC가 NETIF_F_RXCSUM만 지원:
     *     csum_level = 0 → 외부 UDP 체크섬만 검증
     *     → 내부 TCP는 SW 재검증 필요
     *
     *   NIC가 중첩 오프로드 지원 (mlx5, i40e 등):
     *     csum_level = 1 → 내부 TCP 체크섬도 HW 검증 완료
     *     → 내부 수신 경로에서 체크섬 검증 생략 가능
     */
    /* ... */
};

/* csum_level 감소 (캡슐 해제 시) */
static inline void skb_decr_csum_level(struct sk_buff *skb)
{
    if (skb->ip_summed == CHECKSUM_UNNECESSARY && skb->csum_level)
        skb->csum_level--;
}
/*
 * 터널 디캡슐레이션 시 호출.
 * 외부 헤더를 벗기면 csum_level을 1 감소.
 *
 * 예시 흐름 (VXLAN 디캡슐레이션):
 *   NIC 수신: csum_level = 1, ip_summed = UNNECESSARY
 *   → vxlan_rcv()에서 외부 UDP 헤더 제거
 *   → skb_decr_csum_level(skb)  → csum_level = 0
 *   → 내부 패킷이 ip_summed = UNNECESSARY, csum_level = 0
 *   → 내부 TCP/UDP 체크섬 검증 생략 가능
 *
 * NIC가 중첩 오프로드를 미지원하는 경우:
 *   csum_level = 0 → 디캡슐레이션 후 csum_level은 여전히 0
 *   → 내부 패킷은 ip_summed = CHECKSUM_NONE으로 강제 → SW 재검증
 */

/* csum_level 증가 (캡슐화 시 — 거의 사용되지 않음) */
static inline void skb_incr_csum_level(struct sk_buff *skb)
{
    if (skb->ip_summed == CHECKSUM_UNNECESSARY &&
        skb->csum_level < SKB_MAX_CSUM_LEVEL)
        skb->csum_level++;
}

/* NIC 드라이버에서 csum_level 설정 예시 (mlx5) */
static inline void mlx5e_handle_csum(struct sk_buff *skb, u32 cqe_flags)
{
    if (cqe_flags & MLX5_CQE_L4_OK) {
        skb->ip_summed = CHECKSUM_UNNECESSARY;
        if (cqe_flags & MLX5_CQE_INNER_L4_OK) {
            /* NIC가 내부 L4 체크섬도 검증 */
            skb->csum_level = 1;
        }
    } else if (cqe_flags & MLX5_CQE_L4_CSUM_OK) {
        skb->ip_summed = CHECKSUM_COMPLETE;
        skb->csum = cqe_get_csum(cqe);
    } else {
        skb->ip_summed = CHECKSUM_NONE;
    }
}

ℹ️

csum_level의 실무 영향: VXLAN/Geneve 기반 오버레이(Overlay) 네트워크(Kubernetes, OpenStack 등)에서 csum_level을 올바르게 설정하는 NIC 드라이버를 사용하면 CPU 사용률이 5~15% 감소합니다. 특히 Mellanox ConnectX-5+, Intel X710/E810 등 최신 NIC는 중첩 오프로드를 지원합니다. ethtool -k eth0 | grep inner로 확인 가능합니다. 미지원 시 내부 패킷마다 SW 체크섬 검증이 필요하여 pps(초당 패킷 수)가 크게 저하됩니다.

IPv4 vs IPv6 체크섬 차이

항목	IPv4	IPv6
IP 헤더 체크섬	있음 (`iphdr->check`). 매 홉마다 재계산	없음. L2(이더넷 CRC) + L4(TCP/UDP) 체크섬으로 대체
설계 이유	1980년대: L2 CRC가 불충분한 환경 고려	라우터 포워딩 성능 향상. L2/L4 체크섬이 충분히 강력
UDP 체크섬	선택 (0이면 미사용)	필수. IP 헤더 체크섬이 없으므로 의사 헤더로 보완
의사 헤더 크기	12바이트 (src4 + dst4 + zero + proto + len)	40바이트 (src16 + dst16 + len4 + zero3 + next_header1)
커널 함수	`ip_fast_csum()`, `csum_tcpudp_magic()`	`csum_ipv6_magic()` (의사 헤더만, IP 헤더 체크섬 없음)

/* include/net/ip6_checksum.h — IPv6 의사 헤더 체크섬 */
__sum16 csum_ipv6_magic(
    const struct in6_addr *saddr,   /* 128비트 소스 주소 */
    const struct in6_addr *daddr,   /* 128비트 목적지 주소 */
    __u32 len,                       /* Upper-Layer Packet Length */
    __u8  proto,                      /* Next Header (6=TCP, 17=UDP) */
    __wsum csum                       /* 기존 부분 합 */
);
/*
 * IPv6 의사 헤더 (RFC 8200, Section 8.1):
 *   Source Address (16) + Dest Address (16) +
 *   Upper-Layer Packet Length (4) + zero (3) + Next Header (1)
 * = 40바이트
 *
 * IPv4보다 의사 헤더가 크므로 csum 연산이 조금 더 비싸지만,
 * IP 헤더 체크섬 자체가 없어 라우터 포워딩은 더 빠름
 */

ℹ️

체크섬의 한계: 1의 보수 체크섬은 단일 비트 오류는 항상 검출하지만, 16비트 워드 경계의 동일 위치에서 두 비트가 동시에 반전되는 경우 검출 실패할 수 있습니다. CRC-32(이더넷)는 최대 32비트 버스(Bus)트 오류까지 검출하므로, L2 CRC와 L4 체크섬의 이중 보호가 중요합니다. 추가로 TCP는 선택적으로 TCP-AO(Authentication Option) 또는 레거시 TCP-MD5를 사용하여 암호학적 무결성을 보장할 수 있습니다.

실전 체크섬 처리 시나리오

지금까지 설명한 체크섬 함수들이 실제 패킷 처리 경로에서 어떻게 조합되는지, 4가지 대표적인 시나리오로 살펴봅니다:

시나리오 1: 패킷 수신 → 로컬 TCP 소켓(Socket) 전달

/*
 * NIC → 드라이버 → IP 스택 → TCP 스택 → 소켓 수신 버퍼
 *
 * [1] NIC 드라이버 (e.g., e1000e, ixgbe)
 *     ─ HW 체크섬 결과를 skb에 설정
 */
static void driver_rx_handler(struct sk_buff *skb,
                              u32 hw_status)
{
    if (hw_status & HW_RX_CSUM_VALID) {
        skb->ip_summed = CHECKSUM_UNNECESSARY;
        /* 가장 빠른 경로: NIC가 L4 체크섬 검증 완료 */
    } else if (hw_status & HW_RX_CSUM_CALCULATED) {
        skb->ip_summed = CHECKSUM_COMPLETE;
        skb->csum = hw_status & HW_CSUM_MASK;
        /* NIC가 raw 체크섬 제공 → 의사 헤더 합산 필요 */
    } else {
        skb->ip_summed = CHECKSUM_NONE;
        /* HW 미지원 → 전체 SW 검증 필요 */
    }
}

/*
 * [2] ip_rcv() → ip_rcv_core()
 *     ─ IP 헤더 체크섬 검증 (L3)
 */
if (ip_fast_csum((u8 *)iph, iph->ihl))
    goto csum_error;  /* IP 헤더 손상 → 패킷 드롭 */
/* 참고: CHECKSUM_UNNECESSARY여도 IP 헤더 검증은 항상 수행
 *       (HW가 L4만 검증하는 NIC가 많으므로) */

/*
 * [3] tcp_v4_rcv() → TCP 체크섬 초기화
 */
tcp_v4_checksum_init(skb);
/* CHECKSUM_COMPLETE → 의사 헤더 합산 → 유효하면 UNNECESSARY 승격
 * CHECKSUM_NONE → 의사 헤더를 skb->csum에 미리 저장 */

/*
 * [4] tcp_v4_do_rcv() → tcp_checksum_complete()
 *     ─ 최종 체크섬 검증
 */
if (tcp_checksum_complete(skb)) {
    TCP_INC_STATS(net, TCP_MIB_CSUMERRORS);
    goto bad_packet;
}
/*
 * UNNECESSARY → 즉시 통과 (검증 생략)
 * COMPLETE/NONE → __skb_checksum_complete()로 SW 검증
 *
 * 전체 흐름 요약:
 *   UNNECESSARY:  드라이버 → ip_rcv(L3만) → tcp_rcv → 즉시 통과
 *   COMPLETE:     드라이버 → ip_rcv(L3) → init(+pseudo) → complete(fold→0?)
 *   NONE:         드라이버 → ip_rcv(L3) → init(pseudo저장) → complete(전체 SW 합산)
 */

시나리오 2: NAT 처리 (SNAT — 소스 IP + 포트 변경)

/*
 * Netfilter SNAT 처리 시 체크섬 갱신 순서:
 *
 * 패킷: [IP: src=10.0.0.1, dst=8.8.8.8] [TCP: sport=12345, dport=80]
 * 변환: src → 203.0.113.1, sport → 45678
 */

/* [1] L4 체크섬에 IP 주소 변경 반영 */
inet_proto_csum_replace4(&tcph->check, skb,
    iph->saddr,                       /* from: 10.0.0.1 */
    new_saddr,                        /* to: 203.0.113.1 */
    true);                             /* pseudohdr = true */
/*
 * pseudohdr = true:
 *   CHECKSUM_PARTIAL → ~fold(partial(&to, partial(&from, unfold(*sum))))
 *   그 외 → fold(partial(&to, partial(&from, ~unfold(*sum))))
 *
 * TCP 의사 헤더에 포함된 src IP가 변경되므로
 * TCP 체크섬을 증분 갱신해야 함
 */

/* [2] L4 체크섬에 포트 변경 반영 */
inet_proto_csum_replace2(&tcph->check, skb,
    tcph->source,                     /* from: 12345 */
    new_sport,                        /* to: 45678 */
    false);                            /* pseudohdr = false */
/*
 * pseudohdr = false:
 *   포트는 TCP 헤더의 실제 필드이므로 의사 헤더와 무관.
 *   TCP 체크섬에 직접적으로 영향.
 */

/* [3] IP 주소 실제 변경 */
iph->saddr = new_saddr;
tcph->source = new_sport;

/* [4] L3 (IP 헤더) 체크섬 갱신 */
csum_replace4(&iph->check, old_saddr, new_saddr);
/*
 * IP 헤더 체크섬은 IP 헤더만 포함하므로
 * 포트 변경은 영향 없음.
 *
 * 또는 더 안전하게:
 *   ip_send_check(iph);  // 전체 재계산 (IP 옵션 변경 시 필수)
 *
 * 실제 커널 코드 (nf_nat_ipv4_manip_pkt):
 *   1. nf_nat_l4proto_manip_pkt() → L4 체크섬 갱신
 *   2. csum_replace4(&iph->check, old, new) → L3 체크섬 갱신
 *   3. iph->saddr = new_saddr → IP 주소 실제 변경
 */

시나리오 3: 터널 캡슐화 (VXLAN 송신)

/*
 * 내부 패킷을 VXLAN 터널로 캡슐화하여 송신하는 흐름.
 * 체크섬 처리가 여러 계층에서 발생합니다.
 *
 * 원본: [내부 Eth] [내부 IP] [내부 TCP (csum_partial)]
 * 결과: [외부 Eth] [외부 IP] [외부 UDP] [VXLAN] [내부 Eth] [내부 IP] [내부 TCP]
 */

/* [1] 내부 패킷의 체크섬 상태 */
/* skb->ip_summed = CHECKSUM_PARTIAL (의사 헤더만 계산됨) */
/* skb->csum_start → 내부 TCP 헤더 시작 */
/* skb->csum_offset → TCP check 필드 오프셋 (16) */

/* [2] VXLAN 캡슐화 (vxlan_xmit_one) */
/* 내부 패킷에 외부 UDP/IP 헤더 추가 */
udp_tunnel_xmit_skb(rt, sk, skb, src, dst,
                    tos, ttl, df, sport, dport,
                    xnet, !udp_sum);

/* [3] 외부 UDP 체크섬 처리 */
if (udp_sum) {
    /* 외부 UDP 체크섬 활성화 */
    udp_set_csum(nocheck, skb, src, dst, skb->len);
    /*
     * NIC가 NETIF_F_GSO_UDP_TUNNEL_CSUM 지원 시:
     *   → 내부 TCP + 외부 UDP 모두 HW에 위임
     *   → skb->inner_transport_header 설정으로 NIC에 알림
     *
     * NIC 미지원 시:
     *   → skb_checksum_help()로 외부 UDP 체크섬 SW 계산
     *   → 내부 TCP는 여전히 CHECKSUM_PARTIAL 유지 가능
     *      (NIC가 NETIF_F_HW_CSUM 지원 시)
     */
} else {
    /* 외부 UDP 체크섬 비활성화 (uh->check = 0) */
    /* RFC 7348: VXLAN은 외부 UDP 체크섬 0 허용 */
    /* 성능 상 이점: 외부 체크섬 계산 생략 */
}

/* [4] 외부 IP 헤더 체크섬 */
ip_send_check(iph);
/* 항상 SW로 계산 (IP 헤더는 20바이트로 작음) */

/* [5] validate_xmit_skb() — NIC 전달 전 최종 체크 */
skb_csum_hwoffload_help(skb, features);
/*
 * NIC features 확인 후:
 *   지원 → CHECKSUM_PARTIAL 유지 (NIC가 계산)
 *   미지원 → skb_checksum_help()로 SW 계산 → CHECKSUM_NONE
 */

시나리오 4: 커널 모듈에서 raw 패킷 생성

/*
 * 커널 모듈(예: IPVS, custom netfilter)에서 새 패킷을 생성할 때
 * 체크섬을 올바르게 설정하는 전체 예시.
 */
struct sk_buff *build_tcp_rst(__be32 saddr, __be32 daddr,
                              __be16 sport, __be16 dport,
                              __be32 seq)
{
    struct sk_buff *skb;
    struct iphdr *iph;
    struct tcphdr *tcph;
    int tot_len = sizeof(struct iphdr) + sizeof(struct tcphdr);

    skb = alloc_skb(LL_MAX_HEADER + tot_len, GFP_ATOMIC);
    if (!skb) return NULL;

    skb_reserve(skb, LL_MAX_HEADER);
    skb_reset_network_header(skb);

    /* IP 헤더 구성 */
    iph = skb_put(skb, sizeof(*iph));
    iph->version  = 4;
    iph->ihl      = 5;
    iph->tos      = 0;
    iph->tot_len  = htons(tot_len);
    iph->id       = 0;
    iph->frag_off = htons(IP_DF);
    iph->ttl      = 64;
    iph->protocol = IPPROTO_TCP;
    iph->saddr    = saddr;
    iph->daddr    = daddr;
    iph->check    = 0;
    iph->check    = ip_fast_csum((u8 *)iph, iph->ihl);
    /* ↑ L3 체크섬: ip_fast_csum()으로 IP 헤더 체크섬 계산 */

    /* TCP 헤더 구성 */
    skb_set_transport_header(skb, sizeof(*iph));
    tcph = skb_put(skb, sizeof(*tcph));
    memset(tcph, 0, sizeof(*tcph));
    tcph->source = sport;
    tcph->dest   = dport;
    tcph->seq    = seq;
    tcph->doff   = sizeof(*tcph) / 4;
    tcph->rst    = 1;
    tcph->window = 0;

    /* ↓ L4 체크섬: 두 가지 방법 */

    /* 방법 A: SW 체크섬 (간단하지만 CPU 사용) */
    tcph->check = 0;
    tcph->check = tcp_v4_check(
        sizeof(*tcph), saddr, daddr,
        csum_partial(tcph, sizeof(*tcph), 0));
    skb->ip_summed = CHECKSUM_NONE;
    /*
     * tcp_v4_check() = csum_fold(csum_tcpudp_nofold(
     *     saddr, daddr, len, IPPROTO_TCP, base))
     *
     * base = csum_partial(tcph, sizeof(*tcph), 0) → TCP 헤더의 부분 합
     * csum_tcpudp_nofold() → 의사 헤더 합산
     * csum_fold() → 16비트 폴딩 + 반전
     */

    /* 방법 B: HW 오프로드 (성능 최적화) */
    /*
     * tcph->check = ~csum_tcpudp_magic(
     *     saddr, daddr, sizeof(*tcph), IPPROTO_TCP, 0);
     * skb->ip_summed = CHECKSUM_PARTIAL;
     * skb->csum_start = skb_transport_header(skb) - skb->head;
     * skb->csum_offset = offsetof(struct tcphdr, check);
     *
     * → 의사 헤더의 보수만 기록, NIC가 최종 체크섬 계산
     * → NIC가 NETIF_F_IP_CSUM을 지원해야 동작
     * → 미지원 시 validate_xmit_skb()에서 자동 SW fallback
     */

    return skb;
}

체크섬 함수 호출 관계도

💡

체크섬 디버깅 팁: (1) dropwatch -l kas로 체크섬 오류로 인한 패킷 드롭 위치를 확인할 수 있습니다. (2) /proc/net/snmp의 InCsumErrors 카운터로 TCP/UDP 체크섬 오류 횟수를 모니터링합니다. (3) Wireshark에서 tcp.checksum.status == "Bad" 필터로 체크섬 오류 패킷만 필터링 가능합니다 (단, TX offload 패킷은 오탐에 주의). (4) perf probe로 __skb_checksum_complete에 동적 트레이스포인트를 설정하여 SW fallback 빈도를 측정할 수 있습니다: perf probe --add __skb_checksum_complete && perf stat -e probe:__skb_checksum_complete -a sleep 10.

IP 단편화와 재조합

IPv4 패킷이 MTU를 초과하면 단편화(fragmentation)가 발생합니다. 커널은 수신 시 ip_defrag()로 단편을 재조합합니다.

/* frag_off 필드 해석 */
#define IP_DF       0x4000   /* Don't Fragment 플래그 */
#define IP_MF       0x2000   /* More Fragments 플래그 */
#define IP_OFFSET   0x1FFF   /* Fragment Offset 마스크 (단위: 8바이트) */

/* 단편화 여부 확인 */
if (iph->frag_off & htons(IP_MF | IP_OFFSET))
    /* 이 패킷은 단편입니다 → 재조합 필요 */
    return ip_defrag(net, skb, IP_DEFRAG_LOCAL_DELIVER);

/* net/ipv4/ip_fragment.c — 재조합 핵심 */
/* ip_defrag()는 해시 테이블(inet_frag_queue)에 단편을 수집
 *   키: (src_ip, dst_ip, id, protocol)
 *   모든 단편 도착 시 → ip_frag_reasm()으로 하나의 skb로 합침
 *
 * 타임아웃: ipfrag_time (기본 30초)
 *   → 시간 내 모든 단편 미도착 시 재조합 포기, skb 해제
 *
 * 메모리 제한: ipfrag_high_thresh / ipfrag_low_thresh
 *   → 재조합 대기 메모리가 high_thresh 초과 시 오래된 큐 강제 해제
 */

코드 설명

IPv4 헤더의 frag_off 필드와 net/ipv4/ip_fragment.c의 단편화/재조합 처리를 보여줍니다.

IP_DF / IP_MF / IP_OFFSETfrag_off 16비트 중 상위 3비트가 플래그(DF=Don't Fragment, MF=More Fragments), 하위 13비트가 오프셋(8바이트 단위)입니다.
htons(IP_MF | IP_OFFSET)MF 비트가 설정되었거나 오프셋이 0이 아니면 이 패킷은 단편입니다. ip_local_deliver()에서 이 조건으로 재조합 필요 여부를 판단합니다.
ip_defrag()단편화된 패킷의 재조합 진입점입니다. 해시 테이블(Hash Table)(inet_frag_queue)에 (src_ip, dst_ip, id, protocol) 키로 단편을 수집합니다.
ipfrag_time (30초)재조합 타임아웃으로, 시간 내 모든 단편이 도착하지 않으면 수집된 단편을 모두 폐기합니다.
ipfrag_high_thresh / low_thresh재조합 대기 메모리의 상한/하한을 제어하여 단편 공격(fragment flood)에 의한 메모리 고갈을 방지합니다.

sysctl 매개변수	기본값	설명
`net.ipv4.ipfrag_time`	30 (초)	재조합 타임아웃. 초과 시 모든 단편 폐기
`net.ipv4.ipfrag_high_thresh`	4194304 (4MB)	재조합 대기 메모리 상한. 초과 시 오래된 큐 제거
`net.ipv4.ipfrag_low_thresh`	3145728 (3MB)	메모리 회수(Memory Reclaim) 후 목표 수준
`net.ipv4.ipfrag_max_dist`	64	동일 소스의 최대 비순차 단편 수 (공격 방어)
`net.ipv4.ip_no_pmtu_disc`	0	PMTU Discovery 비활성화 (1로 설정 시 항상 DF=0)

IPv6 단편화

IPv6 단편화는 IPv4와 근본적으로 다릅니다. RFC 8200(IPv6 기본 스펙)은 중간 라우터의 단편화를 완전 금지하며, 오직 송신 호스트만 단편화할 수 있습니다. 단편화 정보는 기본 헤더가 아닌 Fragment Extension Header(Next Header = 44)에 저장됩니다.

IPv6 Fragment Extension Header (Next Header=44). IPv4와 달리 기본 헤더에 포함되지 않고, 필요할 때만 확장 헤더로 삽입됨

/* include/uapi/linux/ipv6.h — Fragment Extension Header */
struct frag_hdr {
    __u8    nexthdr;       /* 다음 헤더 타입 (6=TCP, 17=UDP 등) */
    __u8    reserved;      /* 0으로 설정 */
    __be16  frag_off;      /* Fragment Offset(13b) + Res(2b) + MF(1b) */
    __be32  identification; /* 패킷 식별자 (per-destination 카운터) */
};

/* net/ipv6/reassembly.c — IPv6 재조합 */
/* IPv6는 ip6_defrag()로 재조합, 해시 키:
 *   (src_addr, dst_addr, identification, nexthdr)
 * IPv4와 동일한 inet_frag_queue 인프라 사용
 *
 * RFC 5722: 겹치는(overlapping) 단편은 무조건 폐기
 *   → IPv4의 겹침 허용 정책과 다름 (보안 강화)
 */

/* net/ipv6/ip6_output.c — IPv6 송신측 단편화 */
int ip6_fragment(struct net *net, struct sock *sk,
                 struct sk_buff *skb, int (*output)(...))
{
    /* MTU 초과 시 송신 호스트에서 단편화 수행
     * 1. unfragmentable part: 기본 헤더 + 단편화 전 확장 헤더들
     * 2. fragmentable part: 나머지를 MTU에 맞게 분할
     * 각 단편에 Fragment Extension Header 삽입 */
}

⚠️

IPv6 라우터는 단편화 금지: IPv6 라우터가 MTU를 초과하는 패킷을 수신하면, 단편화하지 않고 ICMPv6 Packet Too Big(Type 2)을 송신자에게 반환합니다. 따라서 IPv6에서는 PMTUD가 필수이며, 최소 MTU는 1280바이트(IPv4의 68바이트보다 훨씬 큼)입니다. IPv6의 최소 MTU 보장으로 인해 실제로 단편화가 발생하는 경우는 드뭅니다.

재조합 메커니즘 상세

/* net/ipv4/ip_fragment.c — 재조합 핵심 구조 */
struct inet_frag_queue {
    struct rhash_head  node;       /* rhashtable 해시 노드 */
    union {
        struct frag_v4_compare_key v4;  /* (saddr, daddr, id, proto) */
        struct frag_v6_compare_key v6;  /* (saddr, daddr, id, nexthdr) */
    } key;
    struct sk_buff     *fragments;  /* 단편 연결 리스트 (offset 순서) */
    struct sk_buff     *fragments_tail;
    int               len;        /* 현재까지 수집된 총 바이트 */
    int               meat;       /* 실제 데이터 바이트 (헤더 제외) */
    __u8              last_in;    /* 비트 플래그: FIRST_IN | LAST_IN | COMPLETE */
    unsigned long     timeout;    /* jiffies 기반 만료 시각 */
};

/* ip_frag_queue() — 단편 삽입 (offset 기반 정렬 삽입) */
/*
 * 1. offset으로 올바른 위치 탐색 (연결 리스트 순회)
 * 2. 겹침(overlap) 검사:
 *    - IPv4: 겹치는 부분은 기존 데이터 유지 (앞부분 잘라냄)
 *    - IPv6: 겹침 감지 시 전체 재조합 큐 폐기 (RFC 5722)
 * 3. 단편 삽입, meat(수집된 바이트) 갱신
 * 4. MF=0 단편 수신 시 → LAST_IN 설정, 총 길이 확정
 * 5. meat == len이면 → COMPLETE, ip_frag_reasm() 호출
 */

/* ip_frag_reasm() — 최종 재조합 */
/*
 * 1. 첫 번째 단편의 skb를 기본으로 사용
 * 2. 나머지 단편을 frag_list로 연결 (zero-copy)
 *    → 실제 메모리 복사 없이 skb 체인으로 원본 복원
 * 3. IP 헤더의 tot_len을 원본 크기로 재설정
 * 4. 체크섬 재계산
 * 5. 완성된 skb를 상위 계층으로 전달
 */

코드 설명

net/ipv4/ip_fragment.c의 inet_frag_queue 구조체(Struct)와 재조합 알고리즘입니다.

struct inet_frag_queueIPv4/IPv6 공용 재조합 큐입니다. rhashtable(확장 가능 해시(Hash))에 저장되어 동시 다수의 패킷 재조합을 효율적으로 관리합니다.
key (v4/v6 union)IPv4는 (saddr, daddr, id, protocol), IPv6는 (saddr, daddr, id, nexthdr)를 키로 사용하여 동일 원본 패킷의 단편을 식별합니다.
fragments / fragments_tail단편을 오프셋 순서로 연결 리스트(Linked List)에 저장합니다. 새 단편은 ip_frag_queue()에서 올바른 위치에 정렬 삽입됩니다.
len / meat / last_inlen은 예상 전체 크기, meat은 실제 수집된 바이트입니다. meat == len이고 FIRST_IN | LAST_IN이 모두 설정되면 재조합을 완료합니다.
ip_frag_reasm()최종 재조합 함수입니다. 첫 번째 단편의 skb를 기본으로 하고, 나머지를 frag_list로 연결하여 메모리 복사 없이(zero-copy) 원본 패킷을 복원합니다.

단편화의 보안 위험과 성능 영향

IP 단편화는 다양한 보안 공격의 벡터이며, 성능에도 부정적 영향을 미칩니다. 현대 네트워크에서는 단편화를 최대한 회피하는 것이 권장됩니다.

위협/문제	설명	커널 대응
Teardrop 공격	겹치는 offset을 가진 단편으로 재조합 로직 혼란 유도	IPv6: 겹침 시 전체 폐기 (RFC 5722). IPv4: 안전한 겹침 처리
Tiny Fragment 공격	첫 단편을 극소 크기로 만들어 방화벽(Firewall) L4 필터 우회	Netfilter conntrack이 재조합 후 필터링 (`nf_defrag_ipv4`)
Fragment Flood (DoS)	완성되지 않는 단편을 대량 전송하여 메모리 고갈	`ipfrag_high_thresh` 메모리 제한 + `ipfrag_max_dist` 공격 감지
Evasion (IDS 우회)	패킷을 의도적으로 단편화하여 IDS/IPS 시그니처 매칭 우회	Netfilter `DEFRAG` 타겟으로 재조합 후 검사
성능 저하	재조합 대기 메모리, CPU 오버헤드(Overhead), 단편 유실 시 전체 재전송(Retransmission)	PMTUD로 단편화 회피 + GRO/GSO로 대체
NAT/방화벽 문제	첫 단편에만 L4 헤더 존재 → 후속 단편 포트 매칭 불가	conntrack이 재조합 후 NAT 수행, 이후 재단편화

IPv4 vs IPv6 단편화 비교

IPv4는 경로상 어느 라우터든 단편화 가능(DF=0). IPv6는 송신자만 단편화 가능하며, 라우터는 MTU 초과 시 ICMPv6 Packet Too Big을 반환. IPv6에서는 PMTUD가 필수

항목	IPv4	IPv6
단편화 주체	송신자 + 중간 라우터 (DF=0일 때)	송신자만 (라우터 단편화 금지)
단편화 정보 위치	기본 헤더의 `frag_off` 필드	Fragment Extension Header (별도 8바이트)
최소 MTU	68바이트 (RFC 791)	1280바이트 (RFC 8200)
MTU 초과 시 라우터 동작	DF=0: 단편화 / DF=1: ICMP Frag Needed	항상 ICMPv6 Packet Too Big (Type 2)
겹치는 단편 처리	기존 데이터 유지 (겹침 부분 잘라냄)	전체 재조합 큐 폐기 (RFC 5722)
식별자	`id` (16비트, 기본 헤더)	`identification` (32비트, Fragment Header)
Offset 단위	8바이트	8바이트 (동일)
PMTUD	선택사항 (DF=1로 활성화)	필수 (라우터 단편화 불가)
커널 재조합 함수	`ip_defrag()`	`nf_ct_frag6_gather()` / `ipv6_defrag()`

💡

실무 권장: 현대 네트워크에서 IP 단편화는 최대한 회피해야 합니다. (1) PMTUD를 활성화하여 경로 MTU에 맞는 패킷 크기 사용, (2) TCP에서는 MSS 협상으로 자동 조절, (3) UDP에서는 애플리케이션이 PMTU를 조회(IP_MTU 소켓 옵션)하여 적절한 크기로 전송, (4) 터널 환경에서는 MSS Clamping(iptables -j TCPMSS --clamp-mss-to-pmtu)을 적용하세요.

Path MTU Discovery (PMTUD)

Path MTU Discovery는 송신자와 수신자 사이 경로에서 단편화 없이 전송 가능한 최대 패킷 크기를 동적으로 탐지하는 메커니즘입니다. IPv4에서는 RFC 1191, IPv6에서는 RFC 8201로 정의되며, 리눅스 커널은 기본적으로 PMTUD를 활성화합니다.

PMTUD 동작 원리

PMTUD의 핵심은 IP 헤더의 DF(Don't Fragment) 비트와 ICMP 메시지의 상호작용입니다:

커널 PMTUD 구현

리눅스 커널의 PMTUD는 라우팅 서브시스템과 전송 계층이 긴밀하게 협력하여 동작합니다. PMTU 값은 dst_entry 경로 정보에 저장되며, fib_nh_exception 구조체(Struct)를 통해 per-destination으로 관리됩니다.

/* include/net/dst.h — 경로의 PMTU 조회 */
static inline u32 dst_mtu(const struct dst_entry *dst)
{
    /* dst_ops에 정의된 mtu 콜백 호출
     * IPv4: ipv4_mtu() → PMTU 캐시 또는 인터페이스 MTU 반환
     * IPv6: ip6_mtu() → PMTU 캐시 또는 인터페이스 MTU 반환 */
    return dst->ops->mtu(dst);
}

/* net/ipv4/route.c — IPv4 PMTU 조회 */
static unsigned int ipv4_mtu(const struct dst_entry *dst)
{
    unsigned int mtu = dst_metric_raw(dst, RTAX_MTU);
    struct net *net = dev_net(dst->dev);

    if (mtu)
        return mtu;            /* 명시적으로 설정된 route MTU */

    mtu = READ_ONCE(dst->dev->mtu);  /* 인터페이스 MTU */

    if (unlikely(ip_mtu_locked(dst)))
        return mtu;            /* 관리자가 lock한 MTU (변경 불가) */

    /* fib_nh_exception에 캐싱된 PMTU가 있으면 그 값 사용 */
    if (mtu > IPV4_MIN_MTU)   /* 68바이트 (RFC 791 최소) */
        return mtu;

    return IPV4_MIN_MTU;
}

ICMP "Fragmentation Needed" 수신 처리

ICMP Type 3, Code 4 메시지를 수신하면 커널은 해당 목적지에 대한 PMTU를 갱신합니다:

/* net/ipv4/route.c — PMTU 갱신 핵심 함수 */
static void __ip_rt_update_pmtu(struct rtable *rt,
                                struct flowi4 *fl4, u32 mtu)
{
    struct dst_entry *dst = &rt->dst;
    struct net *net = dev_net(dst->dev);
    struct fib_result res;
    bool lock = false;

    /* RFC 1191: PMTU는 최소 68바이트 (IPv4 최소 MTU) */
    if (mtu < IPV4_MIN_MTU) {
        lock = true;
        mtu = IPV4_MIN_MTU;
    }

    /* ip_no_pmtu_disc 설정 시 PMTUD 무시 */
    if (mtu < ip_rt_min_pmtu(net))
        mtu = ip_rt_min_pmtu(net);

    /* FIB nexthop exception에 PMTU 캐싱 */
    rcu_read_lock();
    if (fib_lookup(net, fl4, &res, 0) == 0) {
        struct fib_nh_common *nhc = FIB_RES_NHC(res);
        update_or_create_fnhe(nhc, fl4->daddr, 0, mtu, lock,
                              jiffies + ip_rt_mtu_expires(net));
    }
    rcu_read_unlock();
}

/* net/ipv4/icmp.c — ICMP "Fragmentation Needed" 수신 경로 */
/*
 * icmp_rcv()
 *   → icmp_unreach()             (Type 3 처리)
 *     → icmp_unreach_handler()
 *       → ICMP_MIB_INMSGS++
 *       → 내부 IP 헤더에서 원본 (src, dst, proto) 추출
 *       → 상위 프로토콜의 err_handler 호출:
 *         TCP: tcp_v4_err() → tcp_v4_mtu_reduced()
 *         UDP: udp_err()   → ip_icmp_error()
 *         → ip_rt_update_pmtu() 호출하여 라우팅 캐시 갱신
 */

TCP와 PMTUD 연동

TCP는 PMTU 변경에 가장 적극적으로 대응하는 프로토콜입니다. ICMP 에러 수신 시 MSS를 조정하고 필요하면 세그먼트를 재전송(Retransmission)합니다:

/* net/ipv4/tcp_ipv4.c — PMTU 감소 시 TCP 처리 */
static void tcp_v4_mtu_reduced(struct sock *sk)
{
    struct inet_sock *inet = inet_sk(sk);
    struct dst_entry *dst;
    u32 mtu;

    /* LISTEN 상태에서는 무시 */
    if ((1 << sk->sk_state) & (TCPF_LISTEN | TCPF_CLOSE))
        return;

    dst = inet_csk_update_pmtu(sk, tcp_sk(sk)->mtu_info);
    if (!dst)
        return;

    mtu = dst_mtu(dst);

    /* 새 PMTU에 맞춰 MSS 재계산 */
    if (inet_csk(sk)->icsk_pmtu_cookie > mtu) {
        /* TCP MSS = PMTU - IP 헤더(20) - TCP 헤더(20+옵션)
         * 예: PMTU=1400 → MSS = 1400 - 20 - 32 = 1348 */
        tcp_sync_mss(sk, mtu);

        /* 이미 전송된 세그먼트가 새 PMTU 초과 시
         * 재전송 큐의 세그먼트를 분할하여 재전송 */
        tcp_simple_retransmit(sk);
    }
}

/* TCP MSS 클램핑 관련 sysctl */
/* net.ipv4.tcp_mtu_probing:
 *   0 = 비활성 (기본)
 *   1 = PMTUD 블랙홀 감지 시에만 probing 활성화
 *   2 = 항상 probing 활성화
 *
 * net.ipv4.tcp_base_mss:
 *   MTU probing 시작 MSS (기본: 1024)
 *   → PMTUD 블랙홀 감지 시 이 값부터 시작하여 점진적으로 증가
 *
 * net.ipv4.tcp_mtu_probe_floor:
 *   probing 최소 MSS (기본: 48)
 */

ℹ️

TCP MSS와 PMTU 관계: TCP SYN 패킷의 MSS 옵션은 인터페이스 MTU에서 IP+TCP 헤더를 뺀 값입니다. 예를 들어 Ethernet MTU 1500이면 MSS=1460 (IPv4) 또는 1440 (IPv6)입니다. PMTUD가 경로상 더 작은 MTU를 발견하면 MSS를 동적으로 줄여 단편화를 방지합니다.

PMTUD 블랙홀 문제

PMTUD의 가장 심각한 문제는 블랙홀(Black Hole)입니다. 중간 경로의 방화벽(Firewall)이나 라우터가 ICMP "Fragmentation Needed" 메시지를 차단하면, 송신자는 PMTU를 알 수 없어 큰 패킷이 사라지는 현상이 발생합니다:

# PMTUD 블랙홀 증상 진단
# 1. 작은 패킷(ping)은 정상, 큰 패킷(SSH, HTTP)이 멈춤
ping -c 3 -M do -s 1472 목적지     # DF=1, 1500B (20+8+1472) → 통과 확인
ping -c 3 -M do -s 1400 목적지     # 점진적으로 줄여 병목 MTU 탐지

# 2. tracepath로 PMTU 탐색 (ICMP 기반)
tracepath -n 목적지
# 출력 예:
#  1?: [LOCALHOST]      pmtu 1500
#  1:  192.168.1.1      0.345ms
#  2:  10.0.0.1         1.234ms pmtu 1400    ← 여기서 MTU 감소
#  3:  172.16.0.1       2.567ms reached
#      Resume: pmtu 1400

# 3. 커널 PMTU 캐시 확인
ip route get 목적지
# 출력 예:
# 목적지 via 192.168.1.1 dev eth0 src 192.168.1.100
#     cache expires 542sec mtu 1400

# 4. PMTU 캐시 강제 삭제 (재탐색 유도)
ip route flush cache

블랙홀 해결 방법

해결 방법	적용 위치	설명	설정 예시
MSS Clamping	Netfilter (라우터)	TCP SYN의 MSS 옵션을 강제로 줄여 PMTUD 없이도 단편화 방지	`iptables -t mangle -A FORWARD -p tcp --tcp-flags SYN,RST SYN -j TCPMSS --clamp-mss-to-pmtu`
TCP MTU Probing	송신 호스트	ICMP 없이 TCP 계층에서 직접 적정 MSS를 탐색 (PLPMTUD 유사)	`sysctl net.ipv4.tcp_mtu_probing=1`
인터페이스 MTU 축소	송신 호스트/터널	터널 오버헤드(Overhead)를 고려한 보수적 MTU 설정	`ip link set dev tun0 mtu 1400`
PMTUD 비활성화	송신 호스트	DF=0으로 설정하여 중간 라우터가 단편화 (성능 저하)	`sysctl net.ipv4.ip_no_pmtu_disc=1`

TCP MTU Probing (PLPMTUD) 상세

RFC 4821/8899에 정의된 Packetization Layer PMTUD (PLPMTUD)는 ICMP에 의존하지 않고 전송 계층에서 직접 적정 패킷 크기를 탐색합니다. 리눅스의 tcp_mtu_probing이 이 메커니즘을 구현합니다:

/* net/ipv4/tcp_timer.c — TCP MTU Probing 구현 */
static void tcp_mtup_probe(struct sock *sk)
{
    struct tcp_sock *tp = tcp_sk(sk);
    struct inet_connection_sock *icsk = inet_csk(sk);
    struct sk_buff *skb;
    int probe_size;

    /* 이진 탐색으로 최적 MSS 탐색
     * search_low  = 현재 동작하는 MSS (확인된 하한)
     * search_high = 시도할 MSS 상한
     * probe_size  = (search_low + search_high) / 2 */
    probe_size = (icsk->icsk_mtup.search_low +
                  icsk->icsk_mtup.search_high) / 2;

    /* probe 패킷 전송:
     * - 일반 데이터를 probe_size 크기로 전송
     * - ACK 수신 → search_low = probe_size (성공, 상향 탐색)
     * - RTO 타임아웃 → search_high = probe_size (실패, 하향 탐색)
     * - search_high - search_low < 8 이면 탐색 종료 */
}

/* tcp_mtu_probing 동작 모드:
 *
 * 모드 0 (기본): MTU probing 비활성. 전통적 PMTUD만 사용.
 *
 * 모드 1 (블랙홀 감지):
 *   - 정상 시에는 전통적 PMTUD 사용
 *   - TCP 재전송 타임아웃(RTO) 반복 시 블랙홀로 판단
 *   - 블랙홀 감지 → tcp_base_mss부터 이진 탐색 시작
 *   - 장점: 오버헤드 최소, 블랙홀 자동 복구
 *
 * 모드 2 (항상 활성):
 *   - 연결 시작부터 MTU probing 수행
 *   - ICMP가 전혀 동작하지 않는 환경에 적합
 *   - 오버헤드가 있으므로 일반적으로 모드 1 권장
 */

IPv6 Path MTU Discovery

IPv6는 중간 라우터의 단편화를 금지하므로 PMTUD가 더욱 중요합니다. 최소 MTU는 1280바이트이며, ICMPv6 "Packet Too Big" (Type 2)를 사용합니다:

/* net/ipv6/route.c — IPv6 PMTU 갱신 */
static void ip6_rt_update_pmtu(struct dst_entry *dst, struct sock *sk,
                               struct sk_buff *skb, u32 mtu,
                               bool confirm_neigh)
{
    struct rt6_info *rt6 = (struct rt6_info *)dst;

    /* IPv6 최소 MTU = 1280 (RFC 8200) */
    if (mtu < IPV6_MIN_MTU)
        mtu = IPV6_MIN_MTU;

    /* rt6_exception에 PMTU 캐싱 (IPv4의 fib_nh_exception과 유사) */
    rt6_do_update_pmtu(rt6, mtu);
    rt6_update_exception_stamp_rt(rt6);
}

/* IPv4 vs IPv6 PMTUD 차이점:
 *
 * 항목               IPv4 (RFC 1191)          IPv6 (RFC 8201)
 * ─────────────────────────────────────────────────────────────
 * ICMP 메시지        Type 3 Code 4            ICMPv6 Type 2
 *                    "Frag Needed"            "Packet Too Big"
 * 최소 MTU           68 바이트               1280 바이트
 * 중간 라우터 단편화  허용 (DF=0일 때)        금지 (항상)
 * 송신측 단편화       선택적                   Fragment Extension Header 사용
 * DF 비트            명시적 설정 필요          암묵적 (항상 DF=1 동작)
 * PMTU 만료          ip_rt_mtu_expires        rt6_mtu_expires
 * 최소 PMTU sysctl   ip_rt_min_pmtu          (없음, 항상 1280)
 */

PMTUD 관련 sysctl 매개변수 종합

sysctl 매개변수	기본값	설명
`net.ipv4.ip_no_pmtu_disc`	0	전역 PMTUD 비활성화. 1=항상 DF=0, 2=DF 설정하되 PMTUD 하지 않음, 3=PMTU 정보 유지하되 사용 안 함
`net.ipv4.route.min_pmtu`	552	PMTU 최솟값. 이보다 작은 ICMP 응답은 이 값으로 클램핑 (RFC 1191의 68보다 높게 설정)
`net.ipv4.route.mtu_expires`	600 (초)	캐싱된 PMTU의 만료 시간. 만료 후 인터페이스 MTU로 복원 (경로 변경 대응)
`net.ipv4.tcp_mtu_probing`	0	TCP MTU probing 모드. 0=비활성, 1=블랙홀 시 활성, 2=항상 활성
`net.ipv4.tcp_base_mss`	1024	MTU probing 시작 MSS. 블랙홀 감지 시 이 크기부터 이진 탐색
`net.ipv4.tcp_mtu_probe_floor`	48	MTU probing 최소 MSS 하한. 이보다 낮은 MSS는 시도하지 않음
`net.ipv4.ip_forward_use_pmtu`	0	포워딩 시 PMTU 사용 여부. 1=PMTU 적용 (라우터에서 단편화 감소), 0=인터페이스 MTU 사용
`net.ipv6.conf.*.mtu`	(인터페이스별)	인터페이스별 IPv6 MTU. PMTUD 상한값으로 사용

터널과 PMTUD

VPN, GRE, VXLAN 등 터널 환경에서는 캡슐화 오버헤드로 인해 PMTUD가 특히 중요합니다:

# 터널별 일반적인 오버헤드와 권장 내부 MTU (외부 MTU=1500 기준)
#
# 터널 유형         오버헤드          내부 MTU   비고
# ──────────────────────────────────────────────────────────────
# GRE               24B (IP+GRE)      1476      키/시퀀스 시 +4~8B
# GRE + IPsec ESP   ≈80~120B          ≈1380     암호화 알고리즘에 따라 변동
# VXLAN             50B (UDP+VXLAN)   1450      Jumbo Frame 사용 시 완화
# WireGuard         60B (UDP+WG)      1420      IPv6 외부: 1400
# IPsec ESP(전송)   36~73B            ≈1430     암호화 + 인증
# IPsec ESP(터널)   56~93B            ≈1400     + 외부 IP 헤더 20B
# GENEVE            50~258B           ≈1450     가변 옵션 길이
# IP-in-IP (IPIP)   20B               1480      최소 오버헤드

# 터널 PMTUD 설정 예시
ip tunnel add gre1 mode gre remote 10.0.0.2 local 10.0.0.1 \
    pmtudisc                         # DF 비트 설정 (PMTUD 활성, 기본값)

ip link set gre1 mtu 1476            # 내부 MTU 수동 설정

# 터널 인터페이스에 MSS clamping 적용
iptables -t mangle -A FORWARD -o gre1 -p tcp \
    --tcp-flags SYN,RST SYN -j TCPMSS --clamp-mss-to-pmtu

# 커널 내부: 터널 xmit 시 PMTU 처리
# ip_tunnel_xmit() → 내부 패킷 크기 > 터널 PMTU?
#   → DF=1인 내부 패킷: 원래 송신자에게 ICMP "Frag Needed" 전송
#   → DF=0인 내부 패킷: 내부 패킷을 단편화 후 각각 캡슐화

⚠️

이중 단편화(Double Fragmentation) 주의: 터널에서 nopmtudisc를 설정하면 외부 패킷이 단편화됩니다. 수신 측에서 외부 IP 재조합 → 디캡슐화 → 내부 IP 재조합으로 이중 재조합이 필요할 수 있어 성능이 크게 저하됩니다. 가능하면 pmtudisc(기본값)를 유지하고 내부 MTU를 적절히 설정하세요.

PMTUD 디버깅

# 1. 현재 경로의 PMTU 확인
ip route get 203.0.113.50
# 203.0.113.50 via 192.168.1.1 dev eth0 src 192.168.1.100 uid 0
#     cache expires 542sec mtu 1400   ← PMTU가 캐싱됨

# 2. 모든 PMTU 예외 확인 (fib_nh_exception)
ip route show cache
# 203.0.113.50 via 192.168.1.1 dev eth0
#     cache expires 542sec mtu 1400
# 198.51.100.25 via 192.168.1.1 dev eth0
#     cache expires 310sec mtu 1380

# 3. ICMP "Fragmentation Needed" 수신 모니터링
tcpdump -i eth0 'icmp[icmptype] == 3 and icmp[icmpcode] == 4' -nn -v
# → IP 10.0.0.1 > 192.168.1.100: ICMP 203.0.113.50 unreachable -
#   need to frag (mtu 1400), length 556

# 4. ICMPv6 "Packet Too Big" 모니터링
tcpdump -i eth0 'icmp6 and ip6[40] == 2' -nn -v

# 5. nstat으로 PMTU 관련 통계 확인
nstat -az | grep -i -E 'Pmtu|Frag|Mtu'
# IpFragOKs          0     # 성공적으로 단편화한 패킷 수
# IpFragFails        5     # DF=1로 단편화 실패 (ICMP 전송됨)
# IpFragCreates      0     # 생성된 단편 수
# IpReasmReqds       12    # 재조합 요청 수
# IpReasmOKs         12    # 재조합 성공 수
# IpReasmFails       0     # 재조합 실패 수

# 6. ftrace로 PMTU 갱신 추적
echo 1 > /sys/kernel/debug/tracing/events/fib/fib_table_lookup/enable
echo 'nexthop_exceptions != 0' > /sys/kernel/debug/tracing/events/fib/fib_table_lookup/filter
cat /sys/kernel/debug/tracing/trace_pipe

# 7. 수동 PMTU 테스트 (이진 탐색)
# MTU 1500에서 시작하여 DF 비트로 테스트
for size in 1472 1400 1300 1200; do
    ping -c 1 -M do -s $size -W 2 목적지 &> /dev/null \
        && echo "MTU >= $((size + 28)): OK" \
        || echo "MTU <  $((size + 28)): FAIL"
done

💡

운영 권장 사항: (1) tcp_mtu_probing=1을 서버에 기본 설정하여 PMTUD 블랙홀을 자동 복구, (2) 터널/VPN 라우터에는 TCPMSS --clamp-mss-to-pmtu 적용을 우선 검토, (3) route.mtu_expires를 환경에 맞게 조정 (동적 경로가 많으면 짧게, 안정적이면 길게), (4) IpFragFails 카운터를 모니터링하여 PMTUD 블랙홀 조기 감지.

IPv4 전송 경로

/* net/ipv4/ip_output.c — IPv4 전송 */
int ip_queue_xmit(struct sock *sk, struct sk_buff *skb, struct flowi *fl)
{
    /* 1. 라우팅 조회 (캐시된 dst 또는 새로 lookup) */
    rt = ip_route_output_flow(net, fl4, sk);

    /* 2. IP 헤더 구성 */
    iph = ip_hdr(skb);
    iph->version  = 4;
    iph->ihl      = 5;
    iph->tos      = inet->tos;           /* IP_TOS 소켓 옵션 */
    iph->tot_len  = htons(skb->len);
    iph->id       = ip_select_ident(...); /* per-destination 카운터 */
    iph->frag_off = htons(IP_DF);        /* PMTUD 활성 시 DF 설정 */
    iph->ttl      = ip_select_ttl(inet, &rt->dst);
    iph->protocol = sk->sk_protocol;
    iph->saddr    = fl4->saddr;
    iph->daddr    = fl4->daddr;

    /* 3. Netfilter LOCAL_OUT 훅 → ip_output */
    return NF_HOOK(NFPROTO_IPV4, NF_INET_LOCAL_OUT,
                   net, sk, skb, NULL, rt->dst.dev,
                   dst_output);
}

/* ip_output → ip_finish_output → ip_fragment (필요 시) → dev_queue_xmit */
/* ip_fragment: skb->len > mtu && DF 미설정 시 단편화 수행
 *   → ICMP "Fragmentation Needed" (DF 설정 시) 또는 실제 단편화
 *   → GSO skb는 skb_gso_segment()으로 분할 후 각각 전송
 */

코드 설명

net/ipv4/ip_output.c의 ip_queue_xmit()은 TCP 등 상위 프로토콜이 호출하는 IPv4 전송 진입점입니다. 호출 체인: ip_queue_xmit → NF_HOOK(NF_INET_LOCAL_OUT) → dst_output → ip_output → ip_finish_output → dev_queue_xmit.

ip_route_output_flow()소켓에 캐시된 라우팅 엔트리(dst)가 있으면 재사용하고, 없으면 FIB를 조회하여 출력 인터페이스와 next-hop을 결정합니다.
IP 헤더 구성버전(4), IHL(5=옵션 없음), TOS(소켓 옵션 IP_TOS), 전체 길이, ID(ip_select_ident로 per-destination 카운터), TTL 등을 설정합니다.
htons(IP_DF)PMTUD(Path MTU Discovery) 활성 시 DF(Don't Fragment) 비트를 설정하여, MTU 초과 시 단편화 대신 ICMP Fragmentation Needed를 유도합니다.
NF_HOOK(NF_INET_LOCAL_OUT)Netfilter LOCAL_OUT 훅입니다. iptables OUTPUT 체인, SNAT, 연결 추적(Connection Tracking) 등이 여기서 적용됩니다.
ip_finish_output → ip_fragmentip_finish_output()에서 skb 크기가 MTU를 초과하고 DF가 미설정이면 ip_fragment()로 단편화를 수행합니다. GSO skb는 skb_gso_segment()으로 분할합니다.

IP 옵션 처리

옵션	타입 번호	커널 처리	보안 영향
Record Route	7	`ip_options_compile()`에서 파싱, 포워딩 시 자기 IP 기록	네트워크 토폴로지(Topology) 노출 위험
Timestamp	68	타임스탬프 기록/검증	시스템 시간 노출
Loose Source Route	131	지정 경로 경유 (기본 비활성: `accept_source_route=0`)	IP 스푸핑 악용 가능 → 서버에서 반드시 비활성화
Strict Source Route	137	정확한 경로 강제	Loose와 동일한 보안 위험
Router Alert	148	라우터가 패킷을 로컬 처리 (IGMP, RSVP)	DoS 가능성 (라우터 CPU 소비)

⚠️

IP Source Routing 보안: net.ipv4.accept_source_route=0 (기본값)은 source route 옵션이 포함된 패킷을 폐기합니다. 이 옵션을 절대 활성화하지 마세요. 공격자가 패킷 경로를 조작하여 방화벽을 우회하거나 IP 스푸핑에 악용할 수 있습니다.

ARP (Address Resolution Protocol)

ARP(RFC 826)는 IPv4 주소를 MAC 주소로 변환하는 프로토콜입니다. 리눅스 커널은 net/ipv4/arp.c에서 ARP를 구현하며, 이웃 서브시스템(net/core/neighbour.c)의 IPv4 인스턴스로 통합되어 있습니다.

/* net/ipv4/arp.c — ARP 수신 처리 */
static int arp_rcv(struct sk_buff *skb, struct net_device *dev,
                   struct packet_type *pt, struct net_device *orig_dev)
{
    struct arphdr *arp;

    /* ARP 헤더 길이 검증 */
    if (!pskb_may_pull(skb, arp_hdr_len(dev)))
        goto out;

    arp = arp_hdr(skb);

    /* Netfilter ARP 훅 → arp_process() */
    return NF_HOOK(NFPROTO_ARP, NF_ARP_IN,
                   dev_net(dev), NULL, skb, dev, NULL,
                   arp_process);
}

/* arp_process() 핵심 로직 */
/*
 * 1. ARP Request (op=1):
 *    - target IP가 로컬 → ARP Reply 전송 (arp_send_dst)
 *    - Proxy ARP 활성 → 대리 응답
 *    - sender의 (IP, MAC) 쌍으로 이웃 캐시 갱신
 *
 * 2. ARP Reply (op=2):
 *    - sender의 (IP, MAC) 쌍으로 이웃 캐시 갱신
 *    - INCOMPLETE → REACHABLE 전환
 *    - 대기 중인 패킷 큐(arp_queue) 전송
 *
 * 3. Gratuitous ARP (sender IP == target IP):
 *    - 주소 충돌 감지 (sender MAC이 자기와 다르면 충돌)
 *    - 이웃 캐시 갱신 (VM 마이그레이션, failover 시 사용)
 */

코드 설명

net/ipv4/arp.c의 arp_rcv()는 ARP 패킷 수신의 진입점입니다. L2에서 EtherType 0x0806으로 올라온 패킷이 여기로 전달됩니다.

pskb_may_pull()ARP 헤더 크기만큼 skb의 선형 영역을 확보합니다. 디바이스 타입에 따라 헤더 길이가 다를 수 있어 arp_hdr_len(dev)로 계산합니다.
NF_HOOK(NFPROTO_ARP, NF_ARP_IN)Netfilter ARP 훅을 통과한 뒤 arp_process()에서 실제 처리가 이루어집니다. arptables를 사용하여 ARP 필터링이 가능합니다.
ARP Request (op=1)target IP가 로컬이면 ARP Reply를 전송하고, sender의 (IP, MAC) 쌍으로 이웃 캐시를 갱신합니다. Proxy ARP가 활성이면 다른 서브넷에 대해서도 대리 응답합니다.
ARP Reply (op=2)sender 정보로 이웃 캐시를 갱신하고 NUD 상태를 INCOMPLETE → REACHABLE로 전환합니다. 대기 중인 패킷 큐(arp_queue)의 패킷을 전송합니다.
Gratuitous ARPsender IP와 target IP가 동일한 특수 ARP입니다. 주소 충돌 감지, VM 마이그레이션 후 MAC 갱신, failover 시 트래픽 전환에 활용됩니다.

/* net/core/neighbour.c — 이웃 서브시스템 (ARP/NDP 통합) */
struct neighbour {
    struct neighbour __rcu *next;
    struct neigh_table *tbl;        /* arp_tbl 또는 nd_tbl */
    struct neigh_parms *parms;
    unsigned long    confirmed;       /* 마지막 확인 시간 */
    unsigned long    updated;         /* 마지막 갱신 시간 */
    rwlock_t         lock;
    refcount_t       refcnt;
    unsigned int     arp_queue_len_bytes;
    struct sk_buff_head arp_queue;   /* 해석 대기 패킷 큐 */
    struct timer_list timer;         /* 상태 전환 타이머 */
    unsigned long    used;            /* 마지막 사용 시간 */
    atomic_t         probes;          /* 진행 중인 프로브 수 */
    __u8             nud_state;       /* NUD 상태 (INCOMPLETE, REACHABLE, ...) */
    __u8             type;            /* RTN_UNICAST, RTN_BROADCAST 등 */
    __u8             dead;
    u8               protocol;
    __u8             ha[ALIGN(MAX_ADDR_LEN, sizeof(unsigned long))];
                                       /* 하드웨어 주소 (MAC) */
    struct net_device *dev;
    const struct neigh_ops *ops;     /* connected_output, output 등 */
};

/* ARP/NDP 테이블 sysctl */
/*
 * net.ipv4.neigh.default.base_reachable_time_ms = 30000  (30초)
 *   → REACHABLE 상태 유지 시간 (랜덤화: 0.5~1.5 × base)
 *
 * net.ipv4.neigh.default.gc_stale_time = 60  (초)
 *   → STALE 상태에서 GC 대상이 되는 시간
 *
 * net.ipv4.neigh.default.gc_thresh1 = 128
 *   → GC 시작하지 않는 엔트리 수 하한
 * net.ipv4.neigh.default.gc_thresh2 = 512
 *   → GC가 적극적으로 동작하는 엔트리 수
 * net.ipv4.neigh.default.gc_thresh3 = 1024
 *   → 하드 상한. 초과 시 새 엔트리 거부 → 연결 실패!
 *   → 대규모 L2(클라우드 /16)에서 반드시 확대 필요
 */

⚠️

ARP 캐시 오버플로: gc_thresh3(기본 1024)를 초과하면 새로운 이웃 해석이 실패하여 "No buffer space available" 오류가 발생합니다. 클라우드 환경의 /16 서브넷이나 컨테이너(Container) 환경에서 흔히 발생하며, ip neigh show | wc -l로 현재 엔트리 수를 확인하고, dmesg | grep "neighbour table overflow"로 오버플로 로그를 점검하세요.

TTL/Hop Limit 처리

TTL(Time To Live, IPv4)과 Hop Limit(IPv6)은 패킷의 수명을 제한하여 라우팅 루프에서 패킷이 무한 순환하는 것을 방지합니다. 각 라우터를 통과할 때마다 1씩 감소하며, 0이 되면 패킷을 드롭하고 ICMP 오류를 반환합니다.

/* net/ipv4/ip_forward.c — IPv4 포워딩 시 TTL 처리 */
int ip_forward(struct sk_buff *skb)
{
    struct iphdr *iph = ip_hdr(skb);

    /* TTL 검사: 0이면 포워딩 불가 */
    if (iph->ttl <= 1)
        goto too_many_hops;
        /* → ICMP Time Exceeded (Type 11, Code 0) 전송
         * → icmp_send(skb, ICMP_TIME_EXCEEDED, ICMP_EXC_TTL, 0)
         * → 원본 패킷의 IP 헤더 + 8바이트를 ICMP 페이로드에 포함 */

    /* TTL 감소 + 체크섬 증분 갱신 */
    ip_decrease_ttl(iph);
    /*
     * ip_decrease_ttl() 내부:
     *   check += htons(0x0100);  // TTL 1 감소분을 체크섬에 반영
     *   check += (check >= 0xFFFF);  // 캐리 처리
     *   --iph->ttl;
     *
     * 핵심: 전체 체크섬 재계산 대신 증분 갱신으로 O(1) 처리
     */

    /* Netfilter FORWARD 훅 → ip_forward_finish → dst_output */
    return NF_HOOK(NFPROTO_IPV4, NF_INET_FORWARD, ...);
}

/* net/ipv6/ip6_output.c — IPv6 포워딩 시 Hop Limit 처리 */
int ip6_forward(struct sk_buff *skb)
{
    struct ipv6hdr *hdr = ipv6_hdr(skb);

    if (hdr->hop_limit <= 1) {
        /* ICMPv6 Time Exceeded (Type 3, Code 0) 전송 */
        icmpv6_send(skb, ICMPV6_TIME_EXCEED, ICMPV6_EXC_HOPLIMIT, 0);
        goto drop;
    }

    hdr->hop_limit--;
    /* IPv6: IP 헤더 체크섬이 없으므로 체크섬 갱신 불필요!
     * → 단순 바이트 감산만으로 완료 → IPv4 포워딩보다 빠름 */

    return NF_HOOK(NFPROTO_IPV6, NF_INET_FORWARD, ...);
}

코드 설명

net/ipv4/ip_forward.c의 ip_forward()와 net/ipv6/ip6_output.c의 ip6_forward()는 패킷 포워딩 시 TTL/Hop Limit을 처리합니다. 호출 체인: ip_rcv_finish → 라우팅(외부 목적지) → ip_forward → NF_HOOK(NF_INET_FORWARD) → ip_forward_finish → dst_output.

iph->ttl <= 1TTL이 1 이하이면 더 이상 포워딩할 수 없습니다. icmp_send()로 ICMP Time Exceeded(Type 11, Code 0)를 송신자에게 반환하고 패킷을 드롭합니다.
ip_decrease_ttl()TTL을 1 감소시키면서 동시에 IP 헤더 체크섬을 증분 갱신합니다. RFC 1624에 따른 O(1) 연산으로, 전체 체크섬 재계산보다 훨씬 효율적입니다.
NF_HOOK(NF_INET_FORWARD)Netfilter FORWARD 훅을 통과시킵니다. iptables/nftables의 FORWARD 체인 규칙이 여기서 적용됩니다.
ip6_forward — hop_limit--IPv6는 IP 헤더 체크섬이 없으므로 단순히 hop_limit 바이트를 감소시키는 것만으로 완료됩니다. 이 설계 차이가 IPv6 포워딩 성능 이점의 한 요인입니다.
ICMPv6 Time ExceededIPv6에서 Hop Limit 만료 시 icmpv6_send()로 ICMPv6 Time Exceeded(Type 3, Code 0)를 반환합니다. traceroute는 이 메커니즘을 활용하여 경로를 추적합니다.

항목	IPv4 (TTL)	IPv6 (Hop Limit)
기본값	`net.ipv4.ip_default_ttl = 64`	`net.ipv6.conf.*.hop_limit = 64`
포워딩 시	TTL-- + 체크섬 증분 갱신	hop_limit-- (체크섬 없음)
만료 시	ICMP Time Exceeded (Type 11)	ICMPv6 Time Exceeded (Type 3)
최대값	255	255
소켓 제어	`IP_TTL` 소켓 옵션	`IPV6_UNICAST_HOPS` 소켓 옵션
멀티캐스트 TTL	`IP_MULTICAST_TTL` (기본 1)	`IPV6_MULTICAST_HOPS` (기본 1)
traceroute 활용	TTL을 1부터 증가시켜 경로 추적	Hop Limit을 1부터 증가

💡

TTL 값으로 OS 추정: 초기 TTL 값은 OS마다 다릅니다 — Linux/macOS: 64, Windows: 128, 일부 네트워크 장비: 255. 수신 측에서 TTL 값 = 초기값 - (홉 수)를 역산하여 경로 길이나 송신 OS를 추정할 수 있습니다. 보안 관점에서 이를 방지하려면 방화벽에서 TTL을 고정값으로 재설정(iptables -t mangle -A POSTROUTING -j TTL --ttl-set 64)하는 방법이 있습니다.

ICMP 오류 처리 경로

ICMP(Internet Control Message Protocol)은 IP 계층의 오류 보고와 진단을 담당합니다. IPv4에서는 RFC 792(ICMP), IPv6에서는 RFC 4443(ICMPv6)으로 정의되며, 커널은 수신된 ICMP 오류를 해당 소켓/프로토콜에 전파하여 적절한 대응을 유도합니다.

ICMP 유형	IPv4 (Type/Code)	IPv6 (Type)	커널 처리
Destination Unreachable	Type 3, Code 0~15	Type 1	`icmp_unreach()` → 상위 프로토콜 `err_handler()` 호출
Packet Too Big / Frag Needed	Type 3, Code 4	Type 2	PMTU 갱신 → `__ip_rt_update_pmtu()`
Time Exceeded	Type 11	Type 3	TTL/Hop Limit 만료 → traceroute에서 활용
Parameter Problem	Type 12	Type 4	헤더 오류 → 문제 필드 포인터 포함
Echo Request/Reply	Type 8/0	Type 128/129	`icmp_echo()` → 커널에서 직접 응답 (소켓 불필요)
Redirect	Type 5	NDP Type 137	라우팅 캐시 갱신 → 더 나은 next-hop 사용

/* net/ipv4/icmp.c — ICMP 수신 처리 흐름 */
static int icmp_rcv(struct sk_buff *skb)
{
    struct icmphdr *icmph = icmp_hdr(skb);

    /* 체크섬 검증 (ICMP는 의사 헤더 없음) */
    if (skb_checksum_simple_validate(skb))
        goto csum_error;

    /* ICMP 타입별 디스패치 테이블 */
    switch (icmph->type) {
    case ICMP_ECHOREPLY:       icmp_discard(skb);  break;
    case ICMP_DEST_UNREACH:    icmp_unreach(skb);  break;
    case ICMP_SOURCE_QUENCH:   icmp_unreach(skb);  break;
    case ICMP_REDIRECT:        icmp_redirect(skb); break;
    case ICMP_ECHO:            icmp_echo(skb);     break;
    case ICMP_TIME_EXCEEDED:   icmp_unreach(skb);  break;
    case ICMP_PARAMETERPROB:   icmp_unreach(skb);  break;
    case ICMP_TIMESTAMP:       icmp_timestamp(skb);break;
    default:                   icmp_discard(skb);
    }
}

/* icmp_unreach() — 오류 메시지 상위 프로토콜 전파 */
static void icmp_unreach(struct sk_buff *skb)
{
    /* ICMP 오류 페이로드에서 원본 IP 헤더 추출 */
    struct iphdr *iph = (struct iphdr *)(icmph + 1);
    int protocol = iph->protocol;

    /* 프로토콜별 err_handler 호출 */
    struct net_protocol *ipprot = rcu_dereference(inet_protos[protocol]);
    if (ipprot && ipprot->err_handler)
        ipprot->err_handler(skb, info);
    /*
     * TCP: tcp_v4_err()
     *   → Code 4 (Frag Needed): tcp_v4_mtu_reduced() → PMTU 갱신
     *   → Code 1 (Host Unreach): 소켓에 EHOSTUNREACH 오류 설정
     *   → 재전송 중인 경우 RTT 추정 무효화
     *
     * UDP: udp_err()
     *   → 소켓에 연결된 경우 sk->sk_err 설정
     *   → 미연결 소켓: ip_icmp_error() → 소켓 오류 큐에 오류 저장
     *     → recvmsg(MSG_ERRQUEUE)로 애플리케이션에 전달
     */
}

코드 설명

net/ipv4/icmp.c의 icmp_rcv()는 ICMP 패킷 수신 처리의 진입점입니다. ip_local_deliver_finish()에서 protocol=1(ICMP)일 때 호출됩니다.

skb_checksum_simple_validate()ICMP 체크섬을 검증합니다. ICMP는 TCP/UDP와 달리 의사 헤더(pseudo header)를 사용하지 않으므로 단순 검증입니다.
switch (icmph->type)ICMP 타입별 디스패치(Dispatch) 테이블입니다. Echo Request(Type 8)는 icmp_echo()에서 커널이 직접 응답하고, Destination Unreachable(Type 3)과 Time Exceeded(Type 11)는 icmp_unreach()로 처리됩니다.
icmp_unreach()ICMP 오류 메시지의 페이로드에 포함된 원본 IP 헤더에서 프로토콜 번호를 추출하여, 해당 프로토콜의 err_handler를 호출합니다.
TCP err_handlertcp_v4_err()가 호출되어, Fragmentation Needed(Code 4)이면 PMTU를 갱신하고, Host Unreachable(Code 1)이면 소켓에 EHOSTUNREACH 오류를 설정합니다.
UDP err_handlerudp_err()가 호출되며, 미연결 소켓의 경우 ip_icmp_error()를 통해 오류 큐에 저장하고 recvmsg(MSG_ERRQUEUE)로 애플리케이션에 전달합니다.

ℹ️

ICMP 속도 제한: 커널은 ICMP 메시지 송신 속도를 net.ipv4.icmp_ratelimit(기본 1000ms)과 net.ipv4.icmp_ratemask로 제한합니다. 이는 ICMP를 이용한 DoS 공격 방지를 위한 것입니다. net.ipv4.icmp_echo_ignore_all=1로 ping 응답을 완전히 비활성화할 수 있지만, PMTUD 등 정상 동작에 필요한 ICMP까지 차단하지 않도록 주의해야 합니다.

icmp_rcv()가 ICMP 타입에 따라 핸들러(Handler)를 디스패치하는 흐름. 오류 메시지(Unreach/TimeExc/Param)는 icmp_unreach()에서 원본 패킷의 프로토콜별 err_handler를 호출하여 상위 계층(TCP/UDP)에 전파

ECN (Explicit Congestion Notification)

ECN(RFC 3168)은 네트워크 혼잡 시 패킷을 드롭하는 대신 IP 헤더의 ECN 비트를 설정하여 송신자에게 혼잡을 알리는 메커니즘입니다. TCP 혼잡 제어와 긴밀하게 연동되어 불필요한 재전송을 줄이고 처리량(Throughput)을 향상시킵니다.

/* include/net/inet_ecn.h — ECN 관련 커널 함수 */

/* IP 헤더에서 ECN 필드 읽기 */
static inline int INET_ECN_is_ce(__u8 dsfield)
{
    return (dsfield & 3) == 3;  /* CE: 하위 2비트가 11 */
}

static inline int INET_ECN_is_not_ect(__u8 dsfield)
{
    return (dsfield & 3) == 0;  /* Non-ECT: 하위 2비트가 00 */
}

/* 혼잡 라우터에서 ECT → CE 마킹 */
static inline int INET_ECN_set_ce(struct sk_buff *skb)
{
    /* IP 헤더의 ECN 필드를 CE(11)로 설정
     * → IP 체크섬 증분 갱신 필요 (IPv4만)
     * → qdisc(fq_codel, cake, red 등)에서 호출 */
}

/* TCP ECN 협상 (SYN 패킷) */
/*
 * 송신측 SYN: ECE + CWR 플래그 설정 (ECN 지원 표시)
 * 수신측 SYN-ACK: ECE만 설정 (ECN 수락)
 *
 * sysctl:
 *   net.ipv4.tcp_ecn = 0  비활성 (기본)
 *   net.ipv4.tcp_ecn = 1  요청 + 수락
 *   net.ipv4.tcp_ecn = 2  수락만 (상대가 요청 시)
 *
 * 권장: tcp_ecn=2 (서버) — 호환성 유지하면서 ECN 이점 활용
 */

💡

ECN의 실무 효과: 데이터센터 내부에서 DCTCP(Data Center TCP)와 ECN을 함께 사용하면 큐 대기 시간(Latency)을 90% 이상 감소시킬 수 있습니다. L4S(Low Latency, Low Loss, Scalable throughput) 아키텍처에서 ECN은 핵심 구성 요소입니다. 단, 인터넷 환경에서는 일부 레거시 장비가 ECN 비트를 잘못 처리할 수 있으므로 tcp_ecn=2(수동 모드)를 권장합니다.

IP 멀티캐스트

IP 멀티캐스트는 하나의 패킷을 관심 있는 수신자 그룹에게 동시에 전달하는 일대다(one-to-many) 통신입니다. IPv4에서는 IGMP(Internet Group Management Protocol), IPv6에서는 MLD(Multicast Listener Discovery)를 사용하여 그룹 멤버십을 관리합니다.

항목	IPv4 멀티캐스트	IPv6 멀티캐스트
주소 범위	224.0.0.0/4 (Class D)	ff00::/8
그룹 관리	IGMP (v1/v2/v3)	MLD (v1/v2)
MAC 매핑(Mapping)	01:00:5e + 하위 23비트	33:33 + 하위 32비트
커널 소스	`net/ipv4/igmp.c`	`net/ipv6/mcast.c`
소켓 API	`IP_ADD_MEMBERSHIP`	`IPV6_JOIN_GROUP`
TTL/Hop Limit	기본 1 (링크-로컬)	기본 1
라우팅	PIM-SM, MSDP	PIM-SM, MLD proxy

/* 멀티캐스트 그룹 가입 (소켓 레벨) */
struct ip_mreqn mreq = {
    .imr_multiaddr.s_addr = inet_addr("239.1.2.3"),
    .imr_address.s_addr   = INADDR_ANY,
    .imr_ifindex           = 0,
};
setsockopt(fd, IPPROTO_IP, IP_ADD_MEMBERSHIP, &mreq, sizeof(mreq));
/* 커널 내부:
 *   → ip_mc_join_group()
 *   → __ip_mc_join_group()
 *     → 인터페이스의 멀티캐스트 리스트에 그룹 추가
 *     → IGMP Membership Report 전송 (라우터에게 알림)
 *     → dev_mc_add() → NIC에 멀티캐스트 MAC 필터 등록
 *
 * IPv6:
 *   setsockopt(fd, IPPROTO_IPV6, IPV6_JOIN_GROUP, &mreq6, sizeof(mreq6));
 *   → ipv6_sock_mc_join() → MLD Report 전송
 */

/* 커널 멀티캐스트 라우팅 */
/* net/ipv4/ipmr.c — IPv4 멀티캐스트 라우팅
 * net/ipv6/ip6mr.c — IPv6 멀티캐스트 라우팅
 *
 * 멀티캐스트 라우팅 데몬(pimd, mrouted)이 소켓을 열어
 * MRT_INIT → MRT_ADD_VIF → MRT_ADD_MFC 순서로 설정.
 *
 * 커널은 MFC(Multicast Forwarding Cache)를 관리:
 *   (source, group) → 입력 VIF, 출력 VIF 비트맵
 *   → ip_mr_forward()에서 패킷을 복제하여 각 출력 VIF로 전송
 */

GRO/GSO와 IP 계층

GRO(Generic Receive Offload)와 GSO(Generic Segmentation Offload)는 IP 계층의 성능을 크게 향상시키는 핵심 메커니즘입니다. 작은 패킷을 합치거나(GRO), 큰 패킷의 분할을 지연시켜(GSO) 프로토콜 스택 순회 횟수를 줄입니다.

/* ======== GRO (수신 경로) ======== */
/* net/ipv4/af_inet.c — IPv4 GRO 콜백 */
static struct sk_buff *inet_gro_receive(struct list_head *head,
                                        struct sk_buff *skb)
{
    /*
     * 동일 플로우(src/dst IP, protocol)의 연속 패킷을 합침.
     *
     * IP 헤더 비교:
     *   - src, dst, tos, protocol이 동일해야 합침 가능
     *   - TTL은 달라도 됨 (마지막 패킷의 TTL 사용)
     *   - IP ID: 연속적이어야 함 (id, id+1, id+2, ...)
     *   - DF 비트: 모든 패킷이 동일해야 함
     *
     * 합쳐진 super-packet은 ip_rcv()에 한 번만 전달
     * → 최대 64KB까지 합침 (GRO_MAX_SIZE)
     * → ip_rcv() 호출 빈도가 1/45로 감소 (1500B × 45 ≈ 64KB)
     */
}

/* ======== GSO (송신 경로) ======== */
/* net/ipv4/af_inet.c — IPv4 GSO 콜백 */
static struct sk_buff *inet_gso_segment(struct sk_buff *skb,
                                        netdev_features_t features)
{
    /*
     * 소켓에서 최대 64KB skb를 생성 → NIC 직전에 MTU 크기로 분할.
     *
     * 분할 시 IP 헤더 처리:
     *   - tot_len: 각 세그먼트 크기로 재설정
     *   - id: 세그먼트별 증가 (id, id+1, ...)
     *   - check: ip_send_check()로 재계산
     *   - frag_off: DF 유지 (단편화가 아닌 세그먼테이션)
     *
     * TSO(NIC HW) vs GSO(SW):
     *   TSO: NIC가 HW로 분할 → skb를 그대로 NIC에 전달
     *   GSO: SW로 분할 → NIC가 TSO 미지원 시 fallback
     *   커널은 둘 다 동일한 코드 경로 (validate_xmit_skb에서 결정)
     */
}

/* GRO/GSO가 IP 계층에 미치는 영향:
 *
 * 수신 (GRO):
 *   패킷 45개 → ip_rcv() 1회 → tcp_v4_rcv() 1회
 *   → Netfilter 훅 1회 → 라우팅 조회 1회
 *   → CPU 사용률 대폭 감소 (특히 10GbE/25GbE 이상)
 *
 * 송신 (GSO):
 *   소켓에서 64KB skb 1개 → 프로토콜 스택 1회 순회
 *   → dev_queue_xmit() 직전에 45개로 분할
 *   → Netfilter, 라우팅, qdisc를 1회만 통과
 *
 * 주의: GRO 합친 패킷을 포워딩하려면 GRO를 해체해야 함
 *   → LRO는 이 문제 때문에 포워딩 환경에서 사용 금지
 *   → GRO는 올바르게 해체 가능 (skb_gso_segment)
 */

⚠️

GRO와 패킷 캡처/Netfilter: GRO가 합친 super-packet은 64KB까지 될 수 있어, tcpdump에서 MTU보다 큰 패킷이 보이는 것은 정상입니다. Netfilter 규칙은 GRO 합친 상태에서 평가되므로, 바이트 기반 매칭(-m length)이 예상과 다를 수 있습니다. ethtool -K eth0 gro off로 비활성화하면 개별 패킷 단위로 캡처/필터링이 가능하지만 성능이 크게 저하됩니다.

GRO(상단): NIC 수신 패킷 45개를 1개 super-packet으로 병합 → 스택 1회 순회. GSO(하단): 소켓에서 64KB skb 1개 → 스택 1회 순회 → NIC 직전에 45개로 분할. 양방향 모두 스택 순회 횟수를 ~1/45로 줄임

LLC/SNAP (Logical Link Control)

LLC(IEEE 802.2)는 OSI 모델의 데이터 링크 계층 상위에 위치하며, SNAP(Sub-Network Access Protocol)과 함께 L2 프레임의 프로토콜 식별을 담당합니다.

IEEE 802.2 LLC 프레임 구조

/* Ethernet II vs IEEE 802.3 + LLC/SNAP */
/*
 * Ethernet II (DIX):
 *   [Dst MAC 6B][Src MAC 6B][EtherType 2B][Payload][FCS]
 *   EtherType ≥ 0x0600 → 프로토콜 식별 (0x0800=IPv4, 0x86DD=IPv6)
 *
 * IEEE 802.3 + LLC:
 *   [Dst MAC 6B][Src MAC 6B][Length 2B][LLC Header 3B][Payload][FCS]
 *   Length < 0x0600 → IEEE 802.3 프레임
 *   LLC Header: [DSAP 1B][SSAP 1B][Control 1~2B]
 *
 * IEEE 802.3 + LLC/SNAP:
 *   [Dst MAC][Src MAC][Length][LLC(AA:AA:03)][SNAP(OUI 3B + Type 2B)][Payload]
 *   DSAP=0xAA, SSAP=0xAA, Ctrl=0x03 → SNAP 식별
 *   OUI=00:00:00 + Type → EtherType와 동일한 프로토콜 식별
 */

/* include/linux/llc.h */
struct llc_snap_hdr {
    __u8  dsap;        /* Destination SAP (0xAA for SNAP) */
    __u8  ssap;        /* Source SAP (0xAA for SNAP) */
    __u8  ctrl;        /* Control (0x03 = UI frame) */
    __u8  oui[3];     /* Organization Unique Identifier */
    __be16 ethertype;  /* SNAP 프로토콜 타입 */
};

커널 LLC 구현

/* net/llc/ — LLC 서브시스템 */
/* llc_rcv(): LLC 프레임 수신 진입점
 *   → eth_type_trans()에서 skb->protocol = htons(ETH_P_802_2)로 설정
 *   → llc_rcv()에서 DSAP/SSAP에 따라 적절한 SAP으로 전달
 */

/* SAP (Service Access Point) 등록 */
struct llc_sap *sap = llc_sap_open(0xAA, NULL);
/* → DSAP 0xAA로 오는 프레임을 이 SAP에서 수신 */

/* LLC 사용 프로토콜:
 *   DSAP 0xFE: ISO CLNP (IS-IS 라우팅)
 *   DSAP 0x42: STP (Spanning Tree Protocol)
 *   DSAP 0xAA: SNAP (대부분의 상위 프로토콜)
 *   DSAP 0x06: IP over IEEE 802.2 (거의 미사용)
 */

/* STP (Spanning Tree Protocol) — 브리지 루프 방지 */
/* net/bridge/br_stp_bpdu.c */
/* BPDU 수신: LLC DSAP=0x42 → br_stp_rcv()
 *   → STP 상태 머신 업데이트 (BLOCKING, LISTENING, LEARNING, FORWARDING)
 */

프레임 유형	EtherType/Length	LLC 헤더	사용 사례
Ethernet II	≥ 0x0600 (EtherType)	없음	IPv4/IPv6, ARP 등 대부분의 현대 프로토콜
802.3 + LLC	< 0x0600 (Length)	DSAP/SSAP/Ctrl	STP, NetBEUI, IPX (레거시)
802.3 + LLC/SNAP	< 0x0600 (Length)	AA:AA:03 + OUI + Type	802.11 (WiFi), AppleTalk, 일부 VLAN

/* net/ethernet/eth.c — 프레임 타입 판별 */
__be16 eth_type_trans(struct sk_buff *skb, struct net_device *dev)
{
    struct ethhdr *eth = (struct ethhdr *) skb->data;
    __be16 proto = eth->h_proto;

    if (ntohs(proto) >= ETH_P_802_3_MIN) {
        /* Ethernet II: EtherType ≥ 1536 */
        return proto;  /* 0x0800(IPv4), 0x86DD(IPv6), 0x0806(ARP) 등 */
    }

    /* IEEE 802.3: length 필드 → LLC/SNAP 검사 */
    if (skb_at_tc_ingress(skb))
        skb->protocol = eth->h_proto;
    else if (*(__be16 *)(skb->data) == htons(0xAAAA))
        return htons(ETH_P_SNAP);  /* LLC/SNAP */
    else
        return htons(ETH_P_802_2); /* 순수 LLC */
}

IPv6 프로토콜

IPv6(Internet Protocol version 6)는 IPv4의 주소 고갈 문제를 근본적으로 해결하기 위해 설계된 차세대 인터넷 프로토콜입니다. 128비트 주소 공간(Address Space)(3.4×10³⁸개), 고정 40바이트 헤더, 확장 헤더 체인, IP 헤더 체크섬 제거(라우터 성능 향상), 중간 라우터 단편화 금지(PMTUD 필수화), NDP를 통한 자동 설정 등 IPv4의 한계를 전면 개선합니다. 리눅스 커널은 net/ipv6/ 디렉토리에 IPv6 전체 스택을 구현하며, IPv4와 독립적으로 동작하면서도 듀얼 스택을 통한 공존을 지원합니다.

IPv6

이 섹션에서는 IPv6 헤더 구조, 확장 헤더 파싱, NDP 동작, Flow Label, SRv6, 수신/전송 경로의 커널 내부 구현을 심층적으로 다룹니다. IPv4 섹션과 대비하여 IPv6만의 차이점과 성능 특성에 초점을 맞춥니다.

IPv6 헤더 구조

IPv6 헤더는 고정 40바이트로 IPv4보다 단순하지만, 확장 헤더 체인으로 유연성을 제공합니다:

/* include/uapi/linux/ipv6.h */
struct ipv6hdr {
#if defined(__LITTLE_ENDIAN_BITFIELD)
    __u8    priority:4,      /* Traffic Class 상위 4비트 */
            version:4;       /* IP 버전 (항상 6) */
#elif defined(__BIG_ENDIAN_BITFIELD)
    __u8    version:4,
            priority:4;
#endif
    __u8    flow_lbl[3];     /* Traffic Class 하위 4비트 + Flow Label 20비트 */
    __be16  payload_len;     /* 페이로드 길이 (확장 헤더 포함, 기본 헤더 제외) */
    __u8    nexthdr;         /* 다음 헤더 타입 (6=TCP, 17=UDP, 43=Routing 등) */
    __u8    hop_limit;       /* IPv4의 TTL에 해당 */
    struct in6_addr saddr;   /* 소스 주소 (128비트) */
    struct in6_addr daddr;   /* 목적지 주소 (128비트) */
};
/* 크기: 정확히 40바이트 (IPv4와 달리 가변 길이 아님) */

/* 커널에서 IPv6 헤더 접근 */
struct ipv6hdr *hdr = ipv6_hdr(skb);
pr_info("src=%pI6c dst=%pI6c nexthdr=%u\\n",
        &hdr->saddr, &hdr->daddr, hdr->nexthdr);

IPv6 헤더는 고정 40바이트. Version(항상 6) + Traffic Class(DSCP+ECN) + Flow Label(ECMP 해시용) + Payload Length + Next Header(확장 헤더 체인) + Hop Limit(TTL) + 128비트 주소 2개

확장 헤더 체인

IPv6는 옵션을 확장 헤더로 체인 연결합니다. nexthdr 필드가 다음 헤더 타입을 지정하며, 각 확장 헤더가 링크드 리스트처럼 연결됩니다:

확장 헤더	Next Header 값	용도	커널 소스
Hop-by-Hop Options	0	모든 중간 라우터가 검사 (Router Alert, Jumbogram)	`net/ipv6/exthdrs.c`
Routing	43	소스 라우팅 (Type 0은 보안상 비활성, SRv6는 Type 4)	`net/ipv6/exthdrs.c`
Fragment	44	송신측 단편화 (IPv6는 중간 라우터 단편화 금지)	`net/ipv6/reassembly.c`
Destination Options	60	목적지 노드만 검사하는 옵션	`net/ipv6/exthdrs.c`
Authentication Header (AH)	51	IPSec 인증	`net/ipv6/ah6.c`
ESP	50	IPSec 암호화(Encryption)	`net/ipv6/esp6.c`
Segment Routing (SRH)	43 (Type 4)	SRv6 세그먼트 리스트	`net/ipv6/seg6.c`

/* 확장 헤더 순회: 커널 내부 패턴 */
int ipv6_find_tlv(struct sk_buff *skb, int offset, int type)
{
    /* nexthdr 체인을 따라가며 특정 TLV 옵션 검색 */
    /* 각 확장 헤더: nexthdr(1) + hdrlen(1) + data(가변) */
    /* hdrlen 단위: 8바이트 (실제 길이 = (hdrlen+1)*8) */
}

/* ipv6_skip_exthdr: 확장 헤더를 건너뛰고 실제 상위 프로토콜 위치 찾기 */
int nexthdr = ipv6_hdr(skb)->nexthdr;
int offset = sizeof(struct ipv6hdr);
__be16 frag_off;
offset = ipv6_skip_exthdr(skb, offset, &nexthdr, &frag_off);
/* 반환: nexthdr = 실제 프로토콜 (TCP/UDP 등), offset = 페이로드 시작 위치 */

/* Fragment 헤더 구조 */
struct frag_hdr {
    __u8    nexthdr;          /* 단편화된 원본의 상위 프로토콜 */
    __u8    reserved;
    __be16  frag_off;         /* Offset(13bit) + Res(2bit) + MF(1bit) */
    __be32  identification;   /* 단편 식별자 (per-destination) */
};

NDP (Neighbor Discovery Protocol)

IPv6에서 ARP를 대체하는 NDP는 ICMPv6 기반으로 주소 해석, 라우터 발견, 주소 자동 설정을 수행합니다. IPv4 ARP가 브로드캐스트를 사용하는 반면, NDP는 solicited-node 멀티캐스트를 사용하여 네트워크 부하를 크게 줄입니다.

ICMPv6 타입	메시지	용도	커널 함수
133	Router Solicitation (RS)	호스트가 라우터 탐색	`ndisc_send_rs()`
134	Router Advertisement (RA)	라우터가 프리픽스, MTU, DNS 광고	`ndisc_router_discovery()`
135	Neighbor Solicitation (NS)	주소 해석 (ARP Request 역할) + DAD	`ndisc_send_ns()`
136	Neighbor Advertisement (NA)	주소 응답 (ARP Reply 역할)	`ndisc_send_na()`
137	Redirect	더 나은 next-hop 알림	`ndisc_redirect_rcv()`

/* net/ipv6/ndisc.c — NDP 핵심 */
/* Neighbor Solicitation 수신 처리 */
static void ndisc_recv_ns(struct sk_buff *skb)
{
    struct nd_msg *msg = (struct nd_msg *)skb_transport_header(skb);
    struct in6_addr *target = &msg->target;

    /* DAD (Duplicate Address Detection) 확인 */
    if (ipv6_addr_any(&ipv6_hdr(skb)->saddr)) {
        /* 소스 = :: → DAD 요청 (주소 중복 검사) */
        /* 같은 주소를 가진 인터페이스가 있으면 DAD 실패 */
    }

    /* 타겟 주소가 로컬이면 NA(Neighbor Advertisement) 응답 */
    if (ipv6_chk_addr(net, target, dev, 0))
        ndisc_send_na(dev, &saddr, target, ...);
}

/* SLAAC (Stateless Address AutoConfiguration) */
/* RA에서 prefix 정보를 받아 자동으로 IPv6 주소 생성:
 *   주소 = prefix (64bit) + interface ID (64bit, EUI-64 또는 랜덤)
 *   net.ipv6.conf.*.use_tempaddr = 2 → RFC 4941 Privacy Extension
 *     → 임시 주소 자동 생성 (기본 24시간 유효)
 */

Flow Label과 ECMP

/* Flow Label: 20비트 (IPv6 헤더 내) */
/* 동일 flow의 패킷을 동일 경로로 라우팅 (ECMP 해시 입력) */

/* 커널 자동 설정: net.ipv6.flowlabel_state_ranges */
/* TCP: 연결별 고유 flow label 자동 할당 (auto_flowlabels) */
/* sysctl: net.ipv6.auto_flowlabels = 1 (기본 활성) */

/* 소켓에서 flow label 명시적 설정 */
struct in6_flowlabel_req freq = {
    .flr_label  = htonl(0x12345),
    .flr_action = IPV6_FL_A_GET,
    .flr_share  = IPV6_FL_S_EXCL,
};
setsockopt(fd, SOL_IPV6, IPV6_FLOWLABEL_MGR, &freq, sizeof(freq));

/* ECMP에서의 활용:
 * 라우터가 5-tuple 대신 (src, dst, flow_label)로 해시
 * → UDP 멀티플렉싱 환경에서도 안정적 경로 고정
 * → 특히 QUIC처럼 하나의 UDP 포트에 다수 연결 시 효과적
 */

IPv6 수신/전송 경로

IPv6의 수신/전송 경로는 IPv4와 구조적으로 유사하지만, 헤더 체크섬 없음, 확장 헤더 파싱, 중간 라우터 단편화 금지 등의 차이가 있습니다.

/* net/ipv6/ip6_input.c — IPv6 수신 진입점 */
int ipv6_rcv(struct sk_buff *skb, struct net_device *dev,
            struct packet_type *pt, struct net_device *orig_dev)
{
    struct ipv6hdr *hdr;

    /* 1. 기본 검증 (IP 헤더 체크섬 없음!) */
    if (!pskb_may_pull(skb, sizeof(struct ipv6hdr)))
        goto err;

    hdr = ipv6_hdr(skb);

    /* 2. 버전 검증 (6이어야 함) */
    if (hdr->version != 6)
        goto err;

    /* 3. payload_len 검증 */
    /* IPv4와 달리 헤더 체크섬 검증 단계가 없음
     * → 라우터 포워딩 시 체크섬 재계산 비용 제거가 목적 */

    /* 4. Netfilter PRE_ROUTING 훅 → ip6_rcv_finish */
    return NF_HOOK(NFPROTO_IPV6, NF_INET_PRE_ROUTING,
                   dev_net(dev), NULL, skb, dev, NULL,
                   ip6_rcv_finish);
}

/* ip6_rcv_finish → ip6_route_input() → 라우팅 결정 */
/*   로컬 목적지: ip6_input() → ip6_input_finish() */
/*     → ipv6_skip_exthdr()로 확장 헤더 건너뜀 */
/*     → 최종 nexthdr에 따라 TCP/UDP/ICMPv6 등에 전달 */
/*   포워딩:      ip6_forward() */
/*     → hop_limit 감소 (체크섬 재계산 불필요!) */
/*     → MTU 초과 시 ICMPv6 "Packet Too Big" 반환 */
/*     → 중간 라우터의 단편화는 금지 */

/* net/ipv6/ip6_output.c — IPv6 전송 진입점 */
int ip6_xmit(const struct sock *sk, struct sk_buff *skb,
             struct flowi6 *fl6, __u32 mark,
             struct ipv6_txoptions *opt, int tclass, u32 priority)
{
    struct ipv6hdr *hdr;
    int seg_len = skb->len;

    /* 확장 헤더 삽입 (있는 경우) */
    if (opt) {
        seg_len += opt->opt_flen + opt->opt_nflen;
        ipv6_push_exthdr(skb, opt);  /* Hop-by-Hop, Routing 등 */
    }

    /* IPv6 헤더 구성 (40바이트 고정) */
    hdr = ipv6_hdr(skb);
    ip6_flow_hdr(hdr, tclass, fl6->flowlabel);
    hdr->payload_len = htons(seg_len);
    hdr->nexthdr     = *(u8 *)skb_transport_header(skb);
    hdr->hop_limit   = ip6_dst_hoplimit(skb_dst(skb));
    hdr->saddr       = fl6->saddr;
    hdr->daddr       = fl6->daddr;

    /* IP 헤더 체크섬 계산이 없음 → IPv4보다 송신 경로가 빠름 */

    /* Netfilter LOCAL_OUT → dst_output */
    return NF_HOOK(NFPROTO_IPV6, NF_INET_LOCAL_OUT,
                   net, sk, skb, NULL, dst->dev,
                   dst_output);
}

/* IPv6 단편화 (송신측에서만 수행) */
/* ip6_fragment():
 *   - MTU 초과 시 Fragment Extension Header(nexthdr=44) 추가
 *   - 각 단편에 동일한 Identification 값 부여
 *   - 최소 Fragment 크기: 1280 바이트 (IPv6 최소 MTU)
 *   - IPv4와 달리 원본 확장 헤더는 첫 번째 단편에만 포함
 */

ℹ️

IPv6 포워딩이 IPv4보다 빠른 이유: IPv6에서 라우터는 (1) IP 헤더 체크섬 재계산이 불필요하고, (2) 중간 라우터의 단편화가 금지되어 단편화 판단 로직이 단순합니다. Hop Limit 감소만 하면 되며, 이는 단순 바이트 감산만으로 완료됩니다. 이 두 가지 차이가 고속 라우터에서 수십 % 이상의 PPS 향상을 가져올 수 있습니다.

SRv6 (Segment Routing v6)

SRv6는 IPv6 확장 헤더(Routing Header Type 4, SRH)를 사용하여 패킷 경로를 소스에서 프로그래밍하는 차세대 라우팅 기술입니다. MPLS를 대체하며, IPv6 네이티브 환경에서 트래픽 엔지니어링, VPN, 서비스 체이닝을 구현합니다.

/* include/uapi/linux/seg6.h — SRH (Segment Routing Header) */
struct ipv6_sr_hdr {
    __u8    nexthdr;         /* 다음 헤더 (일반적으로 TCP/UDP) */
    __u8    hdrlen;          /* (길이/8 - 1) */
    __u8    type;            /* 4 = SRv6 (Routing Header Type 4) */
    __u8    segments_left;   /* 남은 세그먼트 수 */
    __u8    first_segment;   /* 첫 번째 세그먼트 인덱스 */
    __u8    flags;           /* HMAC 등 */
    __u16   tag;             /* 태그 (선택적) */
    struct in6_addr segments[];  /* 세그먼트 리스트 (역순) */
};

/* SRv6 동작 원리:
 *
 * 송신자(또는 ingress 라우터)가 SRH를 삽입:
 *   segments[0] = 최종 목적지
 *   segments[1] = 두 번째 경유지
 *   segments[2] = 첫 번째 경유지  ← 현재 활성 세그먼트
 *   segments_left = 2
 *
 * IPv6 daddr = segments[segments_left] = 첫 번째 경유지
 *
 * 각 경유지에서:
 *   1. segments_left-- (2→1→0)
 *   2. daddr = segments[segments_left]
 *   3. 다음 경유지로 포워딩
 *   4. segments_left == 0이면 SRH 처리 종료
 */

/* net/ipv6/seg6.c — 커널 SRv6 구현 */

/* SRH 입력 처리 */
static int ipv6_srh_rcv(struct sk_buff *skb)
{
    struct ipv6_sr_hdr *srh = (struct ipv6_sr_hdr *)skb_transport_header(skb);

    if (srh->segments_left == 0)
        return 1;  /* SRH 처리 완료, 다음 확장 헤더/프로토콜로 */

    srh->segments_left--;
    ipv6_hdr(skb)->daddr = srh->segments[srh->segments_left];
    /* 다음 세그먼트 주소로 daddr 갱신 → 라우팅 재조회 → 포워딩 */

    ip6_route_input(skb);
    return dst_input(skb);
}

/* SRv6 End 동작 (SID에 정의된 동작) */
/* net/ipv6/seg6_local.c — SRv6 Local SID 테이블 */
/*
 * End:        단순 SRH 처리 (daddr 갱신 + 포워딩)
 * End.X:      특정 nexthop으로 L3 크로스 커넥트
 * End.DX4:    디캡슐레이션 후 IPv4 포워딩
 * End.DX6:    디캡슐레이션 후 IPv6 포워딩
 * End.DT4:    디캡슐레이션 후 특정 VRF의 IPv4 테이블 조회
 * End.DT6:    디캡슐레이션 후 특정 VRF의 IPv6 테이블 조회
 * End.B6:     SRH 삽입 (바인딩 SID)
 * End.B6.Encaps: 외부 IPv6 + SRH 캡슐화
 */

# ──── SRv6 설정 예시 ────

# SRv6 지원 활성화
sysctl -w net.ipv6.conf.all.seg6_enabled=1
sysctl -w net.ipv6.conf.eth0.seg6_enabled=1

# SRv6 경로 설정 (SRH 캡슐화)
ip route add fc00:2::1/128 encap seg6 mode encap \
    segs fc00:a1::,fc00:a2::,fc00:2::1 dev eth0

# Local SID 테이블 등록
ip -6 route add fc00:a1:: encap seg6local action End dev eth0
ip -6 route add fc00:a2:: encap seg6local action End.DX4 nh4 10.0.2.1 dev eth1

# SRv6 경로 확인
ip -6 route show | grep seg6

💡

SRv6의 실무 활용: (1) 트래픽 엔지니어링: 특정 경로를 강제하여 대역폭(Bandwidth) 최적화. (2) VPN/VRF: End.DT4/End.DT6으로 MPLS L3VPN과 동등한 기능을 IPv6 네이티브로 구현. (3) 서비스 체이닝: 방화벽 → IDS → 로드밸런서 등 서비스 순서를 SRH로 정의. (4) 네트워크 프로그래밍: BPF와 결합하여 SRv6 SID에 커스텀 동작 부여. Linux 5.14+에서 대부분의 SRv6 기능이 안정적으로 지원됩니다.

IPv4/IPv6 비교 및 듀얼 스택

헤더 구조 비교

구분	IPv4	IPv6
헤더 크기	20바이트 (옵션 제외)	40바이트 (고정)
주소 길이	32비트	128비트
체크섬	헤더 체크섬 포함	헤더 체크섬 없음 (L2/L4에 위임)
단편화	송신·중간 라우터 모두 가능	송신측만 가능 (중간 라우터 불가)
옵션	헤더 내 가변 길이	확장 헤더 체인
TTL/Hop Limit	TTL (8비트)	Hop Limit (8비트)
QoS	ToS/DSCP	Traffic Class + Flow Label

주소 체계 비교

구분	IPv4	IPv6
주소 공간	약 43억 개	약 3.4×10³⁸ 개
표기법	점-십진 (192.168.1.1)	콜론-16진 (2001:db8::1)
브로드캐스트	있음 (255.255.255.255)	없음 (멀티캐스트 사용)
주소 자동 설정	DHCP	SLAAC (+ DHCPv6)
로컬 링크	169.254.0.0/16 (APIPA)	fe80::/10 (Link-Local)
루프백	127.0.0.1/8	::1/128

프로토콜 특징 비교

구분	IPv4	IPv6
주소 해석	ARP (브로드캐스트)	NDP (멀티캐스트, ICMPv6)
라우터 발견	ICMP Router Discovery	NDP Router Advertisement
경로 최적화	ICMP Redirect	NDP Redirect
주소 중복 검사	없음 (ARP probe 비표준)	DAD (Duplicate Address Detection)
IPsec	선택 사항	규격에서는 필수로 정의된 시기가 있었으나, 실제 구현에서는 선택적으로 제공되는 경우가 많음
모바일 IP	MIPv4	MIPv6 (더 효율적)

듀얼 스택 운영

리눅스 커널의 듀얼 스택 구현은 IPv6 소켓이 IPv4-mapped IPv6 주소(::ffff:a.b.c.d)를 통해 양쪽 프로토콜을 동시에 처리할 수 있도록 설계되어 있습니다. 아래 다이어그램은 듀얼 스택 소켓의 내부 동작을 보여줍니다:

sysctl	기본값	설명
`net.ipv6.conf.all.disable_ipv6`	0	IPv6 전체 비활성화 (1로 설정 시)
`net.ipv6.bindv6only`	0	0: IPv6 소켓이 IPv4도 수신 (mapped address). 1: IPv6 전용
`net.ipv6.conf.*.accept_ra`	1	Router Advertisement 수락 (2: forwarding 활성 시에도 수락)
`net.ipv6.conf.*.autoconf`	1	SLAAC 주소 자동 설정
`net.ipv6.conf.*.use_tempaddr`	0	Privacy Extension (2: 임시 주소 선호)
`net.ipv6.conf.*.dad_transmits`	1	DAD NS 전송 횟수 (0: DAD 비활성)

/* IPv4-mapped IPv6 주소: ::ffff:a.b.c.d */
/* 듀얼 스택 소켓이 IPv4 패킷을 수신하면:
 *   커널이 IPv4 주소를 mapped 형태로 변환하여 IPv6 소켓에 전달
 *   → 애플리케이션은 하나의 IPv6 소켓으로 양쪽 모두 처리 가능
 *
 * IPV6_V6ONLY 소켓 옵션:
 *   setsockopt(fd, SOL_IPV6, IPV6_V6ONLY, &on, sizeof(on));
 *   → IPv6 전용으로 제한 (mapped address 거부)
 */

/* 커널 내부: IPv4/IPv6 프로토콜 핸들러 등록 */
static struct inet_protosw tcpv6_protosw = {
    .type       = SOCK_STREAM,
    .protocol   = IPPROTO_TCP,
    .prot       = &tcpv6_prot,          /* IPv6 TCP 핸들러 */
    .ops        = &inet6_stream_ops,
};
/* tcp_v6_rcv()에서 IPv4-mapped 주소 패킷도 처리:
 *   ipv6_addr_v4mapped(&hdr->daddr) → tcp_v4_rcv()로 fallback
 */

IP 성능 튜닝 종합

리눅스 커널의 IP 스택은 다양한 sysctl 매개변수와 NIC 오프로드 설정으로 성능을 최적화할 수 있습니다. 여기서는 실전 환경에서 가장 영향이 큰 튜닝 포인트를 종합합니다.

포워딩 성능 최적화

# ──── 기본 포워딩 활성화 ────
sysctl -w net.ipv4.ip_forward=1
sysctl -w net.ipv6.conf.all.forwarding=1

# ──── 포워딩 경로 최적화 ────
# Reverse Path Filtering: 비대칭 라우팅 환경에서는 완화 필요
sysctl -w net.ipv4.conf.all.rp_filter=2        # 0=끔, 1=엄격, 2=느슨

# 소스 라우팅 비활성화 (보안)
sysctl -w net.ipv4.conf.all.accept_source_route=0
sysctl -w net.ipv6.conf.all.accept_source_route=0

# ICMP redirect 비활성화 (라우터에서 권장)
sysctl -w net.ipv4.conf.all.send_redirects=0
sysctl -w net.ipv4.conf.all.accept_redirects=0

# 포워딩 시 PMTU 사용 (단편화 감소)
sysctl -w net.ipv4.ip_forward_use_pmtu=1

# ──── conntrack 비활성화 (순수 라우터에서) ────
# conntrack은 매 패킷마다 해시 조회 → 고속 포워딩의 병목
iptables -t raw -A PREROUTING -j NOTRACK
iptables -t raw -A OUTPUT -j NOTRACK
# 또는 커널 모듈 자체를 로드하지 않기:
# modprobe -r nf_conntrack (의존 모듈 없을 시)

NIC 오프로드 설정

오프로드 기능	ethtool 이름	효과	권장
TX Checksum	`tx-checksum-ipv4`	송신 체크섬 HW 계산	ON (기본)
RX Checksum	`rx-checksumming`	수신 체크섬 HW 검증	ON (기본)
TSO	`tcp-segmentation-offload`	TCP 세그먼트 분할을 NIC에 위임	ON
GSO	`generic-segmentation-offload`	프로토콜 무관 세그먼트 분할	ON
GRO	`generic-receive-offload`	수신 패킷 합치기 (ip_rcv 호출 횟수 감소)	ON
LRO	`large-receive-offload`	HW 수신 합치기 (포워딩 시 OFF 필수)	라우터: OFF
Scatter-Gather	`scatter-gather`	비연속 메모리 DMA → 복사 최소화	ON
UDP Tunnel Offload	`tx-udp_tnl-segmentation`	VXLAN/Geneve 터널 TSO	터널 환경: ON

# 현재 오프로드 상태 전체 확인
ethtool -k eth0

# 개별 제어
ethtool -K eth0 gro on gso on tso on sg on
ethtool -K eth0 lro off                      # 포워딩/브릿지 환경

# 링 버퍼 크기 최적화 (패킷 드롭 방지)
ethtool -g eth0                               # 현재/최대 링 버퍼 확인
ethtool -G eth0 rx 4096 tx 4096              # 링 버퍼 확대

# 인터럽트 코얼레싱 (지연 vs 처리량 트레이드오프)
ethtool -c eth0                               # 현재 코얼레싱 설정
ethtool -C eth0 rx-usecs 50 tx-usecs 50      # 50μs 코얼레싱
ethtool -C eth0 adaptive-rx on adaptive-tx on # 적응형 코얼레싱

핵심 sysctl 종합표

sysctl	기본값	고성능 서버	설명
`net.core.netdev_max_backlog`	1000	10000~50000	NIC → 커널 입력 큐 길이. 높은 PPS 환경에서 확대
`net.core.netdev_budget`	300	600~1200	NAPI poll 한 사이클 처리 패킷 수
`net.core.somaxconn`	4096	65535	listen() 백로그 상한
`net.ipv4.tcp_mtu_probing`	0	1	PMTUD 블랙홀 자동 복구
`net.ipv4.ip_default_ttl`	64	64	IPv4 기본 TTL. 특별한 이유 없이 변경 불필요
`net.ipv6.conf.*.hop_limit`	64	64	IPv6 기본 Hop Limit
`net.ipv4.neigh.default.gc_thresh3`	1024	4096~16384	ARP 캐시 최대 엔트리. 대규모 L2에서 확대
`net.ipv6.neigh.default.gc_thresh3`	1024	4096~16384	NDP 캐시 최대 엔트리
`net.ipv4.route.max_size`	(시스템 의존)	—	라우팅 캐시 최대 크기 (최근 커널은 자동 관리)
`net.ipv4.ipfrag_high_thresh`	4194304	8388608	IP 단편 재조합 메모리 상한 (DDoS 방어 고려)

성능 모니터링 명령 종합

# ──── IP 계층 통계 ────
nstat -az | grep -E '^Ip'
# IpInReceives      123456  # 수신 패킷 총수
# IpInDelivers      123400  # 상위 계층 전달 성공
# IpOutRequests     98765   # 송신 요청
# IpForwDatagrams   45678   # 포워딩된 패킷
# IpInDiscards      12      # 메모리 부족 등으로 드롭
# IpInHdrErrors     3       # 헤더 오류 (체크섬/버전/길이)
# IpFragFails       5       # 단편화 실패 (DF=1 + MTU 초과)

# ──── IPv6 통계 ────
nstat -az | grep -E '^Ip6'

# ──── ICMP 통계 ────
nstat -az | grep -E '^Icmp'
# IcmpInDestUnreachs   8   # 수신된 Destination Unreachable
# IcmpOutDestUnreachs  2   # 송신된 Destination Unreachable

# ──── ARP/NDP 캐시 ────
ip neigh show                              # ARP + NDP 전체 캐시
ip -4 neigh show | wc -l                   # IPv4 이웃 수
ip -6 neigh show | wc -l                   # IPv6 이웃 수

# ──── 드롭 원인 분석 ────
dropwatch -l kas                            # 실시간 드롭 위치 추적
perf trace -e 'skb:kfree_skb' -a sleep 5   # perf로 드롭 추적

# ──── 소프트넷 통계 (per-CPU) ────
cat /proc/net/softnet_stat
# 컬럼: processed time_squeeze dropped ... (CPU별 한 줄)
# time_squeeze > 0: netdev_budget 부족 → 값 증가 필요
# dropped > 0: netdev_max_backlog 부족 → 큐 확대 필요

# ──── RPS/RFS (멀티큐가 부족한 NIC에서 CPU 분산) ────
echo f > /sys/class/net/eth0/queues/rx-0/rps_cpus  # CPU 0~3 할당
echo 32768 > /proc/sys/net/core/rps_sock_flow_entries
echo 2048 > /sys/class/net/eth0/queues/rx-0/rps_flow_cnt

흔한 실수와 디버깅

MTU/PMTUD 관련 실수

증상	원인	해결
ping은 되지만 SSH/HTTP가 멈춤	PMTUD 블랙홀 — 방화벽이 ICMP "Frag Needed" 차단	`tcp_mtu_probing=1` 또는 MSS clamping 적용
터널(VPN/VXLAN)에서 큰 패킷 드롭	터널 오버헤드를 고려하지 않은 내부 MTU	내부 인터페이스 MTU를 오버헤드만큼 줄임 (예: VXLAN → 1450)
GRE 터널에서 `IpFragFails` 증가	내부 패킷 DF=1 + 외부 MTU 부족	`ip tunnel change gre1 pmtudisc` + MSS clamping
Jumbo Frame 활성화 후 통신 불능	경로상 모든 장비의 MTU가 일치하지 않음	L2 세그먼트 전체에서 동일 MTU 설정 확인

체크섬 관련 실수

증상	원인	해결
tcpdump에서 송신 패킷 체크섬 오류 표시	TX 체크섬 오프로드 — 캡처 시점에 NIC 미계산	정상 동작. 수신 측에서 확인하거나 `ethtool -K tx off`
커널 모듈에서 패킷 수정 후 체크섬 오류	`skb->csum` 직접 수정 또는 `ip_summed` 미갱신	`skb_postpull_rcsum()` 사용 또는 `ip_summed = CHECKSUM_NONE`
NAT 후 TCP 연결 실패	L4 체크섬 증분 갱신 누락	`inet_proto_csum_replace4()`로 의사 헤더 포함 갱신
VXLAN 내부 패킷 체크섬 오류	NIC가 중첩 체크섬 오프로드 미지원	`ethtool -k \| grep inner` 확인, 미지원 시 SW fallback 확인

ARP/NDP 관련 실수

증상	원인	해결
대규모 서브넷에서 간헐적 통신 실패	ARP 캐시 오버플로 (`gc_thresh3` 초과)	`neigh.default.gc_thresh3` 확대 (4096~16384)
IPv6 주소 설정 후 통신 불가	DAD(Duplicate Address Detection) 실패	`ip -6 addr show tentative`로 확인, 충돌 주소 제거
VM 마이그레이션 후 ARP 스테일	이전 호스트의 ARP 엔트리가 캐시에 남아 있음	Gratuitous ARP 전송: `arping -U -I eth0 <IP>`
`FAILED` 상태 이웃 엔트리 대량 발생	응답 없는 호스트에 반복 요청 (ARP storm)	`neigh.default.gc_stale_time` 조정, 불필요한 호스트 정리

IPv6 운영 실수

증상	원인	해결
IPv6 포워딩 활성화 후 RA 수신 중단	`forwarding=1` 시 `accept_ra`가 자동 무시됨	`net.ipv6.conf.eth0.accept_ra=2` (포워딩+RA 동시 활성)
IPv6 UDP 체크섬 0으로 패킷 드롭	IPv6에서 UDP 체크섬은 필수 (IPv4와 다름)	송신 측에서 UDP 체크섬 활성화 확인
Privacy Extension 주소가 만료 안 됨	`use_tempaddr`만 설정하고 `temp_valid_lft` 미조정	`net.ipv6.conf.*.temp_valid_lft` 확인 (기본 604800초=7일)
확장 헤더 체인이 긴 패킷 드롭	중간 방화벽이 확장 헤더를 파싱하지 못함 (RFC 7045 위반)	방화벽 규칙 검토, 불필요한 확장 헤더 제거

IP 문제 체계적 디버깅 워크플로

# ═══════════════════════════════════════════════════════
# Step 1: 연결성 확인 (L3)
# ═══════════════════════════════════════════════════════
ping -c 3 목적지                    # ICMP Echo (작은 패킷)
ping -c 3 -s 1472 -M do 목적지     # PMTU 확인 (DF=1, 1500B)
traceroute -n 목적지                # 경로 추적
tracepath -n 목적지                 # PMTU 포함 경로 추적

# ═══════════════════════════════════════════════════════
# Step 2: 라우팅 확인
# ═══════════════════════════════════════════════════════
ip route get 목적지                 # 실제 사용 경로 + PMTU 캐시
ip route show table all             # 전체 라우팅 테이블
ip rule show                        # 정책 라우팅 규칙

# ═══════════════════════════════════════════════════════
# Step 3: 이웃(ARP/NDP) 확인
# ═══════════════════════════════════════════════════════
ip neigh show dev eth0              # ARP/NDP 캐시
# 상태: REACHABLE, STALE, DELAY, PROBE, FAILED, INCOMPLETE
arping -c 3 -I eth0 게이트웨이      # L2 직접 확인

# ═══════════════════════════════════════════════════════
# Step 4: 패킷 캡처 (L3/L4)
# ═══════════════════════════════════════════════════════
tcpdump -i eth0 host 목적지 -nn -v  # IP 헤더 상세 출력
tcpdump -i eth0 'icmp or icmp6' -nn # ICMP 오류 메시지 모니터링

# ═══════════════════════════════════════════════════════
# Step 5: 커널 카운터 확인
# ═══════════════════════════════════════════════════════
nstat -az | grep -E '^(Ip|Icmp|Tcp|Udp)'
cat /proc/net/snmp                  # 프로토콜별 MIB 카운터
cat /proc/net/netstat               # 확장 카운터 (TcpExt 등)

# ═══════════════════════════════════════════════════════
# Step 6: Netfilter 영향 확인
# ═══════════════════════════════════════════════════════
iptables -L -v -n --line-numbers    # 규칙별 매칭 카운터
iptables -t nat -L -v -n            # NAT 규칙
conntrack -L -d 목적지              # conntrack 엔트리 확인

# ═══════════════════════════════════════════════════════
# Step 7: 고급 트레이싱
# ═══════════════════════════════════════════════════════
# ftrace: IP 수신 경로 추적
echo ip_rcv > /sys/kernel/debug/tracing/set_graph_function
echo function_graph > /sys/kernel/debug/tracing/current_tracer
cat /sys/kernel/debug/tracing/trace_pipe

# BPF: 패킷 드롭 상세 분석 (bcc 도구)
/usr/share/bcc/tools/tcpdrop        # TCP 드롭 원인 + 스택 트레이스

IP 레이어 최신 변화 (v6.8~v6.15)

IPv4/IPv6 처리 경로는 v6.8 이후 IPsec offload 확장, fib_rules 의미 확장, IPv6 Prefix Information Option(PIO) 옵션 확대, IP 단편화/BIG TCP 관련 개선이 두드러집니다.

IPsec crypto offload 확장 (v6.11)

v6.11에서 IPv6 ESP와 IPv4 UDP-encapsulated ESP 데이터 경로에 대한 IPsec crypto offload가 추가되었고, xfrm이 ESP-in-UDP 상태에서 NAT keepalive를 전송할 수 있게 되었습니다. NAT-T 환경(모바일·CGNAT)에서 IPsec 성능·유지성이 크게 향상됩니다.

v6.12 IP/fib 기능

fib_rules DSCP selector: 트래픽 DSCP 마킹 기반으로 라우팅 룰 분기 — MPLS·VRF 환경에 유용
IPv6 PIO P-flag: Prefix Information Option의 새 P 플래그 수용 — DHCPv6-PD 시나리오 개선
2차 VLAN push 후 네트워크 헤더 조정: 다단 VLAN 스택/QinQ 환경 일관성 확보
TCP active reset: 닫히지 않은 연결에 대한 RST 송신 기능 명시화
bonding의 xfrm state offload: 본딩(Bonding) 환경에서 IPsec HW offload 가능

BIG TCP (IPv6)와 sk_buff 확장

BIG TCP는 IPv6에서 64 KB 이상(skb->len이 16비트 한계를 초과) 패킷 처리를 허용하는 기술입니다. 초기 v6.x 사이클에 도입된 뒤, v6.8~v6.10에 걸쳐 GSO/GRO 경로와 드라이버 저변 확대가 이루어졌습니다. 드라이버는 netdev->gso_max_size/tso_max_size를 64 KB 이상으로 선언합니다.

ICMP rate-limit 스케일링 (v6.14)

v6.14에서 ICMP rate-limit 해시 테이블 경로가 개선되어, ICMP 에러 폭주(예: 포트 unreachable storm) 상황에서도 호스트 전체 처리 성능이 유지됩니다.

XDP flowtable offload (v6.11)

v6.11에서 netfilter flowtable의 fast-path를 XDP 레이어에서 오프로드할 수 있는 인프라가 추가되었습니다. conntrack 고정 플로우는 XDP에서 조기 redirect되어 L3 스택을 건너뜁니다.

Device Memory TCP — IPv4/IPv6 RX (v6.12)

v6.12에서 devmem TCP RX가 IPv4/IPv6 공통 경로에 병합되어, NIC header split 지원 환경에서 페이로드를 GPU/가속기 DMABUF로 직접 전달할 수 있게 되었습니다. TCP 수신 경로가 zero-copy의 새로운 등급에 진입했습니다.

참고 링크

Device Memory TCP: kernel.org — devmem
Phoronix Linux 6.11 네트워킹: Linux 6.11 Networking
netdev 2024 요약: netdev in 2024

IP 레이어 최신 변화 (v6.16~v6.19)

v6.16 이후 IP 레이어는 IPv6 라우팅 잠금(Lock) 해제, TCP 연결 암호화(Encryption), ICMP/UDP 확장성 개선, IPv4 전용 빌드 제거 옵션 논의가 주요 흐름입니다.

IPv6 라우팅 테이블 RTNL 분리 (v6.16)

v6.16에서 IPv6 라우팅 테이블(Routing Table) 관리가 전역 RTNL 잠금 범위에서 분리되었습니다. 이에 따라 IPv6 경로 추가/삭제 연산이 RTNL을 보유한 다른 작업과 병렬 실행될 수 있어, 컨테이너 오케스트레이터(Orchestrator)가 네트워크 네임스페이스(Network Namespace)를 동시에 생성하는 환경에서 경로 갱신 지연이 크게 줄어듭니다.

커널 6.16부터: IPv6 FIB(Forwarding Information Base) 갱신이 RTNL 외부에서 처리되어 원격 제어 경로 속도가 약 3배 향상됩니다.

TCP_RTO_MAX_MS 소켓 옵션 (v6.15)

v6.15에서 TCP_RTO_MAX_MS 소켓 옵션이 추가되었습니다. 기존 TCP_RTO_MAX가 전역 sysctl로만 조정 가능했던 것과 달리, 이 옵션은 개별 TCP 소켓마다 최대 재전송 타임아웃(Retransmit Timeout) 값을 밀리초(ms) 단위로 설정할 수 있어 지연(Latency)에 민감한 애플리케이션의 복잡한 네트워크 환경 대응이 쉬워집니다.

커널 6.15부터: TCP_RTO_MAX_MS 소켓 옵션으로 연결별 최대 RTO를 ms 단위로 제어할 수 있습니다.

Accurate ECN TCP 지원 (v6.18)

v6.18에서 정확한 명시적 혼잡 알림(Accurate ECN, Explicit Congestion Notification)이 TCP에 추가되었습니다. 기존 ECN은 RTT당 하나의 혼잡 신호만 피드백했지만, Accurate ECN은 단일 RTT 내 여러 번의 CE(Congestion Experienced) 마킹을 정확하게 카운트해 송신측에 전달합니다. 이를 통해 혼잡 제어 알고리즘(예: BBR, CUBIC)이 더 정밀하게 반응할 수 있습니다.

커널 6.18부터: RFC 7560에 기반한 Accurate ECN으로 혼잡 제어 알고리즘의 피드백 정밀도가 향상됩니다.

UDP 수신 경로 DDoS 확장성 (v6.18)

v6.18에서 UDP 수신 경로 전반이 재작성되어 DDoS 공격 상황에서의 확장성이 크게 개선되었습니다. 소켓 해시 테이블 잠금의 NUMA 지역성 개선, 연속된 DDoS 패킷이 단일 소켓에 집중될 때의 경합(Contention) 감소, 데이터 구조 캐시 라인 정렬 최적화가 포함됩니다.

6-NUMA 노드 Xeon 플랫폼에서 UDP 수신 처리량 47% 향상, 초당 1,420만 패킷 추가 처리
UDP 플러드(flood) 공격 시 호스트 전체 응답성 유지 개선

IPv6 전용 빌드 가능성 (v6.16+)

v6.16 개발 주기 중 CONFIG_IPV4를 선택적으로 비활성화해 IPv6 전용 커널을 빌드할 수 있도록 하는 패치(Patch)가 제안되었습니다. 아직 메인라인에 완전히 반영된 것은 아니지만, IPv4를 레거시(legacy)로 선언하고 임베디드·특수 환경에서 커널 크기를 줄이는 방향이 논의되고 있습니다.

참고: 현재 리눅스 커널은 IPv4와 IPv6 듀얼 스택을 기본으로 지원하며, IPv6 전용 빌드는 실험적 단계입니다. 프로덕션 환경에서는 기존 구성을 유지하세요.

참고 링크 (v6.16~v6.19)

Phoronix Linux 6.16 네트워킹: Linux 6.16 Networking
Phoronix Linux 6.18 네트워킹: Linux 6.18 Networking
Phoronix Linux 6.19 네트워킹: Linux 6.19 Networking
IPv6 커널 문서: kernel.org — IPv6
Linux 6.16 커널 뉴비스: kernelnewbies.org — Linux_6.16

IP 프로토콜과 관련된 다른 주제를 더 깊이 이해하고 싶다면 다음 문서를 참고하세요.