eBPF 기반 보안 정책

eBPF BPF LSM 보안 훅 프로그래밍, cgroup_skb 컨테이너별 방화벽(Firewall), 소켓(Socket) 레벨 필터, Cilium/Calico 구현 원리, identity 기반 정책 엔진(Policy Engine), bpf_sk_lookup 소켓 리다이렉트 종합 가이드. 커널 내부 데이터 경로, 핵심 자료구조/API, 운영 환경 튜닝 포인트와 장애 디버깅(Debugging) 절차까지 실무 관점으로 다룹니다.

전제 조건: BPF/eBPF/XDP 문서로 eBPF 프로그램 구조와 맵(map) 개념을 먼저 익히세요. 커널 보안에서 capabilities 및 권한 모델을, LSM/Seccomp에서 보안 훅 프레임워크를 이해한 뒤 이 문서를 읽으면 훨씬 효과적입니다.

일상 비유: eBPF 보안은 건물 내부의 스마트 경비 시스템과 같습니다. 정문(방화벽)만 지키는 게 아니라 각 부서(컨테이너(Container)/프로세스(Process))의 출입도 실시간(Real-time)으로 제어합니다. ID 카드(identity) 기반으로 "이 사람은 어떤 서버 방에 들어갈 수 있는가"를 BPF 맵에서 즉시 조회하고, 카드 목록(정책 맵)만 갱신하면 경비원(커널 BPF 프로그램) 재배치(Relocation) 없이 규칙이 바뀝니다.

핵심 요약

BPF LSM·Seccomp — 커널 보안 훅과 시스템 콜 필터에 eBPF를 연결해 맞춤형 정책을 구현합니다.
cgroup / 소켓 정책 — cgroup_skb·cgroup_sock·sk_lookup으로 컨테이너 단위 네트워크와 연결을 제어합니다.
identity 기반 정책 — Cilium이 IP 대신 워크로드 ID(label 해시(Hash))로 정책을 평가해 k8s 환경의 iptables를 대체합니다.
XDP 방화벽 — 드라이버 수준 XDP_DROP과 레이트 리미팅으로 DDoS를 방어하며 iptables 대비 처리량(Throughput)이 5-10배 높습니다.
관찰·포렌식 — Tetragon·Hubble·bpftrace로 kprobe/tracepoint 이벤트를 실시간 수집하고 위협을 차단합니다.

단계별 이해

BPF LSM/Seccomp 이해
보안 훅 구조, BPF_PROG_TYPE_LSM, Seccomp-BPF 반환값으로 커널 정책 표면을 설계합니다.
cgroup·소켓 프로그램
cgroup v2 계층과 BPF_F_ALLOW_MULTI/OVERRIDE, cgroup_skb/cgroup_sock/sk_lookup 역할을 비교합니다.
Cilium identity 정책
라벨 해시 → identity ID → BPF 맵 조회 → ALLOW/DENY 경로를 CiliumNetworkPolicy L3/L4/L7로 구현합니다.
XDP 방화벽과 TC BPF
native/SKB/offload 모드 차이, XDP_DROP 블랙리스트, TC BPF 조합으로 고속 방어 경로를 구성합니다.
운영과 포렌식
bpftool, Hubble, Tetragon으로 드롭·위협 이벤트를 추적하고 BPF 맵 업데이트로 정책을 무중단 갱신합니다.

개요: eBPF 보안 생태계

eBPF는 커널을 재컴파일하지 않고도 커널 내부에 안전하게 프로그램을 주입할 수 있는 기술입니다. 보안 분야에서 eBPF는 세 가지 주요 축으로 활용됩니다. 첫째, 감사/관찰(Observability) — kprobe/tracepoint로 시스템 호출(System Call), 파일 접근, 네트워크 연결을 실시간 추적합니다. 둘째, 정책 집행(Enforcement) — BPF LSM과 cgroup_skb로 접근 제어(Access Control) 결정을 커널 내부에서 수행합니다. 셋째, 네트워크 보안(Network Security) — XDP/TC BPF로 DDoS 방어, 방화벽, 서비스 메시를 구현합니다.

전통적인 iptables/nftables 방화벽은 IP:port 기반 규칙을 사용하지만, 컨테이너 환경에서는 IP가 동적으로 변경되어 관리가 어렵습니다. eBPF 기반 보안은 워크로드 identity(레이블, 서비스어카운트, 네임스페이스(Namespace))를 기준으로 정책을 적용하므로 IP 변경에 관계없이 일관된 보안 정책을 유지할 수 있습니다.

그림 1. eBPF 보안 계층 구조: 사용자 공간(User Space) 워크로드부터 커널 보안 훅까지의 데이터 흐름과 주요 도구 생태계.

BPF 프로그램 타입 비교

BPF 프로그램 타입	연결 지점(Attach Point)	주요 용도	특권 요구
`BPF_PROG_TYPE_LSM`	LSM 보안 훅 (socket_connect, file_open 등)	접근 제어 정책, 파일/소켓 보안	CAP_BPF + CAP_MAC_ADMIN
`BPF_PROG_TYPE_CGROUP_SKB`	cgroup ingress/egress	컨테이너 단위 네트워크 방화벽	CAP_NET_ADMIN
`BPF_PROG_TYPE_CGROUP_SOCK`	소켓 생성/연결/해제	소켓 레벨 접근 제어, 주소 리바인딩	CAP_NET_ADMIN
`BPF_PROG_TYPE_SK_LOOKUP`	소켓 조회 단계	투명 소켓 리다이렉트, 서비스 메시	CAP_NET_ADMIN
`BPF_PROG_TYPE_SOCKET_FILTER`	소켓 수신 필터 (SO_ATTACH_BPF)	패킷(Packet) 캡처 필터, tcpdump 원리	CAP_NET_RAW (또는 비특권)
`BPF_PROG_TYPE_XDP`	NIC 드라이버 수신 경로 (XDP)	DDoS 방어, 고성능 방화벽	CAP_NET_ADMIN
`BPF_PROG_TYPE_SCHED_CLS` (TC)	TC qdisc clsact 훅	Cilium/Calico 데이터 경로, 암호화(Encryption)	CAP_NET_ADMIN

BPF LSM (Linux Security Module)

BPF LSM은 리눅스 5.7에서 도입된 기능으로, 기존 SELinux/AppArmor와 같은 LSM 프레임워크에 eBPF 프로그램을 추가 훅으로 연결할 수 있습니다. 커널 빌드 옵션 CONFIG_BPF_LSM=y와 부팅 파라미터 lsm=bpf 또는 SECURITY_BPF_ENFORCE를 설정해야 활성화됩니다.

BPF LSM 훅 등록 원리

커널 내부에서 BPF_LSM_HOOK 매크로(Macro)로 정의된 훅 지점에 BPF 프로그램을 연결합니다. 각 훅은 기존 LSM 훅과 동일한 시점에 호출되며, 반환값 0은 허용, 음수 errno는 거부를 의미합니다.

/* BPF LSM 프로그램 예시: socket_connect 훅으로 특정 포트 차단 */

/* 차단할 목적지 포트를 저장하는 BPF 맵 */
struct {
    __uint(type, BPF_MAP_TYPE_HASH);
    __uint(max_entries, 1024);
    __type(key, __u16);      /* 포트 번호 */
    __type(value, __u8);     /* 1 = 차단 */
} blocked_ports SEC(".maps");

/* LSM 훅: 소켓 connect() 시스템 호출 직전에 호출됨 */
SEC("lsm/socket_connect")
int BPF_PROG(bpf_socket_connect_hook,
             struct socket *sock,
             struct sockaddr *address,
             int addrlen)
{
    struct sockaddr_in *addr4;
    __u16 dport;
    __u8 *blocked;

    /* IPv4 TCP/UDP 연결만 검사 */
    if (address->sa_family != AF_INET)
        return 0; /* 허용: 다른 주소 패밀리 */

    addr4 = (struct sockaddr_in *)address;
    /* 네트워크 바이트 오더를 호스트 오더로 변환 */
    dport = bpf_ntohs(addr4->sin_port);

    /* 맵에서 차단 여부 조회 */
    blocked = bpf_map_lookup_elem(&blocked_ports, &dport);
    if (blocked && *blocked == 1) {
        /* 감사 로그: bpf_printk는 tracefs에서 확인 가능 */
        bpf_printk("BPF LSM: 차단된 포트 %d 연결 시도 거부\n", dport);
        return -EPERM; /* 거부: Permission denied */
    }

    return 0; /* 허용 */
}

char _license[] SEC("license") = "GPL";

BPF LSM 프로그램 로드 및 연결

# 커널 BPF LSM 활성화 확인
cat /sys/kernel/security/lsm
# 출력 예: lockdown,capability,landlock,yama,apparmor,bpf

# bpftool로 LSM 프로그램 로드 및 attach
bpftool prog load bpf_lsm_block.o /sys/fs/bpf/lsm_block \
    type lsm

# 특정 훅에 자동 연결 (SEC 어노테이션으로 처리됨)
# BPF 스켈레톤 사용 시 bpf_program__attach()로 연결

# 차단 포트 추가 (포트 4444 차단)
PORT=4444
bpftool map update pinned /sys/fs/bpf/blocked_ports \
    key $(printf '%02x %02x' $((PORT >> 8)) $((PORT & 0xff))) \
    value 01

# 연결된 LSM 프로그램 확인
bpftool prog list | grep lsm

주요 LSM 훅 목록

훅 이름	호출 시점	주요 활용
`bpf_lsm_socket_connect`	connect() 시스템 호출	목적지 IP/포트 기반 차단
`bpf_lsm_socket_bind`	bind() 시스템 호출	리스닝 포트 제한
`bpf_lsm_socket_create`	socket() 시스템 호출	소켓 타입/프로토콜 제한
`bpf_lsm_file_open`	파일 open() 호출	민감 파일 접근 감사/차단
`bpf_lsm_bprm_check_security`	execve() 프로세스 실행	실행 파일 서명 검증(Signature Verification)
`bpf_lsm_inode_permission`	inode 권한 검사	세밀한 파일시스템(Filesystem) 접근 제어
`bpf_lsm_task_kill`	프로세스 시그널(Signal) 전송	시그널 기반 DoS 방지

lsm_run_prog() 내부 동작 구조

BPF LSM 프로그램은 security_hook_heads 구조체(Struct)의 각 훅 리스트에 등록됩니다. 커널이 보안 훅을 호출하면 BPF trampoline이 해당 훅에 등록된 모든 BPF 프로그램을 순차적으로 실행합니다.

/* 커널 내부: security/bpf/hooks.c 개념 구조 */

/* BPF LSM 훅은 기존 LSM 훅 체인 뒤에 추가됨 */
/* security_hook_heads.socket_connect 리스트에 등록 */
static struct security_hook_list bpf_lsm_hooks[] __lsm_ro_after_init = {
    LSM_HOOK_INIT(socket_connect, bpf_lsm_socket_connect),
    LSM_HOOK_INIT(socket_bind,    bpf_lsm_socket_bind),
    LSM_HOOK_INIT(file_open,      bpf_lsm_file_open),
    LSM_HOOK_INIT(bprm_check_security, bpf_lsm_bprm_check_security),
    /* ... 200개 이상의 훅 ... */
};

/* 각 BPF LSM 훅 함수는 이 패턴을 따름 */
noinline int bpf_lsm_socket_connect(struct socket *sock,
                                     struct sockaddr *address,
                                     int addrlen)
{
    /* 이 함수 자체가 BPF kprobe 연결 지점 */
    /* BPF 프로그램은 이 함수에 fentry/fexit 방식으로 연결 */
    return 0;
}

/* BTF-based trampoline로 BPF 프로그램 직접 호출 */
/* JIT 컴파일된 BPF → native code → 최소 오버헤드 */

BPF LSM 완전한 소켓 보안 예제 (링 버퍼(Ring Buffer) 감사 포함)

/* SEC("lsm/socket_connect") 완전 예제: IP+포트 복합 정책 */

struct blocked_entry {
    __u32 ip;      /* 차단할 목적지 IPv4 (네트워크 바이트 오더) */
    __u16 port;    /* 차단할 목적지 포트 (호스트 바이트 오더) */
    __u16 pad;
};

struct {
    __uint(type, BPF_MAP_TYPE_HASH);
    __uint(max_entries, 4096);
    __type(key, struct blocked_entry);
    __type(value, __u8);
} blocked_endpoints SEC(".maps");

/* 감사 링 버퍼 (사용자 공간으로 이벤트 전달) */
struct audit_event {
    __u32 pid;
    __u32 dst_ip;
    __u16 dst_port;
    char  comm[16];
};
struct {
    __uint(type, BPF_MAP_TYPE_RINGBUF);
    __uint(max_entries, 256 * 1024); /* 256KB */
} audit_rb SEC(".maps");

SEC("lsm/socket_connect")
int BPF_PROG(lsm_socket_connect,
             struct socket *sock,
             struct sockaddr *address,
             int addrlen)
{
    struct sockaddr_in *addr4;
    struct blocked_entry key = {};
    struct audit_event  *evt;
    __u8 *blocked;

    if (address->sa_family != AF_INET)
        return 0;

    addr4      = (struct sockaddr_in *)address;
    key.ip     = addr4->sin_addr.s_addr;
    key.port   = bpf_ntohs(addr4->sin_port);

    blocked = bpf_map_lookup_elem(&blocked_endpoints, &key);
    if (!blocked)
        return 0; /* 정책 없음 → 허용 */

    /* 링 버퍼에 감사 이벤트 기록 */
    evt = bpf_ringbuf_reserve(&audit_rb, sizeof(*evt), 0);
    if (evt) {
        evt->pid      = bpf_get_current_pid_tgid() >> 32;
        evt->dst_ip   = key.ip;
        evt->dst_port = key.port;
        bpf_get_current_comm(evt->comm, sizeof(evt->comm));
        bpf_ringbuf_submit(evt, 0);
    }

    return -EPERM; /* 차단: Permission denied */
}

char _license[] SEC("license") = "GPL";

BPF LSM과 SELinux/MAC 공존

BPF LSM은 SELinux, AppArmor 등 기존 LSM과 추가(stacking) 방식으로 함께 동작합니다. 기존 LSM이 먼저 평가되고, 이후 BPF LSM 훅이 실행됩니다. 어느 한쪽이라도 거부하면 최종 결정은 거부(DENY)입니다. 이를 통해 SELinux의 강제 접근 제어(MAC) 정책과 BPF LSM의 동적 정책을 함께 적용할 수 있습니다.

# LSM 스택 순서 확인
cat /sys/kernel/security/lsm
# 출력 예: lockdown,capability,landlock,yama,apparmor,bpf
#          ↑ bpf는 마지막에 위치 (추가 정책 레이어)

# MAC (강제 접근 제어) 정책 계층:
# 1. SELinux AVC 검사 (도메인:타입 정책)
# 2. AppArmor 프로파일 검사
# 3. BPF LSM 훅 검사 (동적 정책)
# → 모든 레이어 통과 시에만 허용

# BPF LSM lsm= 부팅 파라미터 추가
# /etc/default/grub:
# GRUB_CMDLINE_LINUX="... lsm=lockdown,capability,yama,apparmor,bpf"

네트워크 관련 LSM 훅 전체 목록

훅 이름 (SEC 어노테이션)	호출 시점	주요 활용
`lsm/socket_create`	socket() 시스템 호출	소켓 타입/프로토콜 제한 (RAW 소켓 금지)
`lsm/socket_bind`	bind() 시스템 호출	리스닝 포트 범위 제한
`lsm/socket_connect`	connect() 시스템 호출	목적지 IP/포트 기반 차단
`lsm/socket_listen`	listen() 시스템 호출	서버 소켓 생성 감사
`lsm/socket_accept`	accept() 시스템 호출	인바운드 연결 수락 제어
`lsm/socket_sendmsg`	send/sendto/sendmsg	데이터 전송 감사
`lsm/socket_recvmsg`	recv/recvfrom/recvmsg	데이터 수신 감사
`lsm/socket_setsockopt`	setsockopt() 호출	위험한 소켓 옵션 차단
`lsm/sk_alloc_security`	소켓 구조체 할당	소켓별 보안 컨텍스트 초기화
`lsm/inet_conn_request`	TCP SYN 수신	인바운드 TCP 연결 초기 검사
`lsm/unix_stream_connect`	Unix 도메인 소켓 connect	컨테이너 내 소켓 통신 제한
`lsm/file_open`	파일 open() 호출	민감 파일 접근 감사/차단
`lsm/bprm_check_security`	execve() 프로세스 실행	실행 파일 서명 검증
`lsm/task_kill`	프로세스 시그널 전송	시그널 기반 DoS 방지

권한 모델

BPF LSM 프로그램 로드에는 CAP_BPF와 CAP_MAC_ADMIN 권한이 모두 필요합니다. 리눅스 5.8부터 CAP_BPF가 CAP_SYS_ADMIN에서 분리되어 최소 권한 원칙(Principle of Least Privilege)을 적용할 수 있습니다.

# 컨테이너에서 BPF LSM 사용 시 필요한 최소 capabilities
# Dockerfile 또는 K8s securityContext에서 설정
securityContext:
  capabilities:
    add:
      - BPF
      - NET_ADMIN   # cgroup_skb attach에 필요
      - MAC_ADMIN   # BPF LSM attach에 필요 (선택적)

cgroup_skb: 컨테이너 네트워크 방화벽

BPF_PROG_TYPE_CGROUP_SKB는 cgroup v2 계층의 ingress/egress 지점에 BPF 프로그램을 연결해 컨테이너 단위로 네트워크 트래픽을 필터링합니다. Docker 컨테이너, K8s Pod는 각각 별도의 cgroup에 속하므로, 부모 cgroup에 BPF 프로그램을 연결하면 하위 모든 컨테이너에 자동 상속됩니다.

cgroup_skb 연결 아키텍처

/* cgroup_skb ingress 필터 예시: 특정 출발지 IP 차단 */

/* 차단할 소스 IP 집합 (IPv4 big-endian) */
struct {
    __uint(type, BPF_MAP_TYPE_HASH);
    __uint(max_entries, 4096);
    __type(key, __u32);   /* 소스 IP (네트워크 바이트 오더) */
    __type(value, __u8);  /* 1 = 차단 */
} blocked_ips SEC(".maps");

/* ingress 훅: 컨테이너로 들어오는 패킷마다 호출 */
SEC("cgroup_skb/ingress")
int filter_ingress(struct __sk_buff *skb)
{
    void *data     = (void *)(long)skb->data;
    void *data_end = (void *)(long)skb->data_end;
    struct iphdr *ip;
    __u32 src_ip;
    __u8 *blocked;

    /* IP 헤더 파싱 (경계 검사 필수) */
    ip = data;
    if ((void *)(ip + 1) > data_end)
        return 1; /* 파싱 불가: 허용 (안전 측) */

    /* IPv4만 필터링 */
    if (ip->version != 4)
        return 1;

    src_ip = ip->saddr; /* 소스 IP (네트워크 바이트 오더) */

    /* 차단 목록 조회 */
    blocked = bpf_map_lookup_elem(&blocked_ips, &src_ip);
    if (blocked && *blocked == 1)
        return 0; /* 드롭: 차단된 IP */

    return 1; /* 허용: 통과 */
}

/* egress 훅: 컨테이너에서 나가는 패킷 필터링 */
SEC("cgroup_skb/egress")
int filter_egress(struct __sk_buff *skb)
{
    /* egress도 동일한 구조로 목적지 IP 필터링 가능 */
    return 1; /* 예시: 모두 허용 */
}

char _license[] SEC("license") = "GPL";

cgroup_skb BPF 프로그램 연결 방법

# cgroup v2 마운트 확인
mount | grep cgroup2
# 출력: cgroup2 on /sys/fs/cgroup type cgroup2 (rw,nosuid,nodev,noexec,...)

# Docker 컨테이너의 cgroup 경로 찾기
CONTAINER_ID=$(docker inspect --format='{{.Id}}' my-container)
CGROUP_PATH="/sys/fs/cgroup/system.slice/docker-${CONTAINER_ID}.scope"

# 방법 1: bpftool로 직접 연결
bpftool prog load filter.o /sys/fs/bpf/cgroup_filter
bpftool cgroup attach "${CGROUP_PATH}" ingress \
    pinned /sys/fs/bpf/cgroup_filter

# 방법 2: BPF_PROG_ATTACH syscall (프로그래밍 방식)
# int cgroup_fd = open(cgroup_path, O_RDONLY);
# bpf(BPF_PROG_ATTACH, &attr, sizeof(attr));
#   attr.attach_type = BPF_CGROUP_INET_INGRESS
#   attr.target_fd   = cgroup_fd
#   attr.attach_bpf_fd = prog_fd
#   attr.attach_flags = BPF_F_ALLOW_MULTI  /* 상속 허용 */

# 연결된 프로그램 확인
bpftool cgroup tree "${CGROUP_PATH}"

# 차단 IP 추가 (192.168.100.1 차단)
bpftool map update pinned /sys/fs/bpf/blocked_ips \
    key 01 64 a8 c0 \   # 192.168.100.1 빅엔디안: c0.a8.64.01
    value 01            # 차단

# 통계 확인: 드롭된 패킷 수
bpftool cgroup show "${CGROUP_PATH}"

cgroup 계층과 BPF 상속

BPF_F_ALLOW_MULTI 플래그를 사용하면 부모와 자식 cgroup 모두에 프로그램을 연결할 수 있으며, 패킷은 루트 cgroup부터 해당 cgroup까지 계층 순서대로 모든 BPF 프로그램을 통과합니다. 하나라도 드롭(반환값 0)을 반환하면 패킷은 폐기됩니다.

# cgroup v2 계층 구조 (BPF 프로그램 상속 예시)
/sys/fs/cgroup/
├── (루트 cgroup) ← 전역 정책 BPF 프로그램 연결
│   ├── system.slice/
│   │   ├── docker-abc123.scope/ ← 컨테이너별 추가 정책
│   │   └── docker-def456.scope/
│   └── user.slice/
└── ...

BPF_F_ALLOW_OVERRIDE vs BPF_F_ALLOW_MULTI

플래그	동작	활용 시나리오
`BPF_F_ALLOW_OVERRIDE`	자식 cgroup에서 부모 프로그램 대체 가능	자식이 더 세밀한 정책으로 오버라이드 필요 시
`BPF_F_ALLOW_MULTI`	부모+자식 프로그램 모두 실행 (AND 조건)	전역 정책 + 컨테이너별 추가 정책 동시 적용
`BPF_F_REPLACE`	기존 프로그램 원자적(Atomic) 교체	무중단 정책 업데이트
(플래그 없음)	자식 cgroup에 추가 프로그램 연결 불가	중앙 집중 정책 강제 적용

cgroup_skb ingress L7 페이로드(Payload) 검사

/* bpf_skb_load_bytes()로 L7 페이로드 검사 예시 */
/* HTTP 요청 중 특정 User-Agent 차단 */

SEC("cgroup_skb/ingress")
int inspect_http_payload(struct __sk_buff *skb)
{
    /* TCP 페이로드 시작 오프셋 계산 */
    /* ETH(14) + IP(20) + TCP(최소 20) = 54바이트 */
    __u32 payload_off = 54;
    char  buf[64] = {};

    /* IP 프로토콜 확인 */
    __u8 ip_proto;
    bpf_skb_load_bytes(skb, 14 + 9, &ip_proto, 1);
    if (ip_proto != IPPROTO_TCP)
        return 1; /* TCP가 아니면 허용 */

    /* TCP 목적지 포트 확인 (오프셋: ETH+IP+2) */
    __be16 dport_be;
    bpf_skb_load_bytes(skb, 14 + 20 + 2, &dport_be, 2);
    if (bpf_ntohs(dport_be) != 80)
        return 1; /* HTTP(80)가 아니면 허용 */

    /* HTTP 페이로드 일부 로드 (64바이트) */
    if (bpf_skb_load_bytes(skb, payload_off, buf, 64) < 0)
        return 1;

    /* "BadBot/1.0" User-Agent 차단 (단순 문자열 비교) */
    /* 실제 구현은 BPF 맵에 차단 패턴 저장 권장 */
    if (buf[0] == 'G' && buf[1] == 'E' && buf[2] == 'T')
        bpf_printk("HTTP GET detected\n");

    return 1; /* 기본 허용 */
}

char _license[] SEC("license") = "GPL";

/sys/fs/cgroup 계층 구조와 BPF 프로그램 매핑(Mapping)

# K8s Pod의 cgroup 계층 확인
POD_NAME="frontend-7d9f8b6c9-xkz2p"
NAMESPACE="production"

# containerd 사용 시 cgroup 경로
CONTAINER_ID=$(kubectl get pod "${POD_NAME}" -n "${NAMESPACE}" \
    -o jsonpath='{.status.containerStatuses[0].containerID}' | sed 's/containerd:\/\///')

CGROUP_PATH="/sys/fs/cgroup/kubepods.slice/\
kubepods-burstable.slice/\
kubepods-burstable-pod${POD_UID}.slice/\
cri-containerd-${CONTAINER_ID}.scope"

# 계층별 BPF 프로그램 확인
bpftool cgroup tree /sys/fs/cgroup/
# /sys/fs/cgroup/                        (루트: 전역 정책)
#   kubepods.slice/                      (K8s 노드 정책)
#     kubepods-burstable.slice/          (QoS 클래스 정책)
#       kubepods-burstable-podXXX.slice/ (Pod 정책)
#         cri-containerd-YYY.scope/      (컨테이너 정책)

# 특정 cgroup에 BPF 프로그램 연결 (포트 기반 필터)
bpftool prog load port_filter.o /sys/fs/bpf/port_filter \
    type cgroup_skb
bpftool cgroup attach "${CGROUP_PATH}" ingress \
    pinned /sys/fs/bpf/port_filter \
    flags allow_multi

# BPF 프로그램 통계 (드롭 카운터 확인)
bpftool prog show pinned /sys/fs/bpf/port_filter --json \
    | jq '.run_cnt, .run_time_ns'

소켓 레벨 BPF 필터 (SO_ATTACH_FILTER)

소켓 필터(Socket Filter)는 eBPF의 전신인 cBPF(classic BPF)부터 지원된 기능으로, SO_ATTACH_FILTER / SO_ATTACH_BPF 소켓 옵션으로 연결합니다. tcpdump와 Wireshark가 바로 이 메커니즘을 사용해 패킷을 선택적으로 캡처합니다.

SO_ATTACH_BPF: eBPF 소켓 필터

/* eBPF 소켓 필터: UDP 포트 53(DNS)만 허용 */

SEC("socket")
int dns_only_filter(struct __sk_buff *skb)
{
    __u32 proto_off;
    __u16 dst_port;

    /* 이더넷 헤더 건너뜀 (14바이트) */
    /* IP 프로토콜 필드 확인 (오프셋 23) */
    __u8 ip_proto = load_byte(skb, 14 + 9); /* IP 헤더의 protocol 필드 */

    if (ip_proto != IPPROTO_UDP)
        return 0; /* 비UDP 패킷 드롭 (캡처 제외) */

    /* UDP 헤더: IP 헤더 이후 (가변 길이, 기본 20바이트 가정) */
    /* 목적지 포트: 오프셋 14(ETH) + 20(IP) + 2(src port) = 36 */
    dst_port = load_half(skb, 14 + 20 + 2);

    if (dst_port == 53 || dst_port == 5353) /* DNS / mDNS */
        return skb->len; /* 전체 패킷 허용 (캡처) */

    return 0; /* 기타 UDP 드롭 (캡처 제외) */
}

char _license[] SEC("license") = "GPL";

# 소켓 필터 연결 (C 코드 예시)
/*
int sock = socket(AF_PACKET, SOCK_RAW, htons(ETH_P_ALL));

// eBPF 프로그램 FD 획득
int prog_fd = bpf_prog_load(BPF_PROG_TYPE_SOCKET_FILTER, ...);

// 소켓에 BPF 필터 연결
setsockopt(sock, SOL_SOCKET, SO_ATTACH_BPF, &prog_fd, sizeof(prog_fd));
*/

# tcpdump가 내부적으로 생성하는 cBPF 필터 확인
tcpdump -d 'tcp port 443'
# (000) ldh      [12]         - EtherType 로드
# (001) jeq      #0x86dd      jt 2  jf 6   - IPv6?
# ...

# eBPF 소켓 필터 프로그램 목록
bpftool prog list | grep socket_filter

RAW 소켓과 AF_PACKET

AF_PACKET 소켓과 소켓 필터를 결합하면 특정 조건의 패킷만 사용자 공간으로 복사하는 효율적인 캡처가 가능합니다. BPF 필터가 커널에서 먼저 평가되므로 불필요한 컨텍스트 스위치를 줄입니다.

BPF_PROG_TYPE_CGROUP_SOCK

BPF_PROG_TYPE_CGROUP_SOCK은 소켓이 생성·연결·해제되는 시점에 cgroup 단위로 정책을 적용합니다. 패킷 단위 필터인 cgroup_skb와 달리, 소켓 자체의 속성(주소, 포트, 프로토콜)을 제어합니다.

CGROUP_SOCK attach 타입 목록

Attach 타입	호출 시점	주요 용도
`BPF_CGROUP_INET_SOCK_CREATE`	socket() 시스템 호출	컨테이너에서 특정 소켓 타입 금지
`BPF_CGROUP_INET4_CONNECT`	IPv4 connect()	연결 가능 목적지 제한, 주소 재작성
`BPF_CGROUP_INET6_CONNECT`	IPv6 connect()	IPv6 연결 제어
`BPF_CGROUP_INET4_BIND`	IPv4 bind()	리스닝 포트 범위 제한
`BPF_CGROUP_SOCK_OPS`	TCP 연결 상태 변화	TCP 옵션 조작, 혼잡 제어(Congestion Control) 변경
`BPF_CGROUP_INET_SOCK_RELEASE`	소켓 해제	연결 감사 로그

CGROUP_SOCK 예시: 특정 포트 바인딩 금지

/* cgroup_sock: 1024 미만 포트 바인딩 금지 (컨테이너 내 권한 제한) */

SEC("cgroup/bind4")
int restrict_bind(struct bpf_sock_addr *ctx)
{
    /* ctx->user_port: 사용자가 요청한 포트 (호스트 바이트 오더) */
    __u16 port = bpf_ntohs(ctx->user_port);

    /* 1024 미만 포트는 컨테이너 내에서 금지 */
    if (port > 0 && port < 1024) {
        bpf_printk("cgroup_sock: 권한 있는 포트 %d 바인딩 거부\n", port);
        return 0; /* 거부 */
    }

    return 1; /* 허용 */
}

char _license[] SEC("license") = "GPL";

/* cgroup_sock: IPv4 connect 주소 투명 재작성 (NAT 대체) */

SEC("cgroup/connect4")
int redirect_connect(struct bpf_sock_addr *ctx)
{
    /* 목적지 10.96.0.10:80 (K8s kube-dns 서비스 ClusterIP)를
       실제 백엔드 10.0.1.5:8080으로 재작성 */
    if (ctx->user_ip4 == bpf_htonl(0x0a60000a) &&  /* 10.96.0.10 */
        ctx->user_port == bpf_htons(80)) {
        ctx->user_ip4  = bpf_htonl(0x0a000105); /* 10.0.1.5 */
        ctx->user_port = bpf_htons(8080);
    }
    return 1; /* 수정된 주소로 연결 허용 */
}

char _license[] SEC("license") = "GPL";

Cilium & Calico 커널 구현 원리

Cilium과 Calico eBPF 모드는 Kubernetes 네트워크 정책을 iptables 없이 순수 eBPF로 구현합니다. 두 프로젝트 모두 TC(Traffic Control) BPF를 데이터 경로로 사용하지만, 정책 모델과 identity 방식에서 차이가 있습니다.

Cilium 아키텍처

Cilium은 각 Pod의 veth 인터페이스에 TC BPF 프로그램을 연결합니다. Pod의 네트워크 네임스페이스 쪽(tc ingress)과 호스트 쪽(tc egress) 양방향에 BPF 프로그램이 연결되어 모든 패킷을 검사합니다.

# Cilium이 사용하는 TC BPF 연결 확인
# 각 Pod의 veth 인터페이스에 Cilium BPF 프로그램이 연결됨
ip link show lxc-abcd1234  # Pod의 veth 호스트 측

tc filter show dev lxc-abcd1234 ingress
# filter protocol all pref 1 bpf chain 0
#   bpf handle 0x1 cilium_from_container/to_container.o:[from-container] ...

tc filter show dev lxc-abcd1234 egress
# filter protocol all pref 1 bpf chain 0
#   bpf handle 0x1 cilium_to_container/from-network.o:[to-container] ...

Cilium 데이터 경로 BPF 맵

# Cilium이 사용하는 주요 BPF 맵 목록
bpftool map list | grep cilium

# 주요 맵 타입:
# cilium_ipcache      - IP → identity 매핑 (LPM_TRIE)
# cilium_policy_*     - identity 쌍 → 정책 (HASH)
# cilium_ct4_global   - 연결 추적 테이블 (HASH)
# cilium_lb4_services - L4 로드밸런서 서비스 테이블
# cilium_lb4_backends - 로드밸런서 백엔드 목록

# ipcache에서 특정 IP의 identity 조회
bpftool map dump pinned /sys/fs/bpf/cilium/maps/cilium_ipcache \
  | grep "10.0.1.5"

Calico eBPF 모드

Calico eBPF 모드는 XDP를 ingress 고속 경로로, TC BPF를 egress 및 세밀한 정책 집행에 사용합니다. DSR(Direct Server Return) 로드밸런싱을 지원해 kube-proxy 없이 서비스 트래픽을 처리합니다.

# Calico eBPF 모드 활성화 확인
kubectl get felixconfiguration default -o yaml | grep bpfEnabled
# bpfEnabled: true

# Calico가 연결한 XDP 프로그램 확인
ip link show eth0
# XDP 섹션에 Calico 프로그램이 보임

bpftool net show dev eth0
# xdp:
#     calico_xdp  id 42  name calico_policy_program

Cilium의 cilium_lxc BPF 맵 구조

Cilium은 각 Pod의 veth 엔드포인트(lxc)를 cilium_lxc 맵에 등록해 TC BPF 프로그램이 올바른 엔드포인트로 패킷을 라우팅(Routing)할 수 있도록 합니다.

/* cilium_lxc 맵 구조 (개념) */
struct endpoint_key {
    union {
        struct {
            __be32 ip4;   /* Pod IPv4 */
        };
        struct {
            __be32 ip6[4]; /* Pod IPv6 */
        };
    };
    __u8  family;    /* AF_INET / AF_INET6 */
    __u8  pad[7];
};

struct endpoint_info {
    __u16 id;          /* Cilium Endpoint ID */
    __u16 sec_label;   /* security identity (정책 ID) */
    __u16 lxc_id;      /* 인터페이스 lxc index */
    __u8  mac[6];      /* Pod veth MAC */
    __u8  node_mac[6]; /* 노드 호스트 MAC */
    __u8  pad[4];
};

/* 실제 조회 예시 */
/* TC BPF 프로그램 내에서: */
/* struct endpoint_info *ep = lookup_ip4_endpoint(skb, ip4->daddr); */
/* if (ep) { */
/*     forward_to_endpoint(skb, ep); */
/* } */

# cilium_lxc 맵 내용 확인
cilium map get cilium_lxc | head -20
# IP                       ID    IDENTITY  INTERFACE
# 10.0.1.5/32              1234  5678      lxcabc123
# 10.0.1.6/32              1235  5678      lxcdef456

# Endpoint 상세 정보
cilium endpoint list
# ENDPOINT   POLICY (ingress)   POLICY (egress)   IDENTITY   LABELS
# 1234       Enabled            Enabled            5678       app=frontend

TC BPF → Socket BPF → cgroup BPF 협력 관계

Cilium의 데이터 경로에서 여러 BPF 프로그램 타입이 협력하여 완전한 보안 체계를 구성합니다. 각 레이어는 서로 다른 정보를 접근할 수 있으며 상호 보완적입니다.

BPF 레이어	접근 가능한 정보	주요 역할	Cilium 활용
TC BPF (veth 인터페이스)	L2/L3/L4 헤더, skb 메타데이터	패킷 포워딩, identity 검사	from-container, to-container
Socket BPF (sk_lookup)	소켓 정보, 4-tuple	투명 소켓 리다이렉트	서비스 ClusterIP 처리
cgroup BPF (cgroup_skb)	컨테이너 단위 트래픽	Pod 수준 정책 집행	Egress 정책 보조
BPF LSM	프로세스/소켓 메타데이터	시스템 호출 수준 제어	Tetragon 연동

Calico eBPF vs iptables 모드 전환

# Calico eBPF 모드 활성화 (iptables → eBPF 마이그레이션)
# 1. kube-proxy 비활성화 (eBPF 모드에서 불필요)
kubectl patch ds -n kube-system kube-proxy \
    -p '{"spec":{"template":{"spec":{"nodeSelector":{"non-calico":"true"}}}}}'

# 2. Felix 설정에서 eBPF 활성화
kubectl patch felixconfiguration default \
    --type merge \
    --patch '{"spec":{"bpfEnabled":true}}'

# 3. eBPF 모드 전환 확인 (노드별)
kubectl exec -n calico-system ds/calico-node -- calico-node -bird-live
# eBPF 데이터 경로 활성화 확인:
# bpftool net show dev eth0 | grep calico

# iptables 모드로 롤백
kubectl patch felixconfiguration default \
    --type merge \
    --patch '{"spec":{"bpfEnabled":false}}'

그림 2. Cilium identity 기반 정책 흐름: Pod 레이블에서 32-bit identity를 생성하고 BPF 맵 조회로 실시간 ALLOW/DENY 결정.

identity 기반 정책 엔진

전통적인 IP 기반 방화벽은 컨테이너 IP가 재시작(Reboot)마다 바뀌는 환경에서 관리가 어렵습니다. identity 기반 정책은 워크로드의 레이블(label)이나 서비스 어카운트를 기반으로 정책을 정의하므로 IP 변경에 관계없이 동작합니다.

Cilium Identity 생성 알고리즘

/* Cilium identity 생성 (의사코드) */

/* 1. Pod 레이블 수집 */
labels = {
    "k8s:io.kubernetes.pod.namespace": "production",
    "k8s:app": "frontend",
    "k8s:version": "v1.2.3",
    "reserved:init": ""   /* 초기화 중 특수 레이블 */
}

/* 2. 정렬 후 SHA256 해시 계산 */
sorted_labels = sort(labels)
hash = SHA256(sorted_labels.join(";"))

/* 3. 전역 identity 할당 (32-bit 정수) */
/* Cilium 내부 etcd/KVStore에서 전역 유일성 보장 */
identity_id = allocate_identity(hash)  /* 예: 1234 */

/* 4. BPF 맵 업데이트 (ipcache) */
/* Pod IP → identity 매핑 */
bpf_map_update(cilium_ipcache, pod_ip, identity_id, BPF_ANY)

/* 5. 정책 맵 업데이트 */
/* {src_id, dst_id, proto, port} → ALLOW/DENY */
policy_key = {src: 1234, dst: 5678, proto: TCP, port: 8080}
bpf_map_update(cilium_policy, policy_key, ALLOW, BPF_ANY)

BPF 정책 맵 구조

/* Cilium policy 맵 키/값 구조 (커널 소스 참조) */

/* 정책 맵 키: 트래픽 식별자 */
struct policy_key {
    __u32 remote_id;   /* 원격 identity ID */
    __u16 dport;       /* 목적지 포트 */
    __u8  protocol;    /* IPPROTO_TCP/UDP/... */
    __u8  egress;      /* 0=ingress, 1=egress */
};

/* 정책 맵 값: 정책 결정 */
struct policy_entry {
    __be16 proxy_port;  /* 프록시로 리다이렉트 시 포트 (0이면 직접) */
    __u8   deny;        /* 1=차단, 0=허용 */
    __u8   auth_type;   /* 인증 유형 (mTLS 등) */
    __u64  packets;     /* 적중 횟수 통계 */
    __u64  bytes;       /* 바이트 통계 */
};

/* 실제 BPF 프로그램에서의 정책 조회 (의사코드) */
SEC("classifier/from-container")
int cilium_from_container(struct __sk_buff *skb)
{
    struct policy_key key = {};
    struct policy_entry *entry;

    /* 1. 패킷에서 목적지 IP 추출 */
    /* 2. ipcache 맵에서 목적지 identity 조회 */
    key.remote_id = lookup_identity(dst_ip);
    key.dport     = dst_port;
    key.protocol  = ip_proto;
    key.egress    = 1;

    /* 3. policy 맵 조회 */
    entry = bpf_map_lookup_elem(&cilium_policy_egress, &key);
    if (!entry || entry->deny)
        return TC_ACT_SHOT; /* 차단 */

    /* 4. 통계 업데이트 */
    entry->packets++;
    entry->bytes += skb->len;

    return TC_ACT_OK; /* 허용 */
}

IP 기반 vs Identity 기반 정책 비교

항목	IP 기반 (iptables)	Identity 기반 (eBPF)
정책 식별자	IP 주소 / CIDR	레이블 / 서비스 어카운트
Pod 재시작 시	IP 변경 → 규칙 갱신 필요	identity 유지 → 자동 적용
규칙 업데이트	iptables 재작성 (잠금 경합(Contention))	BPF 맵 업데이트 (원자적)
확장성	규칙 수에 선형 비례 O(n)	해시 맵 O(1) 조회
가시성	제한적 (LOG target)	Hubble로 L3-L7 전체 가시성
L7 정책	별도 프록시 필요	BPF 기반 L7 파서 내장
성능	netfilter 훅 체인 순회	TC BPF 단일 패스

bpf_sk_lookup 소켓 리다이렉트

BPF_PROG_TYPE_SK_LOOKUP은 리눅스 5.9에서 도입된 BPF 프로그램 타입으로, 커널이 수신 패킷에 맞는 소켓을 찾는 단계에 개입합니다. 이를 활용하면 투명 프록시(Transparent Proxy)나 서비스 메시 사이드카 없는 리다이렉트를 구현할 수 있습니다.

bpf_sk_lookup 동작 원리

일반적으로 TCP SYN 패킷이 도착하면 커널은 {dst IP, dst port, src IP, src port, protocol}로 리스닝 소켓을 찾습니다(4-tuple 매칭). bpf_sk_lookup 프로그램은 이 조회 단계를 가로채어 bpf_sk_assign()으로 다른 소켓을 지정할 수 있습니다.

/* bpf_sk_lookup: 특정 포트 트래픽을 투명 프록시 소켓으로 리다이렉트 */

/* 프록시 소켓 FD를 저장하는 맵 (SOCKMAP) */
struct {
    __uint(type, BPF_MAP_TYPE_SOCKMAP);
    __uint(max_entries, 1);
    __type(key, __u32);
    __type(value, __u64);  /* 소켓 참조 */
} proxy_sock_map SEC(".maps");

SEC("sk_lookup")
int transparent_proxy_redirect(struct bpf_sk_lookup *ctx)
{
    struct bpf_sock *sk;
    int ret;

    /* 목적지 포트 80/443만 처리 (HTTP/HTTPS) */
    if (ctx->local_port != 80 && ctx->local_port != 443)
        return SK_PASS; /* 기본 소켓 조회 계속 */

    /* TCP만 처리 */
    if (ctx->protocol != IPPROTO_TCP)
        return SK_PASS;

    /* 프록시 소켓 조회 */
    __u32 key = 0;
    sk = bpf_map_lookup_elem(&proxy_sock_map, &key);
    if (!sk)
        return SK_DROP; /* 프록시 없음: 드롭 */

    /* 패킷을 프록시 소켓으로 리다이렉트 */
    ret = bpf_sk_assign(ctx, sk, 0);
    bpf_sk_release(sk); /* 참조 카운트 해제 (필수) */

    if (ret < 0)
        return SK_DROP;

    return SK_PASS; /* 지정된 소켓으로 전달 */
}

char _license[] SEC("license") = "GPL";

# sk_lookup 프로그램 연결 (네트워크 네임스페이스 단위)
# 소켓 리다이렉트는 특정 netns에 연결됨

NETNS_FD=$(ip netns exec my-namespace ls -la /proc/self/fd/1 | ...)

# bpftool로 sk_lookup 프로그램 netns에 연결
bpftool prog load sk_lookup.o /sys/fs/bpf/sk_lookup
bpftool net attach sk_lookup pinned /sys/fs/bpf/sk_lookup \
    netns /var/run/netns/my-namespace

# 연결 확인
bpftool net show
# sk_lookup:
#   sk_lookup  id 42  name transparent_proxy_redirect  netns /var/run/netns/my-namespace

# 프록시 소켓 등록 (사용자 공간에서 소켓 생성 후 맵에 등록)
# int proxy_sock = socket(AF_INET, SOCK_STREAM, 0);
# bind(proxy_sock, &proxy_addr, sizeof(proxy_addr));
# listen(proxy_sock, 128);
# bpf_map_update_elem(proxy_sock_map_fd, &key, &proxy_sock, BPF_ANY);

서비스 메시 투명 리다이렉트 활용 사례

Cilium의 소켓 기반 로드밸런싱에서 bpf_sk_lookup을 활용합니다. Kubernetes 서비스의 ClusterIP:Port로 향하는 연결을 실제 백엔드 Pod 소켓으로 직접 연결해 iptables DNAT 없이 서비스 라우팅을 구현합니다. 이 방식은 loopback을 통하지 않아 지연(Latency) 시간이 감소합니다.

Seccomp + BPF 시스템 콜(System Call) 필터링

Seccomp(Secure Computing Mode)는 프로세스가 사용할 수 있는 시스템 호출을 커널 수준에서 제한하는 보안 메커니즘입니다. BPF 필터와 결합한 Seccomp-BPF는 단순 화이트리스트/블랙리스트를 넘어 시스템 호출 인자까지 검사하는 세밀한 정책 구현을 가능하게 합니다. 컨테이너 런타임(Docker, Kubernetes, OCI)이 기본적으로 사용하는 핵심 보안 메커니즘입니다.

Seccomp 모드 비교

모드	허용 syscall	설정 방법	활용 사례
`SECCOMP_MODE_STRICT`	read, write, exit, sigreturn만 허용	`prctl(PR_SET_SECCOMP, SECCOMP_MODE_STRICT)`	샌드박스(Sandbox) 내 최소 동작 보장
`SECCOMP_MODE_FILTER`	BPF 프로그램이 정책 결정	`prctl(PR_SET_SECCOMP, SECCOMP_MODE_FILTER, &prog)`	컨테이너, 브라우저 샌드박스
비활성화(기본)	모든 syscall 허용	별도 설정 없음	일반 프로세스

BPF 필터 프로그램 구조

/* Seccomp-BPF 필터: write()만 stdout(fd=1)에 허용 */
/* struct sock_filter로 cBPF 명령어 배열 구성 */

#include <linux/seccomp.h>
#include <linux/filter.h>
#include <sys/prctl.h>
#include <sys/syscall.h>

/* BPF 필터 프로그램 (cBPF 명령어 배열) */
static struct sock_filter seccomp_filter[] = {
    /* 아키텍처 검사: x86-64만 허용 */
    BPF_STMT(BPF_LD|BPF_W|BPF_ABS,
             offsetof(struct seccomp_data, arch)),
    BPF_JUMP(BPF_JMP|BPF_JEQ|BPF_K, AUDIT_ARCH_X86_64, 1, 0),
    BPF_STMT(BPF_RET|BPF_K, SECCOMP_RET_KILL_PROCESS),

    /* syscall 번호 로드 */
    BPF_STMT(BPF_LD|BPF_W|BPF_ABS,
             offsetof(struct seccomp_data, nr)),

    /* read() 허용 */
    BPF_JUMP(BPF_JMP|BPF_JEQ|BPF_K, __NR_read,  5, 0),
    /* write() - fd 인자 추가 검사 */
    BPF_JUMP(BPF_JMP|BPF_JEQ|BPF_K, __NR_write, 1, 0),
    /* exit_group() 허용 */
    BPF_JUMP(BPF_JMP|BPF_JEQ|BPF_K, __NR_exit_group, 3, 0),
    /* 나머지 syscall: ERRNO 반환 (EPERM) */
    BPF_STMT(BPF_RET|BPF_K, SECCOMP_RET_ERRNO | EPERM),

    /* write(): fd 인자(args[0]) 검사 */
    BPF_STMT(BPF_LD|BPF_W|BPF_ABS,
             offsetof(struct seccomp_data, args[0])),
    BPF_JUMP(BPF_JMP|BPF_JEQ|BPF_K, 1, 0, 1), /* fd == 1(stdout)? */
    BPF_STMT(BPF_RET|BPF_K, SECCOMP_RET_ALLOW),
    BPF_STMT(BPF_RET|BPF_K, SECCOMP_RET_ERRNO | EBADF),

    /* 허용 */
    BPF_STMT(BPF_RET|BPF_K, SECCOMP_RET_ALLOW),
};

static struct sock_fprog seccomp_prog = {
    .len    = sizeof(seccomp_filter) / sizeof(struct sock_filter),
    .filter = seccomp_filter,
};

/* 적용 */
int apply_seccomp_filter(void)
{
    /* no_new_privs: setuid/setgid 비활성화 (필수 선행 조건) */
    if (prctl(PR_SET_NO_NEW_PRIVS, 1, 0, 0, 0) != 0)
        return -1;

    /* Seccomp 필터 설치 */
    if (prctl(PR_SET_SECCOMP, SECCOMP_MODE_FILTER,
              &seccomp_prog) != 0)
        return -1;

    return 0;
}

SECCOMP_RET 반환값 종류

반환값	동작	활용 시나리오
`SECCOMP_RET_ALLOW`	syscall 허용	화이트리스트 정책의 기본 허용
`SECCOMP_RET_ERRNO`	errno 반환 후 계속 실행	부드러운 거부 (애플리케이션 오류 처리)
`SECCOMP_RET_KILL_THREAD`	해당 스레드(Thread)만 SIGSYS로 종료	위반 스레드 즉시 종료
`SECCOMP_RET_KILL_PROCESS`	전체 프로세스 즉시 종료	심각한 보안 위반 대응
`SECCOMP_RET_TRAP`	SIGSYS 시그널 발송 (처리 가능)	사용자 공간 시그널 핸들러(Handler)로 처리
`SECCOMP_RET_TRACE`	ptrace 트레이서에 통지	동적 분석, 디버깅
`SECCOMP_RET_USER_NOTIF`	사용자 공간 노티파이어에 전달	컨테이너 런타임 정책 에이전트 활용
`SECCOMP_RET_LOG`	허용하되 audit 로그 기록	정책 개발 단계 감사

libseccomp로 정책 생성

/* libseccomp를 사용한 더 편리한 Seccomp 정책 구성 */
#include <seccomp.h>

int setup_seccomp_whitelist(void)
{
    scmp_filter_ctx ctx;
    int rc;

    /* 기본 동작: 모든 syscall 차단 (ERRNO EPERM) */
    ctx = seccomp_init(SCMP_ACT_ERRNO(EPERM));
    if (!ctx)
        return -1;

    /* 허용 syscall 목록 */
    /* 파일 I/O */
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(read),  0);
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(write), 0);
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(open),  0);
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(close), 0);
    /* 메모리 관리 */
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(mmap),  0);
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(munmap),0);
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(brk),   0);
    /* 프로세스 제어 */
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(exit_group), 0);
    /* 네트워크: connect는 stdout(fd=1)에만 허용하는 등 인자 필터링 가능 */

    /* 위험한 syscall 명시적 차단 (KILL) */
    seccomp_rule_add(ctx, SCMP_ACT_KILL_PROCESS, SCMP_SYS(ptrace), 0);
    seccomp_rule_add(ctx, SCMP_ACT_KILL_PROCESS, SCMP_SYS(process_vm_writev), 0);

    /* 정책 적용 */
    rc = seccomp_load(ctx);
    seccomp_release(ctx);
    return rc;
}

Docker/K8s 기본 Seccomp 프로파일

# Docker 기본 seccomp 프로파일 위치
# /etc/docker/seccomp.json (또는 moby 소스: profiles/seccomp/default.json)

# Docker 컨테이너에 커스텀 seccomp 프로파일 적용
docker run --security-opt seccomp=/path/to/custom-profile.json myimage

# K8s Pod에 seccomp 프로파일 적용 (1.19+)
# spec.securityContext.seccompProfile:
#   type: RuntimeDefault      # 런타임 기본 프로파일
#   type: Localhost           # 노드 로컬 파일
#   localProfile: "profiles/myapp.json"
#   type: Unconfined          # seccomp 비활성화

# 프로파일 JSON 구조 예시
cat <<'EOF' > /etc/seccomp/myapp-profile.json
{
  "defaultAction": "SCMP_ACT_ERRNO",
  "architectures": ["SCMP_ARCH_X86_64"],
  "syscalls": [
    {
      "names": ["read","write","open","close","mmap","exit_group"],
      "action": "SCMP_ACT_ALLOW"
    },
    {
      "names": ["ptrace","process_vm_writev"],
      "action": "SCMP_ACT_KILL_PROCESS"
    }
  ]
}
EOF

# 적용된 seccomp 확인
cat /proc/$(pgrep myapp)/status | grep Seccomp
# Seccomp: 2       ← 2=SECCOMP_MODE_FILTER
# SeccompFilters: 1  ← 설치된 필터 수

SECCOMP_RET_USER_NOTIF: 컨테이너 런타임 활용

/* seccomp notify: 사용자 공간에서 syscall 정책 결정 */
/* 컨테이너 런타임이 특권 작업을 안전하게 에뮬레이션할 때 사용 */

/* 1. 알림 FD 획득 (SECCOMP_FILTER_FLAG_NEW_LISTENER 플래그) */
int notif_fd = syscall(SYS_seccomp,
                       SECCOMP_SET_MODE_FILTER,
                       SECCOMP_FILTER_FLAG_NEW_LISTENER,
                       &seccomp_prog);

/* 2. 이벤트 수신 루프 (런타임 에이전트) */
struct seccomp_notif     *req  = malloc(notif_sizes.seccomp_notif);
struct seccomp_notif_resp *resp = malloc(notif_sizes.seccomp_notif_resp);

while (1) {
    /* 차단된 syscall 대기 */
    ioctl(notif_fd, SECCOMP_IOCTL_NOTIF_RECV, req);

    /* 정책 결정: mount() 를 컨테이너 내에서 안전하게 처리 */
    if (req->data.nr == __NR_mount) {
        /* 마운트 요청을 검증하고 에뮬레이션 */
        handle_mount_request(req);
        resp->id    = req->id;
        resp->error = 0;    /* 성공으로 응답 */
        resp->val   = 0;
    } else {
        resp->id    = req->id;
        resp->error = -EPERM;
        resp->val   = 0;
    }
    ioctl(notif_fd, SECCOMP_IOCTL_NOTIF_SEND, resp);
}

/* 활용 사례: sysbox, gVisor, Kata Containers */
/* 비특권 컨테이너에서 mount, setuid 등 특권 작업 안전 에뮬레이션 */

Seccomp-BPF 성능 영향

설정	syscall 오버헤드(Overhead) (getpid 기준)	비고
Seccomp 없음	~100 ns	기준값
SECCOMP_MODE_FILTER (간단 규칙 5개)	~110 ns (+10%)	JIT 최적화 시 ~102 ns
SECCOMP_MODE_FILTER (복잡 규칙 50개)	~130 ns (+30%)	libseccomp 생성 프로파일
Docker 기본 프로파일 (~300 규칙)	~120 ns (+20%)	BPF JIT 캐시(Cache) 효과
SECCOMP_RET_USER_NOTIF	~수 μs (컨텍스트 스위치)	런타임 에뮬레이션 비용

# Seccomp 성능 측정 (perf stat)
perf stat -e syscalls:sys_enter_getpid \
    -- bash -c 'for i in $(seq 100000); do true; done'

# BPF JIT 활성화 확인 (JIT 없으면 성능 저하)
cat /proc/sys/net/core/bpf_jit_enable
# 1 이면 JIT 활성화

# Seccomp 통계 확인 (커널 6.1+)
cat /proc/$(pgrep myapp)/seccomp_notif

seccomp-bpf의 커널 내부 구현, 필터 체인 메커니즘, SECCOMP_RET_USER_NOTIF 감독자 패턴, LSM 프레임워크의 훅 디스패치(Dispatch) 구조에 대한 상세 내용은 LSM 프레임워크 문서를 참고하세요.

eBPF 기반 감사 및 포렌식

eBPF 기반 감사 도구는 커널 이벤트를 실시간으로 수집해 보안 위협을 탐지하고 포렌식 증거를 수집합니다. 전통적인 auditd와 달리 커널 내부에서 필터링하여 오버헤드를 최소화하면서 더 풍부한 컨텍스트 정보를 제공합니다.

Tetragon 아키텍처

Tetragon은 Isovalent(Cilium 개발사)가 만든 eBPF 기반 보안 감사 및 런타임 정책 집행 도구입니다. kprobe/tracepoint 기반 BPF 프로그램으로 커널 이벤트를 수집하고, bpf_send_signal()을 활용해 위협 프로세스를 실시간으로 종료할 수 있습니다.

그림 4. Tetragon 보안 감사 아키텍처: kprobe/tracepoint BPF 이벤트를 Ring Buffer로 스트리밍하고 정책 위반 시 SIGKILL로 즉시 차단.

TracingPolicy: 프로세스/파일/네트워크 이벤트

# Tetragon TracingPolicy 예시: /etc/passwd 읽기 감지 + 차단
apiVersion: cilium.io/v1alpha1
kind: TracingPolicy
metadata:
  name: "file-monitoring-passwd"
spec:
  kprobes:
  - call: "security_file_open"
    syscall: false
    args:
    - index: 0
      type: "file"   # struct file * 타입 인식
    selectors:
    - matchArgs:
      - index: 0
        operator: "Postfix"
        values:
        - "/etc/passwd"   # 파일 경로 접미사 매칭
      matchActions:
      - action: Sigkill   # 차단: SIGKILL 전송
      # action: Post      # 감사만: 이벤트 발행

---
# 네트워크 연결 감사: 특정 외부 IP 연결 탐지
apiVersion: cilium.io/v1alpha1
kind: TracingPolicy
metadata:
  name: "network-egress-suspicious"
spec:
  kprobes:
  - call: "tcp_connect"
    syscall: false
    args:
    - index: 0
      type: "sock"
    selectors:
    - matchArgs:
      - index: 0
        operator: "DAddr"       # 목적지 주소 필터
        values:
        - "192.168.0.0/16"
      matchActions:
      - action: Post            # 이벤트 발행 (차단하지 않음)

Falco eBPF probe 아키텍처

# Falco 설치 및 eBPF 드라이버 모드 설정
# 기본: 커널 모듈 / eBPF 모드: BPF probe

# eBPF 모드 활성화 (Helm 설치)
helm install falco falcosecurity/falco \
  --set driver.kind=ebpf \
  --namespace falco-system

# Falco 규칙 예시 (YAML)
# /etc/falco/falco_rules.yaml

# 컨테이너 탈출 탐지 규칙
- rule: Container Escape Detected
  desc: Detects potential container escape via nsenter or chroot
  condition: >
    spawned_process and
    container and
    (proc.name in (nsenter, chroot, unshare) or
     (proc.name = "bash" and proc.args contains "--init"))
  output: >
    Possible container escape: %proc.name %proc.args
    (container=%container.name pid=%proc.pid user=%user.name)
  priority: CRITICAL
  tags: [container, escape]

# Falco vs eBPF probe 비교
# syscall 모드: perf ring buffer 기반, 모든 syscall 캡처
# eBPF probe: BPF 프로그램으로 필요한 이벤트만 필터링
# eBPF 장점: 더 낮은 오버헤드, 모던 커널에서 권장

bpf() syscall 감사 로그

# CONFIG_AUDIT + eBPF: BPF 프로그램 로드/언로드 자체를 감사
# /etc/audit/rules.d/bpf.rules:
-a always,exit -F arch=b64 -S bpf -k bpf_activity

# BPF 프로그램 로드 감사 로그 확인
ausearch -k bpf_activity | aureport --file
# 또는:
journalctl -k | grep "BPF prog"

# bpf() syscall audit 이벤트 내용:
# type=SYSCALL msg=audit(1708300000.123:456): arch=c000003e
#   syscall=321 (bpf) success=yes exit=5
#   a0=5 (BPF_PROG_LOAD) a1=... a2=...
#   pid=1234 uid=0 comm="bpftool"

# BPF 프로그램 로드 시 btf_id, prog_type, attach_type 포함
# 미인가 BPF 로드 시도 감사 경보 설정
# SIEM 연동: Elasticsearch, Splunk로 전송

포렌식 시나리오: 컨테이너 탈출 및 권한 상승 탐지

# 시나리오 1: 컨테이너 탈출 탐지 (bpftrace)
# execve() + nsenter/chroot 조합 감지
bpftrace -e '
tracepoint:syscalls:sys_enter_execve
/str(args->filename) == "/usr/bin/nsenter"
 || str(args->filename) == "/usr/sbin/chroot"/
{
    printf("[경고] 컨테이너 탈출 시도: PID=%d COMM=%s\n",
           pid, comm);
    /* cgroup 경로로 컨테이너 식별 */
    printf("  cgroup: %s\n", cgroup);
}
'

# 시나리오 2: setuid/setgid 권한 상승 탐지 (bpftrace)
bpftrace -e '
kprobe:commit_creds
{
    $new_cred = (struct cred *)arg0;
    /* euid가 0으로 변경되는 경우 탐지 */
    if ($new_cred->euid.val == 0 && curtask->cred->euid.val != 0) {
        printf("[경고] 권한 상승 탐지: PID=%d COMM=%s euid=0으로 변경\n",
               pid, comm);
        printf("  실행 파일: %s\n", curtask->mm->exe_file->f_path.dentry->d_name.name);
    }
}
'

# 시나리오 3: Tetragon CLI로 실시간 이벤트 모니터링
kubectl exec -n kube-system ds/tetragon -- tetra getevents \
    --namespace production \
    --pod frontend \
    --event-types PROCESS_EXEC,PROCESS_EXIT,PROCESS_KPROBE | \
    jq '.process_exec | {pid: .process.pid, binary: .process.binary, args: .process.arguments}'

XDP 기반 방화벽 패턴

XDP(eXpress Data Path)는 NIC 드라이버 레벨에서 패킷을 처리하는 리눅스의 고성능 패킷 처리 프레임워크입니다. iptables/nftables가 넷필터 훅 체인을 통과한 후 패킷을 처리하는 것과 달리, XDP는 드라이버 수신 직후에 동작하여 최소한의 CPU 사이클로 패킷을 폐기하거나 처리합니다. DDoS 방어와 고성능 방화벽 구현에 매우 효과적입니다.

그림 3. XDP/TC BPF 방화벽 계층 구조: 드라이버 레벨 XDP에서 시작해 TC BPF, cgroup_skb, BPF LSM까지 다단계 보안 레이어.

XDP_DROP 기반 IP 블랙리스트 방화벽

/* XDP 방화벽: LRU 해시 맵 기반 IPv4/IPv6 블랙리스트 */

/* 블랙리스트 맵: IP 주소 → 차단 여부 */
/* LRU: 가장 오래된 항목 자동 제거 (메모리 효율) */
struct {
    __uint(type, BPF_MAP_TYPE_LRU_HASH);
    __uint(max_entries, 100000); /* 최대 10만 개 IP */
    __type(key, __u32);   /* IPv4 (네트워크 바이트 오더) */
    __type(value, __u64); /* 차단 시작 타임스탬프 (ns) */
} ipv4_blocklist SEC(".maps");

/* Rate limit 맵: 소스 IP당 패킷 카운터 */
struct rate_entry {
    __u64 last_ts; /* 마지막 패킷 타임스탬프 (ns) */
    __u32 count;   /* 현재 윈도우 패킷 수 */
};
struct {
    __uint(type, BPF_MAP_TYPE_PERCPU_HASH);
    __uint(max_entries, 65536);
    __type(key, __u32);
    __type(value, struct rate_entry);
} rate_limit_map SEC(".maps");

SEC("xdp")
int xdp_firewall(struct xdp_md *ctx)
{
    void *data     = (void *)(long)ctx->data;
    void *data_end = (void *)(long)ctx->data_end;
    struct ethhdr *eth = data;
    struct iphdr  *ip;
    __u32 src_ip;
    __u64 *blocked_ts;

    /* 이더넷 헤더 파싱 */
    if ((void *)(eth + 1) > data_end)
        return XDP_PASS;

    /* IPv4만 처리 */
    if (eth->h_proto != bpf_htons(ETH_P_IP))
        return XDP_PASS;

    ip = (void *)(eth + 1);
    if ((void *)(ip + 1) > data_end)
        return XDP_PASS;

    src_ip = ip->saddr;

    /* 1. 블랙리스트 조회 */
    blocked_ts = bpf_map_lookup_elem(&ipv4_blocklist, &src_ip);
    if (blocked_ts)
        return XDP_DROP; /* 차단된 IP */

    /* 2. Rate limit 검사 (토큰 버킷 알고리즘) */
    struct rate_entry *re = bpf_map_lookup_elem(&rate_limit_map, &src_ip);
    __u64 now = bpf_ktime_get_ns();

    if (re) {
        /* 1초 윈도우 내 패킷 수 확인 */
        if (now - re->last_ts < 1000000000ULL) { /* 1초 */
            re->count++;
            if (re->count > 1000) { /* 1초에 1000패킷 초과 */
                /* 자동 블랙리스트 추가 */
                bpf_map_update_elem(&ipv4_blocklist, &src_ip,
                                    &now, BPF_ANY);
                return XDP_DROP;
            }
        } else {
            /* 윈도우 리셋 */
            re->last_ts = now;
            re->count   = 1;
        }
    } else {
        /* 새로운 소스 IP */
        struct rate_entry new_re = {.last_ts = now, .count = 1};
        bpf_map_update_elem(&rate_limit_map, &src_ip, &new_re, BPF_ANY);
    }

    return XDP_PASS;
}

char _license[] SEC("license") = "GPL";

XDP 동적 블랙리스트 관리

# XDP 프로그램 로드 (native XDP 모드: 드라이버 지원 필요)
ip link set dev eth0 xdp obj xdp_firewall.o sec xdp

# SKB 모드 (드라이버 미지원 시 폴백)
ip link set dev eth0 xdp obj xdp_firewall.o sec xdp mode skb

# 블랙리스트 실시간 추가 (IP: 1.2.3.4)
# BPF 맵에 직접 삽입 (유저스페이스 제어 도구)
bpftool map update pinned /sys/fs/bpf/ipv4_blocklist \
    key 04 03 02 01 \    # 1.2.3.4 빅엔디안 리틀엔디안 주의
    value 00 00 00 00 00 00 00 00  # 타임스탬프

# 블랙리스트 목록 조회
bpftool map dump pinned /sys/fs/bpf/ipv4_blocklist

# XDP 통계 확인 (드롭 카운터)
bpftool prog show pinned /sys/fs/bpf/xdp_prog
ip -s link show eth0 | grep -A2 "XDP"

# XDP 제거
ip link set dev eth0 xdp off

SYN Flood 방어 XDP 패턴

/* SYN Flood 방어: SYN 쿠키 검증 + 연결 추적 */
/* TCP SYN 패킷의 출발지 IP당 SYN 비율 제한 */

struct syn_entry {
    __u32 count;   /* SYN 패킷 수 */
    __u64 ts;      /* 측정 시작 시간 */
};

struct {
    __uint(type, BPF_MAP_TYPE_PERCPU_HASH);
    __uint(max_entries, 1 << 16);
    __type(key,   __u32); /* src IP */
    __type(value, struct syn_entry);
} syn_flood_map SEC(".maps");

SEC("xdp")
int xdp_syn_protect(struct xdp_md *ctx)
{
    /* ... 이더넷/IP 헤더 파싱 생략 ... */
    struct tcphdr *tcp;

    /* TCP SYN 패킷만 검사 */
    if (ip->protocol != IPPROTO_TCP)
        return XDP_PASS;

    tcp = (void *)ip + (ip->ihl * 4);
    if ((void *)(tcp + 1) > data_end)
        return XDP_PASS;

    /* SYN 플래그만 있고 ACK 없는 패킷 (순수 SYN) */
    if (!tcp->syn || tcp->ack)
        return XDP_PASS;

    __u32 src_ip = ip->saddr;
    __u64 now    = bpf_ktime_get_ns();

    struct syn_entry *se = bpf_map_lookup_elem(&syn_flood_map, &src_ip);
    if (se) {
        if (now - se->ts < 1000000000ULL) { /* 1초 윈도우 */
            if (++se->count > 50) {          /* 초당 50 SYN 초과 */
                return XDP_DROP;             /* SYN flood 차단 */
            }
        } else {
            se->ts    = now;
            se->count = 1;
        }
    } else {
        struct syn_entry new_se = {.count = 1, .ts = now};
        bpf_map_update_elem(&syn_flood_map, &src_ip, &new_se, BPF_ANY);
    }

    return XDP_PASS;
}

char _license[] SEC("license") = "GPL";

iptables/nftables vs XDP 방화벽 성능 비교

방화벽 방식	처리 위치	처리량 (Mpps)	CPU 사용률	최소 지연
iptables (1000 규칙)	Netfilter (소프트웨어)	~1-2 Mpps	높음 (O(n) 검색)	~10-50 μs
nftables (set 활용)	Netfilter (소프트웨어)	~2-4 Mpps	중간 (해시/트리 조회)	~5-20 μs
XDP (SKB 모드)	Netfilter 이전	~4-6 Mpps	낮음	~2-10 μs
XDP (native 모드)	드라이버 직접	~10-25 Mpps	매우 낮음 (O(1) 해시)	~1-5 μs
XDP (offload 모드)	NIC 하드웨어	~100+ Mpps	CPU 불필요	나노초 수준

# XDP + TC BPF 조합: ingress + egress 양방향 제어
# XDP: ingress 고속 차단 (NIC 드라이버 레벨)
# TC BPF: ingress + egress 세밀한 정책 (L4/L7 포함)

# TC clsact qdisc 추가 (egress BPF 지원)
tc qdisc add dev eth0 clsact

# TC ingress BPF 프로그램 연결 (XDP 통과 후 추가 필터링)
tc filter add dev eth0 ingress \
    bpf da obj tc_filter.o sec tc_ingress

# TC egress BPF 프로그램 연결 (나가는 트래픽 제어)
tc filter add dev eth0 egress \
    bpf da obj tc_filter.o sec tc_egress

# 연결된 프로그램 확인
tc filter show dev eth0 ingress
tc filter show dev eth0 egress

BPF 권한 및 보안 모델

eBPF 프로그램 로드 및 실행에는 다양한 Linux capability가 필요합니다. 리눅스 5.8에서 CAP_BPF가 CAP_SYS_ADMIN에서 분리되었고, 리눅스 6.9에서 BPF token이 도입되어 비특권 컨테이너에도 제한된 eBPF 기능을 위임할 수 있게 되었습니다.

그림 5. BPF 권한 모델: CAP_SYS_ADMIN 단일 권한에서 CAP_BPF/CAP_PERFMON 분리, BPF token 위임까지 진화.

BPF 프로그램 로드 권한 (Linux 5.8+)

BPF 작업	필요 Capability	Linux 버전
BPF 맵 생성 (일반 타입)	`CAP_BPF`	5.8+
BPF 프로그램 로드 (비특권 타입)	`CAP_BPF`	5.8+
kprobe/tracepoint/perf 연결	`CAP_BPF` + `CAP_PERFMON`	5.8+
BPF LSM 훅 연결	`CAP_BPF` + `CAP_MAC_ADMIN`	5.7+
cgroup BPF attach	`CAP_NET_ADMIN` 또는 `CAP_BPF`	4.10+
XDP 연결	`CAP_NET_ADMIN`	4.8+
SO_ATTACH_BPF (소켓 필터)	`CAP_NET_RAW` (비특권 소켓 가능)	3.19+
BPF Token 생성 및 사용	`CAP_BPF` (생성) / Token FD (사용)	6.9+

BPF Token API (Linux 6.9+)

/* BPF Token: 비특권 컨테이너에 BPF 능력 위임 */

/* 1. 특권 프로세스(컨테이너 런타임)가 Token 생성 */
union bpf_attr token_attr = {
    .token_create = {
        .flags    = 0,
        .bpffs_fd = bpffs_fd,  /* /sys/fs/bpf 마운트 FD */
    },
};

/* BPF_TOKEN_CREATE 명령으로 토큰 FD 생성 */
int token_fd = bpf(BPF_TOKEN_CREATE, &token_attr, sizeof(token_attr));
/* token_fd를 컨테이너에 FD 전달 (Unix 소켓 SCM_RIGHTS) */

/* 2. 비특권 컨테이너에서 Token으로 BPF 사용 */
union bpf_attr prog_attr = {
    .prog_type    = BPF_PROG_TYPE_CGROUP_SKB,
    .insns        = (__u64)(unsigned long)insns,
    .insn_cnt     = insn_cnt,
    .license      = (__u64)(unsigned long)"GPL",
    .prog_token_fd = token_fd, /* 위임받은 토큰 사용 */
};
int prog_fd = bpf(BPF_PROG_LOAD, &prog_attr, sizeof(prog_attr));

/* 허용 가능한 프로그램 타입 마스크 설정 (Token 생성 시) */
/* allowed_prog_types: BPF_PROG_TYPE_CGROUP_SKB 등 특정 타입만 허용 */
/* allowed_map_types:  BPF_MAP_TYPE_HASH 등 특정 맵만 허용 */

BPF Verifier 보안 모델

BPF verifier는 프로그램 로드 시 안전성을 검증하는 커널 내 정적 분석기입니다. 모든 BPF 프로그램은 반드시 verifier를 통과해야 실행할 수 있습니다.

BPF Verifier가 검증하는 보안 속성

무한 루프 방지: 과거: 최대 명령어 수 제한 (1M instructions) 현재: DAG(방향성 비순환 그래프) 검증으로 반복 상계 증명
메모리 안전성
- 모든 포인터 역참조(Dereference) 전 경계 검사 필수
- verifier가 경계 검사 코드를 분석하여 safe/unsafe 판정
- 예: if ((void *)(ip + 1) > data_end) return XDP_PASS;
- 이 검사 없이 ip->saddr 접근 시 컴파일 거부
포인터 산술 제한
- 커널 포인터에 임의 오프셋(Offset) 추가 불가
- 허용: skb->data + sizeof(struct ethhdr) (상수 오프셋)
- 금지: skb->data + user_input (동적 오프셋)
- map value, stack variable만 제한적 산술 허용
허용된 헬퍼 함수만 호출 가능: 각 BPF 프로그램 타입별로 사용 가능한 헬퍼 목록 제한 XDP에서 bpf_sk_redirect_map() 호출 불가 (타입 불일치)
타입 안전성 (BTF 기반): BPF CO-RE: 컴파일 타임에 커널 구조체 타입 검증 verifier가 BTF 타입 정보로 포인터 타입 확인

Unprivileged BPF 비활성화 및 CVE 사례

# 비특권 BPF 비활성화 (프로덕션 환경 권장)
sysctl -w kernel.unprivileged_bpf_disabled=1
# 또는 영구 설정:
echo "kernel.unprivileged_bpf_disabled=1" >> /etc/sysctl.d/99-bpf.conf

# 비활성화 후: CAP_BPF 없이는 BPF 프로그램 로드 불가
# → 로컬 권한 상승 공격 표면 감소

# 현재 설정 확인
cat /proc/sys/kernel/unprivileged_bpf_disabled

# BPF Verifier 취약점 사례 (CVE)
# CVE-2021-3489: BPF_RINGBUF 오프셋 계산 버그
#   → verifier가 ring buffer 경계를 잘못 계산
#   → 임의 커널 메모리 쓰기 가능
#   → 영향: Linux 5.8-5.12, 수정: 5.12.4

# CVE-2021-4204: BPF verifier 범위 계산 오류
#   → ALU32 산술 연산 후 포인터 범위 오추적
#   → 비특권 사용자가 커널 메모리 읽기/쓰기
#   → 영향: Linux 5.8-5.16, 수정: 5.16.2
#   → 완화: unprivileged_bpf_disabled=1

# BPF 보안 패치 모니터링
# https://kernel.org/pub/linux/kernel/v6.x/ChangeLog-6.x.x

BPF 맵 접근 제어

# Pinned BPF 맵 파일 권한 제어 (/sys/fs/bpf/)
# BPF 맵을 파일시스템에 핀(pin)하면 일반 파일 권한 적용

# 맵 생성 및 핀
bpftool map create /sys/fs/bpf/my_policy_map \
    type hash key 4 value 1 entries 1024 name my_policy

# 파일 권한 설정 (root만 쓰기, 모두 읽기)
chmod 644 /sys/fs/bpf/my_policy_map
chown root:netadmin /sys/fs/bpf/my_policy_map

# UID/GID 기반 맵 접근: 파일 권한으로 제어
# CAP_BPF 없이도 핀된 맵은 파일 권한으로 접근 가능

# BPF obj_id 기반 접근 제어 (커널 내부)
# bpf(BPF_MAP_GET_FD_BY_ID, ...): uid 0 또는 소유자만 가능

실전 eBPF 네트워크 정책 구현

Cilium, Calico, GKE Dataplane V2 등 현대적인 클라우드 네이티브 CNI 플러그인들은 eBPF를 활용하여 Kubernetes 네트워크 정책을 효율적으로 구현합니다. 이 섹션에서는 정책이 커널 BPF 맵으로 컴파일되는 과정과 실전 성능 측정 방법을 설명합니다.

Cilium 정책 모델

Cilium의 CiliumNetworkPolicy는 표준 Kubernetes NetworkPolicy를 확장하여 L3/L4/L7 정책을 지원합니다. 정책은 Cilium Agent에 의해 BPF 맵으로 컴파일됩니다.

# CiliumNetworkPolicy 예시: L3+L4+L7 계층 정책
apiVersion: "cilium.io/v2"
kind: CiliumNetworkPolicy
metadata:
  name: "allow-frontend-to-backend"
  namespace: production
spec:
  endpointSelector:
    matchLabels:
      app: backend           # 정책 적용 대상 Pod

  ingress:
  # L3 정책: frontend 네임스페이스/레이블 기반
  - fromEndpoints:
    - matchLabels:
        app: frontend
        k8s:io.kubernetes.pod.namespace: production

    # L4 정책: TCP 8080 포트만 허용
    toPorts:
    - ports:
      - port: "8080"
        protocol: TCP

      # L7 정책: HTTP 메서드/경로 제한
      rules:
        http:
        - method: "GET"
          path: "/api/.*"
        - method: "POST"
          path: "/api/orders"
          headers:
          - "Content-Type: application/json"

  # FQDN 기반 Egress 정책 (외부 API 허용)
  egress:
  - toFQDNs:
    - matchName: "api.payment.example.com"
    toPorts:
    - ports:
      - port: "443"
        protocol: TCP

# CiliumNetworkPolicy → BPF 맵 컴파일 흐름
# 1. Cilium Agent가 K8s API 서버에서 정책 수신
kubectl get ciliumnetworkpolicies -n production

# 2. 정책 컴파일 결과 확인 (Endpoint 단위)
cilium endpoint list -o jsonpath='{.spec.policy}'

# 3. 실제 BPF 맵에 적용된 정책 확인
ENDPOINT_ID=$(cilium endpoint list | grep backend | awk '{print $1}')
cilium bpf policy get ${ENDPOINT_ID}
# INGRESS:
#   identity=1234 proto=TCP port=8080  ALLOW  (from frontend)
#   identity=world proto=TCP port=*    DENY

# 4. L7 프록시 정책 확인 (HTTP 정책 시 Envoy 프록시 사용)
cilium proxy list
# ID   ADDRESS       REDIRECT-FROM  REDIRECT-TO
# 1    :8080         8080/tcp       8081/tcp (Envoy L7 proxy)

DNS 기반 FQDN 정책 (DNS proxy → BPF 맵 갱신)

# Cilium FQDN 정책 동작 원리
# 1. Pod DNS 쿼리를 Cilium DNS proxy가 가로챔
# 2. 응답 IP를 BPF ipcache 맵에 동적 등록
# 3. TC BPF 프로그램이 해당 IP로의 트래픽 허용

# FQDN 정책 적용 확인
cilium fqdn cache list
# ENDPOINT  ID  LABELS  NAME                         IPS
# 1234      123 app=... api.payment.example.com      203.0.113.1,203.0.113.2

# DNS 응답 이후 BPF ipcache 자동 갱신
cilium bpf ipcache list | grep "203.0.113"
# 203.0.113.1/32   identity=16777217 (world-ipv4:api.payment)

# FQDN 정책 진단
cilium fqdn status
# DNS Proxy Port: 10001
# DNS Proxy Mode: nameserver-fallback
# Upstream DNS: /etc/resolv.conf

Hubble: eBPF 기반 가시성 플랫폼

# Hubble 설치 확인
kubectl get pods -n kube-system | grep hubble
hubble status

# 실시간 네트워크 흐름 모니터링 (L3-L7)
hubble observe --follow --namespace production

# 출력 예시:
# Feb 19 10:23:45 production/frontend → production/backend
#   TCP 10.0.1.3:54321 → 10.0.1.5:8080 FORWARDED
# Feb 19 10:23:45 production/frontend → production/backend
#   HTTP GET /api/orders FORWARDED (200 OK)
# Feb 19 10:23:46 unknown/attacker → production/backend
#   TCP 192.168.0.100:12345 → 10.0.1.5:8080 DROPPED

# Prometheus 메트릭 수집 (Hubble)
# hubble_flows_processed_total{type="L3_L4", verdict="FORWARDED"}
# hubble_flows_processed_total{type="L7", verdict="DROPPED"}

# Grafana 대시보드 임포트
# https://grafana.com/grafana/dashboards/15508 (Hubble)
kubectl port-forward -n kube-system svc/hubble-ui 12000:80
# http://localhost:12000 에서 서비스 맵 시각화

Calico eBPF 모드 Felix → BPF 프로그램 생성 흐름

# Calico Felix 정책 컴파일 흐름 이해

# 1. K8s NetworkPolicy 수신
kubectl get networkpolicy allow-frontend -n production -o yaml

# 2. Felix가 정책을 BPF 프로그램으로 컴파일
# Felix: calico-node DaemonSet 내의 정책 엔진
# 정책 변경 → BPF 오브젝트 재컴파일 → 재로드

# 3. 인터페이스별 TC BPF 프로그램 확인
for iface in $(ip link show | grep 'cali' | awk -F: '{print $2}'); do
    echo "=== $iface ==="
    tc filter show dev $iface ingress 2>/dev/null
    tc filter show dev $iface egress  2>/dev/null
done

# 4. Calico BPF 데이터 경로 통계
kubectl exec -n calico-system ds/calico-node -- \
    calico-node -felix-pprof-port 6060 &
kubectl exec -n calico-system ds/calico-node -- \
    curl -s localhost:6060/bpf/stats | jq .

# 5. kube-proxy 대체 확인 (Calico eBPF 모드)
kubectl get configmap -n kube-system kube-proxy -o yaml \
    | grep mode
# mode: ""  ← kube-proxy 비활성화 (eBPF가 처리)

GKE Dataplane V2 (Cilium 기반)

# GKE Dataplane V2 활성화 확인
gcloud container clusters describe MY_CLUSTER \
    --format="value(networkConfig.datapathProvider)"
# ADVANCED_DATAPATH  ← Cilium 기반 eBPF 데이터 경로

# Dataplane V2에서 Hubble 활성화
gcloud container clusters update MY_CLUSTER \
    --enable-dataplane-v2-flow-observability

# GKE 환경에서 NetworkPolicy 검증
kubectl run test-pod --image=alpine --rm -it -- \
    sh -c "nc -zv backend-service 8080"
# 정책 통과 시: 연결 성공
# 정책 위반 시: Connection refused (BPF 차단)

eBPF 정책 vs iptables 정책 성능 비교

측정 항목	iptables + kube-proxy	Cilium eBPF	Calico eBPF
정책 업데이트 지연	~1-10 s (iptables-restore)	~ms (BPF 맵 업데이트)	~100ms (BPF 재컴파일)
정책 1000개 Pod	~수만 iptables 규칙	BPF 맵 O(1) 조회	TC BPF O(1) 조회
처리량 (iperf3)	~9.2 Gbps (10G NIC)	~9.7 Gbps (+5%)	~9.6 Gbps (+4%)
Pod-to-Pod 지연 (p99)	~200-500 μs	~50-100 μs	~80-150 μs
kube-proxy 필요	필요	불필요 (eBPF 대체)	불필요 (eBPF 대체)
L7 정책 지원	불가 (L3/L4만)	지원 (HTTP/gRPC)	제한적

# 정책 성능 테스트 (iperf3 기반)
# 1. 기준 측정 (정책 없음)
kubectl run iperf3-server --image=networkstatic/iperf3 \
    -n production -- iperf3 -s
kubectl run iperf3-client --image=networkstatic/iperf3 \
    -n production --rm -it -- \
    iperf3 -c iperf3-server -t 30 -P 8
# 기준: ~9.8 Gbps

# 2. NetworkPolicy 적용 후 측정
kubectl apply -f - <<EOF
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: allow-iperf
  namespace: production
spec:
  podSelector:
    matchLabels:
      run: iperf3-server
  ingress:
  - from:
    - podSelector:
        matchLabels:
          run: iperf3-client
    ports:
    - port: 5201
EOF

# 재측정
kubectl exec iperf3-client -- iperf3 -c iperf3-server -t 30 -P 8
# Cilium eBPF: ~9.5 Gbps (약 3% 오버헤드)
# iptables: ~9.1 Gbps (약 7% 오버헤드)

커널 소스 구조

eBPF 보안 관련 커널 소스를 파악하면 동작 원리 이해와 버그 추적에 큰 도움이 됩니다.

주요 커널 소스 파일

소스 파일	설명
`security/bpf/hooks.c`	BPF LSM 훅 등록 및 슬롯 관리 (bpf_lsm_* 함수)
`kernel/bpf/cgroup.c`	cgroup_skb / cgroup_sock BPF 프로그램 attach/detach 로직
`net/core/filter.c`	소켓 필터 (SO_ATTACH_BPF), sk_lookup BPF 프로그램 실행
`net/core/sock.c`	cgroup_sock 훅 호출 지점 (inet_create, inet_bind 등)
`include/linux/bpf_lsm.h`	BPF LSM 훅 매크로 정의 및 훅 포인터 선언
`include/uapi/linux/bpf.h`	BPF 시스템 콜 UAPI: bpf_prog_type, bpf_attach_type 열거형(Enum)
`tools/testing/selftests/bpf/prog_tests/`	BPF LSM, cgroup_skb, sk_lookup 셀프테스트
`samples/bpf/`	eBPF 보안 샘플 프로그램 모음

BPF LSM 훅 선언 구조

/* include/linux/bpf_lsm.h 에서 발췌 (개념 설명용) */

/* BPF_LSM_HOOK 매크로로 각 훅 선언 */
/* 형식: BPF_LSM_HOOK(f, ...) */
/* f: 함수명, ...: 인자 목록 */

/* 예: socket_connect 훅 */
/* BPF_LSM_HOOK(f, struct socket *, sock,
               struct sockaddr *, address,
               int, addrlen) */

/* 실제 커널 내부에서 호출되는 방식 */
/* security/bpf/hooks.c: */
static int bpf_lsm_socket_connect(struct socket *sock,
                                   struct sockaddr *address,
                                   int addrlen)
{
    /* BPF 프로그램 순차 실행 */
    /* 첫 번째 음수 반환값이 최종 결과 */
    return bpf_lsm_run_array(lsm_sock_arr,
                              BPF_LSM_SOCKET_CONNECT,
                              sock, address, addrlen);
}

/* LSM 훅 체인에 bpf_lsm_socket_connect 등록 */
static struct security_hook_list bpf_lsm_hooks[] = {
    LSM_HOOK_INIT(socket_connect, bpf_lsm_socket_connect),
    /* ... 기타 훅 ... */
};

cgroup_skb 커널 내부 호출 경로

/* net/core/filter.c 내 cgroup_skb 실행 경로 (개념) */

/* IPv4 패킷 수신 시 호출 체인 */
/*
  ip_rcv()
   → ip_rcv_finish()
     → ip_route_input()
       → ip_forward() 또는 ip_local_deliver()
         → __cgroup_bpf_run_filter_skb()  ← cgroup_skb 실행
           → cgroup v2 계층 순회
           → 각 레벨의 BPF 프로그램 실행
           → 하나라도 0 반환 시 패킷 드롭
*/

/* 커널 소스 내 실제 호출 위치 */
/* net/ipv4/ip_input.c: */
/*
  if (cgroup_bpf_enabled(CGROUP_INET_INGRESS) &&
      !__cgroup_bpf_run_filter_skb(sk, skb,
          BPF_CGROUP_INET_INGRESS)) {
      goto discard;  // BPF 프로그램이 0을 반환하면 드롭
  }
*/

호출 체인: bpf() 시스템 콜 → 검증기 → JIT 컴파일

사용자 공간에서 bpf(BPF_PROG_LOAD, ...)를 호출하면 커널 내부에서 bpf_check() 검증기(Verifier)와 bpf_int_jit_compile() JIT 컴파일러(Compiler)를 순서대로 거쳐 프로그램이 안전하게 실행 가능한 상태로 변환됩니다.

그림: bpf(BPF_PROG_LOAD) 호출에서 JIT 컴파일까지의 커널 내부 호출 체인

/* kernel/bpf/syscall.c — BPF 프로그램 로드 진입점 */
static int bpf_prog_load(union bpf_attr *attr,
                          bpfptr_t uattr)
{
    enum bpf_prog_type type = attr->prog_type; /* 프로그램 타입 (LSM, XDP 등) */
    struct bpf_prog *prog;
    int err;

    /* CAP_BPF 또는 CAP_SYS_ADMIN 권한 검사 */
    err = bpf_prog_load_check_attach(type,
              attr->expected_attach_type);
    if (err)
        return err;

    prog = bpf_prog_alloc(bpf_prog_size(attr->insn_cnt), 0);
    if (!prog)
        return -ENOMEM;

    /* 사용자 공간에서 BPF 명령어 복사 */
    err = copy_from_bpfptr(prog->insnsi,
              make_bpfptr(attr->insns, uattr.is_kernel),
              sizeof(struct bpf_insn) * attr->insn_cnt);
    if (err)
        goto free_prog;

    /* 검증기 실행 — 안전성·타입 검사 */
    err = bpf_check(&prog, attr, uattr);
    if (err < 0)
        goto free_prog_sec;

    /* JIT 컴파일: 인터프리터 바이트코드 → 기계어 */
    prog = bpf_prog_select_runtime(prog, &err);
    if (err < 0)
        goto free_prog_sec;

    return bpf_prog_new_fd(prog);  /* 파일 디스크립터 반환 */
free_prog_sec:
    bpf_prog_free_linfo(prog);
free_prog:
    bpf_prog_free(prog);
    return err;
}

코드 설명

3행bpf_prog_type: BPF 프로그램 종류를 나타내는 열거형으로, BPF_PROG_TYPE_LSM, BPF_PROG_TYPE_XDP 등이 이 시점에 결정됩니다.
8행bpf_prog_load_check_attach(): CAP_BPF 또는 CAP_SYS_ADMIN capability 보유 여부를 확인합니다. 권한 없이 로드를 시도하면 -EPERM을 반환합니다.
13행bpf_prog_alloc(): 명령어 수(insn_cnt)에 비례하는 메모리를 할당합니다. 프로그램 구조체(bpf_prog)와 명령어 배열이 연속된 블록으로 배치됩니다.
18행copy_from_bpfptr(): 사용자 공간 또는 커널 내부(uattr.is_kernel)에서 BPF 명령어를 안전하게 복사합니다. 커널 내 호출 시에는 memcpy로 처리됩니다.
25행bpf_check(): 검증기 진입점(Entry Point)으로, 제어 흐름 그래프(CFG) 생성, 레지스터(Register) 타입 추론, 스택/맵 접근 범위 검사를 모두 수행합니다.
30행bpf_prog_select_runtime(): JIT가 활성화된 아키텍처에서는 bpf_int_jit_compile()을 호출해 기계어(Machine Code)로 변환하고, 그렇지 않으면 인터프리터 경로를 선택합니다.
36행bpf_prog_new_fd(): 로드된 BPF 프로그램에 파일 디스크립터(File Descriptor)를 발급합니다. 사용자 공간은 이 fd를 이용해 bpf(BPF_PROG_ATTACH, ...)로 훅에 연결합니다.

핵심 자료구조: `bpf_verifier_state`

bpf_verifier_state는 검증기(Verifier)가 BPF 명령어를 한 줄씩 해석하며 레지스터와 스택(Stack)의 타입·값 범위를 추적하는 핵심 구조체입니다.

/* include/linux/bpf_verifier.h */
struct bpf_verifier_state {
    struct bpf_func_state *frame[MAX_CALL_FRAMES]; /* 콜 프레임 스택 배열 (최대 8단계) */
    struct bpf_verifier_state *parent;            /* 분기 부모 상태 (역추적용) */
    u32  branches;                                  /* 미확인 분기 수 — 0이 되면 상태 확정 */
    u32  insn_idx;                                  /* 현재 검증 중인 명령어 오프셋 */
    u32  curframe;                                  /* 현재 활성 콜 프레임 인덱스 */
    bool speculative;                               /* Spectre 완화용 가상 실행 여부 */
    bool active_locks;                              /* spin_lock 보유 여부 (해제 검사용) */
    bool active_rcu_lock;                           /* RCU read lock 활성 여부 */
    u32  active_preempt_locks;                      /* preempt disable 중첩 깊이 */
    struct bpf_idx_set  *jmp_history;             /* 분기 이력 (상태 접합에 사용) */
    u32  jmp_history_cnt;                           /* 분기 이력 항목 수 */
};

코드 설명

3행frame[]: BPF 서브프로그램 호출마다 새 프레임이 생성됩니다. 각 프레임은 11개 레지스터(r0–r10) 상태와 512바이트 스택 슬롯을 독립적으로 추적합니다.
4행parent: 조건 분기(jne, jeq 등) 발생 시 검증기는 두 방향 모두를 탐색합니다. 부모 포인터로 이전 상태를 역추적(Backtrace)해 변경 사항만 비교합니다.
5행branches: 미탐색 분기가 남아 있는 동안은 상태를 가비지 컬렉션하지 않습니다. 0이 되면 해당 상태의 메모리를 해제합니다.
8행speculative: Spectre v1 대응을 위해 경계 검사 우회(Bounds Check Bypass) 시나리오를 가상 실행합니다. 이 플래그가 참일 때 민감한 도우미 함수 호출은 거부됩니다.
9–11행active_locks, active_rcu_lock, active_preempt_locks: 잠금(Lock) 획득·해제 균형을 정적 검사합니다. 잠금을 보유한 채 프로그램이 종료되면 검증 오류가 발생합니다.
12행jmp_history: 상태 합류(state merge) 지점에서 분기 이력을 비교해 동일 상태를 중복 검증하지 않도록 합니다. 이를 통해 지수적 경로 폭발을 억제합니다.

핵심 자료구조: `bpf_prog`

bpf_prog는 로드된 BPF 프로그램의 생명주기 전반을 관리하는 구조체입니다. 검증 전 바이트코드부터 JIT 컴파일 후 기계어까지 모두 이 구조체에 보관됩니다.

/* include/linux/filter.h */
struct bpf_prog {
    u16             pages;       /* 실행 가능 영역의 페이지 수 */
    u16             jited:1;    /* JIT 컴파일 완료 여부 (1 = 기계어 실행) */
    u16             jit_requested:1; /* BPF_PROG_INFO로 JIT 요청된 경우 */
    u16             gpl_compatible:1; /* GPL 라이선스 도우미 호출 허용 여부 */
    u16             cb_access:1; /* SKB cb[] 필드 접근 여부 */
    u16             dst_needed:1; /* SKB dst 엔트리 필요 여부 */
    u16             blinded:1;   /* 상수 블라인딩(Blinding) 적용 여부 */
    u32             len;         /* BPF 명령어 수 (bpf_insn 단위) */
    u32             jited_len;   /* JIT 기계어 바이트 수 */
    u8              tag[BPF_TAG_SIZE]; /* SHA-1 기반 8바이트 프로그램 지문 */
    struct bpf_prog_aux *aux;  /* 보조 정보: 맵 목록, 검증 통계 등 */
    struct sock_fprog_kern *orig_prog; /* cBPF 원본 (변환된 경우) */
    union {
        struct sock_filter insns[0];  /* cBPF 명령어 배열 (레거시) */
        struct bpf_insn   insnsi[0]; /* eBPF 명령어 배열 (현재) */
    };
};

코드 설명

3행pages: JIT 컴파일 후 실행 코드가 차지하는 메모리 페이지(Page) 수입니다. 모듈 영역(module alloc)에 할당되며 W^X 정책으로 실행 전 쓰기 권한이 제거됩니다.
4행jited: 이 플래그가 1이면 bpf_func 포인터가 JIT 기계어를, 0이면 인터프리터 함수를 가리킵니다.
9행blinded: 상수 블라인딩은 JIT 스프레이(JIT spraying) 공격을 방어합니다. 즉각적인 64비트 상수를 두 개의 연산으로 분리해 공격자가 예측할 수 없도록 합니다.
12행tag: 프로그램의 SHA-1 지문으로, bpftool prog show 출력에서 확인할 수 있습니다. 동일 프로그램의 재로드 여부를 비교하거나 감사 로그와 매핑할 때 사용합니다.
13행aux: 검증기가 수집한 BPF 맵 참조 목록, 서브프로그램 정보, perf_event 통계 등 런타임에 필요한 보조 데이터를 담습니다.
17행insnsi[]: 가변 길이 배열로, 구조체 끝에 명령어를 연속 배치합니다. 별도 포인터 간접 참조 없이 캐시 친화적으로 명령어에 접근할 수 있습니다.

소스 분석: `do_check()` — BPF 명령어 순회 검증

do_check()는 BPF 프로그램의 모든 명령어를 순서대로 해석하며 레지스터 타입과 스택 상태를 업데이트합니다. 메모리 접근 명령이 나타날 때마다 check_mem_access()를 호출해 경계를 검사합니다.

/* kernel/bpf/verifier.c — 검증기 메인 루프 (간략화) */
static int do_check(struct bpf_verifier_env *env)
{
    struct bpf_verifier_state *state = env->cur_state;
    struct bpf_insn *insns = env->prog->insnsi; /* 전체 명령어 배열 */
    int insn_cnt = env->prog->len;
    int err, prev_insn_idx = -1;

    for (;;) {
        struct bpf_insn *insn;
        u8 class;

        if (env->insn_idx >= insn_cnt) {
            /* 마지막 명령어가 exit인지 확인 */
            verbose(env, "jump out of range\n");
            return -EINVAL;
        }

        insn = &insns[env->insn_idx];
        class = BPF_CLASS(insn->code);

        if (++env->insn_processed > BPF_COMPLEXITY_LIMIT_INSNS) {
            /* 100만 명령어 초과 — 복잡도 한계 */
            verbose(env, "BPF program is too large\n");
            return -E2BIG;
        }

        err = add_insn_aux_data(env, env->insn_idx);
        if (err)
            return err;

        if (class == BPF_LDX || class == BPF_STX
            || class == BPF_ST) {
            /* 메모리 접근 명령 → 경계 검사 위임 */
            err = check_mem_access(env, env->insn_idx,
                      insn->src_reg,
                      insn->off, BPF_SIZE(insn->code),
                      BPF_READ, insn->dst_reg, false);
            if (err)
                return err;
        } else if (class == BPF_JMP || class == BPF_JMP32) {
            /* 조건 분기 → 두 방향 모두 상태 복제·검증 */
            err = check_cond_jmp_op(env, insn,
                                    &env->insn_idx);
            if (err)
                return err;
        } else if (class == BPF_CALL) {
            /* 도우미 함수 호출 → 인자 타입 검사 */
            err = check_helper_call(env, insn,
                                    &env->insn_idx);
            if (err)
                return err;
        }

        prev_insn_idx = env->insn_idx++;
    }
    return 0;
}

코드 설명

3행bpf_verifier_env: 검증기 전체 실행 컨텍스트입니다. 현재 상태(cur_state), 탐색 큐, 검증 로그 버퍼(Buffer), 프로그램 포인터를 모두 포함합니다.
8행무한 루프 구조로 동작하며, BPF_EXIT 명령을 만나거나 분기 탐색이 끝날 때 함수가 반환됩니다.
12–16행명령어 인덱스가 프로그램 길이를 벗어나면 즉시 오류를 반환합니다. 임의 메모리 점프로 인한 탈출을 방지합니다.
21–24행BPF_COMPLEXITY_LIMIT_INSNS(100만): 무한 루프 등으로 검증이 끝나지 않는 상황을 방지합니다. 실제 커널에서는 이 값을 초과하는 프로그램은 로드가 거부됩니다.
32–38행check_mem_access() 호출: 레지스터 기반 메모리 접근(LDX/STX/ST)마다 소스 레지스터의 타입, 오프셋 범위, 경계를 검사합니다.
39–44행check_cond_jmp_op(): 조건 분기 시 true/false 양 방향의 레지스터 값 범위를 각각 계산해 별도의 bpf_verifier_state로 추적합니다.
45–50행check_helper_call(): BPF 도우미 함수 호출 시 인자 타입(PTR_TO_MAP_KEY, PTR_TO_SOCK_COMMON 등)이 함수 프로토타입과 일치하는지 검사합니다.

소스 분석: `check_mem_access()` — 메모리 접근 경계 검사

check_mem_access()는 BPF 프로그램이 스택, 맵 값, 패킷 데이터 등 다양한 메모리 영역에 접근할 때 범위를 벗어나지 않는지 정적으로 검증합니다.

/* kernel/bpf/verifier.c — 메모리 접근 검증 (발췌) */
static int check_mem_access(struct bpf_verifier_env *env,
                             int insn_idx,
                             u32 regno,
                             int off, int size,
                             enum bpf_access_type t,
                             int value_regno,
                             bool strict_alignment_once)
{
    struct bpf_reg_state *regs = cur_regs(env);
    struct bpf_reg_state *reg = &regs[regno];
    int err = 0;

    if (reg->type == PTR_TO_MAP_VALUE) {
        /* 맵 값 포인터: 배열 범위 검사 */
        err = check_map_access(env, regno, off, size,
                               false, ACCESS_DIRECT);
    } else if (reg->type == PTR_TO_STACK) {
        /* 스택 포인터: -512 ~ 0 범위 검사 */
        err = check_stack_access_within_bounds(
                  env, regno, off, size,
                  ACCESS_DIRECT, t);
    } else if (reg->type == PTR_TO_PACKET) {
        /* 패킷 데이터: data ~ data_end 범위 검사 */
        err = check_packet_access(env, regno, off,
                                  size, false);
    } else if (reg->type == PTR_TO_CTX) {
        /* 컨텍스트 포인터: prog_type별 허용 필드 검사 */
        err = check_ctx_access(env, insn_idx, off,
                               size, t, &reg_type);
    } else {
        /* 알 수 없는 포인터 타입 → 즉시 거부 */
        verbose(env,
            "R%d invalid mem access '%s'\n",
            regno, reg_type_str(env, reg->type));
        return -EACCES;
    }

    if (!err && t == BPF_READ && value_regno >= 0)
        /* 읽기 성공 시 목적 레지스터 타입 갱신 */
        mark_reg_unknown(env, regs, value_regno);

    return err;
}

코드 설명

5–6행off와 size는 컴파일 시 정적으로 알 수 없는 경우가 많습니다. 검증기는 레지스터의 smin_value/smax_value 범위 정보를 이용해 최악 경우의 접근 범위를 계산합니다.
14–17행check_map_access(): 맵 값 포인터의 오프셋이 맵 값 크기(map.value_size) 내에 있는지 확인합니다. 경계를 벗어나면 임의 커널 메모리 읽기·쓰기가 가능해지므로 엄격히 거부됩니다.
18–22행check_stack_access_within_bounds(): BPF 스택은 최대 512바이트이며 fp-512에서 fp-1까지만 유효합니다. 스택 외부 접근은 인접한 커널 구조체를 덮어쓸 수 있어 즉시 거부됩니다.
23–26행check_packet_access(): XDP/TC BPF에서 패킷 데이터 접근 시 data_end 검사를 BPF 프로그램 내에서 먼저 수행했는지 확인합니다. 검사 없이 접근하면 거부됩니다.
27–30행check_ctx_access(): 프로그램 타입별로 접근 가능한 컨텍스트 필드가 다릅니다. 예를 들어 XDP 프로그램은 xdp_md의 data/data_end/data_meta만 접근할 수 있습니다.
38–40행mark_reg_unknown(): 읽기 성공 후 목적 레지스터를 SCALAR_VALUE 타입으로 설정합니다. 이후 이 값으로 포인터 연산을 수행하면 별도로 범위 추적이 다시 시작됩니다.

소스 분석: `bpf_lsm_verify_prog()` — LSM BPF 프로그램 사전 검증

bpf_lsm_verify_prog()는 BPF_PROG_TYPE_LSM 프로그램이 로드될 때 검증기가 호출하는 훅 특화 검사 함수입니다. 프로그램이 올바른 LSM 훅에 연결되는지, 필요한 권한이 있는지를 사전에 확인합니다.

/* kernel/bpf/bpf_lsm.c — LSM BPF 프로그램 사전 검증 */
int bpf_lsm_verify_prog(struct bpf_verifier_log *vlog,
                         const struct bpf_prog *prog)
{
    /* BPF LSM 훅 이름 유효성 검사 */
    if (!prog->aux->attach_func_proto) {
        bpf_log(vlog,
            "LSM prog must be attached to a LSM hook\n");
        return -EINVAL;
    }

    /* SLEEPABLE 플래그: 슬립 가능 컨텍스트 허용 여부 */
    if (prog->aux->sleepable &&
        !bpf_lsm_is_sleepable_hook(prog->aux->attach_btf_id)) {
        bpf_log(vlog,
            "LSM hook is not sleepable\n");
        return -EINVAL;
    }

    /* MAC 정책 훅: CAP_MAC_ADMIN 권한 필수 */
    if (bpf_lsm_is_mac_hook(prog->aux->attach_btf_id) &&
        !capable(CAP_MAC_ADMIN)) {
        bpf_log(vlog,
            "MAC hook requires CAP_MAC_ADMIN\n");
        return -EPERM;
    }

    return 0;
}

코드 설명

5–9행attach_func_proto: BTF(BPF Type Format)에서 추출한 연결 대상 훅의 함수 프로토타입입니다. 이 값이 없으면 프로그램이 유효한 LSM 훅에 연결되지 않은 것으로 판단해 로드를 거부합니다.
12–17행sleepable 플래그: BPF_F_SLEEPABLE로 로드된 LSM 프로그램은 bpf_copy_from_user()나 맵 spin-lock 없는 슬립(Sleep)을 허용합니다. 단, file_open, bprm_check_security 등 일부 훅만 슬립 가능합니다.
20–25행bpf_lsm_is_mac_hook(): inode_create, file_open 등 MAC(Mandatory Access Control) 정책에 영향을 주는 훅은 CAP_MAC_ADMIN을 요구합니다. 이 검사로 일반 사용자가 강제 접근 제어를 우회하는 것을 방지합니다.

JIT 컴파일: `bpf_int_jit_compile()` 개요

검증을 통과한 BPF 바이트코드는 bpf_int_jit_compile()에서 호스트 아키텍처(x86-64, arm64 등)의 기계어로 변환됩니다. 변환 후에는 실행 가능(executable)·쓰기 불가(non-writable) 메모리에 배치됩니다.

그림: BPF JIT 컴파일 파이프라인(Pipeline) — 상수 블라인딩, 두 패스 변환, W^X 메모리 배치

/* arch/x86/net/bpf_jit_comp.c — x86-64 JIT 컴파일 진입 (간략화) */
struct bpf_prog *bpf_int_jit_compile(struct bpf_prog *prog)
{
    struct bpf_binary_header *header = NULL;
    struct jit_context ctx = {};
    int image_size, proglen;
    u8 *image = NULL;

    if (!prog->jit_requested)
        return orig_prog; /* JIT 비활성화 시 인터프리터 경로 */

    /* 상수 블라인딩 적용 (bpf_jit_harden >= 1) */
    prog = bpf_jit_blind_constants(prog);
    if (IS_ERR(prog))
        return orig_prog;

    /* 1패스: 코드 크기 산출 */
    for (pass = 0; pass < 20 || image; pass++) {
        proglen = do_jit(prog, addrs, image, oldproglen, &ctx);
        if (proglen <= 0)
            goto out_addrs;
        if (image) {
            if (proglen != oldproglen) {
                pr_err("bpf_jit: proglen=%d != oldproglen=%d\n",
                       proglen, oldproglen);
                goto out_addrs;
            }
            break;
        }
        /* 실행 가능 메모리 할당 */
        header = bpf_jit_binary_alloc(proglen,
                     &image, 1, jit_fill_hole);
        if (!header)
            goto out_addrs;
    }

    /* W^X: 쓰기 금지 + 실행 가능으로 권한 전환 */
    bpf_jit_binary_lock_ro(header);
    prog->bpf_func = (void *)image;
    prog->jited = 1;
    prog->jited_len = proglen;

    return prog;
out_addrs:
    bpf_jit_binary_free(header);
    return orig_prog; /* 실패 시 인터프리터 폴백 */
}

코드 설명

9–10행jit_requested가 설정되지 않았거나 /proc/sys/net/core/bpf_jit_enable=0이면 인터프리터 경로를 사용합니다. JIT는 성능에 결정적이지만 공격 표면이 넓어지므로 보안 하드닝 환경에서는 비활성화를 고려합니다.
12–14행bpf_jit_blind_constants(): /proc/sys/net/core/bpf_jit_harden이 1 이상이면 즉각 상수를 무작위 XOR 마스크로 분산해 JIT 스프레이 공격을 방어합니다.
17–33행두 패스 컴파일 구조: 첫 번째 패스에서 분기 오프셋 없이 코드 길이만 산출하고, 두 번째 패스에서 최종 기계어를 생성합니다. 분기 목적지 오프셋이 패스마다 달라지면 이 루프를 반복합니다.
30–33행bpf_jit_binary_alloc(): 먼저 쓰기·실행 가능한 메모리를 할당하고, 기계어 생성이 완료된 뒤 bpf_jit_binary_lock_ro()로 쓰기 권한을 제거합니다. jit_fill_hole()로 미사용 바이트를 0xcc(INT 3)로 채워 폴스루를 방지합니다.
36–39행bpf_jit_binary_lock_ro(): set_memory_ro()와 set_memory_x()를 순서대로 호출해 W^X(Write XOR eXecute)를 강제합니다. 이후 코드 영역은 쓰기가 불가능해 런타임 패치(Patch) 공격을 방어합니다.
44행JIT 실패 시 인터프리터로 안전하게 폴백합니다. 인터프리터는 성능이 낮지만 JIT 취약점(Vulnerability)(예: CVE-2020-8835)에 노출되지 않습니다.

진단 및 모니터링

eBPF 보안 정책의 효과를 검증하고 문제를 진단하는 데 활용할 수 있는 다양한 도구와 명령을 소개합니다.

bpftool 진단 명령

# 현재 로드된 BPF 프로그램 전체 목록
bpftool prog list
# 출력 예:
# 42: lsm  name bpf_socket_connect_hook  tag 1a2b3c4d5e6f7890  gpl
#     loaded_at 2026-02-19T10:23:45+0000  uid 0
#     xlated 512B  jited 384B  memlock 4096B  map_ids 5,6
# 43: cgroup_skb  name filter_ingress  tag 0102030405060708  gpl
#     loaded_at 2026-02-19T10:23:46+0000  uid 0

# 특정 BPF 프로그램 상세 정보 (JIT 컴파일된 어셈블리 포함)
bpftool prog dump xlated id 42
bpftool prog dump jited  id 42

# BPF 맵 목록 및 내용 확인
bpftool map list
bpftool map dump id 5        # policy 맵 전체 출력
bpftool map lookup id 5 key 01 00 00 00  # 특정 키 조회

# cgroup에 연결된 BPF 프로그램 확인
bpftool cgroup tree /sys/fs/cgroup/
# /sys/fs/cgroup/
# ID       AttachType      AttachFlags     Name
# 42       ingress         multi           filter_ingress
# 43       egress          multi           filter_egress

# 네트워크 인터페이스에 연결된 BPF 프로그램
bpftool net show
bpftool net show dev eth0

bpftrace를 활용한 BPF LSM 이벤트 추적

# BPF LSM socket_connect 훅 적중 실시간 추적
# (커널 tracepoint: lsm_audit 이벤트 활용)
bpftrace -e '
tracepoint:lsm:bpf_lsm_socket_connect
{
    printf("PID:%d COMM:%s 소켓 연결 시도\n",
           pid, comm);
}
'

# cgroup_skb 드롭 이벤트 추적
# kprobe로 __cgroup_bpf_run_filter_skb 함수 추적
bpftrace -e '
kretprobe:__cgroup_bpf_run_filter_skb
/ retval == 0 /
{
    printf("[cgroup_skb DROP] PID:%d COMM:%s\n", pid, comm);
}
'

# BPF 맵 업데이트 추적 (정책 변경 감사)
bpftrace -e '
kprobe:bpf_map_update_elem
{
    printf("BPF 맵 업데이트: map_id=%d PID=%d COMM=%s\n",
           ((struct bpf_map *)arg0)->id, pid, comm);
}
'

# 소켓 연결 거부 (EPERM) 통계
bpftrace -e '
kretprobe:sys_connect
/ retval == -1 /
{
    @errors[comm] = count();
}
interval:s:10 { print(@errors); clear(@errors); }
'

Cilium Hubble 가시성 도구

# Hubble CLI로 실시간 네트워크 흐름 모니터링
hubble observe --follow

# 특정 네임스페이스의 드롭 패킷만 필터링
hubble observe \
  --namespace production \
  --verdict DROPPED \
  --follow

# Pod 간 연결 흐름 (identity 기반)
hubble observe \
  --from-pod production/frontend \
  --to-pod production/backend \
  --protocol TCP \
  --port 8080

# L7 HTTP 요청 모니터링 (Envoy 프록시 연동 시)
hubble observe \
  --namespace production \
  --type l7 \
  --http-method GET \
  --follow

# 정책 위반 이벤트 집계
hubble observe \
  --verdict DROPPED \
  --output json | \
  jq '.flow | {src: .source.labels, dst: .destination.labels, reason: .drop_reason}'

Cilium 정책 진단

# Cilium BPF 맵에서 identity 조회
cilium bpf ipcache list | grep "10.0.1.5"
# 10.0.1.5/32   identity=5678  labels=app=backend,ns=production

# 정책 적중 통계 확인
cilium bpf policy get --all
# Endpoint 1234 (frontend):
# EGRESS:
#   identity=5678 protocol=TCP port=8080  ALLOW  packets=42381

# 두 Pod 간 연결 가능 여부 확인 (dry-run)
cilium policy trace \
  --src-identity 1234 \
  --dst-identity 5678 \
  --dport 8080/TCP
# 출력: Final verdict: ALLOW

# BPF verifier 통계 (프로그램 검증 시간)
bpftool prog show id 42 --json | jq '.verified_insns'

# eBPF 보안 도구 비교
# Cilium: K8s 통합, identity 정책, Hubble 가시성
# Calico: XDP+TC BPF, DSR LB, BGP 연동
# Falco: syscall 감사, 런타임 위협 탐지
# bpftrace: 임시 추적/진단, 원라이너 스크립트

eBPF 보안 도구 비교

도구	BPF 활용 방식	주요 특징	적합 환경
Cilium	TC BPF, cgroup_skb, sk_lookup	K8s NetworkPolicy, L7 정책, identity 기반, Hubble 가시성	Kubernetes 클러스터
Calico eBPF	XDP (ingress), TC BPF (egress)	DSR 로드밸런싱, BGP 라우팅, kube-proxy 대체	온프레미스/하이브리드
Falco	BPF 드라이버 (syscall 추적)	런타임 위협 탐지, CNCF 프로젝트, 규칙 엔진	런타임 보안 감사
bpftrace	kprobe/uprobe/tracepoint	원라이너 스크립트, 임시 진단, 커널 내부 추적	개발/디버깅/튜닝
Tetragon	BPF LSM + kprobe	프로세스 수준 정책 집행, Cilium 연동, SIGKILL 송신	심층 런타임 보안
Katran	XDP	Meta 개발 L4 로드밸런서, 고성능 ECMP	대규모 서비스 LB

성능 및 오버헤드 측정

# BPF 프로그램 실행 시간 측정 (BPF_ENABLE_STATS 필요)
echo 1 > /proc/sys/kernel/bpf_stats_enabled

# 프로그램 통계 확인 (run_time_ns: 누적 실행 시간)
bpftool prog show id 42
# 42: lsm  name bpf_socket_connect_hook ...
#     run_time_ns 12345678  run_cnt 9876543

# 평균 실행 시간 계산 (ns)
# run_time_ns / run_cnt ≈ 1.25 ns/call (JIT 최적화 후)

# cgroup_skb 오버헤드 측정 (iperf3 기준)
# BPF 없음:  ~9.8 Gbps
# cgroup_skb: ~9.4 Gbps  (약 4% 오버헤드)
# BPF LSM:    ~9.7 Gbps  (약 1% 오버헤드, 훅 경량)

# perf로 BPF JIT 코드 프로파일링
perf record -g -e cycles:u -- iperf3 -c 10.0.1.2 -t 30
perf report --kallsyms=/proc/kallsyms | grep bpf

BPF LSM 아키텍처

BPF LSM은 리눅스 보안 모듈(LSM) 프레임워크에 eBPF 프로그래밍 모델을 결합한 아키텍처입니다. 기존 SELinux, AppArmor가 정적 정책 파일로 동작하는 것과 달리, BPF LSM은 런타임에 보안 정책을 동적으로 로드·교체할 수 있으며 커널 재시작 없이 즉시 적용됩니다. 이 섹션에서는 BPF LSM의 내부 구조, trampoline 메커니즘, 훅 포인트 체계를 상세히 다룹니다.

BPF LSM trampoline 메커니즘

BPF LSM의 핵심은 fentry/fexit trampoline입니다. 커널의 security_* 훅 함수가 호출될 때, trampoline이 등록된 BPF 프로그램으로 점프하고 결과를 원래 호출 경로에 반환합니다. JIT 컴파일된 trampoline은 함수 호출 오버헤드를 최소화합니다.

trampoline 내부 구조

BPF trampoline은 arch_prepare_bpf_trampoline()에 의해 생성되는 JIT 코드 스텁입니다. 함수 진입 시 레지스터를 저장하고, 등록된 BPF 프로그램을 순차 호출한 후, 원래 함수의 반환 경로로 복귀합니다.

/* BPF Trampoline 의사 코드: security_socket_connect 훅 예시 */

/* 커널 내부: trampoline이 생성하는 JIT 코드의 논리적 구조 */
int __bpf_trampoline_security_socket_connect(
    struct socket *sock,
    struct sockaddr *address,
    int addrlen)
{
    int ret = 0;
    struct bpf_tramp_links *links;

    /* 1. fentry 프로그램 실행 (인자 관찰 전용) */
    bpf_trampoline_enter();
    for (links = fentry_links; links; links = links->next)
        bpf_prog_run(links->prog, ctx);

    /* 2. 원래 보안 훅 호출 (SELinux 등) */
    ret = original_security_socket_connect(sock, address, addrlen);

    /* 3. BPF LSM 프로그램 실행 (modify_return) */
    for (links = modify_links; links; links = links->next) {
        int bpf_ret = bpf_prog_run(links->prog, ctx);
        if (bpf_ret != 0)
            ret = bpf_ret;  /* BPF가 거부하면 -EPERM */
    }

    /* 4. fexit 프로그램 실행 (감사/로깅) */
    for (links = fexit_links; links; links = links->next)
        bpf_prog_run(links->prog, ctx);

    bpf_trampoline_exit();
    return ret;
}

다중 LSM 공존과 우선순위(Priority)

커널은 security_hook_heads 구조체에 각 LSM의 훅을 연결 리스트(Linked List)로 관리합니다. BPF LSM은 이 리스트의 마지막에 추가되어 다른 LSM이 이미 거부한 경우에는 실행되지 않습니다.

운영 팁: BPF LSM은 SELinux/AppArmor와 동시에 사용할 수 있습니다. 부팅 파라미터에 lsm=lockdown,capability,yama,apparmor,bpf처럼 나열하면 됩니다. BPF LSM 훅이 0을 반환해도 앞선 LSM이 -EACCES를 반환했다면 해당 동작은 거부됩니다.

/* security_hook_heads 구조와 BPF LSM 훅 등록 과정 */

/* include/linux/lsm_hooks.h */
struct security_hook_heads {
    struct hlist_head socket_connect;  /* 훅 체인 */
    struct hlist_head file_open;
    struct hlist_head bprm_check_security;
    struct hlist_head task_alloc;
    /* ... 수백 개의 훅 포인트 ... */
};

/* BPF LSM attach 시 내부 경로:
 *
 * bpf(BPF_LINK_CREATE, {prog_fd, attach_type=BPF_LSM_MAC})
 *   → bpf_tracing_prog_attach()
 *     → bpf_trampoline_link_prog()
 *       → arch_prepare_bpf_trampoline()
 *         → JIT 코드 생성, NOP을 JMP로 패치
 *
 * 분리 시:
 * close(link_fd)
 *   → bpf_tracing_link_release()
 *     → bpf_trampoline_unlink_prog()
 *       → JMP를 다시 NOP으로 복원
 */

/* BPF LSM 프로그램의 동적 교체 예시 (bpftool 사용) */
/*
 * # 현재 연결된 LSM 프로그램 확인
 * bpftool prog show type lsm
 *
 * # 링크 교체 (원자적: 기존 프로그램 → 새 프로그램)
 * bpftool link update id <link_id> prog id <new_prog_id>
 *
 * # 프로그램 분리 (링크 삭제)
 * bpftool link detach id <link_id>
 */

LSM 훅 포인트	호출 시점	BPF LSM 활용 예시	인자
`socket_connect`	connect() 시스템 콜	목적지 포트/IP 차단	socket, sockaddr, addrlen
`socket_bind`	bind() 시스템 콜	바인딩 포트 제한	socket, sockaddr, addrlen
`file_open`	open()/openat()	파일 경로 기반 접근 제어	file
`bprm_check_security`	execve() 직전	바이너리 허용목록	linux_binprm
`task_alloc`	fork()/clone()	프로세스 생성 제한	task, clone_flags
`mmap_file`	mmap()	W^X 메모리 보호	file, reqprot, prot, flags
`bpf`	bpf() 시스템 콜	BPF 프로그램 로드 제한	cmd, attr, size
`ptrace_access_check`	ptrace()	디버거 연결 차단	child, mode

Cilium/Falco 보안 모델

Cilium과 Falco는 eBPF를 기반으로 한 대표적인 보안 솔루션이지만 접근 방식이 근본적으로 다릅니다. Cilium은 네트워크 정책 엔진으로서 패킷의 허용/거부를 실시간 결정하고, Falco는 런타임 위협 탐지 엔진으로서 커널 이벤트를 수집·분석하여 이상 행위를 경보합니다. 두 시스템의 아키텍처를 비교하면 eBPF 보안 모델의 전체 그림을 이해할 수 있습니다.

Cilium 정책 엔진 내부

Cilium은 Kubernetes CiliumNetworkPolicy CRD를 감시하여 정책이 변경될 때마다 BPF 맵(cilium_policy_*)을 업데이트합니다. TC BPF 프로그램은 패킷 수신 시 이 맵을 조회하여 인라인으로 DROP/ALLOW를 결정합니다.

/* Cilium TC BPF 프로그램 핵심 흐름 (단순화) */

SEC("classifier/tc-ingress")
int handle_ingress(struct __sk_buff *skb)
{
    struct ct_entry *ct;
    __u32 src_identity;
    int verdict;

    /* 1. 커넥션 트래킹 조회 */
    ct = ct_lookup4(skb, &tuple);
    if (ct && ct->status == CT_ESTABLISHED)
        return TC_ACT_OK;  /* 기존 연결: 즉시 허용 */

    /* 2. ipcache에서 소스 identity 조회 */
    src_identity = ipcache_lookup(skb->src_ip);
    if (src_identity == IDENTITY_UNKNOWN)
        return TC_ACT_SHOT;  /* 미식별 트래픽: DROP */

    /* 3. 정책 맵에서 (src_id, dst_port, proto) 조회 */
    verdict = policy_lookup(src_identity, dst_port, proto);

    /* 4. Hubble로 이벤트 전송 (모니터링) */
    send_trace_notify(skb, src_identity, verdict);

    return verdict;  /* TC_ACT_OK 또는 TC_ACT_SHOT */
}

Falco 이벤트 파이프라인

Falco는 eBPF 프로브(Probe)를 커널에 부착하여 시스템 콜 이벤트를 실시간 수집합니다. 커널 내 BPF 프로그램에서 기본적인 필터링을 수행한 뒤, 사용자 공간의 규칙 엔진이 YAML로 정의된 조건을 평가하여 경보를 생성합니다.

/* Falco eBPF 프로브 — sys_enter_openat 트레이스포인트 */

SEC("tracepoint/syscalls/sys_enter_openat")
int falco_sys_enter_openat(struct trace_event_raw_sys_enter *ctx)
{
    struct event_data evt = {};
    __u64 pid_tgid = bpf_get_current_pid_tgid();

    /* 커널 내 사전 필터: 관심 없는 PID 건너뛰기 */
    if (bpf_map_lookup_elem(&ignored_pids, &pid_tgid))
        return 0;

    evt.pid = pid_tgid >> 32;
    evt.tid = (__u32)pid_tgid;
    evt.syscall_nr = ctx->id;
    bpf_get_current_comm(&evt.comm, sizeof(evt.comm));

    /* 파일 경로 인자 캡처 */
    bpf_probe_read_user_str(&evt.filename, sizeof(evt.filename),
                            (char *)ctx->args[1]);

    /* ring buffer로 사용자 공간에 전송 */
    bpf_ringbuf_output(&events_rb, &evt, sizeof(evt), 0);
    return 0;
}

/* Falco 규칙 예시 (YAML):
 *
 * - rule: Read sensitive file detected
 *   desc: Detect read of sensitive files
 *   condition: >
 *     evt.type in (open, openat) and
 *     fd.name in (/etc/shadow, /etc/gshadow) and
 *     not proc.name in (systemd, sshd)
 *   output: >
 *     Sensitive file opened (user=%user.name
 *     command=%proc.cmdline file=%fd.name)
 *   priority: WARNING
 */

특성	Cilium	Falco	Tetragon
동작 모드	인라인 정책 적용	관찰·탐지·경보	관찰 + 인라인 차단
BPF 타입	TC BPF, XDP	tracepoint, kprobe	kprobe, tracepoint, LSM
정책 단위	Identity (Label 해시)	시스콜 + 프로세스 컨텍스트	프로세스 + 파일 + 네트워크
지연 시간	마이크로초 (인라인)	밀리초 (사용자 공간 평가)	마이크로초 (커널 내 결정)
차단 가능	네트워크 패킷	불가 (관찰 전용)	프로세스 kill, 시그널
맵 유형	LPM_TRIE, HASH, CT	RINGBUF, HASH	HASH, RINGBUF, ARRAY
K8s 통합	CiliumNetworkPolicy	FalcoSidekick + Helm	TracingPolicy CRD

서명된 BPF 프로그램과 권한 모델

리눅스 커널 5.8에서 도입된 CAP_BPF는 BPF 관련 권한을 CAP_SYS_ADMIN에서 분리한 세밀한 capability입니다. 커널 6.9에서는 BPF 토큰 메커니즘이 추가되어 비특권 컨테이너에서도 제한된 BPF 기능을 안전하게 사용할 수 있게 되었습니다. 이 섹션에서는 BPF 권한 체계, 토큰 메커니즘, 서명 검증 접근 방식을 다룹니다.

BPF 토큰 메커니즘 상세

BPF 토큰은 bpf(BPF_TOKEN_CREATE) 시스템 콜로 생성되며, bpffs(BPF 파일시스템)에 핀(pin)으로 고정할 수 있습니다. 호스트의 특권 프로세스가 토큰을 생성하고 컨테이너 네임스페이스로 마운트(Mount)하면, 비특권 컨테이너 내부에서도 허용된 범위의 BPF 작업을 수행할 수 있습니다.

/* BPF 토큰 생성 및 위임 예시 */

/* 호스트에서: 토큰 생성 */
union bpf_attr attr = {};
attr.token_create.bpffs_fd = bpffs_fd;
attr.token_create.flags = 0;

/* 허용할 프로그램 타입 비트마스크 설정 */
attr.token_create.allowed_prog_types =
    (1ULL << BPF_PROG_TYPE_SOCKET_FILTER) |
    (1ULL << BPF_PROG_TYPE_CGROUP_SKB);

/* 허용할 맵 타입 비트마스크 설정 */
attr.token_create.allowed_map_types =
    (1ULL << BPF_MAP_TYPE_HASH) |
    (1ULL << BPF_MAP_TYPE_ARRAY);

int token_fd = bpf(BPF_TOKEN_CREATE, &attr, sizeof(attr));

/* bpffs에 토큰 핀 고정 */
bpf_obj_pin(token_fd, "/sys/fs/bpf/container_token");

/* 컨테이너에서: 토큰을 사용한 프로그램 로드 */
union bpf_attr load_attr = {};
load_attr.prog_type = BPF_PROG_TYPE_CGROUP_SKB;
load_attr.prog_token_fd = bpf_obj_get("/sys/fs/bpf/container_token");
load_attr.insns = prog_insns;
load_attr.insn_cnt = insn_cnt;

/* CAP_BPF 없이도 토큰 범위 내에서 로드 가능 */
int prog_fd = bpf(BPF_PROG_LOAD, &load_attr, sizeof(load_attr));

BPF 프로그램 서명 검증 구현

현재 리눅스 커널에는 BPF 프로그램의 내장 서명 검증 기능이 없지만, BPF LSM의 bpf 훅을 사용하여 자체 서명 검증 정책을 구현할 수 있습니다. 이 접근 방식은 Google, Meta 등의 대규모 환경에서 실제로 운용됩니다.

/* BPF LSM 기반 서명 검증 게이트키퍼 */

struct {
    __uint(type, BPF_MAP_TYPE_HASH);
    __uint(max_entries, 4096);
    __type(key, __u8[32]);    /* SHA-256 해시 */
    __type(value, __u8);       /* 1 = 허용 */
} allowed_prog_hashes SEC(".maps");

SEC("lsm/bpf")
int BPF_PROG(bpf_gatekeeper,
             int cmd,
             union bpf_attr *attr,
             unsigned int size)
{
    __u8 hash[32];
    __u8 *allowed;

    /* BPF_PROG_LOAD 명령만 검사 */
    if (cmd != BPF_PROG_LOAD)
        return 0;

    /* 프로그램 명령어의 SHA-256 해시 계산 */
    compute_insn_hash(attr->insns, attr->insn_cnt, hash);

    /* 허용 목록에 있는지 확인 */
    allowed = bpf_map_lookup_elem(&allowed_prog_hashes, hash);
    if (!allowed || *allowed != 1) {
        bpf_printk("BPF gatekeeper: 미승인 프로그램 차단\n");
        return -EPERM;
    }

    return 0;  /* 허용 */
}

보안 고려사항: BPF 토큰은 호스트의 특권 프로세스만 생성할 수 있으므로, 컨테이너가 탈출(escape)하더라도 토큰에 정의된 범위 밖의 BPF 작업은 수행할 수 없습니다. 그러나 unprivileged_bpf_disabled=2로 설정하면 비특권 BPF를 영구적으로 차단하여 재부팅 없이는 다시 활성화할 수 없어 가장 강력한 보호를 제공합니다.

eBPF 공격 표면과 방어

eBPF는 강력한 커널 프로그래밍 프레임워크이지만, 그 자체가 공격 표면이 될 수 있습니다. 검증기(verifier) 우회 취약점, 추측 실행(speculative execution) 공격, JIT 코드 악용 등 다양한 위협이 존재합니다. 이 섹션에서는 알려진 공격 벡터와 커널의 방어 메커니즘을 분석합니다.

검증기 우회 취약점 분석

BPF 검증기는 프로그램 안전성을 보장하는 핵심 게이트키퍼이지만, 복잡한 상태 머신 특성으로 인해 논리 버그가 발생할 수 있습니다. 대표적인 공격 패턴은 ALU 산술 경계 추적 오류로, 검증기가 레지스터의 값 범위를 잘못 추정하여 경계 밖 메모리 접근을 허용하는 것입니다.

/* 검증기 우회 공격 패턴 분석 (CVE-2021-31440 유사) */

/* 공격자의 BPF 프로그램: ALU32 산술 경계 오류 악용 */

/* 1. 검증기가 r1의 범위를 [0, 0xFFFFFFFF]로 추적 */
__u64 r1 = bpf_get_prandom_u32();

/* 2. 32비트 산술 후 검증기가 64비트 범위를 잘못 계산
 *    실제값: r1이 음수일 수 있음 (부호 확장)
 *    검증기 추정: r1 ∈ [0, max_positive] (잘못된 범위) */
r1 = (__s32)r1;  /* 부호 확장 — 검증기 혼동 유발 */

/* 3. 잘못된 범위 기반으로 경계 검사 통과 */
if (r1 < map_size) {
    /* 검증기: "안전" 판정 (실제로는 경계 밖 가능) */
    val = map[r1];  /* 경계 밖 읽기 → 커널 메모리 누출 */
}

/* 방어: 커널 5.16+ verifier 패치
 * - ALU32 연산 후 64비트 범위를 보수적으로 재계산
 * - reg_bounds_sync()에서 부호 확장 경우를 명시 처리
 * - 정밀 추적(precise tracking)으로 가지치기 정확도 향상 */

커널 하드닝 설정 가이드

프로덕션 환경에서는 다음 커널 설정으로 eBPF 공격 표면을 최소화합니다. 설정은 /etc/sysctl.d/ 또는 부팅 파라미터로 적용할 수 있습니다.

# eBPF 하드닝 sysctl 설정 (/etc/sysctl.d/99-bpf-hardening.conf)

# 비특권 사용자의 BPF 사용 영구 차단 (가장 강력)
# 0=허용, 1=차단(sysctl로 재허용 가능), 2=영구 차단
kernel.unprivileged_bpf_disabled = 2

# JIT 상수 블라인딩 활성화 (JIT spray 방어)
# 상수 값을 XOR 마스킹하여 예측 불가능하게 만듦
net.core.bpf_jit_harden = 2

# JIT 메모리 제한 (DoS 방지)
net.core.bpf_jit_limit = 268435456  # 256MB

# 커널 포인터 노출 제한
kernel.kptr_restrict = 2

# lockdown 모드 (커널 무결성 보호)
# integrity: 커널 수정 방지, confidentiality: 정보 노출도 방지
kernel.lockdown = confidentiality

# perf_event 접근 제한 (kprobe 악용 방지)
kernel.perf_event_paranoid = 3

# 부팅 파라미터 권장 설정
# GRUB_CMDLINE_LINUX에 추가:
# lockdown=confidentiality lsm=lockdown,capability,yama,bpf
# spec_store_bypass_disable=on spectre_v2=on

CVE	취약점 유형	영향 커널	패치 메커니즘	심각도
CVE-2021-31440	ALU32 bounds 추적 오류	5.7-5.11	reg_bounds_sync() 수정	높음
CVE-2022-23222	PTR_TO_MEM 검증 부재	5.8-5.16	포인터 타입 검증 추가	높음
CVE-2021-33200	Spectre v1 마스킹 누락	5.7-5.12	ALU_SANITIZE 확대 적용	중간
CVE-2023-2163	검증기 상태 가지치기	5.4-6.3	상태 비교 로직 강화	높음
CVE-2021-3490	ALU bitwise 범위 오류	5.7-5.12	비트 연산 범위 계산 수정	높음
CVE-2022-0500	BTF 포인터 혼동	5.14-5.16	BTF 타입 검증 강화	중간

운영 권장사항: 프로덕션 환경에서는 unprivileged_bpf_disabled=2와 bpf_jit_harden=2를 기본 설정으로 사용하세요. BPF 프로그램은 반드시 CAP_BPF를 가진 전용 서비스 계정으로만 로드하고, audit 로그로 모든 BPF 시스템 콜을 기록하여 추적성을 확보합니다.

ftrace/bpftrace eBPF 보안 모니터링

ftrace와 bpftrace는 eBPF 기반 보안 이벤트를 실시간으로 모니터링하고 비정상 BPF 프로그램을 탐지하는 데 사용할 수 있습니다. 기존 BPF 프로그램의 동작을 관찰하고, 의심스러운 맵 접근, 비정상적인 프로그램 로드 패턴, 예상 밖의 헬퍼 함수 호출을 실시간으로 포착합니다.

bpftrace를 이용한 BPF 보안 모니터링

bpftrace는 BPF 프로그램의 로드·실행·해제를 실시간 관찰할 수 있는 강력한 도구입니다. 다음은 보안 관점에서 유용한 모니터링 스크립트입니다.

/* bpftrace: BPF 프로그램 로드 모니터링
 * 모든 BPF 프로그램 로드 시도를 기록하고 비정상 패턴 탐지 */

#!/usr/bin/env bpftrace

/* 1. BPF 시스템 콜 진입 추적 */
tracepoint:syscalls:sys_enter_bpf
{
    /* 명령 타입: 5=BPF_PROG_LOAD, 28=BPF_LINK_CREATE */
    @cmd = args->cmd;
    @uid = uid;
    @comm = comm;

    /* BPF_PROG_LOAD 이벤트만 상세 기록 */
    if (args->cmd == 5) {
        printf("BPF_PROG_LOAD: uid=%d comm=%s pid=%d\n",
               uid, comm, pid);

        /* 비특권 사용자의 로드 시도 경보 */
        if (uid != 0 && uid != 65534) {
            printf("*** ALERT: 비특권 BPF 로드 시도! uid=%d ***\n", uid);
        }
    }
}

/* 2. BPF 시스템 콜 반환 추적 (성공/실패) */
tracepoint:syscalls:sys_exit_bpf
/ @cmd == 5 /
{
    if (args->ret < 0) {
        printf("  → FAILED (errno=%d) uid=%d comm=%s\n",
               -args->ret, @uid, @comm);
    } else {
        printf("  → SUCCESS fd=%d uid=%d comm=%s\n",
               args->ret, @uid, @comm);
    }
}

/* 3. 프로그램 로드 빈도 히스토그램 (DoS 탐지) */
tracepoint:syscalls:sys_enter_bpf
/ args->cmd == 5 /
{
    @load_freq[comm] = count();
    @load_rate = count();
}

interval:s:10
{
    printf("\n--- 10초간 BPF 로드 횟수: %d ---\n", @load_rate);
    if (@load_rate > 100) {
        printf("*** ALERT: BPF 로드 폭주 탐지! ***\n");
    }
    clear(@load_rate);
}

ftrace를 이용한 BPF 보안 이벤트 추적

ftrace의 tracefs 인터페이스를 사용하면 별도 도구 설치 없이도 커널 내 BPF 관련 함수의 호출을 추적할 수 있습니다.

# ftrace로 BPF 보안 이벤트 추적 설정

# 1. BPF 관련 tracepoint 활성화
echo 1 > /sys/kernel/debug/tracing/events/bpf/enable
echo 1 > /sys/kernel/debug/tracing/events/bpf/bpf_prog_load/enable
echo 1 > /sys/kernel/debug/tracing/events/bpf/bpf_prog_put_rcu/enable

# 2. 함수 그래프 추적: __sys_bpf 내부 호출 경로
echo function_graph > /sys/kernel/debug/tracing/current_tracer
echo __sys_bpf > /sys/kernel/debug/tracing/set_graph_function
echo 5 > /sys/kernel/debug/tracing/max_graph_depth

# 3. 필터: BPF_PROG_LOAD 명령만 추적
echo 'cmd == 5' > /sys/kernel/debug/tracing/events/bpf/bpf_prog_load/filter

# 4. 실시간 로그 확인
cat /sys/kernel/debug/tracing/trace_pipe

# 출력 예시:
#  bpftool-1234  [002]  123.456: bpf_prog_load:
#    prog_type=29 (LSM) insn_cnt=42
#    prog_name=bpf_socket_hook
#    expected_attach_type=MAC

# 5. bpftool을 이용한 실시간 프로그램 감사
# 모든 로드된 BPF 프로그램의 실행 통계 확인
bpftool prog show --json | python3 -c "
import json, sys
progs = json.load(sys.stdin)
for p in progs:
    name = p.get('name', 'unknown')
    run_cnt = p.get('run_cnt', 0)
    run_time = p.get('run_time_ns', 0)
    if run_cnt > 0:
        avg_ns = run_time / run_cnt
        # 평균 100us 초과 시 경고
        if avg_ns > 100000:
            print(f'WARN: {name} avg={avg_ns:.0f}ns (과도한 실행 시간)')
        else:
            print(f'OK:   {name} avg={avg_ns:.0f}ns cnt={run_cnt}')
"

# 6. 비정상 맵 접근 탐지 (bpftool map 감사)
# 예상 외 프로세스가 보안 맵에 접근하는지 확인
bpftool map show --json | python3 -c "
import json, sys
maps = json.load(sys.stdin)
security_maps = ['blocked_ports', 'cilium_policy', 'allowed_prog_hashes']
for m in maps:
    name = m.get('name', '')
    if name in security_maps:
        print(f'보안 맵 발견: id={m[\"id\"]} name={name} type={m[\"type\"]}')
        # 맵 소유 프로그램 확인
        if 'pids' in m:
            for pid_info in m['pids']:
                print(f'  접근 PID: {pid_info}')
"

보안 모니터링 자동화 스크립트

다음은 프로덕션 환경에서 eBPF 보안 상태를 종합적으로 점검하는 스크립트입니다. cron이나 systemd timer로 주기적으로 실행하여 이상 징후를 조기에 발견할 수 있습니다.

#!/bin/bash
# ebpf-security-audit.sh — eBPF 보안 상태 종합 점검

# 1. 커널 하드닝 설정 검증
echo "=== eBPF 하드닝 설정 점검 ==="

UNPRIV=$(cat /proc/sys/kernel/unprivileged_bpf_disabled)
JIT_HARDEN=$(cat /proc/sys/net/core/bpf_jit_harden)
KPTR=$(cat /proc/sys/kernel/kptr_restrict)

[ "$UNPRIV" -lt 2 ] && echo "WARN: unprivileged_bpf_disabled=$UNPRIV (권장: 2)"
[ "$JIT_HARDEN" -lt 2 ] && echo "WARN: bpf_jit_harden=$JIT_HARDEN (권장: 2)"
[ "$KPTR" -lt 2 ] && echo "WARN: kptr_restrict=$KPTR (권장: 2)"

# 2. 로드된 BPF 프로그램 인벤토리
echo "=== 로드된 BPF 프로그램 ==="
PROG_COUNT=$(bpftool prog show 2>/dev/null | grep -c "^[0-9]")
echo "총 $PROG_COUNT 개 프로그램 로드됨"

# LSM 타입 프로그램 목록 (보안 정책 관련)
echo "--- LSM 프로그램 ---"
bpftool prog show type lsm 2>/dev/null || echo "(없음)"

# 3. 보안 관련 맵 무결성 확인
echo "=== 보안 맵 상태 ==="
bpftool map show 2>/dev/null | while read line; do
    echo "  $line"
done

# 4. 최근 BPF 감사 로그 확인
echo "=== 최근 BPF 감사 이벤트 (1시간) ==="
journalctl --since "1 hour ago" -k 2>/dev/null | \
    grep -i "bpf\|prog_load\|map_create" | tail -20

echo "=== 점검 완료 ==="

실무 팁: bpftrace 스크립트를 systemd 서비스로 등록하면 BPF 프로그램 로드 이벤트를 상시 모니터링할 수 있습니다. bpftrace -o /var/log/bpf-audit.log로 파일 출력하고 logrotate로 관리하면 장기간 감사 추적이 가능합니다. Falco + Tetragon과 결합하면 BPF 레벨의 위협 탐지부터 자동 대응까지 완전한 파이프라인을 구축할 수 있습니다.

흔한 실수와 주의사항

eBPF 보안 정책은 강력하지만 훅 위치, 권한 모델, 정책 우선순위를 잘못 이해하면 보안 공백이 발생하거나 운영 사고로 이어집니다. 아래는 BPF LSM·cgroup_skb·seccomp·서비스 메쉬 통합에서 자주 보고된 6가지 실수입니다.

실수	증상	원인	해결 방법
BPF LSM 훅을 비특권 컨테이너에서 직접 로드 시도	`bpf()`가 EPERM 반환, BPF_PROG_TYPE_LSM 로드 실패	LSM 훅은 GPL+CAP_SYS_ADMIN 또는 BPF_TOKEN(6.9+) 필요	호스트에서 BPF_TOKEN을 발급해 namespace 안에서 사용. 또는 호스트 데몬(Cilium/Tetragon)이 대신 로드.
cgroup_skb로 L7 검사 시도	HTTP/gRPC 헤더 매칭 실패, 부분 일치만 됨	cgroup_skb는 첫 1~2 패킷 단위에서만 동작 — TCP 재조립 불가	L7 정책은 `sk_msg`·`sockops`·sidecar 프록시(Envoy/Cilium L7)로 분리. cgroup_skb는 5-tuple/패킷 통계용.
seccomp USER_NOTIF에서 fd 누수	장시간 운용 후 호스트 프로세스 fd 고갈, EMFILE	SECCOMP_IOCTL_NOTIF_RECV로 받은 notify_fd를 응답 후 close 안 함	응답 직후 `close(notify_fd)` 또는 `SECCOMP_IOCTL_NOTIF_ID_VALID`로 무효화(Invalidation). 컨테이너 런타임 옵저버 확인.
Cilium identity와 CIDR 정책 혼합 시 우선순위 오해	의도한 deny가 적용되지 않거나 외부 트래픽이 통과	identity 매칭이 CIDR 매칭보다 우선 — Pod-to-Pod는 identity로만 평가	같은 트래픽에 대해 identity·CIDR 동시 정의 시 정책 디버그(`cilium policy trace`)로 평가 순서 검증.
BPF LSM 훅이 0이 아닌 값을 반환해야 deny	모든 호출이 거부되어 시스템 정지에 가까움	LSM 훅은 `0`이 허용·`-EPERM` 등 음수가 거부. 일반 BPF의 0/1 의미와 반대.	각 훅의 반환 의미를 `include/linux/lsm_hook_defs.h`에서 확인. deny 시 명시적 `return -EPERM`.
struct_ops LSM에 GPL 라이선스 미선언	verifier가 프로그램 로드를 거부, "license not GPL compatible"	LSM·struct_ops는 GPL 헬퍼를 호출하지 않더라도 GPL 강제	소스에 `char _license[] SEC("license") = "GPL";` 명시. CO-RE 빌드 시에도 동일.

도입 전 점검: ① 커널이 CONFIG_BPF_LSM=y이고 lsm=...,bpf 부트 파라미터로 활성화됐는지, ② 사용 환경이 비특권 컨테이너라면 BPF_TOKEN(6.9+) 또는 권한 위임 데몬을 준비했는지, ③ 정책 deny 시 영향 범위(전체 호스트 vs 특정 cgroup)가 명확한지를 확인합니다.

공식 문서 기준 최신 운영 포인트

2026년 4월 21일 기준 공개된 커널 공식 문서를 보면, eBPF 보안 운영의 최신 기준은 기능 수보다 검증 경로와 권한 모델을 분리해 관리하는 것에 더 가깝습니다. 특히 BPF LSM은 일반 추적용 BPF보다 훨씬 강한 verifier 제약과 attach 제약을 받으므로, 실무에서는 "정책 로직이 맞는가"만이 아니라 "이 오브젝트가 대상 커널에서 실제로 로드되고 붙을 수 있는가"를 별도 점검 항목으로 둬야 합니다.

LSM 훅은 실행 문맥별로 나눠 설계합니다

공식 prog_lsm 문서는 BPF LSM이 기존 LSM 훅 표면을 공유한다는 점을 전제로 설명합니다. 실제 운영에서는 이것이 곧 "모든 정책을 하나의 거대한 LSM 프로그램으로 합칠 수 있다"는 뜻이 아닙니다. 훅마다 실행 문맥이 다르고, 수면 가능(sleepable) 여부에 따라 helper와 접근 가능한 커널 상태가 달라질 수 있으므로, 파일 열기·실행 제어·네트워크 접근 제어를 문맥별 프로그램으로 분리하는 편이 verifier 친화적이고 장애 분석도 쉬워집니다.

운영 기준: 새로운 보안 정책을 붙일 때는 "어느 훅이 더 편한가"보다 먼저 "그 훅이 어떤 실행 문맥에서 호출되는가"를 확인하세요. 동일한 로직이라도 문맥이 바뀌면 verifier 거부나 helper 사용 제한으로 바로 배포 실패가 날 수 있습니다.

verifier 실패는 정책 경고가 아니라 배포 실패입니다

공식 verifier 문서는 모든 경로가 커널 로드 전에 정적으로 검증되고, 포인터 범위 추론이나 helper 호출 조건이 맞지 않으면 프로그램 전체가 거부된다고 설명합니다. 보안 정책에서는 이것이 "일부 규칙만 비활성화"가 아니라 정책 전체가 전혀 집행되지 않는 상태를 뜻합니다. 따라서 운영 파이프라인에서는 CO-RE 재배치 성공 여부, 대상 커널 BTF 유무, verifier 로그 수집 여부를 함께 관리해야 합니다.

보안 정책 배포 전 대상 커널의 BTF와 필요한 kfunc 노출 여부를 확인합니다.
verifier 로그를 저장하지 않으면 실제 차단 실패를 단순 권한 문제로 오인하기 쉽습니다.
"로드 성공"과 "attach 성공"을 분리해 알람화해야 배포 사고를 빨리 찾을 수 있습니다.

실무 점검 메모

CONFIG_BPF, CONFIG_BPF_SYSCALL, CONFIG_BPF_LSM뿐 아니라 부트 파라미터 lsm=...,bpf 활성 여부를 함께 확인합니다.
SELinux, AppArmor, IPE와 병행할 때는 "어느 LSM이 먼저 거부했는가"를 감사 로그에서 식별할 수 있게 준비합니다.
컨테이너 환경에서는 BPF token이나 위임 모델을 쓰더라도 LSM 타입 프로그램 허용 범위를 attach 대상 기준으로 제한합니다.
커널 업그레이드 시에는 기능 추가보다 verifier 동작 변화가 더 큰 운영 변수일 수 있으므로 기존 정책 오브젝트를 재검증합니다.

참고자료

Kernel BPF docs — 커널 공식 BPF 문서입니다.
Cilium docs — Cilium 공식 문서로, 네트워크 정책과 identity 기반 보안을 다룹니다.
Cilium BPF reference — BPF/XDP 아키텍처를 상세히 설명합니다.
Isovalent Tetragon — Tetragon 런타임 보안 관측 엔진 문서입니다.
Falco — Falco 런타임 위협 탐지 엔진 문서입니다.
KubeArmor — BPF-LSM 기반 컨테이너 보안 플랫폼 문서입니다.
BPF LSM kernel docs — BPF LSM 프로그램 타입에 대한 커널 문서입니다.
libbpf — libbpf 라이브러리 API 참조 문서입니다.
bpftool man page — bpftool 명령어 매뉴얼 페이지입니다.
LWN.net BPF articles — LWN의 BPF 관련 기사 색인입니다.
BPF Performance Tools — Brendan Gregg의 BPF 성능 도구 서적 안내 페이지입니다.
Cloudflare BPF — Cloudflare의 eBPF 활용 사례 블로그 게시물 모음입니다.
eBPF.io — eBPF 커뮤니티 허브로, 튜토리얼과 생태계 안내를 제공합니다.
KRSI (Kernel Runtime Security Instrumentation) — KRSI/BPF-LSM 초기 설계에 대한 LWN 논의입니다.
seccomp-BPF — seccomp BPF 필터에 대한 커널 문서입니다.

eBPF 기반 보안 정책과 관련된 다른 주제를 더 깊이 이해하고 싶다면 다음 문서를 참고하세요.

eBPF 기반 보안 정책

핵심 요약

단계별 이해

개요: eBPF 보안 생태계

BPF 프로그램 타입 비교

BPF LSM (Linux Security Module)

BPF LSM 훅 등록 원리

BPF LSM 프로그램 로드 및 연결

주요 LSM 훅 목록

lsm_run_prog() 내부 동작 구조

BPF LSM 완전한 소켓 보안 예제 (링 버퍼(Ring Buffer) 감사 포함)

BPF LSM과 SELinux/MAC 공존

네트워크 관련 LSM 훅 전체 목록

권한 모델

cgroup_skb: 컨테이너 네트워크 방화벽

cgroup_skb 연결 아키텍처

cgroup_skb BPF 프로그램 연결 방법

cgroup 계층과 BPF 상속

BPF_F_ALLOW_OVERRIDE vs BPF_F_ALLOW_MULTI

cgroup_skb ingress L7 페이로드(Payload) 검사

/sys/fs/cgroup 계층 구조와 BPF 프로그램 매핑(Mapping)

소켓 레벨 BPF 필터 (SO_ATTACH_FILTER)

SO_ATTACH_BPF: eBPF 소켓 필터

RAW 소켓과 AF_PACKET

BPF_PROG_TYPE_CGROUP_SOCK

CGROUP_SOCK attach 타입 목록

CGROUP_SOCK 예시: 특정 포트 바인딩 금지

Cilium & Calico 커널 구현 원리

Cilium 아키텍처

Cilium 데이터 경로 BPF 맵

Calico eBPF 모드

Cilium의 cilium_lxc BPF 맵 구조

TC BPF → Socket BPF → cgroup BPF 협력 관계

Calico eBPF vs iptables 모드 전환

identity 기반 정책 엔진

Cilium Identity 생성 알고리즘

BPF 정책 맵 구조

IP 기반 vs Identity 기반 정책 비교

bpf_sk_lookup 소켓 리다이렉트

bpf_sk_lookup 동작 원리

서비스 메시 투명 리다이렉트 활용 사례

Seccomp + BPF 시스템 콜(System Call) 필터링

Seccomp 모드 비교

BPF 필터 프로그램 구조

SECCOMP_RET 반환값 종류

libseccomp로 정책 생성

Docker/K8s 기본 Seccomp 프로파일

SECCOMP_RET_USER_NOTIF: 컨테이너 런타임 활용

Seccomp-BPF 성능 영향

eBPF 기반 감사 및 포렌식

Tetragon 아키텍처

TracingPolicy: 프로세스/파일/네트워크 이벤트

Falco eBPF probe 아키텍처

bpf() syscall 감사 로그

포렌식 시나리오: 컨테이너 탈출 및 권한 상승 탐지

XDP 기반 방화벽 패턴

XDP_DROP 기반 IP 블랙리스트 방화벽

XDP 동적 블랙리스트 관리

SYN Flood 방어 XDP 패턴

iptables/nftables vs XDP 방화벽 성능 비교

BPF 권한 및 보안 모델

BPF 프로그램 로드 권한 (Linux 5.8+)

BPF Token API (Linux 6.9+)

BPF Verifier 보안 모델

Unprivileged BPF 비활성화 및 CVE 사례

BPF 맵 접근 제어

실전 eBPF 네트워크 정책 구현

Cilium 정책 모델

DNS 기반 FQDN 정책 (DNS proxy → BPF 맵 갱신)

Hubble: eBPF 기반 가시성 플랫폼

Calico eBPF 모드 Felix → BPF 프로그램 생성 흐름

GKE Dataplane V2 (Cilium 기반)

eBPF 정책 vs iptables 정책 성능 비교

커널 소스 구조

주요 커널 소스 파일

BPF LSM 훅 선언 구조

cgroup_skb 커널 내부 호출 경로

호출 체인: bpf() 시스템 콜 → 검증기 → JIT 컴파일

핵심 자료구조: bpf_verifier_state

핵심 자료구조: bpf_prog

핵심 자료구조: `bpf_verifier_state`

핵심 자료구조: `bpf_prog`

소스 분석: `do_check()` — BPF 명령어 순회 검증

소스 분석: `check_mem_access()` — 메모리 접근 경계 검사

소스 분석: `bpf_lsm_verify_prog()` — LSM BPF 프로그램 사전 검증

JIT 컴파일: `bpf_int_jit_compile()` 개요