vppinfra 엔드투엔드 패턴

vppinfra API를 실제 VPP 코드에서 조합해 쓰는 엔드투엔드 패턴과 전형적인 사용 사례 모음.

선행 문서: 이 페이지는 기초와 아키텍처의 벡터 패킷 처리·그래프 노드 개념을 전제로 합니다. 내부 구현 카테고리의 다른 페이지와 함께 읽어 주세요.

📌 문서 기준 버전: 본 문서는 VPP 26.02(2026-02-25 릴리스) 를 기준으로 합니다. vppinfra 패턴과 clib 자료구조는 VPP 의 기반 인프라로 릴리스 간 안정성이 유지됩니다.

앞 절의 clib 인프라 라이브러리 상세 분석에서는 개별 API의 시그니처와 내부 동작을 살폈습니다. 이 절은 그 API들이 실제 플러그인/노드/제어 평면 코드에서 어떻게 결합되어 쓰이는지 보여 줍니다. 데이터 평면에서 자주 등장하는 8가지 패턴을 골라, 완전한 코드 스니펫과 단계별 설명, 엣지 케이스, 성능 고려 사항을 함께 실었습니다. 그대로 복사해 플러그인 스켈레톤에 붙여넣어도 동작하도록 자기 완결적인 예시로 구성했습니다.

읽는 법: 각 패턴은 (1) 문제 정의 → (2) 선택한 vppinfra API와 이유 → (3) 코드 → (4) 실전 함정 순서로 제시됩니다. API 하나를 단독으로 쓰는 법보다는 여러 API의 조합이 만들어 내는 불변식(invariant)을 익히는 데 집중하시는 편이 생산성이 높습니다.

각 패턴이 어떤 API 절과 연결되는지 먼저 짚어 두겠습니다. 아래 지도를 보고 낯선 API가 있으면 해당 링크로 돌아가 기본 시그니처부터 확인하신 뒤 다시 읽으시면 이해가 훨씬 빨라집니다.

예시	주로 쓰는 API (앵커)
1. 플로우 테이블	clib_pool + clib_bihash + clib_vec
2. 인터페이스 집합	clib_vec 기반 `clib_bitmap_*`
3. format/unformat	clib format 프레임워크 (clib 인프라)
4. clib_error 체이닝	clib_error
5. 링 버퍼 FIFO	clib_atomic + 캐시 라인 정렬 매크로
6. elog 이벤트 로깅	`elog` 매크로 계열
7. 타이머 휠	clib_time + `tw_timer_wheel` 템플릿
8. 배리어 재구성	동기화 프리미티브 + `vlib_worker_thread_barrier_*`

예시 1 — 플로우 테이블: `pool` + `bihash` + `vec` 결합

모든 L4 상태 추적(NAT, 방화벽(Firewall), 로드 밸런서, IDS)은 5-tuple → 세션 엔트리 매핑이 핵심입니다. VPP에서는 bihash로 키→인덱스를 잡고, 실제 엔트리는 pool에 저장하는 패턴이 사실상 표준입니다. 해시 테이블에 큰 구조체를 직접 담으면 리사이즈 비용이 커지고 캐시 효율이 떨어지기 때문입니다.

typedef struct {
  /* 5-tuple은 키이므로 pool 엔트리 내부에도 복사해 두어야
     bihash가 리해시할 때 역참조할 수 있습니다. */
  ip4_address_t src, dst;
  u16 sport, dport;
  u8  proto;

  /* 실제 세션 상태 */
  u64 bytes_in, bytes_out;
  u64 last_seen_ns;
  u32 flags;
  u32 thread_index; /* owner worker */
} flow_entry_t;

typedef struct {
  flow_entry_t *pool;            /* pool_get / pool_put */
  clib_bihash_16_8_t table;      /* key=16B tuple, value=pool index */
  u32 *lru_vec;                  /* vec_add1 / vec_del1 로 LRU 관리 */
  clib_spinlock_t lock;          /* 제어 평면 접근 시에만 */
} flow_table_t;

static u32
flow_insert (flow_table_t *ft, flow_key_t *k, u64 now)
{
  flow_entry_t *e;
  pool_get_zero (ft->pool, e);              /* ①   pool에서 슬롯 할당 */
  e->src = k->src; e->dst = k->dst;
  e->sport = k->sport; e->dport = k->dport;
  e->proto = k->proto;
  e->last_seen_ns = now;

  clib_bihash_kv_16_8_t kv;
  clib_memcpy_fast (&kv.key, k, sizeof (*k));
  kv.value = e - ft->pool;                  /* ②   인덱스만 저장 */
  clib_bihash_add_del_16_8 (&ft->table, &kv, 1 /* add */);

  vec_add1 (ft->lru_vec, e - ft->pool);     /* ③   LRU 꼬리에 추가 */
  return e - ft->pool;
}

static always_inline flow_entry_t *
flow_lookup (flow_table_t *ft, flow_key_t *k)
{
  clib_bihash_kv_16_8_t kv, v;
  clib_memcpy_fast (&kv.key, k, sizeof (*k));
  if (PREDICT_FALSE (clib_bihash_search_16_8 (&ft->table, &kv, &v)))
    return 0;                                /* miss → 슬로우 패스 */
  return pool_elt_at_index (ft->pool, v.value);
}

왜 이 구조가 필요한가

①pool_get_zero는 free list에서 슬롯을 꺼내거나 비어 있으면 vector를 확장합니다. 할당/해제에 malloc 수준 비용이 들지 않으면서도 인덱스가 안정적입니다. 리사이즈가 일어나도 pool_elt_at_index는 정확한 포인터를 돌려 줍니다.
②bihash 값에는 flow_entry_t를 직접 담지 않고 pool 인덱스만 저장합니다. 해시 리사이즈 비용을 O(엔트리 크기)에서 O(8 바이트)로 낮춥니다.
③LRU 벡터로 만료 순서를 관리하면 타임아웃 스캔이 vec_foreach 한 줄로 끝납니다. 단, vec_del1은 O(1) 이지만 순서를 보장하지 않으므로, 엄격한 시간 순서가 필요하면 dlist(doubly-linked list) 또는 타임 휠을 추가하시기 바랍니다.

함정: pool_put 직후 같은 인덱스가 재사용될 수 있습니다. 데이터 평면이 아직 lookup 중일 수 있으므로, 삭제는 배리어 동기화 구간에서만 수행하거나 에폭 기반 해제(RCU-like 패턴)를 사용해야 합니다. bihash 자체는 read-mostly 시나리오에서 락 없이 안전합니다.

예시 2 — 인터페이스 집합 관리: `clib_bitmap`

ACL에서 "이 규칙이 적용되는 인터페이스 집합"을 표현하거나, feature arc에서 "enable된 스레드 집합"을 관리할 때 비트맵이 가장 효율적입니다. clib_bitmap_t는 uword 단위 벡터로 자동 확장되며, vec_validate와 같은 메모리 관리 관례를 그대로 따릅니다.

uword *sw_if_index_bitmap = 0;   /* 빈 비트맵 */

/* 인터페이스 enable */
sw_if_index_bitmap = clib_bitmap_set (sw_if_index_bitmap, sw_if_index, 1);

/* 특정 인터페이스가 집합에 속하는지 확인 — O(1) */
if (clib_bitmap_get (sw_if_index_bitmap, sw_if_index))
  vnet_feature_enable_disable ("ip4-unicast", "my-filter",
                               sw_if_index, 1, 0, 0);

/* 집합 순회 — 활성화된 인덱스만 돕니다 */
u32 i;
clib_bitmap_foreach (i, sw_if_index_bitmap)
  {
    vnet_sw_interface_t *si = vnet_get_sw_interface (vnm, i);
    vlib_cli_output (vm, "  %U", format_vnet_sw_interface_name, vnm, si);
  }

/* 두 집합의 교집합 (예: 허용 IF ∩ 활성 IF) */
uword *intersect = clib_bitmap_dup_and (allow_bm, active_bm);
/* ... 사용 ... */
vec_free (intersect);

비트맵은 희소(sparse)한 집합에는 비효율적입니다. 예를 들어 sw_if_index가 100만까지 갈 수 있는 환경에서 한두 개만 쓴다면 uword * 대신 u32 * 벡터 또는 bihash를 쓰시기 바랍니다. 반대로 수백~수만 개 인터페이스를 다루는 에지 라우터에서는 비트맵이 캐시 친화적이고 논리 연산(AND/OR/XOR)까지 상수 시간에 가능하여 이상적입니다.

예시 3 — `format`/`unformat`: 사용자 정의 출력·파서

VPP의 모든 CLI 출력과 설정 파싱은 format/unformat 프레임워크를 거칩니다. printf류와 달리 사용자 함수를 포맷 지시자로 주입할 수 있어, 복잡한 구조체를 한 줄로 출력할 수 있습니다. 이 관례를 따르지 않으면 show 명령의 일관성이 깨집니다.

/* 포맷 함수: 5-tuple을 "src:sport -> dst:dport proto" 형태로 출력 */
u8 *
format_flow_key (u8 *s, va_list *args)
{
  flow_key_t *k = va_arg (*args, flow_key_t *);
  s = format (s, "%U:%u -> %U:%u %U",
              format_ip4_address, &k->src, clib_net_to_host_u16 (k->sport),
              format_ip4_address, &k->dst, clib_net_to_host_u16 (k->dport),
              format_ip_protocol, k->proto);
  return s;
}

/* 언포맷 함수: "1.2.3.4:80 -> 5.6.7.8:443 tcp" 를 파싱 */
uword
unformat_flow_key (unformat_input_t *input, va_list *args)
{
  flow_key_t *k = va_arg (*args, flow_key_t *);
  u32 sp, dp;
  if (!unformat (input, "%U:%u -> %U:%u %U",
                 unformat_ip4_address, &k->src, &sp,
                 unformat_ip4_address, &k->dst, &dp,
                 unformat_ip_protocol, &k->proto))
    return 0;
  k->sport = clib_host_to_net_u16 (sp);
  k->dport = clib_host_to_net_u16 (dp);
  return 1;
}

/* CLI 핸들러에서 사용 */
static clib_error_t *
show_flow_cmd (vlib_main_t *vm, unformat_input_t *input, vlib_cli_command_t *cmd)
{
  flow_table_t *ft = &my_plugin_main.flows;
  flow_entry_t *e;
  pool_foreach (e, ft->pool)
    {
      vlib_cli_output (vm, "%U  bytes=%llu/%llu  age=%llu ms",
                       format_flow_key, (flow_key_t *) &e->src,
                       e->bytes_in, e->bytes_out,
                       (now - e->last_seen_ns) / 1000000);
    }
  return 0;
}

format은 동적 벡터 u8 *를 반환하며, 호출자가 vec_free로 해제해야 합니다. vlib_cli_output은 내부적으로 해제를 처리하므로 직접 걱정할 일이 거의 없지만, 장기 저장이 필요하면 format (0, ...)로 새 벡터를 만들고 직접 관리하시기 바랍니다.

예시 4 — `clib_error` 체이닝과 전파

초기화 함수(VLIB_INIT_FUNCTION)·설정 함수(VLIB_CONFIG_FUNCTION)는 오류 시 clib_error_t *를 반환해야 합니다. 원인을 잃지 않고 상위로 전달하려면 체이닝이 필수입니다.

static clib_error_t *
my_plugin_configure (vlib_main_t *vm, flow_table_t *ft, u32 n_buckets, u32 mem_mb)
{
  if (n_buckets & (n_buckets - 1))
    return clib_error_return (0, "n-buckets (%u)는 2의 거듭제곱이어야 합니다", n_buckets);

  clib_bihash_init_16_8 (&ft->table, "my-flow-table", n_buckets, mem_mb << 20);

  clib_error_t *e = my_plugin_api_init (vm);
  if (e)
    return clib_error_return (e, "API 채널 초기화 실패");  /* 원인 체인 보존 */

  return 0;
}

clib_error_return (e, ...)의 첫 인자에 기존 clib_error_t *를 넘기면 원인이 포함된 새 에러가 만들어집니다. show init-function errors CLI로 초기화 실패를 재추적할 때 이 체인이 결정적입니다. 경고 수준은 clib_warning()으로 stderr에 찍고, 치명 오류는 clib_error_report()로 VPP 로그에 남기시기 바랍니다.

예시 5 — 벡터로 구현하는 링 버퍼 FIFO

워커 스레드에서 제어 평면으로 이벤트를 전달할 때, 글로벌 락 없는 SPSC 링 버퍼가 필요합니다. VPP에는 svm_queue 같은 고수준 API도 있지만, 플러그인 내부에서 가볍게 쓰고 싶다면 벡터 + 원자 인덱스로 충분합니다.

typedef struct {
  my_event_t *ring;       /* vec_validate로 고정 크기 미리 할당 */
  u32 mask;               /* 크기 - 1 (2의 거듭제곱) */
  CLIB_CACHE_LINE_ALIGN_MARK (a);
  volatile u32 head;     /* producer (워커) */
  CLIB_CACHE_LINE_ALIGN_MARK (b);
  volatile u32 tail;     /* consumer (제어 스레드) */
} event_ring_t;

static always_inline int
event_ring_push (event_ring_t *r, my_event_t *ev)
{
  u32 h = r->head;
  u32 t = clib_atomic_load_acq_n (&r->tail);
  if (PREDICT_FALSE (((h + 1) & r->mask) == (t & r->mask)))
    return -1;                       /* full → drop or backpressure */
  r->ring[h & r->mask] = *ev;
  clib_atomic_store_rel_n (&r->head, h + 1);
  return 0;
}

static u32
event_ring_drain (event_ring_t *r, my_event_t *out, u32 max)
{
  u32 t = r->tail;
  u32 h = clib_atomic_load_acq_n (&r->head);
  u32 n = clib_min (h - t, max);
  for (u32 i = 0; i < n; i++)
    out[i] = r->ring[(t + i) & r->mask];
  clib_atomic_store_rel_n (&r->tail, t + n);
  return n;
}

두 인덱스를 다른 캐시 라인(CLIB_CACHE_LINE_ALIGN_MARK)에 두는 것이 핵심입니다. 그렇지 않으면 producer/consumer가 서로의 캐시 라인을 계속 무효화(Invalidation)하여(false sharing) 링 버퍼의 의미가 사라집니다. acq/rel 배리어는 인덱스와 데이터 사이 순서를 보장하기 위해 반드시 필요합니다.

링 FIFO 오버플로: svm_fifo_enqueue()는 공간이 없으면 FIFO_EVENT_APP_TX를 반환하지 않고 실제로 쓴 바이트 수를 반환합니다. 0이 반환되면 backpressure 상황이므로, 호출자는 즉시 재시도하거나 세션에 tx-ready 이벤트(SESSION_IO_EVT_TX_FLUSH)를 등록한 뒤 콜백 재진입을 기다려야 합니다. 위의 링 버퍼 예시처럼 mask 기반 인덱스를 사용하는 경우에도 동일하게 producer가 tail을 갱신하기 전에 남은 공간(mask - (tail - head))을 확인하고 초과 시 대기 경로로 분기해야 합니다.

예시 6 — `elog`: 나노초 정밀도 이벤트 로깅

elog는 VPP의 경량 바이너리 이벤트 로거입니다. 각 이벤트가 16~24바이트이며 printf 포맷팅을 후처리(show event-logger)로 미룹니다. 나노초 단위 타임스탬프가 자동 기록되어, 슬로우 패스의 순서 문제를 추적할 때 trace보다 훨씬 가볍습니다.

/* 정적 이벤트 정의 — 포맷 문자열은 한 번만 등록 */
ELOG_TYPE_DECLARE (e_session_new) = {
  .format = "session new: idx %d proto %d dport %d",
  .format_args = "i4i1i2",
};

/* 기록 — 워커 스레드에서도 락 없이 안전 */
{
  ELOG_TYPE_DECLARE (e_session_new);
  struct { u32 idx; u8 proto; u16 dport; } *ed;
  ed = ELOG_DATA (&vlib_global_main.elog_main, e_session_new);
  ed->idx   = session_index;
  ed->proto = k->proto;
  ed->dport = clib_net_to_host_u16 (k->dport);
}

CLI 한 줄로 덤프(Dump)하고 흐름을 재구성할 수 있습니다.

vpp# event-logger resize 1000000
vpp# event-logger restart
# ... 재현 시나리오 실행 ...
vpp# show event-logger
vpp# event-logger save vpp-elog.clib
# 파일은 /tmp/ 아래에 저장됩니다. 이후 wireshark/Perfetto 풍 시각화가
# 필요하면 별도 변환 도구(c2cpel, elog-json 등)로 CLIB 바이너리를 변환합니다.

패킷 경로의 핫 패스에는 넣지 마시기 바랍니다. 이벤트당 수십 ns이 추가되므로 10 Mpps 워커에서는 눈에 띕니다. 반대로 초당 수만 건 이하의 제어 이벤트에는 최고의 도구입니다.

elog 멀티스레드 순서 보장: elog는 per-thread ring buffer를 사용하므로 각 워커의 이벤트는 워커 내에서 순서가 보장됩니다. 단, 워커 간 절대 시간 비교는 vlib_time_now()의 f64 타임스탬프(CPU 클록 기반)가 thread-safe하게 기록되므로, G2 뷰어에서 워커 타임라인을 정렬할 때 쓰는 clock이 같은 기준(CLOCK_MONOTONIC 환산값)임을 확인해야 합니다. NUMA 노드가 다른 소켓에서 TSC(Time Stamp Counter)가 동기화되지 않은 경우 워커 간 타임라인이 수십 µs 어긋나 보일 수 있으며, 이때는 커널의 tsc_unstable 플래그와 clocksource=tsc 부트 파라미터를 확인하시기 바랍니다.

elog 멀티워커 타임라인 정렬

멀티코어 환경에서 워커별 이벤트 타임라인을 정확히 합치려면 TSC 동기화 문제와 정렬 방법을 함께 이해해야 합니다.

TSC 동기화 문제

각 코어의 TSC(Time Stamp Counter)는 이론적으로 동기화되어 있지만, BIOS 설정·전력 관리·NUMA 토폴로지에 따라 워커 간 캘리브레이션 오차가 멀티코어에서 최대 수백 ns까지 벌어질 수 있습니다. 오차 원인은 크게 세 가지입니다.

소켓 간 TSC offset: 멀티소켓 시스템에서 각 CPU 패키지가 독립적으로 리셋되면 최대 수백 ns 차이가 누적됩니다.
주파수 스케일링: intel_pstate·cpufreq가 코어별 TSC 증분 속도를 미세하게 달리할 수 있습니다.
C-state 진입: 깊은 슬립(Sleep) 후 복귀 시 TSC가 일시적으로 뒤처지는 현상이 관찰됩니다.

`elog_calibrate_tsc()` 호출 방법

VPP는 초기화 과정에서 elog_calibrate_tsc()를 자동으로 수행하므로 플러그인에서 직접 호출할 필요는 없습니다. 내부적으로는 clib_time_init()가 CLOCK_MONOTONIC과 TSC를 교차 비교하여 elog_main_t.clock_ticks_per_second와 init_time_pair를 설정합니다. 디버그 빌드에서 캘리브레이션 결과를 확인하려면 아래 명령을 사용합니다.

vpp# show clock
  CPU clock freq:  3199.965 MHz
  Calibrated: yes (CLOCK_MONOTONIC reference)

멀티스레드 이벤트 순서 재구성

여러 워커의 이벤트를 시각화하려면 elog 바이너리를 JSON으로 변환한 뒤 타임스탬프 기준 정렬을 거쳐 Chrome Tracing 포맷으로 변환합니다.

# 1. 이벤트 저장
vpp# event-logger save /tmp/vpp-elog.clib

# 2. CLIB 바이너리 → JSON 변환 (VPP 소스 트리의 elog 도구 사용)
elog2json /tmp/vpp-elog.clib > /tmp/vpp-elog.json

# 3. 타임스탬프 정렬 후 Chrome Tracing 포맷으로 변환
#    (python 예시: jq 또는 별도 변환 스크립트)
python3 - <<'EOF'
import json, sys
with open('/tmp/vpp-elog.json') as f:
    events = json.load(f)
# 절대 시간(ns) 기준 정렬
events.sort(key=lambda e: e['time'])
# Chrome Tracing 포맷으로 변환
traces = [{"name": e["event"], "ph": "i", "ts": e["time"] / 1000,
           "pid": 0, "tid": e.get("cpu_id", 0)} for e in events]
with open('/tmp/vpp-trace.json', 'w') as f:
    json.dump({"traceEvents": traces}, f)
print("변환 완료: /tmp/vpp-trace.json")
EOF
# 4. Chrome 브라우저에서 chrome://tracing 열고 /tmp/vpp-trace.json 로드

`vppctl show event-log` 출력 예시와 워커별 타임라인 컬럼 해석

vpp# show event-logger
  Time(s)     CPU  Thread  Event
  0.000000000   0    0     elog init
  0.000012345   0    1     session new: idx 42 proto 6 dport 443
  0.000012398   1    2     session new: idx 43 proto 6 dport 80
  0.000013001   0    1     session new: idx 44 proto 17 dport 53
  ...

Time(s): CLOCK_MONOTONIC 환산값(초). 워커 간 비교 기준이 됩니다.
CPU: 이벤트를 기록한 물리 코어 번호. TSC 오차 원인 분석에 활용합니다.
Thread: VPP 워커 스레드 인덱스. 0은 메인 스레드, 1 이상이 패킷 처리 워커입니다.
Event: ELOG_TYPE_DECLARE로 등록한 포맷 문자열이 후처리 시 여기에 확장됩니다.

성능 영향

이벤트 로깅을 활성화하면 ELOG_DATA() 매크로 호출당 약 5–10 ns의 추가 오버헤드가 발생합니다. 이는 per-thread 링 버퍼 인덱스 원자 증가(fetch-and-add)와 TSC 읽기(rdtsc) 비용의 합산입니다. 10 Mpps 워커에서 매 패킷마다 호출하면 50–100 Mpps 처리 성능이 최대 ~5 % 저하될 수 있으므로, 핫 패스에서는 PREDICT_FALSE 조건으로 감싸거나 슬로우 패스 전용으로 한정하시기 바랍니다.

예시 7 — 타이머 휠과 `clib_time` 결합

세션 만료, keepalive, 재전송 스케줄링에는 tw_timer_wheel_* API를 사용합니다. VPP는 2초 버킷, 100ms 버킷 등 여러 해상도의 템플릿을 제공합니다. 핵심은 타이머 발사 시점의 현재 시각을 VPP 메인 루프 시계에 맞추는 것입니다.

/* 초기화 — 2초 해상도, 최대 32분 타임아웃 */
tw_timer_wheel_2t_1w_2048sl_t tw;
tw_timer_wheel_init_2t_1w_2048sl (&tw, expired_timer_cb,
                                   2.0 /* seconds per tick */, ~0);

/* 세션 만료 타이머 등록 — user_id는 pool 인덱스 */
u32 handle = tw_timer_start_2t_1w_2048sl (&tw, session_index, 0 /* timer_id */,
                                          900 /* ticks → 30분 */);
session->timer_handle = handle;

/* 메인 루프 프로세스 노드에서 주기적으로 expire */
static uword
session_timer_process (vlib_main_t *vm, vlib_node_runtime_t *rt, vlib_frame_t *f)
{
  f64 now = vlib_time_now (vm);
  while (1) {
    tw_timer_expire_timers_2t_1w_2048sl (&tw, now);
    vlib_process_suspend (vm, 1.0);    /* 1초 슬립(Sleep) */
    now = vlib_time_now (vm);
  }
  return 0;
}

/* 만료 콜백 — user_id 벡터가 넘어옵니다 */
static void
expired_timer_cb (u32 *expired_indices)
{
  u32 i;
  for (i = 0; i < vec_len (expired_indices); i++)
    flow_evict (&fm->flows, expired_indices[i]);
}

vlib_time_now()는 clib_cpu_time_now()를 기반으로 한 단조 증가 시계입니다. 벽시계(unix_time_now)와는 다르며, NTP 교정이나 suspend/resume에 영향을 받지 않습니다. 타이머 정확도는 process_suspend의 슬립(Sleep) 주기에 좌우되므로, 서브초 정밀도가 필요하면 슬립을 100 ms 이하로 줄이고 tw_timer_wheel_16t_2w_512sl처럼 해상도가 높은 템플릿을 선택하시기 바랍니다.

타이머 휠 템플릿 정밀도 비교

VPP는 용도에 따라 서로 다른 해상도와 메모리 특성을 가진 타이머 휠 템플릿을 제공합니다. 아래 표는 대표적인 세 가지 템플릿을 비교합니다.

템플릿 유형	틱 분해능	최대 타이머 기간	메모리	권장 용도
`tw_timer_wheel_2t_1w_2048sl`	2틱/슬롯 (기본 틱 2 s 설정 시 ~4 s 분해능)	슬롯 수 × 틱 간격 = 최대 ~68 분 (틱 2 s 기준)	슬롯당 포인터 1개, ~16 KB (2048슬롯 × 1휠)	세션 만료·NAT keepalive 등 분 단위 타임아웃
`tw_timer_wheel_1t_3w_1024sl`	1틱/슬롯 (틱 간격 = 설정값 그대로)	3단 휠 구조로 최대 ~1024³ 틱 (매우 긴 기간)	휠 3개, 각 1024슬롯, ~24 KB	재전송 타이머·긴 유휴 세션 등 정밀도와 범위 모두 필요한 경우
`tw_timer_wheel_16t_2w_512sl`	16틱/슬롯 (짧은 틱 권장, 예: 10 ms)	2단 휠, 최대 ~512² × 16 틱	휠 2개, 각 512슬롯, ~8 KB	서브초 정밀도가 필요한 keepalive·속도 제한 토큰 갱신

만료 누락 및 클록 스큐 처리 방법

타이머 휠에서 만료 누락이 발생하는 주요 원인과 대처 방법은 다음과 같습니다.

expire 호출 지연: 프로세스 노드의 vlib_process_suspend()는 정확한 슬립이 아닙니다. 시스템 부하가 높으면 실제 재개 시점이 수 ms 늦어질 수 있습니다. tw_timer_expire_timers_*()에 현재 시각을 넘기면 내부적으로 경과한 틱 수만큼 한꺼번에 처리하므로 만료 누락 없이 일괄 처리됩니다.
클록 스큐(Clock Skew): vlib_time_now()는 단조 증가를 보장하지만, suspend/resume 사이에 물리 시간이 크게 점프하면 타이머가 예상보다 늦게 만료될 수 있습니다. 이를 방지하려면 resume 직후 vlib_time_now()를 다시 읽어 expire를 즉시 호출해야 합니다.
틱 오버플로: 타이머 휠의 현재 틱 카운터는 u32이므로 매우 긴 운영 후 오버플로가 발생할 수 있습니다. 틱 간격이 1 ms라면 약 49일 후에 오버플로가 발생합니다. 장기 운영 서비스에서는 타이머 재등록 정책을 설계할 때 이 점을 고려해야 합니다.

# 타이머 만료 누락 여부 확인: show 명령으로 pending 타이머 수 점검
vpp# show session detail
# 세션별 타이머 핸들이 ~0 (INVALID)이면 만료 처리가 완료된 상태
# 예상보다 많은 세션이 잔존하면 expire 호출 주기를 줄이는 것을 고려

PROCESS 노드 vs 세션 레이어 타이머: 언제 어느 것을 사용할지

VPP에는 타이머를 구동하는 두 가지 대표 메커니즘이 있습니다. 사용 목적에 맞게 선택하면 불필요한 복잡도를 줄일 수 있습니다.

비교 항목	PROCESS 노드 + `tw_timer_wheel`	세션 레이어 타이머 (`session__timer_`)
정밀도	프로세스 슬립 주기에 의존 (기본 1 s, 최소 수십 ms)	세션 워커가 직접 구동, 수 ms 수준 정밀도 가능
대상	플러그인 자체 상태, 제어 평면 주도 만료	TCP 재전송, 연결 keepalive 등 세션 레이어 내부 이벤트
스레드 안전성	단일 프로세스 노드에서만 expire 호출 — 명시적 배리어 불필요	워커별 per-thread 타이머 휠 인스턴스를 각 워커가 독립 구동
권장 상황	만료 빈도가 낮고 타이밍 요구가 느슨한 경우 (세션 idle 만료, NAT 테이블 정리 등)	프로토콜 수준의 정밀한 타이밍이 필요한 경우 (TCP RTO, TLS 핸드셰이크 타임아웃 등)
구현 진입점	`VLIB_REGISTER_NODE` + `vlib_process_suspend()`	`session_add_self_custom_evt()` 또는 `transport__timer_()`

선택 기준 요약: 플러그인이 세션 레이어 위에서 동작하고 TCP/UDP 수준의 타이밍이 필요하다면 세션 레이어 타이머를 활용하십시오. 세션 레이어와 독립된 자체 상태(예: NAT 엔트리, ACL 캐시, 커스텀 테이블)의 만료 관리라면 PROCESS 노드와 tw_timer_wheel 조합이 구현이 단순하고 충분합니다.

예시 8 — 배리어 기반 원자적 재구성

제어 평면이 포인터를 바꿔 데이터 평면 동작을 교체해야 할 때(예: FIB 포인터 swap), 워커 배리어가 가장 간단한 해답입니다. 모든 워커가 안전 지점에 모이도록 강제한 뒤 수정합니다.

/* 제어 스레드(main)에서 호출 */
vlib_worker_thread_barrier_sync (vm);

/* 이 구간에서는 워커가 전혀 패킷을 처리하지 않습니다 — 안전 */
fm->active_table = fm->candidate_table;      /* 포인터 교체 */
clib_bihash_free_16_8 (&fm->old_table);

vlib_worker_thread_barrier_release (vm);

비용을 이해하시기 바랍니다. 배리어는 전체 파이프라인을 정지시킵니다. 10 Mpps 시스템에서 100 µs 배리어는 1000 패킷 지연입니다. 초당 수만 건씩 호출하면 처리량이 무너집니다. 핫 경로 갱신은 RCU-like 에폭 기반 교체 또는 SPSC 큐로 오프로드하고, 배리어는 진짜로 거대한 구조체 교체(수초에 한 번)로 한정하시기 바랍니다.

종합: vppinfra 사용 시 반복되는 함정

함정	증상	해결
`vec_add` 후 기존 포인터 사용	간헐적 SEGV, UBSan use-after-free	리사이즈가 가능한 벡터는 항상 인덱스로 참조. 핫 경로에서는 미리 `vec_validate`로 크기 확보.
`pool_put` 직후 lookup	같은 인덱스가 재할당되어 다른 세션으로 oops	배리어 구간 또는 에폭 카운터로 삭제를 지연.
bihash 값에 포인터 저장	리사이즈 시 포인터가 허상	pool 인덱스만 저장. pool은 리사이즈해도 인덱스가 불변.
`clib_bitmap_set` 반환값 무시	확장된 비트맵 포인터 손실 → 덮어쓰기 충돌	반드시 `bm = clib_bitmap_set (bm, ...)` 패턴으로 대입.
`format` 결과 벡터 누수	show 명령 반복 시 RSS 증가	`vlib_cli_output`을 쓰지 않는 경우 `vec_free (s)`를 호출.
워커 간 `vlib_main_t` 공유 자료에 락 없이 쓰기	간헐적 카운터 뒤섞임	워커별 per-thread 벡터로 분리하거나 `clib_atomic_*` 사용.
elog를 핫 패스에 남발	pps 급락	슬로우 패스·슬라이드 다운 이벤트에만 사용.

검증 습관: 플러그인을 CLIB_DEBUG=1로 빌드하면 vec_validate/pool_get 경계 검사가 활성화됩니다. CI에서 최소 한 번은 이 모드로 단위 테스트를 돌리고, 릴리스 빌드는 성능 수치를 별도로 재측정하시기 바랍니다.

vppinfra 엔드투엔드 패턴

예시 1 — 플로우 테이블: pool + bihash + vec 결합

예시 2 — 인터페이스 집합 관리: clib_bitmap

예시 3 — format/unformat: 사용자 정의 출력·파서

예시 4 — clib_error 체이닝과 전파

예시 5 — 벡터로 구현하는 링 버퍼 FIFO

예시 6 — elog: 나노초 정밀도 이벤트 로깅

elog 멀티워커 타임라인 정렬

TSC 동기화 문제

elog_calibrate_tsc() 호출 방법

멀티스레드 이벤트 순서 재구성

vppctl show event-log 출력 예시와 워커별 타임라인 컬럼 해석

성능 영향

예시 7 — 타이머 휠과 clib_time 결합

타이머 휠 템플릿 정밀도 비교

만료 누락 및 클록 스큐 처리 방법

PROCESS 노드 vs 세션 레이어 타이머: 언제 어느 것을 사용할지

예시 8 — 배리어 기반 원자적 재구성

종합: vppinfra 사용 시 반복되는 함정

예시 1 — 플로우 테이블: `pool` + `bihash` + `vec` 결합

예시 2 — 인터페이스 집합 관리: `clib_bitmap`

예시 3 — `format`/`unformat`: 사용자 정의 출력·파서

예시 4 — `clib_error` 체이닝과 전파

예시 6 — `elog`: 나노초 정밀도 이벤트 로깅

`elog_calibrate_tsc()` 호출 방법

`vppctl show event-log` 출력 예시와 워커별 타임라인 컬럼 해석

예시 7 — 타이머 휠과 `clib_time` 결합