CTRL K

이직에 바로 쓰는 프론트엔드 AI 실무: MCP 기반 장애 분류 트리아지 운영 플레이북

요즘 Velog 인기/트렌드 신호를 보면, 단순한 “AI 코드 생성 후기”보다 에이전트를 실제 운영 흐름에 붙인 사례가 더 오래 읽힙니다. 특히 프론트엔드에서는 “문제 발생 후 얼마나 빨리 복구했는가”가 실무 경쟁력을 가르는 포인트가 되고 있습니다.

이직 준비 관점에서도 마찬가지입니다.

AI 도구를 썼다는 사실보다
장애를 어떤 기준으로 분류했고
복구 속도와 재발률을 어떻게 개선했는지

를 수치와 문서로 설명할 수 있어야 면접에서 강해집니다.

이번 글은 model-context-protocol-guide와 AI 디버깅 런북 사이를 잇는 운영 관점을 다룹니다. 핵심은 MCP를 “도구 연결 기술”로만 보지 않고, 장애 대응 워크플로를 표준화하는 인터페이스로 쓰는 것입니다.

왜 트리아지부터 자동화해야 할까

대부분의 팀은 장애 대응에서 아래 순서로 시간을 잃습니다.

누가 먼저 볼지 결정
재현 정보 수집
로그/에러/배포 이력 대조
우선순위 합의

문제는 1~3단계가 사람마다 방식이 달라 품질이 흔들린다는 점입니다.

MCP를 적용하면, 에이전트가 여러 소스(런타임 에러 로그, 배포 히스토리, 모니터링 이벤트, 이슈 트래커)를 같은 인터페이스로 읽어와 초기 분류안을 만들 수 있습니다. 사람은 분류안을 검토하고 승인/수정하는 데 집중하면 됩니다.

MCP 기반 장애 트리아지 아키텍처

1) 입력 계층: 반드시 고정해야 할 데이터 4종

Sentry/콘솔 에러 스택
사용자 영향 범위(세션 수, 전환율 하락)
직전 배포 변경점(PR, 커밋)
재현 조건(브라우저, 기기, 지역, 계정 상태)

이 4개가 빠지면 에이전트 품질이 급락합니다. “프롬프트를 더 잘 쓰는 것”보다 입력 신뢰도를 먼저 고정하세요.

2) 분류 계층: P0~P3 룰을 팀 언어로 명시

아래처럼 규칙을 먼저 선언해야 AI 분류가 일관됩니다.

P0: 로그인/결제/데이터 손실
P1: 핵심 전환 퍼널 장애
P2: 우회 가능한 기능 저하
P3: 미관/경고성 이슈

이 룰은 AI 산출물 검증 스코어카드와 함께 관리하면, “모델이 바뀌어도 운영 품질 유지”가 쉬워집니다.

3) 실행 계층: 조치 템플릿 자동 제안

분류 결과마다 에이전트가 아래를 초안으로 제안하게 하세요.

즉시 조치(롤백/핫픽스/플래그 OFF)
검증 체크리스트(E2E, 스모크, 접근성)
커뮤니케이션 문구(내부 공지/고객 공지)

여기서 중요한 원칙은 동일합니다.

AI는 제안하고, 최종 결정은 온콜/담당자가 한다.

실무 템플릿: 장애 티켓 본문 표준

아래 템플릿을 이슈 트래커 기본 양식으로 등록해 두면, 트리아지 품질 편차가 크게 줄어듭니다.


## FE Incident Triage (MCP)
 
### 1) 증상 요약
- 최초 감지 시각:
- 사용자 영향:
- 에러 지표:
 
### 2) AI 분류 초안
- 우선순위(P0~P3):
- 근거 데이터:
- 신뢰도:
 
### 3) 재현 정보
- 브라우저/OS:
- 계정 상태:
- 재현 단계:
 
### 4) 권장 조치
- 즉시 조치:
- 검증 시나리오:
- 롤백 필요 여부:
 
### 5) 사람 검토 결과
- 최종 우선순위:
- 실제 조치:
- 회고 포인트:

14일 적용 플랜 (이직 포트폴리오용)

1~3일차: 기준선 수집

최근 장애 10건 수동 분류
분류 정확도와 MTTA(평균 초기 대응 시간) 측정
재현 정보 누락률 기록

4~10일차: MCP 트리아지 적용

신규 장애를 에이전트 분류안 + 사람 승인 방식으로 운영
P0/P1은 15분 내 담당자 지정 SLA 적용
분류 근거가 불충분하면 자동으로 “추가 데이터 요청” 생성

11~14일차: 성과 정리

면접에서 바로 말할 수 있는 숫자는 아래 3개면 충분합니다.

MTTA 개선율
오분류율(사람 수정 비율)
장애 재발률(7일/14일)

AI 면접 대비 PR 운영법과 함께 정리하면, “도구 사용 경험”이 아니라 “운영 설계 역량”으로 포지셔닝할 수 있습니다.

면접 답변 30초 버전

“프론트엔드 장애 대응에 MCP 기반 트리아지를 붙여 초기 분류를 표준화했습니다.”
“AI가 우선순위를 제안하고 사람 승인 단계를 둬서 오분류 리스크를 통제했습니다.”
“그 결과 MTTA와 재발률을 함께 낮추고, 근거 데이터를 티켓에 일관되게 남겼습니다.”

마무리

2026년 프론트엔드 채용에서 중요한 건 AI를 ‘써봤다’가 아니라, AI를 팀 운영에 안전하게 끼워 넣은 설계 경험입니다.

장애 대응은 그걸 증명하기 가장 좋은 영역입니다.

데이터 입력 규격을 고정하고
분류 규칙을 팀 언어로 문서화하고
사람 승인 루프를 명시하세요.

이 세 가지만 지켜도, 트리아지는 “감”이 아니라 “시스템”이 됩니다.

2025•developjik

All content is licensed under CC BY-NC-SA 4.0 unless otherwise noted.