이직에 바로 쓰는 프론트엔드 AI 실무: MCP 기반 장애 분류 트리아지 운영 플레이북
요즘 Velog 인기/트렌드 신호를 보면, 단순한 “AI 코드 생성 후기”보다 에이전트를 실제 운영 흐름에 붙인 사례가 더 오래 읽힙니다. 특히 프론트엔드에서는 “문제 발생 후 얼마나 빨리 복구했는가”가 실무 경쟁력을 가르는 포인트가 되고 있습니다.
이직 준비 관점에서도 마찬가지입니다.
- AI 도구를 썼다는 사실보다
- 장애를 어떤 기준으로 분류했고
- 복구 속도와 재발률을 어떻게 개선했는지
를 수치와 문서로 설명할 수 있어야 면접에서 강해집니다.
이번 글은 model-context-protocol-guide와 AI 디버깅 런북 사이를 잇는 운영 관점을 다룹니다. 핵심은 MCP를 “도구 연결 기술”로만 보지 않고, 장애 대응 워크플로를 표준화하는 인터페이스로 쓰는 것입니다.
왜 트리아지부터 자동화해야 할까
대부분의 팀은 장애 대응에서 아래 순서로 시간을 잃습니다.
- 누가 먼저 볼지 결정
- 재현 정보 수집
- 로그/에러/배포 이력 대조
- 우선순위 합의
문제는 1~3단계가 사람마다 방식이 달라 품질이 흔들린다는 점입니다.
MCP를 적용하면, 에이전트가 여러 소스(런타임 에러 로그, 배포 히스토리, 모니터링 이벤트, 이슈 트래커)를 같은 인터페이스로 읽어와 초기 분류안을 만들 수 있습니다. 사람은 분류안을 검토하고 승인/수정하는 데 집중하면 됩니다.
MCP 기반 장애 트리아지 아키텍처
1) 입력 계층: 반드시 고정해야 할 데이터 4종
- Sentry/콘솔 에러 스택
- 사용자 영향 범위(세션 수, 전환율 하락)
- 직전 배포 변경점(PR, 커밋)
- 재현 조건(브라우저, 기기, 지역, 계정 상태)
이 4개가 빠지면 에이전트 품질이 급락합니다. “프롬프트를 더 잘 쓰는 것”보다 입력 신뢰도를 먼저 고정하세요.
2) 분류 계층: P0~P3 룰을 팀 언어로 명시
아래처럼 규칙을 먼저 선언해야 AI 분류가 일관됩니다.
- P0: 로그인/결제/데이터 손실
- P1: 핵심 전환 퍼널 장애
- P2: 우회 가능한 기능 저하
- P3: 미관/경고성 이슈
이 룰은 AI 산출물 검증 스코어카드와 함께 관리하면, “모델이 바뀌어도 운영 품질 유지”가 쉬워집니다.
3) 실행 계층: 조치 템플릿 자동 제안
분류 결과마다 에이전트가 아래를 초안으로 제안하게 하세요.
- 즉시 조치(롤백/핫픽스/플래그 OFF)
- 검증 체크리스트(E2E, 스모크, 접근성)
- 커뮤니케이션 문구(내부 공지/고객 공지)
여기서 중요한 원칙은 동일합니다.
AI는 제안하고, 최종 결정은 온콜/담당자가 한다.
실무 템플릿: 장애 티켓 본문 표준
아래 템플릿을 이슈 트래커 기본 양식으로 등록해 두면, 트리아지 품질 편차가 크게 줄어듭니다.
## FE Incident Triage (MCP)
### 1) 증상 요약
- 최초 감지 시각:
- 사용자 영향:
- 에러 지표:
### 2) AI 분류 초안
- 우선순위(P0~P3):
- 근거 데이터:
- 신뢰도:
### 3) 재현 정보
- 브라우저/OS:
- 계정 상태:
- 재현 단계:
### 4) 권장 조치
- 즉시 조치:
- 검증 시나리오:
- 롤백 필요 여부:
### 5) 사람 검토 결과
- 최종 우선순위:
- 실제 조치:
- 회고 포인트:14일 적용 플랜 (이직 포트폴리오용)
1~3일차: 기준선 수집
- 최근 장애 10건 수동 분류
- 분류 정확도와 MTTA(평균 초기 대응 시간) 측정
- 재현 정보 누락률 기록
4~10일차: MCP 트리아지 적용
- 신규 장애를 에이전트 분류안 + 사람 승인 방식으로 운영
- P0/P1은 15분 내 담당자 지정 SLA 적용
- 분류 근거가 불충분하면 자동으로 “추가 데이터 요청” 생성
11~14일차: 성과 정리
면접에서 바로 말할 수 있는 숫자는 아래 3개면 충분합니다.
- MTTA 개선율
- 오분류율(사람 수정 비율)
- 장애 재발률(7일/14일)
AI 면접 대비 PR 운영법과 함께 정리하면, “도구 사용 경험”이 아니라 “운영 설계 역량”으로 포지셔닝할 수 있습니다.
면접 답변 30초 버전
- “프론트엔드 장애 대응에 MCP 기반 트리아지를 붙여 초기 분류를 표준화했습니다.”
- “AI가 우선순위를 제안하고 사람 승인 단계를 둬서 오분류 리스크를 통제했습니다.”
- “그 결과 MTTA와 재발률을 함께 낮추고, 근거 데이터를 티켓에 일관되게 남겼습니다.”
마무리
2026년 프론트엔드 채용에서 중요한 건 AI를 ‘써봤다’가 아니라, AI를 팀 운영에 안전하게 끼워 넣은 설계 경험입니다.
장애 대응은 그걸 증명하기 가장 좋은 영역입니다.
- 데이터 입력 규격을 고정하고
- 분류 규칙을 팀 언어로 문서화하고
- 사람 승인 루프를 명시하세요.
이 세 가지만 지켜도, 트리아지는 “감”이 아니라 “시스템”이 됩니다.