Role: Technical Program Manager / System Architect
Key Achievement: 모니터링 시스템 가용성 100% 확보, 어드민 응답 속도 80% 개선 (최대 1s → 0.1s)
1. Context & Problem (배경 및 문제점)
기존 시스템은 전사 분석용 데이터 플랫폼인 Hadoop(Hue)에 어드민 모니터링 기능을 직접 의존하는 구조였습니다. 이로 인해 비즈니스 운영상 다음과 같은 치명적인 리스크가 발생했습니다.
- SLA(서비스 수준 협약) 불일치: 분석 전용인 Hadoop은 실시간성이나 고가용성을 보장하지 않음. 주말 장애 발생 시 데이터팀의 대응이 월요일에 이루어져, 주말 발송 현황 파악이 불가능한 상황 빈번히 발생.
- 시스템 강결합으로 인한 성능 저하: 대규모 분석용 쿼리(Heavy Query)가 수행될 때마다 백오피스 어드민 조회 성능이 급격히 저하되어 사용자 경험 악화.
- 안정성 결여: 데이터 소스의 불안정성이 곧 마케팅 운영의 중단으로 이어지는 구조적 결함 존재.
2. Strategy & Action (전략 및 실행)
분석(OLAP)과 서비스(OLTP)의 목적을 분리하고, 각 데이터의 성격에 맞는 기술 스택을 재구성하는 전략을 주도했습니다.
- 이해관계자 요구사항 조율: DBA, 데이터팀, 개발팀, 현업 사용자를 아우르는 다자간 협의를 주도. 'Hadoop 적재는 유지하되, 서비스용 데이터는 별도 관리한다'는 합의점 도출.
- 데이터 스토리지 최적화 (Hadoop to MySQL):
- 실시간 조회가 핵심인 어드민용 데이터 소스를 MySQL로 교체하여 인덱싱 최적화 및 안정적인 응답 속도 확보.
- 전체 데이터 분석은 기존 Hadoop을 활용하도록 이중 적재 파이프라인 설계.
- 데이터 거버넌스 및 최적화 정책 수립:
- Data Retention Policy: 대용량 로그 처리를 위해 최근 5일치 상세 데이터만 MySQL에 유지하고 이전 데이터는 자동 삭제하도록 설계(DBA 협의).
- Batch Statistics: 과거 통계 데이터는 새벽 배치를 통해 요약 테이블로 가공하여 조회 효율 극대화.
3. Result & Impact (성과 및 영향)
- 조회 성능 혁신: 어드민 응답 속도를 기존 0.5s~1s에서 0.1s~0.2s 내외로 약 80% 단축.
- 시스템 안정성 100% 확보: 외부 분석 플랫폼(Hadoop)의 장애 여부와 관계없이 마케팅 운영팀이 24/7 실시간 발송 현황을 모니터링할 수 있는 환경 구축.
- 운영 리소스 최적화: 시스템 간 강결합을 해소함으로써 장애 전파 리스크를 제거하고, 유관 부서 간의 긴급 장애 대응 피로도 대폭 감소.
💡 TPM 역량 포인트 (Resume Summary)
- Technical Architecture Insight: Hadoop(분석)과 MySQL(서비스)의 기술적 특성을 이해하고 비즈니스 목적에 맞게 재설계하는 아키텍처 역량.
- Efficiency Driven Leadership: 정량적인 성능 지표(Latency 80% 개선)를 기반으로 시스템 효율화를 증명.
- Stakeholder Alignment: 서로 다른 KPI를 가진 팀들 사이에서 비즈니스 연속성을 위한 기술적 타협점과 정책(Retention Policy 등)을 수립하는 커뮤니케이션 능력.
#System-Architecture #Decoupling #Data-Engineering #TPM