전체 글 54

[Aura_AI] [8편] 서버가 반복적으로 터진 이유와 전체 복구 과정

[Aura_AI] [8편] 서버가 반복적으로 터진 이유와 전체 복구 과정(EC2 재생성, DB 스키마 정합성 확보, GPT 오류 수정, CloudWatch 자동 복구 적용)1️⃣ 문제 상황: 기능은 있는데, 서버가 버티지 못했다배포 이후 일정 기간이 지나면서 이상 현상이 반복적으로 발생했습니다.✔ /api/proxy/users/me → 500 에러✔ 로그인 후 마이페이지 로딩 실패✔ GPT 응답 생성 시 “응답을 생성하지 못했습니다.” 반복✔ SSH 접속 간헐적 타임아웃✔ EC2 상태 검사 2/3특징은 이랬습니다.고쳐놓으면 잠깐 정상 작동며칠 뒤 다시 서버가 불안정해짐단순 코드 문제가 아니라,인프라 레벨 + DB + GPT 호출 문제가 동시에 얽힌 복합 장애였습니다.2️⃣ 원인 분석2-1. EC2 인스턴..

[Aura_AI] [7편] GPT 호출 안정화 및 토큰 사용량 제한 설계

[Aura_AI] [7편] GPT 호출 안정화 및 토큰 사용량 제한 설계(운영 환경에서 비용 폭주를 막기 위한 구조 개선)1️⃣ 왜 이 작업을 하게 되었는가프로젝트를 실제 배포 후 운영하면서 단순 기능 구현 단계에서는 보이지 않던 문제가 드러났습니다.✔ GPT 호출 비용 예측이 어렵다✔ 사용자가 반복 요청을 보내면 호출이 무한히 누적될 수 있다✔ 일부 요청에서 응답이 비어오는 현상이 발생한다특히 가장 위험했던 부분은:“호출이 제한되지 않으면 과금이 통제되지 않는다”는 점이었습니다.기능은 정상 동작했지만,운영 가능한 구조는 아니었습니다.그래서 단순 기능 수정이 아니라비용 통제 + 응답 안정성 개선 설계 작업을 진행했습니다.2️⃣ 설계 목표이번 작업의 목표는 명확했습니다.1. 사용자 단위 일일 토큰 사용량 ..

[22편] 서버 반복적 오류 해결

[Aura AI] 서버가 반복적으로 터진 이유와 전체 복구 과정 정리(EC2 재생성, DB 재정비, GPT 안정화, CloudWatch 자동 복구 적용)1️⃣ 장애 증상 요약처음 발생한 증상은 단순 500 에러였습니다.하지만 시간이 지날수록 서버 전체가 불안정해지는 문제가 반복되었습니다.✔ 프론트엔드 증상/api/proxy/users/me → 500 에러로그인 후 마이페이지 정보 로드 실패GPT 응답 생성 시→ "응답을 생성하지 못했습니다." 반복✔ 인프라 증상EC2 상태 검사 2/3 통과SSH 연결 간헐적 타임아웃일정 시간이 지나면 서버가 다시 불안정해짐즉,프론트 → 백엔드 → DB → GPT 호출까지전체 스택이 동시에 불안정한 상태였습니다.2️⃣ 원인 분석 (복합 장애)이번 장애는 단일 원인이 아니라..

[21편] 토큰 사용량 제한

[Aura AI] 토큰 사용량 제한 / 응답 안정화 작업 정리(gpt-5-nano, 일일 제한, 재시도 및 fallback 적용)1️⃣ 문제 배경최근 GPT 모델 호출 과정에서 다음과 같은 문제가 반복적으로 발생했습니다.특정 요청에서 응답이 비어오는 현상과도한 프롬프트 길이로 인한 비용 증가 위험무제한 호출 가능 구조로 인한 과금 폭주 가능성운영 환경에서 가장 위험한 요소는 예측 불가능한 비용 증가와 API 실패 누적이었습니다.이에 따라:사용자별 일일 토큰 제한요청 길이 사전 차단응답 비어올 경우 재시도 및 fallback 적용을 통해 비용 통제 + 응답 안정화 구조를 구현했습니다.2️⃣ 적용 목표✅ 1. 사용자별 일일 토큰 제한 적용과금 리스크 감소무한 호출 방지✅ 2. 프롬프트 길이 사전 차단비정상적..

[Aura_Ai] [7편] 서버오류 해결

🚨 운영 중 서비스 장애 대응 경험 정리 (EC2 IP 변경 이슈)실제 운영 중이던 프로젝트에서 로그인 및 주요 API가 전체적으로 실패하는 장애를 경험했습니다.이 글은 단순 트러블슈팅 기록이 아니라, 문제 분석 → 원인 추적 → 재발 방지 설계까지 수행한 과정을 정리한 글입니다.📌 장애 개요✔ 발생 현상로그인 500 에러 발생채팅/마이페이지 API 전체 실패프론트엔드에서 세션 유지 불가✔ 영향 범위인증 기능 전체 마비사용자 데이터 조회 불가실질적으로 서비스 사용 불가능 상태🔎 1. 1차 분석 — 애플리케이션 레벨 문제인가?로그 확인 결과:[auth][error] CallbackRouteError[cause]: connect ETIMEDOUTOAuth 인증 과정에서 DB 연결 타임아웃이 발생하고 있..

[20편] 배포 후 오류 수정

🚨 배포된 사이트 로그인/채팅 전체 장애 발생 원인 및 해결 과정 상세 정리정상적으로 운영 중이던 서비스에서 갑자기 로그인, 채팅, 마이페이지 기능이 모두 동작하지 않는 장애가 발생했습니다.코드 수정이나 배포 변경이 없던 시점이었기 때문에, 처음에는 원인 파악이 쉽지 않았습니다.결론부터 말씀드리면, 이번 장애는 코드 문제가 아니라 인프라 계층에서 발생한 복합적인 문제였습니다.EC2 인스턴스 상태 이상 → Stop/Start 과정에서 퍼블릭 IP 변경 → 환경변수 불일치 → Vercel 프록시 타임아웃 발생아래에 실제 발생 흐름과 해결 과정을 단계별로 상세히 정리하겠습니다.1️⃣ 발생 증상1-1. 로그인 기능 실패로그인 시 다음과 같은 에러가 발생했습니다./api/auth/error?error=Confi..

[Aura_Ai] [6편] 프로젝트 배포

🚀 [프로젝트 배포 후기] Next.js + FastAPI + MySQL 멀티 환경 배포 설계 & 장애 대응 기록안녕하세요.이번 글에서는 Aura AI 프로젝트를 실제 운영 가능한 구조로 배포하면서 설계한 아키텍처와, 배포 중 발생한 장애를 해결한 과정을 실무 관점에서 정리했습니다.단순히 *“배포 성공”*이 아니라,어떤 구조를 선택했는지왜 그 선택이 합리적이었는지실제 어떤 문제가 발생했는지어떻게 해결했는지위 4가지를 중심으로 작성했습니다.👉 실서비스 운영을 가정한 배포/운영/장애 대응 경험 기록이라고 보시면 됩니다.1️⃣ 배포 구조 개요 (실무 기준 아키텍처)📌 사용 스택FrontendNext.jsNextAuth.js배포: VercelBackendFastAPI + Uvicorn배포: Amazon W..

[19편] part 4 배포 배포 명령어/의미 + 오류 로그 대응표 + 체크리스트

🚀 Aura AI 배포 기록 (Part 4)배포 명령어 정리 · 의미 설명 · 장애 대응 매뉴얼 · 운영 체크리스트이번 글은 FastAPI + Next.js + Vercel + Amazon Web Services EC2 환경에서 실제 운영 시 사용하는 배포 명령어와 장애 대응 방법을 한 번에 정리한 실전 매뉴얼입니다.👉 서버 운영을 하다 보면 매번 검색하게 되는 것들만 모았습니다.접속 명령어실행/재시작/백그라운드 실행systemd 영구 실행에러 대응법최종 점검 체크리스트이 글 하나면 운영/복구/재배포 전부 가능합니다.✅ 1️⃣ 배포용 핵심 명령어 + 의미 정리🔹 EC2 서버 접속ssh -i "C:\Users\dddd3\aura_ai\aura-key.pem" ubuntu@51.21.202.235의미E..

[19편] part 3 배포 백엔드/회원가입/정규식/의존성 변경 상세

🚀 Aura AI 배포 기록 (Part 3)백엔드 회원가입 API · 정규식 오류 · 의존성 · 서비스 레이어 변경 총정리이번 글은 FastAPI 기반 백엔드에서 회원가입 기능을 직접 구현하면서 발생한 문제들과 구조 개선 과정을 정리한 기록입니다.Part 1에서는 서버/배포/운영,Part 2에서는 프론트/프록시 구조를 다뤘다면,👉 Part 3는 “백엔드 비즈니스 로직 설계 + 보안 + 검증 + DB 처리” 핵심 파트입니다.특히 다음 내용을 중점적으로 다룹니다.회원가입 API 신규 구현정규식 검증 오류 해결user_service 리팩토링requirements 의존성 추가 이유전체 회원가입 처리 흐름✅ Part 3 핵심 목표🎯 해결 과제Vercel에서 DB 직접 접근 불가프론트에서 회원가입 처리 시 보..

[19편] part 2 배포 프론트/프록시 구조 변경 상세 정리

🚀 Aura AI 배포 기록 (Part 2)프론트 구조 & Vercel 프록시 아키텍처 변경 상세 정리이 글은 Next.js + NextAuth.js + FastAPI + Vercel + Amazon Web Services EC2 환경에서프론트엔드 통신 구조를 개선하며 Mixed Content 문제를 완전히 해결한 과정을 정리한 실전 기록입니다.Part 1이 서버/배포/운영 중심이었다면,이번 글은 프론트 코드 레벨 구조 개선 + 프록시 설계 이유 + 실제 수정 내역을 다룹니다.✅ Part 2 핵심 목표🎯 해결하고자 했던 문제브라우저에서 HTTP 백엔드 직접 호출 시 Mixed Content 차단 발생일부 API/업로드/Swagger/docs 동작 실패API 주소가 여기저기 흩어져 유지보수 어려움🎯 ..