내 서버에서 AI를 돌린다고?
ChatGPT, Gemini, Claude… 다들 클라우드 AI를 쓰고 있죠. 근데 이런 생각 해본 적 없나요?
“내 컴퓨터에서 AI를 돌리면 무료에, 내 데이터도 안 나가잖아?”
맞습니다. 로컬 LLM(Large Language Model)을 돌리면 구독료도 없고, 대화 내용이 외부 서버로 전송되지 않아요. 프라이버시 완벽 보장이죠.
근데 현실은… 좀 다릅니다. 1편에서 소개한 제 SER9 MAX에 직접 AI를 올려봤는데, 결론부터 말하면 “돌아는 간다. 근데 느리다.”

Ollama — 로컬 LLM 엔진
Ollama는 내 컴퓨터에서 AI 모델을 돌릴 수 있게 해주는 프로그램입니다. 어려울 것 같죠? 설치는 AI한테 시켰습니다. 터미널에 명령어 몇 줄 넣으면 끝이에요.
설치가 끝나면 ollama run qwen3:14b 한 줄로 AI가 대답하기 시작합니다. 모델은 알아서 다운로드되고, 별도 설정 없이 바로 채팅이 가능해요.
현재 돌릴 수 있는 오픈소스 모델이 수십 개가 넘습니다. Llama, Qwen, Gemma, Mistral, DeepSeek… 전부 무료. 원하는 걸 골라 쓰면 됩니다.
Open WebUI — 브라우저에서 ChatGPT처럼
터미널에서 채팅하는 건 솔직히 불편합니다. 그래서 Open WebUI를 설치했어요. 브라우저에서 ChatGPT와 똑같은 인터페이스로 AI랑 대화할 수 있는 프로그램이에요.
이것도 설치는 AI한테 시켰습니다. Docker 컨테이너 하나 올리면 끝.
제일 좋은 건 와이프도 접속한다는 거예요. 같은 네트워크에 있으면 폰이든 태블릿이든 브라우저만 열면 됩니다. 계정도 만들 수 있어서 대화 기록도 각자 관리되고요. 2편에서 설정한 Tailscale로 외부에서도 접속 가능합니다.

스펙과 성능의 현실 — 핵심은 여기
로컬 AI 얘기에서 제일 중요한 게 “내 컴퓨터로 돌릴 수 있는가?”입니다. 솔직한 실측 데이터를 공유할게요.
제 서버 스펙
| 항목 | 사양 |
|---|---|
| CPU | AMD Ryzen 7 255 (8코어 16스레드) |
| RAM | DDR5 32GB |
| GPU | 내장 그래픽(AMD Radeon 780M) — 사실상 없음 |
| 저장장치 | NVMe SSD 1TB |
| OS | Windows 11 + WSL2 (Linux) |
실측 성능 (qwen3:14b 모델)
| 항목 | 수치 |
|---|---|
| 응답 속도 | 5.5 토큰/초 |
| 간단한 질문 응답 | 약 25초 |
| RAM 점유 | 약 10GB |
| 양자화 | Q4_K_M (9.3GB) |
ChatGPT나 Gemini가 1초 만에 답하는 걸, 제 서버는 25초 걸립니다. 체감으로 5~10배 느려요. 글자가 한 자 한 자 천천히 나타나는 걸 보고 있으면… 인내심 테스트입니다.
왜 이렇게 느린가?
GPU가 없기 때문입니다. AI 연산은 GPU(그래픽카드)에 최적화되어 있는데, 제 미니PC에는 내장 그래픽밖에 없어요. AMD 780M iGPU는 WSL2 환경에서 AI 가속으로 사용할 수 없다는 것도 확인했습니다. 결국 CPU로만 연산하니까 느린 거예요.
NVIDIA GPU가 있는 PC라면? 같은 모델이 5~10배 빨라집니다. RTX 4060 정도면 30토큰/초 이상 나와요. 하지만 일반 미니PC에는 외장 GPU를 달 수 없으니, 이건 데스크톱이나 게이밍 노트북 영역이에요.
RAM이 곧 모델 크기를 결정한다
로컬 AI에서 제일 중요한 스펙은 RAM입니다. 모델 전체가 메모리에 올라가거든요.
| RAM | 돌릴 수 있는 모델 | 체감 품질 |
|---|---|---|
| 8GB | 7B (70억 파라미터) | 간단한 대화 가능, 복잡한 건 한계 |
| 16GB | 14B (140억 파라미터) | 일상 대화 무난, 일반 업무 가능 |
| 32GB | 14B + 여유 / 30B급 시도 가능 | 14B를 편하게 + 다른 서비스 병행 |
| 64GB+ | 70B (700억 파라미터) | ChatGPT에 근접한 품질 |
7B vs 14B vs 70B — 크기가 곧 품질입니다. 7B는 간단한 대화는 되지만 복잡한 질문에서 헛소리를 자주 합니다. 14B가 “그래도 쓸만하다”고 느끼는 최소 기준선이에요. 70B는 품질이 확 올라가지만 RAM도 40GB 이상 필요합니다.
제가 32GB인 이유도 이겁니다. 14B 모델을 올리면서 다른 Docker 서비스들(Immich, WordPress, n8n 등)도 동시에 돌려야 하니까요.

그래서 쓸만한가?
솔직하게 정리하면 이렇습니다.
쓸만한 경우:
- 단순 대화, 번역, 요약 — 느려도 결과물은 나옴
- 프라이버시가 중요한 내용 — 회사 기밀 문서 분석 등
- 인터넷 없이 쓰고 싶을 때 — 비행기, 오프라인 환경
- AI 기능을 다른 프로그램에 연결할 때 — API 호출 무제한, 무료
안 쓸만한 경우:
- 코딩, 복잡한 분석 — 클라우드 AI가 압도적으로 잘함
- 빠른 응답이 필요할 때 — 25초 기다릴 인내심이 없다면
- 최신 정보가 필요할 때 — 로컬 모델은 학습 시점 이후 정보를 모름
결론적으로, 로컬 AI의 핵심 가치는 “무료”와 “프라이버시”입니다. 성능을 기대하면 실망하고, 이 두 가지가 중요한 사람에게는 충분한 가치가 있어요.
다음 편 예고
지금까지 서버 조립부터 원격 접속, 사진 백업, 로컬 AI까지 왔습니다. 다음 편에서는 이 모든 걸 하나로 묶어주는 핵심 — AI 에이전트와 텔레그램 봇을 다뤄볼게요. 텔레그램으로 말 걸면 AI가 알아서 일하는, 진짜 “내 졸개” 만들기입니다.
EP.5 — AI 에이전트 + 텔레그램: 내 서버에 비서를 두다, 기대해주세요.







