LLM Archives - PRSM Studio

내 서버에서 AI를 돌린다고?

ChatGPT, Gemini, Claude… 다들 클라우드 AI를 쓰고 있죠. 근데 이런 생각 해본 적 없나요?

“내 컴퓨터에서 AI를 돌리면 무료에, 내 데이터도 안 나가잖아?”

맞습니다. 로컬 LLM(Large Language Model)을 돌리면 구독료도 없고, 대화 내용이 외부 서버로 전송되지 않아요. 프라이버시 완벽 보장이죠.

근데 현실은… 좀 다릅니다. 1편에서 소개한 제 SER9 MAX에 직접 AI를 올려봤는데, 결론부터 말하면 “돌아는 간다. 근데 느리다.”

DeepSeek AI 인터페이스를 보여주는 MacBook으로 디지털 혁신을 선보입니다. — Photo by Matheus Bertelli / Pexels

Ollama — 로컬 LLM 엔진

Ollama는 내 컴퓨터에서 AI 모델을 돌릴 수 있게 해주는 프로그램입니다. 어려울 것 같죠? 설치는 AI한테 시켰습니다. 터미널에 명령어 몇 줄 넣으면 끝이에요.

설치가 끝나면 ollama run qwen3:14b 한 줄로 AI가 대답하기 시작합니다. 모델은 알아서 다운로드되고, 별도 설정 없이 바로 채팅이 가능해요.

현재 돌릴 수 있는 오픈소스 모델이 수십 개가 넘습니다. Llama, Qwen, Gemma, Mistral, DeepSeek… 전부 무료. 원하는 걸 골라 쓰면 됩니다.

Open WebUI — 브라우저에서 ChatGPT처럼

터미널에서 채팅하는 건 솔직히 불편합니다. 그래서 Open WebUI를 설치했어요. 브라우저에서 ChatGPT와 똑같은 인터페이스로 AI랑 대화할 수 있는 프로그램이에요.

이것도 설치는 AI한테 시켰습니다. Docker 컨테이너 하나 올리면 끝.

제일 좋은 건 와이프도 접속한다는 거예요. 같은 네트워크에 있으면 폰이든 태블릿이든 브라우저만 열면 됩니다. 계정도 만들 수 있어서 대화 기록도 각자 관리되고요. 2편에서 설정한 Tailscale로 외부에서도 접속 가능합니다.

DeepSeek 애플리케이션이 있는 대화형 AI 인터페이스를 보여주는 노트북 이미지. — Photo by Matheus Bertelli / Pexels

스펙과 성능의 현실 — 핵심은 여기

로컬 AI 얘기에서 제일 중요한 게 “내 컴퓨터로 돌릴 수 있는가?”입니다. 솔직한 실측 데이터를 공유할게요.

제 서버 스펙

항목	사양
CPU	AMD Ryzen 7 255 (8코어 16스레드)
RAM	DDR5 32GB
GPU	내장 그래픽(AMD Radeon 780M) — 사실상 없음
저장장치	NVMe SSD 1TB
OS	Windows 11 + WSL2 (Linux)

실측 성능 (qwen3:14b 모델)

항목	수치
응답 속도	5.5 토큰/초
간단한 질문 응답	약 25초
RAM 점유	약 10GB
양자화	Q4_K_M (9.3GB)

ChatGPT나 Gemini가 1초 만에 답하는 걸, 제 서버는 25초 걸립니다. 체감으로 5~10배 느려요. 글자가 한 자 한 자 천천히 나타나는 걸 보고 있으면… 인내심 테스트입니다.

왜 이렇게 느린가?

GPU가 없기 때문입니다. AI 연산은 GPU(그래픽카드)에 최적화되어 있는데, 제 미니PC에는 내장 그래픽밖에 없어요. AMD 780M iGPU는 WSL2 환경에서 AI 가속으로 사용할 수 없다는 것도 확인했습니다. 결국 CPU로만 연산하니까 느린 거예요.

NVIDIA GPU가 있는 PC라면? 같은 모델이 5~10배 빨라집니다. RTX 4060 정도면 30토큰/초 이상 나와요. 하지만 일반 미니PC에는 외장 GPU를 달 수 없으니, 이건 데스크톱이나 게이밍 노트북 영역이에요.

RAM이 곧 모델 크기를 결정한다

로컬 AI에서 제일 중요한 스펙은 RAM입니다. 모델 전체가 메모리에 올라가거든요.

RAM	돌릴 수 있는 모델	체감 품질
8GB	7B (70억 파라미터)	간단한 대화 가능, 복잡한 건 한계
16GB	14B (140억 파라미터)	일상 대화 무난, 일반 업무 가능
32GB	14B + 여유 / 30B급 시도 가능	14B를 편하게 + 다른 서비스 병행
64GB+	70B (700억 파라미터)	ChatGPT에 근접한 품질

7B vs 14B vs 70B — 크기가 곧 품질입니다. 7B는 간단한 대화는 되지만 복잡한 질문에서 헛소리를 자주 합니다. 14B가 “그래도 쓸만하다”고 느끼는 최소 기준선이에요. 70B는 품질이 확 올라가지만 RAM도 40GB 이상 필요합니다.

제가 32GB인 이유도 이겁니다. 14B 모델을 올리면서 다른 Docker 서비스들(Immich, WordPress, n8n 등)도 동시에 돌려야 하니까요.

선명한 노란색 표면의 T-Force Delta RGB DDR5 메모리 모듈. — Photo by Andrey Matveev / Pexels

그래서 쓸만한가?

솔직하게 정리하면 이렇습니다.

쓸만한 경우:

단순 대화, 번역, 요약 — 느려도 결과물은 나옴
프라이버시가 중요한 내용 — 회사 기밀 문서 분석 등
인터넷 없이 쓰고 싶을 때 — 비행기, 오프라인 환경
AI 기능을 다른 프로그램에 연결할 때 — API 호출 무제한, 무료

안 쓸만한 경우:

코딩, 복잡한 분석 — 클라우드 AI가 압도적으로 잘함
빠른 응답이 필요할 때 — 25초 기다릴 인내심이 없다면
최신 정보가 필요할 때 — 로컬 모델은 학습 시점 이후 정보를 모름

결론적으로, 로컬 AI의 핵심 가치는 “무료”와 “프라이버시”입니다. 성능을 기대하면 실망하고, 이 두 가지가 중요한 사람에게는 충분한 가치가 있어요.

다음 편 예고

지금까지 서버 조립부터 원격 접속, 사진 백업, 로컬 AI까지 왔습니다. 다음 편에서는 이 모든 걸 하나로 묶어주는 핵심 — AI 에이전트와 텔레그램 봇을 다뤄볼게요. 텔레그램으로 말 걸면 AI가 알아서 일하는, 진짜 “내 졸개” 만들기입니다.

EP.5 — AI 에이전트 + 텔레그램: 내 서버에 비서를 두다, 기대해주세요.