如何自己架設DeepSeek
如何自己架設DeepSeek
安裝Ollama
前往 Ollama 官網,依照你的作業系統進行選擇、安裝。
安裝DeepSeek
安裝與移除的指令
安裝DeepSeek
ollama run deepseek-r1:xxxb
移除DeepSeek
ollama rm deepseek-r1:xxxb
依照顯卡記憶體設定對應的參數
如下的指令,
ollama run deepseek-r1:32b
32b 代表 320 億(32,000,000,000)個參數,
不同的 LLM(大型語言模型)需要不同的記憶體大小來運行,具體取決於:
- 模型的精度(Precision)
- FP16(16-bit 浮點數):每個參數約 2 bytes
- INT8(8-bit 量化):每個參數約 1 byte
- 其他更進階的量化技術(如 4-bit)可以進一步降低記憶體需求。
- 模型的結構(架構)
- Mixture of Experts(MoE)等架構可能降低運行需求。
一般估算 VRAM 需求
模型大小 | FP16 需求(標準運行) | INT8 需求(量化) | 4-bit 需求(進階量化) |
---|---|---|---|
1.5B | 約 3GB VRAM | 約 1.5GB VRAM | 約 1GB VRAM |
7B | 約 14GB VRAM | 約 7GB VRAM | 約 4GB VRAM |
8B | 約 16GB VRAM | 約 8GB VRAM | 約 5GB VRAM |
14B | 約 28GB VRAM | 約 14GB VRAM | 約 7GB VRAM |
30B | 約 64GB VRAM | 約 32GB VRAM | 約 16GB VRAM |
70B | 約 140GB VRAM | 約 70GB VRAM | 約 35GB VRAM |
因此,DeepSeek-R1:32B(320 億參數) 在 FP16 模式下可能需要 約 64GB VRAM,但若使用 8-bit 或 4-bit 量化技術,可以降低到 約 16GB 至 32GB VRAM。
以RTX 4060 12GB的顯卡,我跑到14B的版本,速度還算可以接受,到30B就明顯拖慢許多。
安裝Web UI的外掛
Page Assist安裝|Page Assist – A Web UI for Local AI Models
設定中的Embedding Model(嵌入模型)用於處理文本向量化,主要應用於檢索增強生成(RAG)。
原本 Page Assist 網頁上選擇的模型為選擇的 LLM(大型語言模型),用於回應使用者問題,生成最終答案。
簡單的說,
Embedding Model = 負責「找資料」
- 透過 語義搜尋,從知識庫中找到與使用者問題最相關的內容。
LLM(Page Assist 選擇的模型)= 負責「回應問題」
- 先讀取 Embedding Model 找到的內容,然後生成最終的回答。