如何自己架設DeepSeek

如何自己架設DeepSeek

安裝Ollama

前往 Ollama 官網,依照你的作業系統進行選擇、安裝。

安裝DeepSeek

安裝與移除的指令

安裝DeepSeek

ollama run deepseek-r1:xxxb

移除DeepSeek

ollama rm deepseek-r1:xxxb

依照顯卡記憶體設定對應的參數

如下的指令,

ollama run deepseek-r1:32b

32b 代表 320 億(32,000,000,000)個參數,

不同的 LLM(大型語言模型)需要不同的記憶體大小來運行,具體取決於:

  1. 模型的精度(Precision)
    • FP16(16-bit 浮點數):每個參數約 2 bytes
    • INT8(8-bit 量化):每個參數約 1 byte
    • 其他更進階的量化技術(如 4-bit)可以進一步降低記憶體需求。
  2. 模型的結構(架構)
    • Mixture of Experts(MoE)等架構可能降低運行需求。

一般估算 VRAM 需求

模型大小FP16 需求(標準運行)INT8 需求(量化)4-bit 需求(進階量化)
1.5B3GB VRAM1.5GB VRAM1GB VRAM
7B14GB VRAM7GB VRAM4GB VRAM
8B16GB VRAM8GB VRAM5GB VRAM
14B28GB VRAM14GB VRAM7GB VRAM
30B64GB VRAM32GB VRAM16GB VRAM
70B140GB VRAM70GB VRAM35GB VRAM

因此,DeepSeek-R1:32B(320 億參數) 在 FP16 模式下可能需要 約 64GB VRAM,但若使用 8-bit 或 4-bit 量化技術,可以降低到 約 16GB 至 32GB VRAM。

以RTX 4060 12GB的顯卡,我跑到14B的版本,速度還算可以接受,到30B就明顯拖慢許多。

安裝Web UI的外掛

Page Assist安裝|Page Assist – A Web UI for Local AI Models

#點擊Chrome的「擴充功能」,將「Page Assist」設定為可視。再於Chrome的擴充功能中點選「Page Assist」,啟動類似Chatgpt的畫面。
#點選「1」的Reload,就會在「2」顯示出所有安裝的模型。在「2」中點選所要的模型,點選後就會出現在「3」的位置。
#接著,從頁面右上角的「設定」→「RAG Settings」→設定「Embedding Model」

設定中的Embedding Model(嵌入模型)用於處理文本向量化,主要應用於檢索增強生成(RAG)。

原本 Page Assist 網頁上選擇的模型為選擇的 LLM(大型語言模型),用於回應使用者問題,生成最終答案。

簡單的說,

Embedding Model = 負責「找資料」

  • 透過 語義搜尋,從知識庫中找到與使用者問題最相關的內容。

LLM(Page Assist 選擇的模型)= 負責「回應問題」

  • 先讀取 Embedding Model 找到的內容,然後生成最終的回答。