NPU、GPU

AI小助理的筆記

什麼是NPU

NPU(Neural Processing Unit,神經網路處理器)是一種專門為人工智慧(AI)和機器學習應用設計的專用處理器。它的架構和運算方式針對深度學習中的神經網路計算進行優化,能高效執行大量矩陣乘法和張量運算,這些是AI模型推理和訓練的核心計算任務。

與CPU(通用處理器)和GPU(圖形處理器)相比,NPU在處理AI任務時具有更高的效能和能效,因為它專注於並行運算和神經網路特有的計算模式,並採用多級快取、專用乘加陣列等技術來提升速度和降低功耗。

NPU可分為訓練型和推論型兩類,前者用於加速AI模型的訓練過程,後者則用於執行已訓練好的模型以生成推論結果。

簡而言之,NPU是為了加速和優化人工智慧運算而設計的專用硬體,廣泛應用於手機、AI筆電、邊緣計算設備及數據中心等領域。

為什麼 NPU 不能做訓練圖形渲染

訓練 vs 推論:運算結構不同

項目訓練(training)推論(inference)
特性須做前向傳播 + 反向傳播 + 參數更新僅做前向傳播、無需梯度與參數調整
精度需求通常需使用高精度浮點數(如 FP32, BF16)可用低精度(如 INT8、FP16)加速計算
計算資源需求非常高(需要 GPU 記憶體 + 快速算力)相對較低,可在邊緣設備上執行

👉 NPU 專為「低精度、定型模型」推論最佳化,但不具備高精度訓練的浮點核心與梯度處理邏輯

NPU 到底能做什麼?

NPU(Neural Processing Unit) 的本質設計是用來加速「AI 推論(inference)」階段的運算,它特別適合:

適合任務說明
✅ AI模型推論執行如:影像分類、語音辨識、目標偵測、NLP 分析
✅ 在地端即時處理任務如:即時人臉辨識、邊緣攝影機目標追蹤、語音喚醒
✅ 低功耗場景如:物聯網(IoT)、行車輔助(ADAS)、智能家電、AR裝置等
✅ 運行已訓練好的模型如:MobileNet、YOLO、Transformer-lite、Whisper 等模型的推論

耐能NPU的特色與技術亮點

  • 可重構架構:耐能的NPU支援動態配置,能根據不同神經網路模型和數據精度需求靈活調整,兼具ASIC晶片的高性能與彈性。
  • 高能效與低功耗:最新的KL730晶片在能效上較過往產品提升3至4倍,且比同業產品高出150%至200%,大幅降低AI運算的能源成本。
  • 強大運算能力:KL730提供每秒0.35至4 tera有效計算能力,支持先進的輕量級GPT大語言模型(如nanoGPT),適合實現邊緣端的AI推理。
  • 多通道數據介面:可無縫接入圖像、視頻、音頻及毫米波等多種數字信號,滿足多樣化的AIoT和智慧設備需求。
  • 安全與隱私保護:配合耐能的私有安全邊緣AI網路Kneo,允許用戶在終端設備上離線運行AI模型,有效保障數據隱私,適用於智慧家居、車載輔助駕駛、醫療設備等領域。
  • 低延遲即時推理:相較於GPU,耐能NPU在邊緣AI應用中提供更低延遲和即時反應能力,適合需要快速決策的場景。