使用Whisper輕鬆語音轉文字

語音轉文字的工具

下載Whisper

Whisper下載網址|https://github.com/Const-me/Whisper

#點選右邊最新的版本(目前為1.12版)
#點選「WhisperDesktop.zip」下載,下載完成後解壓縮。

執行Whisper|下載並載入模型

#解壓縮後,執行「WhisperDesktop.exe」
#Model Path的地方就是要載入的模型,點選上面的「Hugging Face」
#Hugging Face中的模型清單

詢問了AI後,關於模型的選擇說明大概是:

1. 硬體性能

  • 低階設備(手機、舊電腦):選擇 tiny 或 base,檔案小(75-142 MB),速度快,適合 CPU 或低記憶體環境。
  • 中階設備(筆電、M1/M2 Mac):選 small(466 MB)或量化版(如 small-q5_1,181 MB),兼顧速度與品質。
  • 高階設備(配 NVIDIA GPU 的桌機):用 medium(1.5 GB)或 large-v3(3.06 GB),支援 CUDA 加速,精度最高。

2. 語言需求

  • 只轉英文:選 .en 版本(如 base.en),模型更小,專注英文辨識更準。
  • 多語言(含中文):選無 .en 的版本(如 medium 或 large-v3),支援 100 多種語言,包括中文。

3. 用途與精度

  • 快速測試或簡單語音:tiny 或 base,夠用且省資源。
  • 會議記錄或清晰語音:small 或 medium,精度提升,錯誤率降低。
  • 專業用途(播客、採訪):large-v3 或 large-v3-turbo,提供最佳辨識,尤其複雜環境或多語者。

4. 檔案大小與速度

  • 量化版本(如 -q5_1、-q8_0):檔案小 30-50%,速度快,但細節略損,適合硬體有限時。
  • 未量化版本(如 ggml-large.bin):完整精度,適合高品質需求。

執行Whisper|轉譯影音為字幕檔

#因為我有安裝顯卡,因此就嘗試了「ggml-large-v2」的版本
#需要翻譯的語言可以指定以提升准度,同時要指定要被是別的原始檔案,同時指定輸出時的格式,可以是單純的txt格式,也可以是字幕需要的srt格式。最後再指定輸出的路徑,點選「Transcribe」就可以囉!

翻譯的速度還蠻快的,正確率也不錯!