使用Whisper輕鬆語音轉文字

stuart
2025-02-25
資訊相關

語音轉文字的工具

Table of Contents

下載Whisper

Whisper下載網址｜https://github.com/Const-me/Whisper

＃點選右邊最新的版本（目前為1.12版）

＃點選「WhisperDesktop.zip」下載，下載完成後解壓縮。

執行Whisper｜下載並載入模型

＃解壓縮後，執行「WhisperDesktop.exe」

＃Model Path的地方就是要載入的模型，點選上面的「Hugging Face」

＃Hugging Face中的模型清單

詢問了AI後，關於模型的選擇說明大概是：

1. 硬體性能

低階設備（手機、舊電腦）：選擇 tiny 或 base，檔案小（75-142 MB），速度快，適合 CPU 或低記憶體環境。
中階設備（筆電、M1/M2 Mac）：選 small（466 MB）或量化版（如 small-q5_1，181 MB），兼顧速度與品質。
高階設備（配 NVIDIA GPU 的桌機）：用 medium（1.5 GB）或 large-v3（3.06 GB），支援 CUDA 加速，精度最高。

2. 語言需求

只轉英文：選 .en 版本（如 base.en），模型更小，專注英文辨識更準。
多語言（含中文）：選無 .en 的版本（如 medium 或 large-v3），支援 100 多種語言，包括中文。

3. 用途與精度

快速測試或簡單語音：tiny 或 base，夠用且省資源。
會議記錄或清晰語音：small 或 medium，精度提升，錯誤率降低。
專業用途（播客、採訪）：large-v3 或 large-v3-turbo，提供最佳辨識，尤其複雜環境或多語者。

4. 檔案大小與速度

量化版本（如 -q5_1、-q8_0）：檔案小 30-50%，速度快，但細節略損，適合硬體有限時。
未量化版本（如 ggml-large.bin）：完整精度，適合高品質需求。

執行Whisper｜轉譯影音為字幕檔

＃因為我有安裝顯卡，因此就嘗試了「ggml-large-v2」的版本

＃需要翻譯的語言可以指定以提升准度，同時要指定要被是別的原始檔案，同時指定輸出時的格式，可以是單純的txt格式，也可以是字幕需要的srt格式。最後再指定輸出的路徑，點選「Transcribe」就可以囉！

翻譯的速度還蠻快的，正確率也不錯！

Post Views: 234