世界最資訊丨OpenAI宣布開源多語言語音識別系統(tǒng)Whisper
盡管包括 Google、亞馬遜和 Meta 在內(nèi)的科技巨頭,都將各自開發(fā)的功能強大的語音識別系統(tǒng)置于其軟件和服務(wù)的核心地位。但在人工智能和機器學(xué)習(xí)領(lǐng)域,語音識別仍是一個頗具挑戰(zhàn)性的話題。好消息是,今日 OpenAI 隆重地宣布了 Whisper 的開源 —— 可知作為一套自動語音識別系統(tǒng),官方宣稱它能夠?qū)崿F(xiàn)多種語言的強大轉(zhuǎn)錄、并將它們翻譯成英語。
訪問:
Parallels Desktop 18 今年首次促銷:限時75折
【資料圖】
(來自:OpenAI Blog)
OpenAI 表示,Whisper 的不同之處,在于其接受了從網(wǎng)絡(luò)收集的 68 萬小時的多語言和“多任務(wù)”訓(xùn)練數(shù)據(jù),從而提升了該方案對獨特口音、背景噪聲和技術(shù)術(shù)語的識別能力。
官方 GitHub 存儲庫上的概述稱:
Whisper 模型的主要目標用戶,是研究當前模型穩(wěn)健性、泛化、能力、偏差和約束的 AI 研究人員。
與此同時,它也很適合作為面向開發(fā)者的自動語音識別解決方案尤其是英語語音識別。
感興趣的朋友,可以從托管平臺上下載 Whisper 系統(tǒng)的多個版本,其模型在大約 10 種語言上展現(xiàn)出了強大的 ASR 結(jié)果。
此外假如在某些任務(wù)上加以微調(diào)的話,它們還有望在語音活動檢測、講述者分類等應(yīng)用場景下表現(xiàn)出額外的能力。
架構(gòu)示意
遺憾的是,Whisper 尚未在相關(guān)領(lǐng)域得到強有力的評估、且模型也有其局限性 —— 有其在文本預(yù)測領(lǐng)域。
由于該系統(tǒng)接受了大量“嘈雜”的數(shù)據(jù)訓(xùn)練,OpenAI 決定提前給大家打一劑預(yù)防針,警告稱 Whisper 可能在轉(zhuǎn)錄中包含實際上未講述的單詞。
原因可能是 Whisper 既試圖預(yù)測音頻中的下一個單詞、又試圖轉(zhuǎn)錄音頻本身。
流程示例
此外 Whisper 在不同語言場景下的表現(xiàn)也不大一致,尤其涉及在訓(xùn)練數(shù)據(jù)中沒有很好被代表的語言的講述者時,其錯誤率也會更高。
不過后者在語音識別領(lǐng)域早已不是什么新鮮事,即使業(yè)內(nèi)首屈一指的系統(tǒng),也一直受到此類偏差的困擾。
參考斯坦福大學(xué)在 2020 年分享的一項研究結(jié)果 —— 相較于黑人,來自亞馬遜、蘋果、Google、IBM 和微軟的系統(tǒng),針對白人用戶的錯誤率要低得多(大約 35%)。
Whisper 有約 1/3 的音頻數(shù)據(jù)集為非英語
即便如此,OpenAI 還是認為 Whisper 的轉(zhuǎn)錄功能,可被用于改進現(xiàn)有的可訪問性工具。其在 GitHub 上寫道:
盡管 Whisper 模型不適用于開箱即用的實時轉(zhuǎn)錄,但其速度和大小表明,其他人可在此基礎(chǔ)上構(gòu)建近乎實時的語音識別和翻譯應(yīng)用程序。
建立在 Whisper 模型之上的有益應(yīng)用程序,其價值切實地表明了這些模型的不同性能,有望發(fā)揮出真正的經(jīng)濟影響力。
我們希望大家能夠?qū)⒃摷夹g(shù)積極應(yīng)用于有益目的,使自動語音識別技術(shù)更易獲得改進、讓更多參與者能夠打造出更負責(zé)任的項目。
在速度和準確性的雙重優(yōu)勢下,Whisper 將允許對大量通信提供可負擔(dān)得起的自動轉(zhuǎn)錄和翻譯體驗。
相關(guān)文章:
[視頻]OpenAI展示DALL-E 2:AI圖像生成器支持編輯圖像了
OpenAI的DALL-E繪畫AI 已能夠擴展創(chuàng)作更大的圖像
過濾系統(tǒng)升級:OpenAI再次開放DALL-E 2的面容編輯功能
關(guān)鍵詞: Open Source OpenAI宣布開源多語言語音識別系統(tǒng)Whisper cnBeta
2022-09-22 15:55:03
2022-09-22 15:52:35
2022-09-22 15:49:34
2022-09-22 15:46:13
2022-09-22 15:43:45
2022-09-22 15:43:02
2022-09-22 15:42:21
2022-09-22 15:39:54
2022-09-22 15:38:22
2022-09-22 15:37:33
2022-09-22 15:37:21
2022-09-22 15:36:03
2022-09-22 15:35:55
2022-09-22 13:30:43
2022-09-22 10:34:51
2022-09-22 09:54:42
2022-09-22 09:50:40
2022-09-22 09:47:46
2022-09-22 09:39:30
2022-09-22 09:36:47
2022-09-22 09:34:37
2022-09-22 09:18:18
2022-09-22 09:16:33
2022-09-22 09:09:12
2022-09-22 09:05:51
2022-09-22 08:52:36
2022-09-22 08:52:25
2022-09-22 08:52:09
2022-09-22 08:51:56
2022-09-22 08:50:51
2022-09-22 08:49:29
2022-09-22 08:49:24
2022-09-22 08:45:41
2022-09-22 08:42:15
2022-09-22 08:41:49
2022-09-22 08:38:53
2022-09-22 08:35:54
2022-09-22 08:34:47
2022-09-22 08:34:19
2022-09-22 08:34:11
2022-09-22 08:31:47
2022-09-22 08:30:15
2022-09-22 08:27:43
2022-09-22 08:22:47
2022-09-22 08:09:56
2022-09-22 07:54:40
2022-09-22 07:49:42
2022-09-22 07:46:33
2022-09-22 07:41:54
2022-09-22 07:36:45
2022-09-22 07:35:48
2022-09-22 06:49:12
2022-09-22 06:46:18
2022-09-22 06:35:01
2022-09-22 05:56:40
2022-09-22 05:54:30
2022-09-22 05:51:37
2022-09-22 05:45:07
2022-09-22 05:41:03
2022-09-22 05:40:52
2022-09-22 05:31:31
2022-09-21 23:43:54
2022-09-21 22:55:47
2022-09-21 22:52:36
2022-09-21 22:46:45
2022-09-21 22:42:56
2022-09-21 22:40:10
2022-09-21 22:38:34
2022-09-21 22:29:25
2022-09-21 21:53:55
2022-09-21 21:51:41
2022-09-21 21:50:10
2022-09-21 21:44:07
2022-09-21 21:43:34
2022-09-21 21:41:29
2022-09-21 20:57:57
2022-09-21 20:57:32
2022-09-21 20:44:49
2022-09-21 20:44:22
2022-09-21 20:40:49
2022-09-21 20:34:22
2022-09-21 19:56:57
2022-09-21 19:55:20
2022-09-21 19:45:33
2022-09-21 19:44:32
2022-09-21 19:42:24
2022-09-21 19:36:41
2022-09-21 18:53:13
2022-09-21 18:51:18
2022-09-21 18:49:48
2022-09-21 18:49:41
2022-09-21 18:44:03
2022-09-21 18:40:16
2022-09-21 18:38:45
2022-09-21 18:38:06
2022-09-21 18:33:51
2022-09-21 18:21:14
2022-09-21 17:57:33
2022-09-21 17:52:58
2022-09-21 17:51:24
相關(guān)新聞