【世界速看料】語言AI原來知道自己的回答是否正確
語言AI,具備了人類的自我審視能力:最近,一個來自加州大學伯克利分校和霍普金斯大學的學術團隊研究表明:它不僅能判斷自己的答案正確與否,而且經過訓練,還能預測自己知道一個問題答案的概率。
訪問:
(資料圖片僅供參考)
阿里云“無影云電腦” 支持企業快速實現居家辦公
研究成果一經發布,就引起熱議,有人的第一反應是恐慌:
也有人認為,這項成果,對神經網絡研究具有正面意義:
語言AI具備自我審視能力
研究團隊認為,如果要讓語言AI模型自我評估,必須有一個前提:
語言AI回答問題時,會校準自己的答案。
這里的校準,就是語言AI預測一個答案的正確概率,是否與實際發生的概率一致。
只有這樣語言AI才可以運用這種校準的能力來評估自己輸出的答案是否正確。
所以第一個問題是,語言AI能否對自己的答案進行校準?
為了證明這個問題,研究團隊為AI準備了5個選擇題:
答案選項,以A、B、C的形式給出。
如果AI模型答案的正確率超過偶然幾率,那么就證明AI模型給出的答案是經過校準的。
而測試的結果是,語言AI給出的答案,正確率明顯超過任意選項的偶然幾率。
也就是說,語言AI模型可以對自己的答案進行很好的校準。
但研究團隊發現,語言AI的校準能力,是建立在選項答案明確的前提下的。
如果在選項中加入一個“以上都不是”的不確定選項,就會損害語言AI的校準能力。
也就是說,在特定格式的選擇題中,語言AI模型可以對答案進行很好的校準。
明確了這個前提之后,下一個問題是,驗證語言AI模型能夠判斷自己的答案是否正確。
在這一輪的測試中,為了能讓AI模型的預測更接近自己的有效決策邊界。
研究團隊仍然選擇上一輪測試的問題,以及語言AI模型的答案樣本。
同時讓AI模型選擇自己的答案真假與否,之后再針對這個“真”或“假”的答案,分析AI模型是否做出有效的校準。
問題設置舉例如下:
在經過20次的真假測試之后,研究團隊發現,語言AI模型對自己答案或“真”或“假”的評價,都經過明顯的校準。
也就是說,如果在一個范圍內,給AI模型提出若干問題,然后AI模型對這些問題的答案進行真假評價,具有合理的,且經過校準的置信度。
這也證明,語言AI模型確實可以判斷自己對一個問題的主張是否正確。
最后,研究團隊對語言AI模型提出了一個更難的問題:AI模型經過訓練,能否預測他們是否知道任何給定問題的答案。
在這一環節,研究團引入一個數據P(IK)(我知道這個答案的概率)并在下面兩種訓練方式中挑選一種進行訓練:
Value Head(價值導向):把P(IK)訓練成為一個額外的價值導向,再添加到模型的對數(獨立于語言建模的對數,這種方法的優勢在于,研究團隊可以很容易的探測P(IK)的一般標記位置。
Natural Language(自然語言):這種方法比較簡單,就是要求AI模型從字面上回答“你知道這個答案的概率是多少”,同時輸出一個百分比數據答案。
在訓練初期,研究團隊比較傾向于自然語言訓練方式,但結果并不顯著,由此轉向價值導向方式,不過研究團隊同時表示,最終對AI模型的訓練還將回歸自然語言方法。
在經過訓練之后,研究團隊發現,語言AI模型可以很好的預測P(IK),并且在不同類型的問題中,這種預測能力具有部分通用性。
不過,研究團隊也發現,在某些類型的問題,比如算術問題,語言AI模型在OOD校準時有一些困難。
對于這一學術成果,研究團隊表示,將來的方向,是將這些成果,推廣到語言AI模型不模仿人類文本的前提下,自我學習和事實推理領域。
作者介紹
論文通訊作者Jared Kaplan博士,是一位理論物理學家,同時也是一位機器學習專家,現擔任霍普金斯大學助理教授,主要研究領域,機器學習研究,包括神經模型的縮放規律以及GPT-3語言模型。
共同通訊作者Saurav Kadavath,Anthropic公司研究員,現在加州大學伯克利分校EECS專業攻讀碩士學位,主要研究領域是機器學習,大規模語言學習等。
關鍵詞: 人工智能 語言AI原來知道自己的回答是否正確 cnBeta
2022-07-15 15:50:41
2022-07-15 15:49:27
2022-07-15 15:48:55
2022-07-15 15:48:09
2022-07-15 15:47:01
2022-07-15 15:46:38
2022-07-15 15:46:21
2022-07-15 15:43:37
2022-07-15 15:42:11
2022-07-15 15:39:16
2022-07-15 15:37:00
2022-07-15 12:49:41
2022-07-15 09:56:45
2022-07-15 09:54:14
2022-07-15 09:46:33
2022-07-15 09:40:18
2022-07-15 09:38:51
2022-07-15 09:33:55
2022-07-15 08:52:15
2022-07-15 08:47:46
2022-07-15 08:45:45
2022-07-15 08:41:11
2022-07-15 08:39:52
2022-07-15 08:37:44
2022-07-15 08:37:02
2022-07-15 08:36:36
2022-07-15 08:35:29
2022-07-15 08:34:33
2022-07-15 08:31:37
2022-07-15 08:29:21
2022-07-15 08:24:22
2022-07-15 07:48:54
2022-07-15 07:41:13
2022-07-15 07:40:59
2022-07-15 07:33:48
2022-07-15 07:32:52
2022-07-15 05:52:48
2022-07-15 05:50:35
2022-07-15 05:41:33
2022-07-15 05:33:48
2022-07-15 05:29:12
2022-07-14 21:37:13
2022-07-14 20:57:55
2022-07-14 20:56:05
2022-07-14 20:55:05
2022-07-14 20:49:14
2022-07-14 20:49:05
2022-07-14 20:37:47
2022-07-14 19:48:34
2022-07-14 19:47:45
2022-07-14 19:42:09
2022-07-14 19:40:56
2022-07-14 19:34:49
2022-07-14 19:34:16
2022-07-14 18:47:43
2022-07-14 18:46:42
2022-07-14 18:45:29
2022-07-14 18:44:00
2022-07-14 18:38:42
2022-07-14 17:53:48
2022-07-14 17:53:47
2022-07-14 17:49:29
2022-07-14 17:47:01
2022-07-14 17:29:35
2022-07-14 16:53:04
2022-07-14 16:46:07
2022-07-14 16:44:48
2022-07-14 16:43:38
2022-07-14 16:35:31
2022-07-14 15:54:16
2022-07-14 15:52:39
2022-07-14 15:48:35
2022-07-14 15:47:04
2022-07-14 15:45:33
2022-07-14 15:43:06
2022-07-14 15:39:33
2022-07-14 15:37:35
2022-07-14 15:33:24
2022-07-14 15:33:12
2022-07-14 15:22:34
2022-07-14 15:21:39
相關新聞