久久免费只有精品国产_ChatGPT通過(guò)美放射學(xué)委員會(huì )考試 - 國際

科技日報北京5月17日電（記者劉霞）加拿大科學(xué)家在16日出版的《放射學(xué)》雜志上刊登新論文稱(chēng)，最新版本的ChatGPT通過(guò)了美國放射學(xué)委員會(huì )的考試，突出了大型語(yǔ)言模型的潛力，但它也給出了一些錯誤答案，表明人們仍需對其提供的答案進(jìn)行核查。

為評估ChatGPT在美國放射學(xué)委員會(huì )考試問(wèn)題上的表現并探索其優(yōu)勢和局限性，多倫多大學(xué)研究人員首先測試了基于GPT-3.5的ChatGPT的表現。研究團隊使用了150道選擇題，這些選擇題與加拿大皇家學(xué)院和美國放射學(xué)委員會(huì )考試的風(fēng)格、內容和難度相當。這些問(wèn)題不包括圖像，分為低階（知識回憶、基本理解）和高階（應用、分析、綜合）思維問(wèn)題。高階思維問(wèn)題可進(jìn)一步細分為影像學(xué)表現描述、臨床管理、計算和分類(lèi)、疾病關(guān)聯(lián)。

研究人員發(fā)現，基于GPT-3.5的ChatGPT的正確率為69%，接近70%的及格線(xiàn)。該模型在低階思維問(wèn)題上表現相對較好，正確率為84%，但回答高級思維問(wèn)題時(shí)表現不佳，正確率僅為60%。而性能更優(yōu)異的GPT-4的正確率為81%，且在高階思維問(wèn)題上的正確率為81%，遠好于GPT-3.5。但GPT-4在低階思維問(wèn)題上的正確率僅為80%，答錯了12道題，而GPT-3.5全部答對了這些題目，這引發(fā)了研究團隊對GPT-4收集信息的可靠性的擔憂(yōu)。