近日,針對大型語言模型(LLM)在海洋領(lǐng)域的應(yīng)用,中國水產(chǎn)科學(xué)研究院東海水產(chǎn)研究所漁業(yè)遙感技術(shù)及數(shù)字漁業(yè)創(chuàng)新團(tuán)隊提出了一種針對垂直領(lǐng)域大型語言模型(LLM)的增強型檢索方案——BM-RAGAM(BM25檢索增強生成注意力機制)。該方案通過結(jié)合關(guān)鍵詞匹配和語義關(guān)聯(lián)的混合檢索策略,大幅提升了LLM在特定領(lǐng)域的信息檢索準(zhǔn)確性和生成內(nèi)容的可解釋性。該成果(DOI為10.3390/app142411529)發(fā)表在《應(yīng)用科學(xué)》雜志上(Applied Sciences,JCR 1 區(qū))。東海所與浙江海洋大學(xué)的聯(lián)合培養(yǎng)研究生陳器為第一作者,周為峰研究員為通訊作者。
大型語言模型在處理特定領(lǐng)域的復(fù)雜查詢時,常常出現(xiàn)回答不準(zhǔn)確甚至誤導(dǎo)用戶的現(xiàn)象,這種現(xiàn)象被稱為“幻覺”。為解決這一問題,研究團(tuán)隊以海洋學(xué)中的“鋒面”和“渦旋”知識為例,開發(fā)了BM-RAGAM方案。BM-RAGAM方案的核心在于在本地部署向量化的知識庫的基礎(chǔ)之上結(jié)合了BM25算法和RAG技術(shù),從而實現(xiàn)高效檢索和文本生成。實驗表明,BM-RAGAM方案在多個評估指標(biāo)上顯著優(yōu)于基礎(chǔ)模型,不僅減少了幻覺現(xiàn)象,還提高了生成內(nèi)容的準(zhǔn)確性和專業(yè)性,特別適合海洋領(lǐng)域的問答系統(tǒng)搭建。BM-RAGAM方案為海洋領(lǐng)域LLM的應(yīng)用提供了新的思路,未來有望進(jìn)一步拓展到其他垂直領(lǐng)域。
該研究得到了國家重點研發(fā)計劃(2023YFD2401303)“基于數(shù)據(jù)驅(qū)動的遠(yuǎn)洋漁情預(yù)報技術(shù)與服務(wù)系統(tǒng)”和中國水產(chǎn)科學(xué)研究院東海研究所基本科研業(yè)務(wù)費項目(2022ZD0402)的支持。
