目標終結幻覺?DataGemma 深度解析

隨著大型語言模型(LLM)的不斷進步,人們希望解決的問題也越來越複雜。這些模型能夠處理大量文本、生成摘要、提出創新思路,甚至編寫代碼。然而,LLM 有時會自信地提供不準確的信息,這種現象被稱為「幻覺」,是生成式人工智能面臨的主要挑戰。

在 9 月 12 日,Google 發佈了一款名為 DataGemma 的新模型。DataGemma 是全球首個試圖利用真實世界統計數據來減少幻覺的開源 LLM,基於 Google 的 Gemma 模型構建。以下將對 DataGemma 的功能進行簡要介紹。

利用現實統計資訊減少幻覺

DataGemma 的核心目標是通過整合現實世界的統計資訊,來降低幻覺的發生率。

一、資料共享:建立可信賴的龐大資料庫

DataGemma 使用了 Data Commons,一個公開的知識圖譜,包含數十萬個統計變數和超過 2400 億個豐富的資料點。這些資料來自聯合國(UN)、世界衛生組織(WHO)、疾病控制與預防中心(CDC)和人口普查局等可信賴的機構。透過將這些資料集成化,形成統一的工具和人工智能模型,政策制定者、研究人員和組織可以獲取準確的見解。

二、資料共享如何幫助解決幻覺?

隨著生成式人工智能的廣泛應用,Google 希望將 Data Commons 資料庫整合到 Gemma 模型中,以減少幻覺的可能性。為此,DataGemma 採用了兩種方法來增強 LLM 的事實性和推理能力,從而擴展 Gemma 模型的功能:

1. RIG(檢索交錯生成)

RIG 方法透過主動查詢可信來源,對資料進行事實檢查,提高 Gemma 2 的資料準確性。當使用者向 DataGemma 提出問題時,模型首先生成回答,然後在資料驗證階段,從 Data Commons 搜索並呈現正確的資訊。

RIG 的運作流程如下:

  • 使用者查詢:使用者向大型語言模型(LLM)提交問題。
  • 初始回應與 Data Commons 查詢:DataGemma 生成初始回應,並包含一個自然語言查詢,用於檢索相關資料。
  • 資料檢索與修正:查詢 Data Commons,獲取資料。這些資料連同來源資訊和鏈接,用於替換初始回應中可能不準確的數字。
  • 含來源鏈接的最終回應:最終回應呈現給使用者,包含資料來源的鏈接和 Data Commons 的元數據,確保透明度和可驗證性。

舉例來說,在棒球場上,如果朋友問我最近台鋼雄鷹的外籍打者魔鷹的打擊狀況如何,我可能會回答他最近狀態不錯,記得已累積了 20 支全壘打。但為了確保準確性,我會上網查詢。根據中華職棒的官方資料,魔鷹的全壘打數已達到 26 支,領先全聯盟。

2. RAG(檢索增強生成)

RAG 方法使語言模型能夠納入訓練資料之外的相關資訊,吸收更多上下文,實現更全面和資訊豐富的輸出。借助 DataGemma,這可以透過利用 Gemini 1.5 Pro 的長上下文視窗來實現。DataGemma 在模型生成回應之前,從 Data Commons 檢索相關的上下文資訊,最大限度地降低幻覺風險,提升回應的準確性。

RAG 的運作流程如下:

  • 使用者提出查詢:使用者以自然語言提出需要資料或統計資訊的問題。
  • DataGemma 產生相關查詢:DataGemma 使用 Gemma 模型(RIG 方法使用微調的 Gemma 模型,RAG 方法則使用經過兩階段微調的 Gemma-2 模型),將使用者的問題轉換為與 Data Commons 相容的自然語言查詢。
  • Data Commons 檢索資料:Data Commons 根據查詢,從龐大的資料庫中檢索相關資料,並以表格形式返回結果。
  • DataGemma 生成最終答案:DataGemma 將 Data Commons 返回的資料表格添加到使用者的原始查詢中,並將其輸入具有長上下文的 LLM(Gemini 1.5 Pro),最終生成包含資料分析和推論的回答。

透過這兩種方法,DataGemma 有望顯著降低 LLM 的幻覺現象,為使用者提供更準確、可靠的資訊。

官方連結:https://blog.google/technology/ai/google-datagemma-ai-llm/

Share:

More Posts