使用GPT-4和LangChain分析本地端的pdf文件
GPT4和LangChain聊天機器人用於大型PDF文檔。
GPT-4是一個基於強大的語言模型的聊天機器人,能夠理解和生成自然語言。它可以幫助您解答與PDF文檔相關的問題,提供相關的信息和解釋。您可以向GPT-4提出任何關於文檔內容、結構或細節的問題,它將盡力提供準確且有用的答案。
另一方面,LangChain是一個專門設計用於處理大型PDF文檔的聊天機器人。它具有高度的文檔理解能力,可以解析並提取文檔中的重要信息。LangChain可以幫助您縮小查詢範圍,快速找到文檔中特定內容的位置,並提供相關的摘要或詳細信息。
結合GPT-4和LangChain,您可以以對話的方式與這兩個聊天機器人進行互動,輕鬆地處理和瞭解大型PDF文檔。無論是查詢特定內容、搜索關鍵字、提取摘要還是解答問題,這兩個聊天機器人都能為您提供強大的支持,節省您寶貴的時間和努力。
https://github.com/mayooear/gpt4-pdf-chatbot-langchain
開始前你都需要什麼
– 一台電腦或者一個服務器
– 網絡環境自行解決
– 註冊好Github帳號 https://github.com/
– Openai API 權限3.5版本,4更好 https://platform.openai.com/account/api-keys
– Pinecone API https://www.pinecone.io/
– Node 18版本以上
– 一個PDF文件
– 20 分鐘的時間
– 在我的YouYube頻道按讚、分享、留言
原始檔案: https://github.com/mayooear/gpt4-pdf-chatbot-langchain
安裝步驟:
- 複製存儲庫或下載ZIP。
git clone https://github.com/mayooear/gpt4-pdf-chatbot-langchain.git
- Install packages 首先執行
npm install yarn -g
以全域安裝 Yarn(如果您尚未安裝)。
Then run:
yarn install
安裝完成後,您現在應該會看到一個 node_modules
資料夾。
- 設置您的
.env
檔案。將.env.example
複製到.env
中。您的.env
檔案應該長得像這樣:
OPENAI_API_KEY=
PINECONE_API_KEY=
PINECONE_ENVIRONMENT=
PINECONE_INDEX_NAME=
- 在
config
資料夾中,當您執行npm run ingest
時,請將PINECONE_NAME_SPACE
替換為namespace
,以便在 Pinecone 上存儲您的嵌入。此命名空間稍後將用於查詢和檢索。 - 在
utils/makechain.ts
鏈中,將QA_PROMPT
更改為您自己的用例。如果您可以訪問gpt-4
API,請在new OpenAI
中將modelName
更改為gpt-4
。請在此存儲庫之外驗證您是否可以訪問gpt-4
API,否則應用程序將無法運行。
將您的PDF檔案轉換為嵌入式:
這個存儲庫可以加載多個PDF文件。
- 在
docs
資料夾內,加入您的 PDF 檔案或包含 PDF 檔案的資料夾。 - 到 config pinecone.ts const PINECONE_NAME_SPACE = ‘p003‘; 改一下編號:p004 以此類推
- 執行腳本
npm run ingest
以「摄取」和嵌入您的文件。如果遇到錯誤,請在下方進行疑難排解。 - 請檢查 Pinecone 儀表板以驗證您的命名空間和向量是否已添加。
執行應用程式:
一旦您驗證了嵌入式代碼和內容已成功添加到您的 Pinecone,您可以運行應用程式 npm run dev
以啟動本地開發環境,然後在聊天界面中輸入問題。
測試結果:
列出本書5個重點
作者的核心理念是什麼?
作者的論據和邏輯是什麼?