
內容簡介
人工智能時代一種全新的技術Agent正在崛起。這是一種能夠理解自然語言並生成對應回複以及執行具體行動的人工智能體。它不僅是內容生成工具,而且是連接複雜任務的關鍵紐帶。本書將探索Agent的奧秘,內容包括從技術框架到開發工具,從實操項目到前沿進展,通過帶著讀者動手做7個 功能強大的Agent,全方位解析Agent的設計與實現。本書最後展望了Agent的發展前景和未來趨勢。
本書適合對Agent技術感興趣或致力於投身該領域的研究人員、開發人員、企業負責人,以及高等院校相關專業師生等閱讀。讀者將跟隨咖哥和小雪的腳步,踏上饒有趣味的Agent開發之旅,零距離接觸GPT-4模型、OpenAI API和Assistants、LangChain、LlamaIndex和MetaGPT等尖端技術,見證Agent在辦公自動化、智能調度、知識整合以及檢索增強生成(RAG)等領域的非凡表現,攜手開啟人工智能時代的無限可能,在人機協作的星空中共同探尋那顆最閃亮的Agent之星!
作者簡介
黃佳
筆名咖哥,新加坡科技研究局人工智能研究員。他在NLP、大模型、Al in MedTech、Al in FinTech等領域積累了豐富的項目經驗。著有《GPT圖解 大模型是怎樣構建的》《零基礎學機器學習》《數據分析咖哥十話:從思維到實踐促進運營增長》等圖書。同時他還在極客時間、CSDN和深藍學院開設專欄和課程,主要有“LangChain實戰課”“零基礎實戰機器學習”“A 應用實戰課”“大模型應用開發實戰課’和“生成式預訓練語言模型:理論與實戰”等。他樂於保持好奇的心、擁抱變化、持續學習,希望借助AI的“慧眼”和“注意力”來觀察世界,並以輕鬆幽默的方式分享知識,收獲本真的快樂。
目錄
第1章何為Agent,為何Agent11.1大開腦洞的演講:Life3.02
1.2那麼,究竟何為Agent5
1.3Agent的大腦:大模型的通用推理能力9
1.3.1人類的大腦了不起10
1.3.2大模型出現之前的Agent11
1.3.3大模型就是Agent的大腦12
1.3.4期望之峰和失望之穀14
1.3.5知識、記憶、理解、表達、推理、反思、泛化和自我提升18
1.3.6基於大模型的推理能力構築AI應用22
1.4Agent的感知力:語言交互和多模態23
1.4.1語言交互能力23
1.4.2多模態能力24
1.4.3結合語言交互和多模態能力25
1.5Agent的行動力:語言輸出和工具使用25
1.5.1語言輸出能力25
1.5.2工具使用能力26
1.5.3具身智能的實現27
1.6Agent對各行業的效能提升28
1.6.1自動辦公好助手29
1.6.2客戶服務革命29
1.6.3個性化產品推薦30
1.6.4流程的自動化與資源的優化30
1.6.5醫療保健的變革31
1.7Agent帶來新的商業模式和變革32
1.7.1Gartner的8項重要預測33
1.7.2Agent即服務34
1.7.3多Agent協作36
1.7.4自我演進的AI37
1.7.5具身智能的發展38
1.8小結39
第2章基於大模型的Agent技術框架41
2.1Agent的四大要素41
2.2Agent的規劃和決策能力44
2.3Agent的各種記憶機製45
2.4Agent的核心技能:調用工具46
2.5Agent的推理引擎:ReAct框架49
2.5.1何為ReAct50
2.5.2用ReAct框架實現簡單Agent53
2.5.3基於ReAct框架的提示56
2.5.4創建大模型實例60
2.5.5定義搜索工具61
2.5.6構建ReActAgent62
2.5.7執行ReActAgent63
2.6其他Agent認知框架66
2.6.1函數調用66
2.6.2計劃與執行66
2.6.3自問自答66
2.6.4批判修正66
2.6.5思維鏈67
2.6.6思維樹67
2.7小結68
第3章OpenAIAPI、LangChain和LlamaIndex70
3.1何為OpenAIAPI71
3.1.1說說OpenAI這家公司71
3.1.2OpenAIAPI和Agent開發76
3.1.3OpenAIAPI的聊天對話示例78
3.1.4OpenAIAPI的圖片生成示例85
3.1.5OpenAIAPI實踐89
3.2何為LangChain91
3.2.1說說LangChain92
3.2.2LangChain中的六大模塊98
3.2.3LangChain和Agent開發100
3.2.4LangSmith的使用方法102
3.3何為LlamaIndex105
3.3.1說說LlamaIndex105
3.3.2LlamaIndex和基於RAG的AI開發106
3.3.3簡單的LlamaIndex開發示例110
3.4小結113
第4章Agent1:自動化辦公的實現——使用AssistantsAPI和DALL·E3模型創作PPT115
4.1OpenAI公司的Assistants是什麼117
4.2不寫代碼,在Playground中玩Assistants118
4.3AssistantsAPI的簡單示例123
4.3.1創建助手124
4.3.2創建線程128
4.3.3添加消息130
4.3.4運行助手132
4.3.5顯示響應138
4.4創建一個簡短的虛構PPT141
4.4.1數據的收集整理142
4.4.2創建OpenAI助手142
4.4.3自主創建數據分析圖表144
4.4.4自主創建數據洞察149
4.4.5自主創建頁麵標題152
4.4.6用Dall-E為主題配圖152
4.4.7自主創建PPT154
4.5小結160
第5章Agent2:多功能選擇的引擎——通過FunctionsCalling調用函數161
5.1OpenAI中的Functions163
5.1.1什麼是Functions163
5.1.2Function的說明文字很重要164
5.1.3Function定義中的Sample是什麼?165
5.1.4什麼是FunctionsCalling166
5.2在OpenAIPlayground中定義Function168
5.3用AssistantsAPI來實現FunctionsCalling173
5.3.1創建能使用Functions的Assistant175
5.3.2不調用Function,直接運行Assistant177
5.3.3在Run進入requires_action狀態之後跳出循環185
5.3.4拿到Assistant返回的元數據信息186
5.3.5利用Assistant的返回信息調用函數187
5.3.6通過submit_tool_outputs提交結果完成任務190
5.4用ChatCompletionAPI來實現ToolCalls196
5.4.1初始化對話和定義可用函數197
5.4.2第一次調用大模型,向模型發送對話及工具定義,並獲取響應198
5.4.3調用模型選擇的工具並構建新消息201
5.4.4第二次向模型發送對話以獲取最終響應204
5.5小結205
第6章Agent3:推理與行動的協同——使用LangChain中的ReAct框架實現自動定價207
6.1複習一下ReAct推理框架208
6.2LangChain中ReActAgent的實現210
6.3LangChain中的工具和工具包212
6.4通過create_react_agent創建鮮花定價Agent215
6.5深挖AgentExecutor的運行機製221
6.5.1在AgentExecutor中設置斷點221
6.5.2第一輪思考:模型決定搜索224
6.5.3第一輪行動:工具執行搜索233
6.5.4第二輪思考:模型決定計算239
6.5.5第二輪行動:工具執行計算241
6.5.6第三輪思考:模型完成任務245
6.6小結249
第7章Agent4:計劃和執行的解耦——使用LangChain中的Plan-and-Execute智能調度庫存251
7.1Plan-and-Solve策略的提出252
7.2LangChain中的Plan-and-ExecuteAgent257
7.3用Plan-and-ExecuteAgent實現物流管理258
7.3.1為Agent定義一係列進行自動庫存調度的工具258
7.3.2創建Plan-and-ExecuteAgent並嚐試一個“不可能完成”的任務260
7.3.3改動一下請求,Agent就會成功完成任務268
7.4從單Agent到多Agent273
7.5小結273
第8章Agent5:知識的提取與整合——使用LlamaIndex實現檢索增強生成Agent275
8.1何為檢索增強生成276
8.1.1提示工程vsRAGvs微調278
8.1.2技術角度的檢索Pipeline280
8.1.3用戶視角的RAG流程281
8.2RAG和Agent282
8.3用LlamaIndex的ReActAgent來實現花語秘境財報檢索284
8.3.1獲取並加載電商文檔284
8.3.2將文檔轉換為嵌入向量285
8.3.3構建查詢引擎和工具287
8.3.4配置文本生成引擎大模型288
8.3.5創建Agent查詢財務信息288
8.4小結289
第9章Agent6:GitHub的網紅聚落——AutoGPT、BabyAGI、CAMEL和GenerativeAgents292
9.1AutoGPT293
9.1.1AutoGPT簡介293
9.1.2AutoGPT實戰294
9.2BabyAGI298
9.2.1BabyAGI簡介299
9.2.2BabyAGI實現301
9.3CAMEL317
9.3.1CAMEL簡介318
9.3.2CAMEL論文中的股票交易場景319
9.3.3CAMEL實現324
9.4小結333
第10章Agent7:多Agent係統框架——AutoGen和MetaGPT335
10.1AutoGen336
10.1.1AutoGen簡介336
10.1.2AutoGen實戰340
10.2MetaGPT343
10.2.1MetaGPT簡介343
10.2.2MetaGPT實戰345
10.3小結353
第11章下一代Agent的誕生地:科研論文中的新思路355
11.1兩篇高質量的Agent綜述355
11.2論文選讀:Agent自主學習、多Agent合作、Agent可信度的評估、邊緣係統部署以及具身智能落地358
11.3小結359
參考文獻361
後記創新與變革的交匯點362
······
最後修改:2025 年 01 月 23 日
© 允許規範轉載
