緒論.........................(1)
第1章經典人工神經網絡.........................(4)
1.1生物神經網絡基本機理.........................(4)
1.1.1生物神經元結構.........................(4)
1.1.2生物神經元信息的傳遞與接收.........................(5)
1.1.3生物神經元信息的整合.........................(6)
1.1.4生物神經網絡.........................(8)
1.2人工神經元.........................(8)
1.2.1人工神經元的符號描述.........................(8)
1.2.2人工神經元的數學模型.........................(9)
1.2.3人工神經元的激活函數.........................(10)
1.3單層感知機.........................(14)
1.3.1單層感知機的表達.........................(14)
1.3.2單層感知機的訓練算法及實例.........................(17)
1.3.3單層感知機的局限性.........................(19)
1.4多層感知機.........................(20)
1.4.1多層感知機的功能.........................(20)
1.4.2多層感知機的數學表達.........................(24)
1.4.3多層感知機的網絡誤差.........................(25)
1.5BP人工神經網絡.........................(25)
1.5.1誤差反傳訓練算法.........................(26)
1.5.2梯度下降法.........................(29)
1.5.3BP人工神經網絡設計方法.........................(30)
1.5.4BP人工神經網絡的局限性及改進.........................(31)
本章小結.........................(34)
實踐1編程環(huán)境安裝.........................(35)
實踐2利用感知機實現Mnist手寫數字分類.........................(35)
習題.........................(35)
參考文獻.........................(36)
第2章支持向量機.........................(37)
2.1支持向量機基本思想.........................(37)
2.1.1從感知機到支持向量機.........................(37)
2.1.2SVM解決問題思路.........................(38)
2.1.3SVM的發(fā)展過程.........................(41)
2.2線性硬可分支持向量機.........................(41)
2.2.1線性可分與分類間隔.........................(41)
2.2.2幾何間隔.........................(42)
2.2.3硬間隔SVM與間隔最大化.........................(43)
2.2.4硬間隔SVM的對偶算法.........................(44)
2.3線性軟可分支持向量機.........................(48)
2.3.1軟間隔SVM與軟間隔最大化.........................(48)
2.3.2軟間隔SVM的對偶問題.........................(49)
2.4非線性支持向量機.........................(50)
2.4.1非線性模型與升維.........................(50)
2.4.2非線性SVM的對偶問題.........................(51)
2.4.3核函數.........................(51)
2.5SMO算法.........................(53)
2.5.1SMO主要框架.........................(54)
2.5.2變量的啟發(fā)式選擇.........................(58)
本章小結.........................(59)
實踐3利用非線性支持向量機實現IRIS鳶尾花數據分類.........................(59)
習題.........................(60)
參考文獻.........................(60)
第3章卷積神經網絡.........................(61)
3.1卷積神經網絡思想.........................(61)
3.1.1卷積神經網絡解決問題的思路.........................(61)
3.1.2卷積神經網絡的發(fā)展概述.........................(63)
3.2卷積神經網絡結構.........................(64)
3.2.1輸入層.........................(65)
3.2.2卷積層.........................(66)
3.2.3池化層.........................(72)
3.2.4全連接層.........................(73)
3.3典型結構.........................(75)
3.3.1LeNet.........................(75)
3.3.2AlexNet.........................(75)
3.3.3ZFNet.........................(78)
3.3.4GoogLeNet.........................(80)
3.3.5ResNet.........................(83)
本章小結.........................(85)
實踐4利用卷積神經網絡實現Mnist手寫數字分類.........................(85)
習題.........................(85)
參考文獻.........................(86)
第4章循環(huán)神經網絡.........................(87)
4.1經典循環(huán)神經網絡.........................(87)
4.1.1經典循環(huán)神經網絡基本結構.........................(87)
4.1.2幾種典型的循環(huán)神經網絡.........................(91)
4.1.3RNN前向傳播與反向傳播.........................(97)
4.2長短期記憶神經網絡.........................(101)
4.2.1LSTM門控結構.........................(102)
4.2.2LSTM遺忘門.........................(104)
4.2.3LSTM輸入門.........................(104)
4.2.4LSTM輸出門.........................(105)
4.2.5LSTM結構的理解.........................(106)
本章小結.........................(108)
實踐5利用長短時記憶網絡實現股票價格預測.........................(108)
習題.........................(109)
參考文獻.........................(110)
第5章Transformer模型.........................(111)
5.1總體思想與框架結構.........................(111)
5.2輸入信息編碼方式.........................(113)
5.2.1詞嵌入矩陣的獲取.........................(114)
5.2.2位置嵌入矩陣的獲取.........................(115)
5.3自注意力機制.........................(116)
5.3.1自注意力機制的基本思想.........................(116)
5.3.2自注意力機制的計算步驟.........................(119)
5.4編碼器信息編碼機制與整體結構.........................(121)
5.4.1編碼器中的多頭注意力機制.........................(121)
5.4.2編碼器中的前饋網絡層.........................(122)
5.4.3編碼器中的疊加和歸一層.........................(123)
5.4.4編碼器結構總覽.........................(123)
5.5解碼器信息編碼機制與整體結構.........................(124)
5.5.1解碼器的掩碼多頭注意力層.........................(126)
5.5.2解碼器的多頭注意力層.........................(128)
5.5.3解碼器的前饋網絡層與疊加和歸一層.........................(130)
5.5.4解碼器的線性層和Softmax層.........................(131)
5.5.5解碼器結構總覽.........................(132)
本章小結.........................(133)
實踐6利用Transformer實現電影評論數據情感分析.........................(133)
習題.........................(133)
參考文獻.........................(134)
第6章強化學習.........................(135)
6.1強化學習基本思想.........................(135)
6.1.1強化學習的擬人思路.........................(135)
6.1.2強化學習的典型特征.........................(136)
6.1.3強化學習的發(fā)展思路.........................(137)
6.2強化學習的概念體系.........................(137)
6.2.1隨機變量與期望.........................(137)
6.2.2智能體-環(huán)境交互.........................(139)
6.2.3動態(tài)特性函數.........................(143)
6.2.4目標與回報.........................(145)
6.2.5策略和價值函數.........................(147)
6.2.6最優(yōu)策略與最優(yōu)價值函數.........................(151)
6.3模型強化學習方法.........................(153)
6.3.1策略評估.........................(154)
6.3.2策略改進.........................(158)
6.3.3策略迭代.........................(159)
6.3.4價值迭代.........................(160)
6.3.5廣義策略迭代.........................(161)
6.4無模型強化學習方法.........................(162)
6.4.1蒙特卡洛強化學習方法.........................(162)
6.4.2時序差分強化學習方法.........................(171)
6.5強化學習不同方法的關系.........................(176)
6.5.1模型與無模型強化學習方法的關系.........................(176)
6.5.2無模型強化學習方法的統一性.........................(177)
6.5.3各種方法的維度關系.........................(178)
本章小結.........................(179)
實踐7利用Q-Learning幫助智能體在簡單6格環(huán)境中達成目標.........................(180)
習題.........................(180)
參考文獻.........................(180)
第7章深度強化學習.........................(182)
7.1深度強化學習基本思想.........................(182)
7.1.1強化學習面臨的問題.........................(182)
7.1.2強化學習與深度學習結合.........................(183)
7.2大型狀態(tài)空間DQN深度強化學習.........................(183)
7.2.1DQN深度強化學習基本框架.........................(184)
7.2.2DQN基本框架結構的學習過程.........................(185)
7.2.3DQN基本框架結構存在的弊端.........................(186)
7.2.4DQN基本框架的改進方法.........................(187)
7.2.5改進版DQN的架構.........................(189)
7.3隨機策略深度強化學習.........................(190)
7.3.1策略學習基本思路.........................(190)
7.3.2策略學習的目標函數.........................(191)
7.3.3策略梯度定理.........................(192)
7.3.4Reinforce方法.........................(192)
7.3.5Actor-critic方法.........................(193)
7.3.6帶基線的策略學習方法.........................(195)
7.3.7帶基線的Reinforce方法.........................(196)
7.3.8Advantage
Actor-critic方法.........................(196)
7.4連續(xù)動作空間深度強化學習.........................(198)
7.4.1深度確定性策略梯度方法.........................(198)
7.4.2隨機高斯策略方法.........................(202)
7.5深度強化學習各種方法之間的關聯.........................(204)
7.5.1價值評估是4種方法的共同基礎.........................(204)
7.5.2策略梯度的Actor-critic范式.........................(204)
7.5.3目標網絡的通用性.........................(205)
7.6近端策略優(yōu)化算法.........................(205)
7.6.1傳統策略梯度訓練面臨的問題.........................(205)
7.6.2TRPO算法的貢獻.........................(206)
7.6.3PPO算法對TRPO算法的改進.........................(207)
7.6.4PPO算法流程.........................(207)
本章小結.........................(210)
實踐8利用DQN將著陸器成功降落在月球表面.........................(211)
實踐9利用PPO-Clip算法幫助小車平衡桿系統保持穩(wěn)定.........................(211)
習題.........................(212)
參考文獻.........................(212)