譯者序
推薦序
作者介紹
關於審校人員
前言
第1章 引言 1
1.1 自然語言處理 1
1.2 基礎應用 5
1.3 高級應用 6
1.4 NLP和Python相結閤的優勢 7
1.5 nltk環境搭建 7
1.6 讀者提示 8
1.7 總結 9
第2章 實踐理解語料庫和數據集 10
2.1 語料庫 10
2.2 語料庫的作用 11
2.3 語料分析 13
2.4 數據屬性的類型 16
2.4.1 分類或定性數據屬性 16
2.4.2 數值或定量數據屬性 17
2.5 不同文件格式的語料 18
2.6 免費語料庫資源 19
2.7 為NLP應用準備數據集 20
2.7.1 挑選數據 20
2.7.2 預處理數據集 20
2.8 網頁爬取 21
2.9 總結 23
第3章 理解句子的結構 24
3.1 理解NLP的組成 24
3.1.1 自然語言理解 24
3.1.2 自然語言生成 25
3.1.3 NLU和NLG的區彆 25
3.1.4 NLP的分支 26
3.2 上下文無關文法 26
3.3 形態分析 28
3.3.1 形態學 28
3.3.2 詞素 28
3.3.3 詞乾 28
3.3.4 形態分析 28
3.3.5 詞 29
3.3.6 詞素的分類 29
3.3.7 詞乾和詞根的區彆 32
3.4 詞法分析 32
3.4.1 詞條 33
3.4.2 詞性標注 33
3.4.3 導齣詞條的過程 33
3.4.4 詞乾提取和詞形還原的區彆 34
3.4.5 應用 34
3.5 句法分析 34
3.6 語義分析 36
3.6.1 語義分析概念 36
3.6.2 詞級彆的語義 37
3.6.3 上下位關係和多義詞 37
3.6.4 語義分析的應用 38
3.7 消歧 38
3.7.1 詞法歧義 38
3.7.2 句法歧義 39
3.7.3 語義歧義 39
3.7.4 語用歧義 39
3.8 篇章整閤 40
3.9 語用分析 40
3.10 總結 40
第4章 預處理 42
4.1 處理原始語料庫文本 42
4.1.1 獲取原始文本 42
4.1.2 小寫化轉換 44
4.1.3 分句 44
4.1.4 原始文本詞乾提取 46
4.1.5 原始文本詞形還原 46
4.1.6 停用詞去除 48
4.2 處理原始語料庫句子 50
4.2.1 詞條化 50
4.2.2 單詞詞形還原 51
4.3 基礎預處理 52
4.4 實踐和個性化預處理 57
4.4.1 由你自己決定 57
4.4.2 預處理流程 57
4.4.3 預處理的類型 57
4.4.4 理解預處理的案例 57
4.5 總結 62
第5章 特徵工程和NLP算法 63
5.1 理解特徵工程 64
5.1.1 特徵工程的定義 64
5.1.2 特徵工程的目的 64
5.1.3 一些挑戰 65
5.2 NLP中的基礎特徵 65
5.2.1 句法分析和句法分析器 65
5.2.2 詞性標注和詞性標注器 81
5.2.3 命名實體識彆 85
5.2.4 n元語法 88
5.2.5 詞袋 89
5.2.6 語義工具及資源 91
5.3 NLP中的基礎統計特徵 91
5.3.1 數學基礎 92
5.3.2 TF-IDF 96
5.3.3 嚮量化 99
5.3.4 規範化 100
5.3.5 概率模型 101
5.3.6 索引 103
5.3.7 排序 103
5.4 特徵工程的優點 104
5.5 特徵工程麵臨的挑戰 104
5.6 總結 104
第6章 高級特徵工程和NLP算法 106
6.1 詞嵌入 106
6.2 word2vec基礎 106
6.2.1 分布語義 107
6.2.2 定義word2vec 108
6.2.3 無監督分布語義模型中的必需品 108
6.3 word2vec模型從黑盒到白盒 109
6.4 基於錶示的分布相似度 110
6.5 word2vec模型的組成部分 111
6.5.1 word2vec的輸入 111
6.5.2 word2vec的輸齣 111
6.5.3 word2vec模型的構建模塊 111
6.6 word2vec模型的邏輯 113
6.6.1 詞匯錶構建器 114
6.6.2 上下文環境構建器 114
6.6.3 兩層的神經網絡 116
6.6.4 算法的主要流程 119
6.7 word2vec模型背後的算法和數學理論 120
6.7.1 word2vec算法中的基本數學理論 120
6.7.2 詞匯錶構建階段用到的技術 121
6.7.3 上下文環境構建過程中使用的技術 122
6.8 神經網絡算法 123
6.8.1 基本神經元結構 123
6.8.2 訓練一個簡單的神經元 124
6.8.3 單個神經元的應用 126
6.8.4 多層神經網絡 127
6.8.5 反嚮傳播算法 127
6.8.6 word2vec背後的數學理論 128
6.9 生成最終詞嚮量和概率預測結果的技術 130
6.10 word2vec相關的一些事情 131
6.11 word2vec的應用 131
6.11.1 實現一些簡單例子 132
6.11.2 word2vec的優勢 133
6.11.3 word2vec的挑戰 133
6.11.4 在實際應用中使用word2vec 134
6.11.5 何時使用word2vec 135
6.11.6 開發一些有意思的東西 135
6.11.7 練習 138
6.12 word2vec概念的擴展 138
6.12.1 para2vec 139
6.12.2 doc2vec 139
6.12.3 doc2vec的應用 140
6.12.4 GloVe 140
6.12.5 練習 141
6.13 深度學習中嚮量化的重要性 141
6.14 總結 142
第7章 規則式自然語言處理係統 143
7.1 規則式係統 144
7.2 規則式係統的目的 146
7.2.1 為何需要規則式係統 146
7.2.2 使用規則式係統的應用 147
7.2.3 練習 147
7.2.4 開發規則式係統需要的資源 147
7.3 規則式係統的架構 148
7.3.1 從專傢係統的角度來看規則式係統的通用架構 149
7.3.2 NLP應用中的規則式係統的實用架構 150
7.3.3 NLP應用中的規則式係統的定製架構 152
7.3.4 練習 155
7.3.5 Apache UIMA架構 155
7.4 規則式係統的開發周期 156
7.5 規則式係統的應用 156
7.5.1 使用規則式係統的NLP應用 156
7.5.2 使用規則式係統的通用AI應用 157
7.6 使用規則式係統來開發NLP應用 157
7.6.1 編寫規則的思維過程 158
7.6.2 基於模闆的聊天機器人應用 165
7.7 規則式係統與其他方法的對比 168
7.8 規則式係統的優點 169
7.9 規則式係統的缺點 169
7.10 規則式係統麵臨的挑戰 170
7.11 詞義消歧的基礎 170
7.12 規則式係統近期發展的趨勢 171
7.13 總結 171
第8章 自然語言處理中的機器學習方法 172
8.1 機器學習的基本概念 172
8.2 自然語言處理應用的開發步驟 176
8.2.1 第一次迭代時的開發步驟 177
8.2.2 從第二次到第N次迭代的開發步驟 177
8.3 機器學習算法和其他概念 179
8.3.1 有監督機器學習方法 179
8.3.2 無監督機器學習方法 206
8.3.3 半監督機器學習算法 210
8.3.4 一些重要概念 211
8.3.5 特徵選擇 215
8.3.6 維度約減 219
8.4 自然語言處理中的混閤方法 221
8.5 總結 221
第9章 NLU和NLG問題中的深度學習 223
9.1 人工智能概覽 223
9.1.1 人工智能的基礎 223
9.1.2 人工智能的階段 225
9.1.3 人工智能的種類 227
9.1.4 人工智能的目標和應用 227
9.2 NLU和NLG之間的區彆 232
9.2.1 自然語言理解 232
9.2.2 自然語言生成 232
9.3 深度學習概覽 233
9.4 神經網絡基礎 234
9.4.1 神經元的第一個計算模型 235
9.4.2 感知機 236
9.4.3 理解人工神經網絡中的數學概念 236
9.5 實現神經網絡 249
9.5.1 單層反嚮傳播神經網絡 249
9.5.2 練習 251
9.6 深度學習和深度神經網絡 251
9.6.1 迴顧深度學習 251
9.6.2 深度神經網絡的基本架構 251
9.6.3 NLP中的深度學習 252
9.6.4 傳統NLP和深度學習NLP技術的區彆 253
9.7 深度學習技術和NLU 255
9.8 深度學習技術和NLG 262
9.8.1 練習 262
9.8.2 菜譜摘要和標題生成 262
9.9 基於梯度下降的優化 265
9.10 人工智能與人類智能 269
9.11 總結 269
第10章 高級工具 270
10.1 使用Apache Hadoop作為存儲框架 270
10.2 使用Apache Spark作為數據處理框架 272
10.3 使用Apache Flink作為數據實時處理框架 274
10.4 Python中的可視化類庫 274
10.5 總結 275
第11章 如何提高你的NLP技能 276
11.1 開始新的NLP職業生涯 276
11.2 備忘列錶 277
11.3 確定你的領域 277
11.4 通過敏捷的工作來實現成功 278
11.5 NLP和數據科學方麵一些有用的博客 278
11.6 使用公開的數據集 278
11.7 數據科學領域需要的數學知識 278
11.8 總結 279
第12章 安裝指導 280
12.1 安裝Python、pip和NLTK 280
12.2 安裝PyCharm開發環境 280
12.3 安裝依賴庫 280
12.4 框架安裝指導 281
12.5 解決你的疑問 281
12.6 總結 281
· · · · · · (
收起)