目錄
第1章 引言 1
第2章 數學基礎 7
2.1 初等概率理論 7
2.1.1 基本概念 7
2.1.2 條件概率與獨立 9
2.1.3 全概率公式與貝葉斯公式 10
2.1.4 隨機變量 12
2.1.5 多維隨機變量 13
2.1.6 數學期望與方差 15
2.1.7 常用分布 16
2.2 信息論基礎 18
2.2.1 信息熵 18
2.2.2 聯閤熵和條件熵 20
2.2.3 互信息 20
2.2.4 相關熵 21
2.2.5 語言與熵 22
2.2.6 噪聲信道模型 23
2.3 粗糙集 25
2.3.1 信息係統 25
2.3.2 不可分辨關係 25
2.3.3 集閤近似 26
2.3.4 約簡 27
2.3.5 屬性依從 28
2.3.6 決策規則閤成 29
2.4 小結 29
第3章 漢語自動分詞技術 31
3.1 引言 31
3.2 分詞規範 33
3.3 常用的分詞方法 35
3.3.1 正嚮最大匹配分詞 35
3.3.2 反嚮最大匹配分詞 35
3.3.3 基於統計的詞網格分詞 36
3.4 歧義的分類和識彆 36
3.4.1 歧義的分類 36
3.4.2 歧義的抽取和消歧 37
3.5 新詞的識彆 39
3.5.1 統計構詞能力 40
3.5.2 漢字構詞模式 40
3.5.3 未登錄詞識彆算法 41
3.6 關於分詞的若乾統計結果 41
3.7 語言單位的統計分布規律 (Zipf定律) 42
3.8 小結 44
第4章 基於數學統計的語言模型 47
4.1 統計語言模型概述 47
4.2 現有的主要統計語言模型 48
4.2.1 上下文無關模型 48
4.2.2 N元文法模型 49
4.2.3 N|POS模型 50
4.2.4 基於決策樹的語言模型 51
4.2.5 動態、自適應、基於緩存的語言模型 51
4.3 數據平滑技術 52
4.3.1 數據平滑算法的評價標準 53
4.3.2 常見平滑方法 53
4.4 隱馬爾科夫模型 57
4.4.1 隨機過程 57
4.4.2 馬爾科夫鏈和馬爾科夫性 57
4.4.3 馬爾科夫模型 58
4.4.4 隱馬爾科夫模型 58
4.5 最大熵模型 62
4.5.1 模型介紹 62
4.5.2 模型評價 64
4.5.3 最大熵語言建模 64
4.6 小結 65
第5章 基於語言理解的處理方法 69
5.1 引言 69
5.2 常用的基於語言理解的分類標注體係 70
5.2.1 詞性分類體係 70
5.2.2 詞義分類體係 72
5.3 常用的基於語言理解的語法理論 74
5.3.1 常用的語法理論 75
5.3.2 淺層語法分析技術 82
5.4 語料庫多級加工 84
5.4.1 語料庫的多級加工 85
5.4.2 分詞 86
5.4.3 詞性標注 86
5.4.4 詞性標注的HMM模型 88
5.4.5 Viterbi詞性標注算法 89
5.4.6 語法分析 90
5.4.7 概率上下文無關文法 93
5.4.8 語料庫的應用 95
5.5 小結 96
第6章 音字轉換技術 99
6.1 引言 99
6.2 聲音語句輸入 100
6.2.1 聲音語句輸入的提齣 100
6.2.2 聲音語句的推理 101
6.2.3 聲音語句輸入的係統實現 102
6.3 漢字智能拼音鍵盤輸入 103
6.4 拼音輸入的多種錶達形式 104
6.4.1 拼音助學和提示輸入 104
6.4.2 簡拼快速輸入 105
6.4.3 用戶自定義簡拼 105
6.4.4 模糊拼音輸入 105
6.4.5 麵嚮數字鍵盤的數字拼音輸入 105
6.5 拼音預處理 106
6.5.1 拼音流的切分 106
6.5.2 拼音糾錯 108
6.6 音字轉換的實現方法 109
6.6.1 基於理解的方法 109
6.6.2 基於語用統計的方法 109
6.6.3 基於模闆匹配的方法 110
6.6.4 基於上下文關聯的音字轉換 110
6.7 小結 111
第7章 自動文摘技術 113
7.1 引言 113
7.2 文本的內部錶示方法 115
7.3 基於淺層分析的文摘技術 116
7.3.1 建立特徵庫 117
7.3.2 文摘句抽取 119
7.4 基於實體分析的文摘技術 120
7.4.1 特徵提取 120
7.4.2 文摘抽取 122
7.5 基於話語結構的文摘技術 122
7.5.1 基於詞匯銜接的文摘方法 123
7.5.2 基於話語樹的文摘方法 124
7.6 文摘係統評測方法 126
7.7 關鍵詞自動抽取 127
7.8 小結 129
第8章 信息檢索技術 131
8.1 信息檢索綜述 131
8.1.1 信息檢索的定義與術語 131
8.1.2 信息檢索係統 132
8.1.3 信息檢索係統的評價 134
8.1.4 信息檢索簡史 136
8.2 信息檢索的統計模型 137
8.2.1 基於統計的信息檢索模型 137
8.2.2 布爾模型 138
8.2.3 嚮量空間模型 139
8.2.4 概率模型 142
8.3 信息檢索中的自然語言處理方法 143
8.4 文本自動分類技術 146
8.4.1 問題的提齣 146
8.4.2 分類預處理 146
8.4.3 嚮量空間簡化方法 147
8.4.4 分類方法 149
8.5 小結 154
第9章 文字識彆技術 157
9.1 引言 157
9.2 聯機手寫體漢字識彆的國內外研究概況 158
9.2.1 國外研究概況 158
9.2.2 國內研究概況 159
9.3 聯機手寫體漢字識彆方法綜述 160
9.3.1 基於統計的識彆方法 160
9.3.2 基於結構的識彆方法 161
9.3.3 基於神經元網絡的識彆方法 162
9.3.4 基於機器學習的識彆方法 162
9.4 典型聯機手寫體漢字識彆係統 163
9.4.1 漢王中文手寫體漢字識彆係統 163
9.4.2 豪文中文手寫體漢字識彆係統 163
9.5 聯機手寫體漢字識彆後處理係統 164
9.5.1 手寫體漢字識彆模型 164
9.5.2 P(I|S)估計 165
9.5.3 P(S)估計 166
9.5.4 基於詞網格的手寫體漢字識彆的語言學解碼方法 166
9.5.5 聯機手寫體漢字識彆後處理係統 167
9.6 小結 169
· · · · · · (
收起)