词性标注
- 标注语料库;
- 各词性标注及其含义
- 自动标注器;
- 默认标注器;
- 正则表达式标注器;
- 查询标注器;
- N-gram标注器;
- 一元标注器;
- 分离训练和测试数据;
- 一般的N-gram的标注;
- 组合标注器;
- 标注生词;
- 储存标注器;
- 性能限制;
- 跨句子边界标注;
- 隐马尔科夫标注器;
- 生成模式;
- 确定模式;
- 非确定模式;
- 隐藏模式;
- 生成模式;
隐马尔科夫模型 HMM
- 是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程,难点在于从可观察的参数中确定此过程的隐含参数,然后利用这些参数进行下一步的分析,可当做一种转移矩阵;
- 一个隐马尔科夫模型是一个三元组(pi, A, B);
- 隐马尔科夫模型的三大基本问题与解决方案包括:
- 对于一个观察序列匹配最可能的系统一一评估,使用前向算法(forward algorithm)解决;
- 对于已生成的一个观察序列,确定最可能的隐藏状态序列一一解码,使用维特比算法(Viterbi algorithm)解决;
- 对于已生成的观察序列,决定最可能的模型参数一一学习,使用前向-后向算法(forward backward algorithm)解决;
文本分类
分类的使用
- 根据名字判别性别;
- 文本分类;
- 词性分类;
- 句子分割;
- 识别对话行为;
分类算法
- 朴素贝叶斯分类器;
- 决策树
建立分类器的步骤:
- 确定输入特征—特征提取器;
- 划分数据集;
- 使用训练集构建分类器;
- 使用测试集测试分类器效果;
分类的类别
- 文档分类
- 特征提取器:关键字是否在文档中;
- 分类器训练;
- 词性判断
- 特征提取器:词后缀
- 分类器训练:决策树分类器
- 基于上下文的词性判断;
- 序列分类
- 贪婪序列分类;
- 隐马尔科夫模型;
- 句子分割:标点符号的分类任务
- 识别对话行为类型;
评估
- 训练集与测试集的划分
- 准确度
- 正确分类数目/待分类数目
- 精确度(precision)
- TP/(TP FP)
- 召回率(recall)
- TP/(TP FN)
- F-度量值(F-score)
- (2*Precison*Recall)/(Precison Recall)
文本聚类
- 特征选择(feature selection)
- 近邻测度(proximity measure)
- 聚类准则(clustering criterion)
- 聚类算法(clustering algorithm)
- 结果验证(valida of the results))
- 结果解释(interpretation of the results)
聚类与分类的区别
- 聚类:通过把相似对象通过静态分类方法分成不同组别或子集的过程;
- 聚类分析的是研究事先在没有训练的条件下如何把样本划分为若干类的问题;
- 而在分类中,对于目标数据库中存在哪些类是事先知道的,需要做的是将每一条记录分别属于的类别标记出来;
- 聚类需要解决的问题是将给定的若干无标记的模式聚集起来让它们成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少泪的情况下,希望将所有记录组成不同的类或聚类,并在这种分类情况下,以某种度量为标准的相似度,在同一聚类之间最小化,而在不同聚类之间最大化;
- 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记;