全文检索数据挖掘

全文检索(Full-text Search)：先建立索引，再对索引进行搜索的过程，搜索结果为匹配文本

一般过程：索引创建(Indexing)和搜索索引(Search)

数据挖掘（DM）

传统的数据库分析数据量太大后效率低，产生数据挖掘和数据仓库等新技术。数据挖掘功能：

1.自动预测趋势和行为

2.关联分析

3.聚类

4.概念描述

5.偏差检测

http://os.51cto.com/art/201012/238194.htm

数据挖掘之分词器：

1.基于词典分词（目前主流的分词方法，解决70~80%的问题，二元以上分词后查找字典直到找不到为止）：正向最大匹配、逆向最大匹配、双向最大匹配、最佳最大匹配

2.基于语义分词（还不成熟）

3.基于统计分词（优先高频词汇）

http://www.csdn.net/article/2014-09-11/2821642-data-mining-by-Lanceyan

数据仓库（DW）

数据仓库是一个环境，组成包括：数据抽数据净化数据载入信息发布系统操作型数据和外界数据数据集市报表,查询, EIS工具 OLAP 工具数据挖掘工具操纵平台元数据管理平台

建立URL和分词元数据的键值对，提供全文检索URL

http://www.cnblogs.com/elaron/archive/2013/07/24/3213333.html

http://www.admin10000.com/document/5250.html

开源的搜索引擎库，提供全文索引方法

反响索引：词-文章键值对倒排索引：倒过来，文章作为key值

Lucene建立索引五大类： Document、Field、Analyzer（分词器）、IndexWriter、Directory

Lucene搜索： Query、Term、TermQuery、IndexSearcher、Hits

http://blog.csdn.net/ceclar123/article/details/10150839

http://www.cnblogs.com/xing901022/p/3933675.html

http://lucene.apache.org/core/4_2_1/core/overview-summary.html（lucene api）

词库素材：

词库在网上很多如，QQ拼音、搜狗拼音等词库都已加密，可以找一些未加密的词库，导入lucene词库管理工具

Solr：基于Lucene建立的服务器，提供全文搜索服务

Nutch：Web搜索引擎

HadDoop：分布式服务框架

参考：

http://my.oschina.net/apdplat/blog/228615?p=1（word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估）

http://3dobe.com/archives/44/（IK分词器原理与源码分析）

http://www.th7.cn/Program/net/201212/117929.shtml(Lucene.net全文检索架构)

http://blog.csdn.net/liuweitoo/article/details/8124440（Lucene）

0 人点赞