温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢
1.文档编写目的
Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。而CDH中的Solr部署方式就是采用的SolrCloud,CDH中基于Solr的全文索引方案又叫Cloudera Search。本文主要是介绍如何在CDH中使用Solr对HDFS中的json数据建立全文索引。
- 内容概述
1.索引建立流程
2.准备数据
3.在Solr中建立collection
4.编辑Morphline配置文件
5.启动Morphline的MapReduce作业建立索引
6.查询验证
- 测试环境
1.RedHat7.4
2.CM5.14.3
3.CDH5.14.2
4.Solr4.10.3
5.集群未启用Kerberos
- 前置条件
1.Solr服务已经安装并运行正常
2.Hue中已经配置集成Solr服务
2.索引建立流程
见下图为本文档将要讲述的使用Solr建立全文索引的过程:
1.先将准备好的半/非结构化数据put到HDFS。
2.在Solr中建立collection,这里需要定义一个schema文件对应到本文要使用的json数据,需要注意格式对应。
3.修改Morphline的配置文件,使用Morphline解析json的功能。
4.然后启动Morphline作业,是一个MapReduce任务,它会首先读取存在HDFS中的原始文件,然后开始创建Solr的全文索引,最终把索引也会保存到HDFS。
Cloudera Search提供了一个比较方便的工具可以基于HDFS中的数据批量建立索引。见上图称作MapReduce Indexing Job,是属于Morphlines的一部分。
Morphline Commands是Cloudera Search项目的一部分,实现了Flume、MapReduce、HBase、Spark到Apache Solr的数据ETL。Morphline可以让你很方便的只通过使用配置文件,较为方便的解析如csv,json,avro等数据文件,并进行ETL入库到HDFS,并同时建立Solr的全文索引。从而避免了需要编写一些复杂的代码。
3.准备数据
1.准备生成一些json格式的样例数据,生成数据的Java代码如下。
代码语言:javascript复制
package com.cloudera;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
public class GenerateSolrTestData {
public static long getId() {
return (long) (Math.random() * 1000000000000l);
}
public static String getRadomCOLLECTIONDATE() {
String year[] = { "2018" };
String month[] = { "01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12" };
String day[] = { "01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12", "13", "14", "15", "16",
"17", "18", "19", "20", "21", "22", "23", "24", "25", "26", "27", "28" };
String hour[] = { "00", "01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12", "13", "14",
"15", "16", "17", "18", "19", "20", "21", "22", "23" };
String minute[] = { "00", "01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12", "13", "14",
"15", "16", "17", "18", "19", "20", "21", "22", "23", "24", "25", "26", "27", "28", "29", "30", "31",
"32", "33", "34", "35", "36", "37", "38", "39", "40", "41", "42", "43", "44", "45", "46", "47", "48",
"49", "50", "51", "52", "53", "54", "55", "56", "57", "58", "59" };
String second[] = { "00", "01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12", "13", "14",
"15", "16", "17", "18", "19", "20", "21", "22", "23", "24", "25", "26", "27", "28", "29", "30", "31",
"32", "33", "34", "35", "36", "37", "38", "39", "40", "41", "42", "43", "44", "45", "46", "47", "48",
"49", "50", "51", "52", "53", "54", "55", "56", "57", "58", "59" };
int index1 = (int) (Math.random() * year.length);
int index2 = (int) (Math.random() * month.length);
int index3 = (int) (Math.random() * day.length);
int index4 = (int) (Math.random() * hour.length);
int index5 = (int) (Math.random() * minute.length);
int index6 = (int) (Math.random() * second.length);
String coliectiondate = year[index1] "-" month[index2] "-" day[index3] "T" hour[index4] ":"
minute[index5] ":" second[index6] "Z";
return coliectiondate;
}
public static String getRandomText() {
String test[] = { "accumulo-core-1.6.0.jar", "accumulo-fate-1.6.0.jar", "accumulo-start-1.6.0.jar",
"accumulo-trace-1.6.0.jar", "activation-1.1.jar", "activemq-client-5.10.2.jar",
"akka-actor_2.10-2.2.3-shaded-protobuf.jar", "akka-remote_2.10-2.2.3-shaded-protobuf.jar",
"akka-slf4j_2.10-2.2.3-shaded-protobuf.jar", "akuma-1.9.jar", "algebird-core_2.10-0.6.0.jar"};
int index1 = (int) (Math.random() * test.length);
return test[index1];
}
public static String getRandomTextCh() {
String test[] = {
"贾玲,原名贾裕玲。1982年4月29日出生于湖北襄阳,毕业于中央戏剧学院。喜剧女演员,师从冯巩,发起并创立酷口相声。2003年获《全国相声小品邀请赛》相声一等奖。2006年《中央电视台》第三届相声大赛专业组二等奖。2009年7月,由贾玲、邹僧等人创办的新笑声客栈开张,成为酷口相声的大本营。2010年2月14日,贾玲首次登上央视春晚的舞台表演相声《大话捧逗》,并获“我最喜爱的春晚节目”曲艺组三等奖。2011年2月2日,再次登上央视春晚舞台,表演相声《芝麻开门》。",
"要实现近实时搜索,就必须有一种机制来实时的处理数据然后生成到solr的索引中去,flume-ng刚好提供了这样一种机>制,它可以实时收集数据,然后通过MorphlineSolrSink对数据进行ETL,最后写入到solr的索引中,这样就能在solr搜索引擎中近实时的查询到新进来的数据了由贾玲人。",
"如上图,每个缓冲区以四个字节开头,中间是多个字节的缓冲数据,最后以一个空缓冲区结尾。",
"实际还是围绕着Agent的三个组件Source、Channel、Sink来看它能够支持哪些技术或协议。我们不再对各个组件支持的协议详细配置进行说明,通过列表的方式分别对三个组件进行概要说明",
"下面写一个最简单的Hello World例子,以便对RESTful WebService有个感性认识。因为非常专业理论化的描述RESTful WebService是一件理解起来很痛苦的事情。看看例子就知道个大概了,再看理论就容易理解多了。",
"据中国香港经济日报报道,传小米可能在下周向港交所提交上市申请。经济日报此前还报道,小米最近数月不乏上市前股东售股活动,售股价格显示公司估值介乎650亿至700亿美元。此前,曾有多个小米估值的版本出现,比如1000亿美元,甚至2000亿美元,小米方面都未进行置评",
"最近,中超新晋土豪苏宁可谓是频出大手笔。夏窗尚未开启,苏宁就早早开始谋划了。", "尽管距离泰达与恒大的比赛还有2天的时间,但比赛的硝烟已经开始弥漫。",
"据美国媒体报道,美国当地时间21日上午,流行音乐传奇人物王子(Prince)被发现死于位于明尼苏达的住所内,医务人员进行了紧急抢救,但最终回天无力,享年57岁。",
"016年4月19日,周杰伦召开记者会,正式宣布:与杰藝文創合作,收购S2冠军战队台北暗杀星TPA,并正式更名为",
"上周五,麦格希金融在一项声明中说,这笔交易预计在今年第三季度完成,目前正在等待监管部门的审批" };
int index1 = (int) (Math.random() * test.length);
return test[index1];
}
public static String getData() {
StringBuffer sbf = new StringBuffer();
sbf.append("{"id": "" getId() "","created_at": "" getRadomCOLLECTIONDATE() "", "text": ""
getRandomText() "","text_cn":"" getRandomTextCh() ""}");
return sbf.toString();
}
public static void write(int n, String file) {
BufferedWriter bw = null;
try {
bw = new BufferedWriter(new FileWriter(file, true), 4194304);
for (int i = 0; i < n; i ) {
bw.write(getData() "rn");
}
System.out.println("数据生成完毕!" file);
} catch (IOException e) {
e.printStackTrace();
System.out.println("数据生成异常!");
} finally {
try {
bw.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
public static void main(String[] args) {
write(300000, "/root/data1.txt");
}
}
(可左右滑动)
因为Fayson的AWS环境配置较低,这里只作为实验生成30W行数据,大约100MB。
2.将Java代码打包成jar并上传到服务器执行,生成数据。
代码语言:javascript复制
[root@ip-172-31-8-230 solr-hdfs]# java -cp GenerateSolrTestData.jar com.cloudera.GenerateSolrTestData
数据生成完毕!/root/data1.txt
(可左右滑动)
查看该数据,为30W行,100MB。
代码语言:javascript复制
[root@ip-172-31-8-230 ~]# head data1.txt
[root@ip-172-31-8-230 ~]# cat data1.txt |wc -l
[root@ip-172-31-8-230 ~]# du -sh data1.txt
(可左右滑动)
3.在HDFS中建立建立一个目录,并将生成的数据put到这个目录中。
代码语言:javascript复制
[root@ip-172-31-8-230 ~]# hadoop fs -mkdir -p /fayson/solr
[root@ip-172-31-8-230 ~]# hadoop fs -put data1.txt /fayson/solr
[root@ip-172-31-8-230 ~]# hadoop fs -ls /fayson/solr
(可左右滑动)
4.在Solr中建立collection
1.根据json文件准备schema文件。根据第三章的json格式数据内容可以看到一共有id,username,created_at,text,text_cn几个属性项。在Solr的collection的schema文件中都要有相应的对应,如下所示:
代码语言:javascript复制
<?xml version="1.0" encoding="UTF-8" ?>
<schema name="example" version="1.5">
<fields>
<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
<field name="created_at" type="string" indexed="true" stored="true" />
<field name="text" type="text_en" indexed="true" stored="true" />
<field name="text_cn" type="text_ch" indexed="true" stored="true" />
<field name="_version_" type="long" indexed="true" stored="true"/>
</fields>
<uniqueKey>id</uniqueKey>
<types>
<!-- The StrField type is not analyzed, but indexed/stored verbatim.
It supports doc values but in that case the field needs to be
single-valued and either required or have a default value.
-->
<fieldType name="string" class="solr.StrField" sortMissingLast="true"/>
<!--
Default numeric field types. For faster range queries, consider the tint/tfloat/tlong/tdouble types.
These fields support doc values, but they require the field to be
single-valued and either be required or have a default value.
-->
<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="text_en" class="solr.TextField" positionIncrementGap="100" />
<fieldType name="text_ch" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
</fieldType>
</types>
</schema>
(可左右滑动)
注意Solr在建立全文索引的过程中,必须指定唯一键(uniqueKey),类似主键,唯一确定一行数据,我们这里的示例demo使用的是json中的id属性项。如果没有,你可以让solr自动生成。
schema文件中的字段类型定义,标准如int,string,long等这里不再说明,注意有两个类型text_cn,text_ch,主要对应到英文或者中文的文字内容,涉及到分词和全文检索技术。英文的分词和全文检索是默认自带的,中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。下载地址为:
https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn/4.10.3-cdh5.14.2/
2.准备建立collection的脚本
代码语言:javascript复制
ZK="ip-172-31-5-171.ap-southeast-1.compute.internal"
COLLECTION="collection1"
BASE=`pwd`
SHARD=3
REPLICA=1
echo "create solr collection"
rm -rf tmp/*
solrctl --zk $ZK:2181/solr instancedir --generate tmp/${COLLECTION}_configs
cp conf/schema.xml tmp/${COLLECTION}_configs/conf/
solrctl --zk $ZK:2181/solr instancedir --create $COLLECTION tmp/${COLLECTION}_configs
solrctl --zk $ZK:2181/solr collection --create $COLLECTION -s $SHARD -r $REPLICA
solrctl --zk $ZK:2181/solr collection --list
(可左右滑动)
ZK:Zookeeper的某台机器的hostname
COLLECTION:需要建立的collection名字
SHARD:需要建立的shard的数量
REPLICA:副本数
3.执行create.sh脚本建立collection
代码语言:javascript复制
[root@ip-172-31-8-230 solr-hdfs]# sh create.sh
create solr collection
Uploading configs from tmp/collection1_configs/conf to ip-172-31-5-171.ap-southeast-1.compute.internal:2181/solr. This may take up to a minute.
collection1 (2)
(可左右滑动)
5.编辑Morphline配置文件
1.准备Morphline的配置文件
代码语言:javascript复制
# Specify server locations in a SOLR_LOCATOR variable; used later in
# variable substitutions:
SOLR_LOCATOR : {
# Name of solr collection
collection : collection1
# ZooKeeper ensemble
zkHost : "ip-172-31-12-213:2181/solr"
}
# Specify an array of one or more morphlines, each of which defines an ETL
# transformation chain. A morphline consists of one or more potentially
# nested commands. A morphline is a way to consume records such as Flume events,
# HDFS files or blocks, turn them into a stream of records, and pipe the stream
# of records through a set of easily configurable transformations on its way to
# Solr.
morphlines : [
{
# Name used to identify a morphline. For example, used if there are multiple
# morphlines in a morphline config file.
id : morphline1
# Import all morphline commands in these java packages and their subpackages.
# Other commands that may be present on the classpath are not visible to this
# morphline.
importCommands : ["org.kitesdk.**", "org.apache.solr.**","com.cloudera.example.**"]
commands : [
{
readJson {}
}
{
extractJsonPaths {
flatten : false
paths : {
id : /id
created_at : /created_at
text : /text
text_cn:/text_cn
}
}
}
# Consume the output record of the previous command and pipe another
# record downstream.
#
# convert timestamp field to native Solr timestamp format
# such as 2012-09-06T07:14:34Z to 2012-09-06T07:14:34.000Z
{
convertTimestamp {
field : created_at
inputFormats : ["yyyy-MM-dd'T'HH:mm:ss'Z'", "yyyy-MM-dd"]
inputTimezone : America/Los_Angeles
outputFormat : "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'"
outputTimezone : UTC
}
}
# Consume the output record of the previous command and pipe another
# record downstream.
#
# This command deletes record fields that are unknown to Solr
# schema.xml.
#
# Recall that Solr throws an exception on any attempt to load a document
# that contains a field that is not specified in schema.xml.
{
sanitizeUnknownSolrFields {
# Location from which to fetch Solr schema
solrLocator : ${SOLR_LOCATOR}
}
}
# log the record at DEBUG level to SLF4J
{ logDebug { format : "output record: {}", args : ["@{}"] } }
# load the record into a Solr server or MapReduce Reducer
{
loadSolr {
solrLocator : ${SOLR_LOCATOR}
}
}
]
}
]
(可左右滑动)
根据上图可以看到配置项里包括:
collection的名字,Zookeeper的地址
注意我们使用了readjson方法,然后对应到我们之前定义的schema文件里的json属性项
6.启动Morphline的MapReduce作业建立索引
1.将中文分词包拷贝到指定的目录,首先到以下网址下载中文分词的jar包
代码语言:javascript复制
https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn/4.10.3-cdh5.14.2/
(可左右滑动)
将中文分词jar包分发到所有机器的Solr和YARN服务相关的目录
代码语言:javascript复制
[root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn-4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn
[root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn-4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib
(可左右滑动)
2.分发到集群所有机器
代码语言:javascript复制
[root@ip-172-31-8-230 shell]# sh bk_cp.sh node.list /opt/cloudera/parcels/CDH/lib/hadoop-yarn/lucene-analyzers-smartcn-4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn
lucene-analyzers-smartcn-4.10.3-cdh5.14.2.jar
[root@ip-172-31-8-230 shell]# sh bk_cp.sh node.list /opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib/lucene-analyzers-smartcn-4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib
(可左右滑动)
3.准备创建Morphline任务的MapReduce作业的脚本
代码语言:javascript复制
INPUT='/fayson/solr'
COLLECTION='collection1'
NN='ip-172-31-8-230.ap-southeast-1.compute.internal'
ZK='ip-172-31-8-230.ap-southeast-1.compute.internal'
echo 'Delete previous docs...'
solrctl collection --deletedocs $COLLECTION
echo 'MapReduce indexing...'
config="/etc/hadoop/conf.cloudera.yarn"
parcel="/opt/cloudera/parcels/CDH"
jar="$parcel/lib/solr/contrib/mr/search-mr-*-job.jar"
libjars="lib/mtools-0.4.0.jar"
cls="org.apache.solr.hadoop.MapReduceIndexerTool"
opts="'mapred.child.java.opts=-Xmx1024m'"
log4j="$parcel/share/doc/search*/examples/solr-nrt/log4j.properties"
input="hdfs://$NN:8020/$INPUT"
output="hdfs://$NN:8020/tmp/$COLLECTION"
zk="$ZK:2181/solr"
hdfs dfs -rm -r -f -skipTrash $output
hadoop --config $config jar $jar $cls --libjars $libjars -D $opts --log4j $log4j --morphline-file conf/morphlines.conf --output-dir $output --verbose --go-live --zk-host $zk --collection $COLLECTION $input
(可左右滑动)
4.运行脚本
代码语言:javascript复制
[root@ip-172-31-8-230 solr-hdfs]# sh batch.sh
Delete previous docs...
MapReduce indexing...
Deleted hdfs://ip-172-31-8-230.ap-southeast-1.compute.internal:8020/tmp/collection1
0 [main] INFO org.apache.solr.common.cloud.SolrZkClient - Using default ZkCredentialsProvider
18 [main] INFO org.apache.solr.common.cloud.ConnectionManager - Waiting for client to connect to ZooKeeper
53 [main-EventThread] INFO org.apache.solr.common.cloud.ConnectionManager - Watcher org.apache.solr.common.cloud.ConnectionManager@12dae582 name:ZooKeeperConnection Watcher:ip-172-31-8-230.ap-southeast-1.compute.internal:2181/solr got event WatchedEvent state:SyncConnected type:None path:null path:null type:None
53 [main] INFO org.apache.solr.common.cloud.ConnectionManager - Client is connected to ZooKeeper
53 [main] INFO org.apache.solr.common.cloud.SolrZkClient - Using default ZkACLProvider
63 [main] INFO org.apache.solr.common.cloud.ZkStateReader - Updating cluster state from ZooKeeper...
264 [main] INFO org.apache.solr.hadoop.MapReduceIndexerTool - Cluster reports 30 mapper slots
452 [main] INFO org.apache.solr.hadoop.MapReduceIndexerTool - Cluster reports 6 reduce slots
452 [main] INFO org.apache.solr.hadoop.MapReduceIndexerTool - Using these parameters: numFiles: 1, mappers: 240, realMappers: 1, reducers: 3, shards: 3, fanout: 2147483647, maxSegments: 1
452 [main] INFO org.apache.solr.hadoop.MapReduceIndexerTool - Randomizing list of 1 input files to spread indexing load more evenly among mappers
494 [main] INFO org.apache.solr.hadoop.MapReduceIndexerTool - Done. Randomizing list of 1 input files took 0.042142063 secs
(可左右滑动)
会报NameNode一个ACL的错误,不用理。可以看到日志最后,MapReduce作业执行成功,表示索引建立成功过。
5.查看YARN的8088,发现MapReduce作业执行成功。
7.Solr自带界面全文索引查询验证
1.从Cloudera Manger中选择Solr并进入其中一台Solr Server的界面
2.选择一个collection的shard并进入collection的查询界面
3.点击query按钮,准备开始查询数据
4.查询全部数据
5.得到查看结果是30W条,符合预期,表明所有数据都已经入库成功
6.查询关键字“实际”,发现查询结果会显示所有带有“实际”词语的条目,一共27453条。
8.使用Hue进行全文索引查询验证
1.进入Hue并选择“Indexes”页面
2.选择collection1
3.点击右上角放大镜查询图标
4.总数为30W条,符合预期
5.同样查询“实际”关键字,发现“实际”会被高亮,并且27453条符合预期,与第七章使用Solr自带界面查询的结果也是相符合的。
9.总结
1.使用Cloudera提供的Morphline工具,可以让你不需要编写一行代码,只需要通过使用一些配置文件就可以快速的对半/非机构化数据进行全文索引。
2.本文demo提供的中文分词是比较弱的,要想真正上生产使用,可以考虑使用更好的开源中文分词包或者其他第三方的。
3.注意如果全文索引的字段有需要做中文分词的,需要将中文分词的jar包上传到所有机器的Solr和YARN服务相关的目录。否则Solr会无法创建collection,YARN也无法启动创建索引的MapReduce任务。
4.本文只是以json格式的数据进行举例验证,实际Morphline还支持很多其他的格式,包括结构化数据csv,HBase中的数据等等。具体请参考:
http://kitesdk.org/docs/1.1.0/morphlines/
https://www.cloudera.com/documentation/enterprise/latest/topics/search.html
本文所有代码或脚本源码已上传到github,参考:
https://github.com/fayson/cdhproject/tree/master/generatedata/solr-hdfs-shell
https://github.com/fayson/cdhproject/blob/master/generatedata/src/main/java/com/cloudera/solr/GenerateSolrTestData.java
提示:代码块部分可以左右滑动查看噢 为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享
原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操