关于一些技术点的随笔记录(二)

2020-08-10 14:30:44 浏览数 (1)

1.Hive建表时开启事务机制导致insert失败


建表语句:

代码语言:javascript复制
create table A (
     table_code string,
     data_dt string,
     update_dt string)
     clustered by (table_code) into 1 buckets
     row format delimited fields terminated by '33'
     stored as orc -- orc格式
     tablproperties('transactional'='true');

执行insert..values操作:

代码语言:javascript复制
insert into table A values('1','2','3');

出现异常:

代码语言:javascript复制
FAILED: SemanticException [Error 10265]: This command is not allowed on an ACID table default.a with a non-ACID transaction manager. Failed command: null

原因:

Hive建表语句指定tblproperties('transactional'='true'),则执行插入操作时,不能直接使用insert..values语句,原因是开启了事务机制。建议使用insert..select方式。

2.Scala模式匹配中 @ 的含义


@是为了给模式匹配起个变量名,一般格式为:variableName@pattern,示例:

代码语言:javascript复制
val list = List(1, 2, 3, 4, 5, 6)

list match {
    //right其实就代表了一个集合,元素为3,4,5,6
    case List(_, _, right@_*) => println(right)
    case _ =>
}

list match {
    //这种写法错误
    //case l:List(_, _, _*) => println(right)

    //正确写法,下面两种输出结果一致
    case list@ List(_,_, _*) => println(list)
    case list: List[_] => println(list)
}

3.监控Yarn上Spark任务 可以通过要监控的任务列表,对比存活的Spark任务,不存在的可以通过短信或邮件的方式预警。获取Spark还在运行状态任务的示例代码:

代码语言:javascript复制
private def yarn(): Unit = {
    val yarnConf = new YarnConfiguration()
    val yarnClient = YarnClient.createYarnClient()

    yarnClient.init(yarnConf)
    yarnClient.start()

    try {
      import scala.collection.JavaConversions._
      //YarnApplicationState有应用不同的运行状态,如RUNNING、FINISHED
      val applicationReports = yarnClient.getApplications(util.EnumSet.of(YarnApplicationState.RUNNING))

      applicationReports.foreach { ar =>
        //应用ID,spark.app.id
        println(s"appId ==> ${ar.getApplicationId}")
        //应用名字,spark.app.name
        println(s"name ==> ${ar.getName}")
        //应用所处队列,spark.yarn.queue
        println(s"queue ==> ${ar.getQueue}")
        //应用的用户
        println(s"user ==> ${ar.getUser}")
      }

    } catch {
      case e: Exception => e.printStackTrace()
    }

    yarnClient.stop()
 }

4.结合业务场景的HBase预分区及热点处理


1)HBase字段本身做优化,比如手机号码倒置

2)针对row key进行哈希散列取前几位作为预分区前缀,最常见的就是通过MD5处理

3)查询场景不是全表scan或者get,而是范围scan,可以给row key加上固定的预分区前缀。写入数据时采用轮询方式,写入这些范围前缀。假如scan指定范围的话就需要一个scan转化为n多个范围scan,这个可以实现针对单个key过大的优化,相当于均分了n份。

注意:对row key进行散列处理后,表范围scan(全表扫描除外),所以要根据业务场景进行分表处理,比如按天。此外,数据量大时,可以给row key加上时间戳或随机数,避免覆盖。

具体可以参考《HBase高级特性、rowkey设计以及热点问题处理》

5.newInstance和new

newInstance:弱类型、低效率,调用无参构造,使用类加载机制。

使用newInstance()方法的时候,必须保证:

1.这个类已经加载 2.这个类已经连接了

而完成上面两个步骤的正是Class的静态方法forName()所完成的,这个静态方法调用了启动类加载器,即加载Java API的那个加载器。newInstance()实际上是把new这个方式分解为两步,即首先调用Class加载方法加载某个类,然后实例化。这样分步的好处是显而易见的。我们可以在调用class的静态加载方法forName时获得更好的灵活性,提供给了一种降耦的手段。

new: 强类型、相对高效,能调用任何public构造。从JVM的角度看,我们使用new的时候,这个要new的类可以没有加载。

newInstance是实现IOC、反射、面向接口编程和依赖倒置等技术方法的必然选择,new是实现具体类的实例化,不适合于接口编程。

6.session共享

1)cookie加密的方式保存在客户端

优点:减轻服务器端压力

缺点:受到cookie大小限制,因为每次请求会在头部附带cookie信息,占用一定的带宽。另外,这种方式在用户禁用cookie的情况下无效。

这种方式不常用。

2)服务器间同步

比如tomcat集群:通过配置tomcat,实现session共享。

每个tomcat都会在局域网中广播自己的session信息,同时监听其他tomcat广播的session,一旦自己的session发生变化,其他的tomcat能够感知到的,同时就可以同步自己的session和它一样。

缺点:当集群服务器数量比较大如200台,每一台服务器的tomcat都需要广播自己的session,同时监听另外199台,此时,服务器的大量资源都用来处理session同步的事情,用户正常的访问就会受到影响。

要视部署的tomcat集群数量等来定是否使用这种方式。

3)基于分布式缓存的session共享机制

如使用redis取代session保存用户信息,这种方式比较常用

0 人点赞