最新 最热

【趣学程序】HDFS读写流程

HDFS HDFS是Hadoop Distribute File System 的简称, 也就是Hadoop的一个分布式文件系统。 这里的“超大文件”是指几百MB、GB甚至TB级别的文件。 HDFS存储的数据集作为hadoop的分析对象。HDFS的组成 1....

2019-08-20
1

005. Flink DataSource API

1. 从本地集合获取数据import org.apache.flink.api.scala._/** * author: YangYunhe * date: 2019/8/3 18:59 * description: 从本地集合中获取数据 */object CollectionSource {...

2019-08-09
2

hdfs创建删除文件和文件夹

在 hadoop 中,基于 Linux 命令可以给 hdfs 创建文件和文件夹,或者删除文件和文件夹

2019-07-02
1

Hive 表的存储格式

1. 建表, 存储格式为 ORC 格式create table if not exists record_orc ( rid string, uid string, bid string, price int, source_province string, target_province string,...

2019-05-29
1

清理hdfs小文件shell脚本

清理hdfs小文件shell脚本#!/bin/bashecho "--------------------------------------------------------------------------------------------------------------------"echo "B...

2019-03-12
1

flink读取kafka数据并写入HDFS 转

### 本地代码flink streaming读取远程环境的kafka的数据,写入远程环境的HDFS中;public static void main(String[] args) throws Exception { // set up the streaming execution envi......

2019-03-05
1

hdfs伪分布式搭建,伪分布式模式下yarn的配置及测验

1.安装前提条件(1)首先安装jdk,最好安装1.7及1.7以上版本,并且安装jdk的环境变量    vi ~/.bashrc     export JAVA_HOME=/usr/local/software/jdk1.8.0_141    export PATH=$JAVA_HOME/bin:$PATH......

2019-03-05
1

基于Avro文件和Avro Schema构建Avro Hive表

使用avro-tools获取Avro文件的Schemaavro-tools getschema hdfs://localhost:9000//user/hive/warehouse/retail_stage.db/orders/part-m-00000.avro >~/orders.avsc将Avro文件的Sche...

2019-02-26
1

Holodesk VS CarbonData

总概Holodesk应用场景增强在交互分析中Ad-hoc query的高效性支持流应用insert & update & deleteCarbonData应用场景支持 big scan

2019-02-13
1

Sqoop在导入的时候生成的MR代码教你怎么指定路径去存放

最近常用Sqoop导入一些数据到HDFS中。但是执行完成后,总是会在我执行sqoop命令的文件夹下生成一些MR代码。总是需要去手动清理。感觉比较困扰,然后就看Sqoop的文档。发现有一个配置可以指定生成MR代码的路径。如果能指...

2018-12-09
1