HDFS HDFS是Hadoop Distribute File System 的简称, 也就是Hadoop的一个分布式文件系统。 这里的“超大文件”是指几百MB、GB甚至TB级别的文件。 HDFS存储的数据集作为hadoop的分析对象。HDFS的组成 1....
1. 从本地集合获取数据import org.apache.flink.api.scala._/** * author: YangYunhe * date: 2019/8/3 18:59 * description: 从本地集合中获取数据 */object CollectionSource {...
在 hadoop 中,基于 Linux 命令可以给 hdfs 创建文件和文件夹,或者删除文件和文件夹
1. 建表, 存储格式为 ORC 格式create table if not exists record_orc ( rid string, uid string, bid string, price int, source_province string, target_province string,...
清理hdfs小文件shell脚本#!/bin/bashecho "--------------------------------------------------------------------------------------------------------------------"echo "B...
### 本地代码flink streaming读取远程环境的kafka的数据,写入远程环境的HDFS中;public static void main(String[] args) throws Exception { // set up the streaming execution envi......
1.安装前提条件(1)首先安装jdk,最好安装1.7及1.7以上版本,并且安装jdk的环境变量 vi ~/.bashrc export JAVA_HOME=/usr/local/software/jdk1.8.0_141 export PATH=$JAVA_HOME/bin:$PATH......
使用avro-tools获取Avro文件的Schemaavro-tools getschema hdfs://localhost:9000//user/hive/warehouse/retail_stage.db/orders/part-m-00000.avro >~/orders.avsc将Avro文件的Sche...
总概Holodesk应用场景增强在交互分析中Ad-hoc query的高效性支持流应用insert & update & deleteCarbonData应用场景支持 big scan
最近常用Sqoop导入一些数据到HDFS中。但是执行完成后,总是会在我执行sqoop命令的文件夹下生成一些MR代码。总是需要去手动清理。感觉比较困扰,然后就看Sqoop的文档。发现有一个配置可以指定生成MR代码的路径。如果能指...