加载读文件超时设置参数gbase_loader_read_timeout的使用说明

新的版本已经支持读文件超时的设置,可以将该参数上调,避免在较差网络环境下超时出现read operation timeout错误。

参数说明
参数名称:gbase_loader_read_timeout
默认值:300
最小值:0
最大值:UINT_MAX
参数单位:秒
参数说明:用于指定读取FTP/HTTP/SFTP文件的超时时间,如果填充一个数据块(8M)的时间超过此参数值,加载任务将报错停止。0表示永不超时。
配置方式:单机配置文件或者set变量方式。

集群以SQL方式加载数据,错误日志如何设置和查看

方法1:
参数:TRACE_PATH 用来指定本次加载过程中产生的错误数据和日志存放路径。缺省情况下,错误数据和溯源日志记录在加载机节点的/opt/gnode/log/gbase/loader_logs 下。

gbase> load data infile 'ftp://gbase:gbase@192.168.58.11/lineorder.txt' INTO TABLE ssbm.lineorder FIELDS TERMINATED BY '|' TRACE_PATH '/home/gbase/loadlog/loadlog';

产生报错的加载会有两个日志文件,一个trc文件,记录报错位置和报错原因;一个是err文件,记录错误数据。这两个文件的命名格式和8512一致,taskid开头。

方法2:
可以通过c3搜索:

$ cexec "ls -lrt /home/gbase/loadlog/loadlog" |grep  'taskid_库名_表名' 

集群直接加载hdfs文件namenode会不会成为瓶颈

问题描述:
8a集群支持hdfs文件的直接加载,在加载配置中,hdfs数据源是通过hadoop的namenode节点来获取数据的,因为hadoop只有两个namenode(standby方式),是否存在因为只有一个namenode节点提供数据而导致的加载瓶颈问题?
解决方案:
8a集群直接加载hdfs数据源时,url指定为hadoop的namenode节点,通过namenode节点获取待加载数据的uri路径,然后根据uri路径从各hadoop的datanode直接读取数据,而不用将数据汇总到nemenode节点再提供给8a集群加载。即,hadoop的namenode节点只提供hadoop中数据的元信息,不会造成加载时的网络瓶颈。

8611集群加载工具与8512dispserver加载工具对比差异

在V8.6.1.1 版本GBase 8a MPP Cluster 中,集群加载功能直接集成在GBase 8aMPPCluster 内部,不需要额外部署外部加载工具。
与V8.5.1.2 版本集群加载工具相比,新版加载工具具备如下一些特性和优点:
1)与集群高度集成,方便部署;
2)提供面向用户的SQL 接口,集群和单机加载方式统一,更符合用户的使用习惯;
3)支持多加载机对单表的并行加载,最大化加载性能;
4)支持从通用数据服务器拉取数据,支持ftp/http/hdfs 等三种协议;
5)支持普通文本、gzip 压缩、snappy 压缩等多种格式数据文件;
6)支持普通文本与定长文本的加载(format 3 和format 4),并与V8.5.1.2版本格式兼容;
7)支持错误数据溯源功能,可以准确定位错误数据在源文件中的位置;
8)加载性能可以随着集群规模的扩展而持续提升。

select into outfile导出数据流程介绍

1、select into outfile数据导出操作的服务端在gcluster客户端上,即6066端口(6066–6165轮询)在导出操作发起节点上用到;
2、导出端会发送gcluster客户端IP地址和端口号给集群各节点;
3、各节点将数据发送至gcluster客户端。等于说该操作不走集群的gcluster层,而是走客户端的gcluster。