加载读文件超时设置参数gbase_loader_read_timeout的使用说明

作者：admin 时间：2020年10月26日分类：导入导出字数：303

新的版本已经支持读文件超时的设置，可以将该参数上调，避免在较差网络环境下超时出现read operation timeout错误。

参数说明

参数名称：gbase_loader_read_timeout
默认值：300
最小值：0
最大值：UINT_MAX
参数单位：秒
参数说明：用于指定读取FTP/HTTP/SFTP文件的超时时间，如果填充一个数据块（8M）的时间超过此参数值，加载任务将报错停止。0表示永不超时。
配置方式：单机配置文件或者set变量方式。

集群以SQL方式加载数据，错误日志如何设置和查看

作者：admin 时间：2020年10月26日分类：导入导出字数：565

方法1：

参数：TRACE_PATH 用来指定本次加载过程中产生的错误数据和日志存放路径。缺省情况下，错误数据和溯源日志记录在加载机节点的/opt/gnode/log/gbase/loader_logs 下。

gbase> load data infile 'ftp://gbase:gbase@192.168.58.11/lineorder.txt' INTO TABLE ssbm.lineorder FIELDS TERMINATED BY '|' TRACE_PATH '/home/gbase/loadlog/loadlog';

产生报错的加载会有两个日志文件，一个trc文件，记录报错位置和报错原因；一个是err文件，记录错误数据。这两个文件的命名格式和8512一致，taskid开头。

方法2：

可以通过c3搜索：

$ cexec "ls -lrt /home/gbase/loadlog/loadlog" |grep  'taskid_库名_表名'

集群直接加载hdfs文件namenode会不会成为瓶颈

作者：admin 时间：2020年10月26日分类：导入导出字数：430

问题描述：

8a集群支持hdfs文件的直接加载，在加载配置中，hdfs数据源是通过hadoop的namenode节点来获取数据的，因为hadoop只有两个namenode（standby方式），是否存在因为只有一个namenode节点提供数据而导致的加载瓶颈问题？

解决方案：

8a集群直接加载hdfs数据源时，url指定为hadoop的namenode节点，通过namenode节点获取待加载数据的uri路径，然后根据uri路径从各hadoop的datanode直接读取数据，而不用将数据汇总到nemenode节点再提供给8a集群加载。即，hadoop的namenode节点只提供hadoop中数据的元信息，不会造成加载时的网络瓶颈。

8611集群加载工具与8512dispserver加载工具对比差异

作者：admin 时间：2020年10月26日分类：导入导出字数：419

在V8.6.1.1 版本GBase 8a MPP Cluster 中，集群加载功能直接集成在GBase 8aMPPCluster 内部，不需要额外部署外部加载工具。
与V8.5.1.2 版本集群加载工具相比，新版加载工具具备如下一些特性和优点：
1）与集群高度集成，方便部署；
2）提供面向用户的SQL 接口，集群和单机加载方式统一，更符合用户的使用习惯；
3）支持多加载机对单表的并行加载，最大化加载性能；
4）支持从通用数据服务器拉取数据，支持ftp/http/hdfs 等三种协议；
5）支持普通文本、gzip 压缩、snappy 压缩等多种格式数据文件；
6）支持普通文本与定长文本的加载（format 3 和format 4），并与V8.5.1.2版本格式兼容；
7）支持错误数据溯源功能，可以准确定位错误数据在源文件中的位置；
8）加载性能可以随着集群规模的扩展而持续提升。

select into outfile导出数据流程介绍

作者：admin 时间：2020年10月26日分类：导入导出字数：193

1、select into outfile数据导出操作的服务端在gcluster客户端上，即6066端口（6066–6165轮询）在导出操作发起节点上用到；
2、导出端会发送gcluster客户端IP地址和端口号给集群各节点；
3、各节点将数据发送至gcluster客户端。等于说该操作不走集群的gcluster层，而是走客户端的gcluster。