标签 大数据 下的文章

问题

近期在研究Hudi。在开发环境下使用基本上没有什么问题。结果跑到生产线时遇到各类奇怪的问题。其中影响时间最长的还是NoSuchMethod的问题。其错误如下。

ava.util.concurrent.CompletionException: java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.client.HdfsDataInputStream.getReadStatistics()Lorg/apache/hadoop/hdfs/DFSInputStream$ReadStatistics;
04-06-2024 15:17:22 CST hudi-test INFO -     at java.util.concurrent.CompletableFuture.encodeThrowable(CompletableFuture.java:273)
04-06-2024 15:17:22 CST hudi-test INFO -     at java.util.concurrent.CompletableFuture.uniComposeStage(CompletableFuture.java:991)

阅读剩余部分

问题

生产环境下发现某个数据库中的某张表同步。

由于我们使用的是canal进行数据库的同步。

canal中针对kafka的主要配置如下:

canal.mq.partitionsNum=10
canal.mq.partitionHash=.*\\..*

该配置定义了根据库及表名,发送数据到指定的分区。最大分区数为10。

经过研究发现,未同步的表会将数据发送至分区5。至此发现主要的队列的分区5已不存在。

阅读剩余部分

[Pivotal Greenplum® 6.4 Documentation · Pivotal Greenplum Download · Pivotal Greenplum Command Center 6.1.0 Documentation]

Pivotal Greenplum数据库是一个大规模并行处理(MPP)数据库服务器,它支持下一代数据仓库和大规模分析处理。通过自动分区数据并运行并行查询,它使服务器集群可以作为单个数据库超级计算机运行,其运行速度比传统数据库快数十倍或数百倍。 它支持SQL,MapReduce并行处理以及数据量,范围从数百GB到数百TB。

阅读剩余部分