1. 主从延迟的原因有哪些?

  • 大表在做 DDL,一方面 DDL 会产生元数据锁,可能产生阻塞,另外一方面,DDL 是在主库执行完,才写入 Binlog ,因此从库是在主库执行完才开始执行的。如果是单线程复制,这期间从库其他事务需要等待。所以可能产生比较久的延迟。一般建议使用 Online DDL 工具或者在业务低峰做大表 DDL 操作;‍‍
  • 大事务,当有大事务时,主库可能在这个事务执行的时候,其他事务也能并发执行。但是在从库,单线程复制的情况下,其他事务只能等这个事务执行完,才能在从库执行;
  • 主库增删改并发大,主库多个并发执行增删改操作,同样从库是单个 sql 线程解析 relay log 的内容,把数据写入从库,也就是主库并发,从库单线程,显然,主库 DML 并发大的时候,也会导致主从延迟;
  • 从库配置差,处理能力比主库差很多,也可能会导致延迟。

2. 怎样判断延迟?

2.1 方法一

一种常规的方法就是 show slave status 查看 Seconds_Behind_Master,这个参数表示从库延迟的秒数。

如果是0,表示可能没有延迟。这里为什么是可能呢?

我们来解释一下 Seconds_Behind_Master 的原理,表示从库服务器当前的时间戳与二进制日志中的事件的时间戳(在主库上的写入时间)相对比得到的。

在某些情况下,Seconds_Behind_Master 并不一定准确。比如网络中断时,Seconds_Behind_Master = 0 ,并不能代表主从无延迟。

因此,有比这个更准确的一种方法:对比位点或 GTID。

2.2 方法二

如果是基于位点的复制,则判断 Master_Log_File 跟 Relay_Master_Log_File 是否相等,如果 Relay_Master_Log_File 落后 Master_Log_File,则表示主从存在延迟。

其中

  • Master_Log_File 表示 IO 线程正在读取的主库 binlog 文件名
  • Relay_Master_Log_File 表示SQL 线程最近执行的事务对应的主库 binlog 文件名

或者判断 Read_Master_Log_Pos 跟 Exec_Master_Log_Pos 是否相等,如果后者落后前者很多,则表示延迟比较高。

其中

  • Read_Master_Log_Pos 表示IO 线程正在读取的主库 binlog 文件中的位点
  • Exec_Master_Log_Pos 表示 SQL 线程最近读取和执行的事务对应的主库 binlog 文件中的位点

2.3 方法三

如果开启了 GTID 复制,则可以对比 Retrieved_Gtid_Set 和 Executed_Gtid_Set 是否相等,如果 Executed_Gtid_Set 落后很多,则表示存在延迟。

其中

  • Retrieved_Gtid_Set:从库收到的所有日志的 GTID 集合;
  • Executed_Gtid_Set:从库已经执行完的 GTID 集合。

3. 主从延迟怎么处理?

3.1 方法一

在前面我们聊到了,很多主从延迟的原因,都因为从库是单线程,所以可以考虑开启并行复制。

3.2 方法二

另外可以尝试调整参数。比如 innodb_flush_log_at_trx_commit 和 sync_binlog。

这里我们来讲一下两个参数的作用。

innodb_flush_log_at_trx_commit:控制重做日志刷新到磁盘的策略,有 0 、1 和 2 三种值。

0:master线程每秒把 redo log buffer 写到操作系统缓存,再刷到磁盘;

1:每次提交事务都将 redo log buffer 写到操作系统缓存,再刷到磁盘;

2:每次事务提交都将 redo log buffer 写到操作系统缓存,由操作系统来管理刷盘。

sync_binlog:控制 binlog 的刷盘时机,可配置 0、1 或者大于 1 的数字。

0:二进制日志从不同步到磁盘,依赖OS刷盘机制;

1:二进制日志每组事务提交都会刷盘;

n(n>1) : 每n组事务提交落盘一次。

所以当从库有延迟的时候,可以把从库的 innodb_flush_log_at_trx_commit 设置为 0,也就是 master 线程每秒把 redo log buffer 写到操作系统缓存,再刷到磁盘,而不是每个事务都刷一次,这可以大大缓解从库的压力。

另外就是可以把 sync_binlog 调整为大于 100 的数字,表示 100 多次事务,才会做一次二进制日志的落盘。

3.3 方法三

前面还讲到,可能从库配置比主库差,导致延迟,这个时候,如果从库也提供查询服务,并且业务不能仍受延迟,可以考虑提高从库的配置。

3.4 方法四

如果延迟是大事务导致的,可以在源头上做规范,避免大事务。

3.5 方法五

另外,我们有时也会遇到这种场景,比如某张表比较大,延迟经常是这张表导致的,从库上读取数据时又用不上这张表,就可以考虑把大表单独创建一个从库进行复制。然后在原来的从库忽略这张表的复制,业务查询原来的从库就基本没延迟了。


本站由 卡卡龙 使用 Stellar 1.29.1主题创建

本站访问量 次. 本文阅读量 次.