Leviathan

InnoDB Record 细节整理

2022-06-09T02:03:08.000Z

背景

InnoDB 作为目前 MySQL 的主要存储引擎，其中 record 细节繁琐，这里仅做整理以便查阅. 版本基于 MySQL-8.0.25.

数据结构

InnoDB record 的逻辑格式: dtuple_t

/** Structure for an SQL data tuple of fields (logical record) */
struct dtuple_t {
  /* ... */

  /** Number of fields in dtuple */
  ulint n_fields; /* 当前 dtuple 记录的字段数量. */

  /** number of fields which should be used in comparison services of rem0cmp.*;
  the index search is performed by comparing only these fields, others are
  ignored; the default value in dtuple creation is the same value as n_fields */
  ulint n_fields_cmp; /* 当前 dtuple 中可以用来比较的字段数量, 可以通过
                       * dtuple_set_n_fields_cmp() 设置. */

  /** Fields. */
  dfield_t *fields; /* 当前 dtuple 的字段内容. */
    /** Structure for an SQL data field */
    struct dfield_t {
      void *data;       /*!< pointer to data */
      unsigned ext : 1; /*!< TRUE=externally stored, FALSE=local */
      unsigned spatial_status : 2;
      /*!< spatial status of externally stored field
        in undo log for purge */
      unsigned len; /*!< data length; UNIV_SQL_NULL if SQL null 数据长度 */
      dtype_t type; /*!< type of data  数据类型*/
      
      /* ... */
    } */

  /** ... */

  /** Compare a data tuple to a physical record.
    * dtuple_t 与 rec_t 的比较函数. */
  int compare(const rec_t *rec, const dict_index_t *index, const ulint *offsets,
              ulint *matched_fields) const;

  /** ... */
};

MySQL SQL 层的 record 可以通过row_sel_convert_mysql_key_to_innobase()转换为 InnoDB 可识别的dtuple_t结构.

索引内存结构: dict_index_t

index->table->n_cols: table 的列数，包含用户定义的列 + 3 列系统列(DB_ROW_ID, DB_TRX_ID, DB_ROLL_PTR).
index->table->cols: 存上面 n_cols 个列的数组, 系统列在倒数后3个.
index->n_fields: 当前索引包含的列数，小于等于上面的 index->table->n_cols.
index->fields: 记录当前索引 column 的描述信息, 列名，长度, 顺序 or 倒序

Record Node:

对于主键索引 leaf node:
- 1. 如果定义了主键, 那么系统列就没有 DB_ROW_ID，那么此时 n_fields 比 n_cols 小 1.
- 1. 如果没有定义主键, 那么系统列就包含 DB_ROW_ID，那么此时 n_fields 和 n_cols 值一样.
对于主键索引 non-leaf node:
- 1. n_fields 包含所有唯一字段 + Page Number, 数量为 index->n_uniq + 1.
对于二级索引 leaf node:
- 1. n_fields 就是包含二级索引定义的列数 + 主键列数.
对于二级索引 non-leaf node:
- 1. n_fields 就是包含二级索引定义的列数 + Page Number, 数量为 index->n_fields + 1.

使用dict_index_build_node_ptr()构建 non-leaf node:

InnoDB 物理 record: rec_t

offsets 数组由rec_get_offsets(), 数组大小由 n_fields + 1 + REC_OFFS_HEADER_SIZE 决定.

offsets[0] = n_alloc / n_alloc 是数组元素个数. /
offsets[1] = n_fields / n_fields 是 record 列数. /
offsets[2] = extra size
offsets[3.. 3 + n_fields] / 记录每个 field 的结束偏移. /

rec_t可以直接通过cmp_dtuple_rec_with_match_low()与dtuple_t比较:

rec_t可以通过 offsets 数组分别获取对应的 filed 字段, 再与((dfield_t *)tuple->fields + n)直接进行比较.

B-tree 游标: btr_pcur_t

btr_pcur_t是在 search 或者 modify 过程中用来定位的游标, 其中记录定位信息, 可以直接通过store_position()来保存，通过restore_position()可以恢复至上一次保存 record 位置信息.

struct btr_pcur_t {
  /** ... */

  /* 保存 pcur 记录的信息. */
  void store_position(mtr_t *mtr);

  /* 恢复出来上一次 pcur 保存的位置. */
  bool restore_position(ulint latch_mode, mtr_t *mtr, const char *file,
                        ulint line);

  /** pcur 定位的元信息: index, block, n_fileds ... */
  btr_cur_t m_btr_cur;

  /** true if old_rec is stored */
  bool m_old_stored{false};

  /* 保存当前 pcur 指向的 record. */
  rec_t *m_old_rec{nullptr};

  /* 记录 m_old_rec 的 filed 数量. */
  ulint m_old_n_fields{0};

  /* 记录数据 page 的 modify clock. */
  uint64_t m_modify_clock{0};

  /** ... */
}

store_position()保存位置信息:

void btr_pcur_t::store_position(mtr_t *mtr) {
  ut_ad(m_pos_state == BTR_PCUR_IS_POSITIONED);
  ut_ad(m_latch_mode != BTR_NO_LATCHES);

  auto block = get_block();
  auto index = btr_cur_get_index(get_btr_cur());

  auto page_cursor = get_page_cur();

  /* pcur 指向的 record. */
  auto rec = page_cur_get_rec(page_cursor);
  /* record 所在的 page. */
  auto page = page_align(rec);
  /* record 在 page 上的 offset. */
  auto offs = page_offset(rec);

  /* ... */

  if (page_rec_is_supremum_low(offs)) {
    /* pcur 指向的是一个 supremum record, 则保存前一个 record. */
    rec = page_rec_get_prev(rec);

    m_rel_pos = BTR_PCUR_AFTER;

  } else if (page_rec_is_infimum_low(offs)) {
    /* pcur 指向的是一个 infimum record, 则保存后一个 record. */
    rec = page_rec_get_next(rec);

    m_rel_pos = BTR_PCUR_BEFORE;
  } else {
    /* pcur 指向的是一个 user record, 直接保存这个 record. */
    m_rel_pos = BTR_PCUR_ON;
  }

  m_old_stored = true;

  /* 保存当前指向的 record 至 m_old_rec. */
  m_old_rec = dict_index_copy_rec_order_prefix(index, rec, &m_old_n_fields,
                                               &m_old_rec_buf, &m_buf_size);

  m_block_when_stored.store(block);

  /* Function try to check if block is S/X latch. */
  /* 记录 modify clock. */
  m_modify_clock = buf_block_get_modify_clock(block);
}

如果 pcur 指向一个 supremum record, 保存 supremum record 前的一个 record, m_rel_pos 为 BTR_PCUR_AFTER.
如果 pcur 指向一个 infimum record, 保存 infimum record 后的一个 record, m_rel_pos 为 BTR_PCUR_BEFORE.
如果 pcur 指向一个 user record, 保存 user record, m_rel_pos 为 BTR_PCUR_ON.

restore_position()先尝试乐观加锁，即直接判断m_modify_clock是否变化，假如 b+ tree 发生了 SMO, 需要进行悲观加锁的方式，即通过btr_cur_search_to_nth_level()重新 search 加锁:

bool btr_pcur_t::restore_position(ulint latch_mode, mtr_t *mtr,
                                  const char *file, ulint line) {
  dtuple_t *tuple;
  page_cur_mode_t mode;

  ut_ad(mtr->is_active());
  ut_ad(m_old_stored);
  ut_ad(is_positioned());

  auto index = btr_cur_get_index(get_btr_cur());

  /* ... */

  ut_a(m_old_rec != nullptr);
  ut_a(m_old_n_fields > 0);

  /* Optimistic latching involves S/X latch not required for
  intrinsic table instead we would prefer to search fresh. */
  if ((latch_mode == BTR_SEARCH_LEAF || latch_mode == BTR_MODIFY_LEAF ||
       latch_mode == BTR_SEARCH_PREV || latch_mode == BTR_MODIFY_PREV) &&
      !m_btr_cur.index->table->is_intrinsic()) {
    /* Try optimistic restoration. */
    /* 乐观恢复. */
    if (m_block_when_stored.run_with_hint([&](buf_block_t *hint) {
          return hint != nullptr && btr_cur_optimistic_latch_leaves(
                                        hint, m_modify_clock, &latch_mode,
                                        &m_btr_cur, file, line, mtr);
        })) {
      m_pos_state = BTR_PCUR_IS_POSITIONED;

      m_latch_mode = latch_mode;

      buf_block_dbg_add_level(get_block(), dict_index_is_ibuf(index)
                                               ? SYNC_IBUF_TREE_NODE
                                               : SYNC_TREE_NODE);

      if (m_rel_pos == BTR_PCUR_ON) {
#ifdef UNIV_DEBUG
        /* ... */
#endif /* UNIV_DEBUG */
        return (true);
      }

      /* This is the same record as stored,
      may need to be adjusted for BTR_PCUR_BEFORE/AFTER,
      depending on search mode and direction. */
      if (is_on_user_rec()) {
        m_pos_state = BTR_PCUR_IS_POSITIONED_OPTIMISTIC;
      }
      return (false);
    }
  }

  /* If optimistic restoration did not succeed, open the cursor anew */

  auto heap = mem_heap_create(256);

  tuple = dict_index_build_data_tuple(index, m_old_rec, m_old_n_fields, heap);

  /* Save the old search mode of the cursor */
  auto old_mode = m_search_mode;

  /*  根据 store_position() 时记录的 m_rel_pos 采用不同的 search mode. */
  switch (m_rel_pos) {
    case BTR_PCUR_ON:
      mode = PAGE_CUR_LE;
      break;
    case BTR_PCUR_AFTER:
      mode = PAGE_CUR_G;
      break;
    case BTR_PCUR_BEFORE:
      mode = PAGE_CUR_L;
      break;
    default:
      ut_error;
  }

  /* 乐观恢复 pcur 失败，就要通过 btr_cur_search_to_nth_level 来重新定位 pcur. */
  open_no_init(index, tuple, mode, latch_mode, 0, mtr, file, line);

  /* Restore the old search mode */
  m_search_mode = old_mode;

  ut_ad(m_rel_pos == BTR_PCUR_ON || m_rel_pos == BTR_PCUR_BEFORE ||
        m_rel_pos == BTR_PCUR_AFTER);

  if (m_rel_pos == BTR_PCUR_ON && is_on_user_rec() &&
      !cmp_dtuple_rec(
          tuple, get_rec(), index,
          rec_get_offsets(get_rec(), index, nullptr, ULINT_UNDEFINED, &heap))) {
    /* We have to store the NEW value for the modify clock,
    since the cursor can now be on a different page!
    But we can retain the value of old_rec */
    auto block = get_block();
    m_block_when_stored.store(block);
    m_modify_clock = buf_block_get_modify_clock(block);

    m_old_stored = true;

    mem_heap_free(heap);

    return (true);
  }

  mem_heap_free(heap);

  /* We have to store new position information, modify_clock etc.,
  to the cursor because it can now be on a different page, the record
  under it may have been removed, etc. */

  store_position(mtr);

  return (false);
}

对于 BTR_SEARCH_LEAF,BTR_MODIFY_LEAF,BTR_SEARCH_PREV,BTR_MODIFY_PREV 四种 latch mode, 可以尝试乐观 restore_position().
针对悲观 restore_position 的情况:
- 如果 store_position() 时记录的 m_rel_pos 为 BTR_PCUR_ON, 则 store_position() 时为一个 user record, 采用 PAGE_CUR_LE 的 search mode, 恢复至最后一个小于等于 user record(old) 的 record.
- 如果 store_position() 时记录的 m_rel_pos 为 BTR_PCUR_AFTER, 则 store_position() 时为一个 supremum record, 采用 PAGE_CUR_G 的 search mode, store_position() 时 pcur 保存的是 supremum record 前的 record(old), 所以恢复至大于 record(old) 的 record. (所以可能定位在大于 record(old) 的下一个 user record, 也可能是 store_position() 当时定位的 supremum record).
- 如果 store_position() 时记录的 m_rel_pos 为 BTR_PCUR_BEFORE, 则 store_position() 时为一个 infimum record, 采用 PAGE_CUR_L 的 search mode, store_position() 时 pcur 保存的是 infimum record 后的 record(old), 所以恢复至小于 record(old) 的 record. (所以可能定位在小于 record(old) 的上一个 user record, 也可能是 store_position() 当时定位的 infimum record).

store_position()会记录buf_block_t, 在乐观恢复中直接通过尝试对buf_block_t加锁，当前的 Buffer Pool 支持动态 resize, 这部分的内存可能会被释放, 所以 InnoDB 会首先判断这个buf_block_t指针是否存在于 Buffer Pool 的 chunk 中:

void Block_hint::buffer_fix_block_if_still_valid() {
  if (m_block != nullptr) {
    const buf_pool_t *const pool = buf_pool_get(m_page_id);

    rw_lock_t *latch = buf_page_hash_lock_get(pool, m_page_id);
    rw_lock_s_lock(latch);

    /* If not own buf_pool_mutex, page_hash can be changed. */
    latch = buf_page_hash_lock_s_confirm(latch, pool, m_page_id);
    if (buf_is_block_in_instance(pool, m_block) &&
        m_page_id == m_block->page.id &&
        buf_block_get_state(m_block) == BUF_BLOCK_FILE_PAGE) {
      buf_block_buf_fix_inc(m_block, __FILE__, __LINE__);
    } else {
      clear();
    }

    rw_lock_s_unlock(latch);
  }
}

游标 cursor 的搜索模式

PAGE_CUR_G: > 查询，查询第一个大于 dtuple 的 rec_t.
PAGE_CUR_GE: >=，> 查询，查询第一个大于等于 dtuple 的 rec_t.
1. 如果搜索一个存在的 user record, 使用 PAGE_CUR_GE 可能定位在这个 user record 的 previous page 的 supremum record.
PAGE_CUR_L: < 查询，查询最后一个小于 dtuple 的 rec_t.
PAGE_CUR_LE: <= 查询，查询最后一个小于等于 dtuple 的 rec_t.
1. 如果搜索一个不存在的 user record, 使用 PAGE_CUR_LE 返回最后一个小于 dtuple 的 record.

InnoDB 事务锁调度分析

2021-08-16T14:44:04.000Z

准备

MySQL 8.0.25

背景

数据库内核月报 InnoDB 事务锁系统简介对 InnoDB 的事务锁系统: record lock 和 table lock 做了具体的介绍, 而 InnoDB 事务 sharded 锁系统优化介绍了 MySQL 官方团队针对 InnoDB 事务锁系统进行的拆分优化. InnoDB 采用 2PL + MVCC 的并发控制方式, 以此来提高读写性能. 两阶段加锁(2PL)将事务锁的申请与释放拆为两步: 1.在事务过程中统一加锁, 2. 在事务提交或回滚后统一放锁，除非事务提交或者回滚, 否则不会在事务的中间状态释放锁. 所以在事务申请 lock 的过程中, 需要判断是否与其他事务持有的 lock 冲突, 对于冲突情况需要进入 waiting 队列, 而在持有 lock 的事务提交或者回滚之后, 都会释放持有的事务锁, 从而选择等待队列里的事务进行 grant lock. 选择合适的等待事务可以有效的提高事务的并发性能, 所以事务锁调度算法的关键是如何选择合适的等待事务. 当存在多个事务请求同一个对象的锁时, 哪个事务, 或者哪些事务应当最先获得锁?

First Come First Served (FCFS)

在 8.0.3 之前的 MySQL 版本, 采用的是 FCFS 的调度算法, 原理也相对简单. 在事务执行阶段向对应的 record 进行加锁行为, 通过 lock_sys 记录的 record lock 来判断是否存在冲突, 因为两阶段加锁的限制, 对于冲突的 lock 我们将其放入等待队列, 当持有的事务提交或者回滚时, 逐一释放其持有的 lock时, 会检查相应的等待队列，并按 FCFS 顺序检查是否可以将锁授予等待事务.

Contention-Aware Transaction Scheduling (CATS)

CATS 的全称是 Contention-Aware Transaction Scheduling (竞争感知), 在 MySQL 8.0.20 开始已经作为默认的事务调度算法, 不仅仅只在低冲突场景才会使用. 事务锁调度最常见的策略就是 FCFS 策略, 先到先得, 这种朴素的调度策略实现也较为简单, 但存在的问题是例如某个等待事务持有较多的 lock 并且阻塞了其他的事务的进行，但因为先到先得的策略无法立即获得 lock, 从而致使整个数据库的 TPS 减慢. 这是 FCFS 策略无法解决的问题, 所以我们最好对事务本身进行感知, 比如所有事务的等待关系等. CATS 相关的论文有两篇: Identifying the Major Sources of Variance in Transaction Latencies: Towards More Predictable Databases, Contention-Aware Lock Scheduling for Transactional Databases.

论文[Contention-Aware Lock Scheduling for Transactional Databases]介绍了几种调度策略, 并逐步引申出 CATS 算法.

Number of locks held

在 FCFS 策略后, 我们可以讨论以锁持有的数量来判断优先级, 例如下图:

事务 t1 和事务 t2 都在等待对象 O1 的锁, t1 事务本身持有的锁数量是 4 个, 而 t2 事务持有的锁数量是 2 个, 假如以”锁持有的数量”为标准, 那事务 t2 应该获得 lock, 但在事务的等待关系中, 有 3 个事务等待在 t2 上，而仅有 1 个事务等待在 t1.

Number of locks that block other transactions

假定以等待事务阻塞事务数量来判断优先级, 例如下图:

事务 t1 和事务 t2 都在等待对象 O1 的锁, t1 事务持有的锁只有一个阻塞了事务 t3, 而 t2 事务持有的锁却阻塞了两个事务, 假如以等待事务阻塞的事务数量来判断优先级, O1 的锁会被授予 t2, 但需要注意的是 t3 事务却阻塞了 3 个其他事务. 所以假如我们想提高事务的并发度, 最好的选择是将 O1 锁授予 t1.

Depth of the dependency subgraph

假定以等待事务关系图的深度来判断优先级, 例如下图:

虽然 t1 事务有更深的依赖关系, 而 t2 事务同时阻塞两个事务, 但假如将锁授予 t1, 势必影响整个 DB 的事务并发度.

Largest-Dependency-Set-First (LDSF)

真正的事务等待关系应该是有向图, 所以计算权重不应该考虑子树, 而是子图. 所以最后提出了一种 Largest-Dependency-Set-First (LDSF) 的算法, 根据计算等待事务所有的等待关系权重来决定锁的调度优先级.

InnoDB 根据 LDSF 在原有的事务锁基础上实现了基于竞争感知的事务锁调度算法, 主要两个 patch 分别是 WL#10793: InnoDB: Use CATS for scheduling lock release under high load, WL#13468: Improved CATS implementation.

源码分析

MySQL 8.0.18 版本针对死锁检测进行了优化, 将原先的死锁检测机制交由 background thread: lock_wait_timeout_thread() 来处理, 思路是将当前的事务锁 lock 信息打一份快照, 由这份快照判断是否存在回环, 假如存在死锁即唤醒等待事务. 因为这个过程可以感知所有的锁等待关系, 所以 InnoDB 也基于这份快照来计算权重.

lock_wait_timeout_thread 线程除了检查等待超时以外, 也会更新全局等待事务的权重和死锁检测, 具体的函数是lock_wait_update_schedule_and_check_for_deadlocks():

static void lock_wait_update_schedule_and_check_for_deadlocks() {
  /* ... */

  ut::vector<waiting_trx_info_t> infos;  /* 记录事务的依赖关系. */
  ut::vector<int> outgoing;
  ut::vector<trx_schedule_weight_t> new_weights; /* 记录事务的权重. */

  /* 获取事务的等待关系, 仅收集等待事务, 即 [from] 事务阻塞在 [to] 事务上. */
  auto table_reservations = lock_wait_snapshot_waiting_threads(infos);
  /* 构建事务的等待关系图.
   * outgoing 数组的下标代表是第 n 个事务, value 代表其等待的事务下标. */
  lock_wait_build_wait_for_graph(infos, outgoing);

  /* We don't update trx->lock.schedule_weight for trxs on cycles. */
  lock_wait_compute_and_publish_weights_except_cycles(infos, table_reservations,
                                                      outgoing, new_weights);

  if (innobase_deadlock_detect) {
    /* 假如打开了死锁检测, 处理死锁的情况. */
    /* This will also update trx->lock.schedule_weight for trxs on cycles. */
    lock_wait_find_and_handle_deadlocks(infos, outgoing, new_weights);
  }
}

在获取了所有的等待事务关系图后，需要根据其阻塞的事务数量开始计算权重, 过程如下:

lock_wait_compute_initial_weights(): 初始化权重, 初始值为 1. InnoDB 新增了一个全局自增变量 lock_wait_table_reservations, 在每个线程因为锁等待进入等待状态时, 会获取当时的 lock_wait_table_reservations 的值, 所以每个事务自身的 table_reservations 与全局的 lock_wait_table_reservations 的差值代表了等待的时间, 差值越大等待时间越长. 所以在事务锁的调度算法中, 为了防止有事务饿死的情况, 将差值超过等待事务数量的事务权重设为等待事务数量:

/* WEIGHT_BOOST  设置成等待事务的数量或者 1e9. */
const trx_schedule_weight_t WEIGHT_BOOST =
    n == 0 ? 1 : std::min<trx_schedule_weight_t>(n, 1e9 / n);
new_weights.clear();
/* 默认权重值为 1. */
new_weights.resize(n, 1);
/* MAX_FAIR_WAIT 是两倍的等待事务数量. */
const uint64_t MAX_FAIR_WAIT = 2 * n;
for (size_t from = 0; from < n; ++from) {
  /* reservation_no 是事务进入等待状态时的 lock_wait_table_reservations 的值,
   * table_reservations 是开始进行快照时 lock_wait_table_reservations 的值,
   * 所以假如 infos[from].reservation_no + MAX_FAIR_WAIT 小于 table_reservations
   * 的情况出现就代表事务 "from" 等待的时间较长, 为了防止饿死, 所以将其权重置为
   * 两倍的等待事务数量(n). */
  if (infos[from].reservation_no + MAX_FAIR_WAIT < table_reservations) {
    new_weights[from] = WEIGHT_BOOST;
  }
}

lock_wait_compute_incoming_count(): 更新事务等待关系图中的入度情况, 即一个事务阻塞了多少个事务.
lock_wait_accumulate_weights(): 计算每个等待事务的权重, 其策略是累加等待事务阻塞的事务权重, 例如事务 t1 阻塞了事务 t2, t3, t5, 则 t1 事务的权重为:

1	t1_weight = t1_weight + t2_weight + t3_weight + t5_weight;

lock_wait_publish_new_weights(): 更新等待事务权重.

事务在提交或者回滚之后都会释放其持有的 lock: lock_release(). 将其持有的锁授予哪个事务的顺序是, 第一顺位是高优先级的事务, 其次是事务的权重排序, 权重为 1 或者 0 ( lock.schedule_weight 的默认值)的事务依照 FCFS 的顺序.

总结

本文介绍了 InnoDB 在锁调度策略的最新优化, 该算法在锁冲突严重的场景效果明显, 计算权重的重要参考指标是等待事务的等待时间 (lock_wait_table_reservations) 和其阻塞的事务权重之和. InnoDB 目前的实现没有区分读/写事务, 例如当多个读事务等待同一个锁, 选择读事务较多的子图, 可以有效的提高事务并发度. 关于 CATS 的策略方面后续可以加入更多的指标, 在计算的复杂度和判断的有效性采用折中的方案, 既不影响权重的计算, 也有效的提高数据库的事务并发度.

InnoDB 的 LRU 策略分析

2021-05-31T20:08:16.000Z

准备

MySQL 8.0.25

参数解释

innodb_old_blocks_pct: 在 Buffer Pool 的 LRU list 中 old 部分所占的比例.
innodb_old_blocks_time: 当一个 Page 距第一次被访问的时间大于等于 innodb_old_blocks_time 时，再次被访问的时候，会被移动到 LRU list 的头部.

LRU list

InnoDB 的 Buffer Pool 使用 LRU 算法管理数据 Page, 为了防止全表扫描或者范围查询造成对 LRU 链表的污染, InnoDB 将 LRU 分为两个部分: young / old :

young 区域代表经常访问的数据 Page.
old 区域代表不常访问的数据 Page.

上图显示了 Buffer Pool 的布局.

5/8 的 “young” 区域和 3/8 的 “old” 区域划分是参数 innodb_old_blocks_pct 的默认值 37 决定的，这个参数可以动态调整.

源码分析

LRU 初始化

InnoDB 在启动时针对 Buffer Pool 进行初始化, 完成 Buffer Pool 的初始化后使用 100 * 3 / 8 = 37 来调整 LRU list 的 young 和 old 的区域.

插入 LRU old

当我们需要从从 Buffer Pool 中读取一个 Page, 并且这个 Page 需要从文件中进行读取时buf_page_init_for_read(), 我们会从 Buffer Pool 中申请一个 Free Page, 之后需要插入 LRU 的 old 的头部区域buf_LRU_add_block(), 即 old->head:

                             新读取的 Page 插入位置
                                      |
                                      |
                                      |
                                      v
 -----------------------------------------------------
|                                    |                |
|               young                |     old        |
|                                    |                |
 -----------------------------------------------------

插入 LRU young

LRU 区分了 young 和 old 区域，所以需要适时的将 old 区域的 Page 根据需求移动至 young 区域, 操作过程也比较简单，直接从 LRU 的 old 区域摘除然后插入 young 区域即可buf_page_make_young():

以下是插入 LRU young 区域的时机:

btr_search_guess_on_hash():
buf_page_optimistic_get():
buf_page_get_known_nowait():
Buf_fetch::single_page(): 对于通过buf_page_get_gen()且 mode 不是 Page_fetch::SCAN 和 Page_fetch::PEEK_IF_IN_POOL 这两种的都会将 Page 插入 LRU list 的 young 区域.

LRU evict

Buffer Pool 的容量是有限的，为了用户的写入读取能获取 Free Page, Buffer Pool 要不停的从 LRU list 置换 “old” Page: 策略是从 Buffer Pool 的 old list 的尾部扫描合适的 Page 换出.

                                           LRU evict 起始位置
                                                     |
                                                     |
                                                     |
                                                     v
 -----------------------------------------------------
|                                    |                |
|               young                |     old        |
|                                    |                |
 -----------------------------------------------------

以下是 LRU evict 数据 Page 的时机:

buf_page_io_complete(): 当从 LRU list 刷脏完成后，会将 Page 从 LRU list 中移除.
buf_flush_LRU_list_batch(): 扫描 LRU list 时，将满足条件的 Pagebuf_flush_ready_for_replace()换出.
buf_flush_single_page_from_LRU(): 当用户需要获取空闲 Page 而 LRU List 暂时没有 Free Page 时, 会选择一个 Page 直接换出buf_flush_ready_for_replace()或者buf_flush_ready_for_flush()刷入磁盘.

总结

当一个 Page 从 disk 读入 Buffer Pool 后, 先插入 old 区域起始位置, 后续的非 scan mode 的读则会调整插入 young 区域. 在 young 区域的 page 假如再次被读到，会通过buf_page_peek_if_young()判断是否接近被 evict, 否则在 young 中是不会调整 page 的顺序的.

InnoDB 的事务故障恢复流程

2021-04-16T20:39:06.000Z

背景

MySQL 版本: 8.0.25

数据库系统中关于事务有 4 个重要特性 ACID, 其中 A 代表的原子性: 一个事务必须被视为一个不可分割的最小工作单元，整个事务中的所有操作要么全部提交成功，要么全部失败回滚，对于一个事务来说，不可能只执行其中的一部分操作，这就是事务的原子性. 对于 InnoDB 来说, 针对意外崩溃情况，也需要保证事务满足原子性，即在崩溃前提交的事务需要保证重启后可读, 尚未提交的事务需要正确的回滚.

Redo Log

关于 Redo Log 在之前的文章 InnoDB 的 Redo Log 分析已经详细介绍过, InnoDB 利用 Redo Log 来记录所有的数据和其他的文件操作. InnoDB 在对应操作的 Redo Log 落盘后就会给用户返回操作成功, 此时对应的数据 Page 可能还在 Buffer Pool 中尚未落盘, 这里可以加快的写入的速度, 但也需要在意外崩溃后能使数据库的数据 Page 恢复到一个正确的状态.

Undo Log

InnoDB 使用 MVCC + Undo Log 来实现不同的事务隔离级别, 在数据库正常的运行时，用户可以通过 Undo Log 来在不同的隔离级别下读取相应正确的数据, 其中在意外崩溃后，InnoDB 需要使用 Undo Log 来回滚尚未提交的事务.

启动流程

mysqld_main() -> init_server_components() ->
                                              dd::init() -> bootstrap::DDSE_dict_init() -> ddse_dict_init() [srv_start()]
                                                                                        -> initialize_dictionary() [校验tablespace, srv_dict_recover_on_restart(), 回滚 DD 事务]
                                          ->
                                              ha_post_recover() [post_ddl()]

Checkpoint

在 MySQL 8.0 新建了一个独立的线程log_checkpointer来执行 Checkpoint 任务, 当 InnoDB 执行一次 Checkpoint 时, 会将指定 lsn 位置的数据 Page 刷入磁盘, 这就保证了在此 lsn 之前的数据均以持久化. log_checkpointer在执行 Checkpoint 后会写入 Checkpoint 信息至ib_logfile0, InnoDB 设计在 offset 512 bytes 和 1536 bytes 轮流写 Checkpoint 信息，防止某次写入 Checkpoint 失败导致故障恢复无法找到上次的位点.

回滚流程

当 MySQL 启动后，无论之前是否发生 crash 都会尝试进行 recover (recv_recovery_from_checkpoint_start()):

读取 Checkpoint 信息，找到记录的最新的 Checkpoint (recv_find_max_checkpoint()).
将 Checkpoint 之后的 Redo Log 重新进行 apply, 保证数据 Page 的正确性 (recv_apply_hashed_log_recs()).
针对不完整的 mtr 的 redo log 情况下:
1. 会 apply 到完整的 mtr redo log, 然后丢弃不完整的 mtr redo log.
2. 将最后一个完整的 mtr redo log 的最后一个 block 内容拷贝至 log_sys->buf, 目的是进行 log_start().
InnoDB 针对 Undo Tablespace 的回滚段进行事务的重建(trx_sys_init_at_db_start() --> trx_rsegs_init()).
重建回滚段后恢复当前事务列表(trx_lists_init_at_db_start()). (事务信息记录在回滚段中的 undo log segment, InnoDB 可以借此恢复事务信息).
恢复 table id, 用以在数据字段恢复时重新加锁(srv_dict_recover_on_restart()).

事务恢复的回滚

针对事务中存在 DDL 的操作, 采用同步回滚的方式innobase_dict_recover() --> srv_dict_recover_on_restart().
针对不涉及数据字典操作的普通事务, InnoDB 采用异步事务回滚的方式, 通过新启一个线程trx_recovery_rollback_thread来回滚恢复出来的事务.

总结

事务的故障恢复重要的一个关键点是如何恢复意外 crash 前的事务状态信息, InnoDB 使用的 Undo Log 结构里为每个事务都会分配的 Undo Log Segment 持久化记录了事务的状态信息, 即使 Undo Page 尚未刷盘，也可以通过 Redo Log 也可以恢复了 Undo Page, Redo Log + Undo Log 保证了 InnoDB 关于事务实现的可靠性.

理解 InnoDB 的 Change Buffer

2021-04-06T21:19:31.000Z

背景

MySQL 版本: 8.0.23

Change Buffer 是 InnoDB 系统表空间(space id = 0) 的一个 B+ tree 索引, 它的作用是为满足指定条件下而数据 Page 不在 Buffer Pool 的二级索引操作进行缓存, 包括一开始的 INSERT 和后来加入的 UPDATE, DELETE. 聚簇索引的顺序插入，可能体现在二级索引中字段并不是顺序的, 所以存在大量的随机读取和写入, 将二级索引的数据操作顺序写入 Change Buffer 的 B+ tree, 以此达到与聚簇索引一致的顺序写入. 当我们需要读取时，会将对应的数据 Page 从磁盘读取至 Buffer Pool 并与 Change Buffer 中对应的 records 进行 merge 操作.

Change buffer 使用

参数

innodb_change_buffering: 设置缓存的操作类型, 包括none, all, inserts, deletes, changes, purges.
innodb_change_buffer_max_size: 设置 Change Buffer 所占 Buffer Pool 的大小, 默认 25%, 最大50%. (假如超过了阈值，会阻止进行 Change Buffer 写入，转而使用通常的写入方式，然后进行主动 merge, 即将数据 Page 读至 Buffer Pool, 并将 Change Buffer 的 records 与数据 Page 进行合并)

触发条件

除了设置上述的参数打开 Change Buffer 以外，真正使用 Change Buffer 还需要经过一些条件判断:

ibool ibuf_should_try(dict_index_t *index,     /*!< in: index where to insert */
                      ulint ignore_sec_unique) /*!< in: if != 0, we should
                                               ignore UNIQUE constraint on
                                               a secondary index when we
                                               decide */
{
  return (innodb_change_buffering != IBUF_USE_NONE && ibuf->max_size != 0 &&
          index->space != dict_sys_t::s_space_id && !index->is_clustered() &&
          !dict_index_is_spatial(index) && !dict_index_has_desc(index) &&
          index->table->quiesce == QUIESCE_NONE &&
          (ignore_sec_unique || !dict_index_is_unique(index)) &&
          srv_force_recovery < SRV_FORCE_NO_IBUF_MERGE);
}

设置innodb_change_buffering不为IBUF_USE_NONE.
设置innodb_change_buffer_max_size不为0.
待缓存的索引不为数据字典表.
待缓存的索引不是聚簇索引.
待缓存的索引不是 Spatial Index.
待缓存的索引包含递减列.
待缓存的表上没有 flush 操作.
待缓存的索引包含唯一列(唯一列需要全局判断, 可以缓存删除操作, 但无法缓存插入操作).
设置 srv_force_recovery 不允许 ibuf merge 操作.

所以我们在打开 Change Buffer 的同时也需要判断以上的条件是否符合. 对于唯一索引和写入立即需要读取的数据并不适合打开 Change Buffer.

Change Buffer 原理

Change Buffer 的调用逻辑是当我们需要进行支持的 DML 操作时，尝试从 Buffer Pool 读取 Page 时，假如 Page 不在 Buffer Pool 中并符合上述的触发条件, 会通过ibuf_insert() 来针对不同类型的操作进行 Change Buffer 的缓存.

Change Buffer 最初的功能只有缓存 INSERT 操作，所以也作 ibuf, 代码中均使用 ibuf 代替 Change Buffer.

Change Buffer 中有几个重要的概念:

Change Buffer Record

Change Buffer 的 Page 缓存对应二级索引的 DML 操作, 使用作为 key, 当需要查找的时, 使用就可以定位到具体的 record, 而 counter 作为一个递增的值，记录着 DML 的操作顺序.

Change Buffer Bitmap Page

在每个 Tablespace 中 Extent 的第二个 Page 会作为 Change Buffer 的元信息 Page, 即为 ibuf bitmap page, bitmap page 会使用 4 bits 来记录 Tablespace 中关于数据 Page 的 Change Buffer 信息, 以下方法可以计算 bitmap page no:

1 2	/* #define FSP_IBUF_BITMAP_OFFSET 1 / ulint bitmap_page_no = FSP_IBUF_BITMAP_OFFSET + ((page_no / page_size) page_size)

其中包括以下几个信息:

IBUF_BITMAP_FREE: 长度 2 bit, 记录该 Page 空闲空间, 使用 2个 bit 来描述空闲空间大小，以 16KB 的 page size 为例，能表示的空闲空间范围为0 (0 bytes)、1 (512 bytes)、2 (1024 bytes)、3 (2048 bytes). 注意此处2048 bytes 意为用户的累计插入 records 长度不能超过 2048 bytes, 并不单单指一次插入, 假如累积缓存的 record 长度超过了 2048bytes, 就会触发 ibuf merge 操作.
IBUF_BITMAP_BUFFERED: 长度 1 bit, 代表该 Page 上存在被缓存了的 DML 操作.
IBUF_BITMAP_IBUF: 长度 1 bit, 代表该 Page 属于 ibuf 类型, 供 AIO 线程判断.

使用函数ibuf_index_page_calc_free_from_bits()可以计算 Page 的空闲空间:

if (ibuf_code == 3) {
      ibuf_code = 4;
}
free_space = ibuf_code * (page_size / IBUF_PAGE_SIZE_PER_FREE_SPACE);

在正常的 DML 操作成功后会更新对应数据 Page 的IBUF_BITMAP_BUFFERED, IBUF_BITMAP_BUFFERED 并不是准确的记录数据 Page 的空闲空间, 最大只能记录 2kb, 所以用户在写入 record 导致 Page 的剩余空闲空间小于 2kb 之后才会更新. 而 Change Buffer 的缓存操作也通过IBUF_BITMAP_BUFFERED最大缓存 2kb 的 records.

Change Buffer 写入

static MY_ATTRIBUTE((warn_unused_result)) dberr_t
    ibuf_insert_low(ulint mode, ibuf_op_t op, ibool no_counter,
                    const dtuple_t *entry, ulint entry_size,
                    dict_index_t *index, const page_id_t &page_id,
                    const page_size_t &page_size, que_thr_t *thr) {
  /* ... */

  /* 假如当前的 ibuf 大小超过了设置的阈值, 调用 ibuf_contract() 进行
   * 部分 ibuf merge 操作以缓解 ibuf 的空间问题. */
  if (ibuf->size >= ibuf->max_size + IBUF_CONTRACT_DO_NOT_INSERT) {
    /* Insert buffer is now too big, contract it but do not try
    to insert */

#ifdef UNIV_IBUF_DEBUG
    fputs("Ibuf too big\n", stderr);
#endif
    ibuf_contract(true);

    return (DB_STRONG_FAIL);
  }

  heap = mem_heap_create(1024);

  /* 构建插入 ibuf 的 entry:
   * entry 是以  为 Key,
   * counter 的作用是来保证 DML 操作的顺序, 每次 DML 自增 1.
   * space_id, pae_no 是已知, counter 先默认设为 0xFFFF. */
  ibuf_entry =
      ibuf_entry_build(op, index, entry, page_id.space(), page_id.page_no(),
                       no_counter ? ULINT_UNDEFINED : 0xFFFF, heap);


  /* 针对 DML 操作判断 ibuf 的数据 Page 是否充裕，否则要进行分配直到满足写入. */
  if (BTR_LATCH_MODE_WITHOUT_INTENTION(mode) == BTR_MODIFY_TREE) {
    for (;;) {
      mutex_enter(&ibuf_pessimistic_insert_mutex);
      mutex_enter(&ibuf_mutex);

      if (UNIV_LIKELY(ibuf_data_enough_free_for_insert())) {
        break;
      }

      mutex_exit(&ibuf_mutex);
      mutex_exit(&ibuf_pessimistic_insert_mutex);

      if (!ibuf_add_free_page()) {
        mem_heap_free(heap);
        return (DB_STRONG_FAIL);
      }
    }
  }

  ibuf_mtr_start(&mtr);

  /* 使用先前创建的 entry 对 ibuf->index 进行 search, 注意使用的是 PAGE_CUR_LE, 即 pcur 是落在一个小于等于的 record 上. */
  btr_pcur_open(ibuf->index, ibuf_entry, PAGE_CUR_LE, mode, &pcur, &mtr);
  ut_ad(page_validate(btr_pcur_get_page(&pcur), ibuf->index));

  min_n_recs = 0;
  buffered =
      ibuf_get_volume_buffered(&pcur, page_id.space(), page_id.page_no(),
                               op == IBUF_OP_DELETE ? &min_n_recs : NULL, &mtr);

  /* 假如是 IBUF_OP_DELETE 操作并且待缓存的 Page 上的 record 数量小于 2 则不能进行 ibuf 缓存操作, 因为会导致 SMO. */
  if (op == IBUF_OP_DELETE &&
      (min_n_recs < 2 || buf_pool_watch_occurred(page_id))) {
    /* ... */
  fail_exit:
    if (BTR_LATCH_MODE_WITHOUT_INTENTION(mode) == BTR_MODIFY_TREE) {
      mutex_exit(&ibuf_mutex);
      mutex_exit(&ibuf_pessimistic_insert_mutex);
    }

    err = DB_STRONG_FAIL;
    goto func_exit;
  }

  ibuf_mtr_start(&bitmap_mtr);

  /* 获取 bitmap page. */
  bitmap_page = ibuf_bitmap_get_map_page(page_id, page_size, &bitmap_mtr);

  /* 1. 检查对应的数据 Page 是否被 load 进 Buffer Pool.
   * 2. 检查对应的数据 Page 上是否存在隐式的插入锁. */
  if (buf_page_peek(page_id) ||
      lock_rec_expl_exist_on_page(page_id.space(), page_id.page_no())) {
    ibuf_mtr_commit(&bitmap_mtr);
    goto fail_exit;
  }


  /* 对于没有指定 counter 的 record, 我们需要通过 ibuf_get_entry_counter() 获取前一个 reocrd 的 counter, 并自增 1, 以此作为当前的 record 的 counter 值.
   * 对于当前 Page 的第一个 record, 则从 0 开始.*/
  if (!no_counter) {
    ulint counter = ibuf_get_entry_counter(
        page_id.space(), page_id.page_no(), btr_pcur_get_rec(&pcur), &mtr,
        btr_pcur_get_btr_cur(&pcur)->low_match < IBUF_REC_FIELD_METADATA);
    dfield_t *field;

    if (counter == ULINT_UNDEFINED) {
      ibuf_mtr_commit(&bitmap_mtr);
      goto fail_exit;
    }

    field = dtuple_get_nth_field(ibuf_entry, IBUF_REC_FIELD_METADATA);
    /* 写入 counter 值. */
    mach_write_to_2((byte *)dfield_get_data(field) + IBUF_REC_OFFSET_COUNTER,
                    counter);
  }

  /* Set the bitmap bit denoting that the insert buffer contains
  buffered entries for this index page, if the bit is not set yet */

  /* 设置 bitmap page 的 IBUF_BITMAP_BUFFERED 位, 意为当前 Page 存在 Change Buffer 操作. */
  old_bit_value = ibuf_bitmap_page_get_bits(bitmap_page, page_id, page_size,
                                            IBUF_BITMAP_BUFFERED, &bitmap_mtr);

  if (!old_bit_value) {
    ibuf_bitmap_page_set_bits(bitmap_page, page_id, page_size,
                              IBUF_BITMAP_BUFFERED, TRUE, &bitmap_mtr);
  }

  ibuf_mtr_commit(&bitmap_mtr);

  cursor = btr_pcur_get_btr_cur(&pcur);

  if (mode == BTR_MODIFY_PREV) {
    err = btr_cur_optimistic_insert(BTR_NO_LOCKING_FLAG, cursor, &offsets,
                                    &offsets_heap, ibuf_entry, &ins_rec,
                                    &dummy_big_rec, 0, thr, &mtr);
    /* ... */
  } else {
    ut_ad(BTR_LATCH_MODE_WITHOUT_INTENTION(mode) == BTR_MODIFY_TREE);
    /* ... */
    /* 进行乐观插入. */
    err = btr_cur_optimistic_insert(BTR_NO_LOCKING_FLAG | BTR_NO_UNDO_LOG_FLAG,
                                    cursor, &offsets, &offsets_heap, ibuf_entry,
                                    &ins_rec, &dummy_big_rec, 0, thr, &mtr);

    if (err == DB_FAIL) {
      /* 乐观插入失败则进行悲观插入. */
      err = btr_cur_pessimistic_insert(
          BTR_NO_LOCKING_FLAG | BTR_NO_UNDO_LOG_FLAG, cursor, &offsets,
          &offsets_heap, ibuf_entry, &ins_rec, &dummy_big_rec, 0, thr, &mtr);
    }

    mutex_exit(&ibuf_pessimistic_insert_mutex);
    ibuf_size_update(root);
    mutex_exit(&ibuf_mutex);
    ibuf->empty = page_is_empty(root);

    block = btr_cur_get_block(cursor);
    ut_ad(block->page.id.space() == IBUF_SPACE_ID);
  }


  /* ... */
  if (err == DB_SUCCESS && op != IBUF_OP_DELETE) {
    /* Update the page max trx id field */
    page_update_max_trx_id(block, NULL, thr_get_trx(thr)->id, &mtr);
  }

func_exit:
  /* ... */
  ibuf_mtr_commit(&mtr);
  btr_pcur_close(&pcur);

  mem_heap_free(heap);

  if (err == DB_SUCCESS &&
      BTR_LATCH_MODE_WITHOUT_INTENTION(mode) == BTR_MODIFY_TREE) {
    /* 插入后判断是否需要对数据 Page 进行 merge 操作. */
    ibuf_contract_after_insert(entry_size);
  }

  if (do_merge) {
#ifdef UNIV_IBUF_DEBUG
    ut_a(n_stored <= IBUF_MAX_N_PAGES_MERGED);
#endif
    /* 对于读取的 Page 进行 merge 操作. */
    buf_read_ibuf_merge_pages(false, space_ids, page_nos, n_stored);
  }

  return (err);
}

Change Buffer 合并(ibuf merge)

有以下几个场景会触发 Change Buffer 的 merge 操作, 即将 ibuf Page 的 records 和原数据 Page 进行合并操作 (ibuf_merge_or_delete_for_page()):

ibuf_insert_low() 中存在部分判断逻辑会导致无法使用 Change Buffer 写入，从而触发 ibuf merge.
当二级索引数据 Page 从磁盘读入至 Buffer Pool 之后，会触发 merge 操作(buf_page_get_gen()).
ibuf_merge_in_background() 会在后台触发 ibuf Page 进行 merge.
在 Recover 阶段会对 ibuf Page 的 Records 和数据 Page 进行 merge.
当执行 slow shutdown 时，会强制做一次全部的ibuf merge.

ibuf 的 merge 操作原理比较简单，就是根据操作类型将 records 从 ibuf Page 合并至数据 Page (ibuf_insert_to_index_page()/ibuf_set_del_mark()/ibuf_delete())

FAQ

我们讲到对于普通索引来说，Change Buffer 可以避免 Update/Delete/Insert 等修改操作的时候访问磁盘. 后续查询的时候再从磁盘中读出并 merge，对于 Delete 操作，删除一行不存在的数据，这时候 Change Buffer 如何处理?

InnoDB 的删除逻辑是先删聚簇索引, 再删除二级索引(标记删除), 所以当主键索引发现DB_RECORD_NOT_FOUND就会返回, 所以不会触发缓存不存在的索引数据.

总结

InnoDB 实现了 Change buffer 来优化用户在二级索引上的随机写入问题, 用户可以根据自己的需求结合 Change buffer 的一些条件来判断是否启用 Change buffer, 但需要注意的是 Change buffer 的阈值只有 2kb，假如在一个二级索引的数据 Page 写入的 record 长度超过 2kb, 就会触发 ibuf merge, 从而使后续的 ibuf 缓存条件失效，但这也符合 IO-bound 的场景需求. 本文也介绍了 Change buffer 如何使用 Bitmap Page 跟踪数据 Page 的空闲空间.

InnoDB 死锁 Bug 排查

2021-02-25T16:32:25.000Z

背景

某天收到一封读者的邮件，询问我一个关于 InnoDB 死锁的问题, 他在 MySQL 5.7 可以复现这个问题, MySQL 8.0.22 却无法复现, 他询问其死锁的原因. 经过一系列的排查，我后来发现是 InnoDB 内部实现的一个 Bug，目前这个 Bug 已经在 8.0.18 版本进行了修复, 所以也可以通过 8.0.17 vs 8.0.18 来验证这个问题.

整个 SQL 流程如下:

/* 1. 表结构 */
CREATE TABLE t  (
    id BIGINT UNSIGNED NOT NULL PRIMARY KEY COMMENT 'id, 无实际意义',
    account_id VARCHAR (64) NOT NULL COMMENT '用户id，不同app下的account_id可能重复',
    type TINYINT UNSIGNED NOT NULL COMMENT '余额类型 1:可用余额',
    balance BIGINT UNSIGNED NOT NULL DEFAULT 0 COMMENT '余额',
    state INT UNSIGNED NOT NULL DEFAULT 1 COMMENT '账户状态 1:NORMAL; 2:FROZE',
    UNIQUE KEY uk_account (account_id, type)
)ENGINE = INNODB DEFAULT CHARSET utf8mb4
COMMENT '测试';

/* 2. 其中 UNIQUE INDEX 为 uk_account(account_id, type) */

/* 3. 插入数据 */
insert into t values(1,'1',1,100,1);
insert into t values(2,'2',1,100,1);
insert into t values(3,'3',1,100,1);
insert into t values(4,'4',1,100,1);
insert into t values(5,'5',1,100,1);

/* 4. 查询所有数据. */
select * from t;


/* 5. 执行以下 SQL, 注意事务隔离级别为 (RR) */
t1-1：(session1)
begin; /* 显式开启事务, 排除 autocommit 的影响. */
select * from t where account_id = '1' and type =1 for update;

t2: (session2)
begin;
select * from t where account_id = '1' and type =1 for update;

t1-2: (session1)
update t set state = 2 where account_id = '1';

我们按照顺序执行分别在 MySQL 8.0.17 和 MySQL 8.0.18 执行，可以看到在 8.0.17 版本事务 t2 因为死锁检测而被视为victim_trx进行了回滚，而 8.0.18 却不会回滚事务 t2.

基于 MySQL 8.0.17

1 2	MySQL [sbtest]> select * from t where account_id = '1' and type =1 for update; ERROR 1213 (40001): Deadlock found when trying to get lock; try restarting transaction

分析流程

我们基于问题版本 8.0.17 来分析 Bug 的真正原因.

SQL 分析

通过表结构我们可以看到整个表有两个索引, PRIMARY INDEX 和 UNIQUE INDEX uk_account. 因为是死锁问题, 所以我们要逐条分析 SQL 语句加的 record lock 分别是什么:

t1-1
t1-1 是一条 SELECT FROM UPDATE 的语句, 而account_id和type是一组唯一索引字段, 所以只需要加一个主键索引的 X record lock 和唯一索引 uk_account 的 X record lock.
t2
t2 语句与 t1-1 相同, 加锁一致，也是一个主键索引的 X record lock 和唯一索引 uk_account 的 X record lock.
t1-2
t1-2 注意 t1-2 的查询条件只有where account_id = ‘1’, 这与 t1-1 的查询条件是不同的, 所以在 RR 隔离级别下，为了避免出现可能的幻读, 这需要加一个 Next-key lock, 另外需要对 record (2,’2’,1,100,1) 加一个 GAP lock, 防止在此之前的插入造成幻读.

锁信息验证

为了验证我们对于 SQL 的分析, 我们可以通过set global innodb_status_output_locks = on; 打开锁状态输出, 然后show engine innodb status\G, 来查看锁信息, 这里我们为了验证分析正确，跳过执行 t2 语句, 因为 t2 的加锁类型一定是与 t1-1 一致的:

> begin;
> select * from t where account_id = '1' and type =1 for update;
> update t set state = 2 where account_id = '1';
> set global innodb_status_output_locks = on; /* 暂不提交，以查看事务锁的持有信息. */
> show engine innodb status\G

/* 事务 t1 持有 5 个 lock, 4 个 row lock, 1 个 table lock (暂时忽略). */
---TRANSACTION 2068, ACTIVE 16 sec
5 lock struct(s), heap size 1200, 4 row lock(s)
MySQL thread id 9, OS thread handle 140737025267456, query id 74 127.0.0.1 myadmin starting
show engine innodb status

/* 下列为 table lock (笔者注). */
TABLE LOCK table `sbtest`.`t` trx id 2068 lock mode IX

/* 下列为 Record: 1,'1',1,100,1 的 X record lock 基于索引 uk_account (笔者注). */
RECORD LOCKS space id 2 page no 5 n bits 72 index uk_account of table `sbtest`.`t` trx id 2068 lock_mode X locks rec but not gap
Record lock, heap no 2 PHYSICAL RECORD: n_fields 3; compact format; info bits 0
 0: len 1; hex 31; asc 1;;
 1: len 1; hex 01; asc  ;;
 2: len 8; hex 0000000000000001; asc         ;;

/* 下列为 Record: 1,'1',1,100,1 的 X record lock 基于主键索引 (笔者注). */
RECORD LOCKS space id 2 page no 4 n bits 72 index PRIMARY of table `sbtest`.`t` trx id 2068 lock_mode X locks rec but not gap
Record lock, heap no 2 PHYSICAL RECORD: n_fields 7; compact format; info bits 0
 0: len 8; hex 0000000000000001; asc         ;;
 1: len 6; hex 000000000809; asc       ;;
 2: len 7; hex 01000001160151; asc       Q;;
 3: len 1; hex 31; asc 1;;
 4: len 1; hex 01; asc  ;;
 5: len 8; hex 0000000000000064; asc        d;;
 6: len 4; hex 00000002; asc     ;;

/* 下列为 Record: 1,'1',1,100,1 的 Next-key record lock 基于索引 uk_account. (笔者注). */
RECORD LOCKS space id 2 page no 5 n bits 72 index uk_account of table `sbtest`.`t` trx id 2068 lock_mode X
Record lock, heap no 2 PHYSICAL RECORD: n_fields 3; compact format; info bits 0
 0: len 1; hex 31; asc 1;;
 1: len 1; hex 01; asc  ;;
 2: len 8; hex 0000000000000001; asc         ;;

/* 下列为 Record: 2,'2',1,100,1 的 GAP lock 基于索引 uk_account. (笔者注). */
RECORD LOCKS space id 2 page no 5 n bits 72 index uk_account of table `sbtest`.`t` trx id 2068 lock_mode X locks gap before rec
Record lock, heap no 3 PHYSICAL RECORD: n_fields 3; compact format; info bits 0
 0: len 1; hex 32; asc 2;;
 1: len 1; hex 01; asc  ;;
 2: len 8; hex 0000000000000002; asc         ;;

通过show engine innodb status\G我们可以看到当前的事务的锁持有信息, 事务 t1 分别执行 t1-1 和 t1-2 语句后持有的锁分别有:

一个主键索引的 X record lock.
一个 UNIQUE INDEX 的 X record lock.
一个 Next-key record lock, InnoDB 为了明确 Next-key lock 和普通的 record lock 的区别，分别用不同的 mode 来区分:
- 普通的 X record lock:
  - lock_mode X locks rec but not gap. [mode: 1027 LOCK_REC_NOT_GAP | LOCK_REC | LOCK_X]
- Next-key lock:
  - lock_mode X [mode: 35 LOCK_X | LOCK_REC | LOCK_ORDINARY]
一个 GAP record lock

另外也可以通过performance_schema.data_locks查询锁信息:

1	SELECT INDEX_NAME, LOCK_TYPE, LOCK_MODE, LOCK_STATUS, LOCK_DATA from performance_schema.data_locks where OBJECT_NAME = 't';

死锁原因排查

既然 t2 被死锁检测回滚, 我们就需要检查当时是什么锁关系导致了死锁.

官方在 8.0.18 版本对死锁检测进行了优化, 将原先的死锁检测机制 MySQL 死锁检测源码分析交给了 background thread 来处理, 具体的 Patch 链接: MySQL-8.0.18 死锁检测优化. 具体的思路是将当前事务系统的 lock 信息打一份快照, 由这份快照判断是否存在回环, 假如存在死锁即唤醒等待事务.

而在 8.0.17 版本依然采用旧的死锁检测方法, 具体细节可以参考这篇文章: MySQL 死锁检测源码分析: 每次申请 lock 失败进入 wait 状态后触发一下死锁检测, 所以我们通过 gdb 调试的方法来梳理当时的锁依赖关系, 当我们执行完成 t1-1, 继而执行 t2 后, 事务 t2 进入了 wait 状态，当执行 t1-2 后 t2 回滚，说明触发 t2 回滚的死锁检测是由 t1-2 发起的, 我们 break 在死锁检测的路径上，然后 print 整个锁信息 (代码基于 8.0.17):

我们设置断点在死锁检测的路径上，因为可以明确是 t1-2 的死锁检测触发了 t2 的回滚，所以我们可以明确哪次 break 是我们想要的断点位置.

(gdb) b storage/innobase/lock/lock0lock.cc:7125

/* 1. 按顺序执行 t1-1, t2, t1-2 直到 t1-2 触发死锁检测. */
/* 2. DeadlockChecker 会设置一个 m_start 即发起死锁检测的 trx 和 m_wait_lock 即 m_start 等待的 lock. */

(gdb) p m_start /* 事务t1 */
$9 = (const trx_t *) 0x7fffe506cc78

(gdb) p *m_wait_lock  /* 事务 t1 尝试申请的 lock, 目前在等待状态. */
$53 = {trx = 0x7fffe506cc78, trx_locks = {prev = 0x7fffe00101f8, next = 0x0}, index = 0x7ff8740971f8, hash = 0x0, {tab_lock = {
      table = 0x500000002, locks = {prev = 0x48, next = 0x0}}, rec_lock = {space = 2, page_no = 5, n_bits = 72}},
  m_psi_internal_thread_id = 43, m_psi_event_id = 66, type_mode = 291, m_seq = 72}

/* 注意 m_wait_lock 的 type_mode */
(gdb) p /t 291
$13 = 100100011 /* 即 LOCK_X | LOCK_REC | LOCK_WAIT

(gdb) p m_wait_lock->index->name
$22 = {m_name = 0x7ff874097538 "uk_account"} /* 可以确认是等待在唯一索引 uk_account 的 record lock. */

/* 3. s 进入函数 DeadlockChecker::search(), 会首先 get_first_lock(&heap_no) 即从 m_wait_lock 对应的 record 上的 heap_no 从 lock_sys->rec_hash 找到第一个 lock. */

const lock_t *lock = get_first_lock(&heap_no);

(gdb) p lock
$15 = (const ib_lock_t *) 0x7fffe0010098

(gdb) p *lock
$14 = {trx = 0x7fffe506cc78, trx_locks = {prev = 0x7fffe0010cb8, next = 0x7fffe00101f8}, index = 0x7ff8740971f8, hash = 0x7fffe0010358, {
    tab_lock = {table = 0x500000002, locks = {prev = 0x48, next = 0x0}}, rec_lock = {space = 2, page_no = 5, n_bits = 72}},
  m_psi_internal_thread_id = 43, m_psi_event_id = 50, type_mode = 1059, m_seq = 54}

/* record 上的第一个 record 锁是 0x7fffe0010098, 它属于我们目前发起的事务 m_start 即 0x7fffe506cc78.
   type_mode 是 1059 即 LOCK_X | LOCK_REC | LOCK_REC_NOT_GAP. */

/* 我们通过 lock->hash 迭代来查看整个 record 上的锁排列信息. */
(gdb) p *(ib_lock_t*)0x7fffe0010098  /* 第一个 record lock */
$48 = {trx = 0x7fffe506cc78, trx_locks = {prev = 0x7fffe0010cb8, next = 0x7fffe00101f8}, index = 0x7ff8740971f8, hash = 0x7fffe0011918, {
    tab_lock = {table = 0x500000002, locks = {prev = 0x48, next = 0x0}}, rec_lock = {space = 2, page_no = 5, n_bits = 72}},
  m_psi_internal_thread_id = 43, m_psi_event_id = 65, type_mode = 1059, m_seq = 69}

(gdb) p *(ib_lock_t*)0x7fffe0011918  /* 第二个 record lock. */
$49 = {trx = 0x7fffe506d090, trx_locks = {prev = 0x7fffe00124c8, next = 0x0}, index = 0x7ff8740971f8, hash = 0x7fffe0010358, {tab_lock = {
      table = 0x500000002, locks = {prev = 0x48, next = 0x0}}, rec_lock = {space = 2, page_no = 5, n_bits = 72}},
  m_psi_internal_thread_id = 44, m_psi_event_id = 36, type_mode = 1315, m_seq = 71}

(gdb) p *(ib_lock_t*)0x7fffe0010358  /* 第三个 record lock. */
$50 = {trx = 0x7fffe506cc78, trx_locks = {prev = 0x7fffe00101f8, next = 0x0}, index = 0x7ff8740971f8, hash = 0x0, {tab_lock = {
      table = 0x500000002, locks = {prev = 0x48, next = 0x0}}, rec_lock = {space = 2, page_no = 5, n_bits = 72}},
  m_psi_internal_thread_id = 43, m_psi_event_id = 66, type_mode = 291, m_seq = 72}

/* 当前事务与 record 的关系如下:
发起死锁检测是 trx 是: 0x7fffe506cc78, trx 0x7fffe506cc78 等待的 lock 是 0x7fffe0010358.

lock: 0x7fffe0010098 所属的 trx: 0x7fffe506cc78 type_mode: 1059 LOCK_X | LOCK_REC | LOCK_REC_NOT_GAP 即持有 X record lock.
lock: 0x7fffe0011918 所属的 trx: 0x7fffe506d090 type_mode: 1315 LOCK_X | LOCK_WAIT | LOCK_REC | LOCK_REC_NOT_GAP 即等待 X record lock.
lock: 0x7fffe0010358 所属的 trx: 0x7fffe506cc78 type_mode: 291  LOCK_X | LOCK_REC | LOCK_WAIT 即等待 X record lock. */

/* 死锁检测流程结束后选择的 victim_trx 是: */
(gdb) p victim_trx
$58 = (const trx_t *) 0x7fffe506d090

通过上述分析我们可以得出结论 t1 事务的 t1-2 语句触发了死锁检测，选择的 victim_trx 是事务 t2, 我们需要明确以下几个问题:

发起死锁检测的原因是因为事务 t1 无法立即获得 X record lock.
事务 t1 认为可能会发生的死锁原因是因为在整个 lock 的等待关系中存在一个环, 即 t1 不 commit 提交事务, t2 事务也无法获取 X record lock, 从而导致 t1-2 的 UPDATE 语句也无法获得 X record lock 组成 Next-key record lock, 即使 t1 已经持有了 X record lock.

解决方案

根据最近的 Release Note, 我二分验证 8.0.16 - 8.0.22 的版本, 发现在 8.0.17 存在问题, 8.0.18 不存在, 所以根据现象我仔细查看了 8.0.18 的 Release Note, 发现了疑似这个现象的 Bugfix:

InnoDB: A deadlock was possible when a transaction tries to upgrade a record lock to a next key lock. (Bug #23755664, Bug #82127)

根据 Bug ID, 可以通过 Github 的 MySQL 提交记录来查找这个 Patch:

Bug #23755664 DEADLOCK WITH 3 CONCURRENT DELETES BY UNIQUE KEY
PROBLEM:
A deadlock was possible when a transaction tried to “upgrade” an already held Record Lock to Next Key Lock.
SOLUTION:
This patch is based on observations that:
(1) a Next Key Lock is equivalent to Record Lock combined with Gap Lock
(2) a GAP Lock never has to wait for any other lock
In case we request a Next Key Lock, we check if we already own a Record Lock of equal or stronger mode,
and if so, then we either upgrade it to Next Key Lock, or if it is not possible (because the single lock_t
struct is shared by more than one row) we change the requested lock type to GAP Lock, which we either already
have, or can be granted immediately.
(I don’t consider Insert Intention Locks a Gap Lock in above statements).
Reviewed-by: Debarun Banerjee debarun.banerjee@oracle.com
RB:19879

经过验证确实是这个 Patch 修复了这个死锁的问题.

Patch 分析

这个 Patch 具体的原理是当尝试获取 Next-key record lock 时，不再与旧的逻辑一样，旧的逻辑是先直接尝试申请 Next-key lock, 现在改为先判断当前 trx 是否持有 X record lock, 假如持有就复用这个 X record lock, 从而直接申请 GAP lock, 以达到 Next-key Lock 的效果.

所以在我们上面的例子中，申请 Next-key record lock 时跳过申请 X record lock, 就不会进入等待队列，也不会产生死锁的回环.

/* 使用 8.0.26 最新版分析 lock 持有情况.
 * 执行 t1：
select * from t where account_id = '1' and type =1 for update;
update t set state = 2 where account_id = '1';
show engine innodb status\G; */

show engine innodb status
TABLE LOCK table `sbtest`.`t` trx id 1323 lock mode IX

/* 下列为 Record: 1,'1',1,100,1 的 X record lock 基于索引 uk_account. (笔者注). */
RECORD LOCKS space id 2 page no 5 n bits 72 index uk_account of table `sbtest`.`t` trx id 1323 lock_mode X locks rec but not gap
Record lock, heap no 2 PHYSICAL RECORD: n_fields 3; compact format; info bits 0
 0: len 1; hex 31; asc 1;;
 1: len 1; hex 01; asc  ;;
 2: len 8; hex 0000000000000001; asc         ;;

/* 下列为 Record: 1,'1',1,100,1 的 X record lock 基于主键索引. (笔者注). */
RECORD LOCKS space id 2 page no 4 n bits 72 index PRIMARY of table `sbtest`.`t` trx id 1323 lock_mode X locks rec but not gap
Record lock, heap no 2 PHYSICAL RECORD: n_fields 7; compact format; info bits 0
 0: len 8; hex 0000000000000001; asc         ;;
 1: len 6; hex 00000000052b; asc      +;;
 2: len 7; hex 020000011b0110; asc        ;;
 3: len 1; hex 31; asc 1;;
 4: len 1; hex 01; asc  ;;
 5: len 8; hex 0000000000000064; asc        d;;
 6: len 4; hex 00000002; asc     ;;

/* 下列为 Record: 1,'1',1,100,1 的 GAP record lock 基于索引 uk_account, 与上面的 uk_account 的 X lock 组成 Next-key Lock. (笔者注). */
RECORD LOCKS space id 2 page no 5 n bits 72 index uk_account of table `sbtest`.`t` trx id 1323 lock_mode X locks gap before rec
Record lock, heap no 2 PHYSICAL RECORD: n_fields 3; compact format; info bits 0
 0: len 1; hex 31; asc 1;;
 1: len 1; hex 01; asc  ;;
 2: len 8; hex 0000000000000001; asc         ;;

/* 下列为 Record: 2,'2',1,100,1 的 GAP record lock 基于索引 uk_account. (笔者注: lock 的类型与上列一致, InnoDB 在这里对相同类型的 lock 做了省略). */
Record lock, heap no 3 PHYSICAL RECORD: n_fields 3; compact format; info bits 0
 0: len 1; hex 32; asc 2;;
 1: len 1; hex 01; asc  ;;
 2: len 8; hex 0000000000000002; asc         ;

总结

根据例子我们分析了一个 InnoDB 的死锁场景, 以及 Bug 产生的原因. 通过 gdb 调试的方式分析 InnoDB 的死锁原因，最主要任务就是梳理整个锁的等待依赖关系, 这能帮助我们更直观的分析真正的原因. 这是一个 X record lock “升级” 至 Next-key record lock 的 Bug, 官方在 8.0.18 已经修复了这个存在了几年的问题.

Summary

2021-02-24T22:20:35.000Z

生命不停的重复, 只有思绪偶尔在书中停留.

《动情的理性: 政治哲学作为道德实践》2024.7
《正义的可能》2024.6
《经济人的末日》2024.5
《从晚清到民国》2024.5
《日本史》2024.4
《帝国的技艺: 统治不可统治之地》2024.1
《法国大革命的起源》2023.12
《一个美国记者眼中的真实民国》2023.12
《战天京》2023.12
《菊纹大和绘: 日本近现代天皇简史》2023.11
《近代西方国家的危机政府》2023.11
《天国之秋》2023.10
《多谈谈问题》2023.10
《莫言对话新录》2023.9
《千面宋人: 传世书信里的士大夫》2023.8
《帝国的惆怅》2023.7
《从巴格达到伊斯坦布尔》2023.7
《与庄子哲游》2023.5
《舍不得看完的中国史: 秦并天下》2023.4
《第二次世界大战在亚洲及太平洋的起源》2023.4
《局外人》2023.3
《寻觅意义》2023.3
《段永平投资问答录》2023.2
《小镇喧嚣: 一个乡镇政治运作的演绎与阐释》2022.12
《聪明的投资者》2022.12
《自由主义被遗忘的历史》2022.12
《九人: 美国最高法院风云》2022.10
《万古江河: 中国历史文化的转折与开展》2022.9
《公正该如何做是好》2022.8
《原则与妥协: 美国宪法的精神与实践》2022.8
《可能性的艺术: 比较政治学30讲》2022.7
《存在主义是一种人道主义》2022.6
《祥瑞: 王莽和他的时代》2022.5
《宪法学讲义》2022.4
《燃烧的远征: 十字军东征简史》2022.4
《中国哲学简史》2022.3
《大宋文官: 变法视角下的宋朝士大夫观察》2022.1
《理解国际冲突与合作》2022.1
《联合政府与一党训政》2021.12
《社会主义: 经济学与社会学的分析》2021.12
《新常识》2021.11
《袁氏当国》2021.11
《美国种族简史》2021.10
《细说宋朝》2021.10
《拥抱战败: 第二次世界大战后的日本》2021.9
《上海1937: 法新社记者眼中的淞沪会战》2021.9
《近代的尺度》2021.8
《刘擎西方现代思想讲义》2021.8
《遥远的救世主》2021.7
《围城》2021.6
《黄河青山》2021.6
《不拘一格: 网飞的自由与责任工作法》2021.4
《打开: 周濂的100堂西方哲学课》2021.2
《穿越非洲两百年》2021.2
《缅甸小日子》2021.2
《现代的异化》2021.2
《曾彦修访谈录》2021.1
《赫逊河畔谈中国历史》2020.12
《血酬定律》2020.12
《西方博弈往事》2020.11
《纳粹德国的腐败与反腐》2020.10
《中国1945: 中国革命与美国的抉择》2020.10
《宋仁宗: 共治时代》2020.9
《潜规则: 中国历史中的真实游戏》2020.8
《冬牧场》2020.8
《上学记》2020.7
《自由在高处》2020.7
《浴血的帝国: 纷乱的三国两晋南北朝》2020.6
《意识形态起源和影响》2020.5
《拉丁美洲被切开的血管》2020.4
《被统治的艺术》2020.4
《午夜北平》2020.3
《天行者》2020.3
《近代朝鲜与日本》2020.3
《走出中东: 全球民主浪潮的见证与省思》2020.1
《日本人为何选择了战争》2019.12
《财富的归宿》2019.12
《美国十讲》2019.12
《哲学家都干了些什么》2019.12
《命运: 文在寅自传》2019.10
《巴尔干百年简史》2019.9
《政治学通识》2019.9
《汴京之围》2019.8
《饥饿的盛世: 乾隆时代的得与失》2019.7
《抉择时刻: 乔治•沃克•布什自传》2019.6
《邓小平时代》2019.6
《欲望与尊严：转型期中国的阶层、性别与亲密关系》2019.5
《中国历代政治得失》2019.5
《观念的水位》 2019.5
《显微镜下的大明》 2019.4
《解放的悲剧》 2019.4
《历史深处的忧虑》 2019.3
《美国宪政历程》 2019.3
《百年中国经济史笔记》 2018.12
《万历十五年》 2018.12
《中央帝国的哲学密码》 2018.11
《芙蓉镇》 2018.9
《一地鸡毛》 2018.9
《故乡天下黄花》 2018.9
《穿越百年中东》 2018.8
《中央帝国的财政密码》 2018.7
《牛奶可乐经济学》 2018.6
《刻意练习: 如何从新手到大师》 2018.6

About me

2021-02-24T21:25:01.000Z

博客主要记录个人学习的过程，文章难免出错，所有的文章都存在修改的可能性，文中如有任何错误或者关于技术问题的讨论，欢迎留言或邮件与我交流. 本站评论使用 Disqus.

本站所有文章采用 Creative Commons 署名-非商业性使用-相同方式共享 3.0 协议, 同时文章内容推荐 RSS 订阅.

InnoDB 事务 sharded 锁系统优化

2020-12-22T18:14:33.000Z

准备

MySQL内核版本: 8.0.21

背景

latch
数据库中的 latch 和我们通常代码编程中保证并发多线程操作操作临界资源的锁意义一样，通过 latch 的中文翻译“闩”就可以理解，这是为了维护一段临界区域.
lock
而 lock 则是数据库 MySQL 中在事务使用的”锁”, 锁定的对象是表或者行.

数据库内核月报 InnoDB 事务锁系统简介对 InnoDB 的事务锁系统: record lock 和 table lock 做了具体的介绍, 其中对于 record 和 table 会将所有GRANTED或者WAITING插入对应的 hash table.

在官方 MySQL 实现中, 事务锁系统由lock_sys_t *lock_sys统一管理, 当事务尝试申请一个 lock 时，会首先尝试获取lock_sys->mutex, 在 lock 创建成功后，会插入对应类型的 hash table, 下面是官方MySQL实现中的 hash table:

/** The lock system struct */
struct lock_sys_t {
  LockMutex mutex;              /*!< Mutex protecting the
                                locks */
  hash_table_t *rec_hash;       /*!< hash table of the record
                                locks */
  hash_table_t *prdt_hash;      /*!< hash table of the predicate
                                lock */
  hash_table_t *prdt_page_hash; /*!< hash table of the page
                                lock */
 /*  ... */
}

通过上面的简述可以理解当每一个事务需要尝试申请一个 lock 时，都需要获取这个lock_sys->mutex全局的 latch, 这对于高并发的事务处理来说是一个瓶颈. MySQL 官方在 8.0.21 版本针对这个问题使用分区 latch 来解决: worklog #10314.

lock_sys

在 8.0.21 之前的版本申请 record lock 时需要获取全局的lock_sys->mutex, 以 record lock 为例:

dberr_t lock_clust_rec_modify_check_and_lock() {
  /* ... */

  /* 获取全局的 lock_sys->mutex. */
  lock_mutex_enter();

  ut_ad(lock_table_has(thr_get_trx(thr), index->table, LOCK_IX));

  /* 尝试获取 record lock. */
  err = lock_rec_lock(true, SELECT_ORDINARY, LOCK_X | LOCK_REC_NOT_GAP, block,
                      heap_no, index, thr);

  MONITOR_INC(MONITOR_NUM_RECLOCK_REQ);

  /* 放锁. */
  lock_mutex_exit();

  /* ... */
}

尤其当高并发事务处理，lock_sys->mutex的瓶颈会凸显. 为此官方将lock_sys->mutex的进行拆分, 引入了 3 个类型的 latch, 一个全局的global latch, 512 组table latches和 512 组page latches:

global latch (lock_sys->latches.global_latch): 一个全局读写锁, 当lock_sys全局操作时, 直接对global_latch上 X 锁, 其他操作仅需要 S 锁.
table shard latches (lock_sys->latches.table_shards.mutexes): 512 个 table latches, 用来分片 table lock.
page shard latches (lock_sys->latches.page_shards.mutexes): 512 个 page latches, 用来分片 record lock.

[                           global latch                                ]
                                |
                                v
[table shard 1] ... [table shard 512] [page shard 1] ... [page shard 512]

Shard_latch_guard: 针对 global latch 使用 s-latch 并对单个 shard mutex 上锁.
Shard_latches_guard: 针对 global latch 使用 s-latch 并对两个 shard mutex 上锁.
Global_exclusive_latch_guard: 针对 global latch 使用 x-latch.

/* global_latch X 锁. */
class Global_exclusive_latch_guard : private ut::Non_copyable {
 public:
  Global_exclusive_latch_guard();
  ~Global_exclusive_latch_guard();
};

/* global_latch S 锁. */
class Global_shared_latch_guard : private ut::Non_copyable {
 public:
  Global_shared_latch_guard();
  ~Global_shared_latch_guard();
};

/* 单个 shard mutex. */
class Shard_latch_guard {
  Global_shared_latch_guard m_global_shared_latch_guard;
  Shard_naked_latch_guard m_shard_naked_latch_guard;

 public:
  explicit Shard_latch_guard(const dict_table_t &table)
      : m_global_shared_latch_guard{}, m_shard_naked_latch_guard{table} {}

  explicit Shard_latch_guard(const page_id_t &page_id)
      : m_global_shared_latch_guard{}, m_shard_naked_latch_guard{page_id} {}
};

/* 两个 shard mutex, 用于两个 Page 的 record lock 处理, 例如页迁移. */
class Shard_latches_guard {
 public:
  explicit Shard_latches_guard(const buf_block_t &block_a,
                               const buf_block_t &block_b)
      : m_global_shared_latch_guard{},
        m_shard_naked_latches_guard{block_a, block_b} {}

 private:
  Global_shared_latch_guard m_global_shared_latch_guard;
  Shard_naked_latches_guard m_shard_naked_latches_guard;
};

/* Shard_naked_latches_guard 并不直接使用, 由 Shard_latch_guard 或 Shard_latches_guard
包装 global_latch 联合使用. */
class Shard_naked_latches_guard {
  explicit Shard_naked_latches_guard(Lock_mutex &shard_mutex_a,
                                     Lock_mutex &shard_mutex_b);

 public:
  explicit Shard_naked_latches_guard(const buf_block_t &block_a,
                                     const buf_block_t &block_b);

  ~Shard_naked_latches_guard();

 private:
  /** The "smallest" of the two shards' mutexes in the latching order */
  Lock_mutex &m_shard_mutex_1;
  /** The "largest" of the two shards' mutexes in the latching order */
  Lock_mutex &m_shard_mutex_2;
  /** The ordering on shard mutexes used to avoid deadlocks */
  static constexpr std::less MUTEX_ORDER{};
};

在使用 shard lock 后, 申请 record lock 只需要获取对应 Page 的lock_rec_hash(page_id) % SHARDS_COUNT槽位的 mutex 即可:

dberr_t lock_clust_rec_modify_check_and_lock() {
  /* ... */
  {
    /* 1. global_latch 2. 对应 page_id 的 Shard_latch_guard. */
    locksys::Shard_latch_guard guard{block->get_page_id()};
    ut_ad(lock_table_has(thr_get_trx(thr), index->table, LOCK_IX));

    /* 申请锁. */
    err = lock_rec_lock(true, SELECT_ORDINARY, LOCK_X | LOCK_REC_NOT_GAP, block,
                        heap_no, index, thr);

    MONITOR_INC(MONITOR_NUM_RECLOCK_REQ);
    /* RAII 模式, 作用域结束即释放. */
  }

  ut_d(locksys::rec_queue_latch_and_validate(block, rec, index, offsets));
  /* ... */
}

上述代码是以 record lock 举例，使用 shard lock 后 record 申请的流程为:

针对 global_latch 使用 s-latch
获取对应 page_id 在 lock_sys 中 page_shards 的 latch:
1
lock_sys->latches.page_shards.get_mutex(page_id)
对 latch 上锁: mutex_enter(&m_shard_mutex).

Shard_latch_guard 等实现均为 RAII 模式, 离开作用域后自动析构.

死锁检测

使用 shard lock 优化后, 因为存在多个 thread 并发更新当前 trx 的锁操作, 所以死锁检测使用Global_exclusive_latch_guard来互斥当前的 lock 操作.

总结

MySQL 官方针对 lock_sys 的 mutex 瓶颈使用了 sharded lock 的方法进行优化，这依然延续了系统设计的优化思路, 将一个 bottleneck 的全局锁拆分为 sharded, 这也符合当前多核设计下, 充分利用硬件特性以此提高并行处理能力的趋势.

InnoDB 并行读取框架

2020-10-03T00:15:38.000Z

版本

MySQL 8.0.14

准备

在 MySQL 8.0.14 版本 InnoDB 引擎发布了一个新的特性 Parallel read of index (并行索引读取), 主要用于并行的读取索引数据, 目前仅仅支持 SELECT COUNT() 和 CHECK TABLE 操作, InnoDB 后续对于其他操作还会有更多的优化支持. 通过这个并行索引读取框架, InnoDB 可以支持同步、异步的并发读取索引数据, 异步的读取索引数据可以用来实现逻辑预读操作. 在此之前的预读逻辑, InnoDB 只有线性预读和随机预读这两种物理预读处理方法, 而对于 B+ tree 这种树形结构显然逻辑预读才更合适.

并行索引读取

参数

innodb_parallel_read_threads: 当前并行读取的 worker 线程数量.

innodb_parallel_read_threads是 session 级别的变量, 假如需要打开并行扫描框架即:

1
2
3

set local innodb_parallel_read_threads=4;

select count(*) from sbtest.table;

设计思想

Parallel read of index 主要利用当前的多核硬件优势, 针对当前可以并行读取的逻辑例如 SELECT COUNT() 或者 CHECK TABLE, 其主要逻辑是收集数据叶子节点的 Page Number, 使用多个 worker 并行读取数据 Page, 利用不同的回调函数来处理获取后的 rows. 目前 SELET COUNT() 和 CHECK TABLE 都是同步读取, 但 InnoDB 依然提供了接口处理对应的异步读取, 后续会针对需要异步读取的场景提供更多的优化路径.

实现

row_scan_index_for_mysql()

row_scan_index_for_mysql() 作为 SELECT COUNT() 和 CHECK TABLE 的入口函数:

 /* 扫描索引数据 */
 ----------------------------
| row_scan_index_for_mysql() |
 ----------------------------
  |
  |
  |         /* SELECT COUNT() */
  |    ------------------------------
  --> | parallel_select_count_star() |
  |    ------------------------------
  |
  |
  |     /* CHECK TABLE */
  |    ------------------------
  --> | parallel_check_table() |
       ------------------------

基本数据结构

Parallel_reader::Scan_range: 代表当前并行扫描的范围.
Parallel_reader::Config 并行扫描的 configuration.
Parallel_reader::Scan_ctx 并行扫描的上下文 (context).
Parallel_reader::Ctx 并行读取的执行上下文 (Parallel reader execution context)
Parallel_reader 并行扫描 reader

SELECT COUNT()

我们以全表扫描 SELECT COUNT() 为例, 根据源码分析 Parallel Read 的原理:

/* SELECT COUNT() 的入口函数 */

static dberr_t parallel_select_count_star(Key_reader &reader, ulint *n_rows) {
  Counter::Shards n_recs;

  Counter::clear(n_recs);

  const buf_block_t *prev_block = nullptr;

  dberr_t err =
      reader.read([&](size_t id, const buf_block_t *block, const rec_t *rec,
                      dict_index_t *index, row_prebuilt_t *prebuilt) {
        Counter::inc(n_recs, id);

        /* Only check the THD state for the first thread. */
        if (id == 0 && block != prev_block) {
          prev_block = block;
          if (trx_is_interrupted(reader.trx())) {
            return (DB_INTERRUPTED);
          }
        }

        return (DB_SUCCESS);
      });

  /* 统计计数 */
  *n_rows = Counter::total(n_recs);

  return (err);
}

Key_reader 使用 partition() 将 B+ tree 分片, 分配各个 worker 线程, InnoDB 的 B+ 树将数据存放在所有的叶子节点, 即叶子节点为 level 0, 分配策略是从 root 节点遍历, 使用 left_leaf() 从左边由上至下直到 level N 层的节点数量大于等于 worker 线程数量:

Key_reader 会在指定 level 的 sub-tree 的 “root page” 中分别选择第一个 record, 从而找到其在 leaf level 层的 page no(create_range()->create_persistent_cursor()), 新建 scan context 交由 worker 线程.

并行读取流程

启动 worker 线程, worker 线程也就是真正的读取线程，对一个切好的 sub-tree 做 scan, worker 线程分别根据被分配的 leaf page cursor 进行顺序读取.

并行读取线程会根据创建的读取对应叶子节点的 record, 并且会根据 trx->read_view 来判断可见性.

总结

我们通过 SELECT COUNT() 分析了 InnoDB 实现的 Parallel Read 框架，虽然目前仅支持 CHECK TABLE 和 SELECT COUNT(), 但整个框架支持了足够多的接口，后续应该会支持更多的场景. 例如目前 CHECK TABLE 和 SELECT COUNT() 都是同步的并行读取, 使用 Parallel Read 框架可以考虑针对 SELECT * 的全表扫描可以优化为异步的逻辑预读.

InnoDB 中的 B+ 树的增删改

2020-07-19T01:06:27.000Z

版本

MySQL 8.0.13

背景

InnoDB 使用 B+ 树作为它的索引数据结构, B+ 树作为一种经典的数据结构具备高效的读写查询, 本文主要分析 InnoDB 中 B+ 树对于 Record 的增删改如何实现, 理解 Record 在 InnoDB 中的 B+ 树如何增删改，可以更直观的帮助我们理解 InnoDB 的索引组织方式.

Record 的插入操作

在MySQL中, 一条 Insert 语句就是一个 Record 的插入操作, 我们以插入一条聚簇索引(非压缩)为例, 略过连接建立过程和 SQL parse 阶段, 经过 InnoDB 的 handler::ha_write_row() 调用:

 ------------
|    ...     |
 ------------
   |
   |    /* Cluster Index 聚簇索引的插入 */
   |    ---------------------------------
   --> | row_ins_clust_index_entry_low() |
        ---------------------------------
          |
          |
          |      /* 针对 delete-marked 的记录, 并且该记录的唯一字段和待插入的 Record 一致，则 Inplace Modify. */
          |    ---------------------------------------
          --> | row_ins_clust_index_entry_by_modify() |
          |    ---------------------------------------
          |
          |
          |           /* 乐观插入 */
          |    -----------------------------
          --> | btr_cur_optimistic_insert() |
          |    -----------------------------
          |      |
          |      |
          |      |       /* 加锁并记录 Undo Log */
          |      |    -----------------------------
          |      --> | btr_cur_ins_lock_and_undo() |
          |      |    -----------------------------
          |      |
          |      |        /* 插入b+树 */
          |      |    -------------------------
          |      --> | page_cur_tuple_insert() |
          |           -------------------------
          |
          |
          |            /* 悲观插入 */
          |    ------------------------------
          --> | btr_cur_pessimistic_insert() |
               ------------------------------

上述的调用过程说明了插入一条 Record 的过程, 具体的分析如下:

row_ins_clust_index_entry_low() 函数的参数包括我们需要插入的 Record 和当前的dict_index_t 索引. 首先我们需要通过pcur游标来定位我们需要插入的位置:

/* 调用 btr_pcur_open() 定位待插入的位置.
 * 参数 entry 是待插入的 Record, search mode 是 PAGE_CUR_LE, 即定位到一个小于等于待插入记录的 Record.
 * 举例假如当前存在 Record 是[1, 2, 3], 我们插入5, 即 cursor 会定位到3. */
btr_pcur_open(index, entry, PAGE_CUR_LE, mode, &pcur, &mtr);

针对 cursor 返回的 Record 检查主键重复的问题.
调用btr_cur_optimistic_insert()乐观插入:
- 通过 cursor 定位 leaf page, 计算 Record 的物理长度.
- 假如 Record 的大小超过了 Page 的剩余空间, 则乐观插入失败，需要调用悲观插入.
  - 对于乐观插入成功的情况下, 调用btr_cur_ins_lock_and_undo()记录 Undo Log.
  - 调用page_cur_insert_rec_low()完成 Page 的插入并记录类型为 MLOG_REC_INSERT 的 Redo Log.
对于需要分裂的 Page 需要调用btr_cur_pessimistic_insert()悲观插入:

B+ tree 的加锁流程

乐观插入

乐观插入使用的 mode 为 BTR_MODIFY_LEAF, 加锁顺序是先对 dict_index_t 加 S 锁, 再针对所有的 non-leaf page 加 S 锁, 因为需要对 leaf page 进行修改，所以对 leaf page 加 X 锁.

1 2	row_ins_clust_index_entry_low(flags, BTR_MODIFY_LEAF, index, n_uniq, entry, thr, dup_chk_only);

悲观插入

悲观插入使用的 mode 为 BTR_MODIFY_TREE, 加锁顺序是先对 dict_index_t 加 SX 锁, 在 search 过程中不会针对 page 加任何锁(RW_NO_LATCH), 但会保留整个 branch 涉及的 block, 最后针对路径涉及的所有 block 加 X 锁.

1 2	row_ins_clust_index_entry_low(flags, BTR_MODIFY_TREE, index, n_uniq, entry, thr, dup_chk_only);

Record 的删除操作

  /* Record 删除操作. */
 -------------------------
| ha_innobase::delete_row |
 -------------------------
   |
   |
   |    /* Record 的更新删除操作都经过 row_update_for_mysql() 入口. */
   |    ------------------------
   --> | row_update_for_mysql() |
        ------------------------
          |
          |
          |    ----------------------------------------
          --> | row_update_for_mysql_using_upd_graph() |
               ----------------------------------------
                 |
                 |
                 |
                 |    -----------
                 --> | row_upd() |
                 |   ------------
                       |
                       |    ----------------
                       --> | row_upd_step() |
                            ----------------
                             |
                             |
                             |       /* 加锁并记录 Undo Log */
                             |    ------------------------------
                             --> | row_upd_del_mark_clust_rec() |
                                  ------------------------------
                                    |
                                    |
                                    |    /* 保存 Record 至 node-> row 用来删除二级索引. */
                                    |    ---------------------
                                    --> | row_upd_store_row() |
                                    |    ---------------------
                                    |
                                    |
                                    |     /* 上锁, 记录 Undo Log, 设置 Record 的标志位为 REC_INFO_DELETED_FLAG. */
                                    |    ----------------------------------
                                    --> | btr_cur_del_mark_set_clust_rec() |
                                         ----------------------------------

通过源码分析我们可以发现 Record 的删除操作对于聚簇索引并不是真的物理删除，仅仅是标记为 REC_INFO_DELETED_FLAG. 而对于其他的二级索引, 依然采用设置标记的方法 (btr_cur_del_mark_set_sec_rec()).

Record 的修改操作

对于 Record 的修改操作, 使用了和删除操作一样的接口 row_upd_clust_step(). 对于修改存在多种不同的处理方法:

对于只修改聚簇索引，而无需修改二级索引的 Update 操作, 调用 row_upd_clust_rec(), 对于仅修改聚簇也存在两种情况: 是否存在 Record 长度的变化.
- 对于 Update 后长度不变的 Record, 调用 btr_cur_update_in_place() 原地修改.
- 对于 Update 后引起 Record 长度变化的操作, 依然会根据当前 Page 的剩余空间调用乐观更新(btr_cur_optimistic_update())和悲观更新(btr_cur_pessimistic_update()). 引起 Record 长度变化的 Update 操作都是 append 写入方式, 对于旧的 Record 需要更新其标志位, 插入 Page 的 PAGE_FREE 链表.
对于会影响排序的字段, 调用 row_upd_clust_rec_by_insert() 更新.
对于需要同时修改聚簇索引和二级索引的 Update 操作, 依然调用 row_upd_clust_rec() 完成. 与一样会在使用 row_upd_store_row() 记录旧的 Record 至 row->node, 以供二级索引更新使用.
对于二级索引的修改操作，全部采用标记删除后重新插入的方式.

总结

我们通过源码分析了 InnoDB 中关于索引部分的增删改步骤, 需要注意的是 B+ tree 中的增删改流程全部处于同一个 trx 的保护中，因此对于聚簇索引和二级索引的修改都保证了原子性, 这里也涉及 InnoDB 的 Undo Log 模块和事务锁系统模块.

理解 InnoDB 自适应刷脏

2020-05-19T20:28:09.000Z

背景

adaptive flushing 分析

InnoDB 采用 adaptive flushing (自适应刷脏)的刷脏策略来处理从 Buffer Pool 写入脏页至磁盘. 如何理解 adaptive flushing 的作用，我们可以假设不采用自适应刷脏策略，我们该如何进行刷脏? 假如没有自适应刷脏算法，我们可以利用阈值的方式来进行刷脏，比如 Buffer Pool 的脏页比例达到了 70% 就触发刷脏，在一般的业务压力下，这个方法没有问题. 但是对于用户业务不确定的场景, 简单的采用阈值的方式容易造成在用户业务压力大的情况下数据库的剧烈抖动. 所以采用自适应的刷脏策略，尽可能在所有的用户场景达到系统平滑运行.

原理分析

当启用 innodb_max_dirty_pages_pct_lwm 参数时, 表示设置了预刷脏，Buffer Pool 的刷脏线程会避免脏页比超过这个值. 后台刷脏的动作由后台刷脏协调线程触发，该线程的所有工作内容均由buf_flush_page_cleaner_coordinator() 函数完成. 在执行刷脏任务前，会调用 page_cleaner_flush_pages_recommendation() 生成刷脏建议.

函数page_cleaner_flush_pages_recommendation() 生成的建议刷脏的 Page 数量是 adaptive flushing 自适应刷脏策略的核心，它每隔srv_flushing_avg_loops秒(默认30s)重新根据redo log产生的速度，参考当前刷脏的平均数量和设置的系统IO参数(innodb_io_capacity, innodb_io_capacity_max) 三者的平均值生成一个合理的建议刷脏的Page数量. 下面我们分别对这三个调节因子做出对应的解释.

Redo Log 产生的平均速度

因为刷脏协调线程会每隔srv_flushing_avg_loops生成一次刷脏建议，关于 Redo Log 产生的平均速度公式即为:

/*
 * cur_lsn: 当前最大的lsn
 * prev_lsn: 上次记录的lsn
 * time_elapsed: 间隔时间
 * 计算当前 redo log 的产生速度. */
lsn_rate = static_cast<lsn_t>(static_cast<double>(cur_lsn - prev_lsn) / time_elapsed);

/* 计算与上次 Redo Log 产生速度的平均值 */
lsn_avg_rate = (lsn_avg_rate + lsn_rate) / 2;

计算 Redo Log 产生的平均速度这个比较好理解，Redo Log 产生的平均速度反应了当前系统的压力情况，压力越大，Redo Log 产生的速度越快. 在 MySQL 中 Redo Log 是复用的，经过 Log Checkpoint 操作之前的 Redo Log 都可以被复用, 所以 Log Checkpoint 本身就会推进 Buffer Pool 的刷脏, 所以为了保证数据库有足够空闲的 Redo Log 空闲, 自适应刷脏同样需要考虑 Redo Log 产生的速度.

InnoDB 根据当前lsn_avg_rate来估算一个target_lsn, flush_list所有oldest_modification_lsn小于该 lsn 值的 Page 都被考虑进行刷盘. 估算公式如下:

1	lsn_t target_lsn = oldest_lsn + lsn_avg_rate * buf_flush_lsn_scan_factor;

因子buf_flush_lsn_scan_factor被硬编码为3. 由上面的公式 InnoDB 的刷脏协调线程遍历 Buffer Pool 估算出flush_list需要被刷脏的 Page 数量, 但最后的数量会再除以buf_flush_lsn_scan_factor.

当前刷脏的平均速度

考虑将当前刷脏的平均速度作为影响因子可能的原因应该是避免生成的建议刷脏 Page 数量与上次刷脏的数量差距过大或过小. 这也符合自适应刷脏的初衷，尽力避免IO抖动.

系统IO参数

通过我们设置的innodb_io_capacity和innodb_io_capacity_max可以得出系统IO的能力, 通过计算flush_list占所有 Page 数量的百分比我们可以得出脏页比. 根据脏页比与innodb_max_dirty_pages_pct大小比较我们决定是否触发激烈刷脏, 假如超过了innodb_max_dirty_pages_pct设定的大小，我们即认为需要全力进行刷脏了, 这里会充分调动系统的IO能力. 否则则需要与innodb_max_dirty_pages_pct_lwm比较，从而考虑利用系统多少的IO带宽.

通过上面的计算，我们将这三个因子的建议刷脏 Page 数量计算平均值，得出综合建议刷脏Page数量，由变量n_pages保存. 接下来，这个建议刷新的总量n_pages与innodb_io_capacity_max这个参数进行比较，即建议刷新的总量最大不能超过所设置的磁盘最大随机IO能力。

最后我们需要为每个 Buffer Pool 设置n_pages_requested, 即要求的刷脏 Page 数量. 具体的细节我们将在下节的源码分析展出.

源码分析

static ulint page_cleaner_flush_pages_recommendation(lsn_t *lsn_limit,
                                                     ulint last_pages_in) {
  /* 请注意以下5个变量类型均为static. */
  static lsn_t prev_lsn = 0;
  static ulint sum_pages = 0;
  static ulint avg_page_rate = 0;
  static ulint n_iterations = 0;
  static time_t prev_time;

  lsn_t oldest_lsn;
  lsn_t cur_lsn;
  lsn_t age;
  lsn_t lsn_rate;
  ulint n_pages = 0;
  ulint pct_for_dirty = 0;
  ulint pct_for_lsn = 0;
  ulint pct_total = 0;

  /* 当前写入redo log最大的lsn. */
  cur_lsn = log_buffer_dirty_pages_added_up_to_lsn(*log_sys);

  if (prev_lsn == 0) {
    /* 第一次进入该函数, 更新prev_lsn, prev_time. */
    prev_lsn = cur_lsn;
    prev_time = ut_time();
    return (0);
  }

  /* 假如 prev_lsn 等于 cur_lsn 即没有 Redo Log 产生, 直接返回. */
  if (prev_lsn == cur_lsn) {
    return (0);
  }

  /* 累计刷脏的 Page 数量, last_pages_in是上次 Flush 的脏页数量. */
  sum_pages += last_pages_in;

  time_t curr_time = ut_time();
  double time_elapsed = difftime(curr_time, prev_time);

  /* 计算是否超过srv_flushing_avg_loops, InnoDB 设置间隔 srv_flushing_avg_loops 生成一次刷脏建议. */
  if (++n_iterations >= srv_flushing_avg_loops ||
      time_elapsed >= srv_flushing_avg_loops) {
    if (time_elapsed < 1) {
      time_elapsed = 1;
    }

    /* 计算刷脏的平均 Page 数量. */
    avg_page_rate = static_cast(
        ((static_cast<double>(sum_pages) / time_elapsed) + avg_page_rate) / 2);

    /* 计算上次 Redo Log 的产生速度. */
    lsn_rate = static_cast<lsn_t>(static_cast<double>(cur_lsn - prev_lsn) /
                                  time_elapsed);

    /* 计算 Redo Log 的平均产生速度. */
    lsn_avg_rate = (lsn_avg_rate + lsn_rate) / 2;

    /* 更新 prev_lsn, prev_time. */
    prev_lsn = cur_lsn;
    prev_time = curr_time;

    n_iterations = 0;

    sum_pages = 0;
  }

  /* 获取 flush_list 中最老的oldest_modification. */
  oldest_lsn = buf_pool_get_oldest_modification_approx();

  ut_ad(oldest_lsn <= log_get_lsn(*log_sys));

  /* 计算lsn的增量. */
  age = cur_lsn > oldest_lsn ? cur_lsn - oldest_lsn : 0;

  /* 计算根据脏页比需要使用 io_capacity 的百分比. 假如超过了 srv_max_buf_pool_modified_pct, 需要使用激烈刷脏即100%. */
  pct_for_dirty = af_get_pct_for_dirty();

  /* 计算根据 Redo Log 产生速率需要调动 io_capacity 的百分比. 假如超过了 srv_max_buf_pool_modified_pct, 需要使用激烈刷脏即100%. */
  pct_for_lsn = af_get_pct_for_lsn(age);

  /* 取一个最大值. */
  pct_total = ut_max(pct_for_dirty, pct_for_lsn);

  ulint sum_pages_for_lsn = 0;

  /* 下面的for循环即为根据 lsn_avg_rate 估算 Buffer Pool 中的 instance 刷脏目标 Page 数量. */
  lsn_t target_lsn = oldest_lsn + lsn_avg_rate * buf_flush_lsn_scan_factor;

  for (ulint i = 0; i < srv_buf_pool_instances; i++) {
    buf_pool_t *buf_pool = buf_pool_from_array(i);
    ulint pages_for_lsn = 0;

    /* 遍历 Buffer Pool 中的 instance 的 flush_list, 根据符合 target_lsn 的 Page, 递增 pages_for_lsn */
    buf_flush_list_mutex_enter(buf_pool);
    for (buf_page_t *b = UT_LIST_GET_LAST(buf_pool->flush_list); b != NULL;
         b = UT_LIST_GET_PREV(list, b)) {
      if (b->oldest_modification > target_lsn) {
        break;
      }
      ++pages_for_lsn;
    }
    buf_flush_list_mutex_exit(buf_pool);

    sum_pages_for_lsn += pages_for_lsn;

    mutex_enter(&page_cleaner->mutex);
    ut_ad(page_cleaner->slots[i].state == PAGE_CLEANER_STATE_NONE);

    /* 更新page_cleaner的n_pages_requested, 除以 buf_flush_lsn_scan_factor 的原因是之前计算
     * target_lsn的时候乘以了 buf_flush_lsn_scan_factor 因子. */
    page_cleaner->slots[i].n_pages_requested =
        pages_for_lsn / buf_flush_lsn_scan_factor + 1;
    mutex_exit(&page_cleaner->mutex);
  }

  /* sum_pages_for 是根据 lsn_avg_rate 估算的全局刷脏 Page 总的数量. 这里除以 buf_flush_lsn_scan_factor 因子即恢复.*/
  sum_pages_for_lsn /= buf_flush_lsn_scan_factor;
  if (sum_pages_for_lsn < 1) {
    sum_pages_for_lsn = 1;
  }

  /* Cap the maximum IO capacity that we are going to use by
  max_io_capacity. Limit the value to avoid too quick increase */
  ulint pages_for_lsn =
      std::min(sum_pages_for_lsn, srv_max_io_capacity * 2);

  /* 根据 srv_io_capacity、历次 flush 脏页的平均数量和 redo log 产生速度需要 flush 的 Page 数量三者的平均值.
   * pct_total 代表根据脏页比 和 redo log 产生的速率来决定使用多大的 IO 吞吐. */

  n_pages = (PCT_IO(pct_total) + avg_page_rate + pages_for_lsn) / 3;

  if (n_pages > srv_max_io_capacity) {
    /* n_pages不能超过设置的srv_max_io_capacity. */
    n_pages = srv_max_io_capacity;
  }

  mutex_enter(&page_cleaner->mutex);

  /* ... */

  for (ulint i = 0; i < srv_buf_pool_instances; i++) {
    /* 为每一个page_cleanr设置刷脏的目标数量:
     * 1. 假如 pct_for_lsn 超过了 30，这里可以理解为 Buffer Pool 的 instance 存在 flush_list 中还有较旧的脏页,
          因此根据之前计算的 n_pages_requested, 从而使存在较旧脏页的 instance 刷更多的脏页, 所以这里的脏页数量分配并不是均匀的.
     * 2. 否则采用平均分配的方法直接分配给各个page_cleaner. */
    page_cleaner->slots[i].n_pages_requested =
        pct_for_lsn > 30 ? page_cleaner->slots[i].n_pages_requested * n_pages /
                                   sum_pages_for_lsn +
                               1
                         : n_pages / srv_buf_pool_instances;
  }
  mutex_exit(&page_cleaner->mutex);


  /* ... */
  *lsn_limit = LSN_MAX;

  /* 返回根据自适应刷脏生成的刷脏数量建议. */
  return (n_pages);
}

总结

InnoDB 的自适应刷脏比较容易理解，重要的是提供了一种对于系统开发过程中对于容易造成性能瓶颈的关键路径优化思路，例如基于 LSM 设计的 RocksDB 中的 compaction 过程经常造成IO瓶颈从而饱受诟病，参考 InnoDB 的自适应刷脏算法针对不同的IO压力选择合适的 compaction 时机是否能使系统更平滑?

理解 InnoDB 的 simulated AIO

2020-03-24T18:30:07.000Z

准备

MySQL内核版本: 8.0.19

simulated-AIO

simulated-AIO 是一套由 InnoDB 早先实现的异步 I/O 模型. 在 MySQL 的存储引擎 InnoDB 中分别实现了同步IO以及异步IO, Redo Log 的写入方式采用同步IO, 而数据页的写入由于 Redo Log 的保护则采用异步 IO 的写入方式. 在 Linux AIO 引入之前, InnoDB 实现了一套异步 IO 框架, 即 simulated-AIO. simulated-AIO 的原理类似于 libaio, 原理实现都较为简单.

在Linux平台, 假如安装了 libaio, MySQL 是默认使用 libaio, 只有在设置了innodb_use_native_aio = 0的情况下才会使用 simulated-AIO.

InnoDB的异步IO主要是用来处理预读和数据Page的写请求，对于正常Page的数据读取则是通过同步 IO 进行.

simulated-AIO 原理

数据结构

simulated-AIO 预分配 n 个大小 slot 数组, 每个用户的读写请求通过申请数组中的 slot, 构造对应的 IO 类型、写入 offset 等等. 而 simulated-AIO 的工作线程则根据slot的内容来完成对应的 IO 请求.

/** The asynchronous I/O context */
/** 异步 IO 请求单元 */
struct Slot {
  /** 在 array 中的下标 */
  uint16_t pos{0};

  /** 是否已被申请分配 */
  bool is_reserved{false};

  /** 已被分配的时间长度 */
  ib_time_monotonic_t reservation_time{0};

  /** buffer used in i/o */
  byte *buf{nullptr};

  /** Buffer pointer used for actual IO. We advance this
  when partial IO is required and not buf */
  byte *ptr{nullptr};

  /** IO 类型 OS_FILE_READ or OS_FILE_WRITE */
  IORequest type{IORequest::UNSET};

  /** 在文件中的偏移量 */
  os_offset_t offset{0};

  /** 文件描述符 */
  pfs_os_file_t file{
#ifdef UNIV_PFS_IO
      nullptr,  // m_psi
#endif
      0  // m_file
  };

  /** 文件名 */
  const char *name{nullptr};

  /** IO 是否已经完成 */
  bool io_already_done{false};

  /** fil_node_t 节点 参考 Fil_system */
  fil_node_t *m1{nullptr};

  /** the requester of an aio operation and which can be used
  to identify which pending aio operation was completed */
  void *m2{nullptr};

  /** AIO 状态 */
  dberr_t err{DB_ERROR_UNSET};

  /** ... */

  /** 读写的 block 长度 */
  ulint len{0};

  /** 读写字节数 */
  ulint n_bytes{0};

  /** 读写的 block 压缩前的长度 */
  uint32 original_len{0};

  /** block */
  Block *buf_block{nullptr};

  /** ... */
};

simulated-AIO 原理非常简单，可以理解为一个生产者-消费者模型, 示意图如下:

生产者(用户读写流程)

buf_page_get_gen()(预读):

 /* 获取数据页 */
 --------------------
| buf_page_get_gen() |
 --------------------
  |
  |    /* ... */
  |    ---------------------------------
  --> | Buf_fetch_normal::single_page() |
       ---------------------------------
         |
         |    /* 调用线性预读 */
         |    -------------------------
         --> | buf_read_ahead_linear() |
              -------------------------
               |
               |   /* 读Page */
               |   ---------------------
               -> | buf_read_page_low() |
                   ---------------------
                    |
                    |    /* 文件读写操作 */
                    |    ----------
                    --> | fil_io() |
                         ----------
                          |
                          |    ----------------
                          --> | shard->do_io() |
                               ----------------
                                |
                                |   /* 异步 IO 接口 */
                                |    ----------
                                --> | os_aio() |
                                     ----------

buf_flush_page()(写):

 /* 刷 Page 至文件 */
 ------------------
| buf_flush_page() |
 ------------------
  |
  |    /* 刷 Page */
  |    -----------------------------
  --> | buf_flush_write_block_low() |
       -----------------------------
        |
        |    ----------
        --> | fil_io() |
             ----------
              |
              |    ----------------
              --> | shard->do_io() |
                   ----------------
                    |
                    |    /* 异步IO接口 */
                    |    ----------
                    --> | os_aio() |
                         ----------

无论是读操作还是写操作，都要交由os_aio()处理, os_aio是一个通用的接口, 在Linux平台封装了 libaio 和 simulated AIO. 具体的处理逻辑如下:

 ----------
| os_aio() |
 ----------
  |
  |
  |    /* 申请 slot */
  |    ---------------------
  --> | AIO::reserve_slot() |
  |     --------------------
  |
  |    /* 唤醒 simulated-AIO 后台处理线程 */
  |    --------------------------------------
  --> | AIO::wake_simulated_handler_thread() |
       --------------------------------------

根据IO类型选择对应的 I/O slot 数组(select_slot_array()).
向 I/O slot 数组申请 slot (reserve_slot()).
唤醒对应的异步IO线程处理IO请求(AIO::wake_simulated_handler_thread()).

消费者(异步I/O处理流程)

在MySQL启动时，会分别创建1个ibuf处理线程, 1个log处理线程, n个(srv_n_read_io_threads)读处理线程, n个(srv_n_write_io_threads)写处理线程.


 /* DB启动 */
 -------------
| srv_start() |
 -------------
     |
     |    /* 根据 srv_n_file_io_threads 参数创建 IO 处理线程 */
     |    ---------------------
     --> | io_handler_thread() |
          ---------------------
            |
            |   /* 监控异步 IO 请求 */
            |   ----------------
            -> | fil_aio_wait() |
                ----------------
                  |
                  |    /* 根据设定的 AIO mode 选择不同的AIO处理函数 */
                  |    ------------------
                  --> | os_aio_handler() |
                       ------------------
                         |
                         |    /* simulated-AIO 负责处理异步IO的函数 */
                         |    ----------------------------
                         --> | os_aio_simulated_handler() |
                         |     ----------------------------
                         |
                         |    /* 异步 IO 完成后的清理工作 */
                         |    ------------------------
                         --> | buf_page_io_complete() |
                              ------------------------

io_handler_thread()会持续监控 IO 请求，直到 MySQL shutdown:

/* storage/innobase/srv/srv0start.cc */

static void io_handler_thread(ulint segment) {
    while (srv_shutdown_state.load() != SRV_SHUTDOWN_EXIT_THREADS ||
                    buf_flush_page_cleaner_is_active() || !os_aio_all_slots_free()) {
          fil_aio_wait(segment);
    }
}

fil_aio_wait()会调用os_aio_handler()根据不同的IO模型选择不同的函数处理IO请求, simulated AIO 的处理函数是os_aio_simulated_handler():

根据 global segment id 选择对应I/O工作线程的event, 计算在该array的segment id.
检查是否有已经完成但状态尚未更新的IO请求:
- 假如存在已经完成但状态尚未更新的IO请求, 则调用AIO::release()更新slot状态.
需要判断是否MySQL准备shutdown, 假如需要shutdown则立即返回.
否则从AIO::m_slots选择等待的IO请求:
- 选择策略是先选择一个等待时间超过2s的IO请求, 防止等待时间过长.
- 否则选择写入偏移量最小的一个slot.
假如目前没有待处理的IO请求，则进入wait状态.
处理选中的IO请求前，会调用merge()进行IO合并, 选择文件偏移量offset连续的IO请求进行合并.
调用 simulated-AIO 封装的同步IO接口(pwrite()/pread())完成IO操作.

源码分析

核心处理函数os_aio_simulated_handler():

/* storage/innobase/os/os0file.cc */

/* 参数解释: 
  global_segment:
  m1:
  m2:
  type: 
*/
static dberr_t os_aio_simulated_handler(ulint global_segment, fil_node_t **m1,
                                        void **m2, IORequest *type) {
  Slot *slot;
  AIO *array;
  ulint segment;
  os_event_t event = os_aio_segment_wait_events[global_segment];

  /* 计算对应的子segment */
  segment = AIO::get_array_and_local_segment(&array, global_segment);

  /* 构造 simulated-AIO 的 handler */
  SimulatedAIOHandler handler(array, segment);

  for (;;) {
    srv_set_io_thread_op_info(global_segment, "looking for i/o requests (a)");

    /* 检查目前的 slots 数量 */
    ulint n_slots = handler.check_pending(global_segment, event);

    if (n_slots == 0) {
      continue;
    }

    /* 初始化 handler */
    handler.init(n_slots);

    srv_set_io_thread_op_info(global_segment, "looking for i/o requests (b)");

    array->acquire();

    ulint n_reserved;

    /* 检查是否有已经完成但状态尚未更新的IO请求 */
    slot = handler.check_completed(&n_reserved);

    if (slot != NULL) {
      /* 存在已完成但状态未更新的slot */
      break;

    } else if (n_reserved == 0
#ifndef UNIV_HOTBACKUP
               && !buf_flush_page_cleaner_is_active() &&
               srv_shutdown_state.load() == SRV_SHUTDOWN_EXIT_THREADS
#endif /* !UNIV_HOTBACKUP */
    ) {

      /* 目前没有待处理的 IO 请求，并且 MySQL 准备 shutdown, 则返回 */
      array->release();

      *m1 = NULL;

      *m2 = NULL;

      return (DB_SUCCESS);

    } else if (handler.select()) {
      /* 否则根据 slot 选择策略，选择对应的 slot */
      break;
    }

    /* 假如目前没有待处理的IO请求，则进入wait状态 */

    srv_set_io_thread_op_info(global_segment, "resetting wait event");

    /* We wait here until tbere are more IO requests
    for this segment. */

    os_event_reset(event);

    array->release();

    srv_set_io_thread_op_info(global_segment, "waiting for i/o request");

    os_event_wait(event);
  }

  /** Found a slot that has already completed its IO */

  if (slot == NULL) {
    /* slot == NULL 代表所有已完成的 slot 状态都已经更新，并且我们通过
     * select() 选择了合适的 slot 需要完成 I/O 处理 */

    /* 合并 I/O 操作 */
    handler.merge();

    srv_set_io_thread_op_info(global_segment, "consecutive i/o requests");

    array->release();

    srv_set_io_thread_op_info(global_segment, "doing file i/o");

    /* IO 操作(pwrite()/pread()) */
    handler.io();

    srv_set_io_thread_op_info(global_segment, "file i/o done");

    /* simulated-AIO 中 io_complete() 为空实现 */
    handler.io_complete();

    array->acquire();

    /* 设置 slot->io_already_done = true 即表示已完成，但其他状态尚未更新, 交由下次
     * 循环更新其他状态 */
    handler.done();

    /* 返回 handler 的第一个 slot */
    slot = handler.first_slot();
  }

  /* 更新 slot 的状态 */
  ut_ad(slot->is_reserved);

  *m1 = slot->m1;
  *m2 = slot->m2;

  *type = slot->type;

  array->release(slot);

  array->release();

  return (DB_SUCCESS);
}

Q & A

关于 simulated AIO 多个线程同时写入一个文件的问题?

simulated AIO 不能保证多线程同时写一个文件, 但 simulated AIO 底层调用的文件接口是 pwrite(), 通过指定参数 offset, 以及每次写的时候加上 Page 锁, 就能保证不写在同一个 offset.

总结

综上所述，通过源码分析我们详细的了解 MySQL 实现的模拟异步 I/O 的框架, 原理非常简单，由用户线程获取 slot 并记录相关的 I/O 信息，而 simulated-AIO 的后台工作线程则通过一定的策略来逐一处理 I/O 请求, 并且通过合并 I/O 的策略来对 I/O 读写做了一些优化.

MySQL 死锁检测源码分析

2020-02-02T18:51:05.000Z

准备

MySQL 内核版本: 8.0.17

在MySQL中，当两个或两个以上的事务相互持有或者请求锁，并形成一个循环的依赖关系，就会产生死锁. 多个事务同时锁定同一个资源时，也会产生死锁. 在一个事务系统中，死锁是确切存在并且是不能完全避免的. InnoDB 会在每一个事务申请锁时触发死锁检测，并选择一个事务回滚.

在 MySQL 中，事务在申请 record lock 后假如无法立即获取锁会进行死锁检测. 在事务的回滚中，会释放该事务持有的所有 lock.

用户可以配置--innodb-deadlock-detect[={OFF|ON}]选择是否打开死锁检测.

死锁检测

我们从源码层面分析 MySQL 的死锁检测机制，直接通过源码分析可以更直观的介绍死锁检测机制. MySQL 的死锁检测算法是深度优先搜索，如果在搜索过程中发现了环，就说明发生了死锁. 为了避免死锁检测开销过大，如果搜索深度超过了 200（LOCK_MAX_DEPTH_IN_DEADLOCK_CHECK)也同样认为发生了死锁。

基本的代码流程如下, add_to_waitq()是申请 Record Lock 的入口函数:


/* storage/innobase/lock/lock0lock.cc */

 -------------------------
| RecLock::add_to_waitq() |
 -------------------------
  |
  |    /* 创建 lock. */
  |    -------------------
  --> | RecLock::create() |
  |    -------------------
  |      |
  |      |    /* 分配 lock, 初始化 lock_t. */
  |      |    -----------------------
  |      --> | RecLock::lock_alloc() |
  |      |    -----------------------
  |      |
  |      |    /* 插入 lock_sys->rec_hash. */
  |      |    ---------------------
  |      --> | RecLock::lock_add() |
  |           ---------------------
  |
  |    /* 假如事务的优先级较高，尝试跳过低优先级的事务直接获取 lock. */
  |    -----------------------
  --> | RecLock::jump_queue() |
  |    -----------------------
  |
  |   /* 否则需要进行死锁检测. */
  |    ---------------------------
  --> | RecLock::deadlock_check() |
       ---------------------------
         |
         |    /* 死锁检测，假如存在死锁返回一个需要被回滚的事务. */
         |    --------------------------------------
         --> | DeadlockChecker::check_and_resolve() |
         |    --------------------------------------
         |   
         |    /* 检查死锁检测的结果. */
         |    ----------------------------------
         --> | RecLock::check_deadlock_result() |
              ----------------------------------

死锁检测的主流程代码在DeadlockChecker::check_and_resolve():

/* storage/innobase/lock/lock0lock.cc */

/* lock: 当前事务申请的 lock
 * trx:  当前事务
 */ 
const trx_t *DeadlockChecker::check_and_resolve(const lock_t *lock,
                                                trx_t *trx) {
  /* 确保同时持有 lock_sys->mutex 和 trx->mutex. */
  ut_ad(lock_mutex_own());
  ut_ad(trx_mutex_own(trx));
  check_trx_state(trx);
  ut_ad(!srv_read_only_mode);

  if (trx->in_innodb & TRX_FORCE_ROLLBACK_ASYNC) {
    /* 假如 trx 设置了 TRX_FORCE_ROLLBACK_ASYNC, 即不允许该事务等待锁从而
     * 造成可能的死锁，我们应该选择该事务进行回滚操作. */
    return (trx);
  } else if (!innobase_deadlock_detect) {
    /* 假如用户关闭了死锁检测，直接返回 NULL. */
    return (NULL);
  }

  const bool was_trx_mutex_ownership_tracked = trx->owns_mutex;
  trx->owns_mutex = false;
  /* 释放 trx->mutex: trx 的事务状态只能被当前 thread 修改, 所以是安全的. */
  trx_mutex_exit(trx);

  const trx_t *victim_trx;

  do {
    /* 构建死锁检测 DeadlockChecker. */
    DeadlockChecker checker(trx, lock, s_lock_mark_counter);

    /* 进行死锁检测，并返回选中要回滚的事务. */
    victim_trx = checker.search();

    if (checker.is_too_deep()) {
      /* 假如死锁检测过深, 打印死锁信息. */
      ut_ad(trx == checker.m_start);
      ut_ad(trx == victim_trx);

      rollback_print(victim_trx, lock);

      MONITOR_INC(MONITOR_DEADLOCK);

      break;

    } else if (victim_trx != NULL && victim_trx != trx) {
      ut_ad(victim_trx == checker.m_wait_lock->trx);

      /* 进行回滚. 释放持有的锁并唤醒 thread. */
      checker.trx_rollback();

      lock_deadlock_found = true;

      MONITOR_INC(MONITOR_DEADLOCK);
    }

  } while (victim_trx != NULL && victim_trx != trx);

  /* ... */

  /* 重新持有 trx->mutex 锁. */
  trx_mutex_enter(trx);
  trx->owns_mutex = was_trx_mutex_ownership_tracked;

  return (victim_trx);
}

关于MySQL死锁检测如何判断是否存在死锁核心代码在函数DeadlockChecker::search():

/* storage/innobase/lock/lock0lock.cc */

const trx_t *DeadlockChecker::search() {
  /* 确保持有 lock_sys->mutex. */
  ut_ad(lock_mutex_own());
  /* 确保没有持有 trx->mutex. */
  ut_ad(!trx_mutex_own(m_start));

  /* m_start: 发起死锁检测的事务, 死锁检测全程不会改变, 以该 trx 为基准判断是否存在环.
   * m_wait_lock: 发起死锁检测的事务等待的 lock, m_wait_lock 会随着 DFS 深度搜索过程改变.
   */
  ut_ad(m_start != NULL);
  ut_ad(m_wait_lock != NULL);
  check_trx_state(m_wait_lock->trx);
  ut_ad(m_mark_start <= s_lock_mark_counter);

  ulint heap_no;
  /* 获取 m_wait_lock 指向的 heap_no 上的第一个 lock. */
  const lock_t *lock = get_first_lock(&heap_no);

  for (;;) {
    /* We should never visit the same sub-tree more than once. */
    ut_ad(lock == NULL || !is_visited(lock));

    while (m_n_elems > 1 && lock == NULL) {
      /* 假如栈的元素数量大于1且 lock 为 NULL, 则代表某一条路径已经被搜索至尽头, 则进行
       * 回溯从而重新搜索未被访问的节点, 即存在一行数据上有多个锁.  */

      pop(lock, heap_no);

      /* 获取同一行数据上的下一个锁. */
      lock = get_next_lock(lock, heap_no);
    }

    if (lock == NULL) {
      /* 假如 lock 为 NULL, DFS 搜索结束, 结束循环. */
      break;
    } else if (lock == m_wait_lock) {
      /* 假如 lock == m_wait_lock, 需要标记该子树已经被访问过. */

      /* 这种情况只存在 DFS 回溯的阶段:
       * lock_t 维护的 hash table 插入的顺序排列, 在 DFS 回溯阶段, 
       * 假如存在一个 record 上有多个 lock_t 在等待,
       * 死锁检测算法会调用 get_next_lock(), 假如拿到了 lock == m_wait_lock,
       * 即代表后面的 lock 应该都是 wait 的顺序的, 所以没有必要再去看那些等待的 trx.
      ut_ad(lock->trx->lock.deadlock_mark <= m_mark_start);

      /* 设置已经被访问的标记. */
      lock->trx->lock.deadlock_mark = ++s_lock_mark_counter;

      ut_ad(s_lock_mark_counter > 0);

      /* 设置 lock 为 NULL. */
      lock = NULL;

    } else if (!lock_has_to_wait(m_wait_lock, lock)) {
      /* 假如 m_wait_lock 和 lock 之间不存在等待关系，则需要
       * 获取 heap_no 对应链表上的下一个lock. */
      /* No conflict, next lock */
      lock = get_next_lock(lock, heap_no);

    } else if (lock->trx == m_start) {
      /* 假如 lock 所指向的事务是当前发起死锁检测的事务, 即存在环. */

      /* 打印关于死锁信息的Log. */
      notify(lock);

      /* ... */

      return (select_victim());

    } else if (is_too_deep()) {
      /* 假如 DFS 搜索的栈元素超过了200或者访问的节点数目超过了 1000000,
       * 则返回 m_start 作为回滚的事务. */
      m_too_deep = true;
      return (m_start);

    } else if (lock->trx_que_state() == TRX_QUE_LOCK_WAIT) {
      /* Another trx ahead has requested a lock in an
      incompatible mode, and is itself waiting for a lock. */

      /* 假如 lock 所属的 trx 处于 TRX_QUE_LOCK_WAIT，即处于锁等待的状态.
       * 需要将 入栈，DeadlockChecker 利用数组实现栈. */
      ++m_cost;

      if (!push(lock, heap_no)) {
        /* 假如入栈失败，即栈的元素数量超过了4096, 标记 m_too_deep, 并返回
         * m_start 事务回滚. */
        m_too_deep = true;
        return (m_start);
      }

      /* 使用 lock 替换 m_wait_lock, 用作下一次搜索. */
      m_wait_lock = lock->trx->lock.wait_lock;

      /* 获取当前 m_wait_lock 所属的 heap_no 的第一个 lock. */
      lock = get_first_lock(&heap_no);

      /* 假如该 lock 已经被访问过，则获取下一个 lock. */
      if (is_visited(lock)) {
        lock = get_next_lock(lock, heap_no);
      }

    } else {
      /* 否则获取下一个 lock. */
      lock = get_next_lock(lock, heap_no);
    }
  }

  ut_a(lock == NULL && m_n_elems == 0);

  /* 没有发现死锁. */
  return (0);
}

select_victim()返回一个选中需要被回滚的事务，MySQL 并不会迭代所有的 trx 来选择一个代价较小的事务，仅仅在m_start和m_wait_lock->trx这两个事务中选一个优先级较低的事务回滚.

理解 MySQL 意向锁

2019-12-18T06:59:20.000Z

准备

MySQL内核版本: 8.0.17

理解 lock 和 latch

latch

数据库中的 latch 和我们通常代码编程中保证并发多线程操作操作临界资源的锁意义一样，通过 latch 的中文翻译“闩”就可以理解，这是为了维护一段临界区域.

lock

而 lock 则是数据库 MySQL 中在事务使用的”锁”, 锁定的对象是表或者行. 关于 MySQL 的死锁可以查看另外一篇文章MySQL死锁检测.

锁的类型

行锁
意向锁
GAP 锁

意向锁

表级别锁的兼容互斥矩阵:

	X	IX	S	IS
X	Conflict	Conflict	Conflict	Conflict
IX	Conflict	Compatible	Conflict	Compatible
S	Conflict	Conflict	Compatible	Compatible
IS	Conflict	Compatible	Compatible	Compatible

需要注意上图矩阵的X, IX, S, IS锁均为表锁，并不代表行锁.

锁的含义:

X: 排他锁
IX: 意向排他锁
S: 共享锁
IS: 意向共享锁

在一个事务trx_t中用结果trx_lock_t来存放事务申请的锁信息, 包括行锁和表锁, 即trx->lock.trx_locks和trx->lock.table_locks.

MySQL为了支持多粒度的锁, 引入了意向锁，意向锁是一种可以与行锁共存的锁, 例如SELECT ... FOR SHARE设置了IS意向共享锁, 而SELECT ... FOR UPDATE设置了IX意向排他锁. 意向锁的上锁原则如下:

当一个事务对一个表的某一行记录申请 record 共享锁(行锁), 需要先申请IS意向共享锁(表锁).
当一个事务对一个表的某一行记录申请 record 排他锁(行锁), 需要先申请IX意向排他锁(表锁).

X，IS是表级锁，不会和行级的X，S锁发生冲突, 只会和表级的X，S发生冲突. 行级别的X和S只与其它行锁存在普通的共享、排他规则. 而意向锁的意义是当需要向一张表添加表级X锁时，假如没有意向锁，需要遍历lock_sys->rec_hash判断是否与该X锁存在冲突的锁.

源码分析

我们以源码分析的方式来直观的理解意向锁的加锁过程，我们以 update 一条 record 获取 IX 锁为例:

在 IX 锁申请之前，会对当前表(dict_table_t)记录的锁信息的兼容情况进行判断(lock_table_other_has_incompatible()), 符合兼容矩阵的从而在row_upd_step()函数中调用lock_table()申请 IX 锁, 表级锁的申请过程如下:

/* storage/innobase/lock/lock0lock.cc */

UNIV_INLINE
lock_t*
lock_table_create(
/*==============*/
dict_table_t*table,/*!< in/out: database table
in dictionary cache */
ulinttype_mode,/*!< in: lock mode possibly ORed with
LOCK_WAIT */
trx_t*trx)/*!< in: trx */
{
lock_t*lock;

ut_ad(table && trx);
ut_ad(lock_mutex_own());
ut_ad(trx_mutex_own(trx));

        /* 检查事务状态. */
check_trx_state(trx);

if ((type_mode & LOCK_MODE_MASK) == LOCK_AUTO_INC) {
++table->n_waiting_or_granted_auto_inc_locks;
}

if (type_mode == LOCK_AUTO_INC) {
                /* 对于AUTOINC 锁可以直接复用. */
lock = table->autoinc_lock;

table->autoinc_trx = trx;

ib_vector_push(trx->autoinc_locks, &lock);

} else if (trx->lock.table_cached < trx->lock.table_pool.size()) {
                /* 假如trx的table_pool有预先申请的table lock. */
lock = trx->lock.table_pool[trx->lock.table_cached++];
} else {
                /* 否则通过内存分配一个table lock. */
lock = static_cast<lock_t*>(
mem_heap_alloc(trx->lock.lock_heap, sizeof(*lock)));

}

        /* 设置lock相关的数据变量. */
lock->type_mode = ib_uint32_t(type_mode | LOCK_TABLE);
lock->trx = trx;

lock->un_member.tab_lock.table = table;

ut_ad(table->n_ref_count > 0 || !table->can_be_evicted);

        /* 插入trx->lock的trx_locks. */
UT_LIST_ADD_LAST(trx->lock.trx_locks, lock);

ut_list_append(table->locks, lock, TableLockGetNode());

if (type_mode & LOCK_WAIT) {
                /* 假如设置了LOCK_WAIT状态，需要设置lock.wait_lock. */
lock_set_lock_and_trx_wait(lock, trx);
}

        /* 插入trx->lock的table_locks. */
lock->trx->lock.table_locks.push_back(lock);

MONITOR_INC(MONITOR_TABLELOCK_CREATED);
MONITOR_INC(MONITOR_NUM_TABLELOCK);

return(lock);
}

row_upd_step()完成申请IX意向排他锁后继续调用row_upd_clust_step(), 而row_upd_clust_step()调用lock_clust_rec_modify_check_and_lock()对修改的 record 申请 X 锁:

 ----------------
| row_upd_step() |   /* 申请 IX 锁. */
 ----------------
   |
   |   ----------------
   -> |      ...       |
       ----------------
         |
         |   ----------------------
         -> | row_upd_clust_step() |
             ----------------------
               |
               |   ----------------------------------------
               -> | lock_clust_rec_modify_check_and_lock() |    /* 申请 record 的 X 锁. */
               |   ----------------------------------------
               |
               |   ---------------
               -> |     ...       |
                   ---------------

例如此时某一个用户正在使用lock table语句锁表，依然会进入lock_table_other_has_incompatible()判断表级锁的兼容情况，假如产生冲突，该用户线程则会进入 wait 状态.

总结

MySQL支持的意向锁之间互不排斥，除了 IS 与 S 锁兼容外，意向锁会与共享锁/ 排他锁互斥.
IX，IS是表级锁，不会和行级的X，S锁发生冲突.

Linux 进程调度-基于 ARM64

2019-11-27T02:27:09.000Z

进程

在 Linux 内核中，进程一般称为任务(task), 进程的虚拟地址空间在内存管理模块中被分为用户虚拟地址空间和内核虚拟地址空间，所有的进程共享内核虚拟地址空间, 每一个进程有独立的用户虚拟地址空间. 在内核中，进程有两种特殊形式，没有使用用户虚拟地址空间的进程称为内核线程，共享用户虚拟地址空间的进程称为用户线程.

我们通常开发过程中提及的进程与线程在 Linux 内核中并没有明确的区别，它们都拥有数据结构task_struct作为描述符，我们通常所讲的进程与线程的主要区别即是否共享用户虚拟空间.

本文着重介绍了 CFS 公平调度算法，它的公平性主要体现在按照优先级将一个完整的调度周期分配给不同的进程, 尽管每个进程因为优先级分得的时间片不同，但保证在一个调度周期内所有的进程都会被运行一次.

进程描述符task_struct

(task_struct数据成员较多，仅列出重要的数据成员)

struct task_struct {
/* ... */
/* -1 unrunnable, 0 runnable, >0 stopped: */
volatile longstate;/* 进程状态位 */

/* ... */

void*stack;/* 指向内核栈 */

/* ... */

/* 优先级 */
intprio;
intstatic_prio;/* 普通进程的静态优先级 */
intnormal_prio;
unsigned intrt_priority;

  struct sched_entity   se;  /* 记录进程的调度信息, 用来插入 rb-tree 供调度使用 */

/* ... */

/* 调度策略 */
unsigned intpolicy;

cpumask_tcpus_mask;/* 允许进程在哪些CPU执行, cpuset相关 */

struct sched_infosched_info;/* 调度信息 */

struct mm_struct*mm;/* 内存描述符 */

struct vmacachevmacache;/* 虚拟内存管理 */

/* 进程退出相关 */
intexit_state;
intexit_code;
intexit_signal;
/* The signal sent when the parent dies: */
intpdeath_signal;

/* ... */

pid_tpid;   /* 进程号 */
pid_ttgid;  /* 线程组标识符 */

/* Real parent process: */
struct task_struct __rcu*real_parent;/* 指向真实父进程 */

/* ... */
charcomm[TASK_COMM_LEN];/* 进程名 */

/* Filesystem information: */
struct fs_struct*fs;/* 文件系统描述符 */

/* Open file information: */
struct files_struct*files;/* 打开的文件信息 */

/* 信号处理相关 */
struct signal_struct*signal;
struct sighand_struct*sighand;
sigset_tblocked;
sigset_treal_blocked;

/* ... */
struct thread_structthread;  /* CPU的部分状态(寄存器)保存在thread中 */

/* ... */
};

进程优先级

限期进程的优先级比实时进程高，实时进程比普通用户进程优先级高
限期进程的优先级是-1
实时进程的优先级是1~99, 优先级数值越大，优先级越高
普通进程的优先级是100~139, 优先级数值越小，优先级越高

调度策略

Linux 内核支持以下调度策略:

停机进程使用停机调度策略:

停机进程是优先级最高的进程，停机就是我们通常理解的使处理器停下来，做更紧急的任务.

限期进程使用限期调度策略:

限期进程使用最早期限优先算法，使用红黑书把进程按照绝对截止期限从小到大排序，每次调度时选择绝对截止期限最小的进程.

实时进程支持两种调度策略: 先进先出调度和轮流调度
普通进程支持两种调度策略, 标准轮流分时和空闲调度
处理器上的空闲进程使用空闲调度策略:

每个处理器上有一个空闲进程，即0号进程. 空闲进程的优先级最低，只有当没有其他进程可以调度的时候，才会调度空闲进程.

完全公平调度算法CFS

我们这里介绍相对重要的普通用户进程的调度策略: 完全公平调度策略 CFS(Completely Fair Scheduler):

普通进程使用完全公平调度(CFS)算法. 为了保证在一个周期内所有的进程都能被调度, 完全公平调度算法引入了虚拟运行时间vruntime的概念:

1	虚拟运行时间 = 实际运行时间 * nice0 对应的权重 / 进程的权重( nice 值对应的权重)

实际运行时间

实际运行时间就是字面意思，进程在 CPU 上运行的实际时间. 每一个进程(task_struct)的调度信息结构体sched_entity都记录了进程调度开始时间点(exec_start), 实际运行时间(sum_exec_runtime), 虚拟运行时间(vruntime), 上一次时间运行时间(prev_sum_exec_runtime).

调度进程的时候，选中 next 进程, 并开始记录 next 进程的开始运行时间点，运行结束后计算时间差即为进程的实际运行时间.

nice0 对应的权重

在kernel/sched/core.c中定义了 nice 值与权重的对应关系，nice0 的值为1024.

进程的权重

普通进程的 nice 值的取值范围是-20~19, 以下是 nice 值与权重的对应关系如下:

const int sched_prio_to_weight[40] = {
 /* -20 */     88761,     71755,     56483,     46273,     36291,
 /* -15 */     29154,     23254,     18705,     14949,     11916,
 /* -10 */      9548,      7620,      6100,      4904,      3906,
 /*  -5 */      3121,      2501,      1991,      1586,      1277,
 /*   0 */      1024,       820,       655,       526,       423,
 /*   5 */       335,       272,       215,       172,       137,
 /*  10 */       110,        87,        70,        56,        45,
 /*  15 */        36,        29,        23,        18,        15,
};

nice 值越小，进程的权重也就越大.

完全公平调度算法利用 rb-tree 将进程按虚拟运行时间从小到大的排序，每次调度选择虚拟运行时间最小的进程. nice0 对应的权重为常量，即可以理解在实际运行时间相同的情况下，进程的权重( nice 值对应的权重值)越大，被调度的机会就越大.

调度最小粒度

内核设置了调度最小粒度，默认为 0.75 毫秒，可以通过文件/proc/sys/kernel/sched_min_granularity_ns调整. 调度最小粒度表示进程在 CPU 至少运行的时间长度.

调度周期

在某个时间长度可以保证运行队列的每个进程都至少运行一次, 这个时间长度称为调度周期，如果运行队列的进程数量大于 8, 那么调度周期等于调度最小粒度 * 进程数量，否则调度周期为6ms

进程的时间片

进程的时间片公式如下:

1	进程的时间片(实际运行时间) = (调度周期 * 进程权重 / 运行队列中所有进程的权重总和)

介绍了CFS的基本概念, 我们来举例来分析为什么 CFS 算法是一个公平调度算法:

假如有两个进程A和B, 进程的 nice 值0和1, 即 A 进程的权重为1024, B 进程的权重为820. 以6ms的调度周期来计算, 根据进程的时间片公式，两个进程分别的运行时间片为A进程6 * 1024 / (1024+820) = 3.33ms, B进程6 * 820 / (1024+820) = 2.66ms. 通过进程时间片公式计算我们可以看到不同的优先级的进程运行时间片不同，但为了保证在 CPU 选择进程调度时，尽可能保证每个进程被选择的可能性是相同的，这里就要反推我们上面提到的虚拟运行时间. A 进程的虚拟运行时间为3.33 * 1024(nice 0) / 1024 = 3.33, B 进程的虚拟运行时间为2.6 * 1024(nice 0) / 820 = 3.33. 通过虚拟运行时间的公式我们得出A 进程和B 进程尽管优先级不同，但是在 rb-tree 的位置是接近的, 即被调度的优先级是相同的.

CFS调度算法的公平性体现在哪里?

我们可以先通过公式推导发现:

进程的时间片(实际运行时间) = (调度周期 * 进程权重 / 运行队列中所有进程的权重总和)

虚拟运行时间 = 实际运行时间 * nice0 对应的权重 / 进程的权重( nice 值对应的权重)

                调度周期 * 进程权重 * nice0 权重     调度周期 * nice0 权重
虚拟运行时间=  ---------------------------------  = ----------------------------
                 所有进程的权重总和 * 进程权重        所有进程的权重总和

CFS 调度算法利用虚拟运行时间保证在一个调度周期每个进程被调度的优先级尽可能的一样.

新进程的vruntime的初始值

对于新创建的进程我们如何设置虚拟运行时间, 假如设为0, 则调度器会因为vruntime较小频繁的调度新建的进程直到它的虚拟运行时间追上就绪队列里其他的进程. 这个现象则违背了 CFS 调度算法的公平性. 所以在有一个数据字段min_vruntime, 当新进程创建时，我们将其vruntime初始化为就绪队列里的min_vruntime, 则确保新进程与大部分的进程之间的虚拟运行时间的 GAP 不会过大, 从而避免被频繁调度.

进程调度源码分析

运行队列

每一个处理器都有一个运行队列，定义如下:

/* kernel/sched/sched.h */

struct rq {
/* runqueue lock: */
raw_spinlock_tlock;     /* 运行队列的锁 */

unsigned int    nr_running; /* 运行队列的进程数量 */

/* ... */
struct cfs_rqcfs;  /* 公平运行进程队列 */
struct rt_rqrt;   /* 实时运行进程队列 */
struct dl_rqdl;   /* 限期运行进程队列 */

/* ... */
struct task_struct*curr;  /* 正在运行的进程 */
struct task_struct*idle;  /* 空闲进程 */
struct task_struct*stop;  /* 迁移进程 */

/* ... */
};

调度进程

调度进程的核心函数是__schedule, 函数__schedule()的处理流程如下:

调用pick_next_task()以选择下一个进程
调用context_switch()以切换进程

`pick_next_task()`

static inline struct task_struct *
pick_next_task(struct rq *rq, struct task_struct *prev, struct rq_flags *rf)
{
/* sched_class是Linux抽象的调度类，类别和优先级分别如下:
 * 停机调度类，限期调度类，实时调度类，公平调度类和空闲调度类. */
const struct sched_class *class;
struct task_struct *p;

/* 假如所有进程属于公平调度类,
 * 我们可以直接调用公平调度类的pick_next_task函数. */
if (likely((prev->sched_class == &idle_sched_class ||
    prev->sched_class == &fair_sched_class) &&
   rq->nr_running == rq->cfs.h_nr_running)) {

p = fair_sched_class.pick_next_task(rq, prev, rf);
/* 假如没有可调度的进程，跳转again, 选择其他优先级的调度类. */
if (unlikely(p == RETRY_TASK))
goto again;

/* 假如公平调度类选择的下一个进程属于空闲调度类，直接调用
 * 空闲调度类的pikc_next_task(). */
if (unlikely(!p))
p = idle_sched_class.pick_next_task(rq, prev, rf);

return p;
}

again:
/* 迭代调度类，从优先级最高的调度类开始，调用对应的pick_next_task
 * 选择下一个进程，假如没有可以调度的进程，就选择一个优先级的调度类. */
for_each_class(class) {
p = class->pick_next_task(rq, prev, rf);
if (p) {
if (unlikely(p == RETRY_TASK))
goto again;
return p;
}
}

/* 正常的情况下，不会走到这里，因为空闲调度类总会有可以调度的进程. */
BUG();
}

用户进程属于公平调度类，即调用pick_next_task_fair()选择下一个运行的进程, 公平调度类会从当前cfs_rq即公平调度运行队列中选择虚拟运行时间最小的调度进程，所有的调度进程都由 rb-tree (红黑树)维护.

`context_switch()`

/* linux/kernel/sched/core.c */

static __always_inline struct rq *
context_switch(struct rq *rq, struct task_struct *prev,
       struct task_struct *next, struct rq_flags *rf)
{
struct mm_struct *mm, *oldmm;

/* 执行进程切换的准备工作，ARM64架构为默认定义: 一个空的宏. */
prepare_task_switch(rq, prev, next);

/* mm为下一个选择的进程的内存描述符,
 * old_mm为上一个进程的内存描述符. */
mm = next->mm;
oldmm = prev->active_mm;
/* 开始执行上下文切换，ARM64架构依旧使用默认定义，是一个空的宏. */
arch_start_context_switch(prev); 

if (!mm) {
/* 假如mm为空, 即下一个选择的进程为内核线程,
 * 内核线程没有用户虚拟地址空间， 所以需要借用上一个进程的mm_struct,
 * 调用enter_lazy_tlb()通知处理器架构不需要切换用户虚拟地址空间. */
next->active_mm = oldmm;
mmgrab(oldmm);
enter_lazy_tlb(oldmm, next);
} else
/* 否则需要进行切换进程的地址空间. */
switch_mm_irqs_off(oldmm, mm, next);

/* ... */

/* 切换寄存器和堆栈. */
switch_to(prev, next, prev);
barrier();  /* 内存屏障 */

/* finish_task_switch负责进程切换后执行的清理工作. */
return finish_task_switch(prev);
}

用户虚拟地址空间切换

/* switch_mm_irqs_off() -> switch_mm() -> __switch_mm() */

/* arch/arm64/include/asm/mmu_context.h */

static inline void __switch_mm(struct mm_struct *next)
{
unsigned int cpu = smp_processor_id();

/*
 * init_mm.pgd does not contain any user mappings and it is always
 * active for kernel addresses in TTBR1. Just set the reserved TTBR0.
 */
if (next == &init_mm) {
cpu_set_reserved_ttbr0();
return;
}

check_and_switch_context(next, cpu);
}

static inline void
switch_mm(struct mm_struct *prev, struct mm_struct *next,
  struct task_struct *tsk)
{
if (prev != next)
/* 假如切换的两个进程不共享虚拟地址空间,
 * 调用__switch_mm()进行切换. */
__switch_mm(next);

/* 更新TTBR0寄存器 */
update_saved_ttbr0(tsk, next);
}

寄存器和堆栈切换

/* switch_to() -> __switch_to() */

/* arch/arm64/kernel/process.c */

__notrace_funcgraph struct task_struct *__switch_to(struct task_struct *prev,
struct task_struct *next)
{
struct task_struct *last;

fpsimd_thread_switch(next);         /* 切换浮点寄存器 */
tls_thread_switch(next);            /* 切换线程本地存储相关的寄存器 */
hw_breakpoint_thread_switch(next);  /* 切换调试寄存器 */
contextidr_thread_switch(next);     /* 切换上下文标识符寄存器 */
entry_task_switch(next);            /* 将下一个进程的task_struct存入CPU的__entry_task */
uao_thread_switch(next);            /* 用户访问覆盖相关切换 */
ptrauth_thread_switch(next);        /* 指针验证相关切换 */
ssbs_thread_switch(next);           /* 推测性执行侧通道相关切换 */

/* 数据同步屏障 */
dsb(ish);

/* 切换通用寄存器 */
last = cpu_switch_to(prev, next);

return last;
}

进程切换与线程切换

通过上面的系统的分析，我们可以发现在Linux内核中并没有区分进程和线程，对于线程和进程，我们可以这么理解:

当进程只有一个线程时，可以认为进程就等于线程.
当进程拥有多个线程时，这些线程会共享相同的虚拟地址空间, 虚拟地址空间在上下文切换时是不需要切换的。另外，线程也有自己的私有数据，比如栈和寄存器等，这些在上下文切换时也是需要切换保存的.

查看进程上下文切换

我们通常所说的上下文切换分为CPU上下文切换和进程上下文切换, 例如C/C++中的系统调用即会执行CPU上下文切换，而系统性能分析工具vmstat所显示的也是 CPU 上下文切换和中断的次数. 关于进程上下文切换我们可以利用工具pidstat:

每隔5秒输出1组数据

这个结果中有两列内容是我们的重点关注对象。一个是 cswch ，表示每秒自愿上下文切换（voluntary context switches）的次数，另一个则是 nvcswch ，表示每秒非自愿上下文切换（non voluntary context switches）的次数. 所谓自愿上下文切换，是指进程无法获取所需资源，导致的上下文切换。比如说， I/O、内存等系统资源不足时，就会发生自愿上下文切换。而非自愿上下文切换，则是指进程由于时间片已到等原因，被系统强制调度，进而发生的上下文切换。比如说，大量进程都在争抢 CPU 时，就容易发生非自愿上下文.

调度时机

调度进程的时机如下:

进程主动调用schedule()函数.
周期性调度，抢占当前进程，强迫当前进程让出处理器.
唤醒进程的时候，被唤醒的进程可能会抢占当前进程.
创建新进程的时候, 新进程可能抢占当前进程.

主动调度

进程在用户模式下运行的时候，无法直接调用schedule()函数, 只能通过系统调用进入内核模式，假如系统调用需要等待某个资源，例如互斥锁(mutex)或者信号量，会将进程的状态设为睡眠状态，然后调用schedule()来调度进程.

进程也可以通过系统调用sched_yield()让出处理器，这种情况下进程不会进入睡眠.

周期性调度

Linux内核依靠周期性的时钟中断抢夺处理器的控制权，时钟中断处理程序检查当前进程的执行时间有没有超过限额，如果超过了限额，设置需要重新调度的标志.

在CFS算法中，如果当前调度实体的运行时间超过了前面介绍的进程的时间片，那么会设置重新调度的标志位.

修改进程优先级

Linux系统可以通过renice设置进程优先级，具体使用方法可以通过man renice.
C/C++编程可以使用以下方法:

#include 
#include 

int getpriority(int which, int who);
int setpriority(int which, int who, int prio);

参考

<< Linux 内核深度解析>>

MySQL 二级索引分析

2019-10-08T20:27:01.000Z

前言

在 MySQL 中，创建一张表时会默认为主键创建聚簇索引，B+ 树将表中所有的数据组织起来，即数据就是索引主键所以在 InnoDB 里，主键索引也被称为聚簇索引，索引的叶子节点存的是整行数据。而除了聚簇索引以外的所有索引都称为二级索引，二级索引的叶子节点内容是主键的值。

二级索引

创建二级索引

1	CREATE INDEX [index name] ON [table name]([column name]);

或者

1	ALTER TABLE [table name] ADD INDEX [index name]([column name]);

在 MySQL 中, CREATE INDEX操作被映射为ALTER TABLE ADD_INDEX。

二级索引格式

例如创建如下一张表:

CREATE TABLE users(
    id INT NOT NULL,
    name VARCHAR(20) NOT NULL,
    age INT NOT NULL,
    PRIMARY KEY(id)
);

新建一个以age字段的二级索引:

1	ALTER TABLE users ADD INDEX index_age(age);

MySQL 会分别创建主键id的聚簇索引和age的二级索引:

在 MySQL 中主键索引的叶子节点存的是整行数据，而二级索引叶子节点内容是主键的值.

二级索引的创建流程

在 MySQL 8.0 中，二级索引的创建具体流程如下图:

二级索引所属的 Onine DDL 可以分为三个阶段: DDL prepare 阶段, DDL 执行阶段和 DDL commit 阶段.

DDL prepare 阶段

升级至 X 锁, 禁止读写.
ha_prepare_inplace_alter_table() 根据 ALTER TABLE 语句传入的参数进行检查，构建被创建的索引信息，创建索引的B+树.

DDL 执行阶段

在 MySQL 8.0 实现中，基本上所有的ALTER TABLE操作都实现在mysql_alter_table()函数，而 Online DDL 支持使用Inplace方式创建二级索引:

row_merge_build_indexes()用来构建二级索引的索引内容，在 MySQL 中，二级索引的组织关系是即指定的索引 column 与主键组成的映射关系. 所以需要读取聚簇索引来构建二级索引内容:
- 申请内存用来排序，大小为3 * srv_sort_buf_size，申请临时文件merge_file_t用来合并排序.
- 读取扫描表中的整个聚簇索引 B+ 树构建二级索引，假如merge buffer的空间不满足 Index 的排序，则需要利用临时文件进行合并排序.
- 根据prepare阶段构建的索引信息，遍历聚簇索引，构造对应的索引字段. 假如建表时没有指定主键，InnoDB 会默认创建一个名为DB_ROW_ID的自增字段，所以二级索引的映射关系就是.
- 将合并排序后的二级索引内容通过 Bulk Load 的方式写入Page，使用flush_observer落盘对应的数据脏页.
- 关闭删除临时文件，释放排序内存merge_buf.

MySQL 8.0 要求 DDL 具有原子性，所以在上述的合并排序后插入 Page 的过程中，可以使用flush_observer直接落盘数据页或者记录 Redo. 这样来保证整个DDL操作是原子的.

DDL commit 阶段

为 Table 加上 X 锁, 禁止读写.
更新 InnoDB 的数据字典 DD.
提交 DDL 事务.
清理操作 Clean Up.

在一些需要 rebuild table 的 Online DDL 操作中，例如Dropping a column, 为了不阻塞 DML 操作，需要引入row_log来暂存在 DDL 过程中用户的数据修改操作，而在二级索引的创建过程中并不需要 rebuild table, 所以不需要row_log_table, 用户对于其他字段的数据的修改可以直接基于聚簇索引进行修改, 而对于创建二级索引的字段，需要通过row_log来处理二级索引创建过程中的 DML 操作.

假如二级索引创建的过程中发生 Crash, 重启后打开临时文件的 Tablespace 会清理上次意外 Crash 遗留的临时文件.

索引定义

/** Definition of an index being created */
struct index_def_t {
  const char *name;          /*!< index name */
  bool rebuild;              /*!< whether the table is rebuilt */
  ulint ind_type;            /*!< 0, DICT_UNIQUE,
                             or DICT_CLUSTERED */
  ulint key_number;          /*!< MySQL key number,
                             or ULINT_UNDEFINED if none */
  ulint n_fields;            /*!< number of fields in index */
  index_field_t *fields;     /*!< field definitions */
  /* ... */
};

name即索引名.
rebuild表示是否需要重建表.
ind_type表示索引类型.
key_number表示表中索引数量.
n_fields表示索引字段的数量.
fields表示索引字段的定义.

二级索引的检索过程

在 MySQL 的查询过程中，SQL 优化器会选择合适的索引进行检索，在使用二级索引的过程中，因为二级索引没有存储全部的数据，假如二级索引满足查询需求，则直接返回，即为覆盖索引，反之则需要回表 (Row_sel_get_clust_rec_for_mysql) 去主键索引(聚簇索引)查询。

例如执行SELECT * FROM users WHERE age=35;则需要进行回表:

使用EXPLAIN查看执行计划可以看到使用的索引是我们之前创建的index_age:

MySQL [sbtest]> EXPLAIN SELECT * FROM users WHERE age=35;
+----+-------------+-------+------------+------+---------------+-----------+---------+-------+------+----------+-------+
| id | select_type | table | partitions | type | possible_keys | key       | key_len | ref   | rows | filtered | Extra |
+----+-------------+-------+------------+------+---------------+-----------+---------+-------+------+----------+-------+
|  1 | SIMPLE      | users | NULL       | ref  | index_age     | index_age | 4       | const |    1 |   100.00 | NULL  |
+----+-------------+-------+------------+------+---------------+-----------+---------+-------+------+----------+-------+
1 row in set, 1 warning (0.00 sec)

总结

二级索引是指定字段与主键的映射，主键长度越小，普通索引的叶子节点就越小，二级索引占用的空间也就越小，所以要避免使用过长的字段作为主键。

OOM killer 是基于虚拟内存还是物理内存?

2019-10-05T22:02:08.000Z

前言

偶然在网上看到一个问题: OOM 是按照虚拟内存还是实际内存来打分? 这里“实际内存”表达的意思应该是物理内存，而“打分”想表达的意思应该是 OOM killer 机制里面的 badness score. 当内存吃紧时，假如开启了 OOM killer，OOM killer 会计算进程的 badness score, badness score 越高，就越优先被 OOM killer 杀死.

实验

当内存吃紧，页分配器尝试回收物理Page失败后，会调用 OOM killer，选择 badness score 最高的进程杀死，释放内存. badness score 的分数范围是0-1000, 0表示不杀死， 1000表示总是杀死, 可以直接通过 cat /proc//oom_score 查看进程的 badness score.

这个问题的本质是 OOM 机制是基于虚拟内存还是物理内存，我们可以先通过一个实验验证这个问题:

机器内存:

通过free -h可以查看机器的内存情况，物理内存为16GB

实验代码:

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

int main() {
  std::string fname = "oom_killer_file";
  long long map_size = 4096UL * 1024 * 1024 * 4;
  int file_fd = ::open(fname.c_str(), O_RDWR | O_CREAT, 0645);
  posix_fallocate(file_fd, 0, map_size);
  void* base_ptr = mmap(nullptr, map_size, PROT_READ | PROT_WRITE,
                        MAP_SHARED,
                        file_fd,
                        0);
  if (base_ptr == nullptr) {
    close(file_fd);
    return 0;
  }

  std::this_thread::sleep_for (std::chrono::seconds(600));
  close(file_fd);
  return 0;
}

这段代码新建了一个名为 oom_killer_file 的文件，先使用 posix_fallocate() 预分配16GB的大小，然后利用 mmap() 分配16GB的虚拟空间, 这段代码会 sleep 600s, 假如 OOM killer 是基于虚拟内存的，这段代码会被 kill. mmap() 的原理可以查看文章mmap源码分析, 调用 mmap() 会为进程分配虚拟内存，当真正写入触发缺页中断时才分配物理内存页.

编译运行:

1
2
3

g++ -std=c++11 -O2 oom_killer.cc -o oom_killer

./oom_killer

实验结果:

我们通过 htop观察发现进程确实已经分配了16GB的虚拟内存，但物理内存只有1768 bytes, 而经过600s的运行，程序并没有被 kill, 所以可以断定 OOM killer 不是基于虚拟内存而应该是物理内存计算 badness score.

OOM killer源码分析

OOM killer的核心函数是 out_of_memory(), 执行流程如下:

调用 check_panic_on_oom() 检查是否允许执行内核恐慌，假如允许，需要重启系统.
假如打开了/proc/sys/vm/oom_kill_allocating_task 即允许 kill 掉当前正在申请分配物理内存的进程，那么杀死当前进程.
调用 select_bad_process，选择 badness score 最高的进程.
调用 oom_kill_process, 杀死选择的进程.

我们分析 badness score的计算函数来理解 OOM killer如何选择需要被 kill 掉的进程:

unsigned long oom_badness(struct task_struct *p, struct mem_cgroup *memcg,
                          const nodemask_t *nodemask, unsigned long totalpages)
{
        long points;
        long adj;

        /* 假如该进程不能被kill, 则分数返回0. */
        if (oom_unkillable_task(p, memcg, nodemask))
                return 0;

        p = find_lock_task_mm(p);
        if (!p)
                return 0;

        /* 获取该进程的 oom_score_adj, 这个是用户为进程设置的 badness score
         * 调整值，假如这个值为-1000或者进程被标记为不可被kill，或者进程处于
         * vfork()过程，badness score返回0. */
        adj = (long)p->signal->oom_score_adj;
        if (adj == OOM_SCORE_ADJ_MIN ||
                        test_bit(MMF_OOM_SKIP, &p->mm->flags) ||
                        in_vfork(p)) {
                task_unlock(p);
                return 0;
        }

        /* badness score分数 = 物理内存页数 + 交换区页数 + 页表Page Table数量. */
        points = get_mm_rss(p->mm) + get_mm_counter(p->mm, MM_SWAPENTS) +
                mm_pgtables_bytes(p->mm) / PAGE_SIZE;
        task_unlock(p);

        /* 利用以下公式对 badness score 值进行调整. */
        adj *= totalpages / 1000;
        points += adj;

        /* 返回 badness score, 假如等于0, 则返回 1. */
        return points > 0 ? points : 1;
}

总结:

通过分析 badness score 的计算函数，我们可以发现 OOM killer 是基于RSS即常驻的物理内存来选择进程进行kill, 从而释放内存. Linux内核内存管理部分最主要的一个逻辑就是延迟分配.

Linux 内核源码分析-理解 cgroup 内存资源控制

2019-09-01T20:44:03.000Z

准备

内核版本: 5.0

cgroup全称Control Groups，顾名思义就是把进程放到一个组里面统一加以控制，cgroup可以限制进程的各种资源，包括用来控制一组进程的内存使用量，cgroup把各种资源控制器成为子系统，内存控制即为内存子系统.

使用方法

cgroup目前现存两个版本，我们仅讨论cgroup v1的使用方法.

Centos安装cgroup:
1
sudo yum -y install libcgroup-tools
在目录`/sys/fs/cgroup”下挂在tmpfs文件系统
1
mount -t tmpfs none /sys/fs/cgroup
在目录/sys/fs/cgroup下创建目录memory
1
mkdir /sys/fs/cgroup/memory
在目录sys/fs/cgroup/memory下挂载cgroup文件系统, 把内存资源控制器关联到控制组
1
mount -t cgroup -o memory none /sys/fs/cgroup/memory

创建新的控制组

1	mkdir /sys/fs/cgroup/memory/test_memory

设置控制组的内存使用限制2G:

1	sudo echo 2147483648 > /sys/fs/cgroup/memory/test_memory/memory.limit_in_bytes

将线程组加入控制组:

1	sudo echo > /sys/fs/cgroup/memory/test_memory/cgroup.procs

或者启动进程附带控制组:
1
cgexec -g memory:test_memory ./a.out

cgroup内存子系统

内存资源控制器`mem_cgroup`

cgroup的内存资源控制器限制每一个控制组的Page Cache和RSS物理内存.

/*
 * The memory controller data structure. The memory controller controls both
 * page cache and RSS per cgroup. We would eventually like to provide
 * statistics based on the statistics developed by Rik Van Riel for clock-pro,
 * to help the administrator determine what knobs to tune.
 */
struct mem_cgroup {
struct cgroup_subsys_state css;

/* Private memcg ID. Used to ID objects that outlive the cgroup */
struct mem_cgroup_id id;

/* Accounted resources */
struct page_counter memory;  /* 内存计数器 */
struct page_counter swap;    /* 交换区计数器 */

/* Legacy consumer-oriented counters */
struct page_counter memsw;
struct page_counter kmem;     /* 内核内存限制计数器 */
struct page_counter tcpmem;   /* TCP的socket缓冲区计数器 */

/* Upper bound of normal memory consumption range */
unsigned long high;   /* 限制使用的内存上限 */

/* Range enforcement for interrupt charges */
struct work_struct high_work;

unsigned long soft_limit;

/* vmpressure notifications */
struct vmpressure vmpressure;

/*
 * Should the accounting and control be hierarchical, per subtree?
 */
bool use_hierarchy;/* 是否启用分层计数 */

/*
 * Should the OOM killer kill all belonging tasks, had it kill one?
 */
bool oom_group;

/* protected by memcg_oom_lock */
booloom_lock;
intunder_oom;

intswappiness;
/* OOM-Killer disable */
intoom_kill_disable;    /* 是否打开OOM的killer, 即kill超出限制的内存容量的进程 */

/* ... */
};

结构体page_counter是页计数器，单位为Page:

struct page_counter {
        atomic_long_t usage;   /* 已使用的Page数量 */
        unsigned long min;     
        unsigned long low;
        unsigned long max;
        struct page_counter *parent;

        /* effective memory.min and memory.min usage tracking */
        unsigned long emin;
        atomic_long_t min_usage;
        atomic_long_t children_min_usage;

        /* effective memory.low and memory.low usage tracking */
        unsigned long elow;
        atomic_long_t low_usage;
        atomic_long_t children_low_usage;

        /* legacy */
        unsigned long watermark;
        unsigned long failcnt;
};

理解cgroup内存记账

当为内存控制组中的进程分配物理内存时，会记录内存使用量, 内存记账简单的理解为记录控制组的内存使用量, 以下是记录的时间点:

第一次访问匿名页时分配物理页.
访问文件时分配物理页(Page Cache) .
执行COW(写时复制)时，分配物理页.
从交换区换入页.

我们仅分析4类中较为常见的访问文件分配物理页的内存记账处理过程:

我们以ext4文件系统为例, 当需要读取文件时，某个Page不在内存中，需要把该Page读取至内存中，即调用address_space的操作函数ext4_readpage：

内存计数步骤:

mem_cgroup_try_charge()用来表示尝试记账, 把内存控制组的内存计数加上指定的数量.
如果成功，调用mem_cgroup_commit_charge()以提交计数，否则调用mem_cgroup_cancel_charge()放弃计数.

OOM killer

cgroup的内存控制器是默认开启OOM killer，当进程消耗的内存超过了cgroup的限制，就会调用OOM killer，向指定的进程发送杀死信号SIGKILL. 假如触发了OOM，关于crgroup内存控制kill的信息，可以通过dmesg进行查看.

dmesg示例

新建了一个名为test_cgroup的控制组, 使用进程a.out申请超过cgroup限制大小的内存:

Q&A

使用cgroup遇到cgroup change of group failed问题:
注意/sys/fs/cgroup/test_memory即控制组的目录权限, 是否与执行进程的文件权限保持一致.
即使进程以及完全退出，cgroup的内存控制组目录仍然无法清理?
因为cgroup会限制进程使用Page Cache，而Page Cache的清理不会随着进程的退出而完成，所以当我们使用cgroup限制的进程有文件读写操作从而使用了Page Cache, 会导致cgroup内存控制组目录无法清理，所以正确的做法是清空Page Cache: echo 3 > /proc/sys/vm/drop_caches 或者echo 3 > /cgroup/memory/test_memory/memory.drop_caches

参考

《Linux内核深度解析》

Linux 内核源码分析-Page Cache 刷脏源码分析

2019-06-02T00:41:16.000Z

准备

内核版本: 5.0

Page Cache是内核与存储介质的重要缓存结构，当我们使用write()或者read()读写文件时，假如不使用O_DIRECT标志位打开文件，我们均需要经过Page Cache来帮助我们提高文件读写速度。而在 MySQL 的设计实现中，读写数据文件使用了O_DIRECT标志，其目的是使用自身Buffer Pool的缓存算法。

根据之前总结的 Linux 内存管理文章，在 Linux 内核内存的基本单元是Page，而Page Cache也驻存于物理内存，所以Page Cache的缓存基本单位也是Page，而Page Cache缓存的内容属于文件系统，所以Page Cache属于文件系统与物理内存管理的枢纽。

介绍Page Cache必不可少的需要涉及VFS的内容，这里我们仅仅简单的介绍相关数据结构的具体含义，文件系统的实现细节暂且略过。Page Cache整个模块代码量巨大，我们侧重于Page Cache的刷脏策略分析。

Page Cache

Page Cache 相关数据结构

inode

include/linux/fs.h

inode在文件系统代表一个文件的元信息结构。

struct inode {
        /* ... */
struct address_space    i_mapping;
  /* ... */

i_mapping代表inode所拥有的address_space

address_space

include/linux/fs.h

这里我们假定address_space缓存的Page来自于磁盘上的文件，而Page Cache并不是类似于 MySQL 中Buffer Pool一个缓存结构，它结合了于内核的内存管理和文件系统的address_space结构。address_space管理对应的文件映射在物理内存中缓存Page：

struct address_space {
        struct inode            *host;
        struct xarray           i_pages;
        gfp_t                   gfp_mask;
        atomic_t                i_mmap_writable;
        struct rb_root_cached   i_mmap;
        struct rw_semaphore     i_mmap_rwsem;
        unsigned long           nrpages;
        unsigned long           nrexceptional;
        pgoff_t                 writeback_index;
        const struct address_space_operations *a_ops;
        unsigned long           flags;
        errseq_t                wb_err;
        spinlock_t              private_lock;
        struct list_head        private_list;
        void                    *private_data;
} __attribute__((aligned(sizeof(long)))) __randomize_layout;

host代表address_space所属的inode。
i_pages代表该address_space缓存的Page。
gfp_mask代表内存分配flags。
i_mmap_writable代表共享内存映射的Page数量。
i_mmap代表该address_space缓存的Page所存放的rb-tree。
i_mmap_rwsem用来保护i_mmap 和i_mmap_writable的自旋锁。
nrpages代表该address_space缓存的Page数量。
writeback_index代表回写时所使用的索引。
a_ops代表address_space的操作方法函数。
flags代表错误位。
wb_err代表address_space最近操作方式的错误码。
private_lock用来保护private_list的自旋锁。

address_space_operations

address_space_operations代表address_space支持的操作方法:

struct address_space_operations {
        int (*writepage)(struct page *page, struct writeback_control *wbc);
        int (*readpage)(struct file *, struct page *);

        /* Write back some dirty pages from this mapping. */
        int (*writepages)(struct address_space *, struct writeback_control *);

        /* Set a page dirty.  Return true if this dirtied it */
        int (*set_page_dirty)(struct page *page);

        /*
         * Reads in the requested pages. Unlike ->readpage(), this is
         * PURELY used for read-ahead!.
         */
        int (*readpages)(struct file *filp, struct address_space *mapping,
                        struct list_head *pages, unsigned nr_pages);

        int (*write_begin)(struct file *, struct address_space *mapping,
                                loff_t pos, unsigned len, unsigned flags,
                                struct page **pagep, void **fsdata);
        int (*write_end)(struct file *, struct address_space *mapping,
                                loff_t pos, unsigned len, unsigned copied,
                                struct page *page, void *fsdata);

        /* Unfortunately this kludge is needed for FIBMAP. Don't use it */
        sector_t (*bmap)(struct address_space *, sector_t);
        void (*invalidatepage) (struct page *, unsigned int, unsigned int);
        int (*releasepage) (struct page *, gfp_t);
        void (*freepage)(struct page *);
        ssize_t (*direct_IO)(struct kiocb *, struct iov_iter *iter);
        /*
         * migrate the contents of a page to the specified target. If
         * migrate_mode is MIGRATE_ASYNC, it must not block.
         */
        int (*migratepage) (struct address_space *,
                        struct page *, struct page *, enum migrate_mode);
        bool (*isolate_page)(struct page *, isolate_mode_t);
        void (*putback_page)(struct page *);
        int (*launder_page) (struct page *);
        int (*is_partially_uptodate) (struct page *, unsigned long,
                                        unsigned long);
        void (*is_dirty_writeback) (struct page *, bool *, bool *);
        int (*error_remove_page)(struct address_space *, struct page *);

        /* swapfile support */
        int (*swap_activate)(struct swap_info_struct *sis, struct file *file,
                                sector_t *span);
        void (*swap_deactivate)(struct file *file);
};

writepage：将Page写回磁盘。
readpage: 从磁盘读取Page。
writepages: 写多个Page至磁盘。
set_page_dirty：设置某个Page为脏页。
readpages: 读取多个Page，一般用来预读。
write_begin: 准备一个写操作。
write_end: 完成一个写操作。
invalidatepage：使该Page无效。
releasepage：释放Page。
direct_IO：对address_space中的所有Page进行DIO。

Page Cache 的插入

我们在Linux内核源码分析-内存请页机制中分析了缺页中断时，当访问的 Page Table 尚未分配，即vma对应磁盘上的某一个文件时，会调用vma->vm_ops->fault(vmf)对应的文件系统的缺页处理函数。

基本流程

1
2
3

page = page_cache_alloc();
/* ... */
__add_to_page_cache(page, mapping, index, hash);

以ext4为例，ext4_filemap_fault()为缺页处理函数，具体调用了内存管理模块的filemap_fault()来完成:

vm_fault_t filemap_fault(struct vm_fault *vmf)
{
        /* 查找缺页是否存在于 Page Cache.
           mapping 为该文件的 adress_space,
           offset 为该页的偏移量.
         */
        page = find_get_page(mapping, offset);
        if (likely(page) && !(vmf->flags & FAULT_FLAG_TRIED)) {
                /* 假如存在，进行预读 */
                do_async_mmap_readahead(vmf->vma, ra, file, page, offset);
        } else if (!page) {
                /* 假如不存在，则进行预读，之后立即尝试 Page Cache 查找，
                   假如仍然不存在，则跳转 no_cached_page.
                 */
                do_sync_mmap_readahead(vmf->vma, ra, file, offset);
                count_vm_event(PGMAJFAULT);
                count_memcg_event_mm(vmf->vma->vm_mm, PGMAJFAULT);
                ret = VM_FAULT_MAJOR;
retry_find:
                page = find_get_page(mapping, offset);
                if (!page)
                        goto no_cached_page;
        }

        /* ... */

        vmf->page = page;
        return ret | VM_FAULT_LOCKED;

no_cached_page:
        /* 1. 申请分配一个 Page
           2. 将该 Page 添加至Page Cache
           3. 调用 address_space 的 readpage() 函数完成该 Page 内容的读取
        */
        error = page_cache_read(file, offset, vmf->gfp_mask);
/* ... */
}
EXPORT_SYMBOL(filemap_fault);

Page Cache 的插入主要流程如下:

判断查找的 Page 是否存在于 Page Cache，存在即直接返回
否则通过 Linux 内核物理内存分配介绍的伙伴系统分配一个空闲的 Page.
将 Page 插入 Page Cache，即插入address_space的i_pages.
调用address_space的readpage()来读取指定 offset 的 Page.

Page Cache 的回写

假如 Page Cache 中的 Page 经过了修改，它的 flags 会被置为PG_dirty. 在 Linux 内核中，假如没有打开O_DIRECT标志，写操作实际上会被延迟刷盘，以下几种策略可以将脏页刷盘:

手动调用fsync()或者sync强制落盘
脏页占用比率过高，超过了设定的阈值，导致内存空间不足，触发刷盘(强制回写).
脏页驻留时间过长，触发刷盘(周期回写).

在这里我们仅仅分析周期回写和强制回写

bdi

bdi是backing device info的缩写，它描述备用存储设备相关信息，就是我们通常所说的存储介质 SSD 硬盘等等。Linux 内核为每一个存储设备构造了一个backing_dev_info，假如磁盘有几个分区，每个分区对应一个backing_dev_info结构体.

backing_dev_info

/* include/linux/backing-dev-defs.h */

struct backing_dev_info {
        struct list_head bdi_list;
  ...
  struct bdi_writeback wb;  /* the root writeback info for this bdi */
  ...
}

bdi_list是全局维护的所有backing_dev_info链表.
wb是脏页回写控制块.

bdi_writeback

/* include/linux/backing-dev-defs.h */

struct bdi_writeback {
        struct backing_dev_info *bdi;   /* our parent bdi */
...
        struct list_head b_dirty;       /* dirty inodes */
        struct list_head b_io;          /* parked for writeback */
  ...
        struct delayed_work dwork;      /* work item used for writeback */
}

bdi是该bdi_writeback所属的backing_dev_info.
b_dirty代表文件系统中被修改的inode节点.
b_io代表等待 I/O 的inode节点.

dwork是一个封装的延迟工作任务，由它的主函数将脏页回写存储设备:

/* mm/backing-dev.c */

/* wb_init() 用来初始化 backing_dev_info */
static int wb_init(struct bdi_writeback *wb, struct backing_dev_info *bdi,
                   int blkcg_id, gfp_t gfp)
{
        ...
        INIT_LIST_HEAD(&wb->b_dirty);
        INIT_LIST_HEAD(&wb->b_io);
        INIT_LIST_HEAD(&wb->b_more_io);
        INIT_LIST_HEAD(&wb->b_dirty_time);
        spin_lock_init(&wb->list_lock);

        wb->bw_time_stamp = jiffies;
        wb->balanced_dirty_ratelimit = INIT_BW;
        wb->dirty_ratelimit = INIT_BW;
        wb->write_bandwidth = INIT_BW;
        wb->avg_write_bandwidth = INIT_BW;

        spin_lock_init(&wb->work_lock);
        INIT_LIST_HEAD(&wb->work_list);
    /* dwork的回调函数为wb_workfn() */
        INIT_DELAYED_WORK(&wb->dwork, wb_workfn);
  ...
}

bdi_writeback对象封装了dwork以及需要处理的inode队列。当 Page Cache 调用__mark_inode_dirty()时，将需要刷脏的inode挂载到bdi_writeback对象的b_dirty队列上，然后唤醒对应的bdi刷脏线程。

wb_workfn()

wb_workfn是回写控制块的回调函数

/* fs/fs-writeback.c */

void wb_workfn(struct work_struct *work)
{
...
        if (likely(!current_is_workqueue_rescuer() ||
                   !test_bit(WB_registered, &wb->state))) {
                /*
                 * 调用 wb_do_writeback() 完成回写操作
                 */
                do {
                        pages_written = wb_do_writeback(wb);
                        trace_writeback_pages_written(pages_written);
                } while (!list_empty(&wb->work_list));
        } else {
                ...
        }
...
}

wb_do_writeback分别实现了周期回写和后台回写两部分: wb_check_old_data_flush()，wb_check_background_flush()，具体实现我们分不同的场景分析，因为每一个存储设备都有一个backing_dev_info，所以每个存储设备之间的脏页回写互不影响.

周期回写

周期回写的时间单位是0.01s，默认为5s，可以通过/proc/sys/vm/dirty_writeback_centisecs调节:

/* mm/page-writeback.c */

/*
 * The interval between `kupdate'-style writebacks
 */
unsigned int dirty_writeback_interval = 5 * 100; /* centiseconds */

Page驻留为dirty状态的时间单位也为0.01s，默认为30s，可以通过/proc/sys/vm/dirty_expire_centisecs来调节:

/* mm/page-writeback.c */
/*
 * The longest time for which data is allowed to remain dirty
 */
unsigned int dirty_expire_interval = 30 * 100; /* centiseconds */

后台线程周期回写

/* fs/fs-writeback.c */

static long wb_check_old_data_flush(struct bdi_writeback *wb)
{
        unsigned long expired;
        long nr_pages;

        /* 假如没有设置 dirty_writeback_interval, 直接返回 */
        if (!dirty_writeback_interval)
                return 0;

  /* 将 dirty_writeback_interval 转换为 jiffies 再加上上一次刷脏的 jiffies 大小, jiffies 是 Linux 内核定义的时间单位 HZ. */
        expired = wb->last_old_flush +
                        msecs_to_jiffies(dirty_writeback_interval * 10);
  /* 假如还没有超时，直接返回 */
        if (time_before(jiffies, expired))
                return 0;

        wb->last_old_flush = jiffies;
  /* 获取 dirty 状态的 inode */
        nr_pages = get_nr_dirty_pages();

        if (nr_pages) {
                struct wb_writeback_work work = {
                        .nr_pages       = nr_pages,
                        .sync_mode      = WB_SYNC_NONE,
                        .for_kupdate    = 1,
                        .range_cyclic   = 1,
                        .reason         = WB_REASON_PERIODIC,
                };
/* 假如存在被修改过的inode节点，调用wb_writeback() */
                return wb_writeback(wb, &work);
        }

        return 0;
}

强制回写

强制回写分为后台线程回写和用户进程主动回写。

当脏页数量超过了设定的阈值，后台回写线程会将脏页写回存储设备，后台回写阈值是脏页占可用内存大小的比例或者脏页的字节数，默认比例是10. 用户可以通过修改/proc/sys/vm/dirty_background_ratio修改脏页比或者修改/proc/sys/vm/dirty_background_bytes修改脏页的字节数。

而在用户调用write()接口写文件时，假如脏页占可用内存大小的比例或者脏页的字节数超过了设定的阈值，会进行主动回写，用户可以通过设置/proc/sys/vm/dirty_ratio或者/proc/sys/vm/dirty_bytes修改这两个阈值。

后台线程强制回写

/* fs/fs-writeback.c */

static long wb_check_background_flush(struct bdi_writeback *wb)
{
  /* wb_over_bg_thresh()检查脏页的数量是否超过了设定的阈值 */
        if (wb_over_bg_thresh(wb)) {

                struct wb_writeback_work work = {
                        .nr_pages       = LONG_MAX,
                        .sync_mode      = WB_SYNC_NONE,
                        .for_background = 1,
                        .range_cyclic   = 1,
                        .reason         = WB_REASON_BACKGROUND,
                };
/* 假如超过了阈值，调用wb_writeback() */
                return wb_writeback(wb, &work);
        }

        return 0;
}

用户进程触发回写

假如用户调用write()或者其他写文件接口时，在写文件的过程中，产生了脏页后会调用balance_dirty_pages调节平衡脏页的状态. 假如脏页的数量超过了(后台回写设定的阈值+ 进程主动回写设定的阈值) / 2 ，即(background_thresh + dirty_thresh) / 2会强制进行脏页回写. 用户线程进行的强制回写仍然是触发后台线程进行回写

总结

触发 Page Cache 刷脏的几个条件如下:

周期回写，可以通过设置/proc/sys/vm/dirty_writeback_centisecs调节周期.
当后台回写阈值是脏页占可用内存大小的比例或者脏页的字节数超过了设定的阈值会触发后台线程回写.
当用户进程写文件时会进行脏页检查假如超过了阈值会触发回写，从而调用后台线程完成回写.

Page的写回操作是文件系统的封装，即address_space的writepage操作.

思考

因为Linux内核为每个存储设备都设置了刷脏进程，所以假如在日常开发过程遇到了刷脏压力过大的情况下，在条件允许的情况下，将写入文件分散在不同的存储设备，可以提高的写入速度，减小刷脏的压力.

Leviathan

InnoDB Record 细节整理

背景

数据结构

InnoDB record 的逻辑格式: dtuple_t

索引内存结构: dict_index_t

InnoDB 物理 record: rec_t

B-tree 游标: btr_pcur_t

游标 cursor 的搜索模式

InnoDB 事务锁调度分析

准备

背景

First Come First Served (FCFS)

Contention-Aware Transaction Scheduling (CATS)

源码分析

总结

InnoDB 的 LRU 策略分析

准备

参数解释

LRU list

源码分析

LRU 初始化

插入 LRU old

插入 LRU young

LRU evict

总结

推荐文档

InnoDB 的事务故障恢复流程

背景

Redo Log

Undo Log

启动流程

Checkpoint

回滚流程

事务恢复的回滚

总结

理解 InnoDB 的 Change Buffer

背景

Change buffer 使用

参数

触发条件

Change Buffer 原理

Change Buffer Record

Change Buffer Bitmap Page

Change Buffer 写入

Change Buffer 合并(ibuf merge)

FAQ

总结

InnoDB 死锁 Bug 排查

背景

分析流程

SQL 分析

锁信息验证

死锁原因排查

解决方案

Patch 分析

总结

Summary

About me

InnoDB 事务 sharded 锁系统优化

准备

背景

lock_sys

死锁检测

总结

InnoDB 并行读取框架

版本

准备

并行索引读取

参数

设计思想

实现

row_scan_index_for_mysql()

基本数据结构

SELECT COUNT()

并行读取流程

总结

InnoDB 中的 B+ 树的增删改

版本

背景

`pick_next_task()`

`context_switch()`