1、Mysql的复制原理以及流程
1
2
3
4基本原理流程,3个线程以及之间的关联
主:binlog线程 — 记录下所有改变了数据库数据的语句,放进master上的binlog中;
从:io线程 — 在使用start slave之后负责从master上拉取binlog内容,放进自己的relay log中;
从:sql执行线程 — 执行relay log中的语句。2、Mysql中的MyIsam与InnoDB的区别,至少5点
a、问5点不同
1
2InnoDB |支持事务|支持行级锁| 支持MVCC |支持外键| 不支持全文索引
MyISAM |不支持事务| 支持表级锁| 不支持MVCC| 不支持外键| 支持全文索引b、innodb引擎的4大特性
1
插入缓冲(insert buffer)、二次写(double write)、自适应哈希索引(ahi)、预读(read ahead)
c、2者select count (*) from table哪个更快,为什么
1
MyISAM更快,因为MyISAM内部维护一个计数器,可以直接调取。
3、Mysql中varchar与vhar的区别,以及varchar(50)中的50代表的含义
1
2
3
4
5
6
7
8a、varchar与char的区别
char是一种固定长度的类型,varchar则是一种可变长度的类型
b、varchar(50)中50的含义
最多存放50个字符,varchar(50)和(200)存储hello所占空间一样,但后者在排序时会消耗更多内存。因为order by col采用fixed_length计算col长度(memory引擎也一样)
c、int(20)中20的含义
是指显示字符的长度。但要加参数的,最大为255,比如它是记录行数的id。20表示最大显示宽度为20,但仍占4字节存储,存储范围不变。
d、mysql为什么这么设计
对大多数应用没有意义,只是规定一些工具用来显示字符的个数;int(1)和int(20)存储和计算均一样;4、问innodb的事务与日志的实现方式
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18a、有多少种日志
错误日志(error log):记录出错信息,也记录一些警告信息或者正确的信息。
查询日志(general query log):记录所有对数据库请求的信息,不论这些请求是否得到了正确的执行。
慢查询日志(-log-slow-queries):设置一个阈值,将运行时间超过该值的所有SQL语句都记录到慢查询的日志文件中。
二进制日志(binary log):记录对数据库执行更改的所有操作。
中继日志(relay log):也是二进制日志,用来给slave库恢复(同步数据)
事务日志:
b、事务的4中隔离级别
隔离级别
读未提交(RU)
读已提交(RC)
可重复读(RR)
串行
c、事务是如何通过日志来实现的,说的越深入越好
事务日志是通过redo和InnoDB的存储引擎日志缓冲(InnoDB log buffer)来实现的。
当开始一个事务的时候,会记录该事务的lsn(log sequence number)号;当事务执行时,会往InnoDB存储引擎的日志缓存里插入事务日志;当事务提交时,必须将存储引擎的日志缓冲写入磁盘(通过innodb_flush_log_at_trx_commit来控制),也就是写数据前,需要先写日志。这种方式称为“预写日志方式”。
d、事务的四个原则
原子性、一致性、隔离性、持久性5、问Mysql binlog的几种日志录入格式以及区别
1
2
3
4
5
6
7
8
9
10a、binlog的日志格式的种类和区别
三种:statement、MiXED以及ROW
b、适用场景,结合第一个问题,每一种日志格式在复制中的优劣
Statement:每一条会修改数据的sql都会记录在binlog中。
优点:不需要记录每一行的变化,减少binlog日志量,节约了IO提高性能。
缺点:由于记录的只是执行语句,为了这些语句能在slave上正确运行,因此还必须记录每条语句在执行的时候的一些相关信息,以保证所有语句能在salve得到和在master端执行时候相同的结果。另外mysql的复制,像一些特定函数功能,slave可与master上保持一致会有很多相关问题(sleep()函数,last_insert_id(),以及user-defined functions(udf)会出现问题)。
Row:不记录sql语句上下相关信息,仅保存哪条记录被修改。
优点:binlog中可以不记录执行的sql语句的上下相关的信息,仅需要记录那一条记录被修改成什么了。所以rowlevel的日志内容会非常清楚的记录下每一行数据修改的细节,而且不会出现某些特定情况下的存储过程。如function、以及trigger的调用和触发无法被正确复制的问题。
缺点:所有的执行的语句当记录到日志中的时候,都将每行记录的修改来记录,这样可能会产生大量的日志内容,比如一条update语句,修改多条记录。则binlog中每一条修改都会有记录,这样造成binlog日志量会很大,特别是当执行alter table之类的语句的时候,由于表结构修改,每条记录都会发生改变,那么该表每一条都会记录到日志中。
Mixedlevel:是以上两种level的混合使用,一般的语句修改使用statement格式保存binlog,如一些函数statement无法完成主从复制的操作,则采用row格式保存binlog,mysql会根据执行的每一条具体的sql语句来区分对待记录的日志形式,也就是在Statement和Row之间选择一种。6、问Mysql数据库CPU飙升到500%的话怎么处理
1
列出所有进程show processlist,观察所有进程,几秒钟都没有状态变化的(干掉)。查看超时日志或者错误日志(一般会是查询以及大批量的插入会导致cpu与i/o上涨;也可能是网络状态突然断了,导致一个请求服务器只接受到一半,比如where子句或分页子句没有发送。)
7、SQL优化
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17a、explain出来的各种item的意义
select_type
表示查询中每个select子句的类型
type
表示Mysql在表中找到所需行的方式,又称为“访问类型”
possible_keys
指出Mysql能使用哪个索引在表中找到行,查询涉及到的字段上若存在索引,则该索引将被列出,但不一定被查询使用。
key
显示Mysql能使用哪个索引在表中找到行,查询涉及到的字段上若存在索引,则该索引将被列出,但不一定被查询使用
key_len
表示索引中使用的字节数,可通过该列计算查询中使用的索引的长度。
ref
表示上述表的连接匹配条件,即哪些列或常量被用于查找索引上的值。
Extra
包含不适合在其他列中显示但十分重要的额外信息
b、profile的意义以及使用场景
查询到SQL会执行多少时间,并看出CPU/Memory使用量,执行过程中Systemlock,table lock花多少时间等等。8、备份计划,mysqldump以及xtrabackup的实现原理
1
2
3
4
5
6
7
8
9
10
11
12
13
14a、备份计划
每天增量备份,每月全备等
b、备份恢复时间
时间和硬盘的速率有关,以下列举几个仅供参考:
20G的2分钟(mysqldump)
80G的30分钟(mysqldump)
110G的30分钟(mysqldump)
290G的3个小时(xtra)
3T的4小时(xtra)
逻辑导入时间一般是备份时间的5倍以上
c、xtrabackup实现原理
在InnoDB内部会维护一个redo日志文件,也可叫做事务日志文件。
事务日志会存储每一个InnoDB表数据的记录修改,当InnoDB启动时InnoDB会检查数据文件和事务日志,并执行两个步骤:
它应用(前滚)已经提交的事务日志到数据文件,并将修改过但没有提交的数据进行回滚操作。9、mysqldump中备份出来的sql,如果想sql文件中一行只有一个insert … value()的话怎么处理?如果备份需要带上master的复制点信息怎么处理?
1
2--skip-extended-insert
备份时添加这个:mysqldump -uroot -p haha(要备份的库) --skip-extended-insert10、500台db,在最快时间之内重启。
1
2使用puppet,批量管理。
dsh是专为在远程上运行shell命令涉及的,可以简化对大量计算机的操作。11、InnoDB的读写参数优化
1
2
3
4
5
6
7
8
9
10
11
12a、读取参数
global buffer pool 以及local buffer;
b、写入参数
innodb_flush_log_at_trx_commit
innodb_buffer_pool_size
c、与IO相关的参数
innodb_write_io_threads = 8
innodb_read_io_threads = 8
innodb_thread_concurrency = 0
d、缓存参数以及缓存的适用场景
query cache/query_cache_type
并不是所有表都适合使用query cache,造成query cache失效的原因主要是相应的table发生了变更。12、你是如何监控你们的数据库的?你们的慢查询日志都是怎么查询的?
1
监控工具,例如zabbix,ngios,lepus等
13、你是否做过主从一致性校验,如果有怎么做的?如果没有,你打算怎么做?
1
主从一致性校验有多种工具,例如checksum、mysqldiff、pt-table-checksum等。
14、你们数据库是否支持emoji表情,如果不支持如何操作?
1 | mysql数据库默认utf8,只能存储3个字节,标准的emoji表情是4个字节。 |
15、你是如何维护数据库的数据字典的?
1
一般是直接在生产库进行注释,然后利用工具导出excel方便流通。
16、你们是否有开发规范,如果有如何执行的?
17、表中有大字段X(例如:text类型),且字段X不会经常更新,以读为主,请问
1
2
3
4
5a、你是选择拆成子表,还是继续放一起
b、写出你这样选择的理由
拆带来的问题:连接消耗+存储拆分空间;不拆可能带来的问题:查询性能;
如果能容忍拆分带来的空间问题:拆的话最好和经常要查询的表的主键在物理结构上放置一起,顺序IO减少连接消耗。
如果能容忍不拆分带来的查询性能损失的话:上面的方案在某个极致条件下肯定会出现问题,嘛呢不拆就是最好的选择。18、Mysql中InnoDB引擎的行锁是通过加载什么上完成(或实现)的?为什么是这样子的?
1
2
3InnoDB是基于索引来完成行锁的。
例如:select * from tab_with_index where id = 1 for update;
for update可以根据条件来完成行锁锁定,并且id是有索引键的列,如果id不是索引键那么InnoDB将完成表锁。并发将无从谈起。19、如何从mysqldump产生的全库备份中只恢复某一个库、某一张表?
1
2
3
4
5
6全库备份:mysqldump -uroot -p --single-transaction -A --master-data=2 > dump.sql
只还原erp库的内容:mysql -uroot -p MANAGER erp --one-database < dump.sql
可以看出这里主要用到的参数是--one-database简写-o的参数,极大方便了我们的恢复灵活性。
利用正则表达式来进行快速抽取:
从全库备份中抽取出t表的表结构 sed -e'/./{H;$!d;}' -e 'x;/CREATE TABLE `t`/!d;q' dump.sql
从全库备份中抽取出t表的内容 grep'INSERT INTO `t`' dump.sql20、开放性问题,一个6亿的表a,一个3亿的表b,通过外间tid关联。你是如何最快的查询出满足条件的第50000到第50200中的这200条数据记录。
1
2
3
4a、如果A表TID是自增长,并且是连续的,B表的ID为索引
select * from a,b where a.tid = b.tid and a.tid > 50000 limit 200;
b、如果A表的TID不是连续的,那么就需要使用覆盖索引,TID要么是主健,要么是辅助索引,B表ID也需要有索引。
select * from b ,(select tid from a limit 50000,200) a where b.id = a.tid;