踩坑经验 | Mysql导入emoji报错
上周遇到了中文长度的问题之后,就想起了很久之前遇到的这个问题,也是一个和长度相关的问题。
LEARN MORE
图片由360鸿图绘制
还是老规矩,周日不定期更新的踩坑系列。还是先介绍一下遇到这个问题的业务场景,因为时间比较久远了,很多细节已经想不起来了。
上周分享了中文到底占几个字节的这个很神奇的报错是如何产生的以及怎么处理的。当时遇到这个问题的时候,就让我想起了一个很久之前遇到的问题,直觉上觉得这两个问题应该从本质上是同一个问题。只不过之前遇到这个问题的时候就是简单粗暴的百度一下解决问题了,并没有深究(其实是没有时间去深究),但是当时并没有仔细去分析一下为什么会出这样的问题。仔细研究过后,发现,emoji的这个问题确实和上周分享的字符长度溢出的问题有异曲同工之妙。所以说,基础原理还是非常重要的。如果对基础原理非常熟悉的话,可能一眼就知道问题为什么会发生以及需要如何去解决了。
业务场景是老的saas系统下线,需要把导出的备份数据文件落库存储备份(别问我为社么这事是数分干不是IT干,创业公司没有那么明确的分工)。导出数据批量建表的时候,copy了建表语句进行建表操作的。但是数据入库的时候发生了报错,通过排查报错的数据之后发现,报错来自于微信昵称这个字段中的emoji字符。
上周末的推送讲了,在mysql中,中文是占3个字节的。而emoji比较特殊,占4个字符。mysql默认使用的的UTF-8只支持三个字节的存储,而一般字符是三个字节,但是emoji表情是4个字节,所以存储不了。因此,有表情的字段上就有将该字段设置为utf8mb4。
根据各种资料收集的结果来看,不同版本的mysql对于设置这里是有细微的区别的。总的来说,无外乎就是,设置字段为utf8mb4,如果不管用,就把整张表都改成utf8mb4,要是还不行就把整个库改成utf8mb4。
需要用到的语句分别如下:
代码语言:javascript复制 --设置修改字段
ALTER TABLE table_name
MODIFY colum_name VARCHAR(100) CHARACTER
SET utf8mb4 COLLATE utf8mb4_unicode_ci
--不管用修改表
ALTER TABLE table_name CHARSET=utf8mb4;
--还是不管用修改整个库
SET NAMES utf8mb4
这一套操作下来,基本肯定能解决问题。不过还有另一种解决问题的方案,那就是——直接把emoji转成varchar进行存储。
二号姬
半路出家自学成才的文科数据人,看过了大厂的风景也做过了小厂的CDO~目前是闲职,主要是想沉淀自己,自媒体写作是最好的自我总结和自我复盘
做数据的
二号姬
坚持小众内容原创 自己写稿的二号姬
周一:AIGC相关,包括但不限于教程、使用评测
周二:数据处理技术分享、代码分享
周三:工作效率提升工具/技巧,办公自动化等
周四:读书笔记系列,分享读书心得和要点
周五:聊聊职场,包括但不限于求职面试
周六:随缘分享,内容不确定
周日:随缘分享一些技术踩坑经验