/[U+4E00–U+9FA5]/

这是我们平时最常用的汉字匹配正则表达式,Unicode1.0收录了U+4E00–U+9FA5范围内的文字,共计20902个汉字,但问题是这是1993年发布的,至今已经过去将近30年时间,这中间也已经加入了相当多的汉字。

历史

1993年,Unicode1.0,/[U+4E00–U+9FA5]/,更新20902

2000年,Unicode3.0,扩展A区,更新6592

2001年,Unicode3.1,扩展B区,更新42717

2003第一、四、五、六修订,Unicode5.2,扩展C区及其他汉字,更新4149

2010年,Unicode6.0,扩展D区,更新222

2015年,Unicode8.0,扩展E区,更新5762

2017年,Unicode10.0,扩展F区,更新7473

2020年,Unicode13.0,扩展G区,更新4939

Unified_Ideograph

中日韩统一表意文字。为了统一简体中文,繁体中文,日本,韩文,越南文等文字,在Unicode标准中赋予统一编码。

/\p{Unified_Ideograph}/u

\p{}表示根据Unicode属性值进行匹配

u代表任何Unicode值都将被转译

参考:

[中日韓統一表意文字 - 维基百科,自由的百科全书](https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97)

https://github.com/tc39/proposal-regexp-unicode-property-escapes

❤️ 转载文章请注明出处,谢谢!❤️