正则的汉字匹配问题

/[U+4E00–U+9FA5]/

这是我们平时最常用的汉字匹配正则表达式，Unicode1.0收录了U+4E00–U+9FA5范围内的文字，共计20902个汉字，但问题是这是1993年发布的，至今已经过去将近30年时间，这中间也已经加入了相当多的汉字。

1993年，Unicode1.0，/[U+4E00–U+9FA5]/，更新20902

2000年，Unicode3.0，扩展A区，更新6592

2001年，Unicode3.1，扩展B区，更新42717

2003第一、四、五、六修订，Unicode5.2，扩展C区及其他汉字，更新4149

2010年，Unicode6.0，扩展D区，更新222

2015年，Unicode8.0，扩展E区，更新5762

2017年，Unicode10.0，扩展F区，更新7473

2020年，Unicode13.0，扩展G区，更新4939

中日韩统一表意文字。为了统一简体中文，繁体中文，日本，韩文，越南文等文字，在Unicode标准中赋予统一编码。

/\p{Unified_Ideograph}/u

\p{}表示根据Unicode属性值进行匹配

u代表任何Unicode值都将被转译

参考：