零宽字符检测器
检测并删除文本中的不可见零宽Unicode字符(ZWJ、ZWNJ、ZWSP、BOM)。查找导致格式问题或安全问题的隐藏字符。
0 characters
什么是零宽字符?
零宽字符是不可见的Unicode字符,在视觉上不显示,但可能导致格式问题、安全问题和解析错误。此工具检测22种不同类型,包括:
- 零宽空格(U+200B)
- 零宽连接符(U+200D)
- 零宽非连接符(U+200C)
- 字节顺序标记 / BOM(U+FEFF)
- 方向格式标记
- 以及17种更多不可见字符
零宽字符参考表
| 代码点 | 字符名称 | 描述 |
|---|---|---|
| U+200B | Zero Width Space (ZWSP) | Used for line breaking opportunities in long words |
| U+200C | Zero Width Non-Joiner (ZWNJ) | Prevents joining of adjacent characters in some scripts |
| U+200D | Zero Width Joiner (ZWJ) | Forces joining of adjacent characters (e.g., emoji combinations) |
| U+FEFF | Zero Width No-Break Space (BOM) | Byte Order Mark, often used at start of files |
| U+200E | Left-to-Right Mark | Forces left-to-right text direction |
| U+200F | Right-to-Left Mark | Forces right-to-left text direction |
| U+202A | Left-to-Right Embedding | Treats following text as left-to-right |
| U+202B | Right-to-Left Embedding | Treats following text as right-to-left |
| U+202C | Pop Directional Formatting | Terminates directional formatting |
| U+202D | Left-to-Right Override | Forces left-to-right direction override |
| U+202E | Right-to-Left Override | Forces right-to-left direction override |
| U+2060 | Word Joiner | Prevents line breaks between characters |
| U+2061 | Function Application | Mathematical function application |
| U+2062 | Invisible Times | Mathematical multiplication |
| U+2063 | Invisible Separator | Mathematical separator |
| U+2064 | Invisible Plus | Mathematical addition |
| U+206A | Inhibit Symmetric Swapping | Inhibits mirroring of symmetric characters |
| U+206B | Activate Symmetric Swapping | Activates mirroring of symmetric characters |
| U+206C | Inhibit Arabic Form Shaping | Prevents Arabic letter shaping |
| U+206D | Activate Arabic Form Shaping | Activates Arabic letter shaping |
| U+206E | National Digit Shapes | Activates national digit shapes |
| U+206F | Nominal Digit Shapes | Activates nominal (European) digit shapes |
相关工具
关于此工具
工作原理
- 自动扫描文本中的不可见零宽Unicode字符
- 检测22种不同类型的零宽和不可见Unicode字符
- 显示每种字符类型的精确位置和计数
- 用可见标记可视化不可见字符
- 一键删除所有零宽字符
常见使用场景
- 调试由隐藏字符引起的文本格式问题
- 清理从网站和文档复制的文本
- 检测文本中的隐藏追踪或水印
- 识别不可见字符带来的安全风险
- 为数据库和严格解析器准备文本
常见问题
什么是零宽字符,为什么它们有问题?
零宽字符是不可见的Unicode字符,它们在视觉上不显示,但在文本中占据空间。它们可能导致格式问题、破坏文本解析、产生安全漏洞、干扰搜索并使调试困难。常见示例包括零宽空格(U+200B)、零宽连接符(U+200D)和字节顺序标记(U+FEFF)。
这个工具可以检测多少种零宽字符?
此工具可检测22种不同类型的不可见和零宽Unicode字符,包括零宽空格、连接符、非连接符、方向格式标记、数学运算符和其他可能导致文本处理问题的特殊不可见字符。
零宽字符如何进入我的文本?
零宽字符可能来自从网站、文字处理器、PDF或其他格式化来源复制的文本。它们也可能被故意插入用于文本追踪、水印或恶意目的。
零宽字符会构成安全风险吗?
是的,零宽字符可能构成安全风险。它们可用于创建欺骗性URL、绕过过滤器和验证、隐藏恶意代码、创建视觉上相同但技术上不同的字符串,以及追踪文本分发。
删除零宽字符会破坏我的文本格式吗?
在大多数情况下,删除零宽字符可以在不破坏格式的情况下提高文本质量。但是,某些语言(如阿拉伯语、泰语或表情符号组合)合法使用ZWJ和ZWNJ进行正确显示。
可视化文本和清理文本有什么区别?
可视化文本将零宽字符显示为可见标记(如[U+200B]),以便您可以看到它们出现的位置。清理文本已完全删除所有零宽字符。在应用更改之前切换视图以了解正在删除的内容。
如何识别哪个零宽字符正在导致我的问题?
该工具显示一个详细的表格,显示每种检测到的字符类型、其Unicode代码点、数量和文本中的确切位置。这有助于您了解存在哪些特定字符以及它们的位置。
位置信息告诉我什么?
位置编号表示每个零宽字符在文本中出现的字符索引(从0开始)。如果有很多出现,该工具显示前5个位置并指示还有多少更多。
我可以使用此工具在插入数据库之前清理文本吗?
当然!这是主要用例之一。零宽字符可能在数据库中导致意外行为、破坏唯一约束、干扰搜索并创建数据质量问题。在将文本插入数据库或API之前,请使用此工具清理文本。
什么是字节顺序标记(BOM),为什么它很重要?
字节顺序标记(U+FEFF)是一个不可见字符,有时在文本文件开头添加以指示编码。虽然有时需要,但它可能在粘贴文本时造成问题,干扰解析器并创建验证错误。
不使用此工具,我如何知道我的文本是否有零宽字符?
零宽字符几乎不可能通过视觉检测。迹象包括:意外的文本长度、复制粘贴行为差异、搜索/替换失败、解析错误或字数不匹配。
零宽字符会影响SEO或网页内容吗?
是的,网页内容中的零宽字符可能会混淆搜索引擎、影响关键词匹配、产生重复内容问题、干扰分析并影响可访问性。