ゼロ幅文字検出器
テキストから不可視のゼロ幅Unicode文字(ZWJ、ZWNJ、ZWSP、BOM)を検出して削除します。書式設定やセキュリティ上の問題を引き起こす隠し文字を見つけます。
0 characters
ゼロ幅文字とは?
ゼロ幅文字は視覚的には表示されないが、書式設定の問題、セキュリティの問題、解析エラーを引き起こす可能性がある不可視のUnicode文字です。このツールは22種類の異なる文字を検出します:
- ゼロ幅スペース (U+200B)
- ゼロ幅結合子 (U+200D)
- ゼロ幅非結合子 (U+200C)
- バイト順マーク / BOM (U+FEFF)
- 方向フォーマットマーク
- その他17種類の不可視文字
ゼロ幅文字リファレンス
| コードポイント | 文字名 | 説明 |
|---|---|---|
| U+200B | Zero Width Space (ZWSP) | Used for line breaking opportunities in long words |
| U+200C | Zero Width Non-Joiner (ZWNJ) | Prevents joining of adjacent characters in some scripts |
| U+200D | Zero Width Joiner (ZWJ) | Forces joining of adjacent characters (e.g., emoji combinations) |
| U+FEFF | Zero Width No-Break Space (BOM) | Byte Order Mark, often used at start of files |
| U+200E | Left-to-Right Mark | Forces left-to-right text direction |
| U+200F | Right-to-Left Mark | Forces right-to-left text direction |
| U+202A | Left-to-Right Embedding | Treats following text as left-to-right |
| U+202B | Right-to-Left Embedding | Treats following text as right-to-left |
| U+202C | Pop Directional Formatting | Terminates directional formatting |
| U+202D | Left-to-Right Override | Forces left-to-right direction override |
| U+202E | Right-to-Left Override | Forces right-to-left direction override |
| U+2060 | Word Joiner | Prevents line breaks between characters |
| U+2061 | Function Application | Mathematical function application |
| U+2062 | Invisible Times | Mathematical multiplication |
| U+2063 | Invisible Separator | Mathematical separator |
| U+2064 | Invisible Plus | Mathematical addition |
| U+206A | Inhibit Symmetric Swapping | Inhibits mirroring of symmetric characters |
| U+206B | Activate Symmetric Swapping | Activates mirroring of symmetric characters |
| U+206C | Inhibit Arabic Form Shaping | Prevents Arabic letter shaping |
| U+206D | Activate Arabic Form Shaping | Activates Arabic letter shaping |
| U+206E | National Digit Shapes | Activates national digit shapes |
| U+206F | Nominal Digit Shapes | Activates nominal (European) digit shapes |
関連ツール
このツールについて
使い方
- 不可視のゼロ幅Unicode文字をテキストから自動的にスキャン
- 22種類の異なるゼロ幅および不可視Unicode文字を検出
- 各文字タイプの正確な位置と数を表示
- 見えないマーカーで不可視文字を視覚化
- ワンクリックですべてのゼロ幅文字を削除
一般的なユースケース
- 隠し文字による書式設定の問題をデバッグ
- ウェブサイトやドキュメントからコピーしたテキストをクリーンに
- テキスト内の隠れた追跡や透かしを検出
- 不可視文字によるセキュリティリスクを特定
- データベースや厳格なパーサー用にテキストを準備
よくある質問
ゼロ幅文字とは何で、なぜ問題なのですか?
ゼロ幅文字は視覚的には表示されないが、テキスト内でスペースを占有する不可視のUnicode文字です。書式設定の問題、テキスト解析の破損、セキュリティの脆弱性、検索への干渉、デバッグの困難さを引き起こす可能性があります。
このツールは何種類のゼロ幅文字を検出しますか?
このツールは、ゼロ幅スペース、結合子、非結合子、方向フォーマットマーク、数学演算子など、22種類の不可視およびゼロ幅Unicode文字を検出します。
ゼロ幅文字はどのようにしてテキストに入り込むのですか?
ゼロ幅文字は、ウェブサイト、ワードプロセッサ、PDF、またはその他のフォーマットされたソースからテキストをコピーするときに発生する可能性があります。テキスト追跡、透かし、または悪意ある目的のために意図的に挿入されることもあります。
ゼロ幅文字はセキュリティリスクになりますか?
はい、ゼロ幅文字はセキュリティリスクをもたらす可能性があります。欺瞞的なURLの作成、フィルターや検証のバイパス、悪意あるコードの隠蔽、視覚的に同一だが技術的に異なる文字列の作成などに使用される可能性があります。
ゼロ幅文字を削除するとテキストの書式が崩れますか?
ほとんどの場合、ゼロ幅文字を削除すると書式を壊すことなくテキスト品質が向上します。ただし、アラビア語、タイ語、絵文字の組み合わせなどの一部の言語では、正しく表示するためにZWJやZWNJを合法的に使用しています。
視覚化テキストとクリーンテキストの違いは何ですか?
視覚化テキストはゼロ幅文字を視覚的マーカー([U+200B]など)として表示し、どこに出現するかを確認できます。クリーンテキストはすべてのゼロ幅文字が完全に削除されています。
問題を引き起こしているゼロ幅文字を特定するにはどうすればよいですか?
ツールは、検出された各文字タイプ、そのUnicodeコードポイント、数、テキスト内の正確な位置を示す詳細なテーブルを表示します。これにより、どの特定の文字が存在するかを理解できます。
位置情報は何を示していますか?
位置番号は、各ゼロ幅文字がテキスト内の(0から始まる)どの文字インデックスに現れるかを示します。出現が多い場合、ツールは最初の5つの位置を表示し、さらにいくつあるかを示します。
データベースに挿入する前にテキストをクリーンにするためにこのツールを使用できますか?
もちろんです!これは主要なユースケースの1つです。ゼロ幅文字は、データベースで予期しない動作を引き起こし、一意制約を破り、検索に干渉し、データ品質の問題を作成する可能性があります。
バイト順マーク(BOM)とは何で、なぜ重要なのですか?
バイト順マーク(U+FEFF)は、エンコードを示すためにテキストファイルの先頭に追加されることがある不可視文字です。必要な場合もありますが、テキストの貼り付け時に問題を引き起こし、パーサーに干渉する可能性があります。
このツールを使わずにテキストにゼロ幅文字があるかどうかを知る方法は?
ゼロ幅文字は視覚的にはほぼ検出不可能です。兆候としては、予期しないテキスト長、コピーペースト動作の違い、検索・置換の失敗、解析エラー、単語数の不一致などがあります。
ゼロ幅文字はSEOやウェブコンテンツに影響しますか?
はい、ウェブコンテンツのゼロ幅文字は検索エンジンを混乱させ、キーワードマッチングに影響し、重複コンテンツの問題を作成し、分析に干渉し、アクセシビリティに影響を与える可能性があります。