Unicodeインスペクター
テキストを分析して隠れた文字、Unicodeコードポイント、文字カテゴリ、エンコーディング情報を明らかにします。テキストエンコーディングの問題をデバッグします。
29
総文字数
20
ユニーク文字数
35
UTF-8バイト
58
UTF-16バイト
Showing 20 of 20 characters
| 文字 | コードポイント | 10進数 | 16進数 | カテゴリ | ブロック | UTF-8 | 操作 |
|---|---|---|---|---|---|---|---|
\tCTRL | U+0009 | 9 | 0x0009 | Control Character | Basic Latin | 0x09 | |
\nCTRL | U+000A | 10 | 0x000A | Control Character | Basic Latin | 0x0A | |
␣WS | U+0020 | 32 | 0x0020 | Space Separator | Basic Latin | 0x20 | |
! | U+0021 | 33 | 0x0021 | Other Punctuation | Basic Latin | 0x21 | |
, | U+002C | 44 | 0x002C | Other Punctuation | Basic Latin | 0x2C | |
: | U+003A | 58 | 0x003A | Other Punctuation | Basic Latin | 0x3A | |
H | U+0048 | 72 | 0x0048 | Uppercase Letter | Basic Latin | 0x48 | |
N | U+004E | 78 | 0x004E | Uppercase Letter | Basic Latin | 0x4E | |
T | U+0054 | 84 | 0x0054 | Uppercase Letter | Basic Latin | 0x54 | |
a | U+0061 | 97 | 0x0061 | Lowercase Letter | Basic Latin | 0x61 | |
b | U+0062 | 98 | 0x0062 | Lowercase Letter | Basic Latin | 0x62 | |
e | U+0065 | 101 | 0x0065 | Lowercase Letter | Basic Latin | 0x65 | |
i | U+0069 | 105 | 0x0069 | Lowercase Letter | Basic Latin | 0x69 | |
l | U+006C | 108 | 0x006C | Lowercase Letter | Basic Latin | 0x6C | |
n | U+006E | 110 | 0x006E | Lowercase Letter | Basic Latin | 0x6E | |
o | U+006F | 111 | 0x006F | Lowercase Letter | Basic Latin | 0x6F | |
w | U+0077 | 119 | 0x0077 | Lowercase Letter | Basic Latin | 0x77 | |
世 | U+4E16 | 19990 | 0x4E16 | Unassigned | CJK Unified Ideographs | 0xE4 0xB8 0x96 | |
界 | U+754C | 30028 | 0x754C | Unassigned | CJK Unified Ideographs | 0xE7 0x95 0x8C | |
🌍 | U+1F30D | 127757 | 0x1F30D | Unassigned | Unknown Block | 0xF0 0x9F 0x8C 0x8D |
文字カテゴリ
Lu
3 characters
Ll
8 characters
Po
3 characters
Zs
1 character
Cn
3 characters
Cc
2 characters
Unicodeブロック
Basic Latin
17 characters
CJK Unified Ideographs
2 characters
Unknown Block
1 character
プロのヒント:
- 制御文字はエスケープシーケンスで表示されます(\tはタブ、\nは改行)
- スペースは␣、ノーブレークスペースは⍽として表示されます
- フィルターを使用して制御文字や非ASCIIなど特定の文字タイプに焦点を当てます
- UTF-8とUTF-16バイト表現はストレージ要件の理解に役立ちます
- Unicodeブロックは同じ書記システムや目的の関連文字をグループ化します
関連ツール
Unicodeインスペクターについて
使い方
- テキスト内の各文字を個別に分析
- Unicodeコードポイント、カテゴリ、プロパティを明らかにする
- 隠れた制御文字と空白を表示
- UTF-8とUTF-16バイト表現を表示
- UnicodeブロックとタイプごとにUnicode文字を分類
主な使用例
- テキストエンコーディングと文字の問題のデバッグ
- 隠れた文字や不可視文字の特定
- 国際化問題の分析
- テキストのUnicode構成の理解
- システム間での文字互換性の検証
よくある質問
Unicodeインスペクターとは何ですか?なぜ必要なのですか?
Unicodeインスペクターはテキストを分析し、各文字に関する詳細情報(Unicodeコードポイント、カテゴリ、エンコーディングプロパティ、隠れた文字など)を明らかにします。テキストエンコーディングの問題をデバッグし、問題を引き起こす不可視文字を特定するために不可欠です。
このツールはどのように隠れた文字や不可視文字の特定を支援しますか?
このツールはテキスト内のすべての文字を表示します。制御文字(タブ、改行など)、ノーブレークスペース、その他のフォーマットや処理の問題を引き起こす可能性のある不可視のUnicode文字も含みます。制御文字はエスケープシーケンス(\t、\n)と特殊記号で表示されます。
ツールは各文字についてどのような情報を提供しますか?
各文字について、ツールは次の情報を表示します:文字自体、Unicodeコードポイント(U+xxxx)、10進数と16進数の値、UnicodeカテゴリとブロックとUTF-8、UTF-16バイト表現、印刷可能かASCIIか制御文字かなどのプロパティ。
UnicodeカテゴリとUnicodeブロックとは何ですか?
Unicodeカテゴリは文字を一般的なタイプ(大文字、10進数、句読点など)で分類します。Unicodeブロックは文字をスクリプトや目的でグループ化します(基本ラテン文字、ギリシャ文字とコプト文字、数学演算子など)。
エンコーディングの問題をデバッグするためにこのツールをどのように使用できますか?
このツールは予期しない文字を表示し、期待するエンコーディングと一致しないバイトシーケンスを明らかにし、データに存在すべきでない制御文字を強調表示することでエンコーディング問題の特定を支援します。
UTF-8とUTF-16バイト表現は何を示していますか?
これらは異なるUnicodeエンコーディング方式を使って各文字がメモリにどのように格納されるかを示します。UTF-8は1文字あたり1〜4バイトを使用し、UTF-16は2または4バイトを使用します。この情報はストレージ要件を理解するのに役立ちます。
フィルタリングとソートのオプションはどのように機能しますか?
特定の文字セットに焦点を当てるために、タイプ(すべて、制御文字、空白、印刷可能、ASCII、非ASCII)で文字をフィルタリングできます。ソートオプションにはUnicodeコードポイント、文字の外観、またはカテゴリでのソートが含まれます。
このツールは国際化(i18n)の問題に役立ちますか?
はい、このツールはi18nデバッグに優れています。予期しないスクリプトからの文字を特定し、異なる言語の正しいUnicode構成を確認し、多言語テキストのエンコーディング問題を検出するのに役立ちます。
このツールはさまざまな書記システムとスクリプトをどのように処理しますか?
このツールはすべてのUnicode文字とスクリプト(ラテン、キリル、アラビア語、中国語、日本語、韓国語、タイ語、ヘブライ語など)をサポートしています。各文字のUnicodeブロックを正確に識別します。
テキストに予期しない文字が見つかった場合はどうすればよいですか?
まず、予期しない文字のUnicodeコードポイントとカテゴリをメモします。安全に削除できる制御文字か、修正が必要なエンコーディングの成果物か、または別のスクリプトからの正当な文字かを確認します。
このツールをデータ検証とクリーニングにどのように使用できますか?
データセット内の不要な文字を検出し、テキストに期待する文字タイプのみが含まれているかを確認し、削除または置換のために問題のある文字を特定・配置するためにツールを使用します。
分析から文字またはそのプロパティをコピーできますか?
はい、各文字行には文字自体またはそのUnicodeコードポイントをコピーするためのコピーボタンが含まれています。これにより、テスト、ドキュメント、または他のツールでのさらなる分析のために特定の文字を抽出することが容易になります。