本文へスキップ

パステムは、桐の業務システム開発を支援しています

ICT用語同義語辞典COMPANY


【 「UTF-2」又はそれに関連する用語の意味 】
出典: オクテット 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2018年9月23日 (日) 15:29 UTC、URL: https://ja.wikipedia.org/

 オクテット(英: octet、8組の意味)は、コンピュータの、特に通信関係の分野などで、厳密には8ビット以外を指すこともある「バイト」の代わりに、必ず8ビットのことを指すものとして使われている語である。「バイト」と違い、「オクテット」は必ず8ビットを意味するものであり、通信分野などでプロトコルなどを定義する際などに必要となる。

[概要]
 オクテットの主要な使われ方には、IETFにより発行されるRFCがある。初期の例では1974年のRFC 635で、フランス語、フレンチカナディアン、ルーマニア語で、「8ビット」の意味で「オクテット」の語が「バイト」の代わりに一般的に使われており、「メガバイト (MB)」は「メガオクテット (Mo)」である。
 コンピュータの歴史の初期には、「バイト」は「8ビット」の意味とは標準化されておらず、色々なマシンによって、異なる(比較的小さな)サイズの単位を表した。後にSystem/360やマイクロコンピュータの普及によって、「1バイト = 8ビット」の処理系が普及した。そのため今日では「バイト」と「オクテット」はほぼ同義語だが、幾つかの大型コンピュータ(一部のメインフレーム、ミニコンピュータなど)では、混乱を避けるための注意が必要である。 ・・・
出典: UTF-8 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2021年4月4日 (日) 04:44 UTC、URL: https://ja.wikipedia.org/

 UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1~4 byte の可変長)の文字符号化形式及び文字符号化スキーム。
 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。
 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。
 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 ・・・
出典: UTF-8 [外語] Unicode Transformation Format-8 『通信用語の基礎知識』 更新年月日 2009/12/21,URL: https://www.wdic.org/

 ISO/IEC 10646およびUnicode文字を8ビット単位の不定長として表現できるように変換したもの。

[概要]
仕様
 Unicodeを1〜4オクテットに、または、ISO/IEC 10646を1〜6オクテットの不定長に変換する。
 前者はRFC 3629で標準化されており、後者はこのRFCによって破棄された古いRFCであるRFC 2279にて仕様が規定されている。
 このように、RFC 2279では1〜6オクテットまでの規定があったが、RFC 3629ではUnicode文字(U+0000〜U+10FFFF)だけの対応となり、1〜4オクテットの範囲だけしか規定されなくなった。
実装
 Javaでは実行ファイル(Javaバイトコードと呼ばれる)内部で実際に用いられている文字コードの符号化方法であり、Java以外でもInternet ExplorerやMicrosoft Wordなどで広く対応している。
 ASCIIと互換性があり、かつ世界中の言語を容易に扱えるということで徐々に人気が高まった。
 この方法を用いるとASCII文字の範囲(0x00〜0x7f)を保存したまま、8ビット長でUnicode文字が表現可能となる。
 従来の英語圏環境の文字コードと互換性が保たれ、プログラミング面でも扱いが容易であるため、従来は英語専用だったソフトウェアを新規に多国語対応化する場合などには有用である。

[技術]
BOM
 UTF-16などでは、符号のバイト順が自在のため、バイト順を機械的に識別可能なように文書の先頭にはBOMと呼ばれる記号(U+FEFF, ZWNBSP)を付ける。
 UTF-8の場合はバイト順序は常に固定で変化することはないので、このような目印は本来は不要であるが、その文書がUTF-8であるかどうかを識別するために同様に使われることが多い。
 U+FEFF(ZWNBSP)は、UTF-8では「0xEF 0xBB 0xBF」という3オクテットになり、これが先頭にあればそれはUTF-8であると判断できる。
 日本のローカルな俗称として、このZWNBSPが先頭に無いUTF-8をUTF-8Nと呼ぶ。
符号化方法
 古いRFC 2279で表現できる全範囲を以下に示す。新しいRFC 3629では、 ・・・

【UTF-2の同義語と関連語 】
< 1 >
同義語・類義語 関連語・その他
UTF-8 文字符号化形式
8-bit UCS Transformation Format 文字符号化スキーム
éit bít júː síː és træ̀nsfərméiʃən fɔ́rmæt ISO/IEC 10646
エイトゥ ビィットゥ ユー シィー エス トゥラェンスフォーァメイシュン フォァマェットゥ ISO/IEC 10646(UCS)
エイトゥ・ビィットゥ・ユー シィー エス・トゥラェンスフォーァメイシュン・フォァマェットゥ Unicode
エイト ビット ユー シー エス トランスフォーメーション フォーマット octet
エイト・ビット・ユー シー エス・トランスフォーメーション・フォーマット オクテット
ユー ティー エフ エイト
ユー ティー エフ はち UCS
1~6バイト可変長マルチバイト UCS-4
8~48ビット可変長バイト列 Universal multi-octet Character Set 4
UCS Transformation Format 8 UCS-2
júː síː és træ̀nsfərméiʃən fɔ́rmæt éit Universal multi-octet Character Set 2
ユー シィー エス トゥラェンスフォーァメイシュン フォァマェットゥ エイトゥ
ユー シィー エス・トゥラェンスフォーァメイシュン・フォァマェットゥ・エイトゥ
ユー シー エス トランスフォーメーション フォーマット エイト
ユー シー エス・トランスフォーメーション・フォーマット・エイト

Unicode Transformation Format-8
júnikòud træ̀nsfərméiʃən fɔ́rmæt éit
ユニコウドゥ トゥラェンスフォーァメイシュン フォァマェットゥ エイトゥ
ユニコウドゥ・トゥラェンスフォーァメイシュン・フォァマェットゥ・エイトゥ
ユニコード トランスフォーメーション フォーマット エイト
ユニコード・トランスフォーメーション・フォーマット・エイト

UTF-2
UTF-FSS
UTF-File System Safe























更新日:2024年 3月19日


【 他のICT用語辞典へ(外部リンク)】

UTF-8 (Wikipedia)
UTF-8 (通信用語の基礎知識)
UTF-8とUTF16の違いは? (@IT)
オクテット (Wikipedia)