マルチバイト文字(Multibyte Character)は、コンピュータ上で文字を表現するための方式の一つであり、1文字を複数のバイトで表現する方法を指す。
通常、1バイトで1文字を表現する方式とは異なり、マルチバイト文字では1文字が2バイト以上の連続したバイト列で表現される。
マルチバイト文字は、主にアジア圏で使用される文字セット(例: 日本語、中国語、韓国語)において使用される。
これらの文字セットには、単純なアルファベットや数字だけでなく、複雑な文字や記号も含まれており、1バイトでは表現できないため、マルチバイト文字が必要とされる。

代表的なマルチバイト文字エンコーディングには、以下のものがある:

  1. UTF-8:Unicode文字集合を表現するための可変長文字エンコーディングであり、最も一般的なエンコーディング方式の一つである。UTF-8では、ASCII文字は1バイトで表現され、多くの一般的な言語の文字は2バイトから4バイトで表現される。
  2. UTF-16:Unicode文字集合を表現するための固定長または可変長文字エンコーディングである。UTF-16では、基本多言語面(BMP)の文字は2バイトで表現されるが、サロゲートペアと呼ばれる特別なコードポイントを使ってサロゲート領域の文字を4バイトで表現する。
  3. Shift JIS:主に日本語を表現するための文字エンコーディングであり、Windowsや一部のWebページなどで広く使用されている。Shift JISでは、半角英数字は1バイト、ひらがなやカタカナは2バイト、漢字や特殊文字は2バイト以上で表現されている。

マルチバイト文字のエンコーディングは、異なる言語や環境での文字の相互運用性を確保する上で重要な役割を果たしている。