X86アセンブラ/16、32、64ビット

x86アセンブリ言語は、16ビット、32ビット、64ビットのそれぞれのアーキテクチャにおいて、多くの違いが存在します。以下では、ビット幅の異なるアーキテクチャ間の基本的な違いについて説明します。

歴史[編集]

X86アーキテクチャは、1978年にIntel 8086プロセッサのリリースとともに導入されました。その後、X86アーキテクチャは多くの変更を経験しました。たとえば、1982年にはIntel 80286プロセッサでプロテクトモードが導入され、1985年にはIntel 80386プロセッサで32ビットアーキテクチャが導入され、そして2000年にはAMD64アーキテクチャに拡張され64ビットアーキテクチャになりました。

レジスタセットの変遷

Intel 8086プロセッサは、4つの16ビット汎用レジスター（AX、BX、CX、DX）、インデックスレジスター（SI、DI）、ポインタレジスター（BP、SP）、セグメントレジスター（CS、DS、SS、ES）、そしてインストラクションポインターレジスター（IP）を持っていました。

Intel 80386プロセッサでは、レジスタセットが大幅に拡張され、32ビットの汎用レジスター（EAX、EBX、ECX、EDX、ESI、EDI、EBP、ESP、EIP）が導入されました。

プロテクトモード

Intel 80286プロセッサで導入されたプロテクトモードは、メモリ保護、仮想メモリ、および複数のタスクを実行する能力を提供しました。

32ビットアーキテクチャ (IA-32)

Intel 80386プロセッサで導入された32ビットアーキテクチャは、より高速な演算と大量のメモリを扱えるようになりました。

仮想86モード

Intel 80386以降のCPUがサポートする仮想化16ビット環境を提供する機能で、AMD64アーキテクチャではサポートされていません。

命令セットの変遷

Intel 8086プロセッサの命令セットは、8080プロセッサーとアセンブリコードレベルでの互換性がありましたが、8086プロセッサーには新しい命令が追加され、その後のX86アーキテクチャでは、さらに多くの命令が追加されました。

浮動小数点演算命令（FPU）

1980年代には、浮動小数点演算が必要なアプリケーションの需要が高まりました。そのため、インテルはx87 FPU（浮動小数点演算ユニット）をリリースし、x86命令セットに浮動小数点演算命令を追加しました。FPU命令は、x87プロセッサのみで実行されます。

MMX（Multi-Media Extensions）

1996年に導入され、サイズの小さい動画やオーディオファイルを高速に処理することができる命令セットでした。

SSE（Streaming SIMD Extensions）

1999年に導入され、MMXの改良版であり、同時に多数の浮動小数点演算を行うことができる命令セットでした。SSEには、SSE1、SSE2、SSE3、SSSE3、SSE4.1、SSE4.2の6つのバージョンがありました。

AVX（Advanced Vector Extensions）

2011年に導入され、SSEの後継であり、より高速で大きなデータセットの処理に適した命令セットです。AVXは、256ビットのベクター演算をサポートし、倍精度浮動小数点演算の速度を2倍にすることができました。

AVX2

2013年に導入され、AVXの改良版であり、より高速な整数演算を行うことができるようになりました。AVX2は、256ビットの整数演算をサポートしています。

これらの命令セットの変更は、新しいアプリケーションや処理を実行するために必要な性能向上を提供しました。さらに、Intelは常に命令セットの改良を続けており、最新のプロセッサであるIntel Coreプロセッサでは、AVX-512という新しい命令セットが導入されました。AVX-512は、512ビットのベクター演算をサポートし、大規模なデータセットの処理を高速化することができます。

AMD64アーキテクチャ

AMD64アーキテクチャは、1999年にAMDによって導入されたx86アーキテクチャの拡張であり、以来、64ビットPCおよびサーバ市場で急速に普及しています。AMD64アーキテクチャは、x86アーキテクチャの32ビットモードをサポートしながら、同時に64ビットモードもサポートします。これにより、従来の32ビットx86アプリケーションが引き続き動作し、同時に64ビットx86アプリケーションの開発も可能になりました。

AMD64アーキテクチャの命令セットは、従来のx86アーキテクチャの命令セットに基づいていますが、64ビットモードでは新しい命令やレジスタが追加されています。以下に、AMD64アーキテクチャの命令セットの変遷をまとめました。

最初のバージョンの命令セットは2000年にリリースされ、64ビットモードをサポートするためにレジスタは64に拡張され、汎用レジスター（RAX、RBX、RCX、RDX、RSI、RDI、RBP、RSP、R8、R9、R10、R11、R12、R13、R14、R15）と数も倍増し、EIPとEFLAGSは、RIPとRFLAGSになりました。また、セグメントレジスタはCS、DS、ES、SS、FS、GSの6本で、16ビットのままです。
次のバージョンでは、SSE2命令セットが追加されました。SSE2は、SIMD（Single Instruction, Multiple Data）命令セットであり、浮動小数点演算を高速化するために使用されます。SSE2は、64ビットx86アプリケーションの開発に必要な命令セットの1つでした。
その後、AMD64アーキテクチャは、SSE3、SSE4、AVX、AVX2など、さまざまな新しい命令セットを追加しました。これらの命令セットは、特定のタスクを高速化するために設計されており、64ビットx86アプリケーションの開発に必要なものとなっています。

8086のレジスター[編集]

i8086は、Intelが1978年に発表した16ビットのマイクロプロセッサで、IBM PCや互換機などで使用されました。i8086は16ビットのレジスタを持ち、これらのレジスタはさまざまな用途に使用されました。

以下に、i8086のレジスタを紹介します。

AXレジスタ：16ビットのデータを格納することができます。AXレジスタは、AL（下位8ビット）とAH（上位8ビット）に分かれており、これらを別々に操作することもできます。
BXレジスタ：AXレジスタと同様に16ビットのデータを格納することができます。BXレジスタは、SI（ソース・インデックス）やDI（デスティネーション・インデックス）とともに、メモリ転送命令で使用されます。
CXレジスタ：ループ処理に使用されます。CXレジスタには、カウンタの値が格納されます。
DXレジスタ：入出力操作に使用されます。
SIレジスタ：メモリ転送や文字列命令でソースをポインティングします。
DIレジスタ：メモリ転送や文字列命令でディスティネーションをポインティングします。
BPレジスタ：プロシージャコールのスタックフレーミングに使用されます。
SPレジスタ：SSレジスタと組み合わせてスタック上位のオブジェクトをポインティングします。
IPレジスタ：実行中のプログラムをポインティングします。
FLAGSレジスタ：キャリーやゼロなどのフラッグのセットです。

i8086では、メモリアドレスはセグメント化されていました。セグメントは、16ビットのセグメント・レジスタと16ビットのオフセット値で表され、物理アドレスを計算するために使用されます。i8086のセグメントレジスタには、CS（コード・セグメント）、DS（データ・セグメント）、ES（エクストラ・セグメント）、SS（スタック・セグメント）があります。

たとえば、CSレジスタには、実行中のコードが保存されているセグメントのアドレスが格納されます。オフセット値は、CSレジスタの値と命令ポインタ（IP）レジスタの値を組み合わせて計算されます。オフセット値とセグメントレジスタの値を組み合わせることで、物理アドレスが計算されます。

i8086のセグメント化されたアドレスは、プログラムの実装が複雑であるため、後継のプロセッサではセグメンテーションを簡略化する傾向があります。

8080と8086のレジスタ構成の類似点

8080と8086は、どちらもIntelが開発したプロセッサのシリーズですが、アーキテクチャは異なります。したがって、レジスタ構成も異なります。ただし、いくつかの共通点があります。

まず、8080と8086の両方には、汎用レジスタがあります。8080には6つの汎用レジスタがあり、それぞれB、C、D、E、H、Lと呼ばれます。

一方、8086には8つの汎用レジスタがあり、それぞれAX、BX、CX、DX、SI、DI、BP、SPと呼ばれます。これらのレジスタは、両方のプロセッサで算術演算やデータ転送に使用されます。

さらに、8080と8086の両方には、プログラムカウンタとスタックポインタがあります。8080のプログラムカウンタはPCと呼ばれ、スタックポインタはSPと呼ばれます。同様に、8086のプログラムカウンタはIPと呼ばれ、スタックポインタはSPとBPの2つがあります。

最後に、8080と8086の両方にフラグレジスタがあります。8080のフラグレジスタには、Carry、Parity、Auxiliary Carry、Zero、Sign、およびOverflowフラグが含まれます。8086のフラグレジスタには、Carry、Parity、Auxiliary Carry、Zero、Sign、およびOverflowフラグに加えて、DirectionとInterruptフラグも含まれます。

したがって、8080と8086のレジスタ構成にはいくつかの類似点がありますが、基本的には異なるアーキテクチャに基づいています。

セグメントとオフセットから実アドレスを得る方法[編集]

i8086は古いx86アーキテクチャの一部であり、セグメントとオフセットを使用してメモリアドレスを表します。セグメントは16ビットのレジスタで、オフセットも16ビットです。i8086では、これら2つの値を組み合わせて20ビットの実アドレスを生成します。

以下に、セグメントとオフセットから実アドレスを計算する方法を示します。

セグメントレジスタとオフセットレジスタの値を16ビットの値として取得します。
セグメントレジスタの値を16ビット左シフトします（乗算します）。
オフセットレジスタの値を加算します。
2と3で得られた値を加算すると、20ビットのアドレスが得られます。

これはリアルモードの例です。

MS-DOS時代のメモリーモデル

MS-DOS時代のメモリーモデルには、以下のような種類がありました。

タイニー(Tiny)：コード、データ、スタックが同一の64KB以下のメモリ空間に収まる小さなプログラムに使用されます。.COM のメモリーモデルです。
スモール(Small)：コードは64KB以下、データ、スタック64KBのメモリ空間に収まるプログラムに使用されます。
コンパクト(Compact)：コードは64KB以下、データ、スタックは64KB以上のメモリ空間に収まるプログラムに使用されます。
ミディアム(Medium)：コード64KB以上、データ、スタックは64KB以下のメモリ空間に収まるプログラムに使用されます。
ラージ(Large)：コード、データ、スタックのすべてが64KB以上のメモリ空間に収まるプログラムに使用されます。
ヒュージ(Huge)：コード、データ、スタックのすべてが64KB以上のメモリ空間に収まるプログラムに使用されます。１つのオブジェクトのサイズが64KBを超えることができます。

これらのメモリーモデルは、プログラムが必要とするメモリの量に応じて、最適なメモリモデルを選択できるようにしました。しかし、現代のコンピュータでは、これらのメモリモデルは使用されておらず、代わりに32ビットまたは64ビットのリニアアドレッシングを使用して、より大きなメモリ空間にアクセスできるようになっています。

浮動小数点コプロセッサー[編集]

X87は、インテルが開発した初期の浮動小数点コプロセッサで、x86アーキテクチャの一部として使用されました。 X87は、8087と呼ばれる最初のバージョンが導入され、後に80287、80387などのより高速なバージョンが登場しました。80187は80186に接続できるよう調整された80387です。

X87は、CPUとは別のチップとして設計され、CPUと接続されていました。浮動小数点演算は、X87コプロセッサで処理され、結果がCPUに返されました。このアーキテクチャは、浮動小数点演算を高速化するために開発されました。

X87コプロセッサは、浮動小数点演算を行うためにスタックベースのレジスタセットを使用していました。つまり、演算の対象となるデータがスタックにプッシュされ、演算が行われた結果がスタックからポップされます。このスタック方式は、プログラムが複雑な浮動小数点演算を行う場合に非常に有用でした。

X87は、浮動小数点演算の精度を高めるために、80ビットの拡張精度浮動小数点フォーマットをサポートしていました。これにより、CPUが提供する標準的な32ビットまたは64ビットの浮動小数点フォーマットよりも高い精度で計算ができました。

しかし、X87コプロセッサは、x86アーキテクチャの一部として標準化されてのはPentiumまで待つ必要がありました。これは、プログラムがX87コプロセッサに依存することにより、プログラムの移植性が低下する可能性がありました。そのため、後にIntelはSSE（Streaming SIMD Extensions）と呼ばれる新しい浮動小数点演算命令セットを開発し、X87を置き換えました。

今日では、X87コプロセッサはほとんど使用されておらず、ほとんどのx86プロセッサにはSSEまたはその後継のAVX（Advanced Vector Extensions）が組み込まれています。ただし、X87は、浮動小数点演算を行うための古典的な方法として、教育用途やレガシーシステムのサポートなどでまだ使用されている場合があります。

Am9511とX87

Am9511とX87は、どちらも数値演算プロセッサです。Am9511は、AMDが開発した初期の数値演算プロセッサであり、X87はIntelが開発した8087マイクロプロセッサとその後継製品です。

Am9511は、AMDが開発した最初の数値演算プロセッサの1つであり、当時は主に科学技術計算用途に使用されていました。Am9511は、8ビットのマイクロプロセッサに接続され、浮動小数点演算を高速かつ正確に実行することができます。Am9511は、スタック指向のアーキテクチャを採用しており、データはスタックに積まれ、演算子が適用されます。このアーキテクチャは、逆ポーランド記法を使用する逆ポーランド電卓と似た構造を持っています。

一方、X87は、インテルが開発した数値演算プロセッサであり、主にPC用途に使用されていました。X87は、Am9511よりも高度な機能を備えており、倍精度演算やトランセンデント関数の処理にも対応しています。X87も、スタック指向のアーキテクチャを採用しており、データはスタックに積まれ、演算子が適用されます。

これら2つの数値演算プロセッサには、演算を内部スタックを対象に行う共通点があります。スタックは、一時的なメモリ領域であり、Am9511とX87は、演算に必要なデータをスタックにプッシュして、演算結果をスタックからポップします。これにより、Am9511とX87は、複雑な数値演算をメモリーアクセスなしに非常に高速に実行することができます。

ただし、Am9511とX87は、プログラムや命令の互換性はありません。

プロテクトモード(80286)[編集]

Intel 80286は、16ビットx86マイクロプロセッサで、1982年にリリースされました。 80286では、アドレスバスが従来の20ビットから24ビットに拡張され、16MBまでのアドレス空間をサポートするようになりました。増加したアドレス空間を利用するために新たなアドレシングモード「プロテクトモード」が追加され、従来のセグメントモデルのアドレッシングモードには「リアルモード」という名前が追号されました^[1]。リセット直後の80286はリアルモードで起動します。

リアルモードでは、80286は8086と互換性があり、1MBのメモリ空間にアクセスできます。

一方、プロテクトモードでは、80286は16MBの物理メモリ空間にアクセスできます。

プロテクトモードに入るには、次の手順が必要です。

GDT（グローバルディスクリプタテーブル）の設定：GDTは、セグメントディスクリプタを格納するテーブルです。セグメントディスクリプタは、セグメントの情報を格納しており、プロテクトモードでは、これらのディスクリプタがセグメントの保護とアクセス権限を定義します。
IDT（割り込みディスクリプタテーブル）の設定：IDTは、割り込みベクタのアドレスを格納するテーブルです。プロテクトモードでは、IDTが割り込み処理を定義します。
CR0（コントロールレジスタ0）の設定：CR0は、CPUのモード、キャッシュ、割り込みの有効化など、CPUの動作に関する設定を行うレジスタです。プロテクトモードに入るには、PE（プロテクト拡張）ビットを1に設定する必要があります。

これらの設定が完了すると、80286はプロテクトモードに入り、アクセス保護が有効になります。また、80286は、特権レベルと呼ばれる概念を導入し、プロテクトモードでのアクセス権限を定義します。特権レベルは、0から3の値を持ち、0が最高特権レベルで、3が最低特権レベルです。

プロテクトモードでは、各セグメントにアクセス権限が設定されており、CPUは各アクセスに対してアクセス保護を適用します。また、80286は、仮想記憶をサポートしており、仮想アドレスと物理アドレスのマッピングを行います。

このように80286のリアルモードではディスクリプターをメモリ保護・メモリ管理・特権管理の要としています。しかし、80286が発売された1982年にはプロテクトモードを活かして設計されたオペレーティングシステムは一般向けに普及しせず、プロテクトモードを前提とするWindows3.0（スタンダードモード）の発売は1990年まで待つ必要があり、本格的にリングプロテクション機構を利用したOS/2 1.x の登場はそれより早い1987年でしたが広く普及するには至りませんでした。

80286のA20ライン

「80286のA20ライン」とは、インテルが1982年に発表したマイクロプロセッサ、80286において重要な役割を果たす一つの制御信号のことです。

A20ラインは、80286のアドレスバス上の21ビット目を制御する信号線です。この信号線の制御により、80286は1MBを約64KB超えるメモリ領域(HMA)を直接アクセスすることができます。一方、A20ラインが制御されない場合、80286は20ビットまでのアドレスしか扱えず、1MBを超えるメモリにアクセスすることができません。

しかし、A20ラインの制御は簡単ではありませんでした。初期のPCでは、A20ラインはキーボードコントローラの一部である8042チップによって制御されていました。しかし、この方式ではA20ラインの制御が不安定であり、特にシステムがリセットされたときに問題が発生することがありました。

そこで、後にはA20ラインの制御には別の方法が採用されるようになりました。具体的には、80286以降のCPUには、A20ラインを制御するための特別な制御信号が追加されました。また、BIOSやOSなどのソフトウェアも、A20ラインの制御に対応するように改良されました。

しかし、A20ラインに関する問題は、PC業界全体に影響を与えました。特に、MS-DOSやWindowsなどの古いオペレーティングシステムでは、A20ラインの制御に関する問題が多数報告されました。このため、A20ラインの制御に関する知識は、PC技術者にとって基礎的なものとなりました。

現在では、A20ラインの制御に関する問題はほとんど解決されています。しかし、80286以降のCPUには今でもA20ラインの制御信号が存在しており、メモリアクセスにおいて重要な役割を果たしています。

80286にはプロテクトモードにいったん入った後、リアルモードに戻る直接的方法が提供されていませんでした。 IBMはその対処として、キーボードコントローラーからCPUをリセットする技法を考案しました。

IA-32[編集]

IA-32という呼称自体は、インテルが新しい64ビットアーキテクチャであるIA-64を発表した際にはじめて使われた用語で、80386が発表された当時は単に32ビット命令セットや32ビット拡張と呼ばれていました。

80386では、データバスが従来の16ビットから32ビットとなり、より大きな幅のレジスターをサポートすることになりました。

EAX、EBX、ECX、EDX、EBP、ESP、EDI、ESI、EIP、EFLAG：従来のレジスターの32ビット版です。
FS、GS: セグメントレジスターは16ビットのままですが、２つのセグメントレジスターが増えました。

32ビットアドレッシング[編集]

32アドレッシングは、x86アーキテクチャにおいて、32ビットのアドレス空間を使用する方法です。これにより、最大4GBのメモリ空間にアクセスすることができます。

32アドレッシングでは、メモリアドレスは32ビットの値で表されます。これは、32ビットレジスタ（EAX、EBX、ECX、EDX、ESI、EDI、EBP、ESP）によって参照されます。レジスタは、直接アドレス指定モードで使用される場合と、間接アドレス指定モードで使用される場合があります。

直接アドレス指定モードでは、レジスタにアドレスが直接格納されます。たとえば、次のようなコードがあります。

MOV EAX, DWORD PTR [0x12345678]

これは、0x12345678のアドレスにあるDWORD（32ビット）をEAXレジスタにロードするために使用されます。

間接アドレス指定モードでは、レジスタに格納されたアドレスが指すメモリの内容にアクセスします。たとえば、次のようなコードがあります。

MOV EAX, DWORD PTR [EBX+8]

これは、EBXレジスタに格納されたアドレスに8を加えたアドレスにあるDWORDをEAXレジスタにロードするために使用されます。

32アドレッシングモードでは、多くの異なるアドレッシングモードがサポートされています。これらには、レジスタ間接アドレッシング、スケールされたインデックスアドレッシング、ベースアドレッシング、インデックスベースアドレッシング、そして相対アドレッシングが含まれます。

レジスタ間接アドレッシングは、単純な間接アドレッシングであり、レジスタに格納されたアドレスが指すメモリにアクセスします。スケールされたインデックスアドレッシングは、基本アドレスにインデックスを掛けてアクセスする方法です。ベースアドレッシングは、基本アドレスにオフセットを加えてアクセスする方法です。インデックスベースアドレッシングは、インデックスとベースレジスタを組み合わせてアクセスする方法です。相対アドレッシングは、基本アドレスにオフセットを加えてアクセスする方法ですが、オフセットはリテラル値で与えられます。

仮想86モード[編集]

仮想86モードとは、x86アーキテクチャにおいて32ビットプロテクトモードで動作しているアプリケーションが、16ビットリアルモードで動作しているように見せかけるモードのことです。仮想86モードでは、プロテクトモードで実行されているアプリケーションが、リアルモードのアドレッシングを使用することができます。これにより、プロテクトモードで実行されているアプリケーションが、リアルモードのアプリケーションと同じ方法で、BIOSやハードウェアの割り込みを使用することができます。

仮想86モードの有効化: 仮想86モードを有効にするには、以下の手順を実行する必要があります。

ページディレクトリレジスタ（CR3）に、ページングテーブルを指すアドレスをロードします。
制御レジスタ4（CR4）のVMフラグをセットします。
タスクステートセグメント（TSS）のトラップビットをセットします。
IRET命令を使用して、仮想86モードに切り替えます。

仮想86モードの制限: 仮想86モードには、以下のような制限があります。

仮想86モードでは、16ビットリアルモードの制限が適用されます。たとえば、セグメントレジスタによるアドレッシングしか使用できないなどの制限があります。
仮想86モードで実行されるプログラムは、プロテクトモードで実行されるプログラムよりも制限されたアクセス権を持ちます。
仮想86モードでは、プロテクトモードで使用できる一部の命令が使用できない場合があります。
仮想86モードでは、I/Oポートアクセスに制限があります。アクセスできるポートは、特権レベル0（Ring0）で実行されるコードがアクセスできるポートと同じ範囲に制限されます。

MMXレジスター[編集]

MMX（Multi-Media eXtensions）は、インテルが開発したSIMD（Single Instruction Multiple Data）命令セット拡張です。MMXは、整数型データを高速に処理するための拡張命令セットで、主にマルチメディアアプリケーションやグラフィック処理に使用されます。MMX命令は、MMXレジスタに対して操作を行います。

MMXレジスタは、64ビットのレジスタで、64ビットの整数値を格納できます。MMX命令は、2つのMMXレジスタを対象に演算を行い、その結果を別のMMXレジスタに格納します。MMXレジスタは、通常の汎用レジスタとは別に管理されます。

MMXレジスタには、8つのレジスタがあります。それぞれのレジスタは、mm0からmm7までの名前で識別されます。MMXレジスタは、float型データと整数型データの両方を扱うことができます。ただし、MMXレジスタは、浮動小数点演算をサポートしていないため、浮動小数点数の演算を行う場合は、XMMレジスタを使用する必要があります。

MMXレジスタは、以下のような命令で使用されます。

加算命令：PADD, PADDS, PADDSW, PADDB, PADDW, PADDD
減算命令：PSUB, PSUBS, PSUBSW, PSUBB, PSUBW, PSUBD
乗算命令：PMUL, PMULLW, PMULHW, PMULHUW
ビット演算命令：PAND, PANDN, POR, PXOR
ムーブ命令：MOVD, MOVDQU, MOVQ, MOVNTQ

MMX命令は、MMXレジスタに対する演算を高速に実行することができます。MMXレジスタには、SSE命令と同様に、128ビットのXMMレジスタとの相互変換が可能な命令もあります。

また、MMX命令は、CPUによって自動的にパイプライン化されるため、処理速度を向上させることができます。ただし、MMX命令は、通常の整数演算命令と混在することができないため、注意が必要です。

MMXレジスタはX87の演算スタックとレジスタファイルを共有しているので、MMXとX87命令とは共存できません。

SSEレジスター[編集]

SSE（Streaming SIMD Extensions）は、インテルが開発したSIMD（Single Instruction Multiple Data）命令セットの一種であり、同時に複数のデータを処理することができます。SSE命令を使用する場合、データはSSEレジスタにロードされます。

SSEレジスタは、XMM0からXMM15までの16個の128ビットレジスタで構成されています。これらのレジスタは、64ビットまたは32ビットの整数、単精度または倍精度の浮動小数点数など、さまざまなデータ型を格納することができます。SSEレジスタは、MMXレジスタと同様に浮動小数点数の精度を向上させることができます。

SSEレジスタは、XMM0からXMM7までのレジスタを使用するSSE命令と、XMM8からXMM15までのレジスタを使用するSSE2命令に分類されます。SSE3以降の命令では、SSEレジスタ全体が使用されることがあります。

SSE命令を使用する場合、SSEレジスタにデータをロードしてから、適切なSSE命令を使用してデータを処理します。たとえば、以下の例は、XMM0レジスタに単精度浮動小数点数をロードし、XMM1レジスタにもう1つの単精度浮動小数点数をロードし、それらを加算するSSE命令を示しています。

movss xmm0, [float_var_1]
movss xmm1, [float_var_2]
addss xmm0, xmm1

このコードでは、movss命令を使用して、float_var_1とfloat_var_2という2つの単精度浮動小数点数を含むメモリ位置からデータをロードします。その後、addss命令を使用して、XMM0レジスタとXMM1レジスタの値を加算し、結果をXMM0レジスタに格納します。

SSEレジスタを使用することで、データ処理の効率が向上し、処理速度が高速化されることがあります。ただし、SSE命令は、CPUがSSEに対応していることを前提としているため、古いCPUでは使用できない場合があります。

SSE命令の世代[編集]

SSE（Streaming SIMD Extensions）は、インテルが開発したSIMD（Single Instruction Multiple Data）命令セットアーキテクチャの1つであり、CPUで高速な浮動小数点演算、整数演算、およびメモリアクセスを実現するために使用されます。SSEは、CPUの内部でベクトル演算を行い、1つの命令で複数のデータを同時に処理することができます。SSEは、マルチメディア処理、3Dグラフィックス、科学技術計算などのアプリケーションで広く使用されています。

SSE

最初のSSE命令セットは、1999年にインテルのPentium IIIプロセッサで導入されました。このバージョンは、128ビットのXMMレジスタを使用し、浮動小数点数の加算、減算、乗算、除算などの基本的な演算をサポートしています。また、整数演算とメモリアクセスにも対応しています。

SSE2

SSE2は、2000年に導入されたSSEの拡張バージョンであり、SSEの機能を拡張しました。SSE2は、128ビットと64ビットのXMMレジスタをサポートし、整数演算、浮動小数点演算、およびメモリアクセスに対応しています。SSE2は、SSEよりも高速な浮動小数点演算を実現し、64ビット整数演算をサポートするなどの機能を提供しています。SSE2は、AMD Athlon 64やIntel Pentium 4などのプロセッサでサポートされています。

SSE3

SSE3は、2004年に導入されたSSE2の拡張バージョンであり、新しい命令と改良された命令を追加しました。SSE3は、浮動小数点演算、整数演算、およびメモリアクセスに対応しており、浮動小数点数の丸め、整数演算の改良、キャッシュミスの最適化などを実現しています。SSE3は、Intel Pentium 4やIntel Core 2 Duoなどのプロセッサでサポートされています。

SSE4.0

SSE4.0は、2006年に導入されたSSE命令の世代です。SSE4.0では、新しい命令が導入され、より高速な処理が可能になりました。以下は、SSE4.0で導入された主な命令です。

PCMPESTRI/PSCALED: テキスト文字列とパターンを比較する命令。
PCMPESTRM: バイト列とパターンを比較する命令。
PCMPEQQ: 128ビット整数値の等値比較を行う命令。
BLENDPD/BLENDPS: 2つの128ビット浮動小数点ベクトルをブレンドする命令。
DPPS/DPPD: 2つの128ビットベクトルのドット積を計算する命令。

SSE4.1

SSE4.1は、2007年に導入されたSSE命令の世代です。SSE4.1では、SSE4.0で導入された命令に加えて、新しい命令が導入されました。以下は、SSE4.1で導入された主な命令です。

PABSB/PABSW/PABSD: 2つの128ビット整数ベクトルの絶対値を計算する命令。
PMULDQ: 2つの128ビット整数ベクトルの積を計算する命令。
PMINSB/PMINSD: 2つの128ビット整数ベクトルの最小値を計算する命令。
PMAXSB/PMAXSD: 2つの128ビット整数ベクトルの最大値を計算する命令。
ROUNDPS/ROUNDPD: 2つの128ビット浮動小数点ベクトルの丸めを行う命令。

AMD64[編集]

AMD64は、x86アーキテクチャの64ビット拡張です。AMD64アーキテクチャは、従来の32ビットのx86アーキテクチャに加えて、拡張された64ビットレジスタや命令セット、新しいレジスタとモードを追加しています。AMD64は、より大きな仮想アドレス空間をサポートし、64ビットアプリケーションの作成を可能にしました。

以下は、AMD64のアセンブリ言語についての基本的な概念や文法の説明です。

レジスタ

AMD64アーキテクチャは、16本の64ビット汎用レジスタを持っています。これらは、RAX、RBX、RCX、RDX、RSI、RDI、RBP、RSP、R8～R15の名前で識別されます。

メモリアクセス

メモリアクセスは、MOV命令を使用して行われます。メモリアドレスは、次のような形式で指定されます。

[ベース + インデックス * スケール + オフセット]

ベース、インデックス、スケール、オフセットはすべて省略可能で、それぞれ0がデフォルト値として使用されます。以下は、いくつかの例です。

mov rax, [rbx]     ; rbxのアドレスにある64ビットデータをraxにロード
mov [rax], rbx     ; rbxの値をraxが指すアドレスにストア
mov rax, [rbx + 8] ; rbx + 8のアドレスにある64ビットデータをraxにロード

スタック

スタックは、RSPレジスタを使用してアクセスされます。PUSHおよびPOP命令を使用して、スタックにデータをプッシュしたりポップしたりできます。

push rax  ; スタックにraxの値をプッシュ
pop rax   ; スタックから値をポップしてraxに格納

関数呼び出し

関数呼び出しは、CALL命令を使用して行われます。関数呼び出しの前に、引数をスタックにプッシュし、関数の戻り値をRAXレジスタに格納することが一般的です。

push arg1     ; arg1をスタックにプッシュ
push arg2     ; arg2をスタックにプッシュ
call function ; 関数を呼び出す
add rsp, 16   ; スタックポインタを復元する

AVX命令とZMMレジスター[編集]

ZMMレジスタは、Intel AVX（Advanced Vector Extensions）命令セットの一部であり、256ビット幅の浮動小数点数または整数のベクトル演算をサポートします。これらのレジスタは、AVX-512拡張命令セットで更に拡張され、512ビット幅の浮動小数点数または整数のベクトル演算をサポートします。

以下の学術論文は、ZMMレジスタに関する詳細な情報を提供しています。

Intel® 64 and IA-32 Architectures Software Developer's Manual, Volume 2A: Instruction Set Reference, A-M - この文書は、Intel® 64およびIA-32アーキテクチャの命令セットのリファレンスを提供する公式の技術文書です。ZMMレジスタについて詳しく説明されています。
"Intel AVX-512 Instructions and Their Use in ResNet-50 Deep Learning" by Pavel Drobot and Alexander Semenov - この論文は、AVX-512拡張命令セットについて詳しく説明し、ZMMレジスタを使用したDeep Learningアルゴリズムの実装について説明しています。
"An Optimized Software Implementation of the SHA-256 Hash Function for Multi-Core and Many-Core Intel Architectures" by Martijn B. van Leeuwen - この論文は、SHA-256ハッシュ関数の最適化されたソフトウェア実装について説明し、ZMMレジスタの使用について説明しています。

これらの文献を参照することで、ZMMレジスタに関する深い理解を得ることができます。

AVX2[編集]

X86アセンブラにおけるAVX2（Advanced Vector Extensions 2）は、256ビットのベクトル演算をサポートする命令セット拡張です。これにより、浮動小数点数や整数などのデータを一度により多くのデータ要素で処理できるようになります。以下にAVX2に関する詳細を示します。

AVX2の主な特徴：

256ビット幅のYMMレジスタを使用し、命令によっては複数のデータ要素を同時に処理できます。整数演算に加え、浮動小数点数演算もサポートします。 FMA（Fused Multiply-Add）命令が追加され、一度の命令で乗算と加算を同時に行うことができます。他の拡張命令セットとの互換性があり、SSEやAVXなどの命令セットと同時に使用できます。以下は、AVX2の命令の例です。AVX2命令の一部について説明し、Intelの公式ドキュメントへのリンクを提供します。

VADDPS：ベクトルの加算: YMMレジスタの2つのベクトルを加算し、結果を同じYMMレジスタに格納します。例えば、次の命令は、YMM1およびYMM2レジスタの2つの256ビットの浮動小数点数ベクトルを加算します。

VADDPS ymm1, ymm1, ymm2

詳細については、Intelの公式ドキュメントを挙げることができます。Intelの開発者向けウェブサイト（ https://software.intel.com/content/www/us/en/develop/articles/introduction-to-intel-advanced-vector-extensions.html ）には、AVX2に関する詳細な情報が含まれています。このページでは、AVX2の概要、サポートされている命令、およびプログラミングのヒントが説明されています。

また、AVX2に関するさまざまなアセンブリコードの例を提供する多数のWebサイトがあります。たとえば、Assembly Language Programmingというサイト（ http://www.assemblylanguagetuts.com/avx2-introduction/ ）では、AVX2に関する基本的なアセンブリコードを説明しています。

脚註[編集]

^ System/360などのメインフレームをご存知の方は、プロテクトモードとリアルモードの名前が逆に感じるかもしれません。

参考文献[編集]

IA-32 インテル® アーキテクチャソフトウェア・デベロッパーズ・マニュアル下巻：システム・プログラミング・ガイド. (2004).

[1] System/360などのメインフレームをご存知の方は、プロテクトモードとリアルモードの名前が逆に感じるかもしれません。

[1]