コンテンツにスキップ

高等学校情報/社会と情報/情報のデジタル化

出典: フリー教科書『ウィキブックス(Wikibooks)』


アナログとデジタル

[編集]

コンピューターによって伝達される情報の中身は、「電圧が高い」=1、「電圧がひくい」=0として、ただ0と1のパターンだけで代表される情報である。

このように0と1の数値で表わされる情報をデジタル情報と呼ぶ。一方、離散的ではない量で表わされる量はデジタルに対してアナログ情報と呼ばれる。(※語の英訳: デジタル digital、アナログ analog)

文字を送るには、たとえばアルファベットの文字を送りたいなら、「A」ならデジタル信号 0100 0001 に対応するとして、あらかじめ決めておく。同様に、「B」ならデジタル信号 0100 0010 に対応するとして、あらかじめ決めておく。「C」ならデジタル信号 0100 0011 に対応するとして、あらかじめ決めておく。

このように、それぞれの文字ごとに、あらかじめ固有のデジタル信号を割り当てておけば、1と0だけのデジタル信号だけで、アルファベットを送受信できる。

このように、文字などの、もともとは数値でなかった情報を、コンピューターであつかいやすいように数字の列に置き換えることを、符号化(ふごうか、encouding)という。

デジタルの特徴

[編集]
デジタル信号の復元の原理

デジタル情報は、基準の電圧の値(「しきい値」(しきいち))よりも「高い」か「低い」かさえ分かればいいので、少しのノイズがあっても、もとの情報を復元できる。

このように、デジタル情報は、ノイズの影響を受けにくい。

いっぽう、アナログ情報は、ノイズの影響を受けると、復元しずらい。


コンピュータにおける情報の表し方

[編集]

ふだん私たちが使っている、0から9までの数字をつかった数え方を十進法(じゅっしんほう)という。また、十進法で表記された数のことを十進数という。

対応表
10進法 2進法
0 0000
1 0001
2 0010
3 0011
4 0100
5 0101
6 0110
7 0111
8 1000
9 1001
10 1010
11 1011
12 1100
13 1101
14 1110
15 1111

コンピューターは、十進法の「1」に対応する数値をあつかうとき、普通のコンピュータでは「0001」というデジタル信号としてあつかう。 コンピューターは、十進法の「2」に対応する数値をあつかうとき、普通のコンピュータでは「0010」というデジタル信号としてあつかう。 同様に、「3」という数値をあつかうとき、「0011」というデジタル信号としてあつかう。 「4」なら「0100」というデジタル信号として扱う。

このように、していけば、デジタル信号「1111」は、十進法の「15」に対応していく。

このように、0と1という2つの数字だけの数え方を、2進法あるいは2進数という。

2進数を用いるときには、10進数を用いるときと同様に、1の位が2進数の最大の数である1となった時に、更に1を加えるときには、ケタ上りが起こる。

例えば、0の次は1であるが、1の次は、1の位が1であるため桁上りが起こり、次の数は10である。(これはジュウではなく、「イチゼロ」と読む。)

さらに次の数は11であり、さらに次の数は100である。

このような手法を用いて、非常に大きい数も表わすことができる。


2進数を10進数に換算するには、

たとえば、2進数「1011」を10進数に置き換えるには、 (10進数の)数式で表せば、

1×23 + 0×22 + 1×21 + 1×20
= 8 + 0 + 2 +1
= 11

のように計算すればよい。

よって、2進数「1011」は10進数「11」に対応することが分かる。


さて、「110」という数字だけでは、それが十進数か二進数であるかは分からない。

そこで、数字が二進数である事を強調したい場合は 110(2)のように、右下に (2) をつける。
同様に、数字が十進数である事を強調したい場合は 110(10)のように、右下に (10) をつける。


さて、数学的には2進数が理論的な都合のため扱いやすいが、桁数が大きくなるという不便がある。そこで、コンピューター産業の実務では、16進数が使われることも多い。

10進数、2進数と16進数との対応表を示す。

対応表
10進法 2進法 16進法
0 0000 0
1 0001 1
2 0010 2
3 0011 3
4 0100 4
5 0101 5
6 0110 6
7 0111 7
8 1000 8
9 1001 9
10 1010 A
11 1011 B
12 1100 C
13 1101 D
14 1110 E
15 1111 F



情報量の単位

[編集]
情報量の単位
単位 読みかた 内容
bit ビット -
B バイト 1B=8bit
KB キロバイト 1KB=1024B
MB メガバイト 1MB=1024KB
GB ギガバイト 1GB=1024MB
TB テラバイト 1TB=1024GB

1ケタの2進数によって、「0」か「1」という、2通りのパターンが表せる。 たとえば、コインの表をたとえば「0」と仮定して、またコインの裏をたとえば「1」とすれば、1ケタの2進数によって、1枚のコインの表裏を表せる。

つまり、1ケタの2進数によって、2通りの情報が表せる。


同様に、2ケタの2進数によって、「00」「01」「10」「11」という、4通りのパターンが表せる。つまり、2ケタの2進数によって、4通りの情報が表せる。たとえば四季のうち、春は「00」に、夏は「01」、秋は「10」、冬は「11」とすれば、2ケタの2進数によって四季のパターンを表せる。

一般に、ケタの2進数によって 通りのパターンが表せるので、つまり、ケタの2進数によって 通り情報が表せる。

コンピュータ科学では、この「0」か「1」かの1ケタぶんの情報の量を基準にする。そして、「0」か「1」かの1ケタぶんの情報の量のことを1ビットという。つまり、ビット(bit)が、情報の量をあらわす単位である。

そして、1ビット増やすごとに、表せる情報の量は2倍になる。

ビットの情報は 通りのパターンに対応している。


数学的にはビットという単位が扱いやすいが、膨大な情報をあつかうとケタ数が多くなるので、8ビットをまとめて「1バイト」とする、バイト(Byte)という単位ができた。

つまり1バイトは、 通りの情報を表す。

実生活では、大きな情報の量を表す時、このバイトという単位の前に、さらにキロ(K)やメガ(M)やギガ(G)などの2進接頭辞をつける事も多い。


このような、情報の量のことを情報量(じょうほうりょう)という。

(※範囲外) 2進接頭辞とSI接頭語
2進接頭辞とSI接頭語は、数値やデータの表現において使われる接頭辞で、特定の単位を表すために用いられます。
2進接頭辞(Binary Prefixes)
2進接頭辞は、主にコンピューターサイエンスや情報技術の分野で使われます。これらの接頭辞は、2進数を基にしており、データのサイズやデータ伝送速度などを表す際に使用されます。
代表的な2進接頭辞には、次のようなものがあります:
kibi(Ki; キビ)
(1 024)※ Ki の K は大文字
mebi(Mi; ミビ)
(1 048 576)
gibi(Gi; ギビ)
(約1 073 741 824)
これらの接頭辞は、データのサイズやメモリ容量、ファイルサイズなどを表現する際に使用されます。
SI接頭語(SI Prefixes)
SI接頭語は、国際単位系(SI: Système International d'Unités)に基づいており、一般的に物理学や工学などの科学技術分野で使われます。これらの接頭語は、10進数を基にしており、物理量の測定や単位の表現に用いられます。
代表的なSI接頭語には、次のようなものがあります:
kilo(k; キロ)
(1 000)
mega(M; メガ)
(1 000 000)
giga(G; ギガ)
(1 000 000 000)
SI接頭語は、長さ、重さ、時間、電力、電圧など、様々な物理量を表現するために使用されます。
2進接頭辞の名称に、SI接頭語に由来するキロ、メガ、ギガ等を誤差を無視して流用することがしばしばあり、本節でもキビとすべきところにキロを用いていますが、誤用です。


文字コード

[編集]

前の節でも説明したが、コンピューター内部での文字の扱いは、たとえば「A」ならデジタル信号 0100 0001 に対応するとして、あらかじめ決めておく。同様に、「B」ならデジタル信号 0100 0010 に対応するとして、あらかじめ決めておく。「C」ならデジタル信号 0100 0011 に対応するとして、あらかじめ決めておくのであった。

このように、文字などの、もともとは数値でなかった情報を、コンピューターであつかいやすいように数字の列に置き換えることを、符号化(ふごうか、encouding)という。

さて、文字を2進数の番号に対応させたとき、その2進数の番号のことを文字コード(character code)という。

2進数で表すとケタが多くなってしまうので、16進数で文字コードを表す場合もある。

たとえば、文字「A」のデジタル信号 0100 0001 なら、前半の 0100 は 4に対応、後半の0001は1に対応するので、「A」は16進数では 41 で表される。

ちなみに、このデジタル信号 0100 0001 は ASCIIコード(アスキーコード)という文字コードの規則のばあいの文字「A」の文字コードである。「ASCII」とは American Standard Code for Information Interchange の略であり、1960年代にアメリカ合衆国で定められた。

以下に、ASCIIコードの一覧を示す。

ASCIIコード表
上位3ビット
16進 0 1 2 3 4 5 6 7
16進 2進 000 001 010 011 100 101 110 111


4


0 0000 制御文字 空白 0 @ P ` p
1 0001 ! 1 A Q a q
2 0010 " 2 B R b r
3 0011 # 3 C S c s
4 0100 $ 4 D T d t
5 0101 % 5 E U e u
6 0110 & 6 F V f v
7 0111 ' 7 G W g w
8 1000 ( 8 H X h x
9 1001 ) 9 I Y i y
A 1010 * : J Z j z
B 1011 + ; K [ k {
C 1100 , < L \ l |
D 1101 - = M ] m }
E 1110 . > N ^ n ~
F 1111 / ? O _ o


ASCIIコードは、7ビットである。

ASCIIコードは、英数字を扱えるが、日本語をあつかうには情報量が足りなくて、日本語を扱えない。

そのため、日本国では、日本産業規格(にほんこうぎょうきかく、略称:JIS、※ JISは「ジス」と読む)によって1970年ごろから、ASCIIコードを参考にして、ASCIIコードの7ビットにさらに1ビットを加えて8ビットの文字コードとすることで、英数字にくわえてカタカナや句読点など日本語特有の記号をあつかえるJISコード(「ジスコード」と読む)が定められた。

1バイト=8ビットでは、28=256通りの情報量を扱える。

日本の古いパソコンで、英数字とカタカナしか表示できないのは、このような理由による。 ASCIIやカタカナだけのJISのように、1バイト以内(1バイトもふくむ)の文字コードを「1バイト文字」などという。

しかし、たった256通りの情報量では、漢字やひらがなを扱うには、情報量が足りない。

そこで、さらに1バイトを足して2バイトで文字をあつかうことによって、漢字や平仮名も処理できるようにした2バイト文字がJISによって定められ、JISコードに2バイトの文字コードが導入された。このように、2バイトの文字コードのことを「2バイト文字」などという。

しかしJIS規格は、日本の規格のため、外国のコンピューターシステムでは通用しない場合がある。 JISコードに対応していない外国などのコンピュータでは、日本語がうまく表示されず、符号を英数字などと間違えてしまい、意味不明の英数字の文字列が表示されてしまう。

このような、いわゆる「文字化け」(もじばけ)が、文字コードの規格の不対応によって起きてしまう。

そのため、さらに文字コードの情報量を多くすることで、英語や日本語だけでなく、いろんな国の言語を統一的にあつかえるUnicode(ユニコード)が定められている。近年では国際化のため、文字コードをなるべく Unicode に統一する動きが、さかんである。そのため、近年、Unicode が普及してきている。

Unicode の符号化の方式には UTF-8 や UTF-16 などがあり、多くの場合に UTF-8 が使われている。なお、「UTF」は「ユーティーエフ」と読む(※ 数研出版)。 たとえば2023年現在、webサイトのソースコードの規格である HTML5 および後継規格(※ HTML Living Standard)では、文字コードはUTF-8が推奨されている(実教『情報I』P35 傍注、開隆堂『情報I』脚注)。

なお、UTF-8 がユニコードの一種だという証拠として、UTF-8の「UTF」とは Unicode Transformation FOrmat のこと(実教 I)。


近年では国際規格の ISO によって Unicode が規定されている。(※ 検定教科書の範囲内。開隆堂の教科書など。)

なお、近年に Unicode が普及する以前、ASCIIコードを参考にいろんな文字コードが各国や各団体によって考えられ各国で実用化されていたので、そのため世界にはいろんな文字コードがある。

音のデジタル化

[編集]

サンプリング

[編集]
標本化の説明

音は、「音波」などと言われるように、波であるので、波形で表せる。

音波のグラフでの表現方法には色々あるが、よくある表現方法のひとつでは、横軸に時間、縦軸に音の強さという表現方法がある。右図のグラフも、それに合わせて、ある音の強さをセンサー類などで電圧に変換したものをグラフで図示したものである。

※ なお、音の理科的な性質については、高校では「物理」科目であつかう。

まず、音とは、空気の振動であるので、何らかの電気的なセンサーによって、空気のゆれを読み取れば、音を読み取れる。

音は波であるので、音の波形には周期(しゅうき)や周波数(しゅうはすう)がある。周波数とは、1秒間にふくまれる波の数であり、単位は[Hz](発音:「ヘルツ」)である。たとえばラの音の周波数は440Hzである。周期は、波が1個ぶん、伝わるのに要する時間であり、単位は秒[s]である。

※ 「周期」、「周波数」などの用語については、理科の「物理」科目でも習う。よく分からなければ、物理の参考書でも読むか、外部の信頼できる物理教育の解説サイトでも読めばいい。


ふつう、自然界の音には、周波数のことなる、いくつもの音の合成であり、無限個の種類の音が含まれている。だが、コンピューターでは無限の情報をあつかえないので、一定の時間の間隔で、各時間の音の強さを読み取る。


このように、一定の間隔でデータを読み取ることを標本化(ひょうほんか、英語: sampling)またはその英語にもとづきサンプリングという。

※ 「標本化」「サンプリング」については物理では習わない。下記の用語も同様。


1秒間あたりに標本化する回数をサンプリング周波数といい、単位はヘルツ(記号は Hz )である。

音に限らず、サンプリング周波数が高くなればなるほど、より細かい間隔で取り出すことになるので、もとのアナログ波形に近づく。

なので、サンプリング周波数を増やすほど、実際の音に近くなるが、そのぶんだけ必要なデータ量も増える。


そして、標本化によって取り出された各時間のデータを、それぞれ整数に置き換えることを量子化(りょうしか、quantzaition)という。

このように量子化されたデータをまとめて、たとえば 0110 1010 0111 ・・・(以下略)というように、コンピューターが読み取りやすいように0と1からなる2進数の数字の列にすることを符号化(ふごうか、encoding)という。

サンプリング1回あたり、たとえば1つの音を3ビットで符号化すれば、2×2×2=8 なので(2の3乗)、8段階の強さを表現できる。 あるいは、4ビットずつで符号化すれば、2×2×2×2 = 16 なので、16段階の強さを表現できる。

このように、サンプリング1回あたりに割り当てているビット数のことを量子化ビット数と言い(※実教出版 I、日本文教出版 I)、量子化ビット数が多いほど波の波高を多い段階で表現できるので、誤差が少なくなる。

一般に n ビットで 2n 段階の表現をできる(※ 日本文教出版 I)。

このように、サンプリング周波数が高いほど、あるいは量子化ビット数が多いほど、元のアナログ波との誤差は少なくなるが、使用するデータ量は増える。

なお、公式として、

1秒あたりのデータ量の公式(ビット) =
サンプリング周波数 × 量子化ビット数 × チャンネル数

である。

モノラル音声なら1チャンネル。ステレオ音声なら1チャンネルである。(日本文教出版)


そして、このように記録された音の強さのデーターをもとに、音をスピーカーなどから適切に出力すれば、音声を出力できる。

このように、音の強さを記録および出力することによって、音声をコンピューターで記録したり演奏する方法をPCM方式(ピーシーエムほうしき)という。Pulse Code Modukation の略である。直訳すれば、パルス符号変調方式となる。

※ 範囲外: PCMは音でありさえすれば、ほぼ何でも処理できるので、人間や動物の声も扱えるし、楽器の音も扱える。

いっぽう、もし楽器だけからなる曲なら、楽譜のデータだけを記録・処理すれば、音をあらわせる。演奏された曲は記録せず、楽譜のデータだけを記録することで、それを出力して曲を再生する方式をMIDI方式(ミディほうしき)という。

※ 範囲外: MIDIは、人間や動物の声などは、扱えない。一般に、楽器の音しか、MIDIは扱えない。

MIDIは、演奏された曲そのものは記録してないので、PCMとくらべればデータ量が少なくてすみ。


  • 備考

CD(コンパクトディスク)では、音楽CDのサンプリング周波数は44100Hzである。ケタ数が多いので、44.1kHz とも表す。 CDは16ビットで量子化している。

つまり、CDの量子化ビット数は16ビットであり、つまり65536段階である(実教出版 I)。

  • 練習問題

上記をもとに音楽CDの1分あたりのデータ量をバイト単位で求めよ。有効数字は4ケタとする。なお、ステレオ音声なのでチャンネル数は2である。

ただし、電卓を用いてよい。

また、1バイトは8ビットとする。(つまり16ビットで2バイト。)なお、バイトの単位はBとして、1メガバイト(1MB)=1000000 Bである。(※ 1メガは10の6乗。つまり1の後ろにゼロが6つでメガ。)


解法)

まず、1秒あたりのデータ量の公式は、

1秒あたりのデータ量の公式(ビット) =
サンプリング周波数 × 量子化ビット数 × チャンネル数

であった。

まず、これを求めよう。代入し、

44100 ×16×2

=1411200 ビット

これはまだ1秒あたりである。求めたいのは1分あたりなので60倍して、

1411200 ×60
= 84672000 ビット

である。

求めたいのはバイト単位であり、1バイト=8ビットなので

84672000 ÷ 8 = 10584000 バイト

メガバイト単位に直せば、

10.584 MB

である。

有効数字が4ケタなので、答えは

10.58 MB となる。


  • アナログ-デジタル変換
アナログ-デジタル変換回路
:連続量であるアナログ信号
:離散化されたデジタル信号


標本化定理

[編集]

たとえば、50Hzと40Hzと30Hzという3つの波を合成した波形があったとする。周波数ごとに、それぞれ、振幅が異なるとしよう。

この合成波を標本化するには、100Hz以上で標本化すれば、もとの波形を完全に復元できるのに充分な情報が得られる事が、数学的に分かっている(※ 証明は、大学レベルであり、高度に専門的なので、省略)。

つまり、「波形に含まれる最大周波数の2倍で標本化すると、最小の周波数で標本化できる」という定理(ていり)がある。

これを標本化定理(ひょうほんか ていり)という。


サンプリング周波数が高ければ高くなるほど、出力される波形は、もとの波形に近づく。だが、そのぶん、記録しなければならないデータ量が増えてしまう。

なので、なるべく小さいサンプリング周波数で、標本化したい、という記録のさいの都合がある。

標本化定理によって、合理的なサンプリング周波数を知れて、記録データ量を節約できるので、便利である。


もとの音の周期の半分よりも、より短い周期で標本化すると、数学的に合理的であることが分かっている。


なお、周期と周波数は逆数どうしの関係にあるので、周期を基準にして標本化定理を言い換えると、

「合成波の波長のうち、もっとも短い周期の2分の1以下で、標本化すればいい。」というふうになる。


最大周波数が50Hzの合成波なら、周波数50Hzとは周期0.02[s]のことだから、つまり 0.01[s]以下で標本化すればいい。


  • 備考

1949年に、米国のクロード=シャノンと、日本の染谷勲(そめや いさお)が、標本化定理を発見した。



画像のデジタル化

[編集]

色のデジタル化

[編集]
光の三原色

まず、パソコンなどの液晶モニター中の画面の色は、赤色なら赤色の透明セロハンを通り抜けた光であり、緑色なら緑色の透明セロハンを通り抜けた緑色の光であり、青色なら青色の透明セロハンを通りぬけた青色の光である。

いわゆる「光の三原色」、「加法混色」(かほう こんしょく)である。

そして、この赤(R)、緑(G)、青(B)という3つの原色(げんしょく)をくみあわせて、組み合わせのさいのわりあいを調節することで、いろんな色を表す。

赤・緑・青の3色とも合わさった場合が白色である。


いっぽう、図画工作や美術で、絵の具でおおくの色をまぜあわせていくと黒くなっていくように、印刷物では色を混ぜれば混ぜるほど、黒くなっていく。この絵の具のような色の混ざり方を減法混色(げんぽう こんしょく)という。

減法混合。原色のうち、シアンとマゼンタはそれぞれ青と赤とも呼ばれることもある。

赤(正確にはマゼンダ)・黄色(イエロ-)・青(正確にはシアン)の三種類に分解する方式。

減法混色では、シアン(C: Cyan)、マゼンタ(M: Magenta)、イエロー(Y: yellow)という3色が原色(げんしょく)である。 カラープリンターでは、この減法混色の三原色のインクが使われている。つまり、カラープリンターのインクは、シアン、マゼンダ、イエローの3つのインクが使われている。

実際のカラープリンターでは、黒をきれいに印刷するために、さらに黒インク(K)を加えている。

つまり、実際のカラープリンターでは、シアン(C)、マゼンタ(M)、イエロー(Y)、黒(K)、という4種類の色のインクが使われている。

色の階調

[編集]

現在のパソコン用の画像処理ソフトなどで、色をつくっているときに、たとえば

赤(R): 255
緑(G): 180
青(B): 10

などというように、

それぞれの原色の数値を調節して、色をつくっていく。

なお、この例の場合の「255」「180」「10」などは十進数である。

一般に、各原色はそれぞれ0から255までの整数を取れる。つまり、それぞれの原色は256段階である。 たとえば「赤(R):0」なら、まったく赤色が無い。 いっぽう、「赤(R):255」なら、赤色の強さが最大である。

28=256なので、つまり8ビットによって、原色の段階をあらわしている。

このような、色の段階を、色の階調(かいちょう)という。

たとえば、もし完全な白色をつくる場合なら

赤(R): 255
緑(G): 255
青(B): 255

のように設定する。


もし完全な黒色をつくる場合なら

赤(R): 0
緑(G): 0
青(B): 0

のように設定する。

もし完全な黄色をつくる場合なら

赤(R): 255
緑(G): 255
青(B): 0

のように設定する。

画像処理ソフトなどで「RGB」という表記をされている項目は、このような色の階調についての設定や処理をしている項目である。

3つの原色がそれぞれ256段階あるので、合計で 2563=16777216通りの色を表せる。つまり約1677万色である。


  • 発展:
ディスプレイやプリンタなどの色特性の説明で使われる専門的なグラフ(CIE の色空間とxy色度図のグラフ)
グラフ中の三角形は、デバイス(例ではディスプレイと思われる)の表現できる色の領域の限界(その三角形の外の色は表現できない)
デバイスの種類(プリンタなどの場合)によっては四角形以上の場合もある

印刷機器などの設定をするときには、「RGB」項目ではなく、「CMYK」 または「CMY」などという項目を設定する場合がある。印刷の色の設定は、高度に専門的なので、説明を省略する。 (※ 検定教科書でも、印刷機器の色の設定については、説明に触れていない。)

※ 2003年の東京書籍の「情報II」の教師用指導書で、用語集のページで「カラーマネジメント」を紹介している。
※ 日本文教出版『情報I』がCIE色空間のグラフを掲載(ただし、「CIE」「色空間」などの名称は未掲載)。

このようにプリンタとディスプレイの色の特性のちがいがあるので、商業ポスターや高校の文化祭ポスターなどを作る際は、一発でうまく印刷できる事は無い。なので、試し刷りをして、微調整を繰り返すことにな(※日本文教出版の見解)。

※ 日本文教出版の『情報I』教科書では、『「印刷のプロパティ」で用紙の種類や色、印刷品質を適切に設定する』とありますが、しかし正直言って、その設定ですら、そこそこ難しいです。なので専門外の人は、標準設定のまま印刷機器を使うほうが安全です。外注の業者などに依頼する際、そういった設定が必要になる場合もある、とだけ覚えておけば、専門外の人としては十分でしょう。
(※ 範囲外)カラーマネジメント

じつは、パソコンによって、表示される色合いは違う。消費者の好みが多様であり、たとえば青味がかった画面を好む人もいれば、そうでなく赤味がかった画面を好む人もいる。

パソコンソフトのデータ上では完全な白色はrgb=(255,255,255) だが、しかし同じ白色 rgb=(255,255,255) でもディスプレイによって、実は微妙に青かったり赤かったり、差が存在しているんである。

ディスプレイのメーカーも、青味がかった画面のディスプレイを作る会社もあれば、赤色がかった会社もある。

紙まで含めれば、微妙に黄ばんだ白もあれば、微妙に青みの白もある。


光の「白」の場合、太陽光を基準にしようにも、その太陽光の平均自体、1年間の昼間の正午の晴天の日の平均なのか、それとも日の出から日の入りまでの平均なのか、といったスパンをどう設定するかの問題もある。仮に昼間の晴天の平均だと設定しても地理的な問題があり、日本での昼間の平均なのか、赤道下での昼間の平均なのか、あるいは米国での昼間平均、フランスやスイスでの平均、などで微妙に違ってくる可能性もある。(なお、「D65光源」という、欧州・北欧を基準にした光源が、後述の国際照明委員会 (CIE) によって光源の国際標準に定められている。)


消費者からすれば、自分のパソコンの画面がどういう「白」を採用しているのか分からないのが普通である。(だから「ホワイトバランス」という用語がカラーマネジメントにはある。説明は省略。)

※ なお、文脈は違うが、第一学習社『情報I』に、写真レタッチのソフトの使い方で「ホワイトバランス」に言及。

規格統一をしようにも、規格自体が業界ごとに違っている状況であり、国ごとの違いもあり、たとえば日本国内ですら、印刷業界と、テレビ・映画業界とでは、微妙に規格が違っていたりする。

一応、共通語としては最終手段として、物理的な波長のスペクトルで話し合う、という方法もある。


東京書籍の「情報II」指導書では、アップルのマッキントッシュを紹介しているのだが、その背景として、(東京書籍の教科書では説明してないが、)アップルの端末ではここら辺の色合いの設定が公開されていたりするので、印刷業界や映像業界などで色の調整をする仕事の人にアップル機が好まれてきた、という背景がある。

※ このようなカラーマネジメントの話題は、かなり専門性が高く、技術的にも難しいので、検定教科書では紹介しないと思われるし、大学入試でも、まずは深入りしないと思われる。


なお、アップルのOSは、アップルのコンピュータのハードウェアにしかインストールできない。このため、アップルのハードウェアは、すべてアップルの企業規格に統一されているので、なので色合いも統一されているわけである。

一方、マイクロソフト社のWindowsは、マイクロソフト以外のハードウェアにもインストールでき、たとえば東芝のパソコンにも富士通のパソコンにもNECのパソコンにも基本的にはインストールできる(ただし、CPUの種類などに制限があるが)。

そのような他社のハードにもインストールできるWindowsだからこそ、世界中の多くの大手電機メーカーがパソコンハード市場に参入して、Windows搭載のパソコンを販売する会社が多くなり、Windowsが普及したという側面もある。だが、その短所として、メーカーごとにハードウェアの細かい仕様がバラバラになってしまったので、規格の細かいすり合わせには向かなくなってしまったという、歴史的な経緯がある。


コンピュータに限らず、蛍光灯やLED証明なども、じつはそもそも白色自体が、微妙に青っぽい「白」の照明もあれば、赤っぽい「白」の照明もあれば、緑っぽい「白」の照明もある。


なお、色の調整にはこういう事情があるので、なのでイラストレーターが絵の仕事を受けた時、じつは、イラストレーターが手元のパソコンで作った絵の色合いと、実際の製品・商品の絵の色合いは、微妙に違っている場合もある。アニメ産業に至っては、そもそも一般のアニメーターには色の調整をさせず、一般のアニメーターは線画(線の色は黒)を書くだけの仕事に集中し、アニメ会社内のごく一部の色調整用のメンバーだけが色の調整をしている。もちろん、アニメ会社の色調整で使うハードはアップル機である(証拠として、2011年の震災後のアニメ会社・スタジオジブリの取材で、それをジブリの社長や監督などが明かしている)。

映像作品やカラー出版物を作るのは、このように大変なので、そういった企業用に、照明の色合いが劣化・変化してないかの検査・測定をする商売もある。

検査の手法の基本として、けっして人間の勘に頼るのではなく、可能なかぎり、測定器具などの客観物を用いて測定することで検査するのが基本である。だから色の検査でも、じつは専用のセンサーが存在しており(値段が十数万円~数十万円と高い!)、そういう機器を使う。(2011年のジブリでの色検査も機器を使っている)

東京書籍の指導書のカラーマネジメントの項目に「測定」という言葉があるのだが、おそらくこういった背景を考慮してのことだと思われる。

たとえばアニメ会社など映像会社の試写室など、数年ごとに定期的に色合いなどの品質を検査している。大地震など大きな事故があれば、そのたびに検査もする(証拠として、2011年の震災後のアニメ会社・スタジオジブリの取材で、試写室の検査をジブリ社長などが明かした)。


いっきにアニメ会社のパソコン全部を検査するのではなく、まずは試写室を検査するのがポイントである。こういう経費を減らすためのテクニックは、一般の企業でも使われる。こういう、いちばん精密に検査された高性能機器を、その現場の「マスター」測定器のように呼ぶ。たとえば映像業界の場合なら、「マスターモニター」などと呼ばれるディスプレイ・モニターがある。


映像業界に限らず、一般に企業では、会社の設備などは定期的に検査をする。

さて、飛行機のエンジンが2個あるが、きちんと整備をしていれば2個が同時に故障する可能性はとても低い。(もちろん、片方が故障したらすぐに修理や新品への交換をする必要がある。)だから、精密機器などを使う企業などでも、マスター設備と、予備として二番目に精密な設備のように、念のため2個(あるいは2個以上)あったりする。

(※ 範囲外)ISO規格などとの関係

カラーマネジメントの細かい事を覚えるよりも、高校理科で習うSI単位系とか、中学技術科で習うISO規格とか、中学理科で習う旧「メートル原器」や旧「キログラム原器」などの「国家標準器」制度などの関連などを、知ってほしい。色の測定には、国際規格があり、少なくとも日米レベルの先進各国には色の国家標準器があることを知ってもらいたい。

まず、国際規格について。

色に限らず、測定には国際的なルールがある。

たとえば「メートル」とはどんな長さかとか「1秒」とはどんな単位かとか、そういうのが国際的に決まっているわけだ。それが無いと、貿易とか商業とか仕事で困るので、だから測定の国際ルールが色々と決められている。SI単位系とかISO規格とかも、そういう測定の国際ルールを維持するのに役立っている。

そして、先進各国は、国家標準器を持っている(持っていた)。たとえば、長さなら、今はレーザー光による定義に代わっているが、かつて19~20世紀ではメートル原器を採用しており、先進各国には、メートル原器があったわけである。

同様、他の「秒」とか「温度」とか「電流」とかにも、その先進国の単位の基準を決める標準器のようなものが先進各国にはあって、国家機関などによって厳重に管理されているわけである。


日本では、産業技術総合研究所などの国家機関が国家標準器を管理している。

そして、「色」とは、電磁波における可視光の、人間の目への作用の一種だった。電磁波にも、その電磁波の強さと波長の測定のための国家標準器がある。だから色にも国家標準器がある。

※ ただし、色の国家標準について文献が少ないので(ほぼ無いので)、深入りしなくていい。いちおう、産総研の管理している「標準白色積分球」という物理学的な測定器が、日本での色の測定の国家標準器である。(高校範囲を大幅に逸脱するので、「標準白色積分球」は暗記しなくていい。大学範囲すら超えている。専門業者のレベルなので。)

JIS規格(日本産業規格)などの国家規格によって、SI単位などを採用することが原則とされているし、またJIS規格は測定に関してはISO規格をほぼ採用している。また、日本からのISOに向けて色々な提言・提案を行っている。

このため、JIS規格に従っていれば、特にISOについては別途、調べる必要は無い。

色も、じつはISO規格やJIS規格などで、いろいろと「色」の測定のための定義の規格が定められている。

色に関しては、ISOのほか、伝統的に国際照明委員会 (CIE)が中心になって、規格を定めている。ISO と CIE とで、相互交流をしていて、内容も整合性があるので、読者は特に気にする必要は無い。だから、よく「CIE/ISO」とか「ISO/CIE」などとも略記される。


「JIS色名帳」というカラー印刷された色の印刷見本が販売されており(値段がすごく高くて数万円)、たとえば「赤」と言ったらどういう感じの色か、「青」とはどういう感じの色か、カラー印刷された丈夫な用紙に印刷された見本帳がある(値段が高くて数万円する)。

ひとくちに「青」といっても、うすめの青、こいめの青、色々な青があるので、そういう青の全パターンが、その色名帳には見本が印刷されている。

いちいち一般人は買わなくてもいいが、イザとなったら、こういうので、印刷関係とか照明関係の大手業者は確認する。

このほか、塗料に関しては日本塗料工業会の定める日本塗料工業会の色見本帳があり、こちらは値段が安めである(数千円)。もちろん、日本塗料工業会の色見本帳も、JISに準拠している。


テレビやパソコンなどのディスプレイ/モニターに関しては別コラムで述べたように、ディスプレイごとの色のバラツキが大きいので、なので仕事などでの色の確認は、mディスプレイではなく見本帳などの印刷物で最終確認をすることも多い。

仕事でなくとも、たとえば家の塗装などを注文する場合や、同人誌の印刷などを注文する場合なども、相手先の業者がその会社の色見本の紙を見せて打合せ・商談をしたりするが、上記のような背景事情がある。


中学美術の副教材などで「マンセル色相環」などを習ったと思うが、その前提になっているマンセル表色系も、JISなどで既に定められているので、心配は不要。業者が対応済み。JIS標準色票がマンセル対応版だが、値段が凄く高くて16万円なので、学生や一般人は買わなくていい。

ラスタ画像とベクタ画像

[編集]
ベクタイメージ ビットマップ
ベクタイメージ ビットマップ
ベクタイメージ ビットマップ
ベクタ形式 ラスタ形式
ベクタイメージは品質の劣化なくサイズを変更可能


拡大するとギザギザするのがラスタ形式(raster form)です。 ※数研Iに英訳あり。

拡大してもギザギザしないのがベクタ形式(vector form)です。


なお、ベクタ形式でギザギザしないのは、ベクター画像は図形を、たとえば線などはどの座標とどの座標を結んでいるか(※開隆堂)などといった数式のような形式(※第一学習)で管理しており、また線の太さも記録されており(※数研出版)、なので拡大するたびに作画しなおすことができるからです。

ラスタ形式は、そういった構造的な線とか面とかの情報は含んでおらず、単にどの座標にどの色の点があるかといった画素の情報をバラバラに羅列的に記録しています。


写真の画像は、ラスタ形式が適しています(※第一学習社、東京書籍I)。

※ JPEG や PNG などは一般的にラスタ形式に分類されます。


「ベクター」なのか「ベクタ」なのかはどちらでもよく、たとえば第一学習社は「ベクター」、開隆堂は「ベクタ」です。

「ベクトル画像」と呼んでも、かまいません(※第一学習社)。東京書籍は「ベクトルデータ」と呼んでいます(※東京書籍「情報I」)。


建築図面のソフトなど正確さを要求するソフトではベクタ形式が好まれています(※東京書籍『情報I』の見解)。


一見するとベクタ形式はなんでもできそうですが、しかし写真のような配色の多くて形状も複雑な画像を無理やりにベクタ化しても、線や面が多くなりすぎるので処理が多くなりすぎ、処理が追いつきません。(※開隆堂が似たような事を言っている)


「ペイント系ソフト」(painting software)と言われるものは普通、ラスタ画像を作成するソフトです(※日本文教出版 I、実教 I)。  ※ 実教が語の英訳も紹介。

「ドロー系ソフト」(drawing software)は普通、ベクトル画像を作成するソフトです。

参考: 透明部分のある画像とレイヤー合成について

[編集]
※ 令和4年度(2022年度)からの新科目『情報I』で扱われるかもしれない予定の範囲。文科省の教員研修用資料に記載あり[1]


実は、PNGなどいちぶ画像形式には、赤・緑・青のほかにも、その画像の透明ぐあいを表す情報が保管されています。

(※ 一般に『アルファ値』と言います。暗記は不要です。)

※ 文科省の教員研修資料にも、アルファ値の用語は無いです。

たとえば、イラストなどの上に、文字画像を載せる事も、こういった技術で、できます。


また、2枚のイラストどうしでも、たとえば、背景だけの背景イラストの上に、キャラクターイラストを載せて合成する場合も、

キャラクターイラストで人物以外の部分がすべて透明になっている画像形式を使えば、実現できます。


こういうふうに、画像の上に、透明部分のある画像を合成する方法を、一般に「レイヤー合成」のように呼びます。


そして、それぞれの画像を、この場合は、たとえば「背景レイヤー」および「人物レイヤー」などと区別します(レイヤー名は人によってバラバラなので、暗記しなくていい)。


実用上で重要なこととして、Windows標準のビットマップ画像形式では、アルファ値が無いので、こういうレイヤー合成は、クロマキー合成などを行わない限りう不可能です。

また、ウィンドウズ標準のアクセサリ『ペイント』でも、レイヤー合成はほぼ不可能です[2]

なので『ペイント』以外の別のソフトウェアを使う必要があります。(フリーソフトでは GIMP (ソフト名)で、レイヤー合成が可能。 商用ソフトでも、画像編集系のソフトや、イラスト系のソフトなら大抵、レイヤー合成の機能がある。)

圧縮

[編集]

圧縮とは

[編集]

たとえばあるテキストファイルの内容が「AAAAAAA」という文字列だけなら、Aが7個ならんでるので、たとえば「A7」と記録して、「文字の記録のあとに、繰り返し回数を記録する」などと事前に決めておけば、記録するのは「A」「7」という2文字だけに減らせる。

もし「AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA」などの場合なら、Aが30個なので記録するのは「A」「30」となり、かなりデータ数を減らせる。

また、たとえば「ABABABAB」なら、「AB」を4回くりかえすので、「AB」「4」と記録すればいい。

「圧縮」(あっしゅく)とは、このような原理で、記録するデータ量を減らす技術である。

たとえば、冒頭の7文字の「AAAAAAA」だけのファイルの場合、圧縮によって2文字だけの「A7」になったので、単純計算で 2÷7 = 0.2857・・・ なので、このファイルはもとのファイルの約28% に圧縮されたことになる。

(※ 範囲外: ) ウィキペディア w:連長圧縮に詳しい説明があります。

圧縮には ZIP(ジップ)などの形式がある。

さて、インターネットでデータを送ったり受け取ったりするとき、データ量が多いほど時間が長く掛かってしまうので、大きいデータを扱う場合は、あらかじめ圧縮しておいてデータを送るのが普通である。

また、音や画像など、データ量が大きくなりやすい種類のファイルは、もともとのファイルじたいに、圧縮の技術が取り入れられている場合もある。

たとえば画像ファイルなら、JPEGやPNGといった形式に、画像の圧縮技術が取り入れられている。

※ jpegには、「離散コサイン変換」という技術が活用されている。高校レベルで分かるように説明するのは無理なので、詳しい説明は省略するが、「コサイン」という用語からも想像つくように、要するに三角関数を応用した技術である。なので、もしアナタが、圧縮技術の研究者を目指すなら、数学もきちんと勉強しよう。高校の数学IIIで習う、三角関数や指数関数の微分積分などは、当然のごとく、勉強しよう。

圧縮の種類

[編集]

非可逆圧縮

[編集]

音や画像の圧縮では、データの一部が欠けても、人間の目や耳では、普通は気づけない。 たとえば、画像なら、画素に

「赤」「青」「赤」「青」「」「青」「赤」「青」「赤」「青」

というように、画素に一部分だけ違う色(例の場合では「緑」)があっても、画素はとっても小さかったりするので、人間の目では気づきにくい。

なので、この場合、一部分だけ違う「緑」は無視して、

「赤青」パターンを「5」回くりかえす

というように記録するのが合理的だろう。

なので、画像や音では、データが少しくらい欠けてでも、記録するデータ量を減らすという非可逆圧縮(ふかぎゃく あっしゅく)が使われる。


「不可逆」といわれるのは、圧縮される前のデータは、圧縮後のデータからは分からないからである。

たとえば画像の圧縮後の

「赤青」パターンを「5」回くりかえす

をもとに

赤 青 赤 青 赤 青 赤 青 赤 青

と書いても、 どこの色が、圧縮前は別の色だったのか、その別の色は何回使われていたのか、まったく分からない。

つまり、緑のあった位置の情報や、緑の回数についての情報は、圧縮によって失われたのである。

このように、非可逆圧縮によって、データの一部は失われる。

可逆圧縮

[編集]

いっぽう、文書やソフトウェアでは、データの一部が欠けてしまうと意味をなさない。なので文書やソフトウェアでは、データが失われないような可逆圧縮(かぎゃく あっしゅく)をする。

解凍、展開、伸長

[編集]

圧縮したデータのふくまれるファイルを、もとのファイル形式にもどすことを解凍(かいとう)または展開(てんかい)または伸長(しんちょう)という。

たとえば文書のデータ「あいあいあいあい」を、「あい」「4」と圧縮した場合について考える。

圧縮した人とは別の利用者が、インターネットなどを介して、「あい」「4」という圧縮データと、このデータが圧縮データであるという情報だけを受け取ったとしよう。

この「あい」「4」だけを渡された別の利用者のコンピュータが、圧縮を逆算して「あいあいあいあいあい」という元の文書を手に入れることが、「解凍」(かいとう)または「展開」(てんかい)または「伸長」(しんちょう)といわれる行為である。

脚注

[編集]
  1. ^ 『高校情報科_本編_190806.indd - 1416758_004.pdf』76ページ 2020年5月20日に閲覧して確認.
  2. ^ 塗りつぶしのマーカーを使うなどの方法で手順は煩雑になりますが可能ではあります。