本項は高等学校数学Bの「数学と社会生活」の解説です。
- 第1節「数学を活用した問題解決」では、数学の知識・考え方を用いて身近な問題を解決する方法を学びます。
- 第2節「社会の中の数学」では、身近な場面で活用されている数学について学びます。
- 第3節「回帰分析」では、2変量間の関係をデータから統計的に推測する方法について学びます。
- 第4節「数値解析」では、方程式の解や図形の面積などを数値計算によって近似的に求める方法について学びます。
数学Ⅱ「指数関数・対数関数」、数学B「数列」「確率分布と統計的な推測」の内容を含んでいるので、これらを履修後に学ぶことを推奨します。
この分野は多くの大学で出題範囲外ですが、このページで扱う内容は大学入試共通テスト(及びマーク模試)においては数学I「データの分析」、国語「実用的な文章」、情報I「情報通信ネットワークとデータの活用」の各分野で出題される可能性が高いです。
数学的に考察を行うとき、以下のような手順で進める場合が多い。
- 状況や問題から仮定を立てて理想化・単純化を行い、状況・問題を数学的に表現する
- 表現したことについて、数学的に解を求める
- 得られた解が適切かどうか判断する
- 解が妥当でないならば、別の仮定を立てて1~3を繰り返す。
日常生活における問題や社会問題を数学的に考察する場合、数値が煩雑になって手計算が難しくなるケースが多い。そのような場合は電卓やコンピューターを活用する。
ここでは、例として以下の「利益の予測」を挙げる。
ある会社では、新たにマーカーを販売することを計画している。
価格は200円以上800円以下で10円単位を予定している。
新しい企画であるため、価格を定めるための参考資料として、無作為に選んだ1000人にアンケートを実施した。
アンケートの内容とその結果は以下のとおりである。
新雑誌についてのアンケート
新たに販売するマーカーの価格について、最大でいくらまでならば購入したいと思うかを、次の選択肢から一つ選んでください。
[選択肢] ① 200円 ② 400円 ③ 600円 ④800円
[アンケート結果]
一本の価格(円) | 選んだ人数(人) |
800 | 104 |
600 | 305 |
400 | 299 |
200 | 292 |
一本あたりの製造費が100円であるとき、できるだけ利益が多く出る価格を考察する。
ここでは売上金額は(一本の価格)×(販売本数)であり、利益は売上金額から製造費を引いた金額であるとする。これは輸送費・人件費等を考慮に入れない単純化をしている。
演習問題
新マーカーの価格を
円、販売本数を
本とする。新マーカーを50000本製造したときの利益を、
を用いて表せ。
アンケートの結果から、以下のことを仮定する。
[1] アンケートで
円を選んだ人は、価格が
以下であれば購入する。
仮定[1]のもと、以下のような表を作成した。
[表a]
一本の価格(円) | 選んだ人数(人) | 販売予想本数(本) |
800 | 104 | 104 |
600 | 305 | ア |
400 | 299 | イ |
200 | 292 | ウ |
演習問題
[表a]のア〜ウに当てはまる数値を答えよ。
この結果より、価格が200円ならば全員が購入すると考えられる。
また、大きさ1000で抽出したとき、価格の差が200円のときの販売予想本数の差が300前後でほぼ一定である。なので、母数50000で考えたとき、価格を200円だけ変化させると販売本数は15000だけ変化すると考えられる。
そこで、以下の仮説を立てる。
[2] 価格が200円の時、50000本すべてが売れる
[3] 価格を一定の数だけ上げると販売本数は一定の数だけ減少し、価格を200円上げると販売本数は15000本減少する。
仮説[1]〜[3]に基づいて、アンケートにない価格の場合についても販売冊数を予測することができる。
演習問題
仮定[1]〜[3]のもとで、利益が最大となるように新マーカー1本の価格を10円単位で求めよ。また、そのときの販売予想本数と利益も求めよ。
このように、実際に得られた結果に対して適切な仮定を設定することで、得られた結果にない場合について予測することができる。
変数が満たす一次不等式をグラフに書いて図形的に最大値を求める方法もある。そのような方法を線形計画法という。数学Ⅱ「図形と方程式」に線形計画法の例題がある。
一般には、変数や制約条件が多くて図的解法をとることが難しいことが多い。そのような場合は、シンプレックス法という手法が用いられる。
この節は書きかけです。この節を編集してくれる方を心からお待ちしています。
日本において、国会や地方議会の議員は選挙で選ばれる。ここでは、選挙区ごとに議席をどのように割り振れば良いか考える。
- 最大剰余法
以下のように議席を割り振る方式を最大剰余法という。
- ①総人口を議員総数で割った値をdとする。
- ②各選挙区の人口をdで割った値の議席をその選挙区に割り振る。ただし、端数(小数点以下の数字)は切り捨てる。
- ③議席が余る場合、切り捨てた値が大きな選挙区から順に追加で割り振る。ただし、切り捨てた値が0になる場合や複数の選挙区で一致する場合は考えないものとする。
最大剰余方式では、総配分議席が増加したのにもかかわらず配分が減ってしまう現象(アラバマのパラドックス)や、人口が相対的に増加しているにも拘らず配分が減り、相対的に減少しているにも拘らず配分が増えてしまう現象(人口パラドックス)が起こる可能性がある。これらの現象を纏めて配分パラドックスという。
- アダムズ方式
- ドント方式
他にも、サン=ラグ方式、ハンチトン方式、ディーン方式などが知られている。
表[b] 表[c]
演習問題
表[b]、表[c]それぞれの状況で、上の3つの方式で議席を配分せよ。
多くの人が受験した試験の得点の分布は、正規分布に近づくことがある。
そこで、正規分布を利用して偏差値を導くことを考える。
得点
についての
個のデータ
がある。平均値と標準偏差をそれぞれ
とし、
と見做す。ここで
と置くと、
である。このとき、
で求められる値を偏差値とする場合が多い。
より
であり、
は正の実数なので
である。ここで、確率変数変換の公式より、偏差値の平均は
、偏差値の標準偏差は
である。つまり、偏差値が50ならば順位はほぼ真ん中である。また、
であるので、偏差値が40以上60以下の受験者は全体の約68%であり、偏差値が30以上70以下の受験者は全体の約95%いることがわかる。
偏差値は全ての実数を取りうる。一般的なテストでは通常、偏差値は25〜75の範囲に収まることが多いとされる。しかし、極端な分布では偏差値が100を超えたり負の数になることもあり、そのような確率は約0.000047%(約200万分の1)であることが知られている。
正規分布の計算から、偏差値と上位何%かの対応関係は以下の表のようになる。
表[d]
偏差値 |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |
% |  | |  | |  | |  | |  | |  | |  | |  | |  | |  | |  |
受験人数が多いとき、正規分布を利用して偏差値から順位を概算することができる。
例えば受験人数が10000人であるとする。偏差値
が
のとき、
より、
である。
より、標準正規分布表の
の値を参照して
である。この値は
の場合の確率であるため、
の場合の確率0.5を足して0.9332とする。この値を1から引くと0.0772である。よって上位7.72%にいると考えられるので、母数10000をかけて772位近辺
と推測できる。
演習問題
得点が平均60点、標準偏差20点の正規分布に従うとき、75点〜85点の人の1000人中の順位を求めよ。ただし、正規分布の確率計算において、
を使用して良い。
なお、偏差値という言葉は学力に対してのみ使われるわけではない。例えば、知能検査に使われる知能偏差値がある。そこで、学力試験に対する偏差値を学力偏差値と呼ぶ場合がある。
また、元の数値の分布が正規分布に近いことを前提とするため、偏差値を活用することが不適切である場合がある。
品質管理の目的は、製品製造の過程において工程の流れを監視し、できるだけ不良品ができる原因を突き止めようと試みることである。
工程が安定な状態のとき、不良品は少ない筈である。ここでは、母集団の製品が良品であることを示す確率変数
について
と考える。
の値は日頃のデータからあらかじめ求めておく。
工程が安定しているとき、製品のとる値
が平均から標準偏差の三倍以上ズレる確率、すなわち区間
から外れる確率Pは正規分布表から
である。この値は0に殆ど近いので、この区間の範囲外の値の製品が製造されたときは生産工程に支障が生じたと考えて良い。
ここで、確率変数
の値
について、
ー
グラフを描き、そこに3直線
を引く。
の値を示す点がこの3直線で囲まれた領域から外れたとき、その工程が不安定な状態にあると判断し、どこに原因があるか探れば良い。
このとき基準となる値を3σに設定しているので、このような品質管理法を3σ法と呼ぶ。
また、
を上方限界、
を下方限界、
ー
グラフを3σ方式管理図と呼ぶ。
スポーツの採点競技では、極端な点数をつける審判の影響を小さくするため、点数の高い順に並べた際に点数の高い方と低い方から同数づつ除外した残りの平均を用いる場合がある。このように、データを値の大きさ順に並べた時にデータの両側から同数だけ除外した後でとる平均のことを調整平均(トリム平均)という。
例えば、アーティスティックスイミング(旧:シンクロナイズドスイミング)の競技の一つ、フリールーティンでは、以下の規則によって採点が行われる。
・15人で構成される審判団が3組に分かれ、以下のうち一つの観点での採点を担当する。
①エクスキューション
②アーティスティックインプレッション
③ ディフィカルティ
・各審判は0.1刻みで0〜10点の点数をつける。
・①②③の得点は5人のうち最高点及び最低点を除外※した調整平均を使用し、①③の3倍と②の4倍を合計した100点満点で競う。
※最高点・最低点を出した審判が複数人いても、除外する採点はそれぞれ一つづつである。
[表e]
| 審判1 | 審判2 | 審判3 | 審判4 | 審判5 |
① | 8.4 | 9.2 | 9.3 | 8.9 | 9.2 |
② | 9.6 | 9.3 | 9.1 | 8.8 | 8.6 |
③ | 8.7 | 9.0 | 8.5 | 9.1 | 9.1 |
演習問題
採点結果が[表e]の通りであるとする。①、②、③それぞれについて調整平均を求め、総合得点を計算せよ。
データの両側から個数のx%づつ除外してとる調整平均を特にx%トリム平均という場合がある。
上の演習問題では個数の20%を除外しているので、20%トリム平均を求めたことになる。
調整平均をとることによって外れ値の影響を無視できるので、平均や分散を常識的な値に収めることができる。
年毎の月平均気温や、月毎の損益など、一つの項目について時系列に沿って集めたデータのことを時系列データという。
近年、地球温暖化が大きな関心を集めているが、実際のデータにそのような傾向が見られるのか調べる事にした。
東京の8月の平均気温について、1975年から2024年までの50年間分の時系列データを以下の表にまとめた。(気象庁のデータベースより作成。)
[表f]
年(西暦) | 平均気温(℃) |
1975 | 27.3 |
1976 | 25.1 |
1977 | 25.0 |
1978 | 28.9 |
1979 | 27.4 |
1980 | 23.4 |
1981 | 26.2 |
1982 | 27.1 |
1983 | 27.5 |
1984 | 28.6 |
|
年 | 平均気温 |
1985 | 27.9 |
1986 | 26.8 |
1987 | 27.3 |
1988 | 27.9 |
1989 | 27.1 |
1990 | 28.6 |
1991 | 25.5 |
1992 | 27.0 |
1993 | 24.8 |
1994 | 28.9 |
|
年 | 平均気温 |
1995 | 29.4 |
1996 | 26.0 |
1997 | 27.0 |
1998 | 27.2 |
1999 | 28.5 |
2000 | 28.3 |
2001 | 26.4 |
2002 | 28.0 |
2003 | 26.0 |
2004 | 27.2 |
|
年 | 平均気温 |
2005 | 28.1 |
2006 | 27.5 |
2007 | 29.0 |
2008 | 26.8 |
2009 | 26.6 |
2010 | 29.6 |
2011 | 27.5 |
2012 | 29.1 |
2013 | 29.2 |
2014 | 27.7 |
|
年 | 平均気温 |
2015 | 26.7 |
2016 | 27.1 |
2017 | 26.4 |
2018 | 28.1 |
2019 | 28.4 |
2020 | 29.1 |
2021 | 27.4 |
2022 | 27.5 |
2023 | 29.2 |
2024 | 29.0 |
|
このデータを折れ線グラフで表すと、次のようになる。
東京8月平均気温(1975~2024)の折れ線グラフ
長期的には気温が上昇しているように見えるが、年毎の変動により変化の傾向を摑みにくい。そこで、時系列データの各時点のデータに対し、その時点を含むn個のデータの平均値で置き換えたものを考える。これを移動平均という。このとき、n個のデータの取り方は「そのデータを含む過去のデータ」「そのデータを含む前後のデータ」がよく用いられる。
ここでは、その年を含む過去5年のデータの平均値をとる移動平均(5年移動平均)を考える。
例えば、1979年のデータにおける5年移動平均は1975~1979年の5年分のデータの平均値なので、
である。この値を1979年のデータと置き換える。
同様の操作を1980~2024年のデータに行う。(この場合、1975~1978年については過去のデータが5年分に満たないため移動平均を考えない。)
求めた5年移動平均を折れ線グラフにして元のグラフに重ねると、以下のようになる。
東京8月平均気温(1975~2024)とその5年移動平均の折れ線グラフ
このグラフを見ると、5年移動平均が長期的に見て上昇傾向にあることがわかる。また、元のグラフよりも長期的な変化の傾向が捉えやすくなっている。
このように、移動平均を用いることでデータの大きな変動が抑えられて大まかな変化の傾向を捉えやすくなる。
移動平均をとるとき、その目的によって平均値をとる範囲を適切に設定することも重要である。
例えば、月毎のアイスクリームの支出額について移動平均をとるとき、一般に夏に増加し冬に減少する傾向があると考えられることからデータの増減が一年周期であると推測でき、12ヶ月移動平均をとることによって季節による支出額への影響を抑えることができる。
また、移動平均のグラフは大まかな変化の傾向が摑みやすくなる一方で、特徴的な変化が見えなくなる場合もある。
アイスクリームの例で言うと、12ヶ月移動平均のグラフからは「夏に増加し冬に減少する」という特徴的な変化が読み取れない。しかし、例えば5ヶ月移動平均をとると、この特徴的な変化がグラフから読み取れるようになる。
一般に、データの特性値やデータを表す図表などは、目的に応じて使い分けられる必要がある。数学C「数学的な表現の工夫」にて、目的に応じたデータの表現方法について取り扱っている。
これにて、一般的に使われる5つの平均(相加平均/算術平均、相乗平均/幾何平均、調和平均、調整平均/トリム平均、移動平均)を全て学習した。
数学界では、他にもw:加重平均やw:対数平均が知られている。
- m個のものをn個のグループに分けるとき、
ならば必ず2つ以上のものが属するグループが存在する
このような主張を、鳩ノ巣原理または部屋割り論法という。ぶっちゃけ当たり前である。
例)
- 5人いれば血液型が同じ2人組が存在する。
- 367人いれば、誕生日が同じ2人組が存在する。(閏年を考慮に入れると誕生日になり得る日は366日分)
鳩ノ巣原理は整数や図形、座標など様々な分野に応用されており、難関大の入試でも使う重要な考え方である。
演習問題
xy平面において、互いに異なる5個の格子点を任意に選ぶとその中に「2点を結ぶ線分の中点が格子点」になるような2点が存在することを示せ。(早稲田 1996)
解答
- 5つの格子点をx 座標、y 座標がそれぞれ奇数か偶数かで4グループに分ける。
- つまり、(奇, 奇), (奇, 偶), (偶, 奇), (偶, 偶)の4グループ。
- すると、鳩ノ巣原理より同じグループに属する2点が存在する。
- 偶奇が等しい整数の平均は整数なので、その2点の中点は格子点となる。
鳩ノ巣原理は日常生活に溢れており、それを見つけてみるのもまた一興である。
必要があれば物理基礎「音波」及び高等学校芸術・高等学校音楽も参照。
音の高さの相対的な関係を整理した体系を音律という。
ここでは、音律を数学的に見ていく。
音が波の一種であるというのは常識であるが、波であるということは振動数を考えられるということである。音波の振動数を周波数と呼ぶことにする。
音程の異なる2つの音について、音波の周波数の比が1:2ならば「2つの音は1オクターヴ離れている」と、2:3ならば「2つの音は完全5度離れている」という。
このページでは、ドの1オクターヴ上の音をト゜と表記する。
- ピタゴラス音階
古代ギリシャの有名な数学者ピタゴラスは、長さ以外の条件が同じ弦について、長さの比が簡単な整数比のとき発する音がよく調和することに注目した。ドとト゜は2:1、ドとソは3:2、ドとファは 4:3と、非常に簡単な整数比である。
一般に、弦が発する音の振動数は弦の長さに反比例し、弦が短いほど振動数は大きく、音程は高くなる。
よって、ド・ファ・ソ・ト゜の関係はドを周波数の基準とすると以下のようになる。
[表g]
| 弦の長さの比 | 周波数の比 |
ド |  |  |
ファ |  |  |
ソ |  |  |
ト゜ |  |  |
ここで、
より、それぞれ1と2の相加平均・調和平均となっていることがわかる。
これらをもとに、以下のように長音階を作る。
- ドの周波数を
とする。ドの完全5度上は周波数が
なので上の表よりソである。
- ソの完全5度上は周波数が
であるが、これはト゜よりも高い音なので、1オクターヴ下げると周波数は
となる。この音をレとする。
- レの完全5度上は周波数が
である。この音をラとする。
- ラの完全5度上は周波数が
であるが、これはト゜よりも高い音なので、1オクターヴ下げると周波数は
となる。この音をミとする。
- ミの完全5度上は周波数が
である。この音をシとする。
- ドの完全5度下は周波数が
である。これはドよりも低い音なので、1オクターヴ上げると周波数は
となる。この音をファとする。
これで長音階は完成である。
注:完全5度はドとソの関係である。ドレミファソと5音あることから「5度」と名前がついている。同様に、ドとファの関係を完全4度、ドとト゜の関係を完全8度という。
出来上がった音階の隣り合う音の振動数比を見てみるとミとファ、シとト゜は振動数比
、他の音では振動数比
であることがわかる。そこで、ミとファ、シとト゜の関係を半音、他の隣り合う音の関係を全音と呼ぶことにする。
ここではドを音程の基準としたが、今日ではラの音を440Hzとするのが最も一般的な基準である。
次は、ピアノの黒鍵に対応した音を決める。
- シの完全5度上は周波数が
であるが、これはト゜よりも高い音なので、1オクターヴ下げると周波数は
である。この音はソとファの間なのでファ#と定める。
- ファ#の完全5度上は周波数が
であるが、これはト゜よりも高い音なので、1オクターヴ下げると周波数は
である。この音はドとレの間なのでド#と定める。
- ド#の完全5度上は周波数が
である。この音はソとラの間なのでソ#と定める。
- ソ#の完全5度上は周波数が
であるが、この音はト゜よりも高い音なので、1オクターヴ下げると周波数は
である。この音はレとミの間なのでレ#と定める。
- レ#の完全5度上は周波数が
である。この音はラとシの間なのでラ#と定める。
- ラ#の完全5度上は周波数が
であるが、この音はト゜よりも高い音なので、1オクターヴ下げると周波数は
である。この音はミとファの間なのでミ#と定める。
注:ファの完全5度づつ下で定める方法も用いられる。
ここで、ミ、ミ#、ファの周波数は互いに非常に近い値になっている。そこで、ミ#は省略することにする。
これで、我々のよく知る12音階が完成した。
このような12音階の定め方をピタゴラス律という。
ピタゴラス律における周波数比と周波数は以下のようになっている。
[表h]
| 周波数比 | 周波数[Hz] |
ド |  |  |
ド# |  |  |
レ |  |  |
レ# |  |  |
ミ |  |  |
ファ |  |  |
ファ# |  |  |
ソ |  |  |
ソ# |  |  |
ラ |  |  |
ラ# |  |  |
シ |  |  |
ト゜ |  |  |
ラを基準(有効数字無限桁)として有効5桁で記述した。
このとき、隣り合う音の周波数比は
の二通りある。値が近いので両方とも「半音の関係」と呼ぶことにする。
ピタゴラス律の長所は、
- 弦の比が2:3なので調律が容易
- 完全5度が非常に調和した美しい響きになる
- 短調・長調の色がはっきり出る
- 響きが明るくなる
短所は、
- 半音の周波数比が複数ある
- 振動数比が複雑なので不協和音が生まれやすい
この短所を解消するため、以下の2つの調律法が編み出された。
- 純正律
ピタゴラス律と同様にドとソの関係を完全5度とし、整数倍音列と逆倍音列の組み合わせで長音階を作ると、以下のようになる。
[図i]
| 周波数比 | 周波数 |
ド |  |  |
レ |  |  |
ミ |  |  |
ファ |  |  |
ソ |  |  |
ラ |  |  |
シ |  |  |
ト゜ |  | 528 |
長音階にない音は長三和音が4:5:6、短三和音が10:12:15という周波数比になるよう設定する。
変調時の違和感を減らすためそれぞれの音に#、♭を設定すると、以下の表のようになる。
[表j]
| 周波数 |
ド |  |
ド# |  |
レ♭ |  |
レ |  |
レ# |  |
ミ♭ |  |
ミ |  |
ミ# |  |
ファ♭ |  |
ファ |  |
ファ# |  |
|
| 周波数 |
ソ♭ |  |
ソ |  |
ソ# |  |
ラ♭ |  |
ラ |  |
ラ# |  |
シ♭ |  |
シ |  |
シ# |  |
ト゜♭ |  |
ト゜ |  |
|
このような音階の定め方を純正律という。
純正律の長所は、
- トニック・サブドミナント・ドミナントという基本的な三つの和音が最も美しく響く
- 調性感が強く出る
短所は、
- 全音の周波数比が
の2つあり変調・移調が困難
- 和音に特化した音律なので旋律が凸凹する
- ピアノで用いようとすると鍵盤の数が非常に多くなる。
純正律は、オルガンや管楽器等で広く用いられる。
- 平均律
全ての半音の関係を一律に平均化した音階を平均律という。
平均律は、以下の事実を利用している。
ウェーバー・フェヒナーの法則
人間が刺激を受けた時の感覚の強さは、刺激の強さの対数に比例する
簡潔に言うと、「人間は差ではなく比で事物を感じ取る」ということである。
平均律を作るため、1オクターヴを12等分する。
これを数学的に言い換えると、「
である等比数列
の公比を求める」という問題になる。この問題を解こう。
- 等比数列の一般項は初項をa、公比をrとして
と表せた。
- 初項が1なので
であり、第13項が2なので
である。
- ここでrは正の実数なので、
の解は
と求まる。
開平方により近似値を計算すると
である。
よって、半音の周波数比を1.059として12音階を定める。
すると、以下の表のようになる。
[表k]
| 周波数 |
ド |  |
ド# |  |
レ |  |
レ# |  |
ミ |  |
ファ |  |
ファ# |  |
ソ |  |
ソ# |  |
ラ |  |
ラ# |  |
シ |  |
ト゜ |  |
各音の周波数を見ると、ピタゴラス律の場合と値が近いことがわかる。
平均律の長所は、
- どの音を基音にしても綺麗に響くので移調が容易
- 短調・長調の色がはっきり出る
- 旋律が美しい
短所は、
- 純正の比率がオクターヴのみで半音の比率が無理数なので調律が非常に困難
- 常に不協和による唸りが発生する
- 純正律と衝突するためアカペラやフレットレス弦楽器の演奏が難しい
平均律はピアノで広く用いられる。ピアノでは3本の弦を張ることによって不協和による唸りを吸収している。
- 音程の間隔
音律によらず音程を精密比較する指標として、音程の間隔を表すセント(cent)という単位が存在する。
音Aの周波数をf[Hz]、音Bの周波数をν[Hz]、平均律の半音を100[cents]とするとき、AとBの音程の間隔n[cents]は
で求められる。逆に、音Aの周波数f[Hz]と音程の間隔n[cents]がわかっているとき、音Bの周波数ν[Hz]は
で求められる。
この指標を用いて各音律を比較すると、全体的にピタゴラス律は平均律よりも高い傾向が、純正律は平均律より低い傾向が認められる。
音律には他にも中全音律やキルンベルガー第3律などが存在する。
また、実際に演奏するときは『その和音や旋律に合わせた音律を意識して微妙に音色を変えていく』という高度な技法が用いられる。
必要があれば情報I及び情報Ⅱも参照。
相関係数の絶対値が大きい2変量x, yの散布図を見ると、各点は一つの直線の近くに分布しているように見える。変量x, yの関係を近似するとき、最もよく当てはまると考えられる一次関数
が表す直線を回帰直線という。
結果となる数値(目的変数)と要因となる数値(説明変数)の関係を統計的に推測することを回帰分析という。
1つの目的変数に対して、説明変数が1つである場合の回帰分析を単回帰分析、説明変数が複数である場合の回帰分析を重回帰分析と呼ぶ。
目的変数と説明変数の関係を一次式(直線モデル)で表現することを特に線形回帰という。
n個の点
が与えられており、各
は全て相異なるものとする。xとyに直線的な相関関係があるとき、散布図を書くと各点は回帰直線の近くに分布する。
各点が
で表される直線上にあるとすると各kに対して
であるが、実際のデータでは殆どの場合
である。そこで、左辺と右辺の差(残差)の二乗の合計(残差二乗和、残差平方和)
が最小となるようにa, bを定める。このとき、直線
は回帰直線の一つである。
このような回帰直線の求め方を最小二乗法という。
x, yのデータの平均値を
、標準偏差を
、相関係数を
とすると、
と求まる。
とおくと、

- ここで
なので、

- また、各kに対して
なので、

- ここでx, yの共分散を
とすると、
- 最終的に
となる。
- よって
である。
- これをbについて平方完成すると、

- さらにaについて平方完成すると、

- したがって、Rを最小にするa, bは
である。
- 回帰直線は点
を通る、すなわち
が成り立つと予想されるが、予想が正しくないと仮定し
・・・(1)とおいてa', b'を求める。
![{\displaystyle \sum _{k=1}^{n}[y_{k}-\{a'(x_{k}-\mu _{x})+\mu _{y}+b\}]^{2}=\sum _{k=1}^{n}\{a'(x_{k}-\mu _{x})-(y_{k}-\mu _{y})+b'\}^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/039b1f2b483525bc9e3bae01eb898a157a38e85d)




- よって、(1)が最小となるのは
のとき。
- このとき、
なので、
である。
実際には、偏微分を用いて導出することが多い。
2変量の関係を近似する関数を回帰式と呼ぶ。
回帰直線が目的変数と説明変数の関係をどの程度的確に説明できているのかを表す指標として決定係数(寄与率)が用いられる。
決定係数
は0から1までの実数値をとり、値が1に近いほど相対残差が少なく、実際のデータを的確に表現できているといえる。
回帰直線を求めるのに最小二乗法を用いた場合、決定係数は相関係数
の平方をとったものに等しい。
一般的に、データ間の関係の強さを見る場合は相関係数、回帰モデルの当て嵌まり具合を見る場合は決定係数を用いる。
回帰式は一次式では不適切な場合がある。
例えば、走行車輛において、ブレーキをかけてから効き始めるまでに進む距離(空走距離)と効き始めてから完全に停止するまでの距離(制動距離)、これらの和である運転者が止まろうと思ってから完全に停止するまでに進む距離(停止距離)のそれぞれについて、走行中の速度との回帰式は二次関数となる。また、OECD諸国における平均寿命と医療費について、回帰式は対数関数となる。
太陽系の8つの惑星について、「ケプラーの第三法則」から次のことが知られている(高等学校地学・高等学校物理/力学も参照)。
- 公転周期をT[年]、軌道長半径をa[AU]とすると、太陽系のすべての惑星について

- ※ 1AU = 1.50×1011m
8つの惑星それぞれについて散布図を書くと、太陽に近い惑星の値を表す点が重なってしまい、分布の様子がわからなくなる。
このように、範囲が大きいデータは、散布図の目盛りを対数目盛りにすると分析しやすくなる場合がある。
対数目盛りでは、以下のように目盛りを定める
- 10nの目盛りを等間隔でとる。この間隔を1とする。
- 10nと10n+1の間にm×10n(m=2, 3, …, 9)の目盛りを10nとの間隔がlog10 mになるようにとる。
a,Tとも対数目盛りにして散布図を描くと、
であることから、全ての惑星について
であることがわかる。
回帰式が
である場合、y軸のみを対数目盛りにするとxとyを直線的な関係として見ることができる。
この節は数学Ⅲの内容を全て履修した後の学習を推奨する。
必要があれば旧々課程数B「数値解析とコンピュータ」及び情報Ⅱも参照。
解析学(関数の性質を調べる分野)の問題に対して数値計算で近似解を与えることを数値解析という。また、解析学的手法(微分積分など)を用いて誤差なく求めた解を厳密解、数値計算によって得られた誤差を含む近似解を数値解という(例:方程式
について、
は厳密解、
は数値解である。)。また、厳密解を求めることを解析的に解く、数値解を求めることを数値的に解くという。
求まった解が数値であっても、有効数字が無限桁ならばそれは厳密解に等しい(例:方程式
について、解
は有効数字が無限桁なので厳密解である。)。このような数値のことを真値という。
- 二分法
二分法とは、方程式
の解を求めるための次のようなアルゴリズムである。
- 1. 閉区間
において
を満たす連続関数について、数列
の初項を
とする。
- 2. 次のように漸化式を定める。




- 3.
を代入して漸化式通りに反復計算する。
この計算では常に
であるので、常に
が成り立つ。また、
が成り立つので、一回の計算で
は半分になる。そこで、極小の正実数
に対して
が満たされた時に計算を終了することにする。このとき、
を計算誤差という。
二分法の収束性
区間
で連続且つ
を満たす単調関数について、二分法の計算結果は
を満たすただ一つのxに収束する。
単調減少の場合も同様なので、単調増加の場合のみ示す。
- 二分法では、第一段階において
と定義されるが、このとき
なので、中間値の定理と単調増加性より
を満たすxが区間
内にただ一つ存在し、区間の幅は
である。
- 二分法の計算を繰り返していくと、
のとき常に
なので、中間値の定理と単調増加性より
を満たすxが区間
内にただ一つ存在し、区間の幅は
である。
- 計算を繰り返すと区間の幅は一回ごとに半分になっていき、なおかつその区間内に解がただ一つ存在するように計算が反復されるので、どこかの段階で必ず任意の幅
よりも小さな区間の中に解がただ一つ存在する状態が訪れる。
- 第
段階でそのような状態になるとすると、
を満たす全ての
に対して
が成り立つので、
である。
- この関係はε-δ法における極限の厳密な定義そのものなので、
が成り立つ。
- 同様に
なので、連続な単調増加関数に二分法を適用すると、反復計算で現れる数列が真の解に収束することが保証される。
二分法の収束速度
区間
において二分法を適用したとき、近似解の範囲が
よりも小さくなるためには、
回の計算が必要である。
- 二分法では一回計算するごとに解の範囲が半分になるので、n回計算したときの解の範囲は
である。
- これが極小の正実数
より小さくなるためには、
すなわち
である必要がある。
- ここで不等式の左辺は正なので
であり、
より小さい範囲に近似解を絞り込む場合は最低でも
回の計算が必要である。
ここからわかるように、二分法による近似では収束速度は決して早くない。しかし、一回の計算で解の範囲が半分になるので、確実に収束することが保証されている。また、コンピュータを活用する場合は収束速度の遅さを無視できるので、非常に優秀なアルゴリズムである。
- ニュートン法
ニュートン法とは、次のような考え方を応用したアルゴリズムである。
の解xについて、点
における接線のx切片
は
よりもxに近い値となる。
曲線
の点
における接線の方程式は
と書け、これが点
を通るので
であり、
について解くと
。
同様の考え方でxに値を近づけることを考えると、漸化式として
を得る。
この漸化式を満たす数列
は、初期値
が求める値
に近ければ近いほど
への収束速度が速い。
ニュートン法では二分法よりも収束速度が速いが、二分法と違い誤差限界の正確な判定ができない。
- テイラー展開
微分法において、関数を一次式や二次式で近似する方法を学んだ。
一般に、近似式の次数を上げればあげるほど、近似の精度は上がる。
なぜならば、以下の事実が成り立つからである。
関数のテイラー展開
閉区間
においてn階微分が可能な関数
について、
を満たす
が区間内に存在する。(テイラーの定理)
のとき、
と級数展開できる。
これを「
まわりのテイラー展開」という。
特に
の場合をマクローリン展開という。
この無限級数をある項で打ち切ることによって、近似式として機能する。実際、一次近似式・二次近似式はそれぞれこの級数を一次の項・二次の項で打ち切ったものと一致する。逆にいうと、次数を上げていくとこの無限級数に値が近づいていくので、nを大きい値にすればするほど近似計算の精度が上がる。
コンピュータを用いることにより、nが非常に大きい値の際の近似計算ができる。
演習問題
関数
について、マクローリン展開を用いて
の値を計算せよ。ただし、展開した無限級数は4次の項で打ち切るものとし、小数第3位以下を切り捨てて答えよ。
この演習問題において、本来の
の値は
である。今回は4次の項で打ち切ったため、精度が非常に悪い。しかし、打ち切る項をもっと後ろにすれば精度は上がっていく。例えば、100次の項で打ち切った級数をコンピュータを用いて計算すると
であり、誤差が初めて出るのが小数第37位と非常に正確な値が求まる。
- 補間多項式
ラグランジュ補間定理(ユニソルヴェンスの定理)
実数の組
について、常に
とする。
このとき、閉区間
内の任意のiについて
かつ最高次が
以下であるような多項式
がただ一つ存在する。
- 存在性
- 区間
内の任意のiについて、
と定義する。
- このとき、
である。
- 仮定より
なので、
である。
とおいて
と定義すると、
より
である。
- ここで、
の次数はn-1なので、その一次結合である
の最高次数はn-1である。
- 一意性
- 条件を満たす異なる多項式を
とおいて
と定義すると、
はn-1次以下である。
- 数列
はどの項も相異なり、
のとき
である。
- よって因数定理より
が成り立つ。
の最高次数はn-1なので、この等式が成り立つためには
である必要がある。
- 故に
が恒等的に成り立つ。
条件を満たす多項式はただ一つである。
この多項式は具体的には以下の式で表される。
ラグランジュ補間多項式
はこの場合、「kに1からnまで代入してk=iのときを除外した全てを掛ける」という意味である。
ラグランジュ補間多項式はn個の点(標本点)を通る関数を近似するが、必ずしもn-1次式になるとは限らない。
例えば、3点
についてラグランジュ補間多項式を求めると
となる。
ニュートン補間定理
区間
内の任意の
について、
多項式
が点
のラグランジュ補間多項式になるような実数
が存在する。
- ラグランジュ補間定理の状況において、点
に対するラグランジュ補間多項式を
とする。
と定義すると、区間
内の任意の
について
である。
の最高次数は
なので因数定理より
を満たす実数
が存在する。
- ここで
を計算すると
を得る。
- 有限級数の項を
で打ち切ったものは確かに点
についてのラグランジュ補間多項式である。
次に、ラグランジュ補間定理の状況において差商を以下のように帰納的に定義する。
差商
また、関数
が区間
中の任意のkについて
を満たすとき、
を
と書くことにする。
ニュートン補間定理におけるラグランジュ補間多項式は差商を用いて以下のように書ける。
ラグランジュ補間多項式のニュートン形
なお、普通の形(ラグランジュ形)と区別するため
ではなく
と書く場合もある。
ニュートン形では、
の間隔が均等なときに差商の計算が早くなる。また、ラグランジュ形で用いると累積誤差が少なく、ニュートン形で用いると点を追加した時の再計算が容易である。
ラグランジュ補間多項式による近似の誤差は以下のように表せる。
ラグランジュ補間多項式の誤差項
ただし、
である。
この誤差項によって、誤差の範囲を
と見積もることができる。
なお、この誤差項は複素関数論の知識を用いると以下のように書ける。

近似したい関数の変化が急激なとき、標本点を等間隔で取ると補間多項式のグラフが激しく振動する場合がある。これをルンゲの現象という。
テイラー級数とラグランジュ補間多項式は互いに近似できることが知られている。
ラグランジュ補間多項式は線形代数、すなわち行列を用いて説明することもできる。
また、回帰分析の項で扱った最小二乗法も補間の一種と言える。これは、「全ての点を通る」という補間の原則を放棄して全ての点に近い低次多項式で近似することにより、極端な補間値を避けている。
- 数値微分
関数をラグランジュ補間多項式で近似できるのならば、関数のある点における微分係数もラグランジュ補間多項式を用いて近似できると考えられる。
すなわち、どの二つも相異なり等間隔に並んだn個の実数
について、tが
に十分近いとき、標本点
に関するラグランジュ補間多項式
について
が成り立つと考えられる。
このようにして微分係数を近似することを数値微分という。
隣接する
の間隔をhとするとき、
の極限をとると極限値は厳密解に等しい。
例えば、
の数値微分を計算すると
であり、極限値を求めると
である。
- 数値積分
数値微分と同様にして、定積分をラグランジュ補間多項式を用いて近似することを考える。
閉区間
に各
が存在して
を満たすとする。標本点
に関するラグランジュ補間多項式
について、近似の精度が良ければ
と考えられる。
このようにして定積分を近似することを数値積分という。
ラグランジュ補間多項式の定積分を計算すると、

残った定積分の全体を
とおくと、
と書ける。
このとき、
を重みという。重みは積分区間と標本点の取り方にのみ依存し、関数f(x)とは関係ない。
を積分区間上で均等にとる、すなわち
としたとき、上の数値積分を閉じたニュートン・コーツの公式という。端点を除く、すなわち
として計算する時は開いたニュートン・コーツの公式という。
ニュートン・コーツの公式の誤差は、ラグランジュ補間多項式の誤差項に関する不等式の両辺を定積分すれば求まる。
ニュートン・コーツの公式は、標本点が二つ・三つの場合はそれぞれ特に台形公式・シンプソンの公式と呼ばれる。
この数値積分においては、積分区間が短ければ短いほど精度が良くなる。故に、一つの積分区間を多数に分割して計算すると誤差が少なくなる。
ルジャンドル多項式
多項式
について、
となるaをその多項式の根という。(平方根や立方根の根と同じ用法である。)
ルジャンドル多項式は、開区間
においてn個の相異なる根を持つ。
また、部分積分を繰り返すことにより、
を得る。
これらの事実から、以下が成り立つ。
ガウス・ルジャンドルの公式
のn個の相異なる根
が全て閉区間
内に存在するとき、
が
次以下の多項式関数であれば、
が厳密に成り立つ。
積分区間が異なる場合は、置換積分によって積分区間を[-1, 1]にすることで適用できる。あるいは、
として
を利用することもできる。
が
次以上の多項式関数または多項式関数以外の関数である場合厳密には成り立たないが、ニュートン・コーツの公式より精度の良い近似値が得られる。