中学数学1年 データの活用

出典: フリー教科書『ウィキブックス(Wikibooks)』

中学校の学習 > 中学校数学 > 中学数学1年 > データの活用

演習問題はこちらにあります。

資料の測定[編集]

世の中には様々な統計資料がある。ここではどのようにまとめられているかを見て行こう。


近似値[編集]

たとえば、エンピツの長さを物差し(ものさし)で測定してみて、測定値が 8.5cmという結果だとしても、

そのエンピツの長さは、8.51cmかもしれないし、8.49999cmかもしれないし、ピッタリと長さが8.50000…cm なのかは不明です。

つまり、人類の測定の方法では、長さや重さなどの量については、どんなに精密な測定をしても、本当の測定値を知ることはできません。

※ ある市町村の人口など、必ず自然数にしかならないものなどなら、真の値を知ることができる場合もある。

測定値のように、真の値に近い数値のことを近似値(きんじち)といいます。

(※ 「測定値」とは、実際に量を測定して得られた値のことです)


小学校での代わりに円周率として用いていた 3.14 も近似値です。


(長さや重さなどの測定値だけでなく、)そのほか、計算の計算結果などでも、真の値に近い数値のことを近似値といいます。

たとえば を計算すると、1.333……と割り切れません。そこで、四捨五入して小数第3位を四捨五入すると1.33となります。

また、小学校でならった概数(がいすう)も、近似値である。

(概数とは、大きな数の概数なら、たとえば、ある市町村の人口が19763人だったときに、たとえば20000人などと近似した数のこと)


また、近似値から 真の値 を引いたものを 誤差(ごさ) といいます。

つまり、

(誤差) = (近似値)-(真の値)

です。


例題

ある市町村の人口が正確には19763人だが、これを20000人と近似した。このときの誤差を求めなさい。 (答え) 「-237人 」

有効数字(ゆうこうすうじ)[編集]

数値のケタの信頼(しんらい)性と計算[編集]

※ このような意義の説明は、おそらく中学の数学では範囲(はんい)外です。数学の教科書では説明が見当たらない。ただし、中学2年の理科で、似たような事を習う(中2の理科の巻末などにあるコラムのような章に有効数字の性質や意義が書いてある)。中2の理科で、有効数字どうしを含む数の、かけ算と割り算を習うはずです。

たとえば、 はかりA で、ある物 Xの重さを調べた結果、重さは「30g」であったとする。

この物 X を121個あつめたときの重さは、どれだけ信用できるだろうか。


まず、市販(しはん)の重さ計 には、あまり精度の高くない計器もあり、あまり細かい数字は、信用できない(たとえば、体重計で1円玉の重さを調べても、まったく反応しないだろう)。

仮に、われわれの、この問題の はかりA が、10gまでの精度でしか細かく調べられない 重さ計 だったとしよう。

10グラムの精度しかない はかりB で調べた結果「30g」という結果が得られたが、上から1ケタ目の「3」しか信用できない物を、そんな121個というふうに3ケタも掛け算して合計の重さを知ろうとすることに、日常生活で、意義があるだろうか?


このように、計器の精度が良くない場合は、あまり細かい数字を計算しても、無駄である場合が多い。


ですから、「物A を121個あつめたときの重さ」という問題について考えてきたが、実用的には、せいぜい「この物 A を120個あつめたときの重さ」くらいを考えればよいか、または、もっと大胆(だいたん)\)に「この物 A を100個あつめたときの重さ」が分かれば日常生活では充分(じゅうぶん)であることが多い。


有効数字とは[編集]

さきほどの考え方を整理するために、まず用語を学ぼう。

近似値がある場合に、実際の数字がそのとおりにピッタリと一致(いっち)しているだろうと信頼できるケタの数を 有効数字(ゆうこうすうじ) という。


たとえば、100g精度の はかりB で調べた結果の重さが「2400g」の物ならば、有効数字は2ケタである。(「2400」の上2ケタの「24」が信用できるため)

「2400」の有効数字が 2ケタの場合であることを強調する場合、

たとえば

2.4×103

のように、小数と指数をつかって、小数部分を有効数字のケタの分だけ表す。たとえば「2.4」は、「2」「4」で合計3ケタである。

また、有効数字の記法では、小数の部分は、整数の位(例では「2」の部分)が1ケタである。有効数字の記法での指数部分は、10の累乗(るいじょう)の形で表す。

有効数字の記法では

2.4×103 g

のように、必要に応じて単位を後に、おぎなってもいい。


単に「2400」のみだと、重さの精度1gの べつのはかりCの結果なのか、それとも重さの精度10gのはかりDの結果なのか、ましてやそれ以外のはかりなのか、区別がつかない。

さて、もし、重さの精度1gの重さ計Cで調べた結果「2400」だった場合は、「2400」のうち信用できる数字は「2400」なので、有効数字が4ケタである。この重さ計Cの結果を指数であらわすと、

2.400×103

のように、小数の部分が有効数字のぶんケタ数(例の場合は4ケタ)になる。


問題

精度10gの重さ計で、ある物の重さを調べた結果、1600gだった。

この「1600」を、有効数字に注意して、指数と小数の表記になおしなさい。


(考え方と答え)

精度が10gなので、「1600」のうち、信用できるのは「160」であるので、有効数字は3ケタである。

なので、

1.60×103     (答え)

である。


注意とはという意味です。詳しくは高等学校数学の範囲である。



いろいろな数の近似値
(例 1)

木星の赤道半径は、71500 km です。ただし、有効数字3ケタで 7,1,5 は有効数字です。

木星の赤道半径を、10の累乗の指数をつかった有効数字の表記になおしなさい。


(答え)

7.15×104 km


(例 2)

地球から太陽までの平均距離[1]は「149600000 km」とあらわされる場合がある。もし有効数字が上4ケタの 1,4,9,6 だとした場合、この(地球から太陽までの)平均距離を、10の累乗の指数をつかった有効数字の表記になおしなさい。


(答え)

1.496×108 km

一般に科学的表では、10の累乗に掛ける数字は1以上10未満の数である。従って、ではなく、ではなくと表記する。

有効数字の桁数[編集]

有効数字の桁数は、0以外の数字が初めて出てきた位以下の数字の数により決まる。

例えば以下の通りに桁数は決まる。

  • 20.5 は「2」「0」「5」の3つの数字があるので有効桁数は3
  • 12345 は「1」「2」「3」「4」「5」の5つの数字があるので有効桁数は5
  • 0.069 の「0」以外の先頭の数字は「6」である。「6」がある位以下には「6」「9」の2つの数字があるので有効桁数は2
  • 3.000 は「3」「0」「0」「0」の4つの数字があるので有効桁数は4

有効数字の桁数は上から何桁目で四捨五入されているかを表す大事な記述である。20.5を例に取るならば、この数の有効桁数は3であるので小数第2位で四捨五入されている。そのため、20.45以上20.55未満の範囲であることを表す。逆も同じで、20.5を有効桁数2としたければ小数第1位を四捨五入し21と表せばよい。

上記により、有効数字の桁数により同じ数が書かれていても意味は異なる。例えば「100」と「100.00」の2つがあるとして前者の場合は「99.5以上100.5未満」である範囲を表すが、後者の場合は「99.995以上100.005未満」の範囲を表す。

また10mは1000cmであるが「1000cm」のように書くと有効数字の桁数がいくらなのかは判断しにくい。有効数字の桁数をはっきりさせたい場合は例えば左の例で有効数字2桁とするならばcmとすることが必要となる。

資料の活用[編集]

ここでは測定された数値がどのように使われているかを見ていこう。

資料の分布[編集]

以下の資料1は10人の体重を測定した順番に並べたものである。

資料1
計測順 1 2 3 4 5 6 7 8 9 10
体重(kg) 60.3 57.9 65.4 56.1 53.6 62.7 70.0 55.8 67.1 63.1

上の資料1は個々の人の体重は読み取りやすいが全体の傾向は読み取りにくい。

以下の資料2は上の資料1から読み取った値を基準を62.5kgとし、その前後1.5kgの3.0kgごとに区切りその区間に当たるする人数を記録している。

資料2
階級 52.0以上~55.0未満 55.0~58.0 58.0~61.0 61.0~64.0 64.0~67.0 67.0~70.0 70.0~73.0
階級値 53.5 56.5 59.5 62.5 65.5 68.5 71.5
度数 1 3 1 2 1 1 1


このように値をいくつかの区間に区切り全体の傾向を読み取りやすくする時、その区間(ここでは体重)を階級(かいきゅう)、またその幅を階級の区間と言う。また、階級の区間の中央にくる値をその区間の階級値(かいきゅうち)と言う。各階級に該当する資料の個数(ここでは人数)を度数(どすう)、各階級に度数を組み込んだ上のような表を度数分布表(どすうぶんぷひょう)と言う。

資料とグラフ[編集]

上の表を更に整理して柱状のグラフに表したものをヒストグラムと言う。各長方形の高さは各階級の度数に比例する。

上の図のようにヒストグラムのおのおのの長方形の上の辺の中点を結んだ折れ線を度数折れ線または度数多角形という。度数折れ線を作るときは、左はしは1つ手前の階級の度数を0とし、右はしは1つ先の度数を0とする。

ヒストグラムの全面積と、度数折れ線と横軸で囲まれた面積は等しい。

(※ 範囲外:)ヒストグラムを作るさい、あまり細かく区分しすぎると、グラフが平ら(たいら)になってしまうので、せっかくグラフ化した意味が無くなっていまう[2]。なので、ヒストグラムは、あまり区分を細かくしすぎないようにすること。
では、どの程度にヒストグラムの区分を分割すれば調度よいのかというと、目安として10等分の程度が、業界や場合によって例外はあるものの、たとえば土木建築の業界では(10等分ていどが)提唱されている[3]
  1. ^ 地球から太陽までの平均距離に由来する長さの単位が天文単位で、 2012年に、149597870700 メートルと定義されました。これは、定義値なので誤差を含んでいません。
  2. ^ 稲見俊明・成田久夫・野口俊夫『土木施工管理』、山海堂、昭和53年11月30日初版第1刷発行 ・ 昭和53年12月31日改装第1刷発行、222ページ(第6章『品質保証と工程検査』)
  3. ^ 大原資生・三浦哲彦・梅崎建夫 共著『土木施工』、森北出版株式会社、2013年2月15日 第3版第5刷発行、章8.7『品質管理と品質変動』節8.7.5『品質変動の判定』、197ページ

累積度数(るいせきどすう)[編集]

それぞれの階級以下、または階級以上の度数を全て加えた和を累積度数(るいせきどすう)といい、それを表にまとめたものを累積度数分布表と言う。

資料2を例に取ると、

資料3
階級 55.0未満 58.0 61.0 64.0 67.0 70.0 73.0
累積度数 1 4 5 7 8 9 10


となる。

相対度数(そうたいどすう)[編集]

それぞれの階級の度数を資料の個数で割った値をその階級の相対度数(そうたいどすう)といい、それを表にまとめたものを相対度数分布表と言う。相対度数分布表では各階級の相対度数の総和は1となる。

資料2を例に取ると、

資料4
階級 52.0以上~55.0未満 55.0~58.0 58.0~61.0 61.0~64.0 64.0~67.0 67.0~70.0 70.0~73.0 合計
度数 1 3 1 2 1 1 1 10
相対度数 0.1 0.3 0.1 0.2 0.1 0.1 0.1 1.0


資料の代表値(だいひょうち)[編集]

資料の分布についてはヒストグラムなどからも得ることができるが全体の特徴を1つの数字に表すことにより分かりやすくすることができる。このような値を資料の代表値(だいひょうち)と言う。

平均値(へいきんち)[編集]

変量が取るいくつかの値がある1組の資料でその数値の合計を資料の個数で割ったものを変量の平均値(へいきんち)と言う。(ミーンとも言う。)

資料の平均値

n個の資料の平均値(エックスバーと読む)は

例えば、資料1の平均値は

が平均値となる。


度数分布表からも、平均値の近似値を求めることができる。このときは、各階級に属する資料の値は、その階級値に等しいものと考えて計算する。

資料xの度数分布表で、階級値をとし、それに対応する度数をとする。

このとき、総和は

で、総度数nは

であるから、資料xの平均値は次のようになる。

度数分布表からの平均値

階級値をとし、それに対応する度数をとする。平均値

例えば、資料2の平均値は

と計算できる。確かに真の平均値と近い値が計算できている。

中央値(ちゅうおうち)[編集]

資料を大きさの順に並べた時、中央の順位にくる数値をその資料の中央値(ちゅうおうち)と言う。(メジアンとも言う。)資料が偶数個の場合(例の場合は5番目と6番目にあたる)は中央に2つの値が並ぶので、その場合は2つの数値の平均値を中央値とする。

例えば、資料1の中央値はが中央値となる。

平均値は資料の中に極端に高い、または低い数値があるとその影響を受けるが、中央値は直接その影響を受けない。そのため、資料に極端な数値が現れた場合には中央値のほうが代表値としてすぐれている。

最頻値(さいひんち)[編集]

度数分布表において度数が最大である階級値をその資料の最頻値(さいひんち)と言う。(モードとも言う。)すなわち、度数折れ線の最も高い値を示す階級値が最頻値である。

例えば、資料2の最頻値は56.5(kg)である。

最頻値は靴や洋服などについて、最も売れ行きの良いサイズを知りたいときなどに有効な代表値である。

※ ふつう、度数分布化されてない生(なま)のデータに対しては、最頻値を定義しない。最頻値は、度数データのみに対して適用が可能であり、意味をもつ[1]


範囲(はんい)[編集]

資料に含まれている最大の値から最小の値をひいた差を分布の範囲(はんい)と言う。レンジとも言う。

例えば、資料1の範囲は70.0 - 53.6 = 16.4(kg)である。

コンピュータの活用[編集]

(※ 検定教科書では、学校図書と数研出版で、中学1年で紹介している。)
(※ なお、もし中1で習わなくても、中学3年の別の単元で、表計算ソフトなどの活用を習う。中学3年で、どの教科書会社でもコンピュータを使った、統計の分野の手法を習う。)


上述の計算例では、人間の手でも計算しやすいていどに、度数などを減らしているが、実際の計算では、手計算は困難であることが多いので、コンピュータを使って計算するのが、現代では一般的である。

パソコンのソフトウェアで、「表計算ソフト」という種類のソフトがあるので(「スプレッドシート」とも言う)、それを使うのが一般的である。(※ 学校図書の検定教科書でも説明されている。)


表計算ソフトを使えば、表中の数字を、列ごとに合計したり、グラフを作ったりとか、いろいろと出来る。

確率[編集]

(注意)この節は2020年度以降の中学1年生の内容です。それ以前の方は読み飛ばしてかまいません。

コインの表が出る確率

100円玉を投げたとき、表面(絵が描いてある面)がどのくらい出るかを、調べてみました。

実験の方法
  1. 100円玉を10回投げ、そのうち何回表が出たか記録する。これを100回繰り返し、合計1000回投げる。
  2. 表が出た割合を10回ごとに出す。たとえば120回投げ終わって、今までに65回表が出たなら、65 ÷ 120 = 0.541666667となる。
  3. それをグラフにする。

実際にやってみた結果が右のグラフである。

回数が少ないうちは割合にばらつきがあるが、回数が多くなるにつれて0.5に近い値になっていることがわかる。では、0.5とは何か。0.5は分数で表すと、である。これは、100円玉を2回投げるうち、1回は表が出ると期待されることを表している。つまり、2回投げれば1回は必ず表が出るということではなく、起こりそうだと期待される程度が0.5なのである。

このように、ある ことがら についてそれが起こると期待される程度を表す数を、その ことがら の起こる確率(かくりつ)という。この実験の場合、「100円玉を投げて表が出る確率は0.5」と言うことができる。


また、ある ことがら が絶対に起こらないとき、その ことがら が起こる確率は 0 である。

ある ことがら が絶対に起こるとき、その ことがら が起こる確率は 1 である。


どんな出来事の確率も、ゼロ以上で、1以下である。つまり、確率を文字 P で表すとすると、 どんな確率 P でも

である。

確率の英語が probability だからだろうか、数式で確率をあらわす文字には、よく P が使われる。(※ 数研出版の検定教科書にも、確率の英訳で probability と書いてある。)

脚註[編集]

  1. ^ 稲垣宣生 ほか著『データ科学の数理』、裳華房、2021年3月15日 第5版 1刷 発行、P.23