高等学校情報/情報I/データの活用
質的データと量的データ
[編集]※ 暗黙の前提として、データは1個だけでは普通は価値が無く、蓄積しないと役立てることができません。後述する「データ分析」でも、たった1個だけのデータを分析しても、たいていの場合は何の役立ちません。蓄積された多くのデータを手作業で処理するのは大変なので、そこでコンピュータの出番(でばん)となるわけです。
下記の例ではアンケートによる集計でデータを蓄積していますが、別に他の手段でデータを収集して蓄積しても構いません。たとえば気温のデータなら、デジタル温度計で収集するのが効率的でしょう。
概要
[編集]アンケートなどでデータを集める際、たとえば「1日あたりの勉強時間を答えてください」の回答のような、数値などで表現できるデータであり、さらにデータどうしの差や比例などに意味のあるデータのことを「量的データ」と言います。身長や時間や人数や点数など、数値として意味があるものが量的データです。
一方、「社会科は好きか嫌いか、その理由とともにお答えください」の回答のような、文章などで記述してもらったデータのことを「質的データ」と言います。
- ※ 「質的」「量的」も新課程・情報Iの検定教科書での範囲です。文部科学省/mextchannel『高等学校「情報Ⅰ」オンライン学習会 【第3回】3学期に向けたデータサイエンス概論
コンピュータでは、量的データのほうが処理しやすいです。
- ※ データサイエンスや情報科学だけでなく、心理学や経済学などでも「量的」「質的」と言った言葉を似たような意味で使うので、この機会にこの用語を覚えましょう。
いろいろな尺度
[編集]データの種類 | 尺度水準 | 尺度の意味 | 例 |
---|---|---|---|
質的データ | 名義尺度 | 他と区別するために付ける数値。 名前のようなもの。 等しいかどうかしか意味が無い。 |
名前、性別、血液型、 電話番号、背番号など |
順序尺度 | 数値の大小関係や順序に意味がある尺度。 差や比率の値には意味が無い。 |
成績の5段階評価、 満足度の5段階評価、 (3段階評価などでも構わない) 競争の順位、 震度、警戒レベル | |
量的データ | 間隔尺度 | 目盛が等間隔。大小関係にも意味がある。 数値の差に意味がある。 |
温度(摂氏温度)、西暦・年号 など |
比例尺度 | 大小関係、差、比例すべてに意味がある。 | 身長、体重、年齢、金額、 時間、速度 など |
部活の入部希望アンケートで「加入したい部活を記入してください」というアンケートは、一見すると回答は「サッカー部」のような語句のように見えますが、しかし選択肢を用意して番号をつけて
1:サッカー部 2:卓球部 3:柔道部 4:演劇部 5:美術部
- (※長いので以下略)
のように選択肢を設けることで、これを数値として扱うこともできますが、しかしこういうのも質的データとして扱います。なぜなら、部活どうしの四則演算に意味が無いからです。
たとえばサッカー部の「1」と「卓球部」の2を足したら「3」で、これは柔道部の番号「3」と同じ数値ですが、しかしそのことに意味は何もありません。
なお、この部活の番号のように、分類上の都合でつけただけの番号などの数値を、名義尺度(nominal scale)と言います。 ※ 実教出版の教科書で英訳を併記しています。
数値データであっても、必ずしも量的データとは限らないことに注意してください。
後述しますが、コンピュータでは、選択肢の方式のアンケートが一番ラクに処理しやすいです。
- 順序尺度
下記のように番号をつけて
- 1 とても良い
- 2 良い
- 3 普通
- 4 あまり良くなかった
- 5 とても良くなかった
とした場合、番号の数値が低いほど満足しているので、数値の大小には意味があります。しかし要素どうしの四則演算には意味がありません。たとえば
「とても良い」(1)+「良い」(2)=「普通」(3)
ですが、そのことに意味が何もありません。
このように、順序や大小には意味があるが四則演算に意味が無い尺度のことを順序尺度と言います。
順序尺度は、一見すると差に意味がありそうですが、しかし,、たとえば「1 とても良い」と「3 普通」の差はむりやり計算すれば2ですが、
これが「2 良い」と「4 あまり良くなかった」の差の2と計算結果は等しくなりますが、
しかし、本当に回答者の「とても良い」と「普通」の差が、「良い」と「普通」の差とは等しいという保証がありません(※数研出版)。
なので、こういったアンケートの回答は順序尺度として扱います。
また、さきほど回答者の心理の話をしたことから分かるように、心理学や社会学では、心理などを数値データ的に処理したいときに順序尺度として扱わなければいけない事もよくあります(※数研出版)。
アンケートの回答者の中には、選択式アンケートで何かの評価を求められた際、事なかれ主義のため、なんでも「普通」とか真ん中の選択肢で評価するフザけた人もいます。
たとえば
順序尺度
- とても良い
- 良い
- 普通
- あまり良くなかった
- とても良くなかった
という評価を10個くらいの事柄について求められたら、全部「普通」とつけて、考えるのをサボる奴です。
なので、最初からアンケートの回答欄に評価選択に「普通」を無くすというのも一つの方法です。
たとえば、東京書籍『情報II』(P.21)のプレゼンのしかたの評価アンケートが、4段階です。
1 2 3 4いいえ
さて、質的データは、名義尺度または順序尺度に分けられます。
- 量的データの尺度
物理II(専門『物理』)で習いますが、温度の比率には意味がありません。温度の差には意味があります。
たとえば1℃と10℃は、一見すると10倍ですが、
しかしケルビン単位で見れば、
274ケルビンと283ケルビンでしかなく、2倍未満です。
このように、温度は単位系によって数値が変わるので、比率には意味がありません。
この温度のように、比率に意味が無いが差には意味がある尺度のことを「間隔尺度」と言います
- ※ 教科書には太字で「間隔尺度」が書いてあるが、正直、あんまり使わない用語だと思う。
- ※ 派生的な知見ですが、間隔尺度の0は、存在の無を意味しません。たとえば温度の0℃は、けっして気温・室温が存在しない事を意味していません。
ほか、身長・年齢など、大小関係にも差にも比率にも意味がある尺度のことを「比例尺度」と言います。
建物の階数はよく比例尺度と誤解されますが、しかし日本においては地面に接している階が0階ではないので、階数は比例尺度ではありません(※ 数研出版)。1つの階の高低差が等間隔なら、その建物の階は間隔尺度です。階の高さが等間隔でない場合は、間隔尺度ですらなく、順序尺度です(※数研出版の傍注)。
ほか、量的データのことを「定量データ」(ていりょうデータ)、質的データのことを「定性データ」(ていせいデータ)と言うこともあります(※数研出版の傍注)。
四則演算が出来ない種類の尺度のデータでは、当然ながら、平均値や「分散」(その平方根は「標準偏差」という)などの統計量を求めることができません。
- ※ 「分散」をまだ習ってない人はこのコラムを今は読み飛ばしていい。
さて、アンケートの5段階評価などの順序尺度は、一見すると平均値に意味がありそうだし、よく見かけるが、しかし上述したように等間隔ではないので、本来はアンケートの平均値に意味が無い。
仮にむりやり、下記のように
順序尺度
- (5点) とても良い
- (4点) 良い
- (3点) 普通
- (2点) あまり良くなかった
- (1点) とても良くなかった
と点数づけをしてむりやりに間隔尺度にしたシステムも、よくネットで見かけますが、
しかし、それぞれの採点者の採点基準が不統一なのが普通だし、そのため本当に回答者の心理の実態が等間隔の保証は無いので、形式的に「平均値」を求めても、回答者の実態としての心理の「平均値」ではない。
このため、アンケート結果の「平均値」は、信頼性が低い。
あるいは発想の転換で、もし読者がアンケートを得点化したサイトの意見からの信頼性が低い事を経験的に知っているなら、
その経験から、アンケートは(間隔尺度ではなく)順序尺度であることが納得できるだろう。
成績の5段階評価は、本文で上述したように順序尺度であった(等間隔の保証が無いので)。
順序尺度は本来、四則計算ができないので、よって平均値に意味は無い。
なので、成績の5段階評価に、平均値は数学的には意味は無い。
しかし、教育行政の実務では、たとえば受験の推薦(学校推薦)の基準で「5段階中、評定平均が3.5以上」みたいなのが存在する。なお「評定平均」は「ひょうていへいきん」と読む。
評定平均は、教育行政の都合上、むりやり平均値を計算したものである。
私大だけでなく国公立大も推薦入試を令和の現代では行っているので、文科省は知らないフリはできない。「私立が勝手に平均値を求めているだけ」とは、決して文科省は言い逃れできない。そもそも、推薦者を私大に送る高校の側にも、公立高校は存在しているので、やはり文科省は言い逃れできない。
推薦入試の「評定平均」のように、四則演算のできないはずの順序尺度で(成績評価は順序尺度なので)、無理やりに平均値を計算することはある。
だが、せめて、誤差が大きい事を、無理やり求めた「平均値」の利用者は覚悟する必要があるだろう。
また、相関係数だの統計検定だのといった難しい計算を、成績5段階評価やアンケート5段階評価などをもとに行っても、あまり信頼性は無いことが多いだろう。
なお、日本の昭和の小中高の5段階評価は、学年の生徒全員の得点分布がむりやり正規分布(せいきぶんぷ)だと仮定して、その正規分布の統計値を変換して 1~5 の5段階に当てはまるようにしたものである(本来は、生徒らの得点分布が正規分布とは限らない)、
また、偏差値もほぼ類似の発想で、正規分布をもとに求めたものである。
細かな計算法については教育業界の専門知識になるので、本ページでは説明は省略する。
なので、学年の生徒みんなの成績5段階評価から分布を求めても、そもそも5段階評価を求めるために分布を正規分布と仮定しているので、二度手間になってしまう。
- ※ なお、正規分布の学習について、性質などを証明しようとすると理科系の大学2年くらいの数学の学力が必要になる場合が多いので、高校生は正規分布の性質を証明しなくていい。
- 検定法(カイ二乗検定とか)の単元についても同様、公式の導出などは、大学2年くらいの数学の学力が必要になるので、高校生は、検定法の公式は導出しなくていい。
名義尺度であっても、最頻値の算出は可能である(日本文教出版 II)。
たとえば、新入生アンケートで、どの部活に入部を希望するかの「入部アンケート」を学校がとったとして、「13:軽音楽部」が仮に一番人気だったとしよう。こういった人気アンケートみたいに、最頻値や、あるいは名称はないが二番目に頻度の高い値、三番目に頻度の高い値、・・・といったものは算出できる。
名義尺度に最頻値が存在するので、決して「名義尺度は統計量を出せない」(←マチガイ)と勘違いしないようにしよう。
アンケートと統計分析とコンピュータ処理
[編集]量的データの分析
[編集]散布図と近似曲線
[編集]- ※ 文科省のYouTube動画で、散布図とExcelの近似曲線グラフの話をしています。
アンケートで数値入力させたとき、ユーザーが入力ミスなどで、異常な数値を入力してしまう場合があります。
その場合、せっかく近似直線または近似直線(二次関数や三次関数などの高次関数で近似できる)などの近似関数をとっても(※ スプレッドシートに近似直線や近似曲線を取る機能があります)、異常な傾きの直線や曲線が出てしまいます。
また、直線や高次関数ではなく、円などで近似したほうが良い結果が得られる場合もあります。
なので、いきなり近似関数の機能を使う前に、まずグラフで図示する必要があります。
- 例と解説
例として、次の7名のクラスの、数学と物理の点数を考えてみましょう。
番号 | 数学(点) | 物理(点) |
---|---|---|
1 | 62 | 80 |
2 | 74 | 66 |
3 | 58 | 52 |
4 | 90 | 88 |
5 | 42 | 56 |
6 | 70 | 68 |
7 | 76 | 88 |
スプレッドシートでグラフ表示をする際、「散布図」(さんぷず、scatter plot[1])というもので表示すると、線で近似する前の状態が図示されるので、その散布図を見てから、何で近似すべきかを決めます。
- ※ なお、表計算ソフトでグラフを描くさい、計算元のセルには数値データとして数字を入力する必要があるため、それぞれのデータには単位をつけません(※ 第一学習社)。単位をつけると数値データではなく文字列データとして認識されてしまい、うまくグラフが作成できなくなってしまいます。
さて、直線近似をするという事は、一次関数で近似することです。数値的に正確な直線近似の方法として、数学的には「最小二乗法」という方法が一般的には使われます。(検定教科書「情報II」の範囲。日本文教出版で確認.)
直線を引いた場合に、残差(ざんさ)を二乗した値の総和(残差二乗和[2]または「二乗残差和」[3]または残渣平方和[4])が最小になる直線を求める計算法が、最小二乗法です。
- (※ 点と近似直線との距離ではないことに注意。距離ではなく残差である。残差のほうが計算を求めやすい。)
残差とは、考えている近似関数からのズレです。
なお、二次関数以上で近似する場合でも(つまり多項式近似の場合)、考えている関数とのズレのことを「残差」といいます。また、多項式近似を表計算ソフトに命令した場合には、残差が最小になるような関数を表計算ソフトは出力するはずです。
まあ、直線近似については、コンピュータなどなかった時代などは、人間が散布図を目で見て「だいたいココらへんだな・・・」と、「えいやっ」と直線を手動で引く方法も昔からありましたが・・・。
なお、高次関数による近似は、表計算ソフトでは「多項式近似」などと呼んでいるかもしれません。(じっさい、Excelの場合、「多項式近似」では2次関数以上しか使えない。)
- (※ 範囲外)曲線近似(多項式近似、高次関数による近似)や、二変数以上の近似の場合は、「ラグランジュの未定乗数法」などを使うが、しかし高校の範囲を大きく逸脱するので省略する。日本文教出版の教師用の指導書でもラグランジュの未定乗数法に触れられているが、同じく「高校の範囲を大きく逸脱する」という理由で、名前の紹介のみにとどめている。
- ラグランジュの未定乗数法はすごく難しく、理系の大学生ですら大学2年生~3年生くらいの数学レベルが必要なので、高校生には無理。高校生の理解は、あきらめて。
散布図は、図1つにつき2種類のデータしか使えません(上記の例では数学と物理の得点のように)。
国語の得点などとの関係も図示したい場合は、新たに、たとえば国語と数学の得点を散布した散布図をもう一つ作る必要があります。
数学の統計分野で「相関係数」と言うのを習うが、しかし相関係数とは直線比例に近いかどうかを検出するための指標であるので(直線比例に近いと1または-1に近くなる。相関係数は -1≦r≦+1 の間の数値を取る(rを相関係数の記号とする)。相関係数の絶対値は最大で1まで)、たとえば明らかに円形に分布していても検出されない(円状に分布している場合は相関係数が0に近くなる)。
円周上に並んでいるように見える場合でも、あるいは円盤状に並んでいる場合でも、どちらにせよ相関係数が0に近くなる。
円に限らず、たとえば四角形状に分布している場合でも同様、相関係数が0に近くなる。
また、「W」字のようにナナメ上向き直線とナナメ下向き直線が混ざっているように分布している場合も、相関係数が0に近くなる。
このため、統計分析の実務では、相関係数を計算するよりも前に、まず散布図を見て、どう分析するかを決める必要がある。
2023年現在、高校数学でもすでに散布図を教えている。
もし散布が直線状で、ナナメ右上に右上がりになっている場合は、相関係数が 1 に近くなり(※ プラス1に近くなり)、「正の相関」と言う。
もし散布が直線状で、ナナメ右下に右下がりなっている場合は、相関係数が-1に近くなり、「負の相関」と言う。
WordやPowerPointにもグラフの機能がありますが、それは Word または PowerPoint から Excelを呼び出して使う機能である。
WordまたはExcelからのExcel 呼び出し画面では、あまり高度な Excel 機能が使えません。
なので、散布図を書く場合、まずは Excel で普通に書きましょう。
データ・クリーニング
[編集]- ※ 実教出版『情報I』の教科書に「データ・クリーニング」および「データ・クレンジング」の語が書いてあります。
- ※ 第一学習社『情報I』と東京書籍『情報II』の教科書に「データ・クレンジング」(data cleansing[5])が書いてあります。東京書籍『情報 II』では 英訳も。
- ※ 文科省のYouTube動画で、用語名「データ・クリーニング」は出してないですが、その話をしています。
- ※ 点を入れるか、つまり「データ・クリーニング」か「データクリーニング」かは、検定教科書だと点無しが多い。気にしなくていいだろう。たとえば東京書籍『情報II』は点なしの「データクレンジング」。実教出版も点なし(P98傍注、傍注なので索引に無い)。第一学習社も点なしの「データクレンジング」。
データの重複や表記ゆれ、その他のご入力などの除去の作業のことを、データ・クリーニングやデータ・クレンジングなどと言います。特に、手入力されたデータには誤入力や重複などが起こりやすいので、データクレンジングが必須である(※東京書籍の見解)。
アンケートなどで数値入力をさせた際、回答者が読み違いや入力ミスなどで、異常な値を回答してしまう場合があります。
入力ミスなどによって入力された値のことを「異常値」と言います(数研出版の見解)。いっぽう、入力ミスではないが、ほかの値から大きく外れた値のことを「外れ値」(はずれち、outlier[6])と言います。
なので、異常値については、近似関数などを作成する前に除去をした、別データ集を作成します。外れ値を除去するかは、データの種類による(※数研の見解)。
中学校の数学でも習ったと思いますが、(平均値ではなく)中央値や最頻値などを使うことで、異常値の影響を受けづらくなります。
このように、何かの指標を使う場合は、異常値などの影響を受けづらい指標を使うのがコツです。
このほか、ある項目のデータが入力されていなくて空欄の場合など、「欠損値」(英:missing value[7])と言います(※東京書籍、第一学習社、実教出版などで確認)。コンピュータ処理上の都合で、未回答であっても、じつは何らかの値が事前に変数に入力されている場合があります。たとえば数値データなら、プラスの整数しか回答できない質問に、じつはマイナスの値が格納されている[8]、などです。もし回答すると、値がプラスに書き換わる、などの工夫です。
欠損値は、その後のデータ分析からは、除去する必要があります。
- (※ 範囲外)欠損値は、ソフトウェアによっては「null」(ヌル)と表示されることがあります(たとえば Google の Looker Studio など)。データ分析ソフトに限らず、一般のプログラミング作成ソフトでも null という単語は使われるので、ついでに覚えましょう。
「情報」教科でつかう数学については、平均や中央値や最頻値といった中学レベルの数学が情報の範囲です。加えて、高校で新しく習うだろう(統計値の)「分散」も情報Iの範囲です(※ 数研出版の教科書で確認)。なので、高校の数学IAていどの勉強は必ずしましょう。余裕があれば数学2Bも勉強しましょう。
(※ 範囲外)データ・クリーニングのさい、除去前のデータは、これはこれで残す必要があります。
- (※ 範囲外)さて、データ採取をしたさい、まだ何の加工もしていない採取したままのデータのことを「生データ」(なまデータ)と言います。情報科学に限らず、物理学とか機械工学とか医学とか理系の学問でも、また文系の学問でも、「生データ」という用語を使います。
- ※ 文科省の動画ではそこまで説明してませんでしたが、大学以降の学問では、よく使う用語なので覚えてください。
一般に、生データは残します。(ただし、プライバシー保護など特別な理由がある場合は別。詳しくは業界によるだろうから、その業界の慣習に従おう。また、新人はしばらくは先輩の指示に従おう。)
生データのままだと、異常値が含まれていたら、異常な分析結果が出てしまうので、役立たなくなってしまう。なので、それを防ぐため、まず散布図などを観察して、明らかに変な値は、除去をするなどの加工をした二次データのファイルを作成します。
(なので、エクセルなどでデータファイルは、生データ用のファイルと、加工データのファイルとで、最低でも2個のファイルを得ることになる。)
では、どういったデータが、異常なのでしょうか。
ケーススタディとして、たとえば「あなたの1か月あたりのおこづかい(単位:円)を答えてください。」というアンケートで、
多くの回答者が「10000」とか「20000」とか答えているのに、何人かの回答者が「2」とか「3」とか答えていたら、明らかにその「2」や「3」は異常値です。
この「2」や「3」は、おそらく2万円とか3万円のつもりで誤入力をしたものと思われます。
そもそも小遣いをもらってないなら「0」円になるはずだし、こづかいをもらっているのに2円とか3円とか、常識的にありえない数字です。
- ※ 文科省の動画でも、似たような例を出している。
この例のように、異常なデータは、データ解析などの処理の前に除去をする必要があります。
なお、実は、世間にある統計データの分析結果は、場合によっては、データ・クリーニング済みのものだったりすることもあります。(だからデータ分析者の主観がそこで少し入る可能性がある。)
- ※ 数値の記入式のアンケートはこのようにデータ・クリーニングの手間が増えるので、なるべく選択式のアンケートのほうが楽です。どうしても数値記述式のアンケートをする場合でも、選択式アンケートを併用すると、ラクになるかもしれません。
欠損値のクリーニング時の初歩的な失敗例として、本来なら除去すべきなのにゼロ「0」に置き換えてしまうミスがあります(数研出版)。ゼロに置き換えてしまうと、平均値などの計算に含まれてしまうので、間違った結果を出してしまいます。なので欠損値は、平均値などの算出では、ゼロに置き換えるのではなく、必ず除去しましょう。
Google Workspace などの登録をされてない普通の単独の google フォームでも、スプレッドシートに出力するのは可能です。
- エクセル形式でダウンロードする場合
Google Formsをスプレッドシートに出力したい場合、まず、「回答」画面の上のほうに「スプレッドシートに出力」があるので、それで Google スプレッドシートに出力すると一発で終わります。
手元にダウンロードして保管したい場合は、Google スプレッドシート側の「ファイル」コマンドから xlsx.形式(エクセルのファイル形式)でダウンロードするのが一番ラクでしょう。
- csv形式でダウンロードする場合
このほか、csv形式でダウンロードする方法もあります。ただし、後述するように、Microsoft Excel との互換性があまり良くなく、やや技術力が必要になります。
さて、csv ダウンロードの手順はまず、ページ上部にある「回答」をクリック、つづけて「回答をダウンロード(.csv)」というのを選びます。すると、csv形式という表計算ソフトでよく使われる形式がダウンロードできるので(ただしzip圧縮されている)、あとはそれを解凍・展開してから、お好みの表計算ソフトで開けば済みます。
もちろん、Google スプレッドシートでもcsvファイルを開けます。Microsoft Excel でも開けます。
ただし、ためしにwindows11で実験したところ、文字化けをしてしまいました。文字コードの設定などが環境によって違うので、できればGoogle スプレッドシートで開くのが安全でしょう。
この文字化けの原因は、Excelはwindows11になってもcsvファイルを読み込む場合にはShift-JISを標準の文字コードとする仕様であり、一方でGoogle スプレッドシートなどGoogle系アプリは文字コードがUTF-8だから、文字コードの不一致が起きたことによる文字化けです。
この文字コードの問題を解決するには、エクスプローラ側でcsvファイルを開くのではなく、excel側で新規作成の状態から「データ」タブ>「テキストまたはCSVから」で目的のcsvファイルを開くと、出てくるダイアログウィンドウの左上のほうに文字コードの選択欄があるので、文字コードでUTF-8を選ぶという、やや特殊な操作をする必要があります。
windows11の標準の文字コードがUTF-8であるにも関わらず、Excelではcsvファイルについては Shift-JIS を標準としています。面倒です。
Google スプレッドシートでcsvファイルに限らずダウンロードした表計算ファイルを開くには、まず、Google系アプリで開きたいファイルをGoogleドライブにアップロードします。次に目的のアプリ(この場合は google スプレッドシート のページ)をwebブラウザで開き、つづけて、アプリ側の「ファイル」から目的の表計算ファイルを開きます。
間違えてブラウザ側の「ファイル」で開こうとしないでください。それではGoogle系アプリでは開けません。
なお、LibreOffice Calc なら、csvファイルのダブルクリックで一発で開けます。しかしLibreOfficeはボランティア中心の無料アプリなので、サポートがありません。
- ※ なお、マイクロソフトにも、Microsoft Forms という、類似のアンケートアプリがある。Microsoft Formsにも、スプレッドシートに出力する機能がある[9]。
- ※ Microsoft 365 というwebアプリのパッケージで、Google Worlspaceと似たようなクラウド的なことができる[10]。ただしMicrosoft 365 は有料である。
質的データの分析
[編集]テキストマイニング
[編集]Googleフォーム内では文章は分析できません。) しかし、外部サイトを使えば、記述式アンケートで収集した文章でも、出現頻度の多い単語の抽出などの分析に書けることができます。「テキストマイニング」などで調べると、そういうサイトを探せます。
テキストマイニングを出来る外部サイトとしては、たとえば「AIテキストマイニング User Local」などのサイトがあります[11]。
ただし、テキストマイニングで分かるのはl単語の頻度と(※ 「ワードクラウド」画面)、単語どうしの出現の関連性(たとえば「先輩」「後輩」のように出現事例が近い単語は近くに表示される。「共起キーワード」という)だけです。
- ※ 検定教科書によくある画面はワードクラウド画面。実は「共起キーワード」画面が日本文教出版『情報I』で紹介されている。
- ※ 開隆堂、数研出版、第一学習社では、出現頻度の表が紹介されている。
- ※ 現状では、特定企業のサービスなので、あまり深入りしなくていい。
- ※ ほか、User Local のサイトには単語出現頻度などの画面もある。詳しくはUser Local の公式サイトで確認せよ。
それ以上の分析は、結局は、人間が行う必要があります。もとの文章を読む必要もあります。
やはり、基本的には選択式のアンケートが簡単です。そして、記述をしてもらった場合には、最終的に、アンケート文を読む必要もあります。
もし読者が「質的データ」と言う言葉を習っているなら、つまりテキストマイニングを使うことで質的データでもコンピュータで図示できる時代になったという、技術的な進歩でもあります。
- ※ 実習のさいの注意点について、『青空文庫』のサイトのXHTML版データの作品本文にはフリガナがある。フリガナを除去する前処理をしてからでないと、テキストマイニングの実習をできない。さいわい、wiki編集者が試したところ、webブラウザ『Firefox』からwindows『メモ帳』へのコピーペーストによってフリガナを除去できた。もしコピーペーストで除去できない出来ない場合、高校生にはその前処理のプログラミングが必要になってしまう。
- ※ 共起キーワードを解析したい場合、ボタン『ワードクラウド作成』ではなくボタン『1つの文書を解析』を選ぶ。
どのようなグラフを使うか
[編集]散布図は、他の節でも述べたように、数学の得点のデータと物理の得点のデータといった2つの数値的な量的データがあって、その2つの変数の関係を見たい場合は、有効である。
量的データであっても、データの割合を見たい場合は、帯グラフや円グラフが有効である。
しかし質的データは、棒グラフで表すほうが良い場合もある。下記に説明する。
質的データと棒グラフ
[編集]たとえば「小学校のころ、好きだった給食メニュー」の選択式アンケートのように(たとえば「カレー」とか「唐揚げ」とか「あげパン」とか「わかめゴハン」とか(※以下略)、並んでるアンケート)、基本的に日常生活では数値で表さないものは、散布図には向かない。そういうのの集計結果は棒グラフや円グラフなどで表すのが良い。(もっとも、選択式アンケートは無理やり番号付けすることで量的データに変換できるが(たとえば「1:カレー、2:唐揚げ」・・・みたいなの)、今回はそれは無視する。)
質的データは、データの種類にもよるが、あまり散布図は向かない。質的データを表す場合、棒グラフや円グラフなどで表すと良い場合が多い。
クロス集計表
[編集]紙でグラフで図示する場合、紙は平面で2次元なので、よって図示にも限界があり、度数分布表も棒グラフも散布図も、紙に最大で2種類のデータしか扱えない。
中学で習った度数分布表を、あれでデータが1種と見るか、それともデータが2種と見るかはともかく、ともかく、それ以上には、1つの度数分布表ではデータの種類を増やせない。
もし、度数分布表でデータの種類を増やしたい場合、あらたに度数分布表を追加する必要がある(ただし、縦軸などは共有できる場合もあるので、見た目上は1つの表になる場合もある。今回はそういうのは2つの度数分布表として扱う)。
ともかく、どんな図示をしようが、3種類以上のデータになると、紙では基本的にはパース無しでは表せないし、数学や情報科学のグラフでは基本的にはパースを使わないので、よってグラフ化できない。(ただし、コンピュータの統計処理ソフトなどで無理やりに3D表示できる場合もあるが、今回は無視する。)
している | していない | |
---|---|---|
男性 | 20% | 35% |
女性 | 15% | 30% |
性別不明 | 0% | 0% |
たとえば、「習慣的に、ここ1年のあいだスポーツを毎週していますか?」というアンケートで、回答者が25歳以上~40歳未満の大人だとして、回答者が男性か女性かの選択肢も追加した場合、
仮に右の表のような結果が得られたとして、これは散布図にはふつうの方法では表現しようがない。なぜなら、項目が2つあり(「男性/女性/性別不明」の項目と、「している/していない」の項目)、さらにその回答者の人数というもう一つのデータが追加されるので、結果的に3種類のデータが必要だからである。
なので、図示できないので、こういう場合、最終結果が数値的なものなら(たとえばパーセントとか人数・個数とかなら)、クロス集計表と言うのを使って、数値で表すと良い。
- ※ wikiの都合で上記表には表示できないが、回答者がどんな集団なのか、クロス集計表に付記して書いておく必要がある。
回答者は年齢が25歳以上~40歳未満、住所・所在地がS県R市の、合計200名にアンケート。
のように付記する必要がある。
※ 余談だが、最近の表計算ソフト(Excelなど)やアンケート処理ソフト(Formsなど)では、クロス集計表のマス目の背景に棒グラフを表示できるものもある。(※第一学習社『情報I』で、テキストマイニングのツールの表だが、そういう画面を紹介)
たとえ上記アンケートの女性の「している」15%の棒の長さを基準とした場合、「していない」30%の部分では2倍の長さの棒が背景に表示されるわけである。
男性の「していない」35%では、女性の「していない」よりも、さらに少し長い棒が表示、という感じの機能が最近の表計算ソフトにある。
(※ 発展) 「カイ二乗検定」というのがあり、2つの集団の集計結果の傾向が近いかどうかといった、独立性の有無の検定である。
たとえば、男女にアンケートなど測定したクロス集計表みたいに、回答集団が2種類ある場合のクロス集計表に使われる。(ここではオカマや性同一性障害などは無視する。)
検定教科書では、ポリコレを意識してか、高校Aと別の高校Bの生徒の集団で比べている(日本文教出版 I)。あるいは、ある高校と、べつのある中学で比べている(実教 I)。
2つの集団でしか使えない。3つ以上をカイ二乗検定で計算できない。
2つの集団の、独立性を検定するのが、カイ二乗検定である。
2つの集団でしか使えない。
どういう原理か説明すると、たとえば
ある私大付属校のウイキー学園の高等部と中等部で合計1000人の中高一貫校だとして、アンケートで「入りたい部活はどれ? 演劇部、サッカー部、野球部?・・・」と聞いたとして、
中高の合計のアンケート結果から、
たとえば、野球部は全体の30人(つまり約3%)、サッカー部は全体の25人、軽音楽部は60人、演劇部は8人、・・・とかだとしよう。
計算の簡単化のため、中等部全員は500人、
高等部全員は500人だとしよう。(※実際の世間の中高一貫校は高校の定員が中学の倍近く多いが、このウィキー学園は高校入試で入ってきた人がいないとしよう。)
すると、
もし、特に中学生と高校生とが、たとえば仮にその年の高等部が嫌われていて、その年の中等部が「高校部は軽音楽部が多いから、中等部の僕たちは吹奏楽部にしよう」とか考えてなければ(このような中等部が高等部を特に気にしてない状態がカイ二乗検定用語で「関連性のない状態」とか「独立している状態」とか言う)、
高等部の各部の比率と中等部の各部の比率は同じになるはずであるので、
つまり、予想として、
中等部の予想の野球部希望者は15人予想のサッカー部の希望者は12~13人、・・・のようになる。
こういう予想の部員数のようなのを、カイ二乗検定では期待度数と言う。
しかし期待度数は予想値なので、実測値とは違う。
カイ二乗値という用語があり、その定義は、すべての
(実測度数 - 期待度数)2/期待度数
の合計である。
統計学の別の理論で「カイ二乗分布」というのがあり、それに上記の値が近い結果に従うので(※日本文教出版 I)、上記の値を「カイ二乗値」と言う。
また、この部活アンケートの中高のクロス集計表の例のように、名義尺度であってもカイ二乗検定を使える。
- ※ とても数学的に難しく、理系の大学の統計数学の専攻レベルの内容なので、高校生は公式などを導出しようとしなくていい(まず、無理)。
- 「クロス集計表を、統計数学的に検定できる方法がある」という知識さえ知っておけば、高校レベルでは十分であろう。おそらく、大学1年レベルでも十分。
カイ二乗値が低いほど、「独立性が高い」と言いますが、しかし出典はありませんが、本当に独立しているかどうかは、統計値だけでは分からないと思います。
なぜなら、たとえば仮に高等部が全員、中等部をイジメていて奴隷にして、高校生1人あたり奴隷中学生1人に「お前は俺と同じ部活に入って、おれの身の回りの世話をしろ」みたいにイジめている場合でも、カイ二乗値は低くなってしまい、統計用語では「独立」している状態になってしまいますが、どう見ても社会的には独立していません。
カイ二乗値で分かるのは、せいぜい「高等部が中等部の入部希望者を追い出してない。あるいは、過去も追い出さなかった」という事が分かるだけでしょう。
カイ二乗値では、結果論としては中等部か高等部かは入部先・入部志望先に「関係が無い」と、部外者(因果関係に興味なくて結果しか興味ない程度の部外者)からは見ても平気という事が分かるだけです。
このように、因果の独立性や関係性については、カイ二乗検定は何も保証していません。
結果論の一部しか、カイ二乗値は保証していません。
東北大学の数学者の黒木玄が言っているのですが、じつは大学レベルの統計数学の通説には外国でも昔から批判も多く、そのため批判論文も世界的に少なからず書かれている、と言われています。(なお、黒木の主張している例は、wikiのこのコラムの例とは異なるので、誤解なきよう。)[12][13]
なお、黒木は独立性検定について、ツイッターで下記のように述べている[14]。
#統計 2×2の分割表での独立性検定のみを使うことは、厳しく批判されている「効果ゼロのような特定の仮説のP値のみを計算すること」になってしまうので、避けるべきです。
少なくとも、比率の差、比率の比、オッズ比のどれかの信頼区間との組み合わせで使うべきです。続く 午後8:12 · 2022年10月17日
なので私たちにとっての統計数学の利用法としては、カイ二乗検定に限らず、決して検定結果を鵜呑みにするのではなく、検定結果はとりあえずの指標であるにすいぎないとして、別途、他の検証方法でも、それぞれの調査対象の内情をチェックする必要もあります。
結局、ひとつの指標やひとつの視点の調査だけでは、物事の内情を把握することはできません。実態把握をするためには、複数の視点での調査が必要でしょう。
数学的な分析だけに頼るのではなく、たとえば経済現象の分析をするなら、経済学的な検証も行うべきでしょう。
通説の公式には批判論文が書かれているものの、他により良い計算法が無かったり、対案として提唱されている公式に別の批判者が批判論文を書いたりして[15]、結局は通説の公式をだましだまし使わざるを得ない、というのが現状のようです。
黒木玄 Gen Kuroki @genkuroki #統計 Lehmannさんの本を引用して、Fisher検定がUMP unbiasedであると主張している人の例。Yates補正とFisher検定への批判論文に対する批判論文。 引用 黒木玄 Gen Kuroki @genkuroki · 2019年11月21日 返信先: @genkurokiさん #統計 HavilandさんによるFisher検定批判論文(1990)に対する批判的なコメントでも、Lehmannさんの本を引用して、Fisher's exact testがuniformly most powerful unbiasedであることはとっくの昔に証明済みであると主張していますが、もちろん間違っています。 twitter.com/genkuroki/stat… さらに表示 午後4:10 · 2019年12月9日
より、根本的な理解としては、下記ツイートのように、統計の検定には、仮説にお墨付きを与える効果は無い、という事を理解することでしょう[16]。
黒木玄 Gen Kuroki @genkuroki · 12月17日 #統計 多分、統計学教育で確実に有害だと思われる教え方は
❌統計分析によって科学的お墨付きが得られる
と教えることだと思います。
⭕️統計学には科学的お墨付きを与える力はない
と強調した方が良いと思う。
⭕️それにも関わらず、非常に便利でかつ魅力的な話題
だと説明した方が面白いはず。
どうやら統計数学の「検定」の理論は、その「検定」と言う名称には反して、実際にはお墨付きを与える効果は無さそうです。
「英検3級」とか、ああいう英語検定とか数学検定とか漢字検定とかとかは違って、統計数学の「検定」には、お墨付きの効果は無いようです。
なので別途、数学的な統計分析とは他の方法(たとえば経済的な分析など)で、確認をしたうえで、傍証(ぼうしょう)としてクロスチェック的に使うのが無難でしょう。
結局、クロスチェックが必要です。
黒木の意見ではないですが、たとえば仮にアンケートで1万人に対して5個の質問をした場合、報告書にそのまま列記すると50万個のデータの羅列になってしまいます。
で、それを報告書の読者がいちいち50万個の回答を読んで分析するのは、面倒なわけです。そこで、まずアンケート結果をグラフなどの画像にして一目で把握しやすくするわけです。しかしそれだと、画像なので計算をしづらいので、計算しやすいように、なんらかの代表値のようなものを抽出するわけです。そういった代表値のようなものに過ぎません。
当然、もともと50万個のデータであってものを1つか2つの代表値のようなものに削減したわけですから、どうあがいても、元の情報は再現できません。見落としがあります。
なので、数学的分析だけに頼って仮説を検証するのは、(多くの分野では、)見落としが多いので、やめましょう。
実際、大学の数理統計学あたりの理論は「要約」に過ぎないと黒木も(文脈は異なるが)言っています。
黒木玄 Gen Kuroki @genkuroki
- 統計 統計学に関する
❌科学的なお墨付きが得られる道具
という見方と
⭕️複雑な現実に立ち向かうために、仮のモデルを設定して、データの数値を取得して、それらの関係を要約する
という見方では大違い。「統計学では科学的なお墨付き は決して得られない」という立場で後者の見方を教えるべき。 午前10:06 · 2023年12月18日 · 594 件の表示
黒木玄 Gen Kuroki @genkuroki
- 統計 モデルの仮定が正しい場合のことしか考えない「小さな世界」に統計学は実践的にはほぼ役に立ちません。
「大きな世界」の統計学の合言葉は
⭕️すべてのモデルは間違っている。
です。間違っていると思っているモデルを使った統計分析の正当化は__統計学ユーザーが自分で__行う必要があります。 午後9:39 · 2023年12月13日 · 1,091 件の表示
なお、黒木はおそらく知らないでしょうが、「上記のすべてのモデルは間違っている」のような考え方は、「不確かさ解析」という分野でも良く見られる近い考え方です。
黒木玄 Gen Kuroki @genkuroki · 12月13日
- 統計 「すべてのモデルは間違っている」を当然とする場合には、「モデルが正しいならば~と結論できる」と安易に述べることが許されなくなります。
Greenlandさん達の提案は
データの数値とモデルのcompatibility
について語ることです。それならモデルはが正しいことを仮定せずに済みます。 さらに表示
統計学でいう「検定」は普通、その名に反して水泳検定とか英語検定のような「実際に〇〇をできるか」という類の実験ではなく、統計の「検定」は統計データ解析の手法です。
このため、もし因果関係を検証したい場合は別途、追加の実験を行う必要があり、条件を細かく変えていった実験をしていった追加実験をしていくなどの必要があります。(別単元の範囲外として説明している、RCTやA/Bテストなどを参考にしてください。)
A/Bテストのような比較テストをする事こそが、本質です。
医学の臨床における「仮説の検証」についての用語で『前向き研究』と『後ろ向き研究』という用語があるのですが(ここでいう「後ろ向き」とは、過去にあった事を調べるという意味。「前向き」は未来に向かって追跡調査していくという意味)、どちらの調査方法にせよ、関係ありそうな色々なデータやサンプルを集める、という方法です[17]。
たかが1回か2回の調査で、仮説の因果関係を検証しようなんて、無理があります。少なくとも医学では、そんな少数回の実験などでは、まったく因果関係の証明は行われていません。
よって、ネット上にある、統計を使った経済評論家のような人がいる「カイ二乗検定を使えば、少数回の実験で因果関係を検証できる」的な言説を述べているものは、ウソツキ、または出来の悪い統計技術者です。
さて、医学ではなく、もっとちょっとした、なにかの仮説の検証を考えましょう。たとえば、学生生活とかで思いつく仮説でも構いません。
比較テストでは、日時などがなるべく同じ条件でテストする必要があります。なので、いっそのこと、たとえばアンケートの質問なら、同じアンケート用紙で質問してしまえばいいのです。たとえば、共学の高校でのアンケートなら、いちいち男子向けアンケートおよび女子向けアンケートを合計2回実施する必要は無く、単にアンケート時に男女共通でアンケートを同時に実施して、単にアンケートの集計時のデータ分析時に男子の回答の合計値と、女子の回答の合計値を、それぞれ計算すればよい、というような感じです。
ただし、回答者(または被験者)などの情報も記録しておき(例えば上記の共学の例なら、性別も回答させる必要がある)、あとで集計時に回答者をグループ分け(たとえば性別ごとに分ける)できるようにする必要があります。
クロス集計は、単にアンケート質問時にひとまとめに集めた回答を、集計での分類時に分けただけに過ぎません。、
さらにカイ二乗検定は、そのようなクロス集計でのデータ分析の方法の、一説に過ぎません、
いちいちカイ二乗検定をしなくても、集計時のデータを見て、なにか思いついた仮説があれば、次のアンケートでその仮説を検証できるような深掘り(ふかぼり)した質問をして、仮説を検証すれば良いだけです。
医学の臨床研究でも、類似のことは行われており、たとえば、後ろ向き研究によって気づいた仮説を、前向き研究で検証するために新たにデータやサンプルを集めたりもします[18]。(ただし医学の場合、アンケートでなく、実際に検査機器や測定機器などで治療効果を測定するでしょうが。)
このように、仮説の検証の方法は、実際に実験をする、または実際にアンケートをするなどして、実際に新たなデータやサンプルを集める」、これ以外には存在しません。
インチキなグラフの例
[編集]- ※ 検定教科書で、グラフでよくあるインチキの「印象操作」の手口を紹介している。
棒グラフなのに、間隔が等間隔でない例。円グラフなのに中心が円の中央でない例。 ※実教出版
3Dの円グラフは、手前が大きく見えるので、観客をダマす結果になりやすい(※ 東京書籍、実教I 巻頭 見開き、)。
誤解を与える円グラフ | 正しい円グラフ |
---|---|
誤解を与える円グラフでは、Item C は少なくとも Item A と同じ大きさに見えるが、実際には半分以下である。 |
途中で切ったグラフ | 正しいグラフ |
---|---|
どちらのグラフも同じデータを表している。左の途中で切ったグラフではデータに差があるように見られるが、右側の正しい方ではそのような差はほとんど見られない。 |
-
同じ値であるが、遠近法により前にある青色の棒の方が、後ろにある緑の棒よりも大きく見える。
(※ 範囲外)こういう、余計な装飾や余計な情報などによって分かりづらいグラフ、誤解しやすいグラフのことを「チャート ジャンク」と言う。なお「ジャンク」とは、ガラクタという意味の英語。
※ 実習用コラム
[編集]データ分析は問題解決まで提案する
[編集]数値データをデータ分析した場合は(前提として、下記につづく文のような場合は数値でデータを取る)、決して単にデータ分析ソフトなどを使うだけでなく、さらに問題解決のための道すじ(みちすじ)を提案しよう。たとえば、「どんな問題が起きているか?」(もしくは、問題が起きていないことの確認)とか「どの問題を解決すべきか」、といった『問題発見』の有無までなら提案が比較的に短時間で可能なはずです。(高校生なので他教科の勉強jもあるので、その程度の時間投入で構いません)
2024年のNHK教材でも、高校生が、そのような問題解決の道すじまで提案しています。[19](なお、農家(イチゴ農家)が実家の高校生が、ビニルハウス内の室温や湿度やCO2濃度や窒素濃度、肥料の溶液の濃度、ハウス外の外気温や日射量などをセンサ(デジタル)で自動計測した結果をデータ分析している。)
グラフを見れば、たとえば「湿度の変動が大きいから、それがイチゴにストレスになっている可能性があり、湿度の変動を小さくすべきだ」くらいの提案は可能です。(実際にそういう装置を導入できる予算があるかどうかは知りませんが、少なくとも問題発見までなら予算はソフト代とソフト技術者代と若干の専門知識(新人レベルかその少し上)だけで可能です。)
もし予算が少なくても、ソフトに収集したデータを入れて自動分析した結果をグラフ表示するとこまで行けば、あとはグラフなどをもとに、問題解決の道すじを提案すれば良いのです。
ソフトで分析した本人が、そこまで提案する必要あります。なぜならソフトを使った本人でないと、ソフトから得られたグラフなどの見方を知らないからです。
- ソフトを使うだけなら馬鹿でも出来る
既存のソフトを説明書どおりに使うだけなら、小学生とかでも出来ます。
問題解決の道すじ(みちすじ)を具体的に提案しはじめてようやく、なんとか仕事のできる大人の仲間入りです。
- グラフ画像も提案時に必要なことが多い
問題発見および解決すべきことの道すじを提案した上で、そのアイデアの根拠のもとになったグラフなどの短時間で見れる画像データも見せます。これは、おそらく、ビジネスマンとかが仕事とかで、何かの提案やプレゼンなどを社内でするときも同様でしょう。
なぜ提案だけでは駄目かというと(根拠のもとになったデータをグラフ化したものも必要かというと)、なぜなら自分の提案は、あくまで仮説にすぎないので、間違っている可能性もあります。
なので、自分の提案をたたき台(「たたきだい」、議論を始めたりするさいのツッコミ対象になる話題のようなもの)にして、お客さんと一緒に、よりよい解決案をいくつか考えていき、最終的にお客さんに採用する解決案を決定してもらうのです。
なので、自分の提案は、客に欠点をツッコまれる場合もありますが、しかしそれでも何も提案しないよりかは、はるかに客から信用を得られています(マトモな客ならそうです)。
Google フォーム
[編集]Officeソフトではないのですが、Googleの出しているwebアプリで、Googleフォームという、アンケート機能のためのアプリがあります。このGoogle フォームは、すでに日本の小中高でも既に使われている事例もあります。
- ※ 東京書籍および実教出版の「情報」教科の教師用指導書でも、Googleフォームを紹介しています。
Google ドキュメントやGoogle スプレッドシートなどと同じ Google Workspace の一部として Google フォームも用意されています。(つまり、アプリを探す場合は、Google スプレッドシートなどの近くを探せば、そこに Google フォームもあるはず。)
Googleフォームはネットのwebページを使ったアンケート回答ですので、URLを回答者に教える必要があります。メールなどでURLを教えましょう。
Google フォームなら、匿名アンケートだけでなく記名式アンケートにも活用できるので、一見するとアンケートとは関係ない小テストなどにも実用が可能です[20]。
※ Google フォームでは、短めの文章も記入できるので、記述式の出題の小テストでも可能。
もちろん、アンケートとしても Google フォームは利用可能です。記名式アンケートも匿名アンケートも、両方とも可能です。
部活の入部希望の調査の書類も、アンケートと言えますので、そういうのにも google フォームは使えます[21]。
アンケートを取る機能に加えて、さらに、アンケート結果を集計して一覧表示したりなどの機能も事前に Google フォームに用意されているので、管理もラクです。たとえば部活のアンケートに利用した場合なら、どの部活に何人希望しているかの情報も、瞬時に集計できます[22]。
さて、有志の日本人教員の手により、スプレッドシートをもとに小テストのフォームを作成するツールも作成されている。高校教師とICTのブログ『【EXCELからGoogleフォーム】英単語テスト自動作成ファイル』
アンケートの作る際の考えかた
[編集]アンケートの結果をグラフなどで表示したい場合、たとえば「どの意見が多いか? どの意見が少ないか?」などをグラフで図示したい場合、前提として、文章の記述式のアンケートではなく、選択肢を選ぶ方式のアンケートとして設計する必要があります。
文科省の動画教材でも、そういう話をしています文部科学省/mextchannel『【情報Ⅰ】情報通信ネットワークとデータの活用(4)全編「アンケートで身近な問題を解決しよう!」』
なので、アンケートは基本的に選択肢を選ぶ方式をベースにして、それだけだと情報収集できない事だけを記述式で文章で聞くのが、あとで収集者が内容を把握しやすくて良いでしょう。
ですが、初心者には選択肢の方式が簡単だろうと思います。
- (※ 範囲外) 「0」~「9」のほかに「A」~「Z」や「a」~「z」などの英語も含んで半角しか受け付けないようにするメニューやコマンドは、残念ながらgoogleフォームには、ありません。なので、電話番号や郵便番号を質問しようとすると、少し困ります。電話番号の最初の0が消えてしまったり、あるいは四捨五入など何かの近似が発動してしまったりと言った事態は、避けねばなりません。このため、電話番号や郵便番号などは、数値としては取り扱わず、基本的には(数値ではなく)テキストとして扱わなければなりません。
- ただし、テキストとして扱うと、全角と半角の混在や、半角カナ(「カナ」)みたいなのの問題とかが発生し、とてもコンピュータ処理が難しくなってしまいます。
- なお、、Googleフォームでどうしても半角英数でのみ入力させたい機能を実装したい場合、「正規表現」(せいきひょうげん)というテクニックを使うことになりますが、高校レベルを大幅に超えているので、くわしい説明は省略します。大まかに説明すると、「回答の検証」のあと、プルダウンのメニューで「数値/テキスト/長さ/正規表現」とありますが、その正規表現を選んで、プログラミング的にコード入力によって半角英数しか受け付けないように設定します。正規表現は、たとえば
[0-9|\-]{1,15}
のように入力すれば大丈夫でしょう。これは
『0から9までの半角数字と、または半角ハイフン記号「-」が、1文字以上、15文字以下』という条件です。
という意味です。ハイフン記号は正規表現では範囲指定で使うので、ハイフン記号そのものを入力させたい場合はエスケープ文字\を使います。
- あるいは、フォームのアンケートでは、そもそも電話番号や郵便番号を質問しないのが、いちばんラクな方法だと思います。
- せっかくgoogleフォーム側で半角英数の入力を解決しても、さらにそれをスプレッドシートなど別アプリに出力する際などに、そのスプレッドシート側での設定も色々と必要になるので、電話番号や郵便番号の質問をする事はとても面倒です。なので、電話番号などはwebアンケートでは質問しないのが一番ラクでしょう。
誤解や解釈ブレのない質問文が必要
[編集]ほか、アンケートの選択肢を作る際など、初心者によくあるミスとして、自分にしか分からない表現でアンケート文を作ってしまうミスがあります。
たとえば
勉強を何時間していますか? 1: 0~1時間 2: 1~2時間 3: 2~3時間 4: 3時間以上
のようなミスです。
これはます、1日あたりなのか1週間あたりなのか不明です。
家庭学習の時間を聞いているのか、それとも学校の時間を入れるのか、あるいは塾の時間を入れるのかも不明です。
あと、1時間の勉強をしている人は、選択肢1なのか選択肢2なのか、どっちも不明です。
学校の図書室での自習は? 部活で勉強させられている場合は? ・・・などなどです。
文科省の動画教材で、上記の例があります。
これを正しいアンケート文に直すなら、たとえば
あなたは1日あたり、学校の授業以外(家庭学習のほか、学校での自習や、塾なども含む)でいつも何時間の勉強を何時間していますか? 平均でお答えください。 1: 0時間以上 ~ 1時間未満 2: 1時間以上 ~ 2時間未満 3: 2時間以上 ~ 3時間未満 4: 3時間以上
のようになります(上記は一例)。
アンケートを作った本人は、本人の習慣を暗黙の前提にしてしまいがちなので、回答者に必要な説明が不足しているアンケート文を設計してしまうミスもよくあります。
こういうミスは自分1人では気づきづらいので、アンケートを完成させる前に、確認として友達など数名といった誰か他人にアンケートを読んでもらって、分かりづらいところを指摘してもらうのが良いと思います(文科省の動画教材でも、友達などに読んでもらうように指導している)。
アンケートのその他の設問ミスの例
[編集]※ 日本文教出版の資料集『情報 最新トピック集 2023 高校版』がチェックボックスを紹介している。
たとえば、ダメな例として
- 飼っているペットをお答えください。
- 〇犬 〇猫 〇それ以外 〇飼ってない
の質問アンケートを上記のようにラジオボタンで選択式にしたwebアンケートには、質問ミスがあります。
それは、「犬と猫の両方を飼っている場合、ラジオボタン方式では答えられない」というミスである(ラジオボタンは1つしか答えられない)。
Google フォーム などのアプリで複数回答を可能にする場合、ラジオボタンではなく、チェックボックスを使います。
ラジオの周波数の戦局が1つのチャンネルなように、ラジオボタンは1つの選択肢だけを選びとる場合に使います。(聖徳太子とかそういう例は無視する。)
なお、正しいアンケートの選択欄は
- □犬 □猫 □それ以外
のようになります。
※ なお、見やすさの都合上、上記の説明では横にラジオボタンやチェックボックスを並べましたが、実際のGoogleフォームではボタンなどを上記のように横に並べることはできないです(縦に並べることになります)。グリッドと言う機能を使えば横にラジオボタンやチェックボックスを並べられますが、表示が上記の例とは異なります。なので、上記のような質問では、縦に並べるほうがラクです。
その他、フォーム設計のコツ
[編集]高校レベルを大幅に超えるが、デジタル庁が、行政機関むけのフォーム設計のガイドラインを作ってたので、参考に。
要点は
- あらかじめ、記入可能な最大文字数を表示。
- 現在の文字数のカウンタをつける。
- 記入条件を表示。
- 記入例をプレースホルダーではなく入力欄の前にテキストとして表示(プレースホルダーにすると入力中に確認できず不便なので)
現状、Googleフォームに文字数カウントの機能は無い。だが、記入可能な文字数の表示などは心がけで出来る。
なお、最大文字数などの設定をしたい場合は、なお各フォーム右上のドロップダウンを「段落」にして、右下の(︙)をクリックして、「回答の検証」にチェックを入れると、最大文字数などの設定が現れるので、設定できる。
Googleフォームには現状(2024年)、制限文字数を自動表示する機能は無い。
自由記述は、上記のように管理が難しい。なので極力、ラジオボタンやチェックボックスなどといった、自由記述ではない方式を使うのが安全である。
自由記述は、なるべくアンケートの最後のほうに持ってくるのが望ましい。アンケートの前のほうには、ラジオボタンなどの、記述でないフォームを置くべきである。
なぜなら、そうすることで、ボタンで回答したことは記述しなくて済むので、回答者にとって記述がラクになる。
また、アンケート収集者も、ボタンで聞けることを文章で読まなくて済む。双方にとって利益があるので、自由記述欄はアンケートのさいごのほうに置くことになる。
また、アンケートで1つの記述欄をもうける際も、ラジオボタンつきの質問に分解できるかどうかを検討したほうが良い。
たとえば文化祭の演劇のアンケートで、
(よい例)
Q この劇は面白かったですか? *必須 :〇 とても面白かった 〇 まあまあ面白かった 〇 あまり面白くなかった 〇 面白くなかった Q.2: 感想があれば、お書きください。 ------------------------------------- | | | | | | ------------------------------------|
のようにラジオボタンつきの追加質問を前置きして分解すると、回答者は書きやすくなるし、またアンケート収集者も集計しやすくなる。
なお、ややダメな例 ↓
この劇が面白かったかどうか、感想をお書きください。 *必須 ------------------------------------- | | | | | | ------------------------------------|
となる。
Google フォ-ムの場合、ラジオボタンを使う方法以外にも、ドロップダウンを「均等目盛」にする方法もある。
目盛にはラベルをつけられないので、説明文のほうにラベルを一覧記載することになる。つまり
Q.1: この劇は面白かったですか? *必須 4(とても面白かった)/3(まあまあ面白かった)/2(あまり面白くなかった)/1(面白くなかった) 1 2 3 4 〇 〇 〇 〇
のようになる。
用語など
[編集]「全数調査」
「標本調査」
数学の教科書に書いてあるので、それを参考にせよ。
「期待値」、「ヒストグラム」など統計の数学用語は、情報iでも習う。
中学でも習ったが、ヒストグラム(度数分布)は、1次元のデータ全体を見渡したい時に使う。
散布図は、2つのデータの関連を見るのに使うものなので(たとえばクラス全員の数学の得点と物理の得点の関係とか)、1次元のデータだけ(たとえばクラス全員の数学の得点)を見たい場合は(散布図ではなく)ヒストグラムを使う。
- (※範囲外)ヒストグラムについて、高校数学や高校情報の検定教科書では度数分布表をもとに棒グラフにしたものと原理を習うが、
- しかしコンピュータの表計算ソフトでは、元データを指定してヒストグラム作成をソフトに命じればソフトが自動的に度数を数える仕組みであるので、わざわざ原理通りに度数分布表を作らずとも、ヒストグラムを作成できる。つまり、各階級の度数を人間が数えずとも、表計算ソフトによってヒストグラムを作図できる。
「分散」や「標準偏差」など高校1~2年レベルの数学の用語は、情報iでも習う。
「箱ひげ図」
やや発展的だが、実教出版の教科書で「二項分布」、日本文教出版で「χ(カイ)二乗検定」、を習う。
データベースの初歩
[編集]データベースによく用いられるソースコード上での記法の形式には、CSV (シーエスブイ)形式や XML(エックスエムエル)形式 や JSON (ジェイソン)形式などがあります。こういった形式だと、機械が解釈しやすいです。
- ※ 実教がCSVとXMLを紹介。加えて第一学習社がJSONも紹介。第一は読みもルビで紹介。
CSVはデータをカンマ(コンマ、「,」)で区切った形式です。(※「カンマ」か「コンマ」の違いは教科書会社ごとに違う。実教がカンマ、第一がコンマ)
なお、実教も第一も、CSVとかの単元のあとに「外れ値」とかの概念の単元を教えている。
データベースの常識として、バックアップを定期的にとる必要がある。(数研出版、東京書籍「情報II」の図)普通、バックアップと言った場合、外付けハードディスクやDVDなど別の記録装置に保存することである(※ 数研)
なお、ミラーリングという技術とは別物である(※ 数研)。。
一方、ミラーリングは、通信トラブルなどハードウェア的なトラブルにそなえて、データの保存時に、そのコンピュータのOSが接続している本体コンピュータの保存ストレージとは別に、別の保存ストレージにも同期して保存する技術である。ミラーリングだと、操作者自体が誤操作によって本体ストレージから消した場合、同期して別ストレージからもデータを消してしまうので、このような場合はミラーリングでは対処できない(※ 数研出版など)。
ミラーリングよりもバックアップのほうが比較的に安全である(※ 数研出版の見解)。
大企業や大官公庁などのデータベースは、利用者からは一つのデータベースに見えるが、実際は支社ごとのデータベースだったりして、それぞれの支社データベースからの情報をユーザー利用時に仲介システムでひとつにまとめているだけに過ぎない事もあり、このような仕組みを分散データベース(※ 東京書籍)または分散型データベース(※ 第一学習社)。
分散データベースの利点として、アクセス集中を防げるため負荷の軽減や、また、もし事故などでデータベースが一つ壊れても、他のデータベースが生き延びるので被害を最小限におさえられる、などの利点がある。
データベース管理システムをDBMS(ディビーエムエス)と略記することもある(実教I、東京書籍 II)。リレーショナルデータベース管理システム RDBMS という表現もある(実教 II)。
銀行の取引履歴などもデータベース(※東京書籍 II)。金融機関もデータベース(※第一)。「金融機関」といったら、第一の想定しているのは銀行や保険とかだろうけど、証券取引所とかもデータベースだろうから・・・。
どのDBMSも、データの一貫性を保つため、一つのデータテーブルを、複数人が同時に変更できないようになっており、先にアクセスしたほうがロックをかけ操作終了までロック中で(日本文教I)、このような仕組みを「排他制御」などと言う(東京書籍II)。
どのDBMSも、「障害回復」のため変更記録のログを保存しており(日本文教I)、このため、現在データに不整合などが起きてもバックアップできる(日本文教I、東京書籍II、第一Iなど)。
裏を返すと、データ変更履歴以外の画面などの雑多な操作はデータベースとは切り離されている(日本文教I、開隆堂I)。また、このような切り離し・独立性のある仕組みのため、データ以外の関連プログラムに不具合があって修正するときも、データに影響を与えないので、安全に修正できる(第一)。
また、ユーザーごとにアクセスできるデータに制限をかけることができる。ユーザーAは 接続(読み取り)〇・参照〇・更新× とか、ユーザーBは接続〇・参照〇・更新〇 とか、ユーザーCは接続×(必然的に参照も更新も×)とか、制御できる(日本文教I)、こういう機能をアクセス制御(access control)という(日本文教出版II、第一学習社I)。(※英訳は日本文教出版I、数研I)
- ※ C言語などのファイル操作の「読み取り」/「書き込み」などとは違います。
- ※ OSの各ファイルのファイル操作のアクセス制御とは(共通点もあるが)別物です。それとは別にデータベースソフトでは、もっと細かいアクセス制御のできるソフトも存在している。
アクセス制御の「更新」は「変更」ともいい、文字通り内容を書き換えることは当然に含むが、さらに削除も含む(※第一学習社I)、なかなか強い権利である。
データベースのアクセス権の「読み取り」は一般に、内容の表示も含みます(第一学習社)。
データベースソフトの種類によっては、上記のような3パターン(接続/参照/更新)だけではないソフトもあり、もっと細かく制御できるデータベースソフトもあります。(日本文教出版I)。たとえば「データの追加は認めるが、データの修正は認めない」といった細かなアクセス制御が可能なデータベースもあります(日本文教出版I)。
なお、こうしてアクセス制御などで与えられた各ユーザーごとのそれぞれの権利の状況をアクセス権という。
データベースの「管理者」と言われる人が、こういった各ユーザーのアクセス権を管理している(※第一学習社 I)。(もし管理者以外の誰でもアクセス権を制御できてしまうと、セキュリティなどの意味を持たないので、管理者だけがアクセス権を制御できる仕組みになっていたりする。)
- 整合性
代表的なデータベース言語であるSQLにはデータ型があるのだが、しかし実教出版『情報II』ですたTEXT型しか紹介していない。JacaScriptとかPythonなどの(比較的に)モダンな言語とくらべて、SQLの言語の型は難しい。 東京書籍の情報IIは、月日の入力で数値型や日付型っぽい概念をにおわせているが、しかし型の概念はデータベースの単元では紹介していない。(※そもそも型の概念を、実教ですら紹介していない。
東京書籍は、これらの話題を「整合性」に分類。
ビッグデータとデータサイエンス
[編集]たとえば、大手通信販売サイトは、毎日、多くの人の購入履歴のデータを入手しています。
また、コンビニなどは、POSシステムによって、どのような客層がどのような商品を購入しているかといったデータを、本社などに届けています。そして、このような購入履歴などの膨大なデータは、商品開発などにとても役立つデータです。
こういった、多くの人などについてのデータといった、多様かつ膨大なデータのことをビッグデータ(big data)と言い、活用がされています。 (※ 数研、実教I に英訳 big data あり)
また、ビッグデータなどのデータから価値ある分析をするための学問として、数学や統計学やコンピュータ科学などを活用して大量のデータから意味ある情報や規則性などを見つける学問である「データサイエンス」(data science)と言われる学問も発達してきています。(日本文教出版 I)
ソーシャルメディア(SNS)への短文投稿も、毎日多くの人が投稿しているので、みんなの投稿をあわせればビッグデータです(※数研、第一学習社)。
ほか、自動車などのGPSのデータも、ビッグデータです(※数研)。なお、災害時には自動車の位置情報データが「通れた道マップ」などに応用されます(※日本文教出版 II)。
- 余談
GPSというと、携帯電話のGPS通信などによる位置情報は、実際は近くの基地局との通信です(※東京書籍『新編 情報I』P36)。端末に「GPS」通信などと表示されていても、実際は基地局のIDを読み取って自機の位置を知る手がかりにしている場合も多い(日本文教出版 II)。
- ※ なお、日本文教出版は、原則スマホがGPS電波を直接受信していると主張する立場。
なお、携帯電話、スマートフォンは、つねに基地局との通信のために微弱な電波を出しています(東京書籍I・II)。
ひとつの基地局がカバーしている範囲を「セル」と言う。移動しても通話が切れないのは、基地局からの電波が一定以下になると自動的に別の基地局からの電波に切り替わり、セルが移動先の別基地局のものに切り替わるからである。
なお、携帯電話やカーナビなどのGPS位置情報システムは、4つ以上の人工衛星からの情報をキャッチしている。誤差を無視すれば空間座標のx,y,zの3つぶんの衛星で良いはずだが、実際には誤差が発生するので4つ目の人工衛星からの電波が必要になる(※ 数研出版、日本文教出版II)。また、衛星からの電波状況が悪い場合などは、上述のように基地局などとの通信による位置情報に自動的に切り替わる。
- 余談2
経済産業省などが、日本中の小中高生の学習履歴や成績などのデータをデジタル上で集めて、教育用のAIのためのビッグデータを作ろうとしています[23]。
1990年代からもテスト業者の模擬試験などでコンピュータなどを活用して受験者の弱点分析などもしていましたが、2020年代以降に国によって学習履歴が収集されれば、かなりのビッグデータになります。
AIをこれらの教育ビッグデータ技術につなげようとするアイデアも、もう考えられています。すでに一部の塾などがAI活用しており、それを経産省が調査しています[24]。
実際に国家によってビッグデータ化される場合は、生徒のプライバシーなどの議論もそのうち出てくるでしょう。
情報IIの範囲
[編集]見かけの相関
[編集]たとえば、夏の暑い日々、アイスクリームが売れます。いっぽう、夏は暑いので、熱中症の患者が増えます。
なので、アイスクリームの購入数のデータと熱中症のデータには正の相関がありますので(両方とも厚い時期に使うので)、アイスクリームと熱中症に相関関係はあります。
しかし、だからといって「アイスクリームを食べると熱中症になる」といった因果関係はありません。
このように、相関関係があることと、因果関係があることは別の現象です。
相関関係があるのに(正の相関、または負の相関があるのに)、因果関係がない2つの現象について、そのような2つの現象を疑似相関(ぎじそうかん)といいます。
別の第3の変数によって、2つのデータとも因果関係があって相関があるとき、2つのデ-タは相関が発生します。
たとえば、夏の暑い日々の話なので、「気温」というデータが、その第3の変数です。上記の例の場合なら、気温に気づけるかどうかがポイントです。
相関関係があるのに「疑似相関」というのは日本語として変ですが、しかし英語でそういうので( Spurious correlation は直訳で「見せかけの相関」と言う意味)、あきらめてください。
- ※ 用語は出してないが実教が情報Iで、『相関が強い場合でも、そこに因果関係があるとは限らない』。
- ※ 東京書籍が情報Iで、『かき氷の売り上げと気温に関係があり、気温と熱中症患者数に関係あるからといって、「かき氷の売り上げが増加すると、熱中症患者数が増加する」とは言えない』。
なお、上記の例の「気温」のように、直接調べている2つのものに影響を与えている、直接は調べていない第三の因子のことを「交絡因子」と言います。(東京書籍の副教材で紹介しています)
※ 「交絡因子」は基本的には情報IIの範囲。ただし、数研が情報Iで傍注で紹介している。
「チョコレートがよく売れる国では、ノーベル賞の授賞者が多い」なんていう話題が2010年代に話題になりましたが、これもおそらく疑似相関でしょう。
貧乏な国は、チョコレートが買えない人が多いからです。チョコレートに限らず、貧乏な国では買えないようなものなら、同様に調べれば疑似相関の結果となるでしょう。
過剰適合
[編集]
「過学習」(overtraining[25])とか「過剰適合」(overfitting[26])とか「オーバーフィッティング」とか言って、(※ 日本文教出版が「オーバーフィッティング」で用語のみ紹介。東京書籍がグラフありで過剰適合、過学習で紹介)
たとえば
変数の次元を増やしすぎたり(たとえば5次式とか8次式とかもっと多い次数とか)すると、たとえば散布のすべての点がプラスなのに、近似曲線がマイナスに入る場合もある。特に、一つ目の例に示したグラフでは両端がマイナスに入ってるように、縁の誤差が大きくなりやすい。
もちろん、実験対象によっては実際にマイナスになる可能性もあるが、しかし測定対象の種類によってはマイナスがありえないものもある。(たとえば「長さ」とか「重さ」だと、相対値以外ではマイナスはありえない。)
過剰適合は、人工知能などがブームになる前から、近似曲線や統計学などの理論で古くから知られていた問題だが、しかし近年は人工知能などでも過剰適合は問題である。
このような現象は、過去の測定データから未来を予想するときにも問題になりやすいので、人工知能などの機械学習でも問題になることが懸念されている(だから「過学習」と言っているわけで)。
ほか、別の例としては、全体的に見れば比例的な形をしているのに、細かな蛇行に気を取られるような適合も、むやみに次数を増やすと、起こりがちである。(実教出版がこのような例を出している。)
近似曲線は、誤差を小さくすることにとらわれず、全体的な傾向を見出すために使う必要がある。
曲線がマイナスに突入していなくても、曲線が蛇行し始めて谷が3個も4個もあるいはそれ以上もいる状態は、そろそろ端部がマイナスに入り始める前兆なので、よって安全のために、もっと前の段階で(せいぜい谷が1~2個の段階で)近似式の次数を上げるのを止めることも多い。(「 実教出版も東京書籍も、谷が1個の段階で近似を止めている。)
- ※ 検定教科書では述べていないが、3次方程式にすれば、谷が1個で止まる。なので、3次式以下の次数にするのが安全だろう。
- ※ 機械工学や土木工学などの近似式では、2次式で止めているものも多い。工業高校の検定教科書にある近似式にも、2次式どまりの式は多い。2次式で止めれば、中学校を卒業したばかりの高校生でも使えるので、製造業や土建業の実務では2次式どまりの近似式も好まれている。
余談だが、過剰適合の現象では特に両端で誤差が大きくなりやすいので(※実教出版の見解)、使用する範囲よりも大きい例をあらかじめ実験して測定しておくのも、ひとつの有効な対策である。
たとえば1つ目の例ではx=16までしか測定していないが、もしx=20まで使うなら、余裕をもってx=25とかx=30くらいまで測定しておく、というのもテクニックである。
検定教科書では述べていないが、情報科学、情報工学だけでなく機械工学や電気工学や土木工学などでも、近似曲線を使うことが多い分野があるので、過剰適合は問題になる。高校・大学の教科書で与えられた公式だけを使っている学生の段階では、まだ過剰適合に遭遇しないが、しかし会社や研究機関などの実務で、自分で近似式をつくる必要が出てくると、過剰適合の問題に遭遇することになる。
(※ 範囲外)曲線グラフなどで測定範囲の外を予想するのを「外挿」(がいそう)と言う。いっぽう測定範囲の内側のまだ測定してない点を予想する「内挿」(ないそう)という。例で分かるように、外挿は誤差が大きくなりやすく、危険である。
「過学習」「過剰学習」ともいうように、機械学習とも関係がある。というか、機械学習の分野で「過学習」という用語が使われている。
機械学習の場合は、狭い範囲の訓練データに過剰適合してデータ外でトンチンカンな対応をするプログラムに育ってしまうことが「過学習」。
機械だけでなく、私たち人間もそうならないように、時には視野を広く持ち、時には範囲外のことも学ぶ必要がある。
RDB
[編集]生徒番号などは、重複があってはなりません。
リレーショナルデータベース(RDB)に登録されたデータにも、ID番号の重複があってはなりません。
RDbにおいて、ID番号のように、重複を許さないデータが「主キー」(primary key)です。※日本文教出版『情報II』
普通のデータベースソフトなら、キーに設定している項目が重複すると、そもそもそのデータの登録自体が出来ないか、もし登録できたとしても警告などが出るでしょう。
これが表計算ソフト(Excelなど)とRDBの違いです。表計算ソフトはそこまで気が利いてません。
たとえば、ある高校の図書室の書籍の貸し出し状況のデータ表を作る際、まず事前に、生徒データ表、著者名データ表、書籍名データ表、などを作らないといけない(※東京書籍の例。日本文教出版もER図の単元で図書館システムを例にしている)。
- ※ 「正規化」という作業の一例。正規化にはいくつかの種類がある。説明は省略。
東京書籍は説明していないが、著者名と書籍名をさいしょから一つのデータベースにまとめてはダメな理由がある。
まず、書籍名データベースにもし一つ一つ著者名を入力すると、たとえば著者が半角英数と全角英数とで別著者として認識されたりしてトラブルにつながる。
たとえば架空の漫画家「フジ・F・藤太郎」と「フジ・F・藤太郎」が別人だと判定されたら面倒である(Fが全角か半角かとか、「・」が全角か半角か、など)。
また、ID化しないと、検索に時間が掛かりかねない。
なお、こういうのを「表記ゆれ」と言う(※実教出版「情報II」で紹介)。表記ゆれを防ぐため、あらかじめ入力前にルールを決めておく必要があります。もし表記を統一しないまま入力してしまった場合、あとで表記を統一しなおすため修正入力する必要があり、これを「名寄せ」と言います。
人名のほか、年月日でも「西暦2019年11月16日」と「2019/11/16」と「令和元年11月16日」と「令和1年11月16日」みたいに表記方法はいくつもあるので、注意が必要です。
- (※ 範囲外)年号に関しては、データベースソフトに「日付型」と言うのがあるので、それを活用すべきでしょう。西暦2019年11月16日なら、半角英数の「2019-11-16」または「19-11-16」または「20191116」または「191116」や「2019/11/16」や「2019@11@16」などしか受け付けなくなります。これでも数パターンも表記がありますが、しかし「西暦」「令和」などの全角の漢字が加わってパターンがさらに増えるよりかはマシです。前提として、和暦は使えません。入力形式は、たとえば2019-11-16なら「yyyy-mm-dd」などと説明されます。year(年), month(月), day(日)の頭文字です。同様、19-11-16なら「yy-mm-dd」、20191116なら「yyyymmdd」です。正直、ハイフンやスラッシュなどの区切り文字が無い形式は読み違えしやすかったりトラブルの元です。
なお、ISO 8601 で規定されているのはハイフン方式の「2019-11-16」および区切り記号なしの「20191116」のような方式です。スラッシュ方式はISOでは禁じられているので、データベースの日付入力では避けるほうが安全です。また。日本のJIS規格でもISOに準拠して、同様のハイフン方式を採用しています。スラッシュ方式は、データベース以外・プログラミング以外の日常言語だけで用いるほうが安全でしょう。
同じ理由で、出版社名もできれば事前にデータベース化すべきだろう(※東京書籍の検定教科書の例ではそうなってないが)。情報処理学会の動画でも、メーカーは別テーブルにしろと言っている情報処理学会『3. データベース (5) データベースの設計(情報通信ネットワークとデータの活用)』 (4分00秒ごろ)。このようなテーブル分割は「正規化」(せいきか)と言われる処理の一種である。もしテーブル分割しないと、出版社名やメーカー名に紐づけしている会社所在地などの付随情報がもし引っ越しなどで変更したとき、その出版社・メーカーについての何万件もあるようなすべてのデータベース登録項目を手動で修正する必要があるので、ふつうの人間では無理であるので。
東京書籍の例では、「生徒表」「書籍表」「著者表」「貸出管理表」の4つから学校図書館 貸し出しシステムを構成している。
そして、貸出管理表には、貸出番号(101, 102, 103, ・・・のように1ずつアップしていく)と、借りられている書籍名のIDと、生徒番号のIDと、返却日の記録する。けっして直接は書籍名や生徒名は入れない。
そういった理由からか、まず
著者名データベースで、著者名IDと著者名を定義する必要がある。
そして、書籍名データベースでは、著者名は直接は入力せず、代わりに著者名IDを入力していく必要がある。
SQl用語の「選択」「射影」「結合」など、『情報の科学』時代から教えられており、情報IIでも引き続き教えられている。
実教『情報II』は紹介するsql言語にSqLite(エスキューライト)を採用。pythonにも組み込まれている。(実教の情報IIがpython推しだからだろう。)
Excelファイルには、パスワードをかけることができる(※ 第一学習社)。特に秘密度の高いデータなどの管理では、パスワードをかけることもある。
データベースの集合演算の、「和集合」演算とか「差集合」演算とか(※ 第一学習社の『情報II』検定教科書にもあります)、情報処理学会の動画で説明されているので、視聴してください。情報処理学会 『3. データベース (2) リレーショナルデータベースの考え方(情報通信ネットワークとデータの活用)』 (5分00秒ごろ)
データベース独自の演算である「射影」演算などについては、リンク先動画の6分00秒ごろにあります。
「射影」は指定した列だけを取り出す演算のことです。
「選択」は、特定の条件を満たす行を取り出す演算のことです。
「結合」は、共通する列をもつ複数の表の列をあわせて(※ 情報処理学会の動画)、ひとつの大きな表にすることです。
- ※ 「結合」について、検定教科書では「共通する列」が必要という条件が教科書本文では抜けていますが、しかし日本文教出版の情報IIの『情報II』の図を見ると共通列があるので、情報処理学会の動画の言う通り共通の列が必要です。
ほか、SQLに関して、ワイルドカードを教えている(実教出版 II、日本文教出版 II)。
SELECT * FROM テーブル
において、アスタリスク記号「*」は、「すべて」の意味を持つ。つまり、「テーブルの全部の列を表示しろ」という意味になる。
上述のような「すべて」という意味でのアスタリスク記号のことをワイルドカードと言う。
なお、SELECT 機能は、ワイルドカード以外を使った場合は、「射影」に相当する。なぜなら SELECT命令は列を取り出す命令なので。(※ 情報処理学会の動画)
※ 経産省の目標
[編集]経産省および独立行政法人 情報処理推進機構が、現代のIT人材に必要な能力の目標の例を定めており、経済産業省・情報処理推進機構『デジタルスキル標準』ver.1.1 ,2023年8月』 で定めています。
このデジタルスキル標準によると、データ分析の際、一次情報と二次情報の区別も定めています『デジタルスキル標準』P.42 。
経産省がこの情報Iのデータ分析の単元と近いことを資料で説明しているので、せっかくだから、ついでに、文科省だけでなく経産省の目標にも役立つ知識にアップグレードしてしまいましょう。
なお、日本国の内閣官房が、文科省や経産省に対して、デジタル人材育成の教育で連携しろと命令してます[27]。
では、下記に一次情報と二次情報とは何かを説明します。
一次情報と二次情報
[編集]実際に自分の目で確かめたとか、政府の統計など余計な判断が加わってない情報、あるいは、それらに近い情報を一次情報と言います。
一方、他人の選別や加工が加わった情報のことを二次情報と言います。(※数研出版『情報I』、東京書籍『情報II』)本やインターネットなどの情報はふつう、二次情報です(東京書籍)。
アンケートやインタビュー、実験などによって得られた情報は一次情報です。(東京書籍)
- ※ 私たちは、この単元でアンケートの仕方や処理のしかたなどを習ったので、一次情報の取り方については習っています。
経産省らの資料では、データの検証は基本、一次情報で検証しろ、と言っています。「一次情報を用いたデータの検証」という語句が経産省の資料にあります。
実際には、一次情報は集めるのに時間が掛かるため、二次情報も集めざるを得ないのですが(数研)、二次情報の検証法についてはメディアリテラシーの単元でまた説明します。
経産省の資料に、下記のリストが書かれています。
⚫ データドリブンな判断プロセス ✓ 仮説構築 ✓ 仮説の修正 ✓ 一次情報を用いたデータの検証 ✓ データの信頼性の判断・明示(中身に誤りや偏りがないか、 量が十分にあるか、出所や更新日が明確か、組織のルールに 基づいて取り扱われているデータか等) ✓ 分析結果に基づいた意思決定 ⚫ 分析アプローチ設計 ✓ 必要なデータの確保 ✓ 分析対象の構造把握 ✓ 業務分析手法 ✓ データ・分析手法・可視化の方法の設計 ⚫ モニタリングの手法
仮説の構築や修正は、PDCAサイクルなどで現実を見ながら修正してください。(※なお、検定教科書では、実教I、日本文教出版I、数研I で記載をPDCA法の確認。)
- Plan=計画、 Do=実行 、 Check=評価 、Action=改善 、
- という意味です。
「一次情報を用いたデータの検証」は、先ほど話しました。
データの片寄りは、これは高校生では、費用や時間の限界で、対処のしようがありません。
大人になってから、必要な人が、検証したいことについて、色々な観点のデータを集めることで、片寄りを減らしてもらうしかないでしょう。
とりあえず、ネット上での意見サイトには、「サイバーカスケード」という、そのサイトに集まる仲間内で情報が片寄る現象が知られているので、サイトは基本的に片寄ってることを前提にするのが良いでしょう。
出所(でどころ)や更新日は重要です。
たとえ形式的にCSVファイルとかJSONファイルとかの形式のデータでも、出所が不明だったり更新日が不明なデータは、信頼性が低いと疑ったほうが良いでしょう。
「分析アプローチ」以降は、私たちにはどうしようもありません。以降は専門家の大人たちに任せましょう。
情報II:その他のデータベースの種類
[編集]リレーショナルデータベース(RDB)以外にも、他の種類のデータベースもあります。
「階層型データベース」や、「ネットワーク型データベース」です。
しかし、データベースソフトとしては、RDB以外の種類は、あまり使われていません。
資格試験とかに出てくるからか、検定教科書では書いてありますが、2020年代では、ほとんど使われてない技術です。
しかし、裏を返せば、RDB以外の種類のデータベースを反面教師として、RDBは発達したわけです。
では、反面教師として、学びましょう。
※範囲外「階層型データベース」とは
[編集]階層型データベースというのは、たとえるなら、パソコンのフォルダシステムのようにデータを管理する方式です。
銀行の中枢システムみたいなマニアックな用途でしか、階層型データベースは使われていません。(たとえばIBMのw:IMS、その互換の日立AMD、富士通AIM くらいです[28])
そもそも、このIBMのIMSは、データベース言語がSQLではなく「DL/I」という独自言語です。
つまり、SQLしか教えない検定教科書は、暗に、階層型データベースを非推奨としているのが実態なわけです。立場上、教科書会社は表立っては階層型データベースを批判していませんが。
IMSは、1970年代からある、古いデータベースです。
なお、21世紀にらIMSはSQLでも入力できるようになりましたが、しかし内部では DL/I に変換しているのが実態です。単にユーザー側のインタフェースだけSQL対応しているだけです。オラクル社がそう言っていますOracle Application Server Adapter for IMS/DBユーザーズ・ガイド で(※ 引用)「SQLは、バックエンド・ドライバでIMS/DBで認識される言語に変換され、IMS/DBに渡されて実行されます。」 だと。
IMSはコボル(COBOL)とかそういう古い時代のレガシー技術なので、今の学生は勉強しなくていいです。レガシー技術は、仕事で必要になった人が仕方なく勉強するものです。IT技術者の勉強では、なるべく新しい技術や、市場で普及した技術を勉強しなくてはいけません。
- 余談
あと、階層型データベースというのは、たとえるならパソコンのフォルダシステムのようなものなのですが、
Windowsなどのある現代では「だったら、最初からパソコンのフォルダでデータ管理すればよいのでは・・・?」という代替方法もあります。
(なお、IMSの登場した1970年代ごろは、まだWindowsがありませんでした。そういう時代のデータベース技術です。MS-DOS (エムエス ドス)登場の1981年よりも、ずっと前の技術です。)
階層型データベースの欠点として、複数の親フォルダに使われるデータがある際、重複登録しなければならない、という欠点があります。
まさに、現代のフォルダ管理と同じです。
※ ネットでは語られませんが、問題なのは、データの更新のときです。重複登録されたデータがある場合、片方だけを更新しても、残りの重複データには更新が反映されません。
- 裏を返せば、重複データにも更新が自動的に行えるように反映できるシステムに設計すれば、解決するわけです。これはネットワーク型データベースの発想になるでしょう(未確認)。
なお、データベースに限らず、フォルダで情報を管理するときのコツなのですが、あまりに階層を深くし過ぎると、探しづらくなります。なぜなら、「あのデータ、どこの階層にあったっけ?」って思い出す必要が生じてしまうからです。まあ、ファイル検索で探せますが。しかし、そもそもファイル検索で探すなら、ファルダ分けをする必要自体がありません。
まあ、せいぜい、たとえば「画像 2023年」みたいに大まかな年やコンテンツ種類などを記載したフォルダを作っておき、そこに画像は全部入れておくのが、現代ではコツです。
OSにはファイル検索システムがありますので、ファイル名のほうに、たとえばファイル名で「アニメ オニスレイヤー画像1」みたいにファイル内容が分かる命名にしといて、その画像を探したくなったらファイル検索で「オニスレイヤー」と入れて探せばいいのです。
フォルダ分けの分類は、あるていど画像が何十枚もたまってから、あとから分類を行うのです。もし画像が1つしかない段階で、いきなり分類しても、ピント外れな分類になるだけです。
で、1970年代の昔は、検索システムがあまり高速ではなかったので、フォルダを深くするように階層を深くしたデータベースにも意義はあったかもしれません。
ですが、2020年以降の現代は違います。
パソコンの性能が低かった1970年代と比べたら、現代はぜいたくな環境があるので、そのぜいたくな環境を活用したシステム構築やプログラミングをするほうが、バグなども少ないプログラミング等ができます。
このような、ぜいたくな最新環境を活用するノウハウのことを日本のプログラマー界隈では俗(ぞく)に「富豪的プログラミング」と言います。
富豪的プログラミングを提唱した日本人プログラマーは下記のように述べています。
「ユーザインタフェースのプログラムでは 機械の効率よりも使い勝手が優先されるべきですし、 プロトタイプの作成とその評価/改良のサイクルを 数多く繰り返す必要があるのですが、 計算機資源を節約しようとすると これらの条件が後回しになりがちだからです。 」
- ※ 高校教育ではプロトタイピングについては『情報II』で習う。
階層型データモデルの欠点もまさにこれと同じで、ともすれば、プロトタイピングをロクにできない状態でデータ構造を設計しなければなりません。なので、設計者にかなりの技量が必要です。RDBに淘汰されて普及しなかったのは当然です。
21世紀におけるソフトウェア設計のコツとして、決していきなり処理速度の速いソフトウェアを作ろうとすべきではなく、まずは、処理速度が遅くてもいいので、プログラマーが作りやすくてユーザーにも使い勝手のいいソフトウェアを試作(プロトタイピング)して実際にテストして検証して、あとから処理速度を高める改修をしていくのがコツです。
使い勝手が悪いせいでロクに市場でユーザーに使われておらず検証されないソフトウェアの速度が高くなるように設計できても、なんの意味もありません。なぜなら、そもそも使われないので。
歴史的には、アメリカ合衆国で1960年代前後の宇宙開発で、サターンVロケット(サターンロケット)や アポロ宇宙船の膨大な部品の目録を作って管理するのにIMSが使われした。
もちろん、決して一人の人間が全部品を管理しきれるわけではないので、実際は専門家が専門分野ごとに分担して管理するわけです。宇宙開発は、そういう階層型で分業型の組織構造です。ピラミッド社会です。
なので、データベースの構造も、大組織での分業を前提としたピラミッド社会みたいな構造でも問題なかったわけです。
ネットワーク型データベースのように部品同士のネットワークが無くても、宇宙開発では別モジュールの部品は別企業が作っているので、データどうしのネットワーク機能が無くても問題が無かったわけです(むしろ、ネットワーク機能があると、別モジュールのデータが影響しあって不具合などが起こりかねず邪魔になりかねない)。
また、部品の生産中止のさいの更新とかを考える必要もなかったのでしょう。1960年代の米ソ冷戦中の米国NASAは、製造業に特注品などを作らせる側の大組織です。
「コンウェイの法則」(Conway's law)と言って、ある組織が開発するシステムは、その組織の構造を前提とする傾向があります。
この考えによると、階層型データベースは、その顧客である米国NASAやアメリカ軍などの組織構造を前提としています。(当時のIBMの顧客はそういう組織とかもあります。)
しかし、現代の一般人の多くは、宇宙開発するわけでもないし、今は先進国の多くは財政難の時代なので特注部品とかをバンバンと作らせるのも難しいので、一般人にはもはや不要なシステムです。少なくとも、学校の生徒のデータ管理とかには、向いていません。まるで料理をするのに包丁ではなく日本刀を使うようなものです。
部品管理とは違いますが、現代の日本のJAXAの宇宙開発でも、自動点検機能などで階層型データベースを開発することはあります 『第10回:イプシロンロケットの運用と施設設備(2)自動・自律点検システム / イプシロンロケットが拓く新しい世界』(ISASニュース 2012年10月 No.379掲載) 。
(※範囲外)
[編集]相関関係と因果関係の証明
[編集]とりあえず相関関係のある現象を発見したとして、それが因果関係か、それとも単なる相関関係なのかを区別するための研究手法について、これから述べる。
実用的なレベルで、因果関係を完全に証明するのは、難しい。
それこそ、科学者のように、膨大な研究が必要になってしまう。
しかし、それだとビジネスにならない場合が多いので、とりあえず、ある程度の検証を満たせば、疑似的に因果関係のようなものだと見なして、ビジネスに適用してしまう方法もある。
総合理科などの科目でも習うが、対照実験という手法が、理科での証明の基本である。
しかし、社会などを扱う場合、対照実験をするのが難しい分野もあり、対照実験に膨大な時間やコストが掛かってしまう分野もある。
対照実験では、変数を一つだけ動かさないといけない。しかし、社会などでは、それが難しく、どうしても他の変数も動かさないといけなくなってしまう事も多い。
たとえば人間を対象に新薬の実験を行う場合、被験者が一卵性の双子ばかりでないと、本来は、新薬という変数のほかにも家系の遺伝子という変数もかえてしまっているので、新薬の効果の完全な検証にはならない。しかし、そんなに一卵性の双生児ばかりを集めるのは現実的には無理である。仮に一卵性の双生児をあつめても、学歴などの経歴が微妙に違うので、それですら完全に一変数だけを変えた実験にはならない。
そこで、そのように他の変数も動いてしまう場合でも、なんとか疑似的に因果関係のようなものの検証をする必要がある。
なので、たとえば新薬の検証をする際、(別に双子でなくても良いので、)薬を投薬したグループと、そうでないグループとで、誤差と思えない程度に大きな差が現れれば(なお「有意差」(ゆういさ)と言う)、とりあえずの効果があるのだろうと推測するのが実態である。
医療などの分野では、ランダム化比較試験(randomized controlled trial、RCT)と言って、実験対象を2つ以上のグループにランダムに分けて、対照実験のようなものをして、有意差があれば、とりあえず効果がありそう、だとして候補にする[29]。
人間の体は、けっして1個の変数では表せないので、本来は2個や3個ていどのグループ分けでは不足であり、もっと膨大にグループ分けしないと証明としては論理的には厳密ではないが、それだと費用が掛かり過ぎるので、よって2~3個ていどのグループ分けでも良いとして、代わりに、可能なかぎりなるべくランダムに分ければ良いとされる。
ここで要求されるランダムさは、サイコロなどで得られる程度のランダムさもあれば十分である[30]。現代ではコンピュータで発生させる乱数でも十分である。
このRCTは、データサイエンスの分野にも、すでに取り入れられている。このように、医療分野の統計手法だろうが何だろうが、使えそうなら取り入れるのがデータサイエンスである。 また、経済学にもRCTは取り入れられており、2019年度のノーベル経済学賞である(なお、(物理学賞や医学生理学賞などを扱う)ノーベル財団はノーベル経済学賞を扱っていない。ノーベル経済学賞を行っているのはスウェーデン国際銀行という別組織である。ただし、ノーベル財団とノーベル経済学賞とのあいだでも交流があるが、この単元の教育対象外なので説明を省略)。
このように、ランダム化比較試験は、対照実験を疑似的に行う手法である[31]。
IT業界や広告業界などだと「A/Bテスト」というのがあるが、これもRCTと似たような発想である。A/Bテストとは、たとえば、ある広告に校歌があるかどうかを検証したい場合、統制下の集団を、広告を見せたAグループと、見せてないBグループとに分けて、比較する方法である。
医療の場合、RCTでの検証以降にもさまざまな検証があるが、しかし医療以外の規制のゆるい産業ではそこまでの検証を求められずに、場合によっては簡易なRCTまたはA/Bテストによる検証に合格した成果がある開発製品ならば商業化するのも普通である。
なお、医療の場合、上記のランダム的なグループ分け以外にも規制などによって付随する袖手の試験のことも含めて「RCT」と呼んだりする場合もあるが、しかし本ページでは狭い意味でのとりあえずのランダム的なグループ分けをした試験のことだけをもって「RCT」と呼ぶことにする。
医療の場合、変数を変えて何回もRCTをする、たとえば年齢別にRCT、性別を変えてRCT、人種別にRCT、体重別にRCT、既往症別にRCT、・・・などなど。
ただし、医療ではない一般の商業などでは、そこまでの費用は出せない。なので、多くの一般の業界では、RCTでもA/Bテストでも、充分な人数を対象にとりあえずの比較試験で効果が出れば、とりあえずの再現性があると見なす。
完全に一変数だけを動かすのは経済的・社会的な事情などにより無理なので、なので、(広告や新薬などの)介入要素以外の条件があるていど似ていれば、疑似的に対照実験のようなものと見なすのである。
- 別単元との関係
高校「情報」教育では他の単元で「プロトタイプ」を教えるが、結局、あまり厳密性をもとめられない業界では、上記の程度のとりあえずの検証を潜り抜ければ当面のあいだは充分なので(その代わり、年月が経ったら再検証をするなどの追試が必要であるが)、なので試作(プロトタイプ)をつくって実験と簡易な改良をさっさとしたほうが良いのである。その程度で十分なのである。
別の単元でPDCA法を習うが、これもまた、仮説にもとづいて計画を立てているわけである。仮説とは結局、「たぶん、これはこういう仕組みだから、こういう対策が有効だろう」というPlan(計画)の形での、因果関係の推測である。このため、A/Bテストなどの分析手法とも関わってくる。Planは結局、仮説を前提にしているので検証(Checkに相当)が必要であり、なので、A/Bテストなど、なんらかの検証手法とも関わってくる。
このように、PDCA法は仮説思考とも関わってくる。
- 余談
新薬の実験の場合、もともと実験に参加してくれる人は、ある程度は健康の悪い人だったり、あるいはカネの無い人だったりする。(お金をあげて新薬の実験台になってもらうので。これを「治験」(ちけん)と言う。)
このため、被験者のグループは、平均的な人からはズレる。
ビジネスマンの数値化思考
[編集]ビジネスマンの数値化思考を例に、大学レベルの抽象的な数学の話をしよう。
なお、下記は、とりあえずの仮説であるので、決して鵜呑みにしてはいけない。社会のような抽象的なものごとを考える際は、仮説でもいいので、まずは思考のとっかかりを考えるのである。こういうのを「仮説思考」と言う。
頭の中に、とりあえずの仮説をつくり、それを新しい事を学んだら適宜(てきぎ)、より正しい新情報をもとに従来の自分の仮説を修正していくのである。
ビジネスマンの思考法で、「数値化思考」というのがあり、その要点は、「会社の資産には、時間・人員などに限りがあるので、物事の数値化をして、経営ですべき行動に優先順位をつけよう」的な発想です。
これはつまり、「経営者は、ビジネス上の様々な思考を、順序尺度のようなものに置き換えるべきだ」的な主張に言い換えできます。
では、こういったビジネス応用を前提に、数学的に考察しましょう。
数学IAで「集合」を習います。
さて、関数とは、集合から集合への対応の規則(なお、これを「写像」(しゃぞう)という)で、値が数値のものを「関数」と言います。
- ※ 「写像」は、2020年代の現在は、高校範囲外なので、覚えなくていい。昭和の一時期、高校で写像を教えていた時代もあった[32]。
なので、私たちは「尺度」で数値化をしていますので、じつはこれは、物事を関数に置き換える行為をしています。
数学用語では「関数」と言う言葉自体、本来は値は数値にかぎるのですが、しかし情報科学などでは別の意味の「関数」という言葉もあるので、当ページでは説明の都合上、「数値化関数」という造語をつかって、特に値が数値である事を強調します。
上記の「なので」の文をこの「数値化関数」で置き換えます。
なので、私たちは「尺度」で数値化をしていますので、じつはこれは、物事を「数値化関数」に置き換える行為をしています。
なお、数学で「関数」と言った場合、じつは定義域はかならずしも数値である必要は無く、つまり定義域は集合でも構いません。
私たちの目的は、けっして普遍的に適用しようとする一般化ではなく、ビジネス思考などへの実用化です。このため、むやみに値を数値以外に拡張するような一般化をする必要はありません(今の私たちにとっては)。
さて、たとえば、順序尺度の例
- (5点) とても良い
- (4点) 良い
- (3点) 普通
- (2点) あまり良くなかった
- (1点) とても良くなかった
は、
これは「数値化関数」と考えると、
定義域の要素 → 値 「とても良い」 → 5 「良い」 → 4 「普通」 → 3 「あまり良くなかった」 → 2 「とても良くなかった」 → 1
であります。
もし、「普通」と「あまり良くなかった」が同じ値だと(たとえば両方とも2だと)、区別できず、価値を持たない。
つまり、私たちの必要とする数値化関数は、単射でなければなりません。
「単射」(たんしゃ)という言葉を説明なしに使ってしまいましたが、単射とは、「定義域の別々の要素は、別々の値に対応する」という規則に従っている写像です。
つまり、順序尺度ですら、単射でないと(つまり別々の要素は、別々の値に対応する)、意味を持たない。
さて、大元の問題意識は、ビジネスマンの数値化思考の話でした。
つまり、ビジネスマンの数値化思考をする際、「単射」のような「数値化関数」(造語)で置き換えしないといけません。そうしないと、実用性がありません。
そして、下記のように、大小関係が定義できないと意味を持ちません。
たとえば順序尺度
- 「とても参考になった」 → 3
- 「参考になった」 → 2
- 「あまり参考にならなかった」 → 1
- 「参考にならなかった」 → 0
になれば、参考になった度合の大小関係だけは定義でき、
たとえば「とても参考になった」をAとして、「あまり参考にならなかった」をCとすれば、Aの数値を見れば3、Cの数値を見れば1であり、Aのほうが数値が大きく、数式の不等式で表せば
- A > C
なので、
Aのほうが、より強く参考になったという主張を意味している、 という大証関係だけなら定義できます。
しかし、「順序尺度では差は定義できない」のでした。
つまり、大小関係が定義できても、必ずしも差が定義できるとは限りません。(無理やりに差を定義しても、実用的な意味をもたない)
さて、あるものごとを数値化をしたからって、必ずしも大小関係を定義できるとは限りません。
身近な例をあげると、ジャンケンです。
グー=3、チョキ=2、パー=1、と定義すると、
グーのほうがチョキよりも大きい、 そして、大きいグーが小さいチョキに勝つので、一見すると「大きいほうが勝つ」と誤解しかねません。
チョキのほうがパーよりも大きい、 そして大きいチョキが小さいパーに勝つので、これまた一見すると「大きいほうが勝つ」と誤解しかねません。
しかしジャンケンのルールでは、、一番大きいはずのグーは、小さいパーに負けてしまうルールです。
つまり、ものごとを数値化したからといって、必ずしも大小関係を定義できるとは限りません。
つまり、ジャンケンは順序を定義できないのです。
ジャンケンには、順位がありません。「グーが一等賞」とか「グーが優勝」とか、ルール上、無いのです。
なお、ジャンケンの数値化は、名義尺度です。等しいかどうかしか意味がないのが、名義尺度です。
数学の用語で、w:推移関係というのがあります。集合a,b,c について、抽象的な関係を表す演算 R について(たとえば等号とか不等号が例)、
aRbかつ bRcならば aRc が成り立つことを、推移関係と言います。
たとえば a < b かつ b < c ならば a <c です。よって、不等号は推移関係です。
あるいは別の例なら、
a = b かつ B = c なら a= b です。
なので等号も、推移関係です。
しかし、ジャンケンでは、たとえば「AがBに勝利すること」を関係RとしてaRbと表記するとして、
「グーRチョキ」 かつ 「チョキ R パー」であっても、けっしてグーはパーに勝てないので、推移関係ではないのです。
よって、ジャンケンは推移関係ではないのです。
ジャンケンのように、勝敗が定義できるからといって、必ずしも順序尺度とは限りません。また、ジャンケンの例のように、勝敗の定義できる名義尺度もあります。
順序尺度は、その要素どうしは、基本的に推移関係を満たします。
上記の議論の裏を返すと、人間心理のように一見すると量が定義できないものでも、
とりあえずの大小関係を定義してしまえば、疑似的に、場合によっては、数式などで不等式のように扱える可能性がある(あくまで可能性)、という意味でもあります。
大手の証券会社のwebサイト 深沢 真太郎(インタビュー)、『愛すら数値化する定量化思考とは? ビジネス数学教育家が教える、伝わる言葉の作り方』、野村證券、
では、数値化のための「比較」の重要性を主張しています。
つまり、なんと比較をすることで、ビジネスへの実用的には、大小関係またはそれに近い数学的関係のようなものを定義できてしまう場合が多いのです。もちろん、数学的には厳密ではなく客観的でないですが、しかし経営者などの一個人が、自分の経営判断に使うぶんには、問題ありません。
ともかく、ビジネス思考には「比較」という補助輪が必要です。
文脈は違いますが、教育学という別分野でも、比較の重要性が主張されています。
では、情報デザインの教育で、小学校の実験校で、
- 色の効果、フォント、キャッチコピー、レイアウト、構造化、(グラフなどによる)可視化、対象を明瞭(※おそらくターゲット層の話)、「評価を受ける」(後述のKPT法)、比較する、
というテクニックを教えています。
比較によって、一見すると説明文の文章量が増えますが、しかし比較をすることによって、むしろ分かりやすくなることが多いのです。
なんと、金融業界と、小学校の教育業界という、まったく別々の業界が、「比較」による物事の整理のテクニックを紹介しています。
どうも、何か共通の法則性のようなものが、ありそうです。
心理学などでいう「公理的測定論」が、使えるかもしれません。歴史的な古い公理的測定論を引用することに実用性は無く、あつかいたい実際の問題に応じて再定義するのが、現代の主流です。
『読了:Cliff (1992) 公理的測定理論、そして起こらなかった革命 』、投稿日: 2022年5月21日
抽象的測定理論はなんの役に立つのかわからなかった。尺度を再定義する実証研究は、測定理論を参照することなく生じた。たとえば記憶研究におけるAnderson & Schooler (1991)がそうだ。
です。
私たちは別に抽象的な心理学の一般理論をつくりたいのではなく、ビジネスマンの数値化思考のように問題解決をしたいのです。つまり、「問題解決に役立てさえすればいい」のです。
これを意識して、今ここでビジネス用の測定理論をつくってしまいましょう。
大小関係を定義するのは、ビジネスの優先順位づけのためでした。
もし、数値化せずとも優先順位をつけられるなら、そもそも、いちいち数値化をする必要すらありません。私たちの根本的な目的は、大小関係ではなく優先順位づけです。
PDCAサイクルでも、よく「目標を、なるべく数値で設定しろ」と言いますが(検定教科書でもそう書かれているものもある)、しかしどうしても数値化しづらい分野なら、無理に数値化する必要はありません。
検定教科書では説明の都合上「数値化」などと言ってますが、その本当の意味はどちらかというと、客観的に目標の達成/非達成を判定できるようにしろというような意味です。
数値化せずとも、客観的に「成功/失敗」が判定できるようなシステムであれば、特に問題はありません。(とはいえ、高校教育の段階では、通知表などの都合で、数値的に判定しやすい課題が生徒にも与えられているだろうが。)
だから、高校で教師が成績を数値でつけるのは、あれは社会的に良いことなんですよ。各科目の専門知識をもった各教員が、生徒個々人の能力を数値化してくれてるんです。つまり小学校から高等学校までの教育機関って、すごい機関なんですよ。
だから通知表の採点基準が昭和の相対評価から、21世紀の絶対評価に変わってしまったので、これは順序尺度として利用できなくなってしまったので、色々と問題です。
偏差値が順序尺度のようなものですので、日本の学歴社会は偏差値社会です。
相対評価があるうえで、絶対評価も併用するのは構いません。
しかし、絶対評価しかしないのは、このページでも習うように基準が統一されていない限り、(順序尺度としては)意味を持ちません。
そして、日本では、高校ごとに、採点基準がバラバラです。なので、順序尺度に出来ません。
たとえば、低偏差値高校の5段階中の「4」と、高偏差値の進学校の「4」は、決して同じ能力ではありません。
なんと、こうして上述の論証で、日本の国会議員の考えている教育制度は、数学的に破綻していることが証明されてしまいました。
ビジネス書でもよく、「優先順位をつけろ」と言います。
ソフトウェア設計の設計技術者むけのノウハウ書でも、「すべての希望する仕様を入れるのは無理な場合があるから、入れたい仕様に優先順位をつけろ」みたいなノウハウはよく言われます。有名なのだと、アップルコンピュータの創業者の故スティーブ・ジョブスがそう部下に指導しています。
文章の言葉のままでは優先順位がつかないとき、そこで、とりあえずの数値に置き換えればいいのです。この際、比較をしないと意味がありません。
つまり、やりたい事が複数あるとき、それぞれの事に、別々の点数をつけなければ意味ありません。
もし、たった1つの「やりたい事」にしか点数をつけなければ、比較対象が無いので、そもそも優先順位に使えないので、意味がありません。
あるいは、やりたい事、やれる事が1つしかない環境なのに、数値化をしても、特に意味がありません。やることが1つしかないなら、それをヤレばいいだけです。
もう一つのアイデアとして、1つの事しか課題が無い場合でも、比較用に、すでに解決済みで近い内容の課題を入れるのも一つです。他人に説明する場合などに、使えるテクニックかもしれません。たとえば未解決の問題の研究などで、すでに解決した問題とこれから研究する新問題とが、どこがどう違うかの説明をするとか、よくある説明テクニックです。
現実世界のものは、決して高校の物理学のような単純な要素だけで成り立つものではなく、複雑系です。特に社会は、複雑系です。しかし、だからといって何も分析しないわけにはいきません。分析しないと、経営などのための判断が出来ないからです。そこで、疑似的に、数値化・数量化するために、比較を使うのです。
すでに解決している別の問題との比較をすることで、違っている部分だけを考えればいいので、大幅に思考と検証の手間が節約できます。
経営学のフレデリック・テイラーの「パラメータ・バリエーション」を現代的にアップグレードすれば、上記のように「比較する」というノウハウになるでしょうか。
パラメータ・バリエーションは『「ものづくり」の科学史 世界を変えた《標準革命》』(講談社学術文庫)に書いてあるし、某県の公立高校の図書館にもその本は入ってるので[33]、高校生ならこのくらい考察してほしい。講談社学術文庫の本なんて、そんなに難解じゃないんだから。数式とか知らなくても分かるように書いてあるんだし。
工作機械のように数値で「回転数」とか「切削速度」とか測定できるもので、物理的な意味が明確な量なら、それをそのまま測定すれば良い。しかし、情報化社会では、そのままでは数値的に測定できないものを扱う。
このため、現実世界に「量」が無くても可能な「比較」などにより、特に「順序」などの推移関係を要素間にもうけることにより、「測定」のような対象にして、問題解決に活用すればいいのである。
さて、順序尺度を無理やりに間隔尺度にした例として、
- (5点) とても良い
- (4点) 良い
- (3点) 普通
- (2点) あまり良くなかった
- (1点) とても良くなかった
と点数づけをしてむりやりに間隔尺度にしたシステムも、ネットでよく見かけます。
この問題点は、評価者によって、採点基準がバラバラなので、よって別人たちの点をあつめて「平均」などの統計値を出しても意味がない、という問題点でした。
裏を返せば、無理やりにでも、この問題点さえ解決するアイデアを加えれば、実用的になるのです。
つまり、たとえば
- 1個人だけで使う分には、個人内で採点基準が統一されているので、なにも問題が無い。
- あるいは複数人で使う場合でも、何等かの方法で、採点基準の統一を強制すればいい。
です。
さて、複数人で行動する場合、
政治家の選挙みたいに、1個人あたりの投票できる点数を制限してしまうのも手です。たとえば、1人あたり期間中に合計〇〇点しか投票できないとか。
これで、採点基準の統一を、ほぼ強制したことになります。
内心の自由があるので、心のなかを統一するわけにはいかないですが、しかし政治の「1人1票」みたいに外部である票数の基準を統一することは可能です。
こうすれば、高得点を多発する投票者と、低得点しか出さない投票者の混在の問題を、政治的には解決できます。
裏を返すと、ネットの通販サイトのレビューとかにある点数制限のない投票は、たとえ形式的には数値で表現されていても、数学的には何の信用も無いことが証明できてしまうのが、上記の議論からの結果です。
要するに、ああいう投票サイトを作っている米国IT外資は、利用者を内心、馬鹿にしています。
ネットの投票サイトを見る場合、票数を見ても数学的には無意味な場合が多いです。
ネットの投票サイトなどの得点は、あれは単に、文字の代わりです。「とても役立った」だと7文字ですが、「5」点だと、数値データの「5」を1文字だけ保存するだけで済むという、データ節約の都合でしかありません。
人によって言い回しがバラバラで、「とても役立った」「大変役立ちました」「買ってよかった」みたいにバラバラなのが、管理者的には面倒なので、数値に置き換えているだけです。文字の代わりでしかない。名義尺度のようなもの。間隔尺度のフリをした名義尺度です。
たぶん、採点してる側は間隔尺度のつもりなのでしょうが、しかしプロが見る場合は名義尺度です。
政治の投票のように票数制限などの「資源の希少性」が無いかぎり、名義尺度あつかいです。
オオカミ少年の童話と同じで、ロクに考えずに高得点を連発したり、あるいは低得点を連発する人が、追い出せないので(それどころか、そういう人をターゲットにしている商売のフシすらある)、なのでプロが見れば、ああいう投票機能つきwebサイトは名義尺度あつかいなのです。
採点基準を統一する気の無い人が、一人でも混ざってしまえば、それはもう、数学的な信頼が崩れるのです。
下品な例えですが、食事において、みそ汁を飲もうとする際に、もしそのみそ汁に、犬のウンコが混ざったら、もう食べずに捨てたいのと同じです。そういうクリーンな清浄度が必要なのです。
なのに、そういう清浄度の低い、ネットの投票には、数学的には価値が無い。
採点項目が複数あるなら、一個人内の採点配分などを見ましょう。
抽象的な大学レベルの数学の使い方とは、このコラム例のように、一見すると別々の分野の知識を、その構造の共通性に注目して、結びつけて理解することです。
裏を返すと、単にマニュアル通りのことをするなら、あまり高度な数学は必要ありません。
脚注
[編集]- ^ 実教出版『情報II』
- ^ 実教出版『情報II』
- ^ 実教出版『情報II』
- ^ 日本文教出版『情報II』
- ^ 東京書籍『情報II』
- ^ 実教出版『情報II』
- ^ 実教出版『情報II』
- ^ weblio辞書「欠損値」
- ^ 平井聡一郎 著『これならできる!学校DXハンドブック 小中高特別支援学校のデジタル化を推進する「授業以外のIT活用事例」』、翔泳社、2022年 3月16日 初版 第1刷発行、P128
- ^ 平井聡一郎 著『これならできる!学校DXハンドブック 小中高特別支援学校のデジタル化を推進する「授業以外のIT活用事例」』、翔泳社、2022年 3月16日 初版 第1刷発行、P128
- ^ 渡辺光輝 著『逆引きICT活用授業ハンドブック』、東洋館出版社、2023年5月30日 初版 第1刷発行、P118
- ^ [1]
- ^ [2] ※Fisher検定とYates補正への批判論文の話題のツイート
- ^ [3]
- ^ ※批判論文に対する批判論文
- ^ [4]
- ^ 『前向き症例集積研究と後向き症例集積研究』
- ^ 『第6回:神山 圭介 教授 | 慶應義塾大学病院臨床研究推進センター』
- ^ 松本一則(栃木県立学悠館高校教諭) 監修『第18回 データ分析にチャレンジ! | 情報I | 高校講座』、放送日:1月19日 (※wiki注:2024年1月19日)、
- ^ 蓑手章吾 著『個別最適な学びを実現するICTの使い方』、学陽書房、2022年4月14日 初版発行、P145
- ^ 蓑手章吾 著『個別最適な学びを実現するICTの使い方』、学陽書房、2022年4月14日 初版発行、P145
- ^ 蓑手章吾 著『個別最適な学びを実現するICTの使い方』、学陽書房、2022年4月14日 初版発行、P145
- ^ 「未来の教室」と EdTech 研究会、 『「未来の教室」ビジョン 経済産業省 「未来の教室」と EdTech 研究会 第2次提言』、2019 年 6 月、P3
- ^ 「未来の教室」と EdTech 研究会、 『「未来の教室」ビジョン 経済産業省 「未来の教室」と EdTech 研究会 第2次提言』、2019 年 6 月、P11
- ^ 実教出版『情報II』
- ^ 日本文教出版『情報II』
- ^ デジタル田園都市国家構想担当大臣 若宮 健嗣『デジタル人材の育成・確保に向けて』、令和4年2月4日、P.3
- ^ 「階層型データベース」調べても基本概念以外ほとんど情報が出てこないです。製品名、解説サイト、使用している企業/システム、経験談等具体的な情報を教えてもらえませんか?
- ^ 横尾英史『2019年ノーベル経済学賞から考える「ランダム化比較試験(RCT)」について:環境政策を「検証」できる?』2019.11.8
- ^ 関沢 洋一『RCTをもっともっとやろう』
- ^ 関沢 洋一『RCTをもっともっとやろう』
- ^ (pdf 論文)高村 政志 著『高等学校数学カリキュラムはどこまで骨抜きにされたか』高等教育ジャーナル─高等教育と生涯学習─ 5(1999)(※雑誌名)、1999(※出版年)、P14
- ^ 『図書館より - 埼玉県立熊谷女子高等学校』