機械学習

p値についてわかりやすく解説 【初心者向け】

 

みなさんこんにちは。日々機械学習を学ぶ外科医のさとう(Twitterはこちら)です。

 

今回は医療統計の超基本であるp値について解説していきます。

 

"p値”

 

みなさん一度は耳にしたことがありますよね。

 

知っているよ,p値!なんかそれが0.05以下になっているやつだけ見ればいいんだろ?

 

私が医学生の時のp値の認識はこんな感じでした。

 

統計に詳しい方からしたら怒られそうですね。

 

医学生・研修医こそ医療統計の基礎を学ぶべき理由はこちらの記事で解説しているので是非御覧ください。

 

以前の記事では医療統計の超基本である3つの変数について一緒に勉強しました。

 

今回はまたしても医療統計の基本中の基本,p値について一緒に勉強していきましょう。

 

本記事の想定読者

  • 医療統計なんて全く興味がない人
  • これから医療統計を勉強していきたい人
  • 最低限の医療統計知識を身に着けたい人

 

p値についてわかりやすく解説

 

それではp値とはなんでしょうか。

 

帰無仮説の下で実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率を、p値という。

Wikipedia

 

Wikipediaにはこのように説明されています。

 

さっぱりわからない・・・・・

 

正直なんのことを言っているのかさっぱりわかりませんよね。

 

ひとつずつじっくりと勉強していきましょう。

 

p値とはある出来事が偶然ではなく必然に起きていることを証明する際に利用する値です。

 

医療統計の世界ではある仮説Aを証明する時に背理法という手法を用います。

 

高校の数学で触れたことのある人が多いのではないでしょうか。

 

背理法とは以下の手順で仮説Aを証明する手法です。

 

背理法

①ある仮説Aが正しくないと仮定する

②その結果,矛盾が生じる

③つまり仮説Aは正しい

 

このように仮説Aを証明します。

 

p値を理解する前に理解する必要があるのが帰無仮説です。

 

帰無仮説とは,ある仮説Aは正しくない,2つの物事の間に差は全くないと仮定することです。

 

わかりやすく具体例で考えてみましょう。

 

私はこの水晶玉を使えばあなたがじゃんけんで何を出すか当てることができるわ。

 

あるところにこんな超脳力を持った占い師がいました。

 

この占い師は水晶玉を使えばじゃんけんで何を出すかがわかるとのことでした。

 

そんなわけない!それではその力を見せてもらおうじゃないの。

 

そこに頭の良さそうな中年男性が現れました.彼は占い師の能力が本物かどうか確かめるとのことです。

 

するとなんと、占い師はじゃんけんでこの男が出す手を3回で的中させました。

 

それではこの占い師の能力は本物といえるでしょうか?

 

ここで証明したいのは“占い師の能力は本物である”ということです。

 

そこで“占い師の能力は偽物でただの偶然である”という仮説を立てるとします。

 

これが上で説明した帰無仮説です。

 

ここでじゃんけんの手を3回連続で偶然当てることができる確率を考えます。

 

それは(1/3)の3乗,つまり1/27,0.037,約3.7%になります。

 

この,“ある出来事が偶然に発生する確率”これをp値と呼びます。

 

3.7%・・・・そんなの偶然じゃないか!いや,3.7%は偶然ではないか・・・?

 

このようにこのp値である3.7%という値が高いのか,低いのか,判断に迷います。

 

そこで何%以下であればそれは偶然ではなく必然ですとあらかじめ決めておくわけです。

 

“偶然とした場合の確率が5%,つまり0.05以下であれば偶然ではなく必然である”とあらかじめ決めておくわけです。

 

この値のことを有意水準と呼びます。

 

つまり今回は有意水準を5%とした場合,帰無仮説は棄却され,この占い師の能力は本物であると言えます。

 

有意水準は一般的には0.05,つまり5%とされることが多いので巷で言われている「P値が0.05以下であれば有意差がある」ということになっているんです。

 

まとめ

 

みなさんいかがでしたでしょうか。

 

今回は医療統計の超基本であるp値について勉強しました。

 

勉強した内容をまとめていきます。

 

p値を理解するにあたって重要なのはこの2つです。

 

①帰無仮説

②有意水準

 

帰無仮説,p値,有意水準はそれぞれこのような概念でした。

 

帰無仮説:ある仮説Aに対してその仮説Aは正しくない,2つの間に差はないとするもの

p値:ある仮説Aが偶然に発生する確率

有意水準:p値がいくつ以下であれば偶然ではなく必然とするかあらかじめ決めておく値

 

本ブログの医療統計解説のモットーは「医学部1年生が理解し実践できるような説明」です。

 

こちらの記事では医療統計の基本の3つの変数について解説しています!またこちらの記事で医療統計のおすすめ書籍も紹介しているので是非ご覧ください。

 

Twitter(アカウントはこちら)でプログラミングに関すること、医学生や研修医だった過去の自分に伝えたい仕事のテクニックなどを発信しています。よかったらフォローしてみてください。

 

では,また!

-機械学習

© 2024 医者がプログラミングで世界を変える Powered by AFFINGER5