みなさんこんにちは。日々機械学習を学ぶ外科医のさとう(Twitterはこちら)です。
今回は医療統計の超基本である3つの変数について解説していきます。
医療統計,みなさんはどんな印象をお持ちですか?
統計なんてわからないよ・・・
数学は受験でやったけど大学では暗記しか勉強していないしなんでまた働きだして統計なんてやらないといけないんだよ・・・
こういう人,多いのではないでしょうか。
わかります,何を隠そう私自身がその一人であるからです。
しかし,臨床医学と医療統計は切っても切り離せません。
医療統計を用いて効果を証明しなければ新しい治療を使うことはできません。
医療統計を用いなければある疾患の原因になっている因子を見つけることもできません。
基礎医学ではなく,臨床医学をやっている人にこそ医療統計は必要である威力を発揮します。
もっと身近なところで考えてみましょう。
みなさん,抄読会,経験ありますよね。
抄読会で論文を読んでいる時,必ずつまずくところ,それがstatistical analysis,つまり統計のところです。
統計手法にやたらつっこんでくる上級医ってどの施設にも一人は必ずいますよね。
つまり!そつなく抄読会などの日々の業務を遂行するために医学生や研修医であれ最低限の医療統計知識は必須だということです。
今回は医療統計の中で基礎中の基礎であるその3つの変数について解説します。
この3つの変数を理解することがなぜ重要か。
それは変数毎に解析の手法が全く異なるためです。
この根本の理解ができていなければどのように解析したら良いかわからず全く先に進めません。
それでは早速内容を見て参りましょう。
本記事の想定読者
- 医療統計なんて全く興味がない人
- これから医療統計を勉強していきたい人
- 最低限の医療統計知識を身に着けたい人
目次
医療統計の3つの変数
それではみんなで一緒に学んでいきましょう。
医療統計には超基本的な3つの変数があります。
3つの変数
- 連続変数(continuous variable)
- 順序変数(ordinal variable)
- 名義変数(nominal variable)
漢字ばかりで難しいですね。
心配いりません。ひとつずつ具体例を交えて見ていきましょう。
連続変数(continuous variable)
「A continuous variable is one which can take on an uncountable set of values.」
— Wikipedia
Wikipediaではこのように説明されています。
残念ながら日本語のページがなかったので英語のページから引用しました,決してかっこつけているわけではありません。
uncountable setは和訳すると非可算集合体。
これも非常にわかりにくい言葉ですね。
つまりは「終わりなく無限に連続した数」ということです。
要は身長,体重,年齢など連続的に続く数値のことです。
変数は定義で覚えるのではなく具体例で覚えると理解しやすいです。
連続変数は「身長,体重,年齢のように連続してどこまでも続く変数」と覚えましょう
順序変数(ordinal variable)
Ordinal data is a categorical, statistical data type where the variables have natural, ordered categories
— Wikipedia
Wikipediaではこのように説明されています。
順序変数に関しても日本語の説明がなかったため英語のページから引用しました。
何度も言いますがかっこつけるために英語を引用しているわけではありません。
「順序変数は変数が自然で順序付けられたカテゴリーを持つ」と説明されています。
こちらもわかりにくいですね。
具体例を上げると,癌のstageI, II, III, IV,そして尿検査の1+, 2+, 3+などが順序変数にあたります。
これらは1から順序付けられカテゴリー化されたものあり,冒頭で説明した定義と合致していることがわかります。
順序変数も癌のステージ,尿検査のようにカテゴリー化されたものと具体例で理解し覚えましょう。
名義変数(nominal variable)
A nominal group only has members and non-members
ーWikipedia
名義変数は別名,二値変数とも呼ばれます。
Wikipediaではこのように説明されています。
こちらもかっこつけて英語を引用しているのではありません。
「名義変数とはグループであるかグループではないかである」と説明されています。
これはつまり,男であるか男ではない(女)であるか,手術をした群であるか手術をしていない群であるか,といった2つのグループで表す変数を指します。
データ収集ではあるグループに属する場合を1,属さない場合を0として記載します。
名義変数は二値変数という呼び名のほうが理解しやすいです!
これは統計の現場で本当に頻出です!
おすすめ書籍
医療統計使いこなし実践ガイド
医療統計には先述の変数の違いなどにより解析方法が本当にたくさん存在します。
本書はこういう状況ではどの解析を行えば良いか,が非常にわかりやすく説明されています。
初心者は必携の1冊です。
EZRでやさしく学ぶ統計学
医療統計初心者が最初に使用すべき統計ソフト,それがEZRです。
非常に使いやすい統計ソフトであり,難しいコードなど使用せず直感的に簡単に解析を行うことができます。
本書ではEZRのダウンロードの仕方から変数ごとの解析の仕方まで非常に丁寧に細かく説明されています。
本書があれば初心者でも問題なくEZR解析ができます。
本当におすすめの1冊なので是非見てみてください。
さいごに
いかがでしたでしょうか。
今回解説した3つの変数は本当に頻出です。
ここを理解せずに行ってしまうと後でものすごく苦労することになります。
本ブログの医療統計解説のモットーは「医学部1年生が理解し実践できるような説明」です。
無理せず少しづつ医療統計について一緒に勉強していきましょう。
Twitter(アカウントはこちら)でプログラミングに関すること、医学生や研修医だった過去の自分に伝えたい仕事のテクニックなどを発信しています。よかったらフォローしてみてください。
では,また!