TETRA'S MATH

数学と数学教育

ベイズの定理と帰納、演繹・02

 引き続きこちらのページについて。

「最適決定の問題として、定式化されることで帰納的推論が演繹的理論として扱えると言うことになった訳です」

 ということの補足として、降水確率の例が出されています。

 降水確率は明日雨が降ることについての不確実性を扱う問題ですが、「従来であれば、これまでの経験則から消去法によって雨となる予報を出していく(帰納的推論)のが精一杯であった」として、以下のように説明が続きます。

 今では不確実性(この場合明日の天気)を数値化(定式化)するために、過去の天気図を調べ今日の大気とよく似た状態を選び出し、仮説(この場合翌日雨となる仮説)を与えその信頼度を計算しています。それらは非常に多くの観測されたデータから複雑な確率計算を経て得られた結果一つ一つが数学の定理的な役割を果たし、演繹的推論の帰結として明日の降水確率を導き出しています。
  そういうのも、演繹的推論というのだろうか? 帰納的推論をより確実なものにした、ということではないのだろうか・・・

 と思いながらふと気づいたことは、演繹、帰納を考えるとき、つい、数学の中でのそれをイメージしてしまうということ。ここでは証明の話ではなく推論の話をしているのだから(なんだかへんな言い方ですが)、○○的推論ということで演繹、帰納を考えると、なるほど納得できるような気がしてきました。

 そもそも、演繹法・帰納法とはなんであったか?
確率・統計関連 | permalink

ベイズの定理と帰納、演繹・01

 久しぶりにベイズの定理です。

 ベイジアンフィルタの勉強はひきつづきあとまわしにして、こちらのページをもとに、しばらく考えていくことにしました。

 ベイズの定理に興味を持ち始めてあれこれ検索する中で見つけときは特にピンとこなかったページなのですが、もとをたどると「お元気ですか?保健婦です!」というサイトであることがわかり、興味をひかれてお気に入りに入れて、そのままになっていました。保健婦さん(いまは保健師さんというのかな?)を対象にした統計講座の中のQ&Aに入っているのです。保健師さんたちはこんな難しい勉強をしているのか〜と、びっくりしました。

 このページで、「ベイズの定理は、帰納的推論における道具として確率論を巧みに用いる事で不確実性の数量化を行う事が出来る事を示しました。」と書いてあるのです。

「最適決定の問題として、定式化されることで帰納的推論が演繹的理論として扱えると言うことになった訳です」
 そんなことってあるのだろうか!?


(つづく)
確率・統計関連 | permalink

ベイジアンフィルタ・04

 というわけで、メールに含まれている1つの単語に対するスパム確率の求め方はわかりました。で、あるメールがスパムであるかどうかは、メールの文章を単語に分けてそれぞれの確率を調べた上で、特徴的な単語(確率値が0.5から遠く離れているもの)を選びだし、その結合確率でメールのスパム確率を求めるのだそうです。たとえば、上位3個を選びだした場合、単語ごとの確率をa、b、cとすると、メールがスパムである確率は、

   

というふうな計算になるのだそうです。実際にはもっと多くの言語(上位15語くらい?)を選びだすのでしょう。

 そして上記の確率が0.9をうわまわった場合に、そのメールはスパムである、と判定するようです。0.9という高い数値に設定してあるのは、非スパムメールを誤って遮断しないようにするためらしいです。なるほど、これだけバイアスがかけてあれば、正当なメールを誤ってはじいてしまう可能性はずいぶん低くなるなぁ、と感じられます。

(つづく)

確率・統計関連 | permalink

ベイジアンフィルタ・03

 Paul Graham 方式の、より厳密な計算方法は次のようになるそうです(参考ページ)。

[1] 2gi+bi>5のとき

   

[2] 上記以外の場合

   p(wi)=0.4

・非スパムの判定にバイアスをかけるために非スパムの出現回数を2倍にして計算
・出現回数が5回以下のものは計算から除外
・p(wi)の最小値は0.01、最大値は0.99とする

 [1]の式を見ながら、この式で何が起こるのかをつらつらと考えていました。まず、出現数が5回以下のものを計算から除外するというのは「あんまり少ないと特殊すぎて計算しても意味がないから除外する」と考えることにしました。しかし、なぜその場合は0.4とみなすのかについては、いまのところ意味がわかりません。

 次に、min(1,○)の形をしていることについて(以下は、非スパムにおける出現率はすでにバイアスがかかっている値として考えます)。この計算方法でいくと、スパムにも非スパムにもたくさん(1通あたり1語以上)出てくるような言葉の場合は、1/(1+1)=0.5 となります。(minを使わないとしたら、それぞれの出現率についていろいろな値をとりうる)…☆

 スパムだけにたくさん出てくるような場合・・・たとえば、スパムには1通あたり2語、非スパムには1通あたり0.5語出てくるとすると、1/(0.5+1)=0.666・・・となり、若干0.5をうわまります。もし、minを使わずにそのままの割合で計算すると、2/(0.5+2)=0.8となり、0.5をかなりうわまわります。

 逆に、スパムにおける出現率が0.5、非スパムにおける出現率が2だったら、min(1,○)で計算した場合 0.5/(1+0.5)=0.333… となって0.5を若干をしたまわり、minなしで計算すると 0.5/(2+0.5)=0.2 となって0.5をかなりしたまわります。

 ということは、minを採用することで、0.5からはなれる度合いを減らし、より特徴的な言語を見つけることができるということなのかな?と思ったのですが、それよりもおそらく、上記の☆が最大の目的なんだろうなと感じています。

 たとえば、minなしでは、スパムにおける出現率が8で非スパムにおける出現率が2の場合も、スパムにおける出現率が0.8で非スパムにおける出現率が0.2の場合も、その言語についての計算結果は0.8になりますが、前者の言語は非スパムに1通あたり2語の割合で出てくる(それくらい一般的な言語と考えられる)ので、あまりスパム判定に役立ちそうにありません。だから、少なすぎる言語も多すぎる言語も判定材料からはずすために、上記のような計算方法が採用されているのだろうと想像しています。(あくまでも私の推測です)

(つづく)
確率・統計関連 | permalink

ベイジアンフィルタ・02

 まずは、次のページを参考にさせていただきながら、ベイジアンフィルタの勉強をしていきたいと思います。

 Security Akademeia > ベイジアンフィルタ

 もう一度ベイジアンフィルタの基本的な仕組みを確認しておきますと、「過去にスパムと判断したメールの中に出てくる単語の頻度をもとに、新しく受信したメールがスパムであるかを判断する」というものです。

 比較のためには単語の出現頻度のデータベースが必要であり、これをコーパスと呼ぶようです。(スパムメール用のコーパスと、非スパムメール用のコーパスを作成する)

 最初に、Paul Graham方式 というものをみてみます。上記の参考サイトに示されている数式をそのまま写すと、ページ内に出現する各単語 wi に対して、wi を含むメールがスパムメールである確率p(wi)の計算方法は次のようになるそうです。


     

    gi : 非スパムコーパス中にwiが出現した回数
    bi : スパムコーパス中に出現した回数
    ngood : 非スパムコーパス中のメールの総数
    nbad : スパムコーパス中のメールの総数
    a : バイアス(定数)


 バイアスというのは、フィルタの通過・遮断を決定する要素のひとつなんだそうです。スパムメールを通過させることより非スパムメールを誤って遮断させてしまうことのほうがメール受信者にとっては損害が大きいという考えから、非スパムメールの誤遮断が起きにくいように a=2 と設定されているのだそうです。

 この2はgiにくっついていると考えるとわかりやすいのかな、と思いました。非スパムメールに出現する回数を実際の2倍にすることで、wiが含まれているからといって非スパムメールとは限らないんだよ、という意味合いを強くしているんだろうな…。

(つづく) 
確率・統計関連 | permalink

ベイジアンフィルタ・01

 現在、私の迷惑メール対策といえば、1つ1つのメールを地道にチェックしてアドレスの受信拒否をしたり、いくつかの単語を指定することで仕訳ルールによって迷惑メールフォルダ送りにすることくらいです。

 でも、違うアドレスで同じタイトルの迷惑メールがたくさんくるし、指定した単語をすり抜けて(最近は英語のスパムメールが多い)受信箱にたまっていく迷惑メールがたくさんあるので、もう、ほとんど放置状態になっています。

 迷惑メール対策については、自分で細かく設定する以外にも方法があるということはきいていたのですが、よく調べることもなく、検討せずじまいになっていました。フィルタリングすることで大事なメールを受信しそこねるんじゃないか、というような不安もありました。

 そんななか、確率・統計への興味からベイズの定理というものを知ったので、これを機会にベイジアンフィルタを使ったスパム対策というものを、少し勉強してみたいと思います。

 ベイジアンフィルタというのは、過去に迷惑メールと判断したメールにどのような単語(トークン)がどのくらいの頻度で出てくるか(出てこないか)、正当と判断したメールにどのような単語がどのくらいの頻度で出てくるか(出てこないか)をもとにして、新しく受信したメールが迷惑メールであるかどうかを判断するもののようです。判断のためには単語の出現頻度のデータベースが必要であり、これをコーパスと呼ぶようです。

 どのあたりが“ベイジアン”なのかというと、受信したメールを迷惑メールと判断することの積み重ねにより、次のメールが迷惑メールである確率が変わっていくあたりなのではないかと思います。だから、時間がたつにつれて精度がましていくし、1つ1つの単語を設定する場合よりも、スパムメールで使われる単語の傾向の変化に対応しやすい、ということなのではないかと思います。

(つづく)
確率・統計関連 | permalink

ベイズ主義者

 「ベイズの定理」で検索をかけていると、ベイジアンという言葉によく出会います。「ベイズの定理を使った…」という意味のほかに、「ベイズ主義者」というニュアンスで使われているようです。ベジタリアンとかリバタリアンとかアドレリアンとかえいごリアン(?)みたいな“〜アン”なんでしょう。定理の名前、というか数学者の名前に 〜アン がついたのをあまり見たことがないので、これってなんだかアブナイ理論なのかしらん?と最初思ってしまいました。

 ベイズの定理のトーマス・ベイズさんは牧師さんで、こちらのページによると「神の存在を方程式で証明できる」と主張した人なのだそうです。18世紀の人なので、定理自体は古くからあったようなのですが、「ベイズの定理」と名前がついてもてはやされるようになったのは20世紀の後半になってからのようです。例のごとくコンピュータの普及・発展と深く関わった話のようです。なお、トーマス・ベイズはベイズの定理の特殊な場合を証明したのであり、しかも本人の死後に他の人が論文を出版したらしいです(たぶん)。ベイズの定理の一般的な証明をして積極的に使ったのはラプラスだそうです。

 さて、ベイジアン(ベイズ主義者)という言葉があるくらいなので、それに相対する理論があると思うのですが、それは何かというと、統計学史的にはネイマン・ピアソン理論ということになるそうです(参考ページ)。現在、大学で広く教えられている統計学の体系(検定・推定)なんだとか。「なんだとか」も何も、自分のその体系の中で一応は統計を勉強してきたはず…なんだろう。

 ピアソンってきいたことあると思いきや、そのピアソンはたぶんお父さんのカール・ピアソン(優生学者)で、この場合のピアソンは息子のエゴン・ピアソン、それにイェジ・ネイマンを加えてネイマン・ピアソン理論ということなんだと思います。たぶん。

 面白いなぁと思ったのは、大和総研のサイト内のこちらのコラムの注5。
注5.余談だが、私が知る限り、ベイズ理論の応用研究をしている学者は皆一様に口をそろえて、自分はベイジアンではないのですが、と一旦ことわってから研究発表をすることが多い。
 やっぱりアブナイ理論なんでしょうか(笑)。アブナイというのは言いすぎたとしても、生みの親が「神の存在の証明」というようなことを言っている人だし、哲学的・思想的に受け入れられていない部分も大きいのかな? こちらのページにも、「宗教的信念のように扱われてしまう」なんてことが書いてあります。ベイズの定理をちょっとかじっただけではわからない感覚です。

 で、そのベイズの定理を使ったスパムフィルタがあるらしいのです。
確率・統計関連 | permalink

モンティ・ホール問題・05

 三囚人問題、変形三囚人問題を考えたあと、モンティ・ホール問題を含め、それぞれを図で考えてふと思ったこと。

 なぜ、モンティ・ホール問題で、司会者が扉を開けたあとの確率は1/2ずつにならないのか。

 それは、解答者が選んだドアは、司会者の選択において蚊帳の外にあるからではないか、という気がしてきました。解答者が選んだ扉は、当たっていようがはずれていようが、「解答者が選んだ」という理由だけで、選別の対象からはずされます。司会者に吟味されることなく「残される」。

 それにひきかえ、解答者が選ばなかった扉は、司会者の選別の土俵に上げられて、その試練(?)を経た上で、「残される」。「どっちを開けようかな〜」という司会者の目にさらされる緊張感を味わったぶん、残された扉のほうが、解答者が選んだ扉よりも成長して(!?)当たる確率が高くなっているような、そんなイメージをもちました。もともとの実力が互角であるので、なおさら。

 なんだかとっても感覚的なものの言い方ですが、自分としては、これまで数式や図で考えてきた数学的考察を踏まえた上でのイメージです。

 モンティ・ホール問題についてはいまだよくわからず、ですが、とりあえずここで一区切りとします。
確率・統計関連 | permalink

変形モンティ・ホール問題

 私は最初、選択の場面があるときにどれを選ぶことも同様に確からしい -----

    ・どの扉が当たりか
    ・どの扉を解答者が選ぶか
    ・解答者が当たりの扉を選んだときに
      司会者がハズレのどちらの扉を開くか

                  の確率がそれぞれ等しい

----- 問題であれば、「解答者がはじめに当たりを選ぶ確率と、最終的に扉を変更せずに当たる確率が等しくなる」と思っていたのです。しかし、同様に確からしくなくても、確率が変化しない場合があるらしいのです。

 正己の異論・反論さんこちらのページによると、(Bが当たる確率):(Cが当たる確率)=(解答者がAを選んだとき司会者がCを開ける確率):(解答者がAを選んだときに司会者がBを開ける確率)であればいいらしいのです。

 ということを考えるために、まず、A、B、Cの当たる確率を 2:1:2 に変えて、あとの条件は同じで考えてみます。

<解答者が最初に扉Aを選んだとき>



 たまには計算で確かめてみよう。



 司会者が扉を開けたあとの扉Aが当たる確率は 1/3 になってしまいました。最初の確率は 2/5 であったのに。

 さらに面倒なことには、もし、司会者が扉Cを開けたとすると、扉Aと扉Bの当たりの確率は同じになってしまうのです。

 普通に考えれば、「A、B、Cの当たる確率は40%、20%、40%」と言われれば、AかCかのどちらかを選びたくなるわけで、Aを選んでみたら、Cはハズレだと言われた。ならば、AとBではAの当たる確率が高いのだから、扉を変更しないほうが断然トクだ、と考えたくなるというものです。がしかし、実際は 1/2 の確率になってしまうらしいのです。一応、2/5 から 1/2 へと確率は上がりましたが。(計算まちがっていないかな?)

 この問題において、「ほらね、2つ残ったときには確率は 1/2 ずつでしょ?」という意見に対しての反論がすごく難しいです。というかできないです。実際に 1/2 だから。でも、それは2つのうちの1つだから、ということではない。のだと思う。モンティ・ホール問題の解説の難しさは、これと同じようなことなんじゃないでしょうか。

 では次に、「A、B、Cの当たる確率は 2:1:2 」に加えて、次のような条件を出します。「もし、解答者がAを選んで、Aが当たりであったとき、司会者がB、Cを開ける確率は 2:1 になる」←なんだかすごく不自然なルールですが、とりあえずそうであったとします。この場合はどうなるかというと……



 司会者がBを開けたあとのAが当たる確率は 4/10=2/5 で、扉を開ける前と同じになりました。

 というわけで、場面場面の選択が同様に確からしくない場合でも、比率を調整すると、もとの確率にもどすことができるようです。
確率・統計関連 | permalink

モンティ・ホール問題を図で考える

 今度は、モンティ・ホール問題を図で考えてみます。

<解答者が扉Aを選んだ場合>
   

 司会者が扉Bを開ける前も開けたあとも、扉Aが当たる確率は 1/3 だけど、これは同じ意味の 1/3 なのだろうか?

 司会者が扉を開ける前の「Aが当たり」の「1/3」 は、A、B、C3つの扉のどれがあたることも同様に確からしいことから「1/3」になるのだけれど、司会者が扉を開けたあとの「Aが当たる」確率の「1/3」はどこからきているのだろう?

 こんなときには、扉の数をふやしてみるとわかりやすくなるかもしれない。とりあえず4つにしてみます。解答者がどれかの扉を選んだあと、司会者は扉を1つだけ残すことにします。

<解答者が扉Aを開いた場合>
   

 なるほど、やはり同じような結果が出ます。こうやってみていくと、やっぱり扉の数の比率・・・この場合、解答者が選んだドアが当たりである確率と、はずれる確率・・・の 1:3 が、最終的な確率の比率 1:3 と一致するので(厳密な条件が何であるかの考察はもちろん必要だけど)「確率は変わらないので」を根拠にしてもそうわるくはないんじゃないかなぁ・・・と思いながらもう1つ。

 もし、扉4つの場合で、司会者が扉を1つだけ残すのではなく、1つだけ開ける(2つ残す)としたら、どうなるのか考えてみました。

   

 この場合も最初の確率「1/4」はたもたれて、扉を変更したほうが当たる確率は高くなります。

うーむ・・・

 とうなりながら、正己の異論・反論さんこちらのページを読んでみたら・・・

(つづく)
確率・統計関連 | permalink
  

| 1/5PAGES | >>
サイト内検索