データ分析は物語だと感じてきた
これを読みました。
"様々なメディアが理想を持ってそこに近づこうと努力していますが、点と点ばかりでコンテンツの文脈がつながってないところが非常に多い。
たとえばリスティング広告運用会社のオウンドメディアではリスティングのノウハウやアップデート情報ばかり扱っている。リスティング広告で成果をあげるためには、UI/UXを考えなくてはいけません。"
こんなツイートをしました。
僕は統計やデータで点と点を繋げていけるようになりたい。
— なだけい (@7dake1) 2017年11月21日
"様々なメディアが理想を持ってそこに近づこうと努力していますが、点と点ばかりでコンテンツの文脈がつながってないところが非常に多い。"https://t.co/D4aG5TtiGy
データ分析における点と点を繋げるとはどういうことか、ということで、ちょっとまとめてみましょう。
分析はどこから?
「こんなデータあるんだけど何か分かる?」とか言われても、正直何もわからないことが多いです。
分析をするからには何か目的があるはずです。例えば、ユーザーの傾向を知りたい、グループ間の比較をしたいなどが言えるでしょう。
目的が決まれば、次は方法です。データをどうやって集めるか、集めたデータをどうやって分析するか、その計画を立てることになります。
計画を立てずにデータを集めると、データの検証がうまくできなくなったり、データ数が足りなかったり、多すぎたりします。
きちんとした計画を立てるのは統計家の重要な仕事の一つなのではないでしょうか。
データを集める
計画が決まったら、ここで初めてデータを集めます。とりあえずちょっと集めてみて、データ分析、計画修正後、きっちりデータ分析をするのがセオリーです。
少量のデータでデータ分析をする理由は、必要なデータ数をきちんと把握するためです。データを集めるのもタダじゃないので、必要データ数を把握するのは重要だと思います。
そういう意味では、統計家を雇うことで、データ分析を安く済ませることができると言えるんじゃないでしょうか。
分析、そして公表
必要なデータさえそろってしまえば、あとは簡単です。分析するだけです。
実は、データ分析をする上で一番大変かつ重要なのはデータを集めることです。お金もかかりますし、時間も労力もかかります。
なので、冒頭のように、「こんなデータあるんだけど何か分かる?」とか言われても、必要十分なデータがそろってないのに、わかることはほとんどないのです。何か目的をもってデータ分析する場合は、初めに統計家に頼りましょう。
必要なデータを集め、分析もしました。ほしかった結果も得られそうです。
ここで、最後の難関がやってきます。
得られた結果を、統計を知らない人たちに分かりやすく伝えるという、非常に難しい問題が残っています。
「分かりやすく」といえば聞こえは良いですが、それはつまり簡単に、難しい部分を飛ばして説明することになり、必然的に論理は飛躍します。さらに、統計家にとっての「分かりやすく」とビジネスマンにとっての「分かりやすく」は違うように感じます。
せっかくお金と時間と労力をかけて出した結果も、意思決定者にうまく伝わらなければ、何の成果もなかったことになってしまいます。。
もちろん、得られた結果を意思決定の役に立てることができればいいのですが、それすらできなかった場合、分析の価値は0だと思います。役に立ってはじめて、分析の目的達成と言えるでしょう。
終わりに
データ分析と一言に行っても、目的→計画→データ収集→解析→結果の公表→意思決定と長いプロセスがあります。
これらが1つの物語みたいだなあと思い、データの解析だけでデータ分析と言ってしまうのは残念だと感じます。
出来れば目的の決定段階から、悪くても計画段階からデータ分析に関われたら、うれしいなと思っています。
Twitterのアカウント作ったのでSNSの考え方を書いてみる
こんにちは、Twitterのアカウント作ってみました。色々つぶやいていきたいなと思います。
Twitterのアカウント作成しました!
— なだけい (@7dake1) 2017年11月20日
ぜひともよろしくお願いします!
これを機にSNSに関する僕なりの考え方を書いてみます。
昔からの友達と気軽に連絡を取ったり、趣味をシェアしたり、勉強用だったり、色々使い方があると思いますが、今回は趣味、勉強用に使う場合について書いていきます。
SNS、特にTwitterは文字ベースかつ字数制限があるということで、有益なことをつぶやいている方が多い印象があり、見ているだけでも勉強したり、趣味を楽しんだ気になれます。これも一つの楽しみ方ですね。
しかし、それではTwitterを使いこなせてないのではないかなと思います。
では勉強や趣味としてどのようにTwitterを使っていくのかですね。
Twitterだけで完結させるなら、次のようになると思います。
1、興味深い人をたくさんフォローして情報収集
2、そこから考えたことをツイートする
この2つだけです。簡単ですね(笑)
といっても、僕自身まめに更新するのが苦手なたちなので2がなかなかできなかったりします。
これに対する僕なりの対策としては、「何か情報が入ったらすぐにツイートできる状況を作る」です。環境を変えるのが一番うまくいきやすいですし。
パソコンで常にTwitterを開いておくのがTwitterで情報収集→情報発信と行う人には良いのではないでしょうか。
簡単にでしたが、僕なりのSNS、特にTwitterの使い方を書いてみました。SNSは情報をさらっと手に入れるのにかなり優秀だと思います。
そこで手に入れた情報を深く勉強したり、アイデアの種にしたりできるのが良いですよね。もちろんさらっとなので、見ているだけでは良い情報は入ってこないでしょうが、、、
というわけで、僕なりのSNSの考え方でした。このブログと連携したTwitterのアカウントも作ってみたので、フォローよろしく!(笑)
Twitterのアカウント作成しました!
— なだけい (@7dake1) 2017年11月20日
ぜひともよろしくお願いします!
勉強は地図を描くようなものだ。
勉強は地図を描くようなものだ、というTEDを見たことがある。
中学生や高校生には想像できないかもしれない。受験勉強は示された道を進んで行くようなものだと思う。
もし白紙の地図を渡されたらどうやって描いていくだろう?
僕だったら、適当に歩いてみて、面白そうなものがあったらそっちに進む。
地図は白紙だらけになるけれど、僕が行きたいところに行ける地図が出来上がるはずだ。
勉強は地図を描くようなものとは、このことを言っているように思っている。
はっきり言って、勉強は娯楽だ。無理してやる必要はないのだ。地図を描くように、好き勝手進んでいけばいい。
地図を描くようなものという言葉には、もう一つの意味が込められているように思う。
だれが見ても目的地に行けないと、地図の意味がない。
勉強の場合、自分が勉強したことは、だれが見ても分かる形で残しておく必要があるということになるだろう。
せっかく思いついたことや、頑張って考えたこともいずれ忘れてしまうかもしれない。
未来の自分のためにも、整理された形で残しておこう。それが地図を描くということである。
回帰分析のイメージ
回帰分析はデータ分析を行う際、必ず用いられると言っても良い手法である。
線形単回帰に始まり、重回帰、一般化線形回帰、ロジスティック回帰など、数多くの応用がある。
全ての手法に通じるのは、何かの指標を説明するために、他の指標を用いる事である。
ダルビッシュ選手の防御率を知るために、奪三振率や被安打率を用いて推測するといったように。
問題は、どの指標を用いて説明するかになる。防御率を推測するのに、奪三振率や被安打率は必要だとしても、打率は必要ないかもしれない。いらない変数が混ざってしまう。結果、誤差が増える。
これが良くないのは、信頼区間が広くなってしまうからである。防御率が0.00から5.00の間にあると分かっても、何も嬉しくないだろう。
不要な変数は経験的に見つける事もできるが、統計的に求めることもできる。情報量基準を用いる。決定係数やCp基準、赤池情報量基準(AIC)が線形回帰では利用できる。防御率の推測に打率は関係ないと知らなくても、これらの基準により、統計的に変数選択すれば良いのだ。
回帰分析は統計学の中で重要な位置を占めていると感じている。特に、線形回帰は、他の手法の基礎になっており、たとえそれほど使わない方でも、理論を理解しておく利点は大きいと思う。
区間推定のイメージ
区間推定は、検定と対をなす手法で、検定よりも区間推定の方がわかりやすいので、個人的にはこちらの方が好きです。
検定については、以前書かせていただきました。
普通、データからある結果を得たり、データを要約した数値を出そうとしたら、ある値になります。
例えば、野球なら日本ハムのチーム打率の推定値は.300だ。というのがあると思います。
しかし、データから得られた結果が必ず正しいとは限りません。それは、誤差を含んでいるからです。
区間推定では、この誤差を考慮して、推定値に幅を持たせて推定します。これにより、点推定では考慮に入れることのできない、データのばらつきを推定に用いるのが、区間推定の重要なところです。
これはある意味、検定をしていると言ってもいいかもしれません。検定ができるとき、区間推定もできるので、実際の分析では、両方ともやってみて判断するのが良いと思います。
問題はデータのばらつきが大きいとき、区間推定の幅が広くなりすぎて、全く意味のない推定になってしまう場合があることです。
日本ハムのチーム打率が.200から.400の間に入っているとか言われても、そんなの当り前だろ!と言われることになるでしょう。それじゃあせっかくの分析の意味がありませんよね。
上のような場合は、データが多ければ、まったく意味のない区間推定になることは少ないので、より良い推定をしたいときはデータを集めなおす必要があるのかなと思います。
区間推定は、点推定よりも情報量が多く、正しい推定ができるので、より良い判断をするための材料になるでしょう。点推定だけでなく、区間推定もしていきましょう。
現場で統計を活かす難しさ
最近わけあって、データ分析の実務を行うことになりました。
実際に実務を経験してみて、大学で統計の研究をすることとの違いについて思うところがあったので書いておきます。
まず統計の研究をするということは、一つの問題を解決するための手法を1から考えたり、すでにある手法をより発展させるのが目的だと思っていて、実際研究はそういうものだと感じていました。
けれど、実務の場合はちょっと話が違っていて、実務の場での問題は、すでに統計家達が解決している手法を使えばどうにかなりそうな問題が多いように感じています。
例えば、ダイレクトメールを送ることと売り上げの関係性なんかは、回帰分析を使えばすぐに結果が出る類の問題だと思います。
これをみると統計の研究やってるなら簡単にデータ分析できるんじゃない?ってなるかもしれないですが、問題はもうすでに解決している手法を勉強しないといけないことと、それを統計を全く知らない人に分かるように説明しないといけない事なんですよね。
解釈の簡単な線形回帰のような手法なら良いかもしれないですが、ランダムフォレストとか、ブースティング法のような結果の解釈を伝えるのが大変な手法の方が多いと思います。
もしかしたら、最近AIが流行ってるのは手法の説明が面倒だからかもしれませんね笑
僕の場合、名前は知っているけど深くは知らない手法が多いので、この問題は主成分分析でいけそうだなあとか思ったら、まずその詳しい理論と方法を勉強しないといけません。
もちろん研究でも新しく始めようとしたら勉強が必要ですが、実務ではとりあえず使えれば良いやとなってしまい、しっかり数式の証明とかまでみる時間を取れないように思います。
だからこそ、Rなどのツールで様々な手法が簡単に使えるようになっているんだなと実感しました。
もう一つの難しさの、統計手法を知らない人に説明するというのが、研究と実務では 説明の仕方がかなり違うなと感じています。
研究をしている人が相手の場合は、数式や理論を中心に話す必要がありますが、実務では数式を使わずに、結果だけでも理解してもらえるように話さないといけません。
そこの感覚の差を埋めるのが難しいなと感じました。
だからこそなるべく簡単な手法で、結果を簡単に説明できるのが最良だと思います。
統計的検定についてー統計のイメージ
今回から統計データ解析の僕なりのイメージについて書いていきたいと思います。あくまでイメージなので、実際とは異なる点もあるかもしれないですが、その場合は指摘してください。
今回のテーマは検定です。詳しい検定のやり方については
や下のpdfなどもあるのでそちらの方が詳しいかもです。
http://www.statistics.co.jp/reference/Toukeigaku_Nyumon/nyumon5.pdf
また統計学の本ならほとんど載ってると思います。
統計学における検定は、ある仮説が正しいかどうかを確かめるために用いられる方法です。
検定には多くの種類(T検定やF検定など)がありますが、今回は細かい手法ではなく検定自体のイメージを説明します。
仮説について
はじめは仮説についてです。検定はある仮説が正しいかどうかを調べるための方法と書きましたが、仮説は分析者が決める必要があります。
よくある仮説としては、(1)大谷翔平選手の真の打率は.300以上かどうか?や、(2)DMを送ると購入率が上がるかどうか?など、ある指標がある値よりも高い(低い)かどうかを比べるような仮説が多いです。
これらの仮説を帰無仮説と対立仮説という形で考えます。
具体的に、(1)であれば、帰無仮説は「大谷翔平の打率は.300である」であり、対立仮説は「大谷翔平の打率は.300以上である」となります。
ここで注意しなければならないこととして、「帰無仮説はある値を取らないといけない」ということです。
これは帰無仮説の値を用いて、検定を行うからです。
仮説の検定について
二つの仮説を立てたので、検定を行うことができます。
統計における検定は、確率的背理法などと言われることもありますが、それは帰無仮説が正しいと仮定して、それが間違っているなら対立仮説が正しいと考えるからです。
つまり検定では、帰無仮説が正しいとしたときに、実際の値(例えば(1)なら大谷翔平の現在の打率)が出る確率を計算して、それが非現実的な値(5%とか)なら帰無仮説を棄却して、対立仮説が正しいとします。
これにより、帰無仮説が間違っているときは対立仮説が正しいという判断ができますが、 帰無仮説が間違っていないときに帰無仮説が正しい訳ではない点には注意が必要です。
上で見てもらったものが検定の大まかなイメージです。ここからは検定の良い点と悪い点を見ていきます。
検定の良い点
検定は仮説が正しいかどうかを判断する際に、直接的に利用できるのが一番の利点だと考えています。
様々な検定方法がありますが、どれもやっていることは、仮説を立てて、その判断をするという2つのプロセスだけで成り立っています。
それぞれの検定方法がどんな仮説の判断をしているのかさえ理解すれば、あとは当てはめるだけで結果が出るので、分かりやすい手法だと思います。
検定の悪い点
検定では帰無仮説で、ある一点を固定して考えるので、結果が分かりやすくなるかわりに、連続的な値への当てはめができないのが欠点だと思います。
ベイズ流の検定では連続的な値でも解釈が出来ると思いますが、いわゆる検定では難しいのかなと感じます。
もう一つは、帰無仮説が棄却されなかったときに、帰無仮説が正しいという判断ができないことです。
例えばp値が0.5のときは、帰無仮説のもとで検定統計量以上の値が確率0.5で出ているようなものなので、帰無仮説が正しいというには情報不足であると考えられます。
この二つが検定の悪い点かと考えています。
検定は統計の基本であり、応用の上で重要なのでより勉強していきたいですね。