現場で統計を活かす難しさ
最近わけあって、データ分析の実務を行うことになりました。
実際に実務を経験してみて、大学で統計の研究をすることとの違いについて思うところがあったので書いておきます。
まず統計の研究をするということは、一つの問題を解決するための手法を1から考えたり、すでにある手法をより発展させるのが目的だと思っていて、実際研究はそういうものだと感じていました。
けれど、実務の場合はちょっと話が違っていて、実務の場での問題は、すでに統計家達が解決している手法を使えばどうにかなりそうな問題が多いように感じています。
例えば、ダイレクトメールを送ることと売り上げの関係性なんかは、回帰分析を使えばすぐに結果が出る類の問題だと思います。
これをみると統計の研究やってるなら簡単にデータ分析できるんじゃない?ってなるかもしれないですが、問題はもうすでに解決している手法を勉強しないといけないことと、それを統計を全く知らない人に分かるように説明しないといけない事なんですよね。
解釈の簡単な線形回帰のような手法なら良いかもしれないですが、ランダムフォレストとか、ブースティング法のような結果の解釈を伝えるのが大変な手法の方が多いと思います。
もしかしたら、最近AIが流行ってるのは手法の説明が面倒だからかもしれませんね笑
僕の場合、名前は知っているけど深くは知らない手法が多いので、この問題は主成分分析でいけそうだなあとか思ったら、まずその詳しい理論と方法を勉強しないといけません。
もちろん研究でも新しく始めようとしたら勉強が必要ですが、実務ではとりあえず使えれば良いやとなってしまい、しっかり数式の証明とかまでみる時間を取れないように思います。
だからこそ、Rなどのツールで様々な手法が簡単に使えるようになっているんだなと実感しました。
もう一つの難しさの、統計手法を知らない人に説明するというのが、研究と実務では 説明の仕方がかなり違うなと感じています。
研究をしている人が相手の場合は、数式や理論を中心に話す必要がありますが、実務では数式を使わずに、結果だけでも理解してもらえるように話さないといけません。
そこの感覚の差を埋めるのが難しいなと感じました。
だからこそなるべく簡単な手法で、結果を簡単に説明できるのが最良だと思います。