BIG DATA NET

インタビュー Case 1

「データサイエンスとPM」

データ分析受託企業

データアナリスト 栗山寛史 様

2021年8月9日

データサイエンスとプロジェクトマネジメント(PM)

データ分析受託企業

データアナリスト 栗山寛史 様

・MLOps とは?

・Kaggle と実務の違いは?

DSのキャリアとPM

▲ 栗山 様: データ分析受託会社 所属.

ごあいさつ

 — Big Data Net 第一回特集インタビューは、データ分析の受託会社にてPM*をされているデータアナリスト 栗山さんです。本日はどうぞよろしくお願いいたします。

こちらこそ、よろしくお願いいたします。

— 栗山さんのバックグラウンドを教えてください。

私は東京工業大学とその大学院で計量経済学を専攻していました。効果検証や検定、回帰分析を研究していました。また、在学中にスイスのチューリッヒ連邦工科大学(ETH)に留学していました。

*PM (Project Manager): プロジェクトの責任者.

スイス留学時の経験

 — ETHは欧州を代表する工科大学ですね。その地でのご経験はいかがでしたか?

優秀なETHの学生でも、計量経済学が難しい領域と認識されていることに、まず発見がありました。

印象的だったのは、向こうの学生の間では、専門性を高めるようなキャリアの形成が真剣に考えられていることです。

ETHと東工大はどちらも理工系大学ですが、学生の意識には差があったのですね。

日本ではやはり総合職が根強い人気を持っていて、留学前は私も総合職として入社を考えていました。しかし、総合職での自分のキャリアの解像度をあげることができなかった。

留学を通し、元々好きだった統計学という領域で社会に貢献していくことに確信を持てたんです。

そうして現在のデータサイエンスの受託企業にて働くことを決められたのですね。

ML Opsとは?

 — 今、データサイエンスのPMとして働かれている栗山さんが意識している技術的な領域はありますか?

例えば、ML Ops でしょうか。

ML Opsとは何でしょうか?

色々な定義があると思いますが、機械学習のモデルを作り、それを運用していくことだと思います。

例えば広告のレコメンドモデル*PoC*を作ったとして、実際にそのモデルを運用する際には考える面がたくさん出てくる。広告のリクエストを受けたときリアルタイムで処理するか、推薦される広告を事前に計算しておくバッチ処理をするか。

— 実務ならではの機械学習の観点なのですね。

機械学習モデルは時間経過によって相対的に劣化していきます。一度作ったモデルが、評価指標で考慮できない外部の影響によって適切ではなくなっていってしまう。

 

この点はKaggleとは異なりそうですね。

実務でのAIは開発、検証、本番環境に分離する必要のあるケースがあります。

Kaggle と違い、その瞬間ごとの最大瞬間風速を出せば良いわけではないわけです。

モデルだけに着目せず、システム全体、引いてはそのユーザーや関係者を考慮して頑健なものを作る必要がある。

*レコメンドモデル: Netflix や Amazon にあるような, サービス等の推薦アルゴリズム.

*PoC (Proof of Concept):  概念実証. 

▲ 栗山 様: データ分析受託会社 所属.

データドリブンな意思決定

もう一つ関心あるのは、データドリブンな意思決定です。

なぜ、データドリブンな意思決定にご関心があるのですか?

AIに積極的で技術を取り入れている会社でも、意思決定自体がデータドリブンでないことがある。

仮説が既に結論になってしまっている。

また、意思決定や評価において機械学習モデルの精度のみが注目されがちですが、多くの場合それはAIの一側面を評価する限定的な指標に過ぎないんです。

一つの指標のみで意思決定を行うことに危険性があるのですね。

レコメンドモデル一つとっても、精度の良し悪しを図る基準は多くある。

それらの基準を俯瞰的に見て、状況に合わせた評価指標を考えないといけない。

モデルの評価指標改善が、本来目的であったKPI*改善に結びつくか立ち止まって考えないといけない。

KPIですか?

はい。大きなゴール設定としてKGI*があり、それの指標としてのKPI

ある一つの評価指標改善がKPI、ひいてはKGI改善にどれだけ効率化かを考えないと、クライアントに提供するサービスのコストパフォーマンスが下がってしまう。

*KPI (Key Performance Indicator): ビジネス上の数値的な目標.

*KGI (Key Goal Indicator): 重要目標達成指標.

データサイエンスのPMとして

 — データサイエンスプロジェクトのマネージャーとして意識されることはありますか?

マネジメントに移った時に最初に感じたのは、プロジェクトの方針決定に関する重責です。

機械学習モデルを作るとなると、ベストプラクティスは分かるし、評価指標もある。結果はわかりやすい。

— 経験を積まれるとそういった感覚が身につくのですね。

ただ、マネジメントは方針の良し悪しを客観的に決めづらい。そしてデータ分析はシステム開発と違い、失敗する可能性がある。不確実性が存在して、全てがうまくいくわけはないんです。

複数の方針の中から最も成功する可能性が高いものを選ぶ難しさ。

『事例と経験からデータと目的変数を聞いたら、大体の実現可能性の精度がわかる。』

この感覚がないと結構厳しい。

容易なハードルではありませんね…。

PMとしてのキャリア

 — データサイエンスのマネジメントとしてのキャリアを選ばれたのはどういった背景でしょうか?

データサイエンティストとして、スペシャリストとして専門を追求する道と、マネージャーになる選択肢がありました。

ただ、今後スペシャリストの競争は激化していくと思いました。

なぜそのように思われたのでしょうか?

分析は奥が深いが、スペシャリストとしての能力は実はビジネスの場以外でも伸ばせるんです。例えばKaggle・研究・統計検定。ここで生き残るためには、常に最先端の技術を伸ばす必要がある。

また、AutoMLの普及によってモデルを作る部分は機械に代替され得るため、生き残るのは難しいと考えたんです。

なるほど…。

データ分析プロジェクトのマジメント能力は、ビジネスでの実戦経験でのみ得られる経験。

人が育つ環境が限られているので、アナリストよりも人材が不足しているように感じます。

大変勉強になりました。本日はインタビューをお受けいただき、ありがとうございました!

田中統

Interviewer

終わりに

Big Data Net は、世界で活躍されるデータサイエンティストの生の声をお届けします。インタビュー依頼等は、お問い合わせフォームからお気軽にご連絡ください。