MLOpsとデータドリブンな意思決定

ごあいさつ


第一回特集インタビューは、データ分析の受託会社にてPM*をされているデータアナリスト栗山さんです。本日はどうぞよろしくお願いいたします。

こちらこそ、よろしくお願いいたします。

— 栗山さんのバックグラウンドを教えてください。

私は東京工業大学とその大学院で計量経済学を専攻していました。効果検証や検定、回帰分析を研究していました。また、在学中にスイスのチューリッヒ連邦工科大学(ETH)に留学していました。

スイス留学時の経験


 — ETHは欧州を代表する工科大学ですね。その地でのご経験はいかがでしたか?

優秀なETHの学生でも、計量経済学が難しい領域と認識されていることに、まず発見がありました。

印象的だったのは、向こうの学生の間では、専門性を高めるようなキャリアの形成が真剣に考えられていることです。

— ETHと東工大はどちらも理工系大学ですが、学生の意識には差があったのですね。

日本ではやはり総合職が根強い人気を持っていて、留学前は私も総合職として入社を考えていました。しかし、総合職での自分のキャリアの解像度をあげることができなかった。

留学を通し、元々好きだった統計学という領域で社会に貢献していくことに確信を持てたんです。

— そうして現在のデータサイエンスの受託企業にて働くことを決められたのですね。

ML Opsとは?​


— 今、データサイエンスのPMとして働かれている栗山さんが意識している技術的な領域はありますか?

例えば、ML Ops でしょうか。

— ML Opsとは何でしょうか?

色々な定義があると思いますが、機械学習のモデルを作り、それを運用していくことだと思います。

例えば広告のレコメンドモデル*のPoC*を作ったとして、実際にそのモデルを運用する際には考える面がたくさん出てくる。広告のリクエストを受けたときリアルタイムで処理するか、推薦される広告を事前に計算しておくバッチ処理をするか。

— 実務ならではの機械学習の観点なのですね。

機械学習モデルは時間経過によって相対的に劣化していきます。一度作ったモデルが、評価指標で考慮できない外部の影響によって適切ではなくなっていってしまう。

— この点はKaggleとは異なりそうですね。

実務でのAIは開発、検証、本番環境に分離する必要のあるケースがあります。

Kaggle と違い、その瞬間ごとの最大瞬間風速を出せば良いわけではないわけです。

モデルだけに着目せず、システム全体、引いてはそのユーザーや関係者を考慮して頑健なものを作る必要がある。

データドリブンな意思決定​


もう一つ関心あるのは、データドリブンな意思決定です。

— なぜ、データドリブンな意思決定にご関心があるのですか?

AIに積極的で技術を取り入れている会社でも、意思決定自体がデータドリブンでないことがある。

仮説が既に結論になってしまっている。

また、意思決定や評価において機械学習モデルの精度のみが注目されがちですが、多くの場合それはAIの一側面を評価する限定的な指標に過ぎないんです。

— 一つの指標のみで意思決定を行うことに危険性があるのですね。

レコメンドモデル一つとっても、精度の良し悪しを図る基準は多くある。

それらの基準を俯瞰的に見て、状況に合わせた評価指標を考えないといけない。

モデルの評価指標改善が、本来目的であったKPI*改善に結びつくか立ち止まって考えないといけない。

— KPIですか?

はい。大きなゴール設定としてKGI*があり、それの指標としてのKPI。

ある一つの評価指標改善がKPI、ひいてはKGI改善にどれだけ効率化かを考えないと、クライアントに提供するサービスのコストパフォーマンスが下がってしまう。