skip to Main Content
Machine Learning Meetup KANSAI #7イベントレポート 

こんにちは。HACARUSでインターン生をしいる田中と住江です。11月26日に行われた第7回「MACHINE LEARNING Meetup KANSAI」に参加した内容をレポートしていきたいと思います。

MACHINE LEARNING Meetup KANSAI ( #mlm_kansai )は関西の機械学習を業務に活用している人や勉強している人を対象として、機械学習のノウハウをお互いに情報交換・共有し、広く発信していこうというコミュニティイベントです。

本コミュニティ初となるパネルディスカッション形式で実施

今回の MACHINE LEARNING Meetup KANSAI はこれまでとは異なり、パネルディスカッション形式で行われました。

確実性の低い課題に対して、どのようなアルゴリズムを選定すればよいのか。アルゴリズムは期待どおりの結果を生み出すのか。実際に動かし、チューニングを繰り返し、模索を続けます。試行錯誤を繰り返したにもかかわらず意味あるアウトプットが得られない、ということもありえます。 機械学習プロジェクトを成功させるためには、プロジェクトの特性やあらゆるリスクを理解し、取り組む必要があります。 今回は各社がプロジェクトを成功に導くために工夫している点、さらに様々な課題などについてオープンにディスカッションしました。

パネリスト

  • 橋本泰一さん (LINE株式会社 Clova開発局 副室長) 
  • 藤田亮さん (株式会社Rist 代表取締役社長) 
  • 伊奈林太郎さん (株式会社はてな bookmarkチーム テックリード)
  • 高橋圭一郎 (株式会社HACARUS Data Scientist) 

モデレーター

  • 田中祥太郎さん (株式会社リブセンス テクノロジカルマーケティング部 データプラットフォームグループ )

 

 

パネルディスカッションがスタート

ここではいくつかのテーマと回答をピックアップして一部を紹介いたします。

ビジネス課題を採択する基準は?

はてな伊奈さん : 会社として何をやりたいか、を優先させています。場合によっては機械学習を使わなくても良いことも。
HACARUS 高橋 : 今は産業業界と医療業界の案件に絞って取り組んでいます。スパースモデリングはデータが少なくてもできるけれど、データの質が悪ければ適用困難。1回データを見せてもらった上で採択を決定しています。

はてなさんでは企業としてやりたいことをプロジェクトにするというのがとても魅力に感じました。エンジニアにとって会社が「挑戦したいことができる環境」であるかどうかは非常に重要なポイントだと思うので、働くモチベーションや生産性の向上に繋がっているのだと感じました。

どのようにプロジェクトを進めていますか?プロセスは?

Rist 藤田さん : プロジェクト内容は営業担当が決定します。サンプルデータをもらって1ヶ月確認の期間を設けてから計画しています。
はてな伊奈さん : 最初に検証用データで PoC を行い、うまくいけば開発を進めます。一方、本番環境にデプロイするプロセスが一番難しく、どの水準で本番に載せるか、誤検知や未検知がどの程度あるかなどを事前にしっかり確認しています。
HACARUS 高橋 : 他の3社さんと同じような手順で進めている一方で、データに関する理解を深め仮説を立てることを重要視していますね。

リソース配分については各社、少ないデータで精度を上げるためのモデル開発にリソースを割きながらサンプルデータで実証実験を行うというフローを取る中、LINEさんでは研究開発を行うときは論文の調査を行い State-of-the-art に基づく精度の目標を予め設定し、そこを工夫しながら目指すという手法がとられているということでした。人的リソースが豊富な LINEさんならではのとてもチャレンジングな開発のしかただと思いました。

モデルがうまく動かないときの対処について

LINE 橋本さん・Rist 藤田さん : データの不備によることが多いですね。訓練データが偏っていて、本番データとデータの分布が異なっていたりすることで動作しないことが多々あります。不良品検知のモデルで、事前に聞いていた不良品の種類とは異なる新しいタイプの異常データが多数出てきた経験がある……。

データ数が少ないときの対処について

HACARUS 高橋 : いつも想定よりデータが少ないと嘆いています (笑)。対処としては量が出せないならデータの質を高めてもらうという対応をします。
はてな伊奈さん : Webサイトのアダルト判定のプロジェクトを例に挙げると、教師ありデータが少なくアノテーションがバラバラであったため、2000件のサイトに自分でアノテーションをつけたという苦い経験があります。

リリース後のモデルの精度の監視についてどのように行っているか

LINE 橋本さん : あるプロジェクトでは、End-to-End のテストを行い、以前使ったデータセットでパフォーマンスが落ちていないかを毎週のアップデートでチェックしています。
Rist 藤田さん : システムに学習機能がついていて、システム導入後画像が蓄積されていくので、正解データをアノテーションして再学習することで精度を保っています。

精度評価に関して、LINEさんは目標設定がきっちりあるので、テストを自動化することにはじめにリソースを割き、評価がしやすい流れをとっているそうです。また、精度評価に関連して印象的だったのは、各社、提供されたユーザーのデータを用いた再学習機能をモデルに付与しているというものでした。ただし、精度が向上するかどうかはわからないので再学習したものを実用に移すのはまた別の問題だとおっしゃっていました。
モデルの開発がうまくいかないのは、実用段階とのデータのドメインが違ったり不足したりしているなどといったデータの不備によるものが多いそうです。そのため、データのクリーニングや、共同開発先に追加データを要求するなどして対応することが大事だということでした。

会場からの質問

今回は Slido を使ってリアルタイムに質問を集めました。

機械学習プロジェクトの社内での知見共有をどうされているか知りたいです

はてな伊奈さん : 毎週共有会がありそこで共有しています。また、チャットを用いて随時活発に共有されていますよ。
HACARUS 高橋 : 毎週論文の輪読会や、インターン生を含めたプロジェクト終了時報告会を実施しています。

手法にもよると思いますが,なぜそのような結果(精度)なのか聞かれたらどう説明するか知りたいです

HACARUS 高橋 : 説明可能なアルゴリズムなので簡単に説明することができます。
Rist 藤田さん :  深層学習を使うので説明が難しく、数式やヒートマップ的に説明するのではなく、データの偏りなどのエンジニアの感覚から説明します。

クライアントに精度の達成度について聞かれたときどう回答すれば良いのか、という質問に対し、「エンジニアの経験をもとにして、こんなものだ、というだけで十分」という意見が共通していました。

精度を限りなくあげてくださいと言われた場合、どのようにお客さんに説明、提案されますでしょうか?

Rist 藤田さん : 予算を限りなく上げてもらえれば(笑)。それ以外では現状のAIの最高性能を引き出して説明しますね。

採用で工夫されているところが何かあれば知りたいです

LINE 橋本さん : 機械学習を用いるコーディングテストで技術だけでフィルタリングしています。エンジニアが直接面接し、機械学習に関する知識を確認します。
HACARUS 高橋 : 1時間のコーディングテストで思考プロセスを見ます。また、面接で一緒に自分たちが仕事したいと思うかを重要視して採用します。

コーディングテストを用いてふるいにかけた後、面接を行うという回答が多い中、HACARUS では一緒に仕事をしたい、と思えるかどうかという基準で選ぶこともあるそうで、人柄を見る熱い社風が垣間見られました。

インターンがさわれるデータに制限はありますか.また制限はどうやって決められますか

HACARUS 高橋 : サーバにデータが集められていて、それを自分のパソコンに落として社外に持ち出すことがないようにしています。

他社との差別化はどのようにしていますか

LINE 橋本さん : AIの他社との性能差はほとんどなくなり、性能差で差別化は難しくなってきました。どういうAIを用いるかではなく、どういうアプリを作っていくかが重要だと思います。
Rist 藤田さん : 少ないデータで実装したり,他の技術(ロボットなど)とAIを組み合わせて新しいものを作ることが大事だと考えています。
はてな伊奈さん : アルゴリズムはメンテナンスのしやすさから単純なものにし、自社のデータがたくさんあることが強みです。
HACARUS 高橋 : スパースモデリングで少ないデータでのAIを早い段階で使ってきたパイオニアとして、ブランド力で差を見せていきます。


各社がどのように機械学習を用いたプロジェクトを回しているのか、どういう問題に悩んでいるのかを知ることが出来、大変有意義な時間となりました。どこでもデータの量と質で悩んでいたり、他社との差別化に様々な工夫をしていることがわかりました。パネルディスカッションに新しく形式を変えた今までと少し雰囲気が異なる MACHINE LEARNING Meetup KANSAI がすごく楽しかったです。( 田中 ・住江 )


——HACARUS についてのお知らせ——

< サービス情報 >

◉ HACARUS では中長期的な AI 開発プロジェクトを対象に、HACARUS のもつ AI 開発に関わる幅広いスキルセットを柔軟に提供し、お客様の AI 開発を成功に導く「データサイエンスコンサルティング」サービスを提供しています。
データサイエンスプログラムについて

◉HACARUSでは製薬企業・医療機器メーカの新規事業部門や研究開発部門に所属されている方や医療従事者の方を対象に、医療分野に特化したいデータサイエンティスト養成プログラムを提供しています。
医療データサイエンティスト養成プログラムについて

◉AI外観検査ソリューション SPECTRO の紹介動画を更新しました。
SPECTROについて

< 採用情報 >

◉HACARUS では、データサイエンティストや機械学習エンジニアの方の採用を行っています。まずはお気軽にお話しませんか?ご応募をお待ちしています。

データサイエンティスト
データサイエンティスト( 育成枠 )
機械学習エンジニア