MACHINE LEARNING Meetup KANSAI #6 イベントレポート

MACHINE LEARNING Meetup KANSAI #6 イベントレポート

こんにちは、ハカルスでデータサイエンティストとしてインターンをしている原です。2019年9月19日に開催された、第6回「MACHINE LEARNING Meetup KANSAI #6」に参加しました。

 MACHINE LEARNING Meetup KANSAI ( #mlm_kansai )は関西の機械学習を業務に活用している人や勉強している人を対象として、機械学習のノウハウをお互いに情報交換・共有し、広く発信していこうというコミュニティイベントです。今回はグランドフロント大阪にある、さくらインターネットさんのオフィスが会場でした。約70名の方にご参加いただきました。

ハカルスCDO木虎よりコミュニティの趣旨についてご説明


—メインセッションがスタート—

 

#1 パク ビョンソンさん( LINE株式会社 )

ー機械学習を用いたテキスト正規化手法の動向ー

メインセッション一人目の登壇者は、株式会社LINEで音声合成(text to speech)サービスの開発をしているパクさん。音声合成サービスの前処理で行う、テキスト正規化に関する内容でした。

テキスト正規化では、テキストにおける方言の統一・不必要な情報の除去を行います。例えば「てゆぅか、雨☂️降ってきたんだけどぉ、もうまぢウケる」といった文章では、「てゆぅか」・「まぢ」といった砕けた表現を、「というか」・「まじ、本当」と文語的な表現に正したり、「雨☂️」の傘マークを除去したりします。また、「:」の扱い方が難しくなります。例えば、「12:30に出発」といった表現では、「12時30分に出発」と変換するのが正しいですが、「スコア1:2で敗北」という表現では「スコア1対2で敗北」と変換する必要があります。こういった処理は、単純なスクリプトでは達成できません。

そこで、これらの「言語の混在統一、誤字脱字の補完、崩れ表現の訂正、不要文字」を達成するために4つの手法が紹介されました。

一つ目は、高精度な品詞分解を可能とする「CRF」条件付き確率場に基づくモデルです。二つ目には、自然言語処理でおなじみのRNNによる正規化表現の出力に関して紹介されました。三つ目として、Autoencoderと擬似コーパスで崩れ表現を正規化する方法が紹介されました。最後に、文字ごとだけでなく、文脈からも特徴量抽出して判断するモデルが紹介されました。このように、合成音声サービスの一部の機能であるにもかかわらず、学ぶことが多く、前処理の重要性を再認識しました。

 

#2 高橋智洋さん( オムロン株式会社 )

ーDecentralized GANー

メインセッション二人目の登壇者は、オムロン株式会社の高橋さん。今回のトークは、高橋さんが共著で発表された、『Decentralized Learning of Generative Adversarial Networks from Multi-Client Non-iid Data』の解説でした。GANとはGenerative Adversarial Networkの略で、日本語では敵対的生成ネットワークと言われています。会場のほとんどの方は名前は知っている様子でしたが、数式サイドの理論まで理解している方は数名程度でした。

GANは高精度の画像の生成機構となり得ますが、弱点として、学習に用いた画像データに近い画像しか生成できません。この弱点を克服する方法の一つとして、大量データを用いた学習が考えられます。しかしながら、GANの学習コストが非常に高いことがボトルネックになります。論文では、この学習コストの問題を解消する試みが提案されています。

GANでは、DISCRIMINATORとGENERATORという二つのニューラルネットワークを学習させる必要があります。一般的には、データをサーバに保存して、そこでニューラルネットワークの学習を行います。しかし、データ量が膨大になるとデータの扱いが難しくなります。そこで、従来より、各データをDISCRIMINATORとともにクライアントと呼ばれる場所に保存したまま、サーバーに配置したGENERATORとデータ通信を行いGANを学習させる方法が提案されました。しかし、クライアント数(データ数)が増えれば、各クライアントとサーバー間でデータ通信を行うため、通信量が2の冪乗で増えていきます。そこで、発表では、各クライアントからサーバーに送られてくる、DISCRIMINATORの出力のうち、最大のもののみを用いてGENERATORを学習させる方法が提案されました。これを行うことで、クライアント各々と通信する場合に比べて、通信量を半分に抑えることが可能となります。

この手法ではセキュリティ面での課題があります。しかしながら、劇的に効率化できる手法を考案されたことには、目を見張るものがあります。

 

#3 有方利織さん( パナソニック株式会社 )

ーAI開発のデザインセンスー

メインセッション最後の登壇者は、パナソニック システムデザイン株式会社の有方さん。発表の前半では、人という不確実な存在がプロジェクト期間に及ぼす影響に関してご紹介いただきました。ソフトウェア開発では予定通りに終わらないことがあります。それは単に作業量が『時間✖️人数』で測れるものではなく、作業を行う人自身が不確実性を孕んでおり、そのため、予定通り終わらない可能性が出てきます。また、後半では、アノテーション作業におけるヒューマンエラーについて発表されました。アノテーション作業で間違いを起こさないためには、もっと人にとって使いやすいユーザーインターフェイスを作る必要があるという話をされました。アノテーションの正確性はいわずもがなで重要なので、より使いやすいアノテーションツールを私たちも使う必要があると思います。

—懇親会スタート—

毎度恒例のLTもありました。初めは村山さんが登壇されました。内容は強化学習における「Hello, world」を作ろうという内容でした。発表では、Q-learning, ε-greedy法を用いて、1のスイッチを押してから2のスイッチを押すとチーズが食べられるというゲームを、ねずみが学習する様子が紹介されました。随所にはさまれるジョークは会場で大ウケでした。その他、サーバーサイドの異常検知モデルや、データコンペを開催する話で盛り上がり、非常に充実した時間でした。

 

まとめ

このような大勢の勉強会に参加したのは初めてでしたが、普段接しないような方と話すことができ、また予想していなかった発見もあり、個人的に意義のあるものになりました。好評につき、第七回も参加されますので、気になった方は参加して、関西のこのコミュニティを盛り上げていきましょう。詳細はconpassで[Machine Learning Meetup KANSAI](https://mlm-kansai.connpass.com/)にて。

 

イベントハッシュタグ : #mlm_kansai 

ニュースレター購読Newsletter

登録はこちら