【遊戯王ニューロン】遊戯王ニューロンの仕組みを簡単に説明！技術的にもすごいアプリだ！【CEDEC2020】

お久しぶりです。くらくです。

今回は変わり種と言いますか、特殊な記事です。昨日「CEDEC2020」という学会にて、「遊戯王ニューロン」についての技術的なお話を聞く機会がありましたので、そのレポートのような記事となります。

とはいえ、専門的すぎると読む人を選びますし、講演内容の全文を文字起こしする行為は禁止されているので、あくまで概要を掻い摘んでお話するといった流れになります。

f:id:yamachi_9rakura:20200903174241p:plain — ©Konami Digital Entertainment

yamachi-9rakura.hatenablog.com

はじめに
遊戯王ニューロンのカード認識の仕組み
私が驚いた点
さいごに

yamachi-9rakura.hatenablog.com

はじめに

今回お話するのは「遊戯王ニューロン」のカード認識機能についてです。

これを実現している技術、学問的な立ち位置は、画像認識やコンピュータビジョンといった分野に相当します。

アプリのユーザであればわかるかと思いますが、「遊戯王ニューロン」のカード認識機能はかなりの高性能でして、レアリティによる光や照明による反射をある程度許容し、多言語のカードにも対応しています。

遊戯王 ニューロンのカード認識の仕組み

遊戯王ニューロンのカード認識は2つのステップからなります。

カメラアプリから得た画像からカード領域を検出する
検出した領域のカードが何なのかを推論する

このどちらにも機械学習の手法が取り入れられています。

機械学習とは

全然知らない人にわかるよう簡単に言えば、いわゆる「AI」です。

求めたい結果を得るために、データを与えて学習させ、識別器を生成します。

その識別器に未知のデータを与えて、より良い結果が得られるように学習を繰り返すことが機械学習となります。

わかりやすいように遊戯王を用いて例えます。

f:id:yamachi_9rakura:20200904011228j:plain — ⓒ高橋和希スタジオ・ダイス/集英社・テレビ東京・NAS

前述した識別器をセレナちゃんに例えます。最初セレナちゃんはポンコツなので、《クリボー》と《ハネクリボー》の違いがわかりません。

そこで、レアリティ違いも含め、いろんな角度、条件下で撮影した《クリボー》と《ハネクリボー》の写真データをセレナちゃんに食べさせます。流石にかわいそうなので写真をもしたケーキとでもしましょうか。

食べさせる際に「これはクリボーだからね」と渡したものが何かを伝え、学習をさせます。

十分にケーキ（訓練データ）をセレナちゃんに食べさせたあと、全く違う条件で撮影した《ハネクリボー》のケーキ（未知データ）を渡します。

それによりセレナちゃんは渡されたケーキが《ハネクリボー》だと理解できるようになりました！！！

データを食べることで学習したセレナちゃんは、《クリボー》と《ハネクリボー》を分類できる立派な識別器となったのです！！

……セレナちゃん……ごめんね……。

なんとなく、機械学習について雰囲気が掴めたところで、早速仕組みの説明にいきます！

カメラアプリから得た画像からカード領域を検出する

f:id:yamachi_9rakura:20200904012725p:plain — ©Konami Digital Entertainment

まずはカードがどこにあるのかを検出します。ユーザの人なら、カードを並べて検出させるっていうを一度はやったことあると思いますが、この認識機能を使うときにカード周りに矩形が表示されますよね。これが写真全体からみてカードの領域を検出しているということになります。

このカードの検出にも機械学習が用いられています。この場合、与える訓練データは「カード画像が含まれた風景データ」。得たい結果は「カードが風景の中のどこにあるのか」ということです。

カードが無造作に置かれている写真を大量に用意し、それを学習データとしてもちいることで、カメラから得た画像のどこにカードがあるかということを抽出できる学習器が得られます。

アプリでは10枚が限界みたいですね。

検出した領域のカードが何なのかを推論する

次に2番目のカード認識の話です。先述したカード領域の中にそれぞれ何のカードがあるか、というのを認識・推論します。

難しい話は無しにしますが、どのような学習データを用いたのかということだけ説明します。

流石に実物のカードを用意するのは大変なので、訓練データとして用意したのは「3DCGのカード」みたいです。それをいろんな角度、照明条件で用意し、訓練データとして用いているようでした(数にして数十万枚)。

それによって得られた膨大な量の訓練データを「VGG16」という有名な機械学習モデルを用いて学習させ、10000種のカードを分類できる識別器を実現させたようです。

今後についてや小話

ざっくりとした仕組みの説明は以上なのですが、色々開発に至っての小話みたいなのが多く出ていて面白かったです。

例えば、「自分の顔画像をカードに見立てて何に似ているか認識させる」といったユーザ側から出てきた遊びについては、開発側はかなり好意的でした。

また、カードを認識する数の限度を10枚としたのはデザイナーの意見だったようで、これに関しては、デザイナーよくいってくれたというような印象でした。（開発側は精度を担保するため、マーカーを用意して1枚ごとに認識させる予定だったらしい）

また、精度の低い事例として「ウィジャ盤」が挙げられていました。「ウィジャ盤」は米版と日本語版で同じカードでもイラストに書かれた文字は同じであるため、識別が難しいようです。（米版の《死のメッセージ「T」》と米版の《Spirit Message "A"》はニューロン上では同じとして扱われますからね）

また、発表の内容としては、肝となる部分はエッジ（スマホ等の端末）において、どのようにアプリを実現するかといったこと（負荷をどのように軽減するか）と、今後カードが増えていっても対応可能な機械学習モデルの選定などでした。

この辺りは難しいので今回は省きましたが、気になる方は調べれば出てくると思いますので是非。