■発表のポイント□
◎ファッションの説明には「カジュアル」「フォーマル」「かわいい」といった曖昧な表現が用いられるため、一般のユーザーがファッションを理解・解釈することは容易ではない
◎研究グループでは先行研究で、ファッションへのイメージを自動的に学習・解釈し、ユーザーからの曖昧な問いに対する回答を得る技術を開発していました。今回、新たな技術として服装の個別アイテム(Tシャツ、パンツ、スカート等)に関する質問に回答可能な機械学習モデル「Partial Visual-Semantic Embedding」を開発
◎開発モデルにより「この服装の上半身はどのくらいカジュアルか」「この服装の上半身をもう少しビジネスカジュアルにしたい」といった、ファッションに関するより詳細な質問に回答できるようになる。この成果により、着る服や購入するアイテムなどファッションに関するユーザーのあらゆる選択・行動を支援することが期待される
早稲田大学とファッション通販サイトを運営する㈱ZOZOの研究グループは、ファッションへのイメージを自動的に学習・解釈し、ユーザーからの曖昧な問いに対する回答を得るための「Fashion Intelligence System」の精度を向上させた上で、新たな機能を実現するための機械学習モデルを開発した。今回開発したモデルでは、〝この服装の上半身(下半身、靴など)はどのくらいカジュアルか〟〝この服装の上半身をもう少しビジネスカジュアルにするとどのような服装になるか〟などのユーザーからのより詳細な質問への回答を得ることができる。研究内容は次のとおり。
⑴これまでの研究で分かっていたこと(研究の背景)
ファッションを説明する際には通常「カジュアル」「フォーマル」「かわいい」といった曖昧な表現が用いられるため、専門家でないユーザーがファッションを理解・解釈することは容易ではない。このようなファッション分野特有の曖昧性は、ユーザーがファッションへの苦手意識を持ったり、新しいジャンルの服装に挑戦することを困難にするなど、ユーザーがファッションへの興味を深めることの妨げとなる可能性がある。
この問題を解決するために、以前同研究グループでは「Fashion Intelligence System」という技術を開発した。この技術により、例えば、1)「この服装をもう少しフォーマルにしたらどんな服装になるか?」、2)「この服装はどれくらいカジュアルか?」、3)「この服装をカジュアルにしている要素は何か?」といった問いへの回答を得ることが可能となっていた。
⑵今回の研究で新たに実現しようとしたこと
一方で、従来のFashion Intelligence System では、全身の服装の画像を一括で学習しており、その中に含まれる個別のアイテム(Tシャツ、パンツ、スカートなど)に関する詳細な質問への回答を得る機能を有していなかった。
今回の研究では、Fashion Intelligence Systemの機能を強化し、前述の1)〜3)の質問に加え、4)「この服装の上半身(下半身、靴など)のカジュアル度はどのくらいか」、5)「この服装の上半身をもう少しビジネスカジュアルにするとどんな服装になるか」など、服装に含まれる個別のアイテムに注目した詳細な質問への回答も可能にしようと試みた。こ
れらの問いに対する回答を自動的に獲得することで、ユーザーの認識の幅を広げ、ファッション(服装・着こなし)の解釈や興味喚起のための一助となることを目指している。
⑶新たに開発した技術
全身の服装を写した画像に関しては、
1.全身の服装は、複数の個別アイテムから構成される集合として考えることができる。また、(シャツ・パンツ・シューズなどの)必要最低限のアイテムが必ず含まれる。
2.集合を構成する各アイテムは、調和性を満たす関係にある。(一連のアイテムの相性が良く、組み合わせることで 1つの服装として成立する。)
3 服装 A に含まれるシャツは同一部位(上半身)に着用する他のアイテム(シャツ・パーカーなど)に置換可能であるが、他部位(頭部・下半身など)に着用する他のアイテム(帽子・スーカーなど)に置き換えることは不可能。
4. 被写体人物のポーズは多様であり、必ずしも画像の特定の部分に固定アイテムが写されているわけではない。
といった個別アイテムに関する特徴があると考えられる。
従来のFashion Intelligence Systemでベースとしていた技術では、これらの特徴を深く考慮せず、全身の服装の特徴をひとまとめにする形で学習した。一方で、研究ではこれらの特徴に対応した上で、全身の服装の画像と当該画像に付与された複数のタグ情報を同一の空間に写像する Partial Visual-Semantic Embeddingという新たな機械学習モデルを提案した。
このモデルにより、全身で写った1枚の服装画像から各アイテムに対応する特徴量を個別に抽出した上で、指定したアイテムに対応する特徴量同士の演算が可能になる。
このモデルによって学習された空間における画像とタグの座標(埋め込み表現)を活用することで、前述の 1)〜3)のような、コーディネート全体に関する問いにより正確に回答できるようになるだけでなく、4)〜5)のような個別アイテムに関する曖昧な問いに対する回答を獲得することができるようになる。
この研究は、大学院創造理工学研究科博士後期課程と㈱ZOZO NEXT(本社:千葉市)の研究開発組織、ZOZO研究所に在籍する清水良太郎氏、早稲田大理工学術院の後藤正幸教授と、ZOZO研究所の中村拓磨氏らにより行われた。