「最適なグループワークの人振り分け支援における人材配置の最適化」について研究しています。
●インターンシップ参加理由
もともと映画鑑賞が趣味で、映画人気の背後にある要因を分析することに興味がありました。
私が学んでいるデータサイエンスの知識を実際のサービスに応用できることは、なかなか得られない貴重な経験だと考えたため、今回の長期有償インターンシップに参加を決めました。
2023年12月8日、武蔵野大学データサイエンス学部長期有償インターンシップの成果報告会が、ジールで行われました。
インターンシップ生として参加した武蔵野大学の学生3名は、8月から11月までの4か月間、「StoryAI」 のデータ化手法の検討・検証・分析などを行いました。
今回は、その成果報告会の発表の様子をレポートします。
目次
ジールは2023年に新たな取り組みとして、武蔵野大学のデータサイエンス学部との長期有償インターンシップを開始いたしました。
●関連記事:
ジール、武蔵野⼤学データサイエンス学部と長期有償インターンシップを開始
公開日:2023年08月31日
今回の武蔵野大学データサイエンス学部とジールの長期有償インターンシップは、以下2点を目的としていました。
ジール製品のひとつである「StoryAI」を題材に、サービスが更なる成長を遂げるよう、今回の長期有償インターンシップでは以下の3軸に取り組みました。
独自モデルの強化
評価基準作品の増強
分析・評価軸の拡大
またジールの採用面におきましても、武蔵野大学の学生に長期の就業経験をしてもらうことにより、将来のPdM(プロダクトマネージャー)やAIエンジニア・データサイエンティストとなる優秀な人材を発掘できることへ可能性にも、大きな期待が寄せられていました。
将来のPdM候補の発掘
AIエンジニア候補の発掘
データサイエンティスト候補の発掘
今回の長期有償インターンシップの形態は、以下の通りです。
2023年8月~11月の4か月間
出社とリモートワークのハイブリッドスタイル
※実際には、1か月に1回の出社以外はリモートワークでの形態で実施されました。
ジールの製品のひとつである「StoryAI」について、インターンシップ生主導で大きく以下の3点を行ってもらいました。
データ化手法の検討
データ化、モデル検証
分析
※対象となる脚本データは購入したものを著作権法30条4項に従い適切に処理しています。
また、文書の生成などを行うための学習には利用は致しておりません。
StoryAIとは、テキストおよび画像から機械学習でStoryを感情分析することができるAIツールで、小説やその他文章作品をAIが解析・グラフ化します。物語の流れが視覚的に捉えられるようになるため、それまではわからなかった作品の課題も明確になります。
具体的な機能の1つめは「分析機能」です。「コンテンツを機械学習によって数値化し、時系列データとしてグラフ化すること」ができます。
独自指標で分析結果を表示することができ、2023年7月からは画像とテキストを混在させての分析も可能となりました。
文章・作品などのコンテンツを事前評価することで、人間の根拠のない独断を防ぎながら、課題を見つけてPDCAのセルフチェックを行うことができます。
具体的な機能の2つめは「差分比較機能」です。
Githubのようなバージョン管理機能が搭載されており、前回分析時のデータと比較分析ができます。
文章・作品などのコンテンツを修正した際に、修正箇所が可視化され、意図したとおりに改善されたのかを目視で確認できます。
今回の長期有償インターンシップにご参加いただいたのは、武蔵野大学データサイエンス学部3年生の青木さん、杉山さん、諏訪さんの3名です。
「最適なグループワークの人振り分け支援における人材配置の最適化」について研究しています。
●インターンシップ参加理由
もともと映画鑑賞が趣味で、映画人気の背後にある要因を分析することに興味がありました。
私が学んでいるデータサイエンスの知識を実際のサービスに応用できることは、なかなか得られない貴重な経験だと考えたため、今回の長期有償インターンシップに参加を決めました。
「楽曲メディアコンテンツを対象としたコード特徴量を用いた複雑性抽出方式」について研究しています。
●インターンシップ参加理由
私たちが普段学習しているデータサイエンスの技術がどのように実務で応用されているのか気になったため、今回の長期有償インターンシップの参加を決意しました。
「色差を用いた屋外広告物の景観に対する影響推定手法」について研究しています。
●インターンシップ参加理由
これまであまり触れてこなかった分野の技術を、実務を通して学べることに魅力を感じたため、今回の長期有償インターンシップの参加を決めました。
武蔵野大学様のWEBサイトは以下よりご確認ください。
今回の長期有償インターンシップは7月に開始され、11月に終了する4か月のプログラムです。
12月の成果報告会に向けて、以下のようなスケジュールで進行しました。
2023年8月~9月上旬:データ化手法の探索とデータ作成
2023年8月下旬~11月上旬:データ化の実施
2023年11月:データ分析
成果報告会では、本スケジュールに沿った内容を、青木さん、杉山さん、諏訪さんの3名が順に発表を実施してくれました。
StoryAI で分析をするために最初に行ったのは「コンテンツをどのようにデータ化するかを模索すること」。
脚本となるコンテンツをOCRに読み込み、キャラクターをデータ化する必要があり、今回の長期有償インターンシップで使用した技術は、大学の授業で主に使用しているPythonだったそうです。
データ化処理の際、当初は脚本のタイトル部分・画像部分・本文を切り出しを行う予定であったところ、今回のデータ化処理で使用した技術がもともと論文を元に学習されていたモデルであったため、広告が含まれているタイプのコンテンツには対応ができないことが判明しました。
このような課題にも、しっかりと対応していったのが今回の3名の学生でした。
自分たちで脚本のデータに合わせてモデル作りを行い、広告画像が含まれる段組みの脚本画像から広告部分以外を抽出することに成功。
脚本の中にある広告画像が含まれる段組みから広告部分を除き、切り分けることを可能にしました。
さらに、「段組みの脚本を一段ずつに切り分ける」ことも実施。OCRでデータの取り込みを行った際に、段組みを無視して認識してしまう場合があるという課題を、段組みを切り分けて、順番や段落の誤認識を防いで処理できるように追加の技術も取り入れました。
また以下の画像のように、文字が記述されていない(ピクセル)をヒストグラムにあらわすことで、ギャップをもとにして0が一定部分表示される場所が「段組みの間」であるとみなして、画像を段組みごとに切り分けることに成功しました。
コンテンツの段組みを認識させることができたため、次のステップでは切り分けた脚本画像から、処理可能なテキストデータに変換するためのOCRを行います。
OCRの手法として、以下の2パターンを用いました。
GoogleCloudAPIを用いる方法
DocsAPI、GoogleAppsScirptを用いる方法
ドキュメントの高精度なOCRが、GoogleAppsScriptを用いることで自動化され、かつ画像をまとめて処理することが可能となりました。
ただし、GoogleAppsScriptによるOCRはファイル全体の実行速度が遅いという課題があったそうです。この課題を改善するために使用したのがVisionAPIを用いたOCR。
結果として、200枚の脚本画像の処理に30分以上かかっていたものが5分程度に短縮でき、6倍ほど高速化されたそうです。
このように、2パターンのOCR手法を用いることで処理時間は1/6に削減されました。
しかし、「…」の記号や半角の複数桁の数字など、一部のテキストが認識されなかったり、文字が拾えていないという課題も発生していました。
この課題の解決策として学生3名が考案したのが「VSCode」の置換機能を利用することでした。これは完全な手作業で、脚本の元のデータと見比べながら、半角・全角・記号の置換や、余計な改行の削除などの地道な修正作業を行ったそうです。
このように、データ化の際に、様々な手法を検討して試行錯誤を行った結果、3名は、以下のようにまとめました。
今回様々なOCRの手法を検討しましたが、今回の発表でご説明したものが最も効率よく、かつ処理速度が高速のため採用しました。
実際に段組みの脚本を文字に起こす作業速度自体は早くなりましたが、前述の記号などの認識ミスを探す作業が必要で、長い脚本(2時間もの・3万7千文字程度)の場合は時間がかかってしまいました。
現状のOCRの課題は「文字起こしの100%の精度は難しい」こと、そして「記号・数字・文字の誤認識、順序が逆になってしまう」ことです。
その解決策として以下を提示します。
元の画像データの解像度を向上させる
にじみ除去などの前処理を行う
段組みからさらに章、節ごとに区切ることで 誤認識を解消 (グレイスケール、二値変換、ぼかし処理、輪郭抽出)
三段組のデータをさらに細かく章や節で区切ってOCRする
学生3名は、データ分析にあたり、「現在のStoryAIにどのような改善、分析があるとユーザー目線で新たな価値を提供できるのか?」ということをテーマに、どのような分析があると良いかを考えたそうです。
現行のStoryAI は、時系列に感情値を出すことやチャプターごとに感情値を検出できたり、検索できるなどが主な機能でした。
そのため、今回の長期有償インターンシップでは、現行のStoryAI において、ユーザーに新たなインサイトを提示させるために、各登場人物ごとの分析、比較、他の作品ごとの比較、関係性などを検討し提案を行いました。
新たにユーザー目線で必要な分析軸は?
各登場人物ごとの分析・比較
他の作品ごとの比較
関係性
報告会では、初代『ゴジラ』と『シン・ゴジラ』を例にとり、上記の項目の説明が行われました。
またその他にも、DTW(Dynamic Time Warping:動的時間伸縮法(※1))やNlplot(可視化分析)、ネットワーク分析などの様々な手法を用いて、新たな分析機能の検討を行った成果報告が行われました。
※1)武蔵野大学ではDTWの研究に注力しており、今後の社会実装に向け研究成果を活用した取り組みを行いました。
前述のように、青木さん、杉山さん、諏訪さんの3名の成果報告会の内容は非常に実り多く濃密でしたため、オーディエンスのジール幹部・社員も3名の発表に聞き入っていました。
3名は報告会の最後に、「今回の長期有償インターンシップで得た学び」について、以下のように報告してくれました。
武蔵野大学の青木さん、杉山さん、諏訪さんの3名からの成果報告会を受けて、オーディエンスから大きな賞賛と一部心配の声(?)が寄せられました。
こちらではその一部をご紹介いたします。
感情分析の部分は、研究室で行っていたことが仕事でも生かせる面は非常に良い点だったと思います。「VSCode」の置換機能を使用した手作業で直す作業の説明において、実際そうなった場合の工数の算出を行い、説明できるところまで導いていた点も良かったと思います。
総じて大変素晴らしい成果報告だったと思います。頑張りすぎていて負担が大きかったのでは…と、少し心配だったほどでした(笑)。
学生側の緊張は大きかったと思いますが、素晴らしい発表だったと思います。大学の授業数も多くある中で、時間の隙間を縫ってインターンに参加したのだと思います。
大学では体験できない学びを得られることは、インターンシップならではだと感じました。
参加した3名の学生さんには、今回の成果をぜひ、今後の大学生活に生かしてほしいと思います。改めまして、ジールの皆様には、今回はお世話になりました。
インターンシップの期限である「4か月」という期間で、ここまで成果を出していただいたことに驚きました。
仕事を進める中での規律、生産性、コミュニケーションに自ら気づきを得て、「今後に生かしたい」と発表していたことをとても頼もしく思いました。ぜひ今後のキャリアにつなげてほしいと思います。
プレゼンテーションの資料の作り方から内容まで、非常に素晴らしいと思いました。
またStoryAI の共起解析機能については、コンシューマ対コンシューマの解析につながると思いますので、2024年1月以降の StoryAI の未来についても更なる希望が持てました。
今回のインターンシップを通じての気づきは、社会人になってからとても役に立つと思います。
インターンシップに参加いただいた学生3名の、言いたいことを伝える表現力や手法が素晴らしいと思いました。
またインターンシップの応募動機で述べられていた内容についても、社会人になる前に今回経験されたことは大きいと思いました。
業務の中で課題が出た際にも、自ら対処し、効果を上げ、課題を乗り越えたことは、大変素晴らしいことですし、2024年以降も引き続きインターンシップを続けていただけるということなので、今後も更に期待しています。
学生3名が胸を張って発表している姿を見て、充実した4か月間だったことが感じられました。仕事においては常に課題があり、それを乗り越えることこそが重要なので、その経験を学生のうちに経験できた点が良かったと思いました。
今回のインターンシップでは、データサイエンスの領域をメインで行われたと思いますが、それと並行してデータ活用にはデータエンジニアリングやITスキルも付きまとうものです。ですから今後は、データエンジニアリングやITスキルにもぜひ興味を持っていただけたらと思いました。
データ作成の際に取り込むデータに関して、元々既存の形で対応できるモデルと、対応できないモデルがあり、対応できないモデルは自分たちで作ろうという、自ら積極的に取り組む姿勢が素晴らしいと感じました。
また学生3名のチームワークが良いというのが成果報告会でも現れていました。チームで業務を行う際のコミュニケーションの大切さなども今回経験されたと思いますので、そうした経験をぜひ今後に生かしていただけるといいなと思いました。
我々社内のエンジニアだけでは出てこない発想を、インターンシップの3名にサポートいただけて本当に助かりました。新しいインターフェースに、今回学生3名が検討してくれた分析ノウハウをどう入れていくかという点については、1月以降に行っていくので、この成果報告会を聞いているジール社内メンバーからもぜひ意見をもらいたいと思っています。
今回長期有償インターンシップにご参加いただいた3名の学生の方にとても感謝しています。
最後に、長期有償インターンシップの成果報告会を終えてほっとしている学生の皆さんへ、「今回のインターンシップはどうでしたか?」を聞いてみました。
実際に自分が企業で働いてみて、マナーや仕事のやり方を体験できたことは非常に勉強になりました。
社員さん同士の仕事のやりとりの様子や、成果報告会の直前にも「頑張ってね」と声をかけてもらったり、コミュニケーションが社員同士でも活発に行える環境だと感じました。
得られたことは、会社としての仕事の進め方を学んだ点です。インターンシップの業務上でデータ化を進めている中で、川合さんから効率化とコスト削減という要望や課題が出た時に、タスクをこなしながら課題解決を同時進行していかなければならない点が難しかったです。これが会社として仕事をしていくことか、と感じました。
私は実家が自営業だったこともあり、これまで私の周囲に「会社員」の方がいなかったため、実際にジールに出社して社員の方同士が話している姿を見て、働くイメージが具体化しました。ジールは人とのコミュニケーションが活発、かつ気軽に行っているという点が一番印象に残っています。実際にインターンシップでも、社員の皆さんが私たちにとても良くしてくださいました。
大変だったことなのかわかりませんが、言葉遣いに間違いはないか、この時間に話しかけて良いか気になって、よく緊張していました。また、同じインターンシップのメンバーも、最初は今ほど仲良くなかったので(笑)、 慣れるまでは緊張の毎日でした。そして、大学では技術の習得に取り組んで来ましたが、インターンシップでは実用化に持っていく部分について新しい視点と知見を得ることができました。
StoryAIは実際にお客様に使っていただくサービスなので、実際に触れてみて責任感とやりがいを感じました。
エンジニアという職種は、コーディングとエラー解決の繰り返しの業務が中心のイメージがありましたが、実際働いてみると様々な人とのコミュニケーションが必要だったり、データ化の作業も泥臭い業務の繰り返しで、忍耐力が試される場面がありました。
また仕事の進め方もとても勉強になりました。StoryAIに携わらせてもらい、自身の技術が本当に足りないことも痛感したので、もっと勉強が必要だなと思いました。
社会人になったときにこのインターンシップの経験が間違いなく生きると思いますし、大学の研究にも今回の経験を還元できるように頑張ります。
また、今回4か月にわたって学生3名への指導を行ったジールの川合からも、長期有償インターンシップの率直な感想を聞いてみました。
今回のインターンシップのゴールは、当初はStoryAIに読み込む脚本データを文字化することのみだったのですが、いざ武蔵野大学の学生3名とのインターンシップを始めてみたら、学生たちの能力が想像以上に高かったのです。
そのため、当初の予定を大幅に変え、最終スコープだけを伝えて学生たちにどんどん任せて、学生3名に主導して進めてもらう方針に変更しました。
そういう経緯もあり、私の手法を教えるスタイルをとるよりも、私は監督者としてのみ機能することを意識しました。学生3名が「何か迷っていないかな」とか「レスがないけど大丈夫かな」などのコミュニケーション方面に注力し、納期などのプレッシャーをかけることなどはしないよう気を付けていました。
「3名で一緒に考えて、ひとつの答えを持ってきてください」と提示するスタイルで進めていきましたね。
そのため一般的なPMの役割、たとえばマイルストーンを決めたりWBSを引いたりするようなことを私がすることはなく、学生3名で話し合って進めてほしいと伝えただけなのですが、学生たちはそのやり方を「普段大学で行っている進め方と近かったので、やりやすかったです」と言っていました。
私が特に大切にしていたのは、「学生たちがしっかり理解しているかどうか」を確認することでした。何かを説明した後に学生たちの言葉で説明してもらい、理解できていれば「その通りです」と伝え、わかっていない部分があればわかるまで説明したり、なぜそうなっているのかという背後の関係性を説明するようにしていました。
その結果、学生たちがやりたいこととユーザーが求めていることが乖離しないような意識づくりができ、成果報告会でも「顧客が求める機能」という言葉が使われていたのかなと思うと、非常に嬉しかったですね。
川合の感想からも、学生3名と非常に高度で充実したコミュニケーションが行われていたのを感じ、だからこそ今回のインターンシップでの実り多い成果が生まれたのだと思いました。
武蔵野大学データサイエンス学部の青木さん、杉山さん、諏訪さん、長期有償インターンシップに参加いただきありがとうございました。
このように、非常に優秀で聡明な武蔵野大学データサイエンス学部の学生さんたちへ、インタビューをさせていただいて、そのしっかりとした受け答えに、こちらがタジタジとするほどでした。
そしてなんと、杉山さんはこの成果報告会の3日後に海外の学会で音楽の楽曲のコード進行をもとに、その楽曲がどれだけ複雑であるかという内容についての論文を発表するとのことです。
また、2024年の3月までこちらの杉山さん・青木さん・諏訪さんの3名は引き続きジールでインターンシップ予定となっていますので、更なるご活躍を期待しております。
更に2024年1月以降は武蔵野大学から新たに2名の学生がインターンシップ予定とのこと。新たなメンバーも増えて、武蔵野大学のインターンシップ生とジールが生み出す更なる相乗効果にも乞うご期待です。
今回の長期有償インターンシップではジールのAIサービスである「StoryAI」を取り上げて、データ分析を行いました。
StoryAIはテキストおよび画像から機械学習で小説や文章のStoryを感情分析するAI系Saasです。
コンテンツをグラフで表現
解析結果の共有(シェア)
文章を瞬時に検索
差分を比較する
なんと0円から使用できるフリープランもありますので、「より読者に訴える文章を書きたい!」という小説家志望の方はもちろん、「自身のサービスや商品の購入を訴える文章が書きたい!」というマーケッターや事業主の方にも大変魅力的で使いやすいサービスです。
また、法人のお客さま向けにもエンタープライズ向けプランをご提供しております。
これまで講談社様などの⼤⼿エンタメ業界の企業にご利⽤いただいておりますし、今後はより幅広い業種業界の企業、官公庁・⾃治体へ向けての提供を予定しています。OEMでの提供実績もあり、お客様要件に応じた独自ソリューションやお客様のサービスの機能の一部としてご提供することも可能です。