テキストマイニングが大学を変える

学生のリアルな声を可視化する『Word Cloud』と『共起ネットワーク』

在学生
受験生
卒業生
企業・一般
文化

大学IR推進連絡協議会　データ分析・施策提案分科会　萩　慎太郎

2018年5月1日更新

―意外と活用されていないアンケート項目―

　企業ではすっかりお馴染みとなった「ビッグデータ」という言葉。大学業界でも様々な取り組みが始まっている。大学にも、学生の成績や就職などの情報、部活動の活動履歴や卒業生データなど多種多様なデータが存在するが、そのひとつひとつを見て判断するのではなく、データマイニングによる大規模解析を行うことで、今までは単なる「改善」にとどまっていた学生サービスも、誰もが考えつかなかったサービスが提供できるかもしれない。全国の大学でその動きが始まっている。

　國學院大學（東京・渋谷）では、大学IR推進連絡協議会が中心となり、平成26年から在学生を対象とした大規模調査「学生リアル調査」（毎年11月実施・インターネット調査）を行っている。この大規模調査をデータの中心に据え、その他のデータと組み合わせた解析を行い、いくつかの成果を上げている。しかし、担当者の中では長年の悩みがあった。それは、「学生の属性（デモグラフィック）分析から脱却し、もっと、彼らの真相心理に迫るような感情（サイコグラフィック）分析ができないのか？」ということ。そのために学生の行動特性が見て取れるような質問をアンケートの調査項目に追加したり、学内保有データで感情が見て取れるものは無いか探してみたり、試行錯誤の日々が続いたが思うような成果は上がらなかった。

%e3%83%81%e3%83%a9%e3%82%b7%e3%83%87%e3%83%bc%e3%82%bf-03
　そこで目を付けたのは、アンケート調査の中でも分析をほとんどしていなかった自由記述の項目。皆さんも、アンケートを答える時に「自由にお書きください」などと書かれた欄を目にすることもあるのではないだろうか。しかし、収集している側は、担当者が目を通したうえで、「結構、●●と言っている人が多いです」などと、およそ分析とは言えないような、何となくの印象しか把握していない場合が意外と多い。このように、アンケート項目の中でも微妙な立ち位置の自由記述欄。一方で、調査対象者のホンネが書かれていることも事実で、海底に眠るレアアースのように『掘り起こしていなかった宝の山』なのかもしれない。そのような自由記述欄をデータ的にまとめて俯瞰できる方法はないのか？國學院大學では、『word Cloud』や『共起ネットワーク』とよばれるテキストマイニングの手法を使った分析を行うこととなった。

―直感的に把握できる分析手法『Word Cloud』－

heart_01

　これは、國學院大學平成29年度学生リアル調査における質問「あなたは國學院大學の学生であることにどれくらい満足していますか」に回答した学生にその理由を聞いたものを分析ツール『R（アール）』を使ってWord cloud化した結果である。文字が大きければ大きいほど、その単語が使われた頻度が多かったことを意味する。これを見ると、学生は大学生活を楽しいと感じていることが直感的に見て取れる。また、渋谷という立地についても何かしらの感情を抱いているのではないかという推測もできるのである。ちなみに、この図には、満足していると答えた学生も不満であると答えた学生も含まれている。

　単語を見ていくとポジティブな単語が目立ち、ネガティブな単語は少ないもしくは小さく表示されていることから、全体的に満足している学生が多いということも直感的に見て取れるのである。職場の会議で分析資料が出されると、とかく細かい数字に目が行きがちだが、分析データは時には全体の印象などを大まかに把握することも必要で、Word cloudはそのようなシチュエーションではうってつけの分析方法なのかもしれない。

―言葉の背景を探る『共起ネットワーク』－

　一方で、単語によっては、ポジティブなイメージで使われているのか、それともネガティブなイメージで使われているのか一見わからないものもある。例えば、Word Cloud上で「不満」という単語が大きく表示されていたとする。直感的には「不満を持っている」と感じてしまうが、もしかすると「不満はない」という全く逆の意味で用いられているのかもしれない。

　そのような言葉の背景を探ることができるのが『共起ネットワーク』という分析手法である。この分析では、ある単語の前後にどのような言葉が使われているのかを判断し、頻出される単語同士を線でつなぐものである。また、非常につながりの強い単語同士は太い線で表現したり、同じカテゴリー内に入る単語は同一色で表現したりと、こちらもまた直感的に判断できるような工夫が施されている。

　　國學院大學では、分析ツール『KH Coder』を使用して、Word Cloudで分析した満足度の理由を深堀した。結果は下図の通りである。前段階の質問で回答者は、國學院大學の学生であることについてどのくらい満足しているかを「大変満足している」「おおむね満足している」「どちらでもない」「やや不満」「大変不満」の5段階で評価している。それを元に「大変満足」と「おおむね満足」をポジティブ回答者に、「やや満足」「大変不満」をネガティブ回答者とし、それぞれ共起ネットワークで表してみた。

2kyouki

　ポジティブ回答者の共起ネットワーク図を見ると、「充実」という単語を中心に、「授業」「生活」「学生」などの単語が関連付けられている。このことからも、回答者が何を言わんとしているのかがある程度伺えるだろう。

　また、ポジティブ回答者とネガティブ回答者の傾向を見ると、ポジティブ回答者の単語はある程度一連の流れで読み解けるが、ネガティブ回答者は、単語同士の組み合わせが何通りもできてしまうものも多い。つまり、ポジティブ回答者の満足の理由はある程度集約できるが、ネガティブ回答者が感じている不満の理由は人それぞれであるということが伺える。

―データ分析に命を吹き込む自由記述欄―

dma-1021-454

　前述のとおり、アンケート調査の中でも積極的に分析されていなかった自由記述欄。しかし、自由記述欄を活用することは、他の調査項目の引き立て役としての存在価値もある。皆さんも、日々の仕事の中で各種調査データを見ていると「本当にこの数字が正しいのか？」「なぜこのように高い（もしくは低い）傾向がでるのか？」など、数字上では測ることができない“何か”の存在を感じて、手放しでその数字を信用できなくなってしまうことはないだろうか。

　それはおそらく、その数字の下に隠されている回答者の背景や思いなどが読み取れず、自分の感覚とは全く違った傾向が数字上で表れてしまっているからだと思われる。しかし、テキストマイニングの分析結果を併せて見ることで、そのような「アンケート項目の背景」や「項目と項目の行間」などを感じ取ることができるのである。

　会議では、「生身の人間を相手にしているのだから、データだけ追いかけてもわからないことがある」と言われてしまいがちな分析データ。しかし、テキストマイニングを使うことで、冷たく無機質なデータに「人間のぬくもり」を与えることができるのではないだろうか。

　大学業界におけるビッグデータの活用は企業に比べ、まだまだ発展途上だといえる。今後、テキストマイニングや定性調査などを駆使した温かみのある分析が登場してくれることを期待したい。

國學院大學メディア

國學院大學メディア

ARTICLE