厚生労働省の新型コロナウイルス対策をテキストマイニングしてみた【Python】
みなさん、こんばんは藤崎です。
日常を取り戻すつつあるとは、コロナウイルス感染者数も増加傾向にありますし、まだ我慢の日々が続いてますね。。。
国会ではコロナウイルス対策として、どのようなことが議論されているのか気になり、調べてみました。
すると、国会で議論されていることが議事録として、公表されているようでした。
以下は厚生労働省のページになりますが、他省庁も同様に議事録が公表されていると思います。
厚生労働省では、1か月に1回のペースで新型コロナワクチンについて議論されているようです。
参加者には製薬会社の方々もいますね。
議題として、「新型コロナワクチン」はもちろん、「副反応」など我々が気にしていることを取り上げているようです。
議事録を読んで何について議論されているのか確認するのもいいですが
今回は、政府がコロナウイルス対策として何について議論されているのか視覚的に分析してみようと思います。
その手法として、形態要素解析によるテキストマイニングをしようと思います。
vazeriya-fujisaki.hatenablog.com
~~~~~~
【分析データ】
厚生科学審議会 (予防接種・ワクチン分科会 副反応検討部会)
令和4年8月5日 第82回厚生科学審議会予防接種・ワクチン分科会副反応検討部会、令和4年度第8回薬事・食品衛生審議会薬事分科会医薬品等安全対策部会安全対策調査会(合同開催)議事録
【分析手法】
形態要素解析によるテキストマイニング
『品詞』に注目してみます。
【形態要素解析ツール】
~~~~~~
テキストマイニングとは、大量の文章(テキストデータ)から情報を取り出し分析し可視化する手法です。文章を単語や文節に分割し、出現頻度や傾向を分析します。この分析に使われる技術の一つが形態素解析です。形態素解析により、文章を最小単位に区切り、品詞、名詞、動詞などを特定するという事前処理を行うことで単語の出現頻度の計算などが可能になります
引用元:総務省統計局
https://www.stat.go.jp/teacher/dl/pdf/c3learn/materials/third/dai1.pdf
~~~~~~
結果は以下の通りになりました。
※大きく表示されているワードほど会議内に多く使用されていることになります。
分析データ(議事録)をそのままテキストマイニングすると分析に不向きな『品詞』も表示させていますね。
例えば、『資料』『報告』『こと』『ページ』『の』は議事録内で多く使用されています。
ただ、どの会議でも使用されるワードだと思いますので、省いて再度テキストマイニングしてみようと思います。
再度テキストマイニングしたところ、以下の通りになりました。
先ほどと比べて、政府が新型コロナウイルス対策として何について議論されているのか分かりやすくなりました!
『回目』、『接種』、『状況』、『症例』が多いのは、新型コロナワクチンを打った回数に応じてどのような症例が報告されているのか、その後の状況はどうなのかが報告されているのかと考えられます。
~~~~~~
いかがだったでしょうか。
議事録をすべて読まなくても、形態要素解析によるテキストマイニングを実施することで何について議論されているのか視覚的に分かりました。
今回は第82回の議事録をもとにテキストマイニングしてみましたが、別の回と比較するとどうなのかや分析してみてもいいなと思いました。
また、別の省庁では何について議論されているのかテキストマイニングしてみるのもよい気がしますね。