テキストマイニングを簡単に~「AIテキストマイニング」
IPランドスケープで色々な情報解析を行うに当たり、テキストマイニングは欠かせない手段です。
昔は、高いソフトや専用ツールしか無かったのですが、AI(機械学習やディープラーニング)が当たり前になってきたことで、無料で手が出せるようになってきました。
無償ソフトウェアだと、KH Coderなどが有名が、無償で利用できるWebサービスも幾つかあります。
筆者は、ユーザーローカル社の「AIテキストマイニング」というサイトを使うことが多いです。無料とは思えないほど機能が豊富、利用可能な文字数も多く、解析速度も速くて、かなり便利です。
以下では、このユーザーローカルのサイトを例に、テキストマイニングの現状を見てみたいと思います。
テキストの入力画面
ユーザーローカルのインターフェースは簡単で、文章をコピペするだけで、結構な文字数でも一気に解析してくれます。数1000件の特許でも、特に問題はありません。
ワードクラウド
単語が”雲”のように集まって表示されるものです。出現頻度の多いワードを大きく、そうでないものを小さく、似たようなワード同士は近く、という感じで表示されます。
このような機能は、有償の特許検索ツールにも搭載され始めています。ユーザーローカルの場合、品詞で色分けもされます。
ワード出現頻度
出現頻度の多い順に並んだワードのリストで、ユーザーローカルではExcel形式でダウンロードできます。品詞別も表示されます。
共起キーワード
一緒に出現することが多いワード同士が線で結んで表示されます。そのワードの意味合いを判別するのに便利です。
二次元マップ
出現する傾向が似たものが近く配置されます。筆者はあまり使いませんが、特許の塊が幾つあるかなど、判別する場合の傍証にはなるかと思われます。
係り受け解析
そのワードがどんな意味合いで使われているか、係り受けの関係により分かり易くなります。
階層的クラスタリング
出願傾向が似たワードの関係性を樹形図で表示したものです。これも、特許の塊を捉える一助になります。
感情分析
その文章が、喜怒哀楽など、どのような感情を表現しているか判別するという、おもしろい機能です。SNSのメッセージが非難か賞賛かなど、判別するのに使えるかと思われますが、特許分析ではあまり出番は無いかも知れませんね。