無料の特許テキストマイニングシステム「Pat Text Mining」の試験運用を開始しました!

ウェブ上で特許データをテキストマイニングする特許テキストマイニングシステム「Pat Text Mining」について、試験運用(無料)を開始しました。
J-PlatPatで検索してダウンロードした特許データのCSVファイルを、ブラウザからアップロードすれば、テキストマイニングの結果が自動的に生成、ブラウザに表示されます。テキストマイニングする対象は「発明の名称」および「要約」です。
以下、システムの使い方などを説明します。
操作画面について
初期画面は下図の通りです。(試行版のため、随時変わるので、ご承知おきください。)
「対象となるデータ(.csv)を選択」から、J-PlatPatで検索してダウンロードした特許データのCSVファイル(UTF-8形式)を、「ファイルを選択」をクリックして選択して、「テキストマイニングを開始」をクリックすれば、テキストマイニングが始まります。
なお、テキストマイニングは自動的に行われるので、結果が気に入らない場合もあるかと思います。その場合、以下のような手段で修正が可能です。
- 「抽出語辞書(.txt)を選択」:切り出したい単語があれば、テキストファイル(拡張子.txt)に保存してアップロードしてください。複数の単語は改行して並べてください。
- 「除外語辞書(.txt)を選択」:切り出したくない単語があれば(たとえば「材料」「装置」「目的」「選択」など、あまり意味のない単語など)、テキストファイル(拡張子.txt)に保存してアップロードしてください。複数の単語は改行して並べてください。
- 「同義語辞書(.csv)を選択」:同じような意味の単語を統一したい場合は、下図のように左列に同じような意味の単語、右列に統一した後の単語を記載したCSVファイル(UTF-8形式)に保存してアップロードしてください。

結果(その1)CSVファイル
テキストマイニングの結果は、操作画面の下に3種類、表示されます。
ひとつめは、アップロードしたCSVファイルに、テキストマイニングした結果を追記したCSVファイルです。「データをダウンロード」をクリックすれば、ダウンロードされます。

テキストマイニングされた結果は、CSVファイルの右端に「発明の名称ワード」および「要約ワード」という新たな列が設けられ、切り出された単語がコンマ区切りで列挙されます。
結果(その2)出現ワードリスト
ふたつめは、テキストマイニングに切り出されたワードを、出現回数の多い順に並べた出現ワードリスト(CSVファイル)です。「出現ワードリストをダウンロード」をクリックすれば、ダウンロードされます。

ワードリストは、下図のように、発明の名称・要約の順に並んでいます。
結果(その3)ワードクラウド
3つめは、テキストマイニングで切り出されたワードを、出現頻度の多さに従ってビジュアルに配置された「ワードクラウド」です。
「発明の名称」と「要約」のそれぞれにひとつずつ作成されます。右クリックして別ウィンドウで表示したり、画像として保存も可能です。
ご注意いただきたいこと
なお、ご利用にあたっては、以下に留意いただきつつ、あくまで自己責任でお願い致します。
- 試験運用中は、思わぬエラーが出ることがありますので、ご承知おきください。
- ご利用は無料です。ただし、今後の機能拡張や稼働状況などにより、部分的に有料化していく予定です。
- アップロードできるファイル形式は、J-PlatPatでダウンロードされるCSV形式(UTF-8)に限定しています。
- サーバへの負荷を考慮して、アップロードできるデータ件数は300件以内、文字数は60,000文字以内に、それぞれ制限しています。
- 以上の制限は、機能拡張に伴って、徐々に解除していく予定です。
まだまだベータ版(完成手前で不具合を徐々に解消している段階)ですが、ご興味あるみなさま、いちど触ってみて、ご意見・ご感想などいただければ幸いです。
なお、ワンオペで開発しているので、ご希望をいただいてもタイムリーに応えられないかも知れませんが、温かく見守っていただければ😁
すでに試験運用を開始している特許マップ生成システム「Pat Map Generator」と共に、ご活用ください!
