無料で特許のテキストマイニング!「Pat Text Mining」の利用方法

特許の文章から単語を切り出すテキストマイニングのウェブサービス「Pat Text Mining」を試験運用していましたが、一部制限していた機能を開放して、本格運用に移行しました。

そこで改めて、利用方法や注意点などを解説しますので、ご参照いただければ幸いです。
サンプルデータについて
まず、どのような結果が得られるかを知りたい方は、「サンプルデータを表示」ボタンをクリックしてご覧ください。
初期画面について
初期画面は下図の通りです。
必須の操作は以下の2つのみです。
- CSVファイルの登録(「ファイルを選択」ボタンでファイルを選択)
- アップロード(「テキストマイニングを開始」ボタンをクリック)
その他のフィールドやボタンなどの操作は任意です。後方でご説明します。
特許データの準備
アップロードするCSVファイルは、J-PlatPatからダウンロードされるデータ書式に限定しています。(ダウンロードの方法についてはこちらを参照)
また、「発明の名称」または「要約」、いずれかのフィールドは必須です。フィールド名称も変更しないでください。
操作の手順
ファイルが準備できたら、いちばん上の「ファイルを選択」ボタンをクリックして特許データのファイルを登録し、「テキストマイニングを開始」ボタンをクリックします。
上部に「データ処理中…」のメッセージが表示され、データ処理を待ちます。
少し待つと、「テキストマイニングが完了しました!」のメッセージが表示され、下部に結果が表示されます。
下方にスクロールすると、テキストマイニングの結果(大きく分けて3種類)が表示されています。以下、それぞれについて説明します。
生成されるテキストマイニングの結果
CSVファイル(テキストマイニング結果を追記)
ひとつめは、テキストマイニングの結果が追記されたCSVファイルです。
アップロードしたCSVファイルの右端に列が追加され、発明の名称または要約から切り出された複数の単語がコンマ区切りで列挙されています。
「データをダウンロード」ボタンをクリックすると、CSVファイルをダウンロードできます。
出現ワードリスト(ランキング形式)
ふたつめは、切り出された単語について、出現する頻度が多い順にソートして表示したCSVファイルです。
発明の名称と要約、それぞれ毎に列挙されています。(発明の名称の単語が列挙された後、要約の単語が列挙されます。)
「出現ワードリストをダウンロード」ボタンをクリックすると、CSVファイルをダウンロードできます。
ワードクラウド
みっつめは、切り出された単語について、出現頻度が多い単語ほど大きく表示して配置した上、その周辺に出現頻度が少ない単語を小さく表示して配置してビジュアル表示したもの、いわゆる「ワードクラウド」です。
右クリックすれば、別のタブやページで表示したり、ダウンロードして保存(PNG形式)が可能です。
オプション機能について
テキストマイニングの結果については、以下のオプション機能を使って、調整をすることができます。
抽出したい単語がある場合
抽出しておきたい単語は、テキストファイル(拡張子.txt)に保存して、「抽出語辞書(.txt)を選択」からアップロードしておけば、抽出してくれます。
ただし、使用している形態素分析プログラムの都合上、必ず抽出されるとは限らないので、その辺はご留意ください。
同じ意味の単語を統合したい場合
同じような意味の単語は統合することができます。
下図のように、CSVファイル(拡張子.csv、UFT-8形式)のA列に元のワード、B列に置き換え後のワードを記載して保存し、「同義語辞書(.csv)を選択」からアップロードしておけば、置き換え後のワードに統合してくれます。
ただし、これも使用しているプログラムの都合上、統合されな場合もあるのでご留意ください。
除外したい単語がある場合
除外したい単語がある場合、テキストファイル(拡張子.txt)に保存して、「除外語辞書(.txt)を選択」からアップロードしておけば、抽出せずに除外してくれます。
なお、以下の単語群や、1文字だけの単語は、基本的にはデフォルトで除外されるため、ご注意ください。
“こと”,”もの”,”よう”,”ため”,”それ”,”これ”,”どこ”,”あれ”,”あと”,”とも”,”うち”,”および”,”お呼び”,”及び”,”ならびに”,”並びに”,”または”,”又は”,”要約”,”課題”,”解決”,”手段”,”解決手段”,”特徴”,”前方”,”後方”,”上下”,”左右”,”前記”,”上記”,”後述”,”上方”,”下方”,”前部”,”後部”,”上部”,”下部”,”作業”,”装置”,”工程”,”行程”,”構成”,”配置”,”部分”,”全体”,”位置”,”制御”,”材料”,”容易”,”従来”,”前側”,”後側”,”側方”,”形成”,”状態”,”状況”,”戴置”,”中央”,”場合”,”選択”,”前後”,”提供”,”本体”,”右”,”左”,”上”,”下”,”間”,”方法”,”製法”,”製造方法”,”生産方法”,”所定”,”*”,”可能”,”可能性”,”図”,”選択図”,”部”,”回”,”側”,”機”,”前”,”後”,”複数”,”主”,”台”
エラー表示について
データ書式やファイル形式が誤っていると、下図のようなエラーが表示されます。ファイルはCSV形式に限定しています。また、同じCSV形式にも幾つかあり、ここではUTF-8形式に限定しています。UTF-8か否かは、CSVを保存する際に選択できるので、ご注意ください。
また、データ量が多過ぎる場合、下図のような注意メッセージが表示されます。現時点ではメッセージだけで、テキストマイニングは正常に終了するようにしていますが、システムの能力が高くないため、できるだけデータ量を抑制するよう、ご協力いただければ幸いです。
ご了承いただきたい事項
ご利用にあたっては、以下の点をご了承ください。
- ご利用は基本的に無料です。ただし、今後の稼働状況や機能拡張などにより、部分的に有料化させていただく可能性があります。
- 当システムでは、データ収集や保管を一切しません。データ破損の責任は負いかねますので、元データは必ずお手元に保管ください。
- 当システムで生成されたデータは自由にご利用ください。ただし、ご利用の結果については自己責任でお願い致します。
- こんなテキストマイニングを出力したい、などのご要望は承ります。ただし、必ずお応えするとの保証は致しかねます。
- 上記のご要望に対応した結果を含めて、当システムに関する著作権を含む知的財産権は当方に帰属します。(ただし上述の通り、生成されたデータに対する知的財産権は主張しません。)
- 当システムは、永続的な稼働を保証するものではありません。ただし、できる限り長期間に渡る運用継続を心掛ける所存です。
- 上述した種々の制限は、稼働状況や機能拡張などに伴って、可能な範囲で徐々に解除していく予定です。
以上、いろいろ制限はありつつも、当サイトの主宰者が健在(?)でいる間は、可能な限りの対応をして行くつもりです(基本的にはワンオペなので、その辺はご了解いただければ幸いです)。
できるだけ多くのみなさまに、広くご利用いただければ、と願っております。ご意見やご要望などは、「お問い合わせ」からお寄せください!