特許を可視化!テキストマイニングWebアプリ「SimPat Tex(無料版)」の利用方法
特許データをテキストマイニングするWebアプリ「SimPat Tex(無料版)」について、利用方法や注意点などを解説します。
テキストマイニングとは、文字のデータ(特許の場合は「発明の名称」や「要約」)を、単語に分割(名詞、動詞、形容詞等)して、有益な情報を抽出することです。
鉱山から貴金属やダイヤモンドを採掘することを「マイニング」(Mining)と言いますが、それにならって、「テキスト」データから有益な情報を「マイニング」するという意味で、「テキストマイニング」と呼びます。
ここでは、単語に分割するだけの行為も含めて「テキストマイニング」と呼びます。
- ※アップデート情報
-
- 2025.6.29 SimPat Tex 無料版をリリースしました。

操作画面および操作手順
SimPat Tex(無料版)の操作画面と操作手順は以下の通りです。
①「特許データを登録」の欄に、特許データのファイルをドロップまたはクリックして登録します。
- 特許検索サイト(J-PlatPat、Google Patents、PATENT SCOPE、The Lensに対応、ただし日本語のみ)からダウンロード(詳細はこちら)したデータに対応しています。
- アップロードできるデータ件数は、1500件が上限です。
- ダウンロードしたデータは、原則、手を加えずにそのまま登録してください。
- もしデータに手を加える場合、保存するファイル形式は、CSVファイル(拡張子.csv、UTF-8形式)またはExcelファイル(拡張子.xlsまたは.xlsx)としてください。
- 例えばJ-PlatPatの場合、「発明の名称」または「要約」は必須です。Google Patentsなども、それぞれに対応するフィールドがあるので、それらは変更しないでください。
②「辞書を登録」の欄に、抽出語、除外語、同義語に関するファイルをドロップまたはクリックして登録します。これらの辞書に関しては後述します。
③「テキストマイニングを開始」ボタンをクリックして、データ解析を開始します。(結果については後述します。)
- 正常に稼働した場合、操作画面の上部に、下図のメッセージが順次表示されます。
- エラーが発生した場合のメッセージについては後述します。
④「サンプルデータを表示」ボタンをクリックすると、テキストマイニング結果のサンプルが表示されます。
辞書について
テキストマイニングの結果については、抽出語、同義語、除外語の各辞書を使って、調整をすることができます。
「抽出語」辞書
テキストマイニングの結果に関わらず、必ず表示したい単語は、テキストファイル(拡張子:txt)に保存して、「抽出語」の欄にアップロードしておけば、強制的に抽出して表示します。
ただし、使用している形態素分析プログラムの都合上、抽出されない場合もあるので、その点はご留意ください。
「除外語」辞書
上記とは逆に、除外したい単語がある場合、テキストファイル(拡張子:txt)に保存して、「除外語」の欄にアップロードしておけば、強制的に除外します。
なお、以下の単語群はデフォルトで除外されます。また、1文字だけの単語も除外されます。
“こと”,”もの”,”よう”,”ため”,”それ”,”これ”,”どこ”,”あれ”,”あと”,”とも”,”うち”,”および”,”お呼び”,”及び”,”ならびに”,”並びに”,”または”,”又は”,”要約”,”課題”,”解決”,”手段”,”解決手段”,”特徴”,”前方”,”後方”,”上下”,”左右”,”前記”,”上記”,”後述”,”上方”,”下方”,”前部”,”後部”,”上部”,”下部”,”作業”,”装置”,”工程”,”行程”,”構成”,”配置”,”部分”,”全体”,”位置”,”制御”,”材料”,”容易”,”従来”,”前側”,”後側”,”側方”,”形成”,”状態”,”状況”,”戴置”,”中央”,”場合”,”選択”,”前後”,”提供”,”本体”,”右”,”左”,”上”,”下”,”間”,”方法”,”製法”,”製造方法”,”生産方法”,”所定”,”*”,”可能”,”可能性”,”図”,”選択図”,”部”,”回”,”側”,”機”,”前”,”後”,”複数”,”主”,”台”
「同義語」辞書
同じような意味の単語は統合することができます。
CSVファイル(拡張子:csv、文字コード:utf-8)またはExcelファイル(拡張子:xls、xlsx)を準備し、下図のように、A列に統合前のワード、B列に統合後のワードを記載して保存して、「同義語」の欄にアップロードしておけば、統合後のワードに置換します。
テキストマイニングの結果について
データ解析が完了すると、操作画面の下に、「ワードクラウド」と「ダウンロード」のタブが表示されます。
「ワードクラウド」について
「ワードクラウド」(Word Cloud)とは、テキストマイニングによって切り出された単語群について、出現頻度が多い単語ほど大きく表示、出現頻度が少ない単語を小さく表示し、適当に配置・配色してビジュアル表示したものです。
本アプリでは、文字データである「発明の名称」および「要約」を対象に、ワードクラウドを生成します。画像を右クリックして、別窓への表示やダウンロードも可能です。
①「発明の名称」のワードクラウド
②「要約」のワードクラウド
「ダウンロード」について
テキストマイニングの結果は、ダウンロードできます。ダウンロードするデータの形式は、以下の2種類です。
①特許データ
「発明の名称」および「要約」から切り出された単語群のリストは、それぞれ「発明の名称ワード」および「要約ワード」というフィールド名で、元の特許データに追記され、CSVファイルとしてダウンロードできます(「特許データをダウンロード」ボタンをクリック)。
②ワードリスト
「発明の名称」および「要約」から切り出された単語群を、出現頻度が多い順にソートして、「発明の名称」「要約」の順に並べたリストを、CSVファイルとしてダウンロードできます(「ワードリストをダウンロード」ボタンをクリック)。
エラー表示について
よく発生するエラーは、「ファイルが無効です。」のエラーです。これは、ファイルを登録してから時間が経過したなどの理由で、システムの内部処理によりファイルが削除されてしまう、などが理由です。この場合、ブラウザの画面をリロードしてやり直してください。
次に発生しやすいのは、軸データ項目の選択ミスや、ファイルのデータサイズが大き過ぎる場合です。
- 「出願人×出願人」など、同じ選択肢の組合せは、今のところ受け付けていません。
- 特許検索サイトによっては、存在しない軸データ項目があり、その場合はエラーとなります。(例えば、Google Patentsでは特許分類がダウンロード不可)
- サーバの負荷に配慮して、データ件数や文字数に上限を設けています。ただし、文字数は今のところ、アラートを出すだけでエラーにはしていません。
その他、ダウンロードしたデータに手を加えた場合、以下のようなエラーが出ます。
- 上述の通り、登録できるファイル形式は限定しています。
- CSVファイルには文字コードに種類があり、UTF-8形式のみ受け付けています。もしエラーが出る場合、メモ帳などで開いてエンコード形式に「UTF-8」を選び、保存し直せば使用可能となります。
- その他、下図に列挙した以外、さまざまなエラーが出る可能性があります。極力、各特許検索サイトからダウンロードしたデータには手を加えないでください。
ご了承いただきたい事項
ご利用にあたっては、以下の点をご了承ください。
- ご利用は無料です。ただし、今後の稼働状況や機能拡張などにより、部分的に有料化させていただく可能性があります。
- 本アプリでは、データ収集や保管を一切しません。データ破損の責任は負いかねますので、元データは必ずお手元に保管ください。
- 本アプリで生成されたマップは、自由にご利用ください。ただし、ご利用に当たっては自己責任でお願い致します。
- バグや不具合が残っている場合があり、ご利用に当たってはご承知おきください。ご報告いただければ、できるだけ早期に対応致します。
- こんなマップが欲しい、この制限は解除して欲しい、などのご要望は、可能な範囲で承ります。ただし、必ずお応えするとの保証は致しかねます。
- 上記のご要望に対応した結果を含めて、本アプリに関する著作権を含む知的財産権は当方に帰属します。(ただし上述の通り、生成されたマップに対する知的財産権は主張しません。)
- 本アプリは、できるだけ永きに渡る運用継続を心掛ける所存ですが、永続的な稼働を保証するものではありません。
できるだけ多くのみなさまに、広くご利用いただければ、と願っております。ご意見やご要望などは、「お問い合わせ」からお寄せください!
Views: 1