Skip to the content.

開発者向けの情報

開発環境

開発環境のセットアップ

1. githubからclone

$ git clone 'https://github.com/megagonlabs/ginza.git'

2. pip install および setup.sh の実行

$ pip install -U -r requirements.txt
$ python setup.py develop

3. GPU用ライブラリのセットアップ (Optional)

CUDA v11.0の場合は次のように指定します。

$ pip install -U spacy[cuda110]

訓練の実行

GiNZAの解析モデル ja_ginza はspaCy標準コマンドを使用して学習を行っています。

$ python -m spacy train ja ja_ginza-4.0.0 corpus/ja_ginza-ud-train.json corpus/ja_ginza-ud-dev.json -b ja_vectors_chive_mc90_35k/ -ovl 0.3 -n 100 -m meta.json.ginza -V 4.0.0

トラブルシューティング

Google Colab 環境ではインストール後にパッケージ情報の再読込が必要な場合があります。詳細はリンクの記事をご確認下さい。

import pkg_resources, imp
imp.reload(pkg_resources)

【GiNZA】GoogleColabで日本語NLPライブラリGiNZAがloadできない

インストール時にCythonに関するエラーが発生した場合は、次のように環境変数CFLAGSを設定してください。

$ CFLAGS='-stdlib=libc++' pip install ginza

ユーザ辞書の使用

GiNZAはTokenizer(形態素解析レイヤ)にSudachiPyを使用しています。 GiNZAでユーザ辞書を使用するにはSudachiPyの辞書設定ファイル sudachi.jsonuserDict フィールドに、 コンパイル済みのユーザ辞書ファイルのパスのリストを指定します。

SudachiPyのユーザ辞書ファイルのコンパイル方法についてはSudachiPyのGitHubリポジトリで公開されているドキュメントを参照してください。
SudachiPy - User defined Dictionary
Sudachi ユーザー辞書作成方法