GiNZA logo

GiNZAの公開ページ

NLP2019論文, 論文発表資料

ライセンス

GiNZA NLPライブラリおよびGiNZA日本語Universal Dependenciesモデルは The MIT Licenseのもとで公開されています。 利用にはThe MIT Licenseに合意し、規約を遵守する必要があります。

spaCy

GiNZAはspaCyをNLP Frameworkとして使用しています。

spaCy LICENSE PAGE

SudachiおよびSudachiPy

GiNZAはトークン化(形態素解析)処理にSudachiPyを使用することで、高い解析精度を得ています。

Sudachi LICENSE PAGE, SudachiPy LICENSE PAGE

実行環境

このプロジェクトは Python 3.6以上(および対応するpip)で動作検証を行っています。

(開発環境についての詳細はこちら)

実行環境のセットアップ

1. GiNZA NLPライブラリと日本語Universal Dependenciesモデルのインストール

最新版をインストールするにはコンソールで次のコマンドを実行します。

$ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz"

pipインストールアーカイブをリリースページからダウンロードして、 次のように直接指定することもできます。

$ pip install ginza-2.0.0.tar.gz

2. ginzaコマンドの実行

コンソールで次のコマンドを実行して、日本語の文に続けてEnterを入力すると、conllu形式で解析結果が出力されます。

$ ginza

コーディング例

次のコードは文単位で依存構造解析結果を出力します。

import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('依存構造解析の実験を行っています。')
for sent in doc.sents:
    for token in sent:
        print(token.i, token.orth_, token.lemma_, token.pos_, token.tag_, token.dep_, token.head.i)
    print('EOS')

API

詳細はspaCy API documentsを参照してください。

リリース履歴

version 2.0

ginza-2.0.0 (2019-07-08)

開発環境

開発環境のセットアップ

1. githubからsubmodulesを含めてclone

$ git clone 'https://github.com/megagonlabs/ginza.git'

2. ./setup.sh の実行

通常の開発環境はこちらを実行。

$ python setup.sh develop

訓練の実行

記述予定