KyTeaの分野適応を試してみた

うっかり間違えてEUCMeCabを入れてしまってテンションが下がったのでKyTeaを使うことにしました。

KyTeaを使った単語分割分野適応

半角スラッシュ

コーパスが/を含んでいるとエラーになる。全角に置き換えた。

clean

コーパスを変えてやり直すときに何を削除すればいいかがわからなくて困った。work/*とsave/*を消せばいいようだ。

1分くらい

./makemodel.sh  0.00s user 60.86s system 99% cpu 1:01.09 total


分量はこれくらい

$ wc data/target-train.raw
  48320   25084 4336657 data/target-train.raw

  • |ハ-ッ-カ!ソ-ン|
  • 誤植も見つかる: 電 車 の 中 で 泣 い て|し!ま|た っ た た め
  • 「名前+さん」なのか、単体で1単語なのか悩むKyTea: |畑!さ-ん|の 3 人

22分くらい

100件のアノテーションをつけるのに22分

\!が残っているのを「まだアノテーション付け終わってない」と怒られる。消した。

空白を消し忘れてDouble Boundaryと怒られる。

エディターで開いて修正していると、修正すべき箇所が画面のどこにあるか目で探すのに時間をとられるので、ちょっとしたJSで編集箇所を中央にして並べてHJKLでアノテーションできるようにしたら楽ちんになりそう。

Badly formatted

行数情報なしで「Badly formatted」と怒られて焦るが、うっかり空行が途中に入っていただけだった

clean

アノテーションを修正してやり直すとき「save/001.wannはもうあるよ!」というエラーが出るが、これは前回失敗時に作られた空っぽのファイルなので勝手に消すようにしたい。

2回目の学習:やっぱり1分くらい

ファンヒーターをファンとヒーターで切るか?インターンをインとターンで切るか?と聞いてきた。面白い。

アノテーションをつけるのに慣れて20分でできた。

まとめ

KyTeaの反応が面白い