KyTeaの分野適応を試してみた
うっかり間違えてEUCのMeCabを入れてしまってテンションが下がったのでKyTeaを使うことにしました。
半角スラッシュ
生コーパスが/を含んでいるとエラーになる。全角に置き換えた。
clean
生コーパスを変えてやり直すときに何を削除すればいいかがわからなくて困った。work/*とsave/*を消せばいいようだ。
1分くらい
./makemodel.sh 0.00s user 60.86s system 99% cpu 1:01.09 total
分量はこれくらい
$ wc data/target-train.raw 48320 25084 4336657 data/target-train.raw
例
- |ハ-ッ-カ!ソ-ン|
- 誤植も見つかる: 電 車 の 中 で 泣 い て|し!ま|た っ た た め
- 「名前+さん」なのか、単体で1単語なのか悩むKyTea: |畑!さ-ん|の 3 人
22分くらい
100件のアノテーションをつけるのに22分
\!が残っているのを「まだアノテーション付け終わってない」と怒られる。消した。
空白を消し忘れてDouble Boundaryと怒られる。
エディターで開いて修正していると、修正すべき箇所が画面のどこにあるか目で探すのに時間をとられるので、ちょっとしたJSで編集箇所を中央にして並べてHJKLでアノテーションできるようにしたら楽ちんになりそう。
Badly formatted
行数情報なしで「Badly formatted」と怒られて焦るが、うっかり空行が途中に入っていただけだった
clean
アノテーションを修正してやり直すとき「save/001.wannはもうあるよ!」というエラーが出るが、これは前回失敗時に作られた空っぽのファイルなので勝手に消すようにしたい。
まとめ
KyTeaの反応が面白い