KyTeaの分野適応を試してみた - 西尾泰和のはてなダイアリー

うっかり間違えてEUCのMeCabを入れてしまってテンションが下がったのでKyTeaを使うことにしました。

生コーパスが/を含んでいるとエラーになる。全角に置き換えた。

生コーパスを変えてやり直すときに何を削除すればいいかがわからなくて困った。work/*とsave/*を消せばいいようだ。

./makemodel.sh  0.00s user 60.86s system 99% cpu 1:01.09 total

分量はこれくらい

$ wc data/target-train.raw
  48320   25084 4336657 data/target-train.raw

100件のアノテーションをつけるのに22分

\!が残っているのを「まだアノテーション付け終わってない」と怒られる。消した。

空白を消し忘れてDouble Boundaryと怒られる。

エディターで開いて修正していると、修正すべき箇所が画面のどこにあるか目で探すのに時間をとられるので、ちょっとしたJSで編集箇所を中央にして並べてHJKLでアノテーションできるようにしたら楽ちんになりそう。

行数情報なしで「Badly formatted」と怒られて焦るが、うっかり空行が途中に入っていただけだった

アノテーションを修正してやり直すとき「save/001.wannはもうあるよ！」というエラーが出るが、これは前回失敗時に作られた空っぽのファイルなので勝手に消すようにしたい。

ファンヒーターをファンとヒーターで切るか？インターンをインとターンで切るか？と聞いてきた。面白い。

アノテーションをつけるのに慣れて20分でできた。

KyTeaの反応が面白い