辞書作ってます。
最近の辞書作成活動
最近、何をしていたかというと、システムを作っていたのです。具体的には辞書なんだけどね。一応、カウンターパートから要請されて作っています。個人的な願望ではありません(笑)。が、画面設計のところで異常に手間取ってしまった。一週間の遅れ。というのも、画面設計してて機能を良くしようと考えていたら開発計画に無い作業をしてしまったから。うっかりjavascriptを使ってしまってます。俗に言う、
火を噴くプロジェクト
ってやつです(笑)。まぁ、影響範囲も少ないしいいんだけどね。どうにか常態に戻りつつあるし(それでも日に12時間くらい働いてる)。
原因は、自分の機能へのこだわりと作業項目漏れ。最近、リッチクライアントが流行ってて(Ajaxもその一つだよね)、最新に対応しユーザビリティ向上と完全なデータ構造に対応するクライアントを作ろうとして、ドツボにはまってます。はい。が、良い勉強になってる。SumibiというWebでできるIMEツールの開発メーリングリストに入って、動作報告なんかもしてます。
おかげで、
言語学者も使えるデータ構造をもった辞書(うそ)
が出来上がりそう(笑)。まぁ、言語学者が使えるというのはうそにしても、かなりの辞書に対する要望機能に対応できてるのではと自負(いや、自画自賛だ)してる。
辞書の機能
対応する機能だけでも以下のようなものだ。まぁ、対ルーマニア人用なので普通の辞書よりも機能は盛りだくさんです。だけど、入力自体はシンプルです(見出し読み方と訳語を最低一つ入れればよい)
機能一覧
- Sumibi(仮名漢字変換-俗に言うIME)を使って、日本語入力が出来ない環境でも辞書を使える*1
- 漢字の画数・部首を検索して日本語を入力できる*2
- 複数形・過去形・その他いろんな変化した語を入力して、元々の基本形の語を検索可能*3
- 読み(ひらがな)に対するローマ字表記を自動で行う
- 1語に対して複数見出し・複数品詞・複数訳語・複数意味を定義可能(1語の捉え方でかなり超考しました)
- 語の正規な表現を付加できる
- 複数品詞等を登録する際に、いちいちサーバーにアクセスする必要なし
- 多言語表示可能。しかもその場で変更も可能。
- 実は国語辞典にもなる
- まだ英語しか考えてないが、多言語間の辞書を扱えるかも(希望だな、これは。一応、そういうふうに設計はされているが、、、言語全体について知らないし、完全じゃない)
- うまくやれば、多段的辞書になりうる(願望)
- 性能はでないが、逆引きも可能
言い忘れ
- インターネットで公開予定なので、多くの人が閲覧可能
- インターネットを通じて辞書を作成できる
- ネットにつながっていなくても、使用できる。データをダウンロードできるようにする。
補足
「正規な表現」とはこんな感じです。実はルーマニア語には"da"という動詞があるんだけど、このとき見出しとしてはdaと入れたいんですね。でも、正規な表現は"a da 〜"。また少し意味が変わるけれど"a se da 〜"とかの表現もある。が、見出しとして"a da"や"a se da"を入れてしまうと一覧すると別のところに表示されたり、システムの性能が出なかったりするんだ。
あ〜あと、ほんとうは漢字→読み(ひらがな)を自動化したかったんだけど、日本語には同じ漢字で2つ以上の読みをするものあるし。一応kakasiやchasen(最近また日の目を浴びつつある?)があってできないことはないんだろうが、辞書のデータの正確性を考慮して採用を取りやめておいたよ。
多言語表示というのは「検索」とかってボタンが「Search」とかになること。まぁ、不要かなとも思うけれど、学習者にはここだけでも勉強になる(笑)。今は、全てサーバーからブラウザへ言語情報を送ってるから、もっと表示言語数が増えたらAjaxにしようかと考え中。まぁ、やらないなこれは。
多段階辞書とは、仮に日本語→英語の辞書と英語→スワヒリ語の辞書があったときに一回で日本語→スワヒリ語を検索できるというもの。前提として、辞書に登録する語が「正しい」ものでないと使えない(笑)。ので、実際にはちょっと無理っぽい。できたとしても精度が心配だね〜。検索量も多そうだしね。性能も心配。「正しい語」については、各言語で辞書を用意しておいて、Ajaxで語の入力途中で正しいものを表記・選択できるようにできればいいのかも。
逆引きとは、日本語に対応する英語を知りたいときに、英語→日本語のデータ使うこと。具体的には、英語→日本語のデータ内で知りたい日本語を含む英語を表示すること。
一応ネット環境でなくても使用可能なように、と考えたりもしてます。基本的にPersonal Dictionary(ソフトの名前ね、PDICとも言う)かなぁ。他の辞書用ソフトでも使えるようにしたいので、データ形式は未定なんだよね。
が、今見てたらインターネット共有もPDICできそうだ。。。が〜ん。まぁ、日本語入力ソフトもついてるし、複数語にも対応してるし、作る意味あるよなぁ(と、自分に言い聞かす)
とまぁ、こんな感じで作っておりますわ。まだ、完成したわけじゃないのであしからず。