Namazuとunicode

【第305回】 GoogleとUnicode(2001年10月14日)で 触れたが、Namazuの最大の弱点はunicodeを扱えないことであろう。日本語の形態素要素分析まで行えることがNamazuのウリなわけだから、 外国語を完璧に扱える必要はない。中国語を扱ったりする場合は、KakashiやChasenじゃない分かち書きのシステムが必要だろう。しかし単語の区 切りでスペースを使用する言語や、日本語は扱えてしかるべきである。特にUnicodeはXMLにおいて標準だし、Microsoft Office文書もXMLを使用する以上、unicode対応は必須だろう。文字としてunicodeを扱えるということと、他言語の検索システムとして 利用できるという真のi18nとは別のことである。perlも5.6から、正式にunicodeに対応したことであるし、そろそろ文字レヴェルでは対応して欲しいのである。とっくにこんなことは議論されているとは思うが。

まだペルシア語だけで一ファイル作ったりはしないが、文書の一部でアラビア語やペルシア語を使うことは充分あり得るし、すでにそのようなコンテンツ もある。アラビア語やペルシア語の部分はとりあえずおいておいて良いので、日本語の部分だけでも検索できるようにしてほしい(実はサーバのコンテンテトネ ゴシエーションをつかえば何とかなるのだけれど、なんか無常を感じる)。そうしたらほとんどのコンテンツはUTF-8で作ってしまうつもりである。たとえ ば「トウショウヘイ」のトウの字はMS-IMEではすぐに出てくるが、Shidt_JisやEUC-JP、ISO-2022-jpでは定義されていないの で、現在の掲示板などで使ったりすると不正なのである。しかし掲示板の文字コードまで考えて投稿するような人はいないであろう。そのようなことを考えると UTF-8で統一してしまいたいのである。Namazuさえ対応してくれれば。……ってもしかしてfilterで可能?

そういえばいつの間にかgoogleもunicodeに対応していたらしくきちんとヒットする。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*