Namazuとunicode

【第305回】 GoogleとUnicode(2001年10月14日)で触れたが、Namazuの最大の弱点はunicodeを扱えないことであろう。日本語の形態素要素分析まで行えることがNamazuのウリなわけだから、外国語を完璧に扱える必要はない。中国語を扱ったりする場合は、KakashiやChasenじゃない分かち書きのシステムが必要だろう。しかし単語の区切りでスペースを使用する言語や、日本語は扱えてしかるべきである。特にUnicodeはXMLにおいて標準だし、Microsoft Office文書もXMLを使用する以上、unicode対応は必須だろう。文字としてunicodeを扱えるということと、他言語の検索システムとして利用できるという真のi18nとは別のことである。perlも5.6から、正式にunicodeに対応したことであるし、そろそろ文字レヴェルでは対応して欲しいのである。とっくにこんなことは議論されているとは思うが。

まだペルシア語だけで一ファイル作ったりはしないが、文書の一部でアラビア語やペルシア語を使うことは充分あり得るし、すでにそのようなコンテンツもある。アラビア語やペルシア語の部分はとりあえずおいておいて良いので、日本語の部分だけでも検索できるようにしてほしい(実はサーバのコンテンテトネゴシエーションをつかえば何とかなるのだけれど、なんか無常を感じる)。そうしたらほとんどのコンテンツはUTF-8で作ってしまうつもりである。たとえば「トウショウヘイ」のトウの字はMS-IMEではすぐに出てくるが、Shidt_JisやEUC-JP、ISO-2022-jpでは定義されていないので、現在の掲示板などで使ったりすると不正なのである。しかし掲示板の文字コードまで考えて投稿するような人はいないであろう。そのようなことを考えるとUTF-8で統一してしまいたいのである。Namazuさえ対応してくれれば。……ってもしかしてfilterで可能?

そういえばいつの間にかgoogleもunicodeに対応していたらしくきちんとヒットする。

「Namazuとunicode」への1件のフィードバック

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください