GoogleとUnicode

Googelか らロボットがきたのはよいのだが、どうもUnicodeで記載しているページもShift_JISでエンコードされてしまうようだ。そうするとせっかく書 いたものもGoogleで検索する限りまったくヒットしないということになってしまう。わざわざ公開したのだから、多くの人にみてもらいたいわけで、これ では困ったものである。原因はいくつかありそうなのだが、まず問題になるのは、Google側の問題なのか、こちらの問題なのか、ということである。

GoogleがUnicodeを理解できないということならば、どうしようもないわけで解決のしようがない。日本語文書中でアラビア語や中国語を 使っている部分をアルファベットによる発音表記(もとより不完全な表記とならざるをえないが)に改めたShift_JIS版も作るしかない。

一方、Googleのロボットがmeta情報によるエンコードの指定は理解できないが、httpレスポンスヘッダでのエンコードの指定は理解でき る、ということならばUnicodeで記載したページは、.uhtmlなりの適当な拡張子をつけて、.htaccessに指定して、.uhtmlのファイ ルの場合はhttpレスポンスヘッダを変えてやればよい。しかし面倒くさい。

いまのところ調査はしていないのでなんともいえないが、どうも前者のような気がしている。それにNamazuのことも考えるとUnicodeのものもShift_JIS版を作っておいたほうがよいような気もするわけである。

「GoogleとUnicode」への1件のフィードバック

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください