GoogleとUnicode

Googelか らロボットがきたのはよいのだが、どうもUnicodeで記載しているページもShift_JISでエンコードされてしまうようだ。そうするとせっかく書 いたものもGoogleで検索する限りまったくヒットしないということになってしまう。わざわざ公開したのだから、多くの人にみてもらいたいわけで、これ では困ったものである。原因はいくつかありそうなのだが、まず問題になるのは、Google側の問題なのか、こちらの問題なのか、ということである。

GoogleがUnicodeを理解できないということならば、どうしようもないわけで解決のしようがない。日本語文書中でアラビア語や中国語を 使っている部分をアルファベットによる発音表記(もとより不完全な表記とならざるをえないが)に改めたShift_JIS版も作るしかない。

一方、Googleのロボットがmeta情報によるエンコードの指定は理解できないが、httpレスポンスヘッダでのエンコードの指定は理解でき る、ということならばUnicodeで記載したページは、.uhtmlなりの適当な拡張子をつけて、.htaccessに指定して、.uhtmlのファイ ルの場合はhttpレスポンスヘッダを変えてやればよい。しかし面倒くさい。

いまのところ調査はしていないのでなんともいえないが、どうも前者のような気がしている。それにNamazuのことも考えるとUnicodeのものもShift_JIS版を作っておいたほうがよいような気もするわけである。


コメント

“GoogleとUnicode” への1件のコメント

  1. […] 【第305回】 GoogleとUnicode(2001年10月14日)で触れたが、Namazuの最大の弱点はunicodeを扱えないことであろう。日本語の形態素要素分析まで行えることがNamazuのウリなわけだから、外国語を完璧 […]

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

This site uses Akismet to reduce spam. Learn how your comment data is processed.