Namazuとunicode

2002年3月4日

—

【第305回】 GoogleとUnicode(2001年10月14日)で触れたが、Namazuの最大の弱点はunicodeを扱えないことであろう。日本語の形態素要素分析まで行えることがNamazuのウリなわけだから、外国語を完璧に扱える必要はない。中国語を扱ったりする場合は、KakashiやChasenじゃない分かち書きのシステムが必要だろう。しかし単語の区切りでスペースを使用する言語や、日本語は扱えてしかるべきである。特にUnicodeはXMLにおいて標準だし、Microsoft Office文書もXMLを使用する以上、unicode対応は必須だろう。文字としてunicodeを扱えるということと、他言語の検索システムとして利用できるという真のi18nとは別のことである。perlも5.6から、正式にunicodeに対応したことであるし、そろそろ文字レヴェルでは対応して欲しいのである。とっくにこんなことは議論されているとは思うが。

まだペルシア語だけで一ファイル作ったりはしないが、文書の一部でアラビア語やペルシア語を使うことは充分あり得るし、すでにそのようなコンテンツもある。アラビア語やペルシア語の部分はとりあえずおいておいて良いので、日本語の部分だけでも検索できるようにしてほしい（実はサーバのコンテンテトネゴシエーションをつかえば何とかなるのだけれど、なんか無常を感じる）。そうしたらほとんどのコンテンツはUTF-8で作ってしまうつもりである。たとえば「トウショウヘイ」のトウの字はMS-IMEではすぐに出てくるが、Shidt_JisやEUC-JP、ISO-2022-jpでは定義されていないので、現在の掲示板などで使ったりすると不正なのである。しかし掲示板の文字コードまで考えて投稿するような人はいないであろう。そのようなことを考えるとUTF-8で統一してしまいたいのである。Namazuさえ対応してくれれば。……ってもしかしてfilterで可能？

そういえばいつの間にかgoogleもunicodeに対応していたらしくきちんとヒットする。

“Namazuとunicode” への1件のコメント

namazuまわり – Eskandar d’Esfahan

2022年5月5日

[…] さて、その付随物といってはなんですが。以前に日記でnamazuとUnicodeについて言及しました。とっととUnicodeに対応しろ、というやつです。しかし、そもそも解析の際、namazuはnkfを通じて […]

コメントを残す

This site uses Akismet to reduce spam. Learn how your comment data is processed.