はっきりと口に出して言わないまでも、内心そう思っていた人も少なからずい たのではないだろうか。 立花隆風に言うとこうである。 「ごく一部のヨーロッパ系言語しか扱えずに、何がWorld-Wideだ。ちゃんちゃらおかしい」
* * *日本人ほど自国の言葉を計算機上で使用することに執着する国民は珍しいのではないだろうか。 コンピュータやネットワーク、そしてそれらに付随するソフトウエアは、もともと英語や西ヨーロッパ圏の言語のみを対象とするものが大部分であった。 日本ではこのようなソフトウエアに対して、それこそ草の根レベルから大メーカーまで、多大な努力を費やしてその日本語化を行なってきた。
ここ最近急激な広がりを見せつつあるWorld-Wide Webに関してもそれは同様である。 現在もWorld-Wide Webの枠組の中でいかにして日本語を取り扱うかという試みがあちこちでなされている。 本稿ではまず最初にWorld-Wide Webに関して簡単に説明した後、その日本語化の現状、そして、国際化の現状と問題点について述べる。
WWWはその後1993年を境に、米国を中心として爆発的な成長を遂げた。 そのひとつのきっかけとなったのが、Mosaicの誕生である。 Mosaicはイリノイ大学内にあるNCSA (National Center for Supercomputing Applications) で開発されたソフトウエアであり、WWWが規定しているプロトコルなどを実現する数多くのクライアントのひとつである。 しかしその完成度や操作性の良さから現在ではWWWの代表的なクライアントとなり、一部ではMosaic = WWWという誤解までされているほどである。
本稿では、以下、WWWを構成する中心的概念であるHTML, HTTP, URLの3つについて簡単に説明する。 WWWに関するより詳しい説明やMosaicを代表とするクライアントの使い方については、[1][2]などの参考文献を参考にして欲しい。
scheme://host.domain[:port]/path[#anchor][?keyword]という形式をしている。 URL中のscheme部では、HTTPを初めとして、Telnet, FTP, Whois, NNTP (NetNews), Gopher, WAISなどの様々なプロトコルを指定することができ、これによりインターネット上の様々なサービスから得られる情報を統一的に取り扱うことが可能になる。 WWWとは単にWWW内に閉じたシステムではなくインターネット上の様々な情報システムを連続した形で内包する概念であるが、この重要な特徴を実現可能にしているのがURLである。
* * *実際にWWWの動作の典型的な例を示すと以下のようになる (図1参照)。 まず最初にクライアントは、URL中に書かれたサーバに対して、URLで指定されたある文書を送り返すよう要求を送る。 サーバはその要求に従い、指定されたHTMLファイルをクライアントに送り返す。 この要求と返送の方法を規定しているのがHTTPである。 そして返送されたHTMLファイルを受け取ったクライアントは、そこに書かれているHTMLの指令に従って文書をフォーマットし、その結果を画面に表示する。 表示された文書の中には更に他のデータを指し示すURLが含まれている場合があり、ユーザがそのデータが欲しいと指令 (例えばMosaicならマウスでクリック) すると、上の動作が再び繰り返される。 このような動作を繰り返すことによって、ユーザはインターネット上のあらゆる情報を渡り歩くことが可能になる。
1993年の8月までは、日本語が表示できるWWWのクライアントは存在せず、我々は海外に置かれている英語などで書かれた文書を眺めているだけであった。 最初のきっかけとなったのはtkWWWというクライアントだった。 tkWWWはTcl/Tkという (プログラム) 言語で書かれたクライアントだが、このTcl/Tk自体がSRAの西中氏、酒匂氏、石曽根氏らにより日本語化されたことにより、tkWWWを用いて日本語を表示することができるようになった。
その後1993年10月にMosaicの初期のバージョン (1.2) が富士通の渡辺洋一氏により日本語化され、それを期に、日本でもいくつかのサーバが立ち上がり始めた。
現時点で日本語が使えるWWWクライアントとしては、
将来的にこれらの文字コードなどはISO-2022-JPに統一されることが望ましいであろう。 しかし実はこの問題は、単に「日本語化」という枠に留まらず、WWWあるいはインターネット上の文書全体の「国際化という枠組の中での日本語の取扱い」として考えられていくべきものであろう。 この国際化とその問題点について、次節以降で説明していく。
それに対して、全世界で共通の、そして勿論、単に自国語と英語の2つの言語だけではなく複数の言語を扱えるようにしようという動きが、「国際化 (internationalization)」と呼ばれるものである。 そこで使用される国際的な文字コード系あるいはエンコーディング体系を制定する動きには、大きく分けて2つの流れがある。 ひとつは全世界の文字を単一の文字コード集合で表現することを目標としたISO 10646であり、もうひとつは、個々の言語を表す複数の文字コード集合とそれらを切り替えるエスケープシーケンスを組み合わせて各国の文字を表現しようとするISO 2022である。
現時点での世界的な趨勢として、ISO 10646を推す声が大きいことは確かである。 しかし一方日本などでは、従来から用いられてきたISO 2022との継続性の問題、あるいは、現在のISO 10646のHan Unification (中国・韓国・日本などで使われている漢字の文字コードの部分的統一化) に対する批判などからISO2022の使用を主張する者も多数おり、その最終的な議論の行方は依然として不明確なままである。
それに対して日本では、WWWの中でいかにして日本語を取り扱うかについて様々な工夫が為されてきた。 それに類した努力は日本においてだけではなく、例えば、ヘブライ語 (ISO 8859-8)、ギリシャ語 (ISO 8859-7)、ロシア語 (KOI-8)、中国語 (GB 2312あるいはBig5)、韓国語 (KSC 5601) などに関する試みも各国で為されている。 しかし今のところ、これらの試みは横のつながりを持たずにばらばらに行なわれているため、WWWそのものの国際化を推し進める動きにつながっていないことが残念である。
このような現状において、ひとつの暫定的な解として存在するのがMosaic-L10Nである。 Mosaic-L10Nは、先に触れたNCSA Mosaic for Xの日本語化版を更に各国語の表示が可能になるよう拡張したものであり、その開発は筆者を中心として世界各国のWWWユーザの協力を得て行なわれている。 Mosaic-L10Nが実現しているのは様々な「各国語化」間の動的な切替えであり、「国際化」ではない。 すなわち、例えば日本語の文書中から中国語の文書へリンクが張られていた場合、日本語から中国語へ、その「各国語化」を自動的に切り替えることによりそれぞれの文書の表示を可能にするものである。 Mosaic-L10Nでは、ひとつの文書中に複数の言語 (例えば日本語と中国語など) を共存させることはできない (図3にMosaic-L10Nを用いて中国語の文書を表示した例を示す)。
現時点でほぼ完全な形で国際化を実現しているWWWのクライアントは、(筆者が知る限りでは) Mule上で動作させたEmacs W3があるだけである。 Emacs W3 (w3-modeとも呼ばれる) はWWWのクライアントとしてEmacs上で動作するプログラムである。 電総研の半田剣一氏らによって開発されているMule (GNU Emacsの多言語拡張版) 上でこのEmacs W3を動かすことにより、単なる「各国語化」ではなく真に「国際化」されたWWWクライアントが誕生する。 図4にその表示の様子を示す (Mule, Emacs W3ともに多少古い版を用いているが容赦されたい)。 ちなみにMuleはその文字コードおよびエンコーディング体系としてISO 2022を採用しているため、ここで表示されているHTML文書もISO 2022に基づいた形式で書かれている。
現在開発が進められているHTML+では、日本におけるISO-2022-JPの使用実績が評価され、CHARSETと呼ばれる新たな属性が導入されている[5]。 しかしこの属性をどのように使用するのか、例えば実際にCHARSET属性として何を与えるのか、といった問題は依然として残されたままである。
またそれ以外にも、ヘブライ語やアラビア語などの右から左に書かれる言語の取扱いや、それらの言語と (英語などの) 左から右に書かれる言語が混在した場合の問題 (bi-directionality) も解決すべき点として残されている。
Accept-Language: Content-Language:というヘッダが使用可能であると規定されている。 前者は文書を要求する際にどのような言語で書かれた文書が欲しいかを指定するために、後者は実際に返送されてきた文書がどのような言語で書かれているかを表すために使用されるものである。 現時点ではこれらのヘッダの値としてISO 639の言語コードおよびISO 3166の国コードを用いることが推奨されている。 しかしここにも問題はあり、例えばその文書が複数の言語を含むものである場合、それをどのように表記すれば良いかなどは未解決のままである。
* * *以上、WWWの国際化における問題点について述べてきたが、ここで敢えて繰り返し言いたいのは、「依然として何も決まっていない」ということである。 しかしそれは、逆の言い方をすれば、「これから決めることができる」ということでもある。 WWWは今までのインターネットにおける様々なシステムと同様、誰かが作るものではなく我々が作って行くものである。 WWWはまさに今、その開発が行なわれている最中であり、誰にでも参加する機会が与えられている。 もし興味があれば、WWWに関するWGやメイリングリスト、あるいは国際会議などの場に積極的に参加すべきではないか。
しかしこのような国際化も時として両刃の剣となることがある。 最近ある人がこんなことを言うのを耳にした。 曰く、「WWWで日本語が使えるようになったことは、結局再び日本の情報鎖国化を促進することになってしまった」と。 確かに日本人にとっては日本語で情報をやりとりしているのが一番心地よいだろう。 しかし、せっかく世界との両方向の窓口が開いているのだから、どんどん外に向かって情報を発信すべきではないだろうか。 日本についてもっと多くのことを知りたいと思って日本語を勉強している人は沢山いる。 しかし現時点ではやはり英語がde fact standardな共通言語となっていることは事実であろう。 ほんのわずかでも良いから、英語でも情報を提供するよう努力すべきではないだろうか。 「日本人だけで遊んでいて、何がWorld-Wideだ。ちゃんちゃらおかしい」と言われないためにも。
Copyright (C) 1994 by Internet Association of Japan
Copyright (C) 1994 by TAKADA Toshihiro
[index]