この文書は「日本インターネット協会ニュース (IAJ News)」 Vol.1 No.2, July 1994 に掲載された原稿に加筆・修正を加えたものです。 本文書をWWW上で公開することを快諾して下さった日本インターネット協会の御理解と御協力に感謝致します。

World-Wide Webの日本語化・国際化の現状

高田敏弘
日本電信電話株式会社 NTT基礎研究所

目次


はっきりと口に出して言わないまでも、内心そう思っていた人も少なからずい たのではないだろうか。 立花隆風に言うとこうである。 「ごく一部のヨーロッパ系言語しか扱えずに、何がWorld-Wideだ。ちゃんちゃらおかしい」

        * * *
日本人ほど自国の言葉を計算機上で使用することに執着する国民は珍しいのではないだろうか。 コンピュータやネットワーク、そしてそれらに付随するソフトウエアは、もともと英語や西ヨーロッパ圏の言語のみを対象とするものが大部分であった。 日本ではこのようなソフトウエアに対して、それこそ草の根レベルから大メーカーまで、多大な努力を費やしてその日本語化を行なってきた。

ここ最近急激な広がりを見せつつあるWorld-Wide Webに関してもそれは同様である。 現在もWorld-Wide Webの枠組の中でいかにして日本語を取り扱うかという試みがあちこちでなされている。 本稿ではまず最初にWorld-Wide Webに関して簡単に説明した後、その日本語化の現状、そして、国際化の現状と問題点について述べる。

World-Wide Webとは

World-Wide Web (通常"WWW"あるいは"the Web"などと略される。 本稿では以降WWWと呼ぶ) は、1989年にCERN (European Laboratory for Particle Physics, Geneva, Switzerland) のTim Berners-Lee氏らによって提案された広域情報システムである。 彼らが目指したものは、 というシステムの実現であった。

WWWはその後1993年を境に、米国を中心として爆発的な成長を遂げた。 そのひとつのきっかけとなったのが、Mosaicの誕生である。 Mosaicはイリノイ大学内にあるNCSA (National Center for Supercomputing Applications) で開発されたソフトウエアであり、WWWが規定しているプロトコルなどを実現する数多くのクライアントのひとつである。 しかしその完成度や操作性の良さから現在ではWWWの代表的なクライアントとなり、一部ではMosaic = WWWという誤解までされているほどである。

本稿では、以下、WWWを構成する中心的概念であるHTML, HTTP, URLの3つについて簡単に説明する。 WWWに関するより詳しい説明やMosaicを代表とするクライアントの使い方については、[1][2]などの参考文献を参考にして欲しい。

1. HTML

WWWはインターネット上の様々な資源を結び付ける手段としてハイパーテキストを用いている。 このハイパーテキストを記述するための言語がHTML (HyperText Markup Language) であり、他の資源へのリンク情報と文書のフォーマットを表現する機能を持つ。 HTMLはSGML (Standard Generalized MarkupLanguage) を基本とした言語であり、SGMLとHTMLを表すDTD (Document TypeDefinition) によって定義される。 また現在はHTMLの機能を更に強化したHTML+の開発が進められている。

2. HTTP

HTTP (HyperText Transfer Protocol) はWWWのクライアントがサーバと通信する際に主に用いられるプロトコルであり、TCP/IP上で実現されている。 HTMLで書かれたハイパーテキストは、主としてこのHTTPプロトコルに従ってやりとりされる。

3. URL

WWWをの構成する要素の中で最も重要な概念がURL (Universal Resource Locator) である。 URLはインターネット上の資源に対する統一的な名前付けの手法であり、その一般的な構文は、
scheme://host.domain[:port]/path[#anchor][?keyword]
という形式をしている。 URL中のscheme部では、HTTPを初めとして、Telnet, FTP, Whois, NNTP (NetNews), Gopher, WAISなどの様々なプロトコルを指定することができ、これによりインターネット上の様々なサービスから得られる情報を統一的に取り扱うことが可能になる。 WWWとは単にWWW内に閉じたシステムではなくインターネット上の様々な情報システムを連続した形で内包する概念であるが、この重要な特徴を実現可能にしているのがURLである。

        * * *
実際にWWWの動作の典型的な例を示すと以下のようになる (図1参照)。 まず最初にクライアントは、URL中に書かれたサーバに対して、URLで指定されたある文書を送り返すよう要求を送る。 サーバはその要求に従い、指定されたHTMLファイルをクライアントに送り返す。 この要求と返送の方法を規定しているのがHTTPである。 そして返送されたHTMLファイルを受け取ったクライアントは、そこに書かれているHTMLの指令に従って文書をフォーマットし、その結果を画面に表示する。 表示された文書の中には更に他のデータを指し示すURLが含まれている場合があり、ユーザがそのデータが欲しいと指令 (例えばMosaicならマウスでクリック) すると、上の動作が再び繰り返される。 このような動作を繰り返すことによって、ユーザはインターネット上のあらゆる情報を渡り歩くことが可能になる。

WWWの日本語化の現状

日本においてWWWは、米国に遅れること1年、今年の春頃から急激な立ち上がりを示した。 当初日本ではそれ程WWWが普及しなかった理由として、ひとつには日本におけるインターネットの普及率 (インターネットに接続されている計算機の割合は、米国に較べて半分以下と言われている) の問題もあるであろうが、それ以上に大きかったのが日本語の問題であった。

1993年の8月までは、日本語が表示できるWWWのクライアントは存在せず、我々は海外に置かれている英語などで書かれた文書を眺めているだけであった。 最初のきっかけとなったのはtkWWWというクライアントだった。 tkWWWはTcl/Tkという (プログラム) 言語で書かれたクライアントだが、このTcl/Tk自体がSRAの西中氏、酒匂氏、石曽根氏らにより日本語化されたことにより、tkWWWを用いて日本語を表示することができるようになった。

その後1993年10月にMosaicの初期のバージョン (1.2) が富士通の渡辺洋一氏により日本語化され、それを期に、日本でもいくつかのサーバが立ち上がり始めた。

現時点で日本語が使えるWWWクライアントとしては、

などが存在する (これらに関するより詳しい情報は本誌別稿を参照して欲しい)。 ここではその一例として、Mosaic for X 2.4の各国語化版であるMosaic-L10N (後述) による日本語の表示例を図2に示す。

WWWの日本語化の問題点

WWWに限らず日本語化でまず問題となるのが、文字コードとそのエンコーディングの問題である。 WWWにおいても従来から電子メールやNetNewsで用いられてきたISO-2022-JP[3]という形式が主として使用されている。 しかしEUCやShift-JISで書かれた日本語文書しか表示できないクライアントの存在もあり、依然としてEUCやShift-JISコードも一部で使用されている。

将来的にこれらの文字コードなどはISO-2022-JPに統一されることが望ましいであろう。 しかし実はこの問題は、単に「日本語化」という枠に留まらず、WWWあるいはインターネット上の文書全体の「国際化という枠組の中での日本語の取扱い」として考えられていくべきものであろう。 この国際化とその問題点について、次節以降で説明していく。

インターネットにおける国際化の動き

WWWの国際化について述べる前に、まずインターネット全体における国際化について簡単に説明したい。 現時点のインターネットでは、依然として自国語を使いたいと思う人々が各自バラバラのやり方でそれぞれの文字を表現しているのが実情である。 また通常これらは、英語とそれ以外の言語 (例えば日本語) の2つのみが扱えれば良いという方法であり、一般的にこのようなやり方を「各国語化 (localization)」と呼んでいる。

それに対して、全世界で共通の、そして勿論、単に自国語と英語の2つの言語だけではなく複数の言語を扱えるようにしようという動きが、「国際化 (internationalization)」と呼ばれるものである。 そこで使用される国際的な文字コード系あるいはエンコーディング体系を制定する動きには、大きく分けて2つの流れがある。 ひとつは全世界の文字を単一の文字コード集合で表現することを目標としたISO 10646であり、もうひとつは、個々の言語を表す複数の文字コード集合とそれらを切り替えるエスケープシーケンスを組み合わせて各国の文字を表現しようとするISO 2022である。

現時点での世界的な趨勢として、ISO 10646を推す声が大きいことは確かである。 しかし一方日本などでは、従来から用いられてきたISO 2022との継続性の問題、あるいは、現在のISO 10646のHan Unification (中国・韓国・日本などで使われている漢字の文字コードの部分的統一化) に対する批判などからISO2022の使用を主張する者も多数おり、その最終的な議論の行方は依然として不明確なままである。

WWWの国際化の現状

そもそもWWWは、その出生の地がヨーロッパにおける物理学研究のセンターであるCERNということもあり、当初から使用する文字コードはASCIIではなくISO 8859-1 (Latin-1とも呼ばれる) と定められていた。 ISO 8859-1の採用によって英語だけではなくいくつかの西ヨーロッパ圏の言語も使用可能になったのだが、勿論それだけでは不十分なのは言うまでもない。 WWW関連で正式に定められているプロトコルの多くはISO 8859-1の使用が前提とされており、日本語を含めたその他の言語をどのように取り扱うかについては何も決まっていないのが現状である。

それに対して日本では、WWWの中でいかにして日本語を取り扱うかについて様々な工夫が為されてきた。 それに類した努力は日本においてだけではなく、例えば、ヘブライ語 (ISO 8859-8)、ギリシャ語 (ISO 8859-7)、ロシア語 (KOI-8)、中国語 (GB 2312あるいはBig5)、韓国語 (KSC 5601) などに関する試みも各国で為されている。 しかし今のところ、これらの試みは横のつながりを持たずにばらばらに行なわれているため、WWWそのものの国際化を推し進める動きにつながっていないことが残念である。

このような現状において、ひとつの暫定的な解として存在するのがMosaic-L10Nである。 Mosaic-L10Nは、先に触れたNCSA Mosaic for Xの日本語化版を更に各国語の表示が可能になるよう拡張したものであり、その開発は筆者を中心として世界各国のWWWユーザの協力を得て行なわれている。 Mosaic-L10Nが実現しているのは様々な「各国語化」間の動的な切替えであり、「国際化」ではない。 すなわち、例えば日本語の文書中から中国語の文書へリンクが張られていた場合、日本語から中国語へ、その「各国語化」を自動的に切り替えることによりそれぞれの文書の表示を可能にするものである。 Mosaic-L10Nでは、ひとつの文書中に複数の言語 (例えば日本語と中国語など) を共存させることはできない (図3にMosaic-L10Nを用いて中国語の文書を表示した例を示す)。

現時点でほぼ完全な形で国際化を実現しているWWWのクライアントは、(筆者が知る限りでは) Mule上で動作させたEmacs W3があるだけである。 Emacs W3 (w3-modeとも呼ばれる) はWWWのクライアントとしてEmacs上で動作するプログラムである。 電総研の半田剣一氏らによって開発されているMule (GNU Emacsの多言語拡張版) 上でこのEmacs W3を動かすことにより、単なる「各国語化」ではなく真に「国際化」されたWWWクライアントが誕生する。 図4にその表示の様子を示す (Mule, Emacs W3ともに多少古い版を用いているが容赦されたい)。 ちなみにMuleはその文字コードおよびエンコーディング体系としてISO 2022を採用しているため、ここで表示されているHTML文書もISO 2022に基づいた形式で書かれている。

WWWの国際化における課題

前節でも触れたように、現時点ではWWWの国際化に関しては何も決められていない。 WWWの国際化に関して解決すべき問題、あるいは、正式に定めなければならない項目は数多く存在する[4]。 以下ではそれらの点について、HTML, HTTP, URLの3つの観点から説明する。

1. HTML

現在広く使用されているHTMLについては、その使用文字コードはISO 8859-1のみと規格で定められている。 まずこの点を改めると同時に、実際にどのような文字コードやエンコーディング体系を用いるかを議論しなければならない。 これについては単にISO 2022かISO 10646かという問題だけではなく、どちら (あるいは両方) を採用するにせよ、更にそのエンコーディングや転送形式 (UTF) を定める必要がある。

現在開発が進められているHTML+では、日本におけるISO-2022-JPの使用実績が評価され、CHARSETと呼ばれる新たな属性が導入されている[5]。 しかしこの属性をどのように使用するのか、例えば実際にCHARSET属性として何を与えるのか、といった問題は依然として残されたままである。

またそれ以外にも、ヘブライ語やアラビア語などの右から左に書かれる言語の取扱いや、それらの言語と (英語などの) 左から右に書かれる言語が混在した場合の問題 (bi-directionality) も解決すべき点として残されている。

2. HTTP

HTTPプロトコルでは、その要求時と返答時にそれぞれ、
Accept-Language: Content-Language:
というヘッダが使用可能であると規定されている。 前者は文書を要求する際にどのような言語で書かれた文書が欲しいかを指定するために、後者は実際に返送されてきた文書がどのような言語で書かれているかを表すために使用されるものである。 現時点ではこれらのヘッダの値としてISO 639の言語コードおよびISO 3166の国コードを用いることが推奨されている。 しかしここにも問題はあり、例えばその文書が複数の言語を含むものである場合、それをどのように表記すれば良いかなどは未解決のままである。

3. URL

URLの国際化においても最も問題となるのが、URLに含まれるキーワードの部分である。 このキーワードはサーバに対して検索を行なう際に使われるものであり、ここでもHTML中と同様に各国語文字が使用できるようにする必要がある。 基本的にURL内ではASCII (といくつかの例外) 文字以外はエスケープ記号 (%) を用いて16進数で表現することになっている。 しかしこの場合も、どのような文字コードやエンコーディング体系を用いて検索すべき文字を表現するかを規定しなければならない。

* * *
以上、WWWの国際化における問題点について述べてきたが、ここで敢えて繰り返し言いたいのは、「依然として何も決まっていない」ということである。 しかしそれは、逆の言い方をすれば、「これから決めることができる」ということでもある。 WWWは今までのインターネットにおける様々なシステムと同様、誰かが作るものではなく我々が作って行くものである。 WWWはまさに今、その開発が行なわれている最中であり、誰にでも参加する機会が与えられている。 もし興味があれば、WWWに関するWGやメイリングリスト、あるいは国際会議などの場に積極的に参加すべきではないか。

おわりに

冒頭でも述べたように、インターネットの国際的な広まりとともに、WWWも急速に発展している。 現在では40以上の国で数千のサーバが立ち上がり、その中には例えば、小学生が (大学研究機関や教師のサポートを得て) 作ったサーバも存在する。 例えばこのような子供達がWWWを介して何か言おうとしたとき、彼らの母国語が使えるような環境は必要不可欠となるだろう。 またインターネットに接続された様々な国々が、世界に向けてその文化・風習や言語を紹介しようとしたとき、もしそれぞれの国の言葉が自由に使えるならば、それはより豊かで楽しいものとなるであろう。

しかしこのような国際化も時として両刃の剣となることがある。 最近ある人がこんなことを言うのを耳にした。 曰く、「WWWで日本語が使えるようになったことは、結局再び日本の情報鎖国化を促進することになってしまった」と。 確かに日本人にとっては日本語で情報をやりとりしているのが一番心地よいだろう。 しかし、せっかく世界との両方向の窓口が開いているのだから、どんどん外に向かって情報を発信すべきではないだろうか。 日本についてもっと多くのことを知りたいと思って日本語を勉強している人は沢山いる。 しかし現時点ではやはり英語がde fact standardな共通言語となっていることは事実であろう。 ほんのわずかでも良いから、英語でも情報を提供するよう努力すべきではないだろうか。 「日本人だけで遊んでいて、何がWorld-Wideだ。ちゃんちゃらおかしい」と言われないためにも。

参考文献

[1] Tim Berners-Lee, et. al.:
The World Wide Web Initiative, In proceedings of INET '93, Internet Society, 1993. Also available at <http://info.cern.ch/pub/www/doc/INET93.ps.Z>.
[2] 吉村伸:
インターネットの利用と仕組み, UNIX MAGAZINE, 1993.12/1994.2/1994.3, アスキー.
[3] Jun Murai, Mark Crispin and Erik M. van der Poel:
Japanese Character Encoding for Internet Messages, RFC-1468, 1993. Also available at <ftp://ds.internic.net/rfc/rfc1468.txt>.
[4] Toshihiro Takada:
Multilingual Information Exchange through the World-Wide Web, In proceedings of WWW '94, 1994. Also available at <http://www.ntt.jp/people/takada/www94/>.
[5] David Raggett:
A Review of the HTML+ Document Format, In proceedings of WWW '94, 1994. Also available at <http://www.cern.ch/PapersWWW94/dsr.ps>.


第1版: 1994年7月25日, IAJ News, Vol.1 No.2 掲載版
第2版: 1994年7月31日, World-Wide Web 公開版.

Copyright (C) 1994 by Internet Association of Japan
Copyright (C) 1994 by TAKADA Toshihiro


[index]