2.1 言語情報 (1)言語技術の情報学における位置づけ 情報を担っているものは言語だけでなく,図面,写真,映像,その他種々のものが ある。それらは表現しようとする情報内容によって使い分けられる。情報はまたいか に客観的相手に伝えられるかという立場からその媒体を考えることもできる。機械の 設計図面などは世界中で共通的に理解されうるものである。それでは言語はどのよう な情報の表現に適しているのだろうか。あるいは情報学における言語の位置付けはど うであろうか。それは次のように考えられる。 (i)言葉は思想を表現するための最適の媒体である。 (ii)言葉は誰にでも理解でき,人による理解の相違を最も小さくし,正確な情 報を伝達することのできる媒体である。 (iii)歴史的に見て,人類の知的財産が言語によって最も多く表現され,また蓄 積され今日に伝えられている。 (iv)今日の情報技術においては,言語が最も安価に,最も容易に扱える媒体で ある。 このような理由から,言語技術は情報学の中で重要な位置を占めていることが分か るだろう。 (2)言語技術の現状 (i)字づら処理 言語を扱う場合には,それを構成する基本である文字,単語が明確である必要があ る。文字としては欧米諸国言語のアルファベットのように 100文字以下の場合と,日 本語,中国語のように数千〜数万文字の場合がある。数千あるとされる世界の言語の うち文字が確定している言語はそれほど多くないとしても,やはり膨大で,これを計 算機でユニフォームに扱うために,1文字を何バイトでどのように表現するのがよい かが現在真剣に検討されている。文を構成する単語を確定する形態素解析は言葉の持 つ多義性の問題からユニークには決定できない。現在日本語では単語単位で99.9%程 度まであげる努力をする必要があろう。 (ii)文解析 文中の各単語の文法的役割を明確にすることであり,奥の場合各単語のもつ意味に まで踏み込んで扱わねば正確な解析は出来ない。文解析の中心的役割を占めるものは 文法であり,過去30年の間に種々の文法形式が提案され,それらのいくつかは計算機 による文の自動解析に用いられた。しかし,いまだに種々の複雑な文を90%以上の正 確さで解析することの出来る十分精密な文法は作られていない。最近は従来の文法の 概念でなくニューロネットワークや部分的な文の類似性などを発見する方法など,種々 のヒューリスティック手法が試みられている。一般的には非常に困難であった長い文 の解析もかなりできるようになり,照応の問題,省略語句の推定,文脈関係の把握と いった問題が研究されている。 (iii)文生成 最近になってようやく研究が盛んになって来たが,何から出発して文を作るかが明 確でなく,研究方向が定まっていない。質問に対する応答や定まったパターンの文を 作り出す程度のことは出来るが,話者の聴者との関係,聴者に対する心的態度,話す べき内容をどのような方略でどのような文形式でどのような順序に従って読みやすい 文脈的表現にしながらまとまった1つの文章として作り出すかは未だに全くといって よいほど未解決である。 (iv)翻訳 言語の機械翻訳は不完全ながら実用されている。欧米では英語,フランス語,ドイ ツ語などを中心として使用されているが,日本においてはほとんど日本語と英語との 間の翻訳である。1文ごとの翻訳しかできないこともあって,人手による後修正が必 要となる。ただどのような内容の文章であったかを把握するためであれば後修正なし に使うこともできる。ほとんど後修正を必要としない質の高い翻訳システムは21世紀 の初頭まで待たねばならないだろう。 (v)テキスト情報の圧縮と分類 与えられたテキストからキーワードを自動抽出したり,自動要約をしたり,またそ のテキストがどのような分野のものであるかを自動判定したりする研究が盛んになっ て来た。現在まだ実用になるようなしっかりした方法は確立されていないが,社会的 な要求も強く,研究も進んでいるので近い将来実用となる方法が出てくるものと考え られる。 (3)これからの課題 (i)言語技術基盤の確立 言語技術を発展させるためには研究開発のための環境整備が必要である。それは, 膨大なテキストデータの蓄積(特に多言語翻訳対で),これらのテキストデータに出 来るだけ豊富な言語情報を付与したテキストデータベースの整備,膨大な多言語の単 語・フレーズ辞書の整備,形態素解析,構文解析,その他のソフトウェアの整備,こ れらの全ての研究者への公開ないし低価格による配布,などであり,誰もが自分の目 的とする言語処理をすぐ行えるような環境整備が重要である。米国を中心としてこの ような環境整備の動きがあり,日本でも早急に検討しなければならない。 (ii)言語理解のための知識辞書の作成 我々人間が言葉を理解できるのは,文法を知っていたり,単語の意味を知っている というだけでなく,言葉によって語られている外界・対象に関して種々の知識を持っ ているからである。機械に人間と同じように言葉を理解させ,適切に応答させるため には人間の持つ世界に関する知識を機械が取り扱える形に整備しなければならない。 これがこれから挑戦すべき最大の問題である。 (iii)電子図書館システム 今後ほとんどの出版が電子的に行われるようになり,またワープロによって文書が 作成され,電子メールシステムで流される時代になるが,その時の図書館はこれらの 活動にマッチした形の電子図書館となるだろう。そして世界中の電子図書館がネット ワーク接続され,多用なユーザの要求に対応しなければならなくなってくると,以上 に述べられたあらゆる言語技術が必須のものとなる。すなわち情報学における言語技 術は,十分な意味における電子図書館の実現と言いかえてもよいのである。