(2)情報学の専門領域 情報学は全体としてどのような専門分野から構成されているかを自然学科の側から 整理してみると,理論的,実験的な側面および応用用の3つの領域に分けられる。 (2.1)理論情報学の構成 理論的な分野は上で述べたことから,まず情報の解析時に構造の解析方式であり, 次に情報の表現や構造の意味対応などのために必要な理論的骨核としてモデルがある。 また歴史のある分類の可能性と分類の手法,それから媒体に関連して記述表現の多様 性,その取扱い方,情報の時間的,空間的,意味的変化,管理の可能性,限界な情報 操作の手法などが情報学の基本対象である。 (2.2)実験情報学の構成 実験的な分野としては,実際の情報を対象として情報の特性,情報の量,情報の質, 情報のキャラクタリゼーション,情報の資源化,管理および典型的な情報媒体の要素 であるターミノロジやソーラス,辞書,日本語,マルチメディア,それらの構築,特 性,操作処理などが実験的な情報学の領域である。 (2.3)応用情報学の構成 理論や実験が進めば応用も具体的に展開できるわけであり,典型的な情報検索の手 法は確立されており,数多くのシステムが開発,提供されている。もう少し情報を高 度に加工して付加価値を図ること,情報の伝達法として従来からの印刷物とオンライ ンデータベース,バッチ型データベースや知識ベースなどの位置づけと展開,さらに 学習,類推,発想などを実現し,最終の目的である問題解決,意志決定,評価,人工 頭脳までも一応応用情報学の対象に含まれる。 以上まとめると情報学は下のようになる。 情報学 1.序 :領域−大量情報の特性,資源化,操作に関する理論と基本課題, 背景,歴史,概要,基本概念の定義 2.情報解析 :特性解析−属性,媒体,動態 意味解析−物理関係,概念関係,論理関係,従属関係など 3.情報構造 :グラフ,ハイパーグラフ,木構造−分類,網構造 拡張ハイパーグラフ,双体,入れ子,部分共有,動的構造など 情報空間モデル化 4.完全性制約:空値問題,実在制約,識別,同定 5.媒体 :物理媒体,論理媒体,表現媒体,記録媒体,表示媒体,通信媒体 など媒体変換 6.情報記述 :属性空間,記述項目,差分記述,様相性 情報表現 :媒体依存性,多様性,多義性,lattice 情報表示 :多元媒体 7.情報構造化:意味関係構造化,自己組織化,学習 概念構造:シソーラス,構文解析辞書,定義辞書 論理構造:述語論理,様相論理,ファジー論理 物理構造:アドレス,索引,所在,ファイル 8.構造操作 :記憶構造,直接アクセス,構造経由アクセス,同型性,準同型性, 拡張関係型操作−関係グラフ,抽象化(汎化,集約化) 9.意味処理 :内容検索,演繹推論 類似性処理:共有概念,類似度−帰納,類推,仮説推論,連想,発想など 10.応用システムおよび展望:自己組織型情報ベースシステム,人工頭脳など (2.4)情報の特性と課題の例 まず情報の基本的特性を挙げると次に示すようなものがある。 a.媒体依存性 b.記述,表現の多様性 c.様相性(Modality) d.非加算性 e.階層性(入れ子構造) f.相対性,双対 などがあり以下に簡単に説明する。 (a)媒体依存性 情報はそれ自身で実在することは少なく通常なんらかの媒体上に記述,表現されるの で必然的に記述および表現の形式が媒体に依存することになる。例えば風景を表現す るのに写真を用いるか文章を用いるかを比較してみれば違いは説明するまでもない。 媒体として見ると文字に比し画像や音声や抽象化の水準が低いが,情報量が多く理解 も容易である。これが先に述べたマルチメディアへの期待につながっている。 (b)記述,表現の多様性 情報の媒体が多用であるので記述,表現の多様性があるのは,避けられないことであ るが,同じ媒体であつても想像以上に様々な形態をとり得る。典型的な例は言葉でい えば同意語である。一般的に情報の記述,表現の多様性の説明のため,単純な場合で 包含関係だけがあったとして次に図解する。 4つの特性で記述されるべき対象があったとして,その世界はこの4つの属性の 全てを正確に記述するレベルとそれより少ない3つ,2つ,または1つの属性で記述 する,4段階がある。実際にはさらにそれらの中間もあるが複雑になり過ぎるのでそ の議論はここでは省略する。先ずA1という概念で記述し,その次にA2で記述し, 更にA3,A4で記述する仕方がある。図1の上から下への別のルートがそれぞれの 別の記述法に対応している。このように属性が4つあるだけ 図1 概念階層の束構造 図2 属性附加による概念階層の束構造の変化 でも記述の仕方は16通りになる。さらに属性が一つ増えると図2に示すように階層 も深くなり,かくレベルのノードも増加するだけでなく全体の構造も変化し記述法も 32通りとなる。なおぶんるの多様性も同じ構造で説明出来て,それぞれ24通り, 120通りとなる。一般にnヶの属性に対して記述法は2のn乗通り,分類法はn! 通りとなる。 (c)様相性 検索やAIで符号照合のとき, A=A と A≠(〜A) は対隅であるから同じことを意味するとしたり,一階述語論理で,「PならばQであ る」ということは,「PでないかまたはQである」ということに等しいし,又そのこ とは「(PであってかつQでないということ)はない」ということになるわけだが, これらが成立するのは先ほどの対隅が成立したのと同じであり,2値論理が前提であ る。ところが使われる情報は2値論理型とは限らない。一般に多値論理つまり「そう である」か「そうでないか」のどちらかに割り切れる場合だけでなく,「そうかもし れない」し「そうでないかもしれない」というような場合も含めた論理である。そう いう情報に対しては2値論理の手法は使えない,つまり演繹推論であるとき数値計算 であるとか符号の照合というのは計算機むきの良い方法ではあるが,それが使えない 情報も多いということである。 (d)非加算性 意味の関わる問題の一つは個別実体(Distinct Entities)の集合を通常仮定すること である。順序関係の成立する外延(Extension)として概念を取り扱うことは対象を著 しく制限することになる。 (e) 情報,概念の間には抽象化や総称表現に基づく包含関係のため階層関係があり,とく に技術の進歩や生活様式の変化による新しい概念の生まれることが多く,入れ子型の 構造になる。 (f)相対性(双対) 実体と実体の間にある関係はそれぞれ固定されているのではなく,関係自体を実体と しても扱いたいときはまたはその逆に実体を関係として扱いたいときがあり,これを 相対(dual)ちう。また実体と属性,階層関係における上下関係なども状況で応じて 変化するので相対的である。これも従来型のシステムでは扱えない問題である。 (2.5)情報の資源化 最近マルチメディアが注目されているが,ハイパメディアはマルチメディアの有力 な利用形態のひとつである。ゼロックスが提供していたハイパーメディアシステム NoteCards の経験から,次世代のハイパーメディアに展開するために,解決すべき問 題としてHalazsが87年と91年に改訂しCACMに発表した問題の一つは大規模な情報 を入力し,構造化し,使える段階に資源化し,適切に管理することが困難であるとい うことである。この問題を解決しない限り大型ハイパーメディアは実用的なものにな らない。このことは,柔軟性があり何でもできそうなハイパーメディアも構造化と管 理ということが大きな課題になっていることを示している。 少し個別な問題でアクセスの問題を考えてみると,キーによって情報を識別するこ とに基づいてアクセスをすること,及びキーワードの牽引が今までの代表的なもので あつたが,マルチメディア情報は上で述べたように本質的な問題点を持っており,簡 単に解決できることでは無い。それから新しい方法の全文データベース用シグネチャー ファイル方式やマルチメディア用の変換コート,それから従来のネットワーク型デー タベース管理システムのように情報の構造を直接利用する方法も考えられる。 こういう問題に対しては,先ほど述べたような制約を考えると,現在では最も柔軟 なシステムとかんかているハイパーメディアとオブジェクト指向的DBSも基本的に は満足できるものではないことになる。一般的に従来型のデータベースには沢山の情 報が入り,知識ベースでも入れられることにはなっているけれども,前者は管理,と くに識別,同定からの制約のため,後者では知識の表現の制約から知識の獲得が困難 であり,いずれにしても入力できるものが限られる。つまり全体から見ると現在の技 術で扱える情報に比べて積み残した情報の方が圧倒的に多い。それは管理システムの 基礎となるモデル実現方式の柔軟性と管理機能が不足していることに起因する。 結局,基本的には利用者向きで情報媒体の面からも望ましい大量のマルチメディア 情報の利用のために情報の特性に即した新しいモデルに基づくシステムの開発が必要 である。 (2.6)利用機能 今までの課題をもし解決したとして,最後に利用機能の問題がある。現在の計算機 では四則演算や符号照合の処理,即ち数値解析,検索,演繹推論などは高速かつ高精 度で処理される。より高度な予測や推定も,完全ではないが種々の手法があり,実際 に使われている。 更に高度な機能として,類推,機能推論,仮説推論,発想,連想などと,それらを 複合して問題解決,設計,意志決定,評価などが要求されている。 このような高度な機能実現のためには意味とくに類似性,関連性の処理が重要であ るが,情報が媒体経由の関節表現のため困難な問題である。しかし意味の関係を概念 間の関係として構造の形で組織化ができれば,意味処理に道が開けることになる。大 量の情報の構造化は人手で行うことは極めて湖南なことであるから,システム的に, 即ち自己組織的に行わなければならないし,そのような試みがなされているので以下 に一つの例を示す。 (2.7)新しい情報システムの展望 (a)意味関係の構造化 実体や概念の間の様々な関係は主として用語の関係としてあつかうことができる。 専門用語のデータベースを作って,用語間の関係,例えば同意語,多義語,階層関係, 部分全体関係などをC-TRAN(Constrained Transitive Closure)および SS-KWIC(Semantically Structured Key Word Element in Terminological Context) などを用いて抽出して用語の間の関係を扱えるようにしてシソーラスを自動的に作る ことができる。 情報構造の実現方法を簡単に述べると,例えば日本語と英語の対訳用語集には英語 に対して日本語の対応関係が示してある。基本的には用語の訳は同値関係になるが, 実際には用語の使われかたとして同値関係の場合に上下関係も入ることが多い。それ を全てが同値関係だけだとすれば,推移則が成立するので推移閉包をとり,全部の同 値な用語を結んだ同意語集合が得られる。例えばこれはJISの用語集だが難燃性と 同じ民法の表現が“燃える”という表現に対して“炎”と“火”もあって,“難”に は“耐”があって,性質を表すのに“性”と“度”がある。このように考えられる組 み合わせがほとんど全て使われている。JISは勿論標準化の為に作るので用語も標 準化されているが,それは専門分野別に行われるので全体としては標準化にはほど遠 いということであり,これが先ほどから述べている言葉というものの多様性の典型的 な例である。 これは学術用語でも同じであり,学術分野毎に用語も標準化されているが,標準化 されたものが全分野に共通になっているのではなく,広く使われる概念であればある ほど多用な表現が使われている。 いろいろな用語について各種の抽出の仕方があるが,先ほどの上下関係や入れ子構 造になる再帰関係がある場合には多義性によるノイズが拡大されるので,上位概念を 抽出して推移閉包を求め,その結果を上位概念に結合することによる同意語集合の精 度を上げることと,抽出された上位概念はそれを利用して階層関係も構造化できると いうことで割合簡単な方式でシソーラスができる。それから他の論理関係などについ ても類似の方法で構造化ができる。 自動作成されシソーラスは概念構造を表し,情報の構造化による意味処理のみなら ず内容検索にも有効である。 SS−KWICは専門用語が主として複合語であり,構成要素間に造語規則が存在 することを利用して階層関係や関連関係を抽出する方法である。 同じような積み上げ方式によって論理関係とくに因果関係も自動的に収集,構造化 することができる。これには SS-SANS (Semantically Specified Syntactic Analysis of Sentences)および SANS (Sematic Analysis of Sentences)を用いる。 前者は先ず特定用語中心とする一定の構文を利用して,概念間の関係を抽出する。次 のその結果を用いて新しい特定用語と構文を得る。これを再帰的に繰り返す方法であ る。この方法は構文の不明確な文章や,構文のない用語の集合例えばキーワード集合 の間の関係も抽出できる方法である。概念間の論理関係として,因果関係にも各種の ものがあるが,自然科学で重要なのは直接結果に結びつく原因結果関係と,いくつか の要因があって結果に結びつく要因結果の関係及び,必然性が充分でないけれども何 らかの理由結果につながる理由結果などの種類がある。これらを構造化すれば演繹推 論は単なるナビゲーションとして実現でき,概念構造を表すシソーラスと併用して類 推も実現できる。 これらの関係情報を抽出すると,ソシーラスとして概念間の構造が組織化されるの で,それには先ほどの各種の関係が含まれるわけであるが,例えば類似関係というよ うなことが直接扱えるようになり,情報の利用に関して非常に重要になる。また論理 関係はタキソノミーとして構造化される。更に元の情報が持っている書誌的な情報と 索引など,物理的構造は基礎的構造である。 つまり情報が持ついろいろな意味を構造化することによって,今までに述べた範囲 内ではあるけれども計算機で意味が扱えるということである。 (b)自己組織型情報ベース 上で述べたような情報の構造化を行って実際の研究開発に役に立つような応用シス テムの構築の例を示す。そのシステムはInformation-Base Systems with Self Organizing Receptor Interconnections, IBS:SORITESと名付けられている。 要点のみを述べると,情報の持つ階層性,相対性および部分重複などの基本特性は 従来のグラフ構造型のモデルでは扱えないので,多項関係を扱えるハイパーグラフに 内部構造や意味関係表現のラベル付け,および役割を示す方向などを導入して拡張し た新しいモデルSSR(Structured Semantic Relationship) を構築し,それに基づ いてシステム開発を行っている。 IBSのモデルはハイパーグラフを階層化,ラベル付け,および方向付けの点で拡 張した新規のものである。それに基づき検索や演繹推論のみでなく類推や帰納推論が 使えるシステムが実現できる。 全体構成として図3に示すように,まず一次情報をCD−ROMに入れておく,理 由はCD−ROMの記憶容量が大きく,540メガあるので専門家に必要な情報がほ ぼ網羅的にこの中に入ることと,読み取り専用記憶装置で書換ができないので管理が 非常に簡単になることなどである。次に一次情報から概念構造をソシーラスとして, 論理構造をタキソノミーの形で抽出し,それを用いて一次情報を構造化して意味処理 に使うという方式である。このシステムは種々の研究用マルチメディア型情報に応用 され高分子,NMR,有機合成,半導体,超伝導,非線形光学材料,常温核融合等が 対象となっている。 図3 IBS:SORITESのシステム構成