2.3 全文データベース 全文データベースの発達 −− いわゆるデータベース・サービスは,文献の書誌 的データと要旨を収録した二次文献データベースを中心に発達してきた。これには, 従来の抄録誌の編集作業が電算化され,それで得られる電子化ファイルが,当初は副 産物的位置付けにあったが,次第に主製品としてのデータベースに転化してきたとい う背景がある。一方,数値情報系のデータベースは,株価の即時配信システムという, データベース的ではないオンラインシステムからはじまったが,その後,データの蓄 積機能を取り入れてデータベースを構築するようになった。また統計情報関係では, 統計データのデータベースが早期に事業化されている。全文データベースは,上述の 二次文献データベースの進化の延長上にあるものである。 全文データベースの発達は,図書・雑誌・新聞等,一般の出版物の原稿作成や編集 におけるコンピュータ利用の浸透,また電算写植機による印刷の普及を背景にしたも ので,この点,抄録誌のデータベース化と同様の経過をたどっている。こうして,現 今ではオンラインでサービスされるデータベースの半数以上が全文データベースになっ ている。また,パッケージ型データベースと称される半数以上が全文データベースに なっている。また,パッケージ型データベースと称されるCD−ROMによるデータ ベース出版物は,近年わが国でも普及が進んでいるが,これらの多くが内容的には全 文データベースであると考えられる。 オンライン系全文データベースでは,通信量と通信料金の制約,また標準化の問題 から,図表の類を除外した,本文だけの全文データベースがほとんどであるのに対し て,こうした制約の小さいCD−ROM版データベースでは,むしろ画像・音声に主 力をおいたマルチメディアデータベースが盛んになっている。もっとも,高速・大容 量・低価格のインターネットの普及に伴って,オンライン系でも,画像・音声を含む ハイパーテキスト仕立ての全文データベースの構成方式WWWが普及のきざしをみせ ている。また,既存出版物の各頁を画像として蓄積・配信することも,インターネッ トの普及により現実的になっており,このような全文データベースの集積と配信を統 合したシステムを「電子図書館」と称して,その実用化にむけた開発計画が米国では いくつ試みられている。 文字・文章・文書情報の基礎的研究 −− こうした状況をうけて,情報技術の研 究開発では,マルチメディア,端的には画像・音声に関係したものが多くとり上げら れるようになっている。これに比べて,テキストデータ自体に関する研究は地味な印 象を与え,またビジネス機会の観点からも興味薄とみられるせいか,報道されること も少ない。しかし,オックスフォード大のテキストアーカイブスのように,全文デー タベースを広範に蓄積するという試みも着実に進捗している。こうした全文データの 蓄積は,単に検索・参照の用に供するのみならず,むしろこれを実験試料として利用 した様々の研究が広い学問分野にわたって可能になるという点で,情報資源というに ふさわしいものであると考えられる。 人間活動の多くが言語に依存し,またその記録や伝達の多くが,これを文字で表わ した文書に依存していることは明らかである。このことは,画像・音声を別にした, せまい意味での全文データベースについて,その構築,蓄積,検索,表示などの基本 的機能に関わる研究が,すべての学問分野の発展に寄与する基盤的な研究であること を示唆している。 ワープロの普及に象徴されるように,文書の電子化は社会のすみずみまで浸透しつ つある。こうしたOA機器・システムの普及は,文書の作成を効率化させるから,文 字情報の絶対量も増大させるであろう。これを,文字情報の氾濫というような混沌事 態に陥らせないために,文字情報の処理に関する基礎的・統合的な研究が必要である。 例えば平文ファイルに対する高速走査検索手法は,全文データベース向きのシステム ではすでに実用されているが,この種の研究もさらに推進されるべきである。また, テキストデータに多用な切口を与えるSGMLはすでに国際規格として成立しており, 上記のテキストアーカイブズでも,この方式に依拠した全文データベースの蓄積が推 進されている。SGMLは,文字情報の氾濫に対する,文書の作成段階での対応法の ひとつとみなされる。しかし,わが国では大方の支援を欠くためか,この方面での動 きは鈍い。 上記のような視点に立つとき,現在,全文データベースに関連して展開されている 様々な研究は,本来,文字・文章・文書情報に関する研究として,組織化・統合化さ れるべきものと考えられる。そのためには,これまで例えばデータベース,テキスト 処理,機械翻訳,電子図書館など,個別の応用を目的に進められてきた諸研究を,適 切に位置付けて統合化するような学問体型の構築が必要である。そして,この役割は まさに情報学が担うべきものであると考えられる。