TEIの歴史的背景

P4(2002-03) 1.3節より


TEI(Text Encoding Initiative)が誕生したきっかけは、1987年11月にVassar Collegeで開催された、Association for Computers and the Humenities(ACH) がスポンサーで、U.S.National Endowment for the Humanities(NEH)から資金 を受けた会議を計画したことから始まる。 この会議では、テキストのアーカイブ関係、学術界、研究プロジェクトなどか ら約30の代表者が集い、標準符号化スキームの可能性を検討し、その対象領域、 構造、内容、草案を提言としてまとめた。 この会議の期間中に、Association for Computational Linguistics(ACL)と Association for Literary and Linguistic Computing(ALLC)は、ACHと共に、 このガイドラインを作成するプロジェクトのスポンサーとなることになった。 この会議の成果は、以下のようにまとめられる。 これは、TEIの活動の道筋を決定づけたものになっている。

  1. ガイドラインでは、人文科学研究で使用されるデータの交換を目的とした標準 データ形式を示すものとする。
  2. ガイドラインでは、同じデータ形式でテキストを符号化するための原則を提案 するものとする。
  3. ガイドラインは、以下の内容を示すべきである。
    1. 推奨される、データ形式の統語規則の定義
    2. テキストを符号化するスキームを記述するためのメタ言語の定義
    3. 定義される新しいデータ形式と代表的なスキームについて、上記メタ言語も使っ て書かれた解説文
  4. ガイドラインは、多様な応用に対応した、符号化の方法を示すべきである。
  5. ガイドラインは、新しいテキストをこのデータ形式で符号化する際の、最小限 の手法を示すべきである。
  6. ガイドラインは、スポンサーである関連団体の代表から成る委員会の調整の下、 以下の検討委員会から挙げられた草案を元に、作成される。
    1. ドキュメンテーション(text documentation)
    2. 表示関連(text representation)
    3. 解釈・分析(text interpretation and analysis)
    4. メタ言語とスキーム(metalanguage definition and description of existing and proposed schemes)
  7. 既存の規格とは、出来るだけ互換性をとるようにする。
  8. 大型のテキストコレクションを持つアーカイブの多くは、原則、このガイドラ インを、データ交換形式として採用することに合意しており、実 際、(P3の出 版後)採用されている。TEIでは、データ交換を容易にするツールの開発をサポー トする資金援助の働きかけを行っている。
  9. 既存の機械可読テキストを新しいデータ形式へと移行するには、構文の変換が 必要になる。この際、当該変換のために、既存のデータに新たな情報を追加す る必要ない。

これらの活動の中には、重要なもの、さほど重要ではなさそうなもの、達成が容 易なもの、かなり困難であると分かったものなどが混ざっている。 本ガイドライン(P4)は、テキスト形式の情報を交換するための、標準データ形式 を規定するもので、新しく電子テキストを作成する際の指針の概要を示すもので ある。 本ガイドラインで使用されているメタ言語は、XMLとSGMLとに共通するもので、他の 符号化スキームについての定義は行っていない。 本ガイドラインは、テキストを符号化する際の、最小限の手法(e.g. 推奨または 必須の要素クラス)を定義しているものなので、ここで推奨または必須とされて いるものだけで満足する研究者はいないだろう。 ここで決められているものは、かなり少ない。 本ガイドラインでは、「多様な応用に対応した符号化手法」を(少なくとも、明 示的には)規定しているのではない。 なぜなら、そのような手法が合意に達することは難しいからである。 これは、将来の課題である。

TEIの起源とその発展

TEIは、1988年6月に、正式に発足した。 これは、NEHの資金によるものであるが、すぐに、Commision of the European Communitiesや、Andrew W.Mellon Foundation、Social Science and Humanities Research Council of Canadaからも資金援助を受けた。 4つの委員会が結成され、ヨーロッパと北米から、一流の研究者によって構成さ れた。4つの委員会とは、それぞれ、 ドキュメンテーション(text documentation)、 表示関連(text representation)、 分析・解釈(text analysis and interpretation)、 メタ言語と統語規則(metalanguage and syntax issues)である。

ガイドラインの草案第1版(P1)は、``Guidelines for the Encoding and Interchange of Machine-Readable Texts''として、1990年7月に出版された。 これは、「TEI P1」と呼ばれている。 これに細かい改訂が行われた第1.1版が、1990年11月に出版された。

多くのコメントや、第1版では扱われなかった領域での検討結果が加えられ、ガ イドラインの草案第2版は、1992年4月に出版された。 この第2版には、1990年から1991年にかけて結成された、P1の見直しを検討する専 門家によるワーキンググループの成果として、かなりの量の新しい内容が含まれ ている。 この第2版と、ここで示されているスキームの全体構造は、第1版に寄せられたコメ ントを反映し、大幅に改訂されている。

1993年6月に、TEI諮問委員会(Advisory Board)が構成され、そこで第2版ガイド ラインの検討と、これまでの成果を正式に出版することが提案された。 これが第3版にあたるもので、第2版の全章にわたって改訂が行われ、幾つかの章 が新たに追加された。 この作業は、実際の記述や寄せられたコメントを元にした修正作業が主なもので あったが、この第3版は、第2版までのような草案ではなく、正式なガイドライン として、TEIの初期の活動の集大成として、1994年5月に出版された。

1998年2月、W3C(World Wide Web Consortium)は、XML(Extensible Markup Language)の最終勧告を発表した。 XMLは、かなり簡素なSGMLとして開発されたもので、その開発背景には、TEIが目 指したデータ交換の為の最小限の手法と同じものがあり、大変に似たアプローチ を採っている。 実際、TEI参加者の何名かが、XML開発に重要な貢献をしている。 その中でも、XMLの共同編集者であるC.M.Sperber-McQueen氏は、最近まで、 TEIガイドラインの北米地区共同編集者をしていた人物である。

各所でXMLの採用が急速に進むと、多くのプロジェクトで、XMLに対応した新しい ガイドラインが必要であると感じるようになった。 例えば、SGMLの要素名には、通常、大文字小文字の区別はないが、XMLにおいて はその区別があるため、TEIの要素名について、XMLにおける標準的な名前を決め る必要があった。 TEIガイドラインの編集者は、他の関係者から多くのアドバイスをもらいながら、 改訂計画を検討し、統語上の問題について、解決策の試案を作り上げた。 2001年にTEIコンソーシアム(TEI Consortium)が結成され、NEHからの寛大なる資 金援助が始まると同時に、この改訂作業は公式に着手された。 この改訂が目指したものは、SGMLとXMLとに選択的に対応すべく、スキームと解 説文を改訂することにあった。 第4版(P4)は、この改訂の最初の公式な草案に該当する。 第4版は、第3版(P3)にある内容の質と有効性を維持し、コメントや提案、ま だ書かれていない内容などについての反応を得ることを目的に編集されている。

今後の改訂作業

本ガイドライン(P4)の内容は、満足できる内容にはなっておらず、引き続き作業 が必要なものであり、今度、追加勧告が補足出版されるかもしれない。 少なくとも、以下の領域については、今後も検討される予定である。

  1. 言語学的記述と文法要素のアノテーション(linguistic description and grammatical annotation)
  2. 歴史的分析と解釈(historical analysis and interpretation)
  3. 追加文書タイプ向け基本タグ集合(base tag sets for further document types)
  4. 手書き文書分析とテキストの物理的要素の記述(manuscript analysis and physical description of text)

本ガイドラインで推奨されている符号化方法は、これから策定されるTEIス キーマとの互換性が、根本的には問題にならないものとして、使うことができる と思われる。 TEIは、将来ガイドラインを改訂する際、本ガイドラインに従ってデータを 作成している人々と関連する問題には、敏感でありつづける。 長期目標が一貫してあるのであれば、本ガイドラインに従って書かれたもの は、将来の版にわたっても維持されるものになる。