国際セミナー TEI Day in Kyoto 2006: アブストラクト集

[英語 -- English]

目次:

研究報告

TEIはなぜ日本で知られなかった、知られていないか、知られるようになるか

土屋俊 (千葉大学)

日本は、その第1回準備会議から参加者を派遣し、P2段階までも関与をつづけ てきたが、それ以降は個人的関与にとどまり、TEIについて知る人文社会系研 究者は現在もきわめて少ない。この原因はたんに関心の程度が低かったからで はなく、日本の人文社会科学研究がもつ文献概念、文献利用の実態によるもの であることを示す。これに基づいて、そのような文献概念、文献利用の実態が 1990年以降どのように変化しているか、そして領域によっては変化していなか を明らかにして、日本の(広い意味での)文献を電子化して保存することに対す る課題を明確にし、あわせてその解決方法を提案する。

文字化された言語資源の少ない言語とテクストのマークアップ

松村一登 (東京大学)

話されたことばは,一過性のものであり,録音や文字表記の形で記録しておかない限り, 発話されるやいなや,たちまち過去という時空に吸い込まれ消えてしまう。現在,この地 球上で使われている言語の数は,およそ6900と言われるが,その大部分は,話しこと ばとしてのみ使われている,いわゆゆる「文字のない少数言語」で,もし話し手がひとり もいなくなれば,痕跡を残さずにこの地上から消えてしまう。他方,文字のない言語の言 語資料が,言語学者たちによって,音声表記を使って,文字化されていることも決して珍 しくはない。この貴重な言語資源をコンピュータ処理できるように,電子化し,マーク アップすることが,言語学者たちの重要な課題となりつつある。

音声対話コーパスのマークアップ

土屋俊 (千葉大学)

板橋秀一 (産業技術総合研究所、国立情報学研究所)

大須賀智子 (国立情報学研究所)

音声対話の記録は、言語がもつ線状的な特性を破壊する点で興味深いものであ るが、それをTEI文書として記述するために必要なメカニズムを実際のコーディ ング例に即して検討する。1993年に千葉大学で収録された音声対話128件につ いて、発話者、発話時間などを含んだ文書を作成する際に問題となった点を議 論するとともに、音声言語の記録の前提となる音声言語現象の一般的な形式的 モデルについて提案を行ない、それらのすべてに整合的なTEI文書を実現する ことが可能であることを示す。

マークアップの課題をsyntaxから見た分類と解決のステップ

大矢一志 (鶴見大学)

人文科学研究で使われる資料を電子化し、それにマークアップ(markup)を施 す際に困難を感じる原因は、主に3つ、1)対象データの分析が十分でない、2) マークアップという手段が本来の目的と合わない、3)マークアップ技術の理解 が十分ではない、ことが考えられる。但し、3)にあるマークアップ技術は、ま だ十分に成熟したものではなく、そのため、例えばXMLといった規格自体が持 つ不備が原因で「上手く書けない」ことがある。特に、XMLは、アプリケーショ ン(e.g. TEIもそのひとつ)を複数関連づけることが規格上困難であるにも関わ らず、多くのアプリケーションが提案され、利用されている。実は、複数の XMLアプリケーションを関連づけ、統合する方法は、ML(markup languages)の 専門家でも解決策は一意に定まらない。単なるデータ入力や変換をするのでは なく、はじめからどう書く(マークアップす)べきかを決めることは、かなり高 度な作業になっている。

しかし、マークアップすること自体は、人文科学研究者にとってはとても身近 な行為である。本稿では、マークアップする際に困難と感じる原因のうち、ML のSyntaxから見た「ひっかかりどころ」を紹介し、規格の不備に惑わされるこ となく、マークアップが本来持つ自由な記述を再確認したい。これは、TEIを 利用する際、「ML一般」と「個別テキストタイプ」という2つの問題を扱うTEI の論議を、整理して読み進めるヒントとして有効だろう。さらに、ML一般の問 題を検討する際の、手助けになるかもしれない。MLは、単に利用される規格と してあるだけではなく、従来、ひとがアノテーションとしてきた記述の行為が、 形式言語の側面からメタ記述の行為として評価されうる可能性を探る糸口になっ ている。

TEI概説

Syd Bauman (ブラウン大学)

Lou Burnard (オックスフォード大学)

本発表では、TEIコンソーシアムと新TEIガイドライン(P5)の概説を行う。

TEIガイドラインは、人文科学資料を電子化する際の、中心的な道具のひとつ として、学術研究の分野における電子テキストの作成や利用形態を、根本的に 変えてきた。TEIコンソーシアムが管理しているTEIガイドラインは、、現在、 電子図書館、学術出版、古典籍アーカイブ、言語資料、個人研究プロジェクト、 主題研究用コレクションなど、幅広い学術分野で利用されている。TEIコミュ ニティでは、極めて便利なテキストの符号化システムを提供している。これは、 人文科学テキストを、単純かつ高度に複雑なデータ表現形式といった多様なレ ベルにおいて、作成・蓄積・交換・保存を可能にする、効果的でかつ記述能力 の高い方法となっている。本発表では、はじめに、TEIガイドラインを、テキ ストの標準符号化方式という視点から解説し、次に、TEI利用した実際のプロ ジェクトにおいて、どう修正・導入されているかを解説する。各プロジェクト では、TEIに独自の修正を加えた形式を採用している。これらの各定義とTEIガ イドライン本体との関係について解説する。また、これらのカスタマイズの実 情を見ながら、同時に、TEIガイドライン自体の構造の解説も行う。TEIコンソー シアムの組織構成について、SIGの構成などを例に解説する。SIGとは、特定分 野に専念したグループのことである。最後に、個人、組織、団体がどう連携し てゆくかについて述べたい。

国際・地域対応版TEIにむけて

Sebastian Rahtz

今日まで、TEIガイドラインは、ヨーロッパ、アメリカ、アジアにおけるプロ ジェクトや機関で広く採択され、様々な言語のテキストを符号化する際に利用 されてきた。しかし、TEIガイドラインは、英語で書かれている。用例の殆ど は英文学からのもので、要素名にいたっては、略(英単)語になっている。TEI 活動やその成果であるTEIガイドラインは、より便利に世界中で使用されるた めには、国際化され、地域に対応すべきであることを理解する必要がある。

本稿は、TEIがどのように国際化に対応し得るのかについて、以下の点を扱う。

伝記・人物研究情報のマークアップ

Matthew J. Driscoll

本稿では、現在取りかかっている、TEIを使用して、伝記・人物研究の情報を マークアップする作業について報告する。ここで扱っている情報とは、人に関 する情報で、例えば、生年月日、死亡日時、生誕地、死没地、婚姻情報、家族 関係、出身階級、居住地、学歴、職歴、宗教、職能、などである。

XQueryを使ってテキストを読む

James Cummings

本稿では、はじめに、W3C XQuery(XML Query Language)の概要を紹介し、 XQueryの基本と、XMLデータベースを使った際の可能性を、例示してゆく。 次に、XQueryにある多様な表現と機能を紹介する。この多くはXPathから継承 されたもので、XMLデータベースからデータを抽出したり場所を指定する際に 使用される。次に、TEI P5に準拠したXML文書に対して実際にXQueryを使用す ることを紹介する。この際、ネイティブXMLデータベースとして人気のある eXistを使用し、名前空間の使用と、eXistが持つ便利な機能も紹介する。 TEIデータを扱う際に、どうクエリを書くのかについてのデモを行う予定であ る。更に、CocoonとeXistを使ったサーバからXQueryを使って情報検索を する簡単なWebシステムをどう構築するか、順を追って説明してゆく。

トピックマップを使ってのTEIテキスト

Conal Tuohy

本稿では、複雑なTEIテキストをどう表示するかについて扱う。

テキスト・アーカイブでは、多くがTEIテキストをHTMLに変換し、Web上で公開 している。その際、TEIテキストにある「章」や「ページ」は、独立したwebペー ジへと変換されている。このような手法では、物理的な書籍と同じような構造 を持ったwebサイトが構築されることになる。

しかし、TEIはHTMLよりも強力であり、「章」「ページ」「段落」などといっ たものよりも、もっと他のより魅力的な素性を符号化することができる。例え ば、TEIは、文学批評や言語学的分析の他にも、人物、場所、事態といった情 報も符号化することが可能である。実際、TEIは、研究者が必要とするあらゆ るものに対応できるよう拡張が可能である。

テキストの符号化をより複雑なものにすることは、データをHTMLに変換するこ とよりも、より難しくなる。TEIは、符号化する研究者にとっては、複雑な情 報も符号化できるようなデザインになっているが、その結果として、利用者に とっては理解が難しくなるかもしれない。そのため、データを表示する際には、 TEIデータをより適切な別の形で表示する必要がある。例えば、TEIのデータに 人物への参照が含まれているとすると、その一覧を作成する際には、その参照 を集めることになる。実際には、多くの場合で、後で検索したりwebサイト上 に載せたりするために、TEIデータから情報を抽出し、データベースに入れる 必要がある。

新しいトピックマップのISO規格は、これらの問題に対処するものになってい る。トピックマップとは、自在な構造を持つ、一種のwebデータベースである。 本発表では、トピックマップを使って、TEIデータから、様々な使い方ができ る大規模なwebサイトを作る枠組みを、デモと共に解説する。

ポスター

TEI @ RCH

Dot Porter (ケンタッキー大学)

人文科学コンピュータ共同研究施設(RCH; The Collaboratory for Research in Computing for Humanities, the University of Kentucky)では、新規開発 プロジェクトでTEI P5を利用している。本ポスターでは、現在、RCHで行われ ているプロジェクトに焦点を当て、TEI P5による自在性を享受している取組に ついて紹介する。

Ross Scaife教授(古典)を中心としたロマンス語資料プロジェクトでは、学 生やイギリスのラテン語研究関連機関によって、新研究や楽しむことを目的に、 主に16世紀から17世紀の様々なテキスト資料を作成している。 この資料の、特に書誌情報の引用・参照を符号化するために、中核モジュール (core)、芝居向け基礎モジュール(drama)、名前・日付向け追加モジュール (namesdates)、を使用している。

また、同じくRoss Scaife教授を中心とするラテン語辞書プロジェクト(LLP; Latin Lexicography Project)では、webベースのラテン語辞書を構築しており、 1880年までをカバーする重要ないくつかのラテン語辞書類をデジタル化して統 合し、追加登録を行ってきた結果、現在では、いっそう網羅的なものになって きた。このプロジェクトでは、古典ラテン語、ロマンス語の辞書を符号化する 際に、辞書向け基礎モジュール(dictionaries)を使用している。

現在はまだ計画段階ではあるが、歴史学部のAbigail Firey講師を中心とした Dacherianaコレクションプロジェクトでは、様々なカロリング朝の教会法を符 号化するために、批評研究向け追加モジュール(txtcrit)を使用する予定である。

Ben Withers助教授(芸術・芸術史学科長)を中心とした古英語六書プロジェク トでは、アングロサクソン研究者や様々な専門家と共に、大英図書館所蔵、10 世紀の手書きものである、古英語絵入六書"Claudis B.iv"のデジタル版を作成 する予定である。ここでは、写本向け追加モジュール(msdescription)を使用 し、更に、批評研究向け追加モジュール(textcrit)と一次資料向け追加モジュー ル(transc)の拡張を提案する予定である。

ベネチア本Aプロジェクトは、ホメロスマルチテキストプロジェクトの一部とし て、ハーバード大学古典ギリシャ研究センターとの共同研究として行っている。 ベネチア本Aプロジェクトは、ベネチアの国立聖マルコ図書館が所蔵する、最も 年代の古い、ホメロスの『イリアス』と注釈を含む、10世紀ビザンチンの写本 であるベネチア本Aの、完全なる画像データベースを作成するものである。 このプロジェクトでは、写本向け追加モジュール(msdescription)が使用され る予定で、TEIと古典テキストサービス(CTS; Classical Text Services)プロ トコルとの連携や、TEIとMETS間における画像版テキストのマッピングについ ての解説も行う予定である。

バージョニングマシン

Susan Schreibman (メリーランド大学)

バージョニングマシンは、テキストの複数の版を表示し、比較することが出来 る、オープンソースのソフトウェアである。古写本の校訂版に見られる注釈の ような情報にも対応した表示環境になっている。同時に、電子出版に耐えるよ うな機能を持っており、例えば、書誌学向けの表示では、各版を順に表示する フレームが用意され、各版の画像データを操作し、横に並べたり、注釈を拡大 表示したりすることが出来る。

このバージョニングマシンは、TEI準拠のXMLテキストを表示することもできる。 テキストは、個々に(独立文書として)符号化したり、また、TEIの「資料研究 用タグ集合(TEI.textcrit)」に準拠して符号化することもできる。資料研究用 タグ集合は、構造化された機械可読なデータ形式でもって、様々な版を記述す る、最も効果的で精緻な手法になっている。バージョニングマシンは、 資料研究用タグ集合に準拠してテキストを符号化する際に、各版の画面や行を 合わせるといった機能を持っている。

本ポスターセッションでは、バージョニングマシンのデモを行う予定である。

TEI外字モジュール

Christian Wittern (京都大学)

TEIワーキンググループ「文字符号化」では、ユニコード外文字の表示に関す るモジュールを開発してきた。現在、ユニコードは、XMLで使用される標準の 文字符号化方式であり、従って、TEIの標準文字符号化方式にもなっている。 このモジュールでは、以下のような課題を扱っている。

本稿では、このモジュールの使い方と応用の仕方を例示する。

CBETA電子仏典

N.N. (中華電子仏典協会)

中華電子仏典協会(CBETA; Chinese Electronic Buddhist Text Association) では、1998年に、中国語の仏典「三蔵」全てを電子化するという、野心的な プロジェクトに取りかかった。少人数ではあるが、精力的に活動を行ってきた 結果、この8年の間に、100巻にも及ぶ、12億文字を超えるデータが、出版向け のPDFから、携帯電話でも読めるテキスト形式といったデータ形式で、ネット 上やCDROMを介して、無料で公開されてきた。

元テキストからの、極めて正確な書き起こしや、多くのミスプリを正し、注釈 を加えるといった、膨大な作業は、世界中の仏教研究者から、高い賞賛を得る ことになった。技術的には、高度にカスタマイズされたTEI P4がプロジェクト 内で使用されている。しかし、現在の試験版では、TEI P5が使用されている。 TEI P5の外字モジュールを使用することで、この試験版では、ユニコードでは まだ規定されていない8000字以上の文字(異字体)を符号化している。

本ポスター発表では、これらのテキストを表示し、研究で使用するアプリケー ションを紹介する。

阿含経の解読--デジタル版『別訳雑阿含経』--

Marcus Bingenheimer (中華佛學研究所)

デジタル版『別訳雑阿含経』(BZA)は、蔣經國基金會から3年間の研究補助金を受け、 中華佛學研究所(台湾)が行っているプロジェクトである。

『別訳雑阿含経』は、364小経を含む16巻から成る、初期漢訳仏典、阿含経に属 するものである。阿含経は、最も古い仏教経典である。その原典(サンスクリッ ト語)は、殆どは失われてしまったが、いくらかの断片が伝えられている。 この漢訳版よりさらに重要なのが南伝仏教版で、これはパーリ語で書かれた全ての 経典を含んでいる。ニカーヤ(Nikāya、阿含経の別の名称)は、英語、日本語、ドイツ語に翻訳さ れ、よく研究されているが、漢訳版や校訂版は殆ど無い。 基本的には、阿含経の364小経の全てに、少なくとも、中国語の一つの異訳とパーリ語の対象(コメント付で含まれている)がある。 多くの場合は中国語とパーリ語の対訳は複数であるが、サンスクリット語で書かれた断片 が現存することはまれである。

本プロジェクトの目標は、阿含経の完全デジタ ル版を作成することである。これにより、テキストのクラスターを明らかにす ることが可能になる。このデジタル版は、無料で使用することができる予定で ある。本プロジェクトでは、阿含経の英語版も作成している。漢訳テキストには、 中華電子仏典協会(CBETA; Chinese Electronic Buddhist Text Association) 版を提供し、パーリ語版は、ヴィパッサナー研究所(Vipassana Research Institute)からChattha Sangayana Tripitaka CDのテキストを使用して良いと の許可を頂いている。

XMLによるマークアップは、TEIに準拠して行われ、一般ユーザには、HTML形式 でデータを公開している。マークアップによって、対話的な部分、名前、韻文 部と散文部の違い、典拠が明確な版との関連性などを、構造的に記述すること が出来る。マークアップによって、パーリ語部分と漢訳部分との対応を関連付 けることが可能になる。

クラスター中のテキストは、比較カタログによっ て、関連づけることが可能になる。時間があれば、より細粒に関連を付けれる 為にテキストクラスターの中身をさらに細かくマークアップを行う予定である。 ソースファイルとユーザアプリケーションのミドルウェアとして、XMLデータベー スであるeXistを使用している。eXistを使ったデータサービスシステムは、仏 教研究だけではなく、台湾の人文科学研究においても、初めてのケースである。 ユーザは、ネット上から、必要なクラスターを選択し、その中にあるテキスト を、3つの画面メニューで、表示することが可能である。

本デジタル版では、以下のことが可能である。

テキスト大海の航海法 -- トピックマップとA.C.スウィンバーンの詩--

John Walsh and Michelle Dalmau (インディアナ大学)

XMLトピックマップ(XTM)は、XMLによるトピックマップの事で、メタデータを 扱う、強力で自在なデータフォーマットである。 XTMには、デジタル資料のインタフェースや、TEI準拠の巨大テキスト資料といっ た、人文科学研究向け資料から情報を発見する新しい仕組みとなる可能性がある。 トピックマップ支持者は、トピックマップによる構造化によって、情報検索は 劇的に改善すると主張しているにもかかわらず、人文科学研究者が、トピック マップがもたらす豊かで自在な概念関係から、どれ程の恩恵が得られるものか を明らかにするといったユーザ主体の活動は、殆どみられない。

本ポスターでは、トピックマップの紹介を行い、TEI準拠のテキストコレクショ ンをどう使用し、どのような恩恵が得られるかについて、スウィンバーンプロ ジェクトを例に紹介する。 また、本ポスターでは、トピックマップベースと一般的な検索ベースのインタ フェースとで使用感を比較する手法についても解説する。 この比較研究調査による主な結果を基に、インタフェースのデモを行う。 また、この調査結果を基にした、別のデザインも紹介する。

本研究の目的は、人文科学のデジタル化研究において、トピックマップの論議 を活発化することにあり、人文科学研究者が、発見過程の中で普段使用してい る分類構造を超えたものを、トピックマップがもたらすことを示したい。 また、人文科学資料のデジタル化を、トピックマップやこれと似たメタデータ 構造を使って検討している人に、成功するユーザインタフェースのデザインを 示したいと考えている。

XXQ: XML資料向けクエリ言語

Lou Burnard (オックスフォード大学)

本ポスターでは、XXQの紹介を行う。XXQとは、新しいXML向けクエリ言語で、 Xaira(テキスト検索エンジン)と共に使用されることを前提に、現在、開発が 進められているものである。本ポスターでは、Xairaの紹介も行うが、発表の 中心は、検索エンジン独立のXML向けクエリ言語のアイディアを紹介すること にある。XXQは、"XPath+"と呼べるものかもしれない。XXQの主な特徴は、以下 である。

XXQは、正規表現の記述力を持つパターンマッチング言語で、(先読みしないと いう)比較時の弱点はあるものの、簡単なXMLで記述できるものである。

Syntaxから見たマークアップの課題

大矢一志 (鶴見大学)

マークアップする際に困難と感じる原因のうち、MLのSyntaxから見た「ひっか かりどころ」を紹介する。特に、はじめて本格的なマークアップによるデータ 作成を試みようとしたり、これからTEI準拠のデータ作成を試みられているケー スで必要であろう検討基準を紹介したい。

TEIガイドライン日本語版プロジェクト

大矢一志 (鶴見大学)

Christian Wittern (京都大学)

日本におけるマークアップ資料の作成を支援するために、TEIガイドラ イン日本語版を作る計画があり、現在、P4を土台に翻訳が進められている。 目標としては、P5の日本語版を作成する予定である。計画の概要と進行状況を 紹介し、参加者を募りたい。

『資治通鑑』マークアップ

中楯はまな (京都大学人文科学研究所)

「21世紀COE東アジア世界の人文情報學研究教育據點」内の「漢字文献ナリッジベースの構築」班では、中国の代表的な編年体の歴史書である『資治通鑑』の 中から唐紀(618-906)部分を中心として、そこから得られる人物、地域、著作 物などの情報を検索、利用できるためのマークアップを行っている。 ここまでのマークアップの進捗状況と、実例、課題、可能性を挙げたい。 漢字文献研究に関する伝統的な知識と最先端のデジタル化技術の融合の中で、 21世紀における新しい東アジア学のあり方、漢字文化の記述の方法を追求する 試みのひとつとして紹介したい。