地球ことば村
言語学者・文化人類学者などの専門家と、「ことば」に関心を持つ一般市民が 「ことば」に関する情報を発信!
メニュー
ようこそ

【地球ことば村・世界言語博物館】

NPO(特定非営利活動)法人
〒153-0043
東京都目黒区東山2-9-24-5F
TEL:03-5798-2828
FAX:03-3713-9932
http://chikyukotobamura.org
info@chikyukotobamura.org

コンピュータ言語

「コンピュータ言語(computer language)」というのは,とても素朴な言葉で, 意味は「コンピュータが使う言語」ということになります. では,コンピュータが使う言語とは何でしょう. これには様々な意見が提案されているようですが,「自然言語に対峙する言 語」とするのが,歴史的にも一番素朴な捉え方だと思います. 「自然言語」とは,人工的に作られた言語,すなわち形式言語(formal language)や人工言語(artificial language)などの機械向け言語に対峙する言 語の総称で,生物(一般には人間)が使用する言語のことです. 工学者がこの「自然言語」を使い始めたとき,言語学者の中には「なにが自然 だ,けしからん」と反感を覚えた方々がいたようですが,これも今は昔のこと でしょう.わたし達が使うことばと,コンピュータが使う言葉には,強い関連 性があることが判っています.

例えば,コンピュータは,人の言葉を簡単に扱ってしまいます.

文字の集合をΣとし,σ∈Σとします.また,σを1つ 並べた文字列を作る規則δをδ1={σ},2つ並べ る規則をδ2={σσ}とします.文字列の長さをn とする生成規則の集合をΔ={δ0, δ1, ... ,δn}とします.このような ΣとΔから成る文法G={Σ, Δ}を考えたとき,このGか ら生み出される言葉(言語)は,L(G)と表現できます. この言語L(G)は,文字列の長さを指定すると,わたし達が使う言葉を全て作り 出すことができます. (解説)

このように,コンピュータは簡単に人の言葉を作ることができてしまいます. しかし(もうお気づきかもしれませんが),機械が自然言語(と認められるもの) を作り出すのは,あくまで「確率的」でしかありません.たまには(?)それら しいことばを作りますが,殆どはトンチンカンなことばを作ります. この背景は,コンピュータは,形式,つまり文字のレベルでは自然言語をそれ なりに扱うことが出来るのですが,残念ながら,モデル,すなわち意味のレベ ルでは,自然言語を殆ど扱えない,という現状があります. つまり,子供が要らぬことをして親にしかられるように,コンピュータが扱っ た文字を,人間が「正しい」「ダメ」と判断してやる必要があります. もちろん,学習すれば,それなりの成果はでます.良くできた自動翻訳機を使 うと「なかなか賢い」と感じます. しかし,現状では,コンピュータは未来の言葉を予測することはできません. つまり,「正しい言葉」を判定する術(すべ)を知りません.

もちろん,この原因は,わたしたち人間の側にあります. わたしたちは,言葉を分析しますが,まだ「何が正しい言葉」なのかを理解で きていません. 1)どのような意味を,2)正しいこととするかが,扱えないでいます.

手塚治虫の鉄腕アトムを題材にした浦沢直樹さんのmanga『Pluto』には,心を 持たない(はず)ロボット達が,心を想像し,苦悩します.この心を持たないは ずのロボットが苦悩する様を,読みながら想像すると,頭がクラクラして,目 眩がします.人間を想像するロボットを人間が想像する.一見単純な抽象化で すが,わたしには難しすぎるようです. 実は,この手の抽象化を,ひとは長い歴史の間で,上手く扱うことが出来ない できました.言葉の意味を定義する言葉の意味をどのように定義するか,とい う問題です. このような記述は,学術的には「メタ記述」といいます. 例えば,言語学の世界では

「太郎が『おはよう』といった.」

の様な,(間接|直接)話法の話がこれと関連します. この「メタ記述」自体の認識は,古の時代からありましたが,今日でいう「メ タ性」の研究が始まってからは,実は,まだ1世紀も経っていません. 「まだ全体像がよくわかない」世界です. 一部の成果は,言語学にも応用されていますが(注1),まだまだ手探りの状態です.

この手探りのひとつに,「メタ言語による意味の記述」という研究が,現在進 められています.今まで,言語学では,言葉の意味は,辞書のように,つまり, 単語ごとに意味を記述してきました.しかし,これでは,実際に使われるとき の意味を,上手くまとめることができませんでした.そこで登場したのが, 「コーパス(言語資料, corpus, corpora)」という,電子化されたデータを使 い,意味の定義と実例を関連づけることでした(注2).これは,辞書としては, 大変便利なものです. しかし,意味の研究,さらにはコンピュータが使う意味の研究としては,これ ではまだ不十分です. なぜなら,まだ意味は人が決めているからです. そこで,現在,期待されているのが,「メタ記述付きのコーパス」を作成し, そこから「意味を分析」しようという試みです.例えば,

<主人公>太郎</主人公>が
『<挨拶 tone="単調" remark="わざと快活性を殺した発言">おはよう</挨拶>』
といった.

の様に,地の文に解説を付けた言語資料を作り,これを元に,人の言語活動を 観察しようとする試みです. 今までは,直感を頼りに分析していたことが,ここからあるパタンとして定義 できるかもしれません.さらには,子供と大人の会話から,ひとが行っている 学習ルールも見つけられるかもしれません. しかし,これはまだ始まったばかりの研究です.

言語学者にとって,コンピュータが使う言語を学ぶことは,自然言語の意味を 客観的に捉えるよい訓練になる他,意味の本質を捉えることができるかもしれ ない道具を得ることにもなります.

《大矢一志:情報科学・マークアップ言語(2008年掲載)》