corpus

  • ()コーパス、言語資料
  • ()全集、集大成
US/ˈkɔrpəs/
UK/ˈkɔrpəs/

発音のコツ

▶ 表示する

corpus は最初の音節「cor」にアクセントを置きます。口を丸くすぼめて「コー」と発音しながら、舌を後ろに引いて「r」の音を響かせます。続く「pus」は力を抜いて曖昧な「パ」と「ス」の中間のように短く発音します。「コーパス」とカタカナで平坦に読まず、最初を強く長く、後半を弱く短くするリズムを意識してください。

活用形

複数形
corpora
ラテン語由来の不規則な複数形です。
corpuses
規則的な複数形ですが、corporaの方が一般的です。

コアイメージ

研究や分析のために集められた言語データや作品の集合体がコアイメージです。主に言語学やAI開発でテキストデータを扱う時や、ある作家の全作品を指す時に使います。

corpusの意味・例文

名詞

可算

コーパス、言語資料

A collection of written or spoken texts used for linguistic analysis.

アカデミック

We compiled a large corpus of spoken English.

私たちは話し言葉の英語の大規模なコーパスを構築しました。

音声やテキストのデータを集める際によく使われます。

ビジネス

The AI model was trained on a massive text corpus.

そのAIモデルは膨大なテキストコーパスで訓練されました。

ITやAIの分野で学習データを指す時に頻出します。

ニュース

Researchers analyzed a corpus of social media posts.

研究者たちはSNSの投稿のコーパスを分析しました。

特定のプラットフォームから集めたデータ群にも使えます。

可算

全集、集大成

A complete collection of writings by a specific author or on a specific topic.

アカデミック

She studied the entire corpus of Shakespeare's plays.

彼女はシェイクスピアの戯曲の全集を研究しました。

特定の作家が残したすべての作品を指します。

フォーマル

The museum holds a significant corpus of ancient texts.

その博物館は古代文書の重要なコレクションを所蔵しています。

歴史的・文化的に価値のある文書の集まりを表現できます。

アカデミック

This book examines the corpus of medieval law.

この本は中世の法律の集大成を考察しています。

特定の分野やテーマに関する文献全体を指すこともあります。

語源

corpus はラテン語で「体」を意味する corpus に由来します。そこから「主要な部分」や「まとまった本体」へと意味が広がり、現在では言語データや作品の集大成を指すようになりました。同じ語根を持つ関連語には、人々が一体となった「法人」を意味する corporation や、「死体」を意味する corpse があります。

派生語・ファミリー

名詞corpse
形容詞corporate
形容詞corporeal

corpusの使い方

よく使う組み合わせ

build a corpus (コーパスを構築する)a text corpus (テキストコーパス)a large corpus of data (膨大なデータ群)the entire corpus (全集)analyze a corpus (コーパスを分析する)

使い分け

corpus は分析目的で集められた言語や作品の集合を、collection は趣味や目的を持って集めた物を、database はコンピュータで検索・処理しやすく整理された情報を表します。

The researchers analyzed a large corpus of spoken English.

言語や作品の体系的な集合という専門的なニュアンスです。

He has a large collection of vintage stamps.

個人的な趣味や特定の意図で集められた物の集まりです。

The customer information is stored in the database.

電子的に検索や抽出がしやすいよう整理されたデータの集まりです。

よくある間違い

× I read a corpus of Shakespeare for fun. ○ I read a collection of Shakespeare for fun. → corpus は分析や研究のために集められたものを指すため、趣味で読む場合は collection を使います。

× We need to update the customer corpus. ○ We need to update the customer database. → 顧客情報や数値データなどの電子的な記録には database を使います。corpus は主にテキストや言語のデータに使われます。

コラム

豆知識

語源であるラテン語の corpus(体)は、英語の多くの単語の根幹となっています。例えば、死体を意味する corpse や、人々が一体となった組織を意味する corporation などです。言葉の「体」がデータの集まりを指すようになったのは非常に興味深い変化です。

リアルな使われ方

ITエンジニアや言語学者の間では、AIモデルの訓練データを指す言葉として日常的に使われます。会議などで「We need a larger corpus to train the model.(モデルの訓練にはもっと大きなコーパスが必要だ)」といった形で、専門的な会話に頻出する表現です。

映画・音楽での使われ方

法廷ドラマや映画で「habeas corpus(人身保護令状)」というフレーズを耳にすることがあります。例えば、映画『リンカーン』の中でも、大統領がこの令状の停止について議論するシーンがあり、アメリカの法律や歴史において非常に重要な概念となっています。

イディオム・定型句

定型句habeas corpus

人身保護令状

The lawyer filed a writ of habeas corpus.

定型句corpus delicti

犯罪の客観的証拠

The police must establish the corpus delicti.

corpusを使った会話例

大学の研究室で、教授と大学院生が

A

How is your research on modern English vocabulary going?

B

It is going well. I am currently building a corpus of newspaper articles.

A

That sounds like a lot of work. How big is your collection so far?

B

I have gathered over a million words for the corpus.

A

Excellent. Are you planning to analyze the frequency of specific phrases?

B

Yes, I want to see how often they appear in a modern text corpus.

A

Good luck. Managing such a large database must be challenging.

B

Thank you, I will do my best.

文化的背景

近年ではAI(人工知能)や機械学習の技術的な発展に伴い、AIに言語を学習させるためのデータ群としての「コーパス」という言葉がIT分野でも頻繁に使われるようになりました。英米間で大きな差はなく、どの地域でも広く使われます。

よくある質問

Q. corpus とは?

言語学の分析のために集められたテキストや音声のデータ群、または特定の作家の全集を指します。『They compiled a large text corpus.(彼らは大規模なテキストコーパスを構築した)』のように学術やITの分野で使います。

Q. corpus と database の違いは?

database は検索や管理のために整理されたあらゆる電子情報の集まりです。一方の corpus は主に言語研究やAIの学習用に集められたテキストデータの集まりを指します。『We analyzed a corpus of English.』のように使われます。

Q. corpus は日常会話で使われますか?

日常会話ではあまり使われず、主に言語学、AI開発、文学などの学術的・専門的な文脈で登場します。『The model was trained on a massive corpus.(そのモデルは巨大なコーパスで訓練された)』のように使います。

Q. corpus の複数形はどうなりますか?

ラテン語の規則に従った corpora が最も一般的です。英語式の corpuses も間違いではありませんが、学術論文などでは『We compared two different corpora.』のように corpora が好まれます。

Q. corpus の語源はなんですか?

ラテン語で「体」を意味する単語に由来します。そこから「作品の本体」や「データのまとまり」という意味に派生しました。『The main corpus of the text is complete.』のように、文章の主要部分を指すこともあります。

CHECK QUIZ

Q: 「電子的に整理された顧客情報」を指すのに最適な単語は?

Q: 「複数の言語コーパスを比較する」と言う場合、corpus の正しい複数形は?

Q: 「the entire corpus of Shakespeare」が意味するものは?