corpus
- (名)コーパス、言語資料
- (名)全集、集大成
発音のコツ
▶ 表示する▼ 閉じる
corpus は最初の音節「cor」にアクセントを置きます。口を丸くすぼめて「コー」と発音しながら、舌を後ろに引いて「r」の音を響かせます。続く「pus」は力を抜いて曖昧な「パ」と「ス」の中間のように短く発音します。「コーパス」とカタカナで平坦に読まず、最初を強く長く、後半を弱く短くするリズムを意識してください。
活用形
- 複数形
- corpora
- ラテン語由来の不規則な複数形です。
- corpuses
- 規則的な複数形ですが、corporaの方が一般的です。
コアイメージ
研究や分析のために集められた言語データや作品の集合体がコアイメージです。主に言語学やAI開発でテキストデータを扱う時や、ある作家の全作品を指す時に使います。
corpusの意味・例文
名詞
コーパス、言語資料
A collection of written or spoken texts used for linguistic analysis.
We compiled a large corpus of spoken English.
私たちは話し言葉の英語の大規模なコーパスを構築しました。
音声やテキストのデータを集める際によく使われます。
The AI model was trained on a massive text corpus.
そのAIモデルは膨大なテキストコーパスで訓練されました。
ITやAIの分野で学習データを指す時に頻出します。
Researchers analyzed a corpus of social media posts.
研究者たちはSNSの投稿のコーパスを分析しました。
特定のプラットフォームから集めたデータ群にも使えます。
全集、集大成
A complete collection of writings by a specific author or on a specific topic.
She studied the entire corpus of Shakespeare's plays.
彼女はシェイクスピアの戯曲の全集を研究しました。
特定の作家が残したすべての作品を指します。
The museum holds a significant corpus of ancient texts.
その博物館は古代文書の重要なコレクションを所蔵しています。
歴史的・文化的に価値のある文書の集まりを表現できます。
This book examines the corpus of medieval law.
この本は中世の法律の集大成を考察しています。
特定の分野やテーマに関する文献全体を指すこともあります。
語源
corpus はラテン語で「体」を意味する corpus に由来します。そこから「主要な部分」や「まとまった本体」へと意味が広がり、現在では言語データや作品の集大成を指すようになりました。同じ語根を持つ関連語には、人々が一体となった「法人」を意味する corporation や、「死体」を意味する corpse があります。
派生語・ファミリー
corpusの使い方
よく使う組み合わせ
使い分け
corpus は分析目的で集められた言語や作品の集合を、collection は趣味や目的を持って集めた物を、database はコンピュータで検索・処理しやすく整理された情報を表します。
よくある間違い
× I read a corpus of Shakespeare for fun. ○ I read a collection of Shakespeare for fun. → corpus は分析や研究のために集められたものを指すため、趣味で読む場合は collection を使います。
× We need to update the customer corpus. ○ We need to update the customer database. → 顧客情報や数値データなどの電子的な記録には database を使います。corpus は主にテキストや言語のデータに使われます。
コラム
豆知識
語源であるラテン語の corpus(体)は、英語の多くの単語の根幹となっています。例えば、死体を意味する corpse や、人々が一体となった組織を意味する corporation などです。言葉の「体」がデータの集まりを指すようになったのは非常に興味深い変化です。
リアルな使われ方
ITエンジニアや言語学者の間では、AIモデルの訓練データを指す言葉として日常的に使われます。会議などで「We need a larger corpus to train the model.(モデルの訓練にはもっと大きなコーパスが必要だ)」といった形で、専門的な会話に頻出する表現です。
映画・音楽での使われ方
法廷ドラマや映画で「habeas corpus(人身保護令状)」というフレーズを耳にすることがあります。例えば、映画『リンカーン』の中でも、大統領がこの令状の停止について議論するシーンがあり、アメリカの法律や歴史において非常に重要な概念となっています。
イディオム・定型句
人身保護令状
“The lawyer filed a writ of habeas corpus.”
犯罪の客観的証拠
“The police must establish the corpus delicti.”
corpusを使った会話例
大学の研究室で、教授と大学院生が
How is your research on modern English vocabulary going?
It is going well. I am currently building a corpus of newspaper articles.
That sounds like a lot of work. How big is your collection so far?
I have gathered over a million words for the corpus.
Excellent. Are you planning to analyze the frequency of specific phrases?
Yes, I want to see how often they appear in a modern text corpus.
Good luck. Managing such a large database must be challenging.
Thank you, I will do my best.
文化的背景
近年ではAI(人工知能)や機械学習の技術的な発展に伴い、AIに言語を学習させるためのデータ群としての「コーパス」という言葉がIT分野でも頻繁に使われるようになりました。英米間で大きな差はなく、どの地域でも広く使われます。
よくある質問
Q. corpus とは?
言語学の分析のために集められたテキストや音声のデータ群、または特定の作家の全集を指します。『They compiled a large text corpus.(彼らは大規模なテキストコーパスを構築した)』のように学術やITの分野で使います。
Q. corpus と database の違いは?
database は検索や管理のために整理されたあらゆる電子情報の集まりです。一方の corpus は主に言語研究やAIの学習用に集められたテキストデータの集まりを指します。『We analyzed a corpus of English.』のように使われます。
Q. corpus は日常会話で使われますか?
日常会話ではあまり使われず、主に言語学、AI開発、文学などの学術的・専門的な文脈で登場します。『The model was trained on a massive corpus.(そのモデルは巨大なコーパスで訓練された)』のように使います。
Q. corpus の複数形はどうなりますか?
ラテン語の規則に従った corpora が最も一般的です。英語式の corpuses も間違いではありませんが、学術論文などでは『We compared two different corpora.』のように corpora が好まれます。
Q. corpus の語源はなんですか?
ラテン語で「体」を意味する単語に由来します。そこから「作品の本体」や「データのまとまり」という意味に派生しました。『The main corpus of the text is complete.』のように、文章の主要部分を指すこともあります。
CHECK QUIZ
Q: 「電子的に整理された顧客情報」を指すのに最適な単語は?
Q: 「複数の言語コーパスを比較する」と言う場合、corpus の正しい複数形は?
Q: 「the entire corpus of Shakespeare」が意味するものは?