検索エンジン・コーパスの注意点 3 〜 書き手について
今回は、検索結果に出てくるページを見ていくことにしましょう。
まず、前回アメリカのドメイン(というより、誰でも使えるようになって
いる)の中で、非ネイティブ率が低そうなドメインです。
.gov…政府機関向け
.mil…軍事機関向け
.edu…教育機関向け
もちろん、教育機関には留学生もいますし、外国から招聘された教員もい
ますから、彼らの英語は非ネイティブなわけです。
それでも、これらのページの英語は割合ネイティブの英語だと思って読ん
でいいわけです。
その他、民間だと出版社や雑誌社などは問題が少ないでしょう。
アナウンサーやライターはいいと思います。
インタビュー記事は、話し手によります。
詩人の英語や、歌手の英語は、正しい英語というより芸術やエンターテイ
ンメントの英語ですね。
このように、ネイティブなら正しい英語の文章かといえば、もちろんそう
ではありません。
あなたも試してみればわかりますが、ワードなどで自分の書いた日本語の
文章をチェックしてみてください。
かなりチェックが入りませんでしたか?
私は必ず訂正するように警告を受けます。
要はネイティブでも、よほどの人でない限り正しい言葉を使っているとは
限らないということです。
このように見ていくと、結局書き手が誰であるか、そしてその人の英語力
がどの程度かを個別に見ていくことが必要だということがわかります。
言葉というものは変化していくものですが、英語は私たちのような非ネイ
ティブも多用しますので、より変化が起こりやすい言語なのかもしれませ
ん。
そして、ネット上で非ネイティブがこぞって今までとは違うフレーズを使
い始めると、それがスタンダードになる可能性もあります。
検索エンジンをコーパスとして考えた場合、その変化を一番早く反映し
たデータベースであるということができます。
次回はまた、「あなたに必要な単語数」の話に戻ります。

