オズの本棚

オズの本棚

30代中小企業診断士が自分が読んで役立ったビジネス書をご紹介。悩める若手〜中堅ビジネスマン向け書評ブログです。

【レビュー】カルチャロミクス

f:id:yositaca:20161012081125j:plain

評価:★★★☆☆

ビックデータの分析技術を人文科学に適用すると、一体どのようなことが分かるのかを具体的に語っている一冊です。Googleが提供するNグラム・ビューワーというシステムを使うことにより、これまでとは全く新しい本の分析手法が紹介されています。データ分析は私たちの身近な部分でも活用できるなぁと空想が膨らみました。

誰でもデータ分析ができる!?

学問には、自然科学・社会科学・人文科学という3つの分野があります。人文科学は、哲学・論理学・歴史学言語学など一般的に文系と言われる学問をイメージすると分かりやすいかと思います。人文科学について、wikipedeiaでは次のように説明されています。

広義には自然学が学問的対象とする自然(nature)に対して、人間人為の所産 (arts) を研究の対象とする学問であり、またそれを可能にする人間本性(human nature)を研究する学問である。

<wikipedeia 人文科学>

人文科学で取り扱うデータは、人間が産み出したものが対象です。ですので、データ取得がとても大変。その点、本書で紹介されているNグラム・ビューワーでは、Googleがスキャンした過去数世紀に渡る書籍データを元にして、コンピュータでいつでも簡単にデータが取り出せるそうです。で、一体何ができるんでしょうか。

テキストは人類の考え方の断面図

Nグラム・ビューワーでは、ある一つの単語が、10億語あたり何回出現するかを教えてくれます。これは実際にみた方が理解しやすいので、”蒸気機関車(steam locomotive)”という単語を調査してみました。

 

f:id:yositaca:20161012085707p:plain

 

蒸気機関車”は1800年初頭に発明されたのですが、最初は全く出現しません。1840年以降から、徐々に出現頻度が高くなってきており、1950年代でピークを迎えます。現在では、一般的に使われる頻度は最盛期の半分以下となっています。こうしてみると、ある特定事項が人々に対してどこまで浸透しているのかが理解しやすくなっています。

本書では、Nグラム・ビューワーを利用して、英単語の不規則動詞の歴史や著名人の名声、発明品の社会への浸透具合まで、様々な対象を分析しています。これらを分析するにあたり、今後、人文科学の世界でも大量のデータを活用した科学的手法は必須となっていくのでしょう。

まとめ

最も衝撃的だったのは、Nグラム・ビューワーが無償公開という点でした。誰でも単語打ち込むだけで、簡単にデータを取得できます。早く日本語版も公開してほしいものです。このような無償公開が可能になっているのも過去データを元にしているからですね。現在、巷には書籍以外にも様々なテキストデータが生み出されていますが、これらを同様に活用するには、著作権やプライバシーといった権利関係を整備しないと活用が難しいと本書でも指摘されています。きっとそのあたりはGoogleさんが頑張ってくれるのではないかとひそかに期待しちゃいますね。