2007年11月04日

グーグルが日本語コーパスを公開だって

元記事はこちら

コーパスというのは、コンピュータによる検索が可能になっている大量の言語データのこ、だそうで(はてなより)。

それでもって、Google は、「N-gram」という仕組みだそうで、記事には、
N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。
と書いてある。

例えば、ATOK などは「ほんがあつい」「きょうはあつい」「こーひーがあつい」と入力されたときはそれぞれ「本が厚い」「今日は暑い」「コーヒーが熱い」のように「あつい」がどの「あつい」なのかを自動的に判断する。これは大量な文章から解析したものを微妙に微妙にチューニングする作業のたまものなのですが、Google はそんな努力をばかでかいCPUパワーで吹き飛ばそうとしているわけですね。

先に何が入るのかを推測するのがN-gramだそうで、「今日は」と来たら次にどんな単語が来るのかを(200億文から)多い順に並べることができるそうです。

で、記事によるとそんなデータを公開するそうで(無償ではない)。とても興味がありますねぇ。
posted by n_shimizu at 02:26| Comment(0) | TrackBack(0) | 日記2