2007年11月04日

グーグルが日本語コーパスを公開だって

元記事はこちら

コーパスというのは、コンピュータによる検索が可能になっている大量の言語データのこ、だそうで(はてなより)。

それでもって、Google は、「N-gram」という仕組みだそうで、記事には、
N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。
と書いてある。

例えば、ATOK などは「ほんがあつい」「きょうはあつい」「こーひーがあつい」と入力されたときはそれぞれ「本が厚い」「今日は暑い」「コーヒーが熱い」のように「あつい」がどの「あつい」なのかを自動的に判断する。これは大量な文章から解析したものを微妙に微妙にチューニングする作業のたまものなのですが、Google はそんな努力をばかでかいCPUパワーで吹き飛ばそうとしているわけですね。

先に何が入るのかを推測するのがN-gramだそうで、「今日は」と来たら次にどんな単語が来るのかを(200億文から)多い順に並べることができるそうです。

で、記事によるとそんなデータを公開するそうで(無償ではない)。とても興味がありますねぇ。
posted by n_shimizu at 02:26| Comment(0) | TrackBack(0) | 日記2
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/6451300
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック