いなばにっき

とある大学助手のだらだら日記

スポンサーサイト

いなばにっきはblog.1783.orgに引っ越しました。

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Wikipedia のデータをテキストファイルにするメモ(1)

いなばにっきはblog.1783.orgに引っ越しました。

研究用のサンプルデータとして、とりあえず Wikipedia 日本語版を考えています。
現状、Wikipedia のデータは Wikipedia:データベースダウンロードにあるように、http://download.wikimedia.org/jawiki/ から入手できます。

このデータは、圧縮された巨大な XML データなんですが、全文検索のサンプルにすることを考えると、プレーンテキストになっている方が扱いやすい。てことで、同志社大学言語文化教育研究センターの長谷部 陽一郎先生が書かれた WP2TXTを使う予定です。

ちょっと今日時間が取れるか微妙なので、場合によっては明日に続く、かも。
スポンサーサイト

« Wikipedia のデータをテキストファイルにするメモ(2)|Top|Sambaサーバの運用 »

コメント

コメントの投稿

管理者にだけ表示を許可する

トラックバック

http://tetz.blog39.fc2.com/tb.php/228-b0544332

Top

HOME

いなば

Author:いなば
とある私立大学のダラダラ助手。
機械には人格があると信じて疑わない。
最近、体脂肪率がすこ~し下がってとってもうれしい。

あわせて読みたい

にほんブログ村 教育ブログ 大学教育へ

ネットショップチャットレディSEO対策SEO誕生日プレゼントパワーストーン自動車

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。