いなばにっき

とある大学助手のだらだら日記

スポンサーサイト

いなばにっきはblog.1783.orgに引っ越しました。

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Wikipedia のデータをテキストファイルにするメモ(2)

いなばにっきはblog.1783.orgに引っ越しました。

いろいろあって、結局自前で ruby でやってみることにしてみる。

・欲しいのは、タイトルと本文部分だけ。
・text の中身の整形については別途考える


#!/usr/bin/ruby
require "rexml/document"
require "iconv"
$KCODE="UTF-8"

source = ARGV[0]
xml = REXML::Document.new(File.open(source))


みたいなかんじでとりあえず読み込んでみるだけのテスト。


一時間経過…。

ぐは。読み込みだけなのに時間かかってしょうがねぇ。
とりあえず小さなサンプルデータを作ってみる。

サンプルデータでは成功。
んでもって、テキストとタイトルを抜き出してみるテスト。


#!/usr/bin/ruby
require "rexml/document"
require "iconv"
$KCODE="UTF-8"

source = ARGV[0]
xml = REXML::Document.new(File.open(source))
xml.elements.each("mediawiki/page"){|page|
title = page.text("title")
text = page.text("revision/text")
print "#{title}\n#{text}\n"
}

ばっちおっけー。

さらに、Wikipedia のモノホンデータの最初と最後をくっつけたサンプルデータ(モノホン風味)を作成して、同じスクリプトで回してみる。

さらにおっけー。

あとやるべきこと。
・文書番号ナンバリング
・タイトルと文書番号を関連付けたTSVファイル生成
・文書番号をファイル名としてテキスト部分を出力
・(余裕があれば)ディレクトリを掘る
・(さらに余裕があれば)文書数を見て、ナンバリングの桁数とディレクトリの深さを自動決定
スポンサーサイト

« 動作確認用にWikipediaの小さなサンプルを作ってみる|Top|Wikipedia のデータをテキストファイルにするメモ(1) »

コメント

コメントの投稿

管理者にだけ表示を許可する

トラックバック

http://tetz.blog39.fc2.com/tb.php/229-840fcef1

Top

HOME

いなば

Author:いなば
とある私立大学のダラダラ助手。
機械には人格があると信じて疑わない。
最近、体脂肪率がすこ~し下がってとってもうれしい。

あわせて読みたい

にほんブログ村 教育ブログ 大学教育へ

ネットショップチャットレディSEO対策SEO誕生日プレゼントパワーストーン自動車

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。