いなばにっき

とある大学助手のだらだら日記

スポンサーサイト

いなばにっきはblog.1783.orgに引っ越しました。

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Wikipedia の XML データからリダイレクトの項目以外のものを出力する

いなばにっきはblog.1783.orgに引っ越しました。

作業めもめも。

#!/usr/bin/ruby

target = ARGV[0]

redirectFlag = false
buffer = String.new

fh = open(target)
fh.each { |line|
buffer += line

if /<comment>redirect<\/comment>/ =~ line
redirectFlag = true
end

if /<\/page>/ =~ line
print "#{buffer}\n" if redirectFlag == false
buffer = ""
redirectFlag = false
end
}


実行

./delredirect.rb jawiki-20070903-pages-articles.xml


全件対象にして、8分ほどで出力終了。


grep '<page>' noredirect.xml | wc -l

で調べてみると、774490件。おかしいな。動作確認用にWikipediaの小さなサンプルを作ってみるで確認したデータと見比べても件数が減っていなさすぎる。
むむぅ。要再検討だな。
スポンサーサイト

« そういえば|Top|Rock魂 »

コメント

コメントの投稿

管理者にだけ表示を許可する

トラックバック

http://tetz.blog39.fc2.com/tb.php/235-42f035ad

Top

HOME

いなば

Author:いなば
とある私立大学のダラダラ助手。
機械には人格があると信じて疑わない。
最近、体脂肪率がすこ~し下がってとってもうれしい。

あわせて読みたい

にほんブログ村 教育ブログ 大学教育へ

ネットショップチャットレディSEO対策SEO誕生日プレゼントパワーストーン自動車

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。