検索結果を利用することが賢明か
ここしばらくはスクレイピングについて手当たり次第に検索しまくっています。いろいろ手法があって少し混乱気味ではあるけれど、目的達成にもっとも近いやり方を模索中。
しかし考えてみれば、スクレイピング対象となるサイトがはっきりしない状況では何も進めないことに気が付く。
どんな情報が欲しいのか?
ここがはっきりしないと動けません。もうひとつ、「その情報をどうするのか?」 ここも大事なポイント。
どんな情報をどうしたいのか?
このあたりの考え方で参考になる記事があったのでアップ。古いけど要点は変わってない。
ここで マッシュアップ という言葉がでてきています。もう何年も以前に聞いた言葉。
んー・・思えばスクレイピングで引っ張ってきた情報をそのままアップするだけならただのパクリかリンク集です。なにか他の情報と合わせることで違う価値をつけること・・これで付加価値のあるサイトを作れないか?
すでにたくさんのマッシュアップサイト、サービスがあるけれども、他とは違った何かを作りたい。
もうひとつ、気になる記事をアップします。それはスクレイピング技術で企業として成り立っているという例。
取ってきた情報を整形処理して、他に売り飛ばす?企業なのか。まあ、需要があるからお金にもなるということでしょう。自分でやるより買ったほうが安いし手間も掛からないという判断か。
関心のある情報を集める=検索である
単純に考えてみると、”ある事象に興味があるから、それを言葉に変換して検索する。”
とっても当たり前の事だけれども、ウェブのスタート、ポータルとなるのは ”いま、チェックしたいもの” ということになります。
それが、ニュースサイトだったり、あるいはフェイスブックだったり・・するわけで、もっと詳しくということになると検索、あるいは、そこにあるリンクボタンだったりする。
そう考えると、”もっとも関連事項が多く見れるところ” というのは検索結果なんですね。
検索結果のフィードをスクレイピング?
スクレイピング情報というのはどういうデータの形をしているのか?
これはただのリンクではないんですね。アクセスするたびに新しい情報に更新されている。
調べた限りでは rss,xml,json といった形式なわけです。そこで自分の欲しい情報だけを属性でフィルタリングしてとってくる。
取ってきたものを適当にhtmlとかphp、その他なんでもいいんですが、ブラウザで見れるようにするだけ。
これらのことをいろんなワードで検索すると、たくさんの個別事例記事がヒットします。初めてスクレイピングに接する場合は混乱すると思います。
さて、自分の今やろうとしていることを大雑把にいうと次のようになる。
- 特定の事象をまず検索する
- ヒットしたウェブページから不要なものをふるい落とす
- フィルタリングしたページから有用なものを選択
- 整形処理をして二次利用する
まあ、文字にすると簡単ですが、概要は以上。
フィルタリングが面倒ですね。これは目視じゃ無理。というか件数が多すぎると不可能。
なんか方法考えないと。たぶんある。
これらのことから グーグルフィードAPI ってのが一番良いかなと思ってる。
グーグルアラートの機能を使えば簡単にrssは引っ張れるので。
これを整形処理して見ることができるようにするのが第一段階です。自分が見るだけなら何もしなくても見れます。しかしサイトとして見せる場合はもっと工夫しなくちゃダメですね。
あと、ほかのデータとの組み合わせで見せることとか、作ろうとしているサイトの目的にもよるのでこの段階での設計図をいうことは無理がある。
最初にも述べましたが、やはり目的が重要。
これが決まればあとはすんなり行けるんじゃないかなと思います。
コメント