スクレイピングという技術 情報の集約化 自動化について

スポンサーリンク

欲しい情報だけを抜き出して表示させること

”情報の集約化” というテーマでしばらくウェブをうろついていました。

その結果、スクレイピング という言葉があることを知り、それについていろいろ調べていました。興味があれば検索してみてください。たくさんヒットするはずです。

検索結果においては個別記事?というのか、プログラミング言語別に、いろんなサンプルコードなどがあり、またそれぞれの目的に応じて個別事例がアップされています。

今回、スクレイピングを包括的に理解するために次のように考えてみました。あくまで僕の見解であり、まったくのプログラミング未経験者という立ち位置での見方です。

ディスプレイに欲しい情報をどのように表示させるか?

まず、目標と言いますか、最終的な形をイメージしてみます。

1、公開化非公開を問わず、最終的にはディスプレイに目視で一発で理解できる形・・つまり ”情報を表示” をさせること。

第一段階は上述したことが目標となります。いままでウェブをうろついて探し回った、あるいは お気に入り からそのつどチェックしていた情報を一元化して表示する。

こうすれば、かなりストレスを軽減できますね。第二の目標は次となります。

2、集約した情報の二次利用

二次利用というのは、たとえばデータファイルとして集約した情報を自動的に書き込んで保存してくれるような機能、利用の仕方になります。

コレが実現できれば、たとえばトトくじにおけるデータをかなり細かいところまで自動でデータ化できるはず。恥ずかしながら僕はずーっとコピペでCSVなどのデータファイルを作成していました。株とか為替情報なども集約サイトはすでにあるけれども、自分用にカスタマイズできればいいなと。

あと、ニュースでみるテキスト情報をなんらかの方法・・(自然言語処理ですね。。)を、こういった技術でデータ化して将来予測に応用できないかとか。

おそらく、こういった自動化プログラムはもうすでにたくさんあるはずですね。僕が無知なことと、使い方を知らないだけだと思う。情報を抜き出してデータ化することは、おそらく一発のプログラムで自動化できます。

3、データ化したものから将来予測をする

第三段階は・・・

”データから将来予測をすること” 


 

ここが一番大事なポイントになるんじゃないかと思います。

情報を集めデータ化したからといって何も起こることは無い。問題はそこから何かを見つけること。何かをみつけて、それについて将来予測をする。そして、それにしたがってアクションを起こすことです。

これは僕がずーっと考え続けていることです。

おそらくこれらのことは無意識にみんな行っていることですね。

ニュースとか、あるいは本、その他情報と名の付くものすべてから ”将来に対する予測” というものを意識せずとも行っている。

それで ”情報に呑まれてる” という感じを受けてしまってる。僕の場合はそうです。だから、受け身にならず自分から欲しい情報だけを取りにいって、それを整理し、そして利用しようということなんです。それを言葉でいうなら ”スクレイピング” となるんじゃないかと。

まとめ記事はスクレイピングなのだ

言葉のイメージからするとあんまり良い印象はないですが、なぜウェブを利用するのか? ということを考えていくとスクレイピング技術の有用性が理解できると思います。少なくとも僕はそうでした。

今現在、まとめ記事というのは人気があります。それはなぜか?

まとめは役に立っているからですね。いろんな情報を一箇所に集めてくれている。しかも特定のテーマにそって集めてくれている。だから役に立つ。

どうでもいいようなゴミ記事?みたいなものもあるけれど、それでもそういうコンテンツを求めている人にしてみれば ”楽しめる” エンタメ要素で役に立っている。

バイラルメディアといわれるものも、ようはスクレイピングサイトなんだと思います。

まとめサイトはまだ第一段階だ

さて、いろいろ書いてきましたが、僕の見方からするとまだ ”まとめサイト” は第一段階ですね。

特定のテーマで情報を集めてきただけ。そしてそれを不特定多数に公開して、広告を置いてマネタイズしてる・・という段階だと思います。かなり上から目線で書いていますけれども、そういうふうにしか見えない。

まとめ記事にたいするコメントなどもあって、”コンテンツを作りだしてる” ともいえますが、もっと付加価値を生み出すことはできるんでしょうか?

コンテンツのパクリサイトを奨励しているわけではありませんが、”コンテンツがさらなるコンテンツを生み出すこと” ができれば二次利用としては良い方向にいくんじゃないかと思いますけどね。

 


 

 

今回はスクレイピングについてでした。プログラミングについてはまったく初心者なので、トンチンカンなことかいてるかもしれません。。

さて、よく考えてみれば、天下のグーグルもスクレイピングサイト?なんですね。

検索 は スクレイピング といえます。

特定のテーマにたいして情報を表示してくれるんですからねえ。ちょっと違うか。

 

 

 

 

 

コメント

タイトルとURLをコピーしました