最近、スクレイピング(出力HTML から必要な情報を抜き出すこと)をがりがりやっているのだが、IT系サイトで結構、
- class,idがまったくついてない
- table大好きですね
とかいうサイトがとても多い気がする(削りにくくてかなわんです)。はてなとか、他のブログとか、のIT以外のサービスのHTMLの方がよほどしっかりしていてきれいな印象。
かってにスクレイピングとかされると広告効果が落ちると思っているため難読化してるのか、単純にスキルが足りないのかどっちなんだろう・・・
たぶん後者だと思うけど。なんかSI会社の中がシステム化されていないのに似ているな〜と思った。