今日は8時半起き。
大阪府の中古マンション物件の調査(9)
1.「神奈川県下の中古マンション市場を分析してみる」
(1)suumoのサイトからpythonのスクレイピングで中古マンションのデータを
収集する記事を発見
(2)サンプル・コードが2019年と古い為、今も有効か確認
→ Google Colab pro で実行する
→ 総件数は、取得できたが、肝心のマンション情報取得のコードが無い?
→ pd.read_html で地道に取得コードを作成していく
(3)suumoの賃貸をスクレイプするコードがあったので、そちらを試す。
timeoutでエラーになる。HTTP経由でアクセスする場合、よく起こる。
エラーを検知してリトライする必要がある。
(4)pd.read_html で物件名を取り出そうとするが、うまくいかない。
いろいろ試してみる。
(5)pd.read_html で物件名とその他の情報を取り出せた。
しかし、画面を見ながらコードを書くのでめっちゃ時間がかかる。
(6)pd.read_htmlをやめて、画面を表示して、「検証」コマンドで、
htmlソースを見ながら、要素を1件ずつ取り出すと、「物件名」や、
「価格」が取り出せた。但し、同じ「class-id」があると取り出せない。
2.「吹田市の中古マンション市場を分析してみる」
(1)中古マンションの一覧を作成する。
(2)各マンションのurlからhtmlを取り出して、マンション名を取得したが、
5件中2件しか、物件名を取り出せない。
(3)Qiitaでsuumoから中古マンションのデータをスクレイピングするコードを
見つけた。実行すると、東京のマンションデータを抜き出せた。
吹田のデータに変更しても、実行できた。但し、昼間に実効したため、
http 104 エラーでストップ。対策が必要。
(4)吹田市の中古マンションをスクレイピングできた。嫁に送って、
見てもらった。iPadのNumbers で見れた。
3.スクレイピング結果をWEBから見れるようにDJangoの勉強
(1)WEB + DB PRESS VOL.122 特集で WEB の仕組みをおさらい