大阪府の中古マンション物件の調査(13)

今日は5時半起き。

 

大阪府の中古マンション物件の調査(13)

 

1.「神奈川県下の中古マンション市場を分析してみる」

 

(1)suumoのサイトからpythonのスクレイピングで中古マンションのデータを

   収集する記事を発見

(2)サンプル・コードが2019年と古い為、今も有効か確認

→ Google Colab pro で実行する

→ 総件数は、取得できたが、肝心のマンション情報取得のコードが無い?

→ pd.read_html で地道に取得コードを作成していく

(3)suumoの賃貸をスクレイプするコードがあったので、そちらを試す。

  timeoutでエラーになる。HTTP経由でアクセスする場合、よく起こる。

  エラーを検知してリトライする必要がある。

(4)pd.read_html で物件名を取り出そうとするが、うまくいかない。

  いろいろ試してみる。

(5)pd.read_html で物件名とその他の情報を取り出せた。

  しかし、画面を見ながらコードを書くのでめっちゃ時間がかかる。

(6)pd.read_htmlをやめて、画面を表示して、「検証」コマンドで、

  htmlソースを見ながら、要素を1件ずつ取り出すと、「物件名」や、

  「価格」が取り出せた。但し、同じ「class-id」があると取り出せない。

 

2.「吹田市の中古マンション市場を分析してみる」

(1)中古マンションの一覧を作成する。

(2)各マンションのurlからhtmlを取り出して、マンション名を取得したが、

  5件中2件しか、物件名を取り出せない。

(3)Qiitaでsuumoから中古マンションのデータをスクレイピングするコードを

  見つけた。実行すると、東京のマンションデータを抜き出せた。

  吹田のデータに変更しても、実行できた。但し、昼間に実効したため、

  http 104 エラーでストップ。対策が必要。

(4)吹田市の中古マンションをスクレイピングできた。嫁に送って、

  見てもらった。iPadのNumbers で見れた。

(5)分析のための、地価と駅地価のデータがマージできない。

(6)地価と駅地価のデータがマージできないのは、エラー処理が無いためと

  仮定して、 TRY を入れたコードで実行してみる。

(7)サンプルにしてる Python コードを良く見てみると東京「都」を想定して

  「市区町村」を抜き出していた。「都」を大阪「府」にすると解決した。

3.分析

(1)スクレイピング・データの解析に Renom という機械学習パッケージを

  使いいているので、インストールしたが、エラーになる。

(2)原因は、 Renom が Python 3.6 でしか動かないのに、 Google Colab の

  Python が 3.7 のために、コンパイル・エラーになっているようだ。

  Google Colab の Python を 3.7 から 3.6 にダウングレードしようとしたが、

  できないようだ。

 

 

4.スクレイピング結果をWEBから見れるようにDJangoの勉強

(1)WEB + DB PRESS VOL.122 特集で WEB の仕組みをおさらい

 

5.住宅図面と写真から3D化できないか調査する