今日は4時半起き。
Qiita 記事でランキング・サイトを構築する(5)
1.Qiia 記事を使ったランキング・サイトを企画する
(1)下記の記事でパクったサイトを作る。
(2)Qiita API の制限で 1時間当 1000件までしか記事を取得できない
(3)どんなデータが取得できるかがわからない
Qiita 記事で API で記事取得している Python コードで試してみる。
→ 記事本文を取得しているサンプルが無い。
→ 本文を取得しているサンプルはあったが、 colab 上では動かない。
→ Qiita API のドキュメントを熟読するが、いまいちわからん。
2.Qiia API を使って記事を取得してみる
(1)現状のコードの使い方では、 API 仕様を理解していないようだ。
(2)Qiita API で、まずは、記事の取得をして API の仕様を理解する。
3.パクリサイトなので、まずは、丸パクリをしてみる。
(1)本の LGMT から定量評価をしている。記事の量が多すぎる。
(2)Qiita の記事が多岐に渡っているので、技術以外の記事も調べてみる。
(3)Qiita の記事を 2013年9月(Qiitaの開始年)から記事を抽出をした。
→本のリンクをうまく取り出せない。Pythonの正規表現でurl抽出?が必要。
(4)Python を使って URL を抽出するサンプル・コードを見つけた。
Qiit API のスクレイピング結果を使って HTML から URL を抽出できた。
→ いろんなキーワードでググった結果。