英語字幕をカウントするフリーソフトウェアを探す。

今朝は3時起き。昨日の夜、netflixから英語字幕をダウンロードしてからずっと、単語の頻出回数をカウントするフリーソフトウェアを探している。それが気になって寝つきが悪かった。

ルーチン:英しゃべのリスニング。GRCでブログの順位をチェックする。(ライフシフト AI)16位から98位。大幅にダウンした。このままでは圏外になる。(AI 人生100年)16位から15位。こちらは変動がわずか。

やりなおし英語)(習慣化ドリル)。中学英語は7日間。SEkids。

 

GitHUBにフリーのソフトウェアがないか探した。GitHUBのサイにいってキーワード(word frequency count python)で検索すると「WordFrequencyCount」と言うソフトが見つかった。500行近くあるpythonにしてはそこそこの規模のツールだ。

早速、ダウンロードして、pythonの実行環境を作る。

 

実行環境を作るためにanacondaをインストールした。英語字幕をカウントするソフトのためには、大げさな環境だが、設定とかいらずにすぐ使えるのでこれにした。

 

プログラムのソースを読んだが、私のpythonの知識では、よくわからない。

昨日、ダウンロードしたファイルで動くかどうか試してみる。すると、モジュールが見つからないというエラーが発生した。パッケージのrequestsが見つからないエラーだ。

anacondaでパッケージのrequestsをインストールして実行した。

今度は、実行されたが、単語ではなく数字の出現回数の多いものを10件ほどディスプレイした。

原因は、字幕ファイルに入っている、字幕の表示時間を表す時刻がカウントされたらいい。

字幕ファイルを数字とセミコロンを全てスペースにして数字を無くした。そして英語のソースコメントから -n パラメーターを指定すると全件出力するらしい。

修正後の字幕ファイルと -n パラメータを指定すると英単語の出力回数が多い順にディスプレイされた。

 

英単語の出力回数は、CSV形式でExcelで見たいので、プログラムを修正する必要がある。

 

今日はここまで。1日で随分と進んだ気がするが、とにかく眠い。続きは明日。