週末文書

とりあえず、まぁ、週末です。

善福寺川の桜、日本語処理の資源

今週やったこと

読書

キム・ニューマンドラキュラ紀元一八八八』読了(感想)。次に読む本はまだ決めていません。

散歩

f:id:medihen:20190331121615j:plain
妻と一緒に善福寺川の緑地公園まで歩いて、桜をみてきました。雲がかかっていたのは残念ですが、ほぼ満開の桜が川沿いに続いて、素晴らしい光景でした。花見の人出も満開という感じでしたが、歩道は空いていたのでゆっくり桜を眺めることができました。
f:id:medihen:20190331122119j:plain

今週やったこと(週末プロジェクト)

日本語処理環境についての情報収集

人工無脳を作ることを考えてみると、少なくとも、形態素解析と辞書が必要あるいは使えた方がいいのだろうと思います。というか、人工無脳を通じてこういった技術に触れてみたいということでもあります。
Pythonで開発を行う前提で調べたところ、次のような資源が利用可能可能だということがわかりました。
形態素解析ライブラリー……MeCabが広く使われているライブラリーのようですが、構成が複雑だという話もあります。どうやら初心者には、janomeが使いやすいようです。さらにYahoo! JapanWebサービスとして形態素解析を始めとするテキスト解析のWebAPIを公開していることもわかりました。おそらく解析に使われる辞書は、Yahoo!のような企業がメンテ・拡充しているWebサービスの方が優れているのだとうと思います。将来はこういったサービスを使う方法も試してみたいと思います。
辞書(概念辞書)……頭の中で人工無脳を作ることを考えると、プログラムから類義語を引ける辞書があると良さそうだと思いました。オンラインの辞書や日本語に関するデータベースは、その道のプロとして(?)国立国語研究所が公開しているものがあります。でも、専門性が高すぎたりプログラムで使う前提なのか?というものが多くピンときません。さらに探してみたところ、NICTALAGIN 言語資源・音声資源サイト経由で日本語 Wordnetにたどり着きました。とりあえずは、この辞書を使ってみることを前提として考えてみようと思います。

次にやること(週末プロジェクト)

人工無脳の設計
人工無脳の開発
  • プログラミングを学ぶ
    • → コーリー・アルソフ『独学プログラマー』を買ったので、読みながらPythonプログラミングを学ぶ。1/3くらい読んだところ。文字列型のメソッドが思っていたよりはるかに充実していてびっくりしました。
    • 人工無脳、はじめました: Python3篇に載っているサンプルを走らせてみる。やはり、本を読むだけではなく、コードを触りたいので……
  • プログラミング環境を整える
  • プログラムを設計・開発する
人工無脳の公開
  • 公開環境を整える
  • 運用体制を整える
  • プログラムを公開する