ふんわり放牧

個人の日記です

『自然言語処理の教科書』読んだ

小町守『自然言語処理の教科書』を読んだ。2024年に出版されたものなので、もう2年前になるのか......*1

私は著者の小町先生には奈良時代に教員と学生という関係でお世話になったので、この本をまったくのフラットな気持ちで読めない*2。講義という形ではコミュニケーションを取ったことがないので、先生の講義を受けるとこういう感じになるんだろうな、という追体験ができた。

(自然言語処理の講義を取ったことのない)ソフトウェアエンジニアの同僚と自然言語処理技術を使ったなにかを作るときに、とりあえずこの本を渡して「1章と2章だけまずは目を通しておいて」「興味があればその先も」みたいな感じでコミュニケーションのツールとして使えそうなのが良いかなと思う。この分野の人がどのように問題を見ているかという切り口が伝われば、その枠組みにぶち込んでしまえばそこそこの仕事*3はできるという認識がある。 「データがありますよ」と持ち込んまれたはいいものの量が足りなくて困ったり、データセットを作ることについて、上司の理解が得られなくて悩まされた経験がある*4ので、この本には言語資源の章があるし、目線を揃えることができるツールとして使えるのはとても便利。 自然言語処理の本(特に教科書)は伝統的に基礎技術に寄っている印象があって「こういう仕組みがある」という仕組みの説明がどうしても重くなりがち*5。一方でプログラマに向けたような実際にコードが動くような書籍は、具体に踏み込みすぎてるからか量が多かったり腐りやすくなったり(!=枯れる)。どちらも雑に渡すには適さないなぁと思っていたのだ。 巻末の参考文献にも書かれてるように『仕事ではじめる機械学習』の自然言語処理版を作りたいというのはまさしくその通りだなと思うし、Webエンジニアをやってる私がそういう感じで手渡せるってことは著者の目論見通りなんじゃないかな、と思う。


というのが、2025年くらいまでは通用してただろう話で。 この数ヶ月でも環境はかなり進歩しただろうし、タスクをどのように整理するかすらも人間が考えなくてもいいのでは?という環境になっているような気もする。そんなことないのかな。

教科書という名前がついてしまっているので、今のB3の学生に対して「自然言語処理」という講義で何を15回で伝えるのがいいんだろうかというのは考えてしまう*6のだけれど、情報系の分野においては手入れをせずに10年生き残るような手法やツールのほうが珍しいだろうし、一方で人間のスペックは変わってないのだから、(あまりに古い基礎は排除しつつも)基礎の要点と基礎が生きる応用、その時代の人間の試行錯誤などを伝えれば、あとは新しいタスクが出たときも転用できる状態になるのではないか?と思ったりした。*7

*1:2023年に同窓会的なイベントがあってレビュワーを募集されていた記憶がある

*2:たとえば本書の注釈には個人的なエピソードがたくさん入っているのだけれど、こういう話されていたよな〜と思い出して、懐かしさの加点がされる

*3:論文が書けるレベルではないが会社で人は評価されるだろうレベル

*4:このあたりも学生時代に大人が言っていたのを聞いたことがある気がするけど、まさか自分がその立場になるとは

*5:CKYを手でやるとかね

*6:先日大学に行って最終講義を聞いてしまったからというのもある

*7:私が受けた大学の講義で学んだ専門科目の内容(手法)は古びてしまったものも多く、専門家も利用してないし、仕事ではほとんど直接は生きてない。もっともそういう仕事をしているわけではないが