お知らせ:講座「ITと日本語研究」刊行開始
荻野綱男・田野村忠温 (編) 講座「ITと日本語研究」 の配本が4月5日から始まっています (明治書院刊)。4月25日に刊行された第2回の配本 (第7巻『ウェブによる情報収集』) の第5章として「HTMLとXML」 [サンプルリソース] を寄稿しました。 [2011-04-22, 05-03更新]
tsibale.com へようこそ!麗澤大学関連の情報 は別サイトにあります。本サイトの更新情報は RSS でどうぞ。
荻野綱男・田野村忠温 (編) 講座「ITと日本語研究」 の配本が4月5日から始まっています (明治書院刊)。4月25日に刊行された第2回の配本 (第7巻『ウェブによる情報収集』) の第5章として「HTMLとXML」 [サンプルリソース] を寄稿しました。 [2011-04-22, 05-03更新]
12/5(日)と12/12(日)の2日間,麗澤大学大学院言語教育研究科の主催で「現職日本語教師のための大学院体験講座」が開催されました。合計4人の大学院教員がそれぞれの分野で講義をおこなう初めての試みで,私は12月12日(日)午後に「使用実態から考える日本語の語彙・文法」と題し日本語学・コーパス言語学の講義を担当しました。ご参加いただいた皆様,ありがとうございました。大変熱心に受講いただき,感謝申し上げます。
講義で使ったデータ (BCCWJ) の正式名称は『現代日本語書き言葉均衡コーパス』2009年度モニター公開データです。文部科学省科学研究費補助金による特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」で構築しているもので,今年度中に作業を終了し,著作権処理が済んだあかつきには全データが公開されます。現在は,利用申請をしたユーザにモニター公開をおこなっている段階で,モニター版データ (約4,500万語) の配布は モニター公開のページ (国立国語研究所 KOTONOHA) でおこなっています (誓約書の提出が必要です。負担する費用はDVD-ROMの着払い送料のみです)。2009年度版のあと,新たなモニター版データを公開する予定は今のところありません。
講義で参照したデータは全てモニター公開データに含まれる全文検索システム「ひまわり」 (国立国語研究所 山口昌也さん開発) で実際に検索できます。注意点は以下の通りです (Windows での利用を想定して書きます):
Himawari_1_3b03_BCCWJ, 約1.65GB あります!) をまるごとコピーして下さい。himawari.exe ではなく,バッチファイルの himawari.bat で起動します。これはJAVAが使用するメモリの量を調整し,不用意に強制終了しないようにするためにしばしば必要になります。
以下に講義でも紹介した「BCCWJ + ひまわり + Excel」の利用方法をメモします。時間があったらちゃんとしたページを作りたいなぁ...
left (ないし right) で n-gram を切り出す。以下は検索文字列とその直後の数文字をまとめる例:
=検索文字列が入っているセル番号&left(後文脈が入っているセル番号,切り出す文字数)
なお,授業ではグループワークの便宜を図り一部の用例グループ (複合語の一部をなす事例,異なる語義と解釈できる事例など) を割愛しましたので,ご自分でBCCWJを検索した場合,授業で示した用例にないものも見つかります。ご了承ください。
近い順に並べています。活動記録はこちら。
麗澤大学道徳科学教育センター が発行する「道徳科学」の授業の副読本『大学生のための道徳教科書 モラルと学問』(2011年4月発行, 非売品) に寄稿した「文脈が「あなた」をつくる―「参加型」情報サービスとの付き合いかた―」 を公開しました。 [ 麗澤大学道徳科学教育センター監修 『大学生のための道徳教科書』 (2009年4月) | 『同 実践編:君はどう考え、どう行動するか』 (2011年4月) ]
講座「ITと日本語研究」第7巻『ウェブによる情報収集』が明治書院より4月25日に刊行されました。第5章に「HTMLとXML」を寄稿しています。[サンプルリソース]