サイドバー

「関連ページ・リンク」は折りたためます

宣伝など

ゼロから話せるフィンランド語拙著 『CD付 ゼロから話せるフィンランド語』 (2007年10月に三修社より出版),好評発売中です。フィンランド語の自習書として活用するために,学習内容の提示の順番や文法事項の配列を工夫したつもりです。サポートページ では,関連情報や訂正,練習問題を公開しているほか,直接コメントをお送りいただけるフォームを用意しています。

Googleでサイト検索

千葉庄寿のホームページ tsibale.com へようこそ!

麗澤大学関連の情報 は別サイトにあります。本サイトの更新情報は RSS でどうぞ。

お知らせ:講座「ITと日本語研究」刊行開始

講座本『ウェブによる情報収集』荻野綱男・田野村忠温 (編) 講座「ITと日本語研究」 の配本が4月5日から始まっています (明治書院刊)。4月25日に刊行された第2回の配本 (第7巻『ウェブによる情報収集』) の第5章として「HTMLとXML」 [サンプルリソース] を寄稿しました。 [2011-04-22, 05-03更新]

お知らせ:大学院体験講座終わる

講座のようす(大関准教授)12/5(日)と12/12(日)の2日間,麗澤大学大学院言語教育研究科の主催で「現職日本語教師のための大学院体験講座」が開催されました。合計4人の大学院教員がそれぞれの分野で講義をおこなう初めての試みで,私は12月12日(日)午後に「使用実態から考える日本語の語彙・文法」と題し日本語学・コーパス言語学の講義を担当しました。ご参加いただいた皆様,ありがとうございました。大変熱心に受講いただき,感謝申し上げます。

講義で使ったデータ (BCCWJ) の正式名称は『現代日本語書き言葉均衡コーパス』2009年度モニター公開データです。文部科学省科学研究費補助金による特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」で構築しているもので,今年度中に作業を終了し,著作権処理が済んだあかつきには全データが公開されます。現在は,利用申請をしたユーザにモニター公開をおこなっている段階で,モニター版データ (約4,500万語) の配布は モニター公開のページ (国立国語研究所 KOTONOHA) でおこなっています (誓約書の提出が必要です。負担する費用はDVD-ROMの着払い送料のみです)。2009年度版のあと,新たなモニター版データを公開する予定は今のところありません。

講義で参照したデータは全てモニター公開データに含まれる全文検索システム「ひまわり」 (国立国語研究所 山口昌也さん開発) で実際に検索できます。注意点は以下の通りです (Windows での利用を想定して書きます):

  • DVD-ROMから直接起動することはできません。ハードディスクなど読み書きできるメディアに「ひまわり」の入っているフォルダ (Himawari_1_3b03_BCCWJ, 約1.65GB あります!) をまるごとコピーして下さい。
  • 【おすすめ】かわいい「ひまわりちゃん」アイコンの himawari.exe ではなく,バッチファイルの himawari.bat で起動します。これはJAVAが使用するメモリの量を調整し,不用意に強制終了しないようにするためにしばしば必要になります。
    • 起動直後は BCCWJ のプレーンテキスト (plain text) 版コーパスの検索ができます。他に「XML固定長版」「XML可変長版」データも検索できます。

以下に講義でも紹介した「BCCWJ + ひまわり + Excel」の利用方法をメモします。時間があったらちゃんとしたページを作りたいなぁ...

ごく簡単な利用方法 (初心者むけ) その(1): 用例集を作る

  1. 検索条件を設定し,検索する。
  2. 【重要】前文脈でソートする (「前文脈」の見出しをクリック)。 ※ Excelでは「文字列の後でソート」が難しいため
  3. 検索結果を[ファイル]メニューから「名前をつけて保存」する。データは Unicode の変換形式のひとつ UTF-8 (BOMなし),Unix 系の改行形式 (LF) でテキストが保存される。
  4. UTF-8 が読み込めるテキストエディタで保存したデータを開く。Windows 2000・XP・VISTA・7の「メモ帳」でもOK(ただし改行が正しく表示されません)。※ やり方が分かる方は直接 Excel でデータを読み込んでも結構です。
  5. エディタ上でデータを「全て選択」しコピーし,Excel のシートに貼りつける。
  6. 【重要】空白になっている最初の列に行番号を入れる (重要。他の列でソートした場合,前文脈で並べ替えた状態に戻らなくなってしまうのを防ぎます。行番号の入力方法は 画像を参照 してください (GIF画像, 4.23KB))。
  7. 不要な列を削除し,見出しをつける。
  8. 後文脈などでソートするなどして用例を検討する。

ごく簡単な利用方法 (初心者むけ) その(2): 検索文字列を含む n-gram データを作る

  1. 上記の用例集に新しく列を追加する。
  2. 追加した列にExcel 関数 left (ないし right) で n-gram を切り出す。以下は検索文字列とその直後の数文字をまとめる例:
    =検索文字列が入っているセル番号&left(後文脈が入っているセル番号,切り出す文字数)
  3. 作成した式を各用例のセルにコピーし,n-gram を取得する。
  4. Excel のピボットテーブルを使い,各用例の n-gram パターンごとの頻度を数える。

なお,授業ではグループワークの便宜を図り一部の用例グループ (複合語の一部をなす事例,異なる語義と解釈できる事例など) を割愛しましたので,ご自分でBCCWJを検索した場合,授業で示した用例にないものも見つかります。ご了承ください。

[2010-12-13 更新]

予定と更新情報 [RSS]

近い順に並べています。活動記録はこちら

2011年5月3日

麗澤大学道徳科学教育センター が発行する「道徳科学」の授業の副読本『大学生のための道徳教科書 モラルと学問』(2011年4月発行, 非売品) に寄稿した「文脈が「あなた」をつくる―「参加型」情報サービスとの付き合いかた―」 を公開しました。 [ 麗澤大学道徳科学教育センター監修 『大学生のための道徳教科書』 (2009年4月) | 『同 実践編:君はどう考え、どう行動するか』 (2011年4月) ]

2011年4月23日 (5月3日更新)

講座「ITと日本語研究」第7巻『ウェブによる情報収集』が明治書院より4月25日に刊行されました。第5章に「HTMLとXML」を寄稿しています。[サンプルリソース]