タグ

コーパスに関するyoshihirouedaのブックマーク (3)

  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

    yoshihiroueda
    yoshihiroueda 2010/11/16
    そしてこの自然言語処理の人気が高まっている時にこんなおいしいエサが!
  • 国立国語研究所の言語コーパス整備計画KOTONOHA

    国立国語研究所が中心となって,2006年度から5年計画で構築している「現代日語書き言葉均衡コーパス」(Balanced Corpus of Contemporary Japanese,略称BCCWJ)の紹介。BCCWJは,書籍,雑誌,新聞,白書,ベストセラー,Web(掲示板,ブログ),法律,論文等を収録する1億語規模のコーパスです。独立行政法人国立国語研究所では、明治から現代にいたる日語の全貌を把握するための言語コーパスKOTONOHAを構築しています。2006年度から5年間は、現代日語の書き言葉を対象としたコーパスの構築を進めます。サイトでは、この書き言葉コーパスについて説明します。 東京MXテレビ, 「ガリレオチャンネル」 (2008.02.10) 東京MXテレビ, 「ガリレオチャンネル」2008年2月10日「言葉の壁を越えて:音声翻訳技術が世界を変える」 YOMIURI P

  • 国会会議録検索システム: 自然言語愛好家の備忘録

    来週は総選挙なので、以下のサイトで議員の発言を見てみるのもいいかもしれませんね。 国会会議録検索システム 私は政治的な関心よりも、日語の方に関心があります(笑)。というわけで『国会会議録を使った日語研究』を斜め読みしました。 ひつじ書房の紹介ページから引用すると、次のとおりです。 要約 ここ数年、インターネットで公開された「国会会議録」をデータとして用いた日語研究が注目されている。インターネット版「国会会議録」は、過去60年にわたる、出身・在外歴までほぼ判明している日各地出身者による議論を文字化した資料である。書は、多種多様な分野の日語研究者が、この空前ともいえる膨大なデータを使って、それぞれの分野で何ができるかを追究、あわせて将来的研究を展望したものである。研究者のみならず、卒論テーマを探す学部生にもお薦めの1冊。 過去60年というのはすごいですよね。これからも増え続ける会議

  • 1