※研究資料の閲覧利用は、事前の申し込みが必要です。詳しくは「研究資料室の利用について」をご覧ください。
最終更新:2024/10/17
資料群ID(fond番号) Reference code | fo0301 |
表題 Title | 国語研日本語ウェブコーパス(NWJC) |
概要 Description | 「日本語記述の緻密化を目指した超大規模コーパスの構築」(2011年から2015年)においてウェブを母集団として構築したコーパスの原データ。 ウェブ(WWW)上の日本語テキストを利用して100億語を超える規模の現代日本語コーパスを構築することにより、処理的視点からの究明の可能性を開くことを目的とした。収蔵資料は本プロジェクト内で使用したURL情報(warc形式データ)が入ったSSD3点。他、電子データ(DVD内収蔵)と紙のプロジェクト関連資料など。 |
目録 Catalogue | |
配架位置 Location of material | 中央資料庫、中央メディア保管庫 |
公開年月日 Date of release | 2024/10/17 |
資料群に含まれる資料の年代 Dates of creation of the material in the unit of description | 2011-2015 |
数量・形態 Extent of the unit of description | 保存箱1箱、SSD3個、DVD1枚 |
資料作成者 Name of creator | コーパス開発センター |
資料作成組織の履歴 Administrative / Bibliographical history | コーパス開発センター 担当者:浅原正幸 「日本語記述の緻密化を目指した超大規模コーパスの構築」(2011年から2015年)においてWebを母集団としたコーパスを作成した。 |
資料作成年月日 Dates of accumulation of the material in the unit of description | 2011-2015 |
管理歴 Custodial history | 2024/6/21 浅原研究室より研究資料室へ搬入 |
入手情報 Immediate source of acquistion | |
資料内容 Scope and content / Abstract | 以下の資料から成る ①SSD×3点, ②紙資料×6点, ③DVD×1点 ①SSD(国語研日本語ウェブコーパス(NWJC)内使用 URL情報(WARC形式データ)) 注:2012年第4四半期から2015年第2四半期にかけ収集したURLのWARC形式データ(warc.gz)がはいっており、正規化・日本語文抽出・形態素解析などは行っていないため、利用時には各自処理する必要がある ②国語研日本語ウェブコーパス(NWJC)関連紙資料 全6点 「国語研日本語ウェブコーパス」全データ内容解説資料,運営費交付所要額積算内訳,日本語記述の緻密化を目指した超大規模コーパスの構築資料,再作成:日本語記述の緻密化を目指した超大規模コーパスの構築,平成23年度特別経費概算要求事項の概要,平成23年度特別経費所要額調 ③国語研日本語ウェブコーパス(NWJC)関連資料(紙資料、全6点)の電子ファイルが格納されたDVD1枚 |
評価・廃棄 Appraisal, destruction and scheduling information | |
追加受入 Accruals | |
利用条件 Access conditions | データ利用にあたっては、共同利用型共同研究(C)を申請、もしくは共同研究契約を締結すること |
複写条件 Copyright / Conditions governing reproduction | データ複写にあたっては、共同利用型共同研究(C)を申請、もしくは共同研究契約を締結すること |
資料使用言語 Language of material | 日本語 |
物理的特徴 Physical charactristics | 本データは.warc形式データを.gzsw圧縮しており、gunzipなどのツールで展開可能。ただし本来は展開せず、pythonなどのwarcライブラリで直接利用するものである。特殊なデータでlinuxサーバなどで適切なファイルシステムがないと扱えないものもあるため、windows上では展開するのは避けたほうがよい。 |
検索手段 Finding aids | |
オリジナル資料の存在 Location of originals | |
複製の存在 Existence of copies | |
関連調査・研究 Associated material | |
成果刊行物(DB等含む) Publication note | 国語研日本語ウェブコーパス 浅原正幸,今田水穂,保田祥,小西光,前川喜久雄「Webを母集団とした超大規模コーパスの開発-収集と組織化」『国立国語研究所論集』7(2014) |
備考 Note | |
移管年月日 Date of approval | 2024/09/25 |
移管者名 Name of applicant | 浅原正幸 |
記述作成年月日 Date of record | 2024/09/27 |
記述作成者 Name of recorder | 倉田ゆう子 |
記述言語 Language of record | 日本語 |