Yu Suzuki

Associate Professor, Nara Institute of Science and Technology

Twitter日本語評判分析データセット

ツイートの評判情報をクラウドソーシングにより分析し,分析結果を公開しています.

データのダウンロード

  • データはこちらです. bz2で圧縮されています.
  • ツイートの本文は含まれていません.
  • 2015年から2016年ごろのツイートを対象にしています.

データ内容

  • 携帯電話などのツイートを中心に,534,962件のツイートがの分析が行われています.このツイート量は,他のデータセットと比較しても多いです.作成者の知る限り最も規模が大きく,種類数の大きなデータセットです.
  • 最低 4 名以上の作業者により評価を行い,多数決を行った結果です.だいたい5名以上の作業者により評価を行っています.

データの構造

CSV ファイルで記述しています.列番号は以下の内容に該当します.

  1. ツイートのIDです.10000から始まる番号です.
  2. ジャンルIDです.次のジャンルがあります.
    • 10000: エクスペリア,Xperia
    • 10001: アクオス,Aquos
    • 10002: アクオス,Aquos
    • 10020: ココロボ(シャープが開発した自動掃除機)
    • 10021: iPhone
    • 10022: パナソニック,Panasonic
    • 10024: コンビニにあるコピー機
    • 10025: ルンバ,Rommba
    • 10026: シャープ
  3. Twitter社で使っているstatus IDです.http://twitter.com/anyone/status/statusID でツイート本体を取得することができます.Twitter API などを利用して取得を行ってください.このサイトでは著作権などの理由により,ツイート本体は配布していません.
  4. 4-8列目は次のような意味です.
    • 4列目: ポジティブ&ネガティブ,このツイートは(ジャンル)についてポジティブなこともネガティブなことも書かれている
    • 5列目: ポジティブ,このツイートは(ジャンル)についてポジティブなことが書かれている
    • 6列目: ネガティブ,このツイートは(ジャンル)についてネガティブなことが書かれている
    • 7列目: ニュートラル,このツイートは(ジャンル)についてポジティブなこともネガティブなことも書かれていない
    • 8列目: 無関係,このツイートは(ジャンル)に関係が無い
    • 0は該当しない,1は該当するという意味です.二つの列で該当するというのは,作業者の投票が同率で1位になった場合です.

この判定では,ジャンルで示されたものについてポジティブかどうかを判定しており,具体的なものに言及している場合のみポジティブ,ネガティブと判定して います.そのため,例えば「このiPhone好き」などはニュートラルになります.ジャンルがiPhoneで,「iPhoneよりもアクオスのほうが画面が綺麗」の場合は ネガティブになります.

パナソニックやシャープなどは,その会社が販売した商品もジャンルに含まれます.つまり,アクオスフォンに関する情報が含まれたツイートにジャンルID 10026(シャープ)が付与されていた場合には,そのツイートには「無関係」が選ばれないことになります.

ツイートデータは別途取得していただく必要があります.当該ツイートは現在削除もしくは非公開にされている場合もあります.

ライセンス

  • CC-BY-ND 4.0に準拠します.
  • 商用を含むどのような目的でも,このデータを利用することができます.
  • 再配布は可能です.ただし,再配布の際にデータ内容に変更を加えてはいけません.また,配布元のページ(このページ)のURLなどを明記してください.
  • 論文などで公表していただく場合には,謝辞もしくは参考文献,脚注などで触れてもらえると助かります.ただし,必須ではありません.
  • 研究で利用された場合,論文情報を ysuzuki [AT] is.naist.jp まで頂けましたら本ページに掲載いたします.ただし,必須ではありません.

データ構築について

  • このデータを作成するにあたり,シャープ株式会社には多大なご協力をいただきました.感謝いたします.

関連論文

  1. 芥子 育雄, 鈴木 優, 吉野 幸一郎, グラム ニュービッグ, 大原 一人, 向井 理朗, 中村 哲: 「単語意味ベクトル辞書を用いたTwitterからの日本語評判情報抽出」, 電子情報通信学会論文誌, Vol.J100-D, No.4, pp.530-543, 2017.4.(pdf)
  2. Ikuo Keshi, Yu Suzuki, Koichiro Yoshino, Satoshi Nakamura. Semantically Readable Distributed Representation Learning for Social Media Mining.Proceedings of the International Conference on Web Intelligence (WI ’17), pp.716–722, Leipzig, Germany, August 2017.(pdf)

連絡先

  • ysuzuki [at] is.naist.jp