ベアの日記

都内で社会学を学ぶ大学院生です。「無限にわーわー喋ってる好青年」

しょぼいポートフォリオ

前回「しょぼいデータサイエンティスト」としてやっていきたいという旨を書きましたが、今回は、「で、お前何できるの?」という点について書いていきます。

 

高度な分析を行う技術はありませんが、地道に記述統計を確認し全体像を把握、仮説を形成して検証する、という訓練を地道に繰り返してきました。社会学では(少なくとも私が訓練を受けてきた範囲では)、高度な分析よりも、変数(とそれが意味する実態)に対する深い理解、分析が意味する社会学の議論に対するインパクトの解釈、といった「分析をどう使うか?それは何を意味しているのか?」といった点に重点を置かれてきました。

 学部の卒論時にこのプロセスをみっちり仕込まれたこと、元々地道な議論が好きな性分も合わさり、ぼくの主にできることは極論地道にデータを確認し、現実の認識に返す、といった作業につきます。

 

以下、これまでの分析経験

詳細なプロダクトが知りたい場合はコメントください。メールアドレスを伝えるのでやりとりしましょう

 

テキスト分析について

 

  • テキストデータに対する分析(文字情報の分析。一般的には「テキストマイニング」と呼称される)であれば、データの作成から分析まで一通り経験があります。
  • ただし、トピックモデル(LDAやLSIなど)など高度な分析は経験がありません。基本的には単純な出現頻度分析と共起分析を組み合わせて、特定の仮説や主題について検討した、という分析が多いです。
  • ただし、その過程でテキスト全体の性質を把握する必要があるため、いくつかの(原始的な手法であるが)テキストデータを概観する作業は分析の度に行っています。
  • 使用経験のあるソフトはKHcoder(無料配布ソフト)、Rmecab ですが可能なら KHcoderが使える環境希望。
  • 分析例 「ライトノベルの説明文からトレンド分析」「朝日新聞社説の分析から戦後の朝日新聞の社説の傾向分析」etc

 

 

一般的な計量分析

 

  • また、社会学で一般的な社会調査データ(語弊を恐れずにいえばアンケート調査)に対する分析経験もあります。
  • 1時点で取得したデータ(cross section data)に限定ですが、記述統計の組み合わせ(2変数の分析)から、重回帰分析、ロジスティック回帰分析等といったポピュラーな多変量回帰分析を行った経験があります。
  • 時系列分析は修士期間に学習予定。
  • 修行中ですが、社会調査データに対するクリーニングもある程度なら経験済み
  • 使用経験のあるソフトはSPSSのみ。
  • テキストデータでない場合は、データ形成から変数設定、仮説形成から要検討です。
  • 分析例 JGSS(日本版総合社会調査)を対象に、サポート・ネットワークに対する無業の効果分析(卒論)。

 

オマケ 

また、文系学問で長くトレーニングを受けてきたため、分析結果を文章にまとめること、人に説明することには一日の長があると思います。