FAQ データサイエンス研修(スタンダード)
6.教師なし学習
回答
その場合は、事故発生が1と0で存在すると思うので、ロジスティクス回帰分析を実施した方がより良いと思います。
または、最初から決定木分析で予測してしまう方が良いと思います。
もし精度が悪いならば、ランダムフォレストや機械学習、深層学習を用いても良いです。
ただし機械学習や深層学習を使っていくと、どの要因がどのくらい事故発生に寄与しているかの要因の検討はできなくなります。
そういう意味で、目的を明確にして、要因を検討したいのか、予測精度を上げたいかのを決めて、分析手法を選択すると良いと思います。
回答
どの分析も明確な目的をもって、マニュアル化せずに実施するのが良いと思います。
ただただクラスタリングしても、分けた対象に名前をつけることができないと思います。
そういう意味では、結局クラスタリングしても、データの詳細を確認することになるので、ただ分けてあげたら良いというようにしない方がいいです。
たとえば、クラスタリングしても意味わからん説明変数が分類に入ってしまうこともあります。
なので、しっかりとデータの特徴をつかむことから始めるがの良いと思います。
回答
文字列はそもそもとして、分類に使うことができる指標となると思います。
たとえば、男女であれば、男性だけのデータとして取り出すことが可能である点から、ある意味クラスタリングしているといえるでしょう。
それ以外、たとえば、悪い、普通、良いという文言がある場合、そのままの文字列ではクラスタ分析はできません。
数値に置き換える必要があります。
この場合はたとえば、1、2、3というように数値化が可能そうであれば、数値に変換します。