データ入力の標準化 / データクリーニング

高度な戦略と質の高いデータ収集方法で研究者の方々をサポートしています。

わたしたちの想い

THOUGHT

研究は、情報収集する前から始まっている

研究は、情報収集する前に、データの入力・用語の統一を決めることで違いが出てきます。

たとえば、1974年4月16日と入力しようとしたら、S49年4月16日、S49.4.16、1974/4/16、1974.4.16、昭和49年4月16日....と多くの書き方があることが気づくでしょう。

また、対象者の性別を表記する場合は、「男性」「女性」と「男」「女」などがあり、ボタンを押すことで、一貫性を持たせます。

同様に、項目:所見1で「異常なし」を項目に入力するときに、異常なし、異常所見なし、np、n.p.、特変なし、特記事項なし、など、無数の書き方があります。
統計解析を行う時には、これらは全く別の項目になり、6通りの項目(カテゴリ)として計算されてしまいます。

研究者がたくさん参加すればするほど、用語の項目や書き方が増えるため、統一した方法で入力させる方法が必要です。

異常所見が無い時には、始めから、「異常なし」と出力するボタンを作ってあげれば、
多くの研究者がいても、同じ入力になり、データ入力の標準化(安定化)ができます。

テクニカルことでも複雑ことでもなく、(解析)担当者の視点で、入力担当者に、無意識のうちに標準化された項目を入力させる方法・項目をUIデザインに落とし込んでいき、統一した用語できるように制作しています。

想い
1

質の高いデータと高度な研究のために

ご依頼されるだろう他社でも、データクリーニングはなされると思っています。例えば、身長203とするところを、体重203と入力した場合、たいていの場合は「外れ値」として認識されるため、解析する前に、修正を指示されたり、確認するように指示があり、入力間違いに気付くことができると思います。

しかしながら、男性、妊娠歴ありというデータがあった場合はどうでしょうか?
ある研究で、「妊娠・出産後における自殺」をテーマにしているとします。この場合、男性が妊娠すると奥さんの体重が増えるとか、男性が妊娠するとその奥さんがマタニティブルーになってしまうという解釈ができてしまいます。それゆえ、研究者が解析結果を解釈するときに、違和感や矛盾を感じるはずでしょう。統計会社に相談しても、「そういう結果が出ている」とだけ言われるだけが多いことも事実です。他の統計会社に解析依頼してたが、解析できない、解析の結果の解釈がよくわからないと嘆いていらっしゃる研究者の方が残念ながら多いのが現状です。

性別の項目も、妊娠歴の項目も、「男性」「女性」、「ある」「なし」の「2値」で作られるため、「外れ値」になりません。困ったことに、データクリーニングしても、外れ値としては出てこなく、そのままでも解析できてしまいます。

考えたら(指摘されると)当たり前のことですが、結構気付かずに解析されていることが多いと思っています。弊社ではご依頼される研究者の発表内容や関連する文献を把握し、研究者と同等の視点に立つことで、数値的なデータクリーニングだけではなく、意味的なデータクリーニングできるように徹底しています。

医師の視点によるデータ管理、データ解析、結果説明まで一貫して担当し、研究者のリサーチマインドに貢献するというのが、弊社の目的です。このため、私達はデータを作成する段階から徹底的にこだわります。

想い
2

研究者に貢献する、結果の出る論文を

他の統計会社に解析してもらったが、論文の目的と解析方法が一致しない、解析の結果について、説明を聞いても的を得ない説明だけで、解析結果の解釈がよくわからない。

質問するとその都度料金が加算されてしまい、質問すら制限されるため、成果が出ない・モチベーションがあがらないと嘆いていらっしゃる研究者の方が多く伺います。

このため、弊社ではfollow-up期間を設定し、その期間に関して無制限の再解析・質疑応答に応え、研究者のリサーチマインドに貢献するというのを目的としています。

想い
3