データサイエンスプログラミングを補完するExcel

Excel as a complement to Data Science programming

データサイエンスは、データから洞察を得ようとするコンピュータサイエンスと統計の融合です。情報化時代のデータの普及に伴い、多くの業界でデータサイエンティストの需要が高まっています。米国労働統計局は、「コンピューターと情報研究の科学者の雇用は、2020年から2030年にかけて22%増加すると予測されており、すべての職業の平均よりもはるかに速い」と予測しています。

ほとんどのデータサイエンティストは、ツールキットの一部として1つまたは複数のプログラミング言語を採用します。最近、データサイエンスの分野で最も注目されているプログラミング言語はPythonとRです。最近のStack Overflow Developer Surveyでは、これらの言語はすべてのプログラミング言語でそれぞれ3位と21位にランクされています。これらのプログラミング言語が人気のある理由は次のとおりです。

比較的使いやすさ:これらは高レベルのインタプリタ宣言型言語であり、複雑なコンパイルなしでプログラムのテストと操作を可能にします。

大規模なユーザーコミュニティ:PythonとRはどちらも、一貫した開発サイクルと素晴らしいコミュニティサポートを備えた強力なオープンソースコミュニティによって開発されています。どちらのプログラミング言語も、幅広い学術的および商業的サポートを享受しています。

幅広い機能と拡張機能のサポート:データサイエンティストは、共通のアドオンパッケージのセットを使用して、データの探索/処理とモデルの開発/トレーニングを可能にします。

ターミナルでプログラミングする代わりに(カーソルが点滅する暗い画面を想像してください)、ほとんどのユーザーは統合開発環境(IDE)を利用して、プログラムの作成、編集、実行、およびテストを容易にします。 IDEは、プログラムの実行時にリアルタイムでデータとプログラムに問い合わせる機能を提供するため、データサイエンティストにとってさらに強力です。この機能は、ノートブックの人気の高まりとともに拡張されました。ノートブックを使用すると、インラインコード、解説、および出力をまとまりのあるドキュメントに組み合わせたプログラムを作成できます。これにより、構造化された環境内でデータを探索するための詳細で文書化された方法が提供されます。

組織は、データサイエンスチームの構築とデータサイエンティストの採用に多大なリソースを投資してきました。それでも、PythonとRを使用するデータサイエンティストを配置することで、組織はビジネスにとってのExcelの重要性を最小限に抑えることができるという認識があります。データサイエンティストの機能とツールボックスを補完するためにExcelを使用する必要があるため、これは誤った二分法です。

プログラミング言語は、データにアクセスして操作するための多くのツールを提供する場合がありますが、これには、データセットや構造によって異なるコードが必要です。 Excelは、ノートブック、IDE、または視覚化ソフトウェアを使用した場合でも、操作が困難なデータを直接操作および操作する機能を提供します。 Power BIを使用すると、Excelには、より大規模なサーバーベースのデータセットを取り込んで処理するための追加機能があります。 Excelは、プログラマー以外の人が理解して確認できる方法でロジックと計算を表現するための標準的な方法を提供するため、優れたコミュニケーションツールでもあります。これは、ビジネスロジックの文書化と生産化に特に役立ちますが、ユーザーは計算を操作して評価することもできます。データサイエンスプログラミング言語の力にもかかわらず、計算にはさまざまなルックアップまたは多くの条件付きステップとロジックを備えた多くのテーブルが含まれますが、これらはExcelでより簡単に開発および説明できます。データサイエンスモデルは、実装前の最終処理と調整のためにExcelにエクスポートされるのが一般的です。使いやすさ、大規模なユーザーコミュニティ、幅広い機能と拡張機能のサポートに関してPythonとRが持つ利点は、Excelを使用することによる利点でもあります。実際、データサイエンスプログラミング言語で利用できるようになったノートブックは、スプレッドシートに何十年も存在してきた機能の進化を表しています。ユーザーは、データ、数式を介したコード、およびその他の出力を1つのドキュメントに直接混合することができます。

Excelをデータサイエンスプログラミング言語に置き換える必要があるという見方は、おそらく、組織がExcelの柔軟性を使用して、エンドユーザーコンピューティング(EUC)のリスクをもたらした方法で内部のニーズに対応した方法に基づいています。より正式なプログラミング言語に移行しても、これらのリスクに自動的に対処することはできません。 Coherent Sparkを使用すると、セキュリティ、検証、およびテストに関するITからの懸念に対処しながら、ビジネスユーザーが当社のソリューションを使用してExcelロジックを管理できるという両方の長所を提供します。 Sparkを使用すると、Excelで任意の計算とロジックを取得し、アプリケーションプログラミングインターフェイス(API)を使用してITチームが使用できるコードに変換できます。これは、Excelファイルのロジックを組織内のさまざまな統合アプリケーションに安全に配布できることを意味します。これは、すべての変更をログに記録し、バージョン管理し、ハッシュするシステムでほぼ瞬時に実行されます。 Sparkには、バスを強化するための包括的なテストセンターも含まれています

Simon Tam

Coherent Spark Product Director

Simon is the Product Manager for Spark at Coherent, leading a team to develop the platform’s features and capabilities. He is a qualified actuary and with 15+ years’ experience in the Property & Casualty / General Insurance space with an exclusive focus on pricing, data and analytics. Having held roles in Canada, UK for a big 4 consultancy across banking and insurance, and a multi-national insurer based in Hong Kong, Simon has significant experience in understanding the challenges that analytical and business users face in executing and deploying calculations and logic.

関連リソース

Request a Demo

Request a Demo

Request a Demo


デモをリクエストする