带你了解大数据的架构

来源：银川IT培训学院时间：2020/10/10 9:26:35

大多数大数据架构都包括下列组件中的一些或全部：
如果你对大数据开发感兴趣，想系统学习大数据的话，可以加入优就业IT培训学校。
数据源，所有大数据解决方案一开始都有一个或多个数据源。示例包括：
应用程序数据存储，例如关系数据库。
应用程序生成的静态文件，例如Web服务器日志文件。
实时数据源，例如IoT设备。
数据存储。用于批处理操作的数据通常存储在分布式文件存储中，该存储可以容纳大量各种格式的大型文件。这类存储通常称为DataLake。用于实现此存储的选项包括AzureDataLakeStore和Azure存储中的blob容器。

批处理。由于数据集很大，因此大数据解决方案通常必须使用长时间运行的批处理作业来处理数据文件，以便筛选、聚合和准备用于分析的数据。这些作业通常涉及读取源文件、对它们进行处理，以及将输出写入到新文件。选项包括在AzureDataLakeAnalytics中运行U-SQL作业，在HDInsightHadoop群集中使用Hive、Pig或自定义Map/Reduce作业，或者在HDInsightSpark群集中使用Java、Scala或Python程序。

实时消息引入。如果解决方案包括实时源，则架构必须包括一种方法来捕获并存储进行流处理的实时消息。这可以是一个简单的数据存储，将在其中将传入消息放置在一个文件夹中以进行处理。不过，许多解决方案都需要一个消息引入存储来充当消息缓冲区，以及支持横向扩展处理、可靠传递和其他消息队列语义。此部分的流式处理架构通常称为流缓冲。选项包括Azure事件中心、AzureIoT中心和Kafka。
流处理。捕获实时消息后，解决方案必须通过筛选、聚合以及准备用于分析的数据来处理消息。然后，会将处理后的流数据写入到输出接收器。Azure流分析基于不断运行的SQL查询提供托管流处理服务，这些查询对无限的流进行操作。还可以在HDInsight群集中使用开源Apache流式处理技术，例如Storm和Spark流式处理。
分析数据存储。许多大数据解决方案会先准备用于分析的数据，然后以结构化格式提供已处理的数据供分析工具查询。如大多数传统业务智能(BI)解决方案中所见，用来为这些查询提供服务的分析数据存储可以是Kimball样式的关系数据仓库。或者，数据也可以通过低延迟NoSQL技术（如HBase）或InteractiveHive数据库中呈现，该数据库提供分布式数据存储中数据文件的元数据抽象。AzureSQL数据仓库为大规模、基于云的数据仓库提供托管服务。HDInsight支持交互式Hive、HBase和SparkSQL，也可以使用这些技术来提供用于分析的数据。
分析和报告。大多数大数据解决方案的目的是通过分析和报告提供对数据的见解。若要使用户能够对数据进行分析，架构可以包括一个数据建模层，例如AzureAnalysisServices中的多维OLAP多维数据集或表格数据模型。它还可以使用MicrosoftPowerBI或MicrosoftExcel中的建模和可视化技术支持自助式BI。分析和报告还可以采用适用于数据科学家或数据分析人员的交互式数据浏览形式。对于这些方案，许多Azure服务都支持分析笔记本（例如Jupyter），这允许这些用户通过Python或R利用其现有技能。对于大规模数据浏览，可以使用MicrosoftRServer，可以独立使用，也可以将其与Spark一起使用。
业务流程。大多数大数据解决方案都包括重复的数据处理操作（封装在工作流中），这些操作对源数据进行转换、在多个源和接收器之间移动数据、将已处理的数据加载到分析数据存储中，或者直接将结果推送到报表或仪表板。若要自动执行这些工作流，可以使用诸如Azure数据工厂或ApacheOozie和Sqoop的业务流程技术。

领取试听课

每天限量名额，先到先得

尊重原创文章，转载请注明出处与链接：http://www.peixun360.com/2007/news/263236/违者必究！以上就是银川IT培训学院小编为您整理 带你了解大数据的架构的全部内容。