宇宙湾 - 厚积薄发

Netty：从入门到实践

发表于 2020-03-16 更新于 2023-02-18 分类于后端开发本文字数： 2.6k 阅读时长 ≈ 2 分钟

Netty 是什么？

Netty™ is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients.

基本概念

Channel

　代表一个到实体（硬件设备、文件、网络 Socket 等）的开放连接，如读操作或写操作

Callback

　代表一个在处理完某个事件之后，被调用的方法

Future

　代表一个异步操作结果的占位符

Event

　代表一个可能会触发相应动作的事件连接被激活、用户事件等

ChannelHandler

　代表一个响应特定事件而被执行的回调

阅读全文 »

Antlr

发表于 2015-02-02 更新于 2023-02-18 分类于语言本文字数： 3.9k 阅读时长 ≈ 4 分钟

介绍 Antlr 基本概念、特性、工作机制、内部运作流程，以及踩到的一些坑。

阅读全文 »

Nginx：一款高性能的反向代理服务器

发表于 2020-03-21 更新于 2022-10-23 分类于工具本文字数： 5.3k 阅读时长 ≈ 5 分钟

Nginx 是什么？

Nginx™ [engine x] is an HTTP and reverse proxy server, a mail proxy server, and a generic TCP/UDP proxy server

环境搭建

下载

　在 Nginx Archive 下载页面，下载 nginx-1.13.12.tar.gz 安装包

安装依赖

1 2	$ yum -y install openssl openssl-devel $ yum -y install pcre-devel

编译安装

$ tar zxvf nginx-1.13.12.tar.gz
# 必须要跳转到 nginx 安装目录下
$ cd nginx-1.13.12
$ ./configure --prefix=/usr/local/nginx --conf-path=/usr/local/nginx/nginx.conf
$ make -j4 && make -j4 install

启动

1 2	$ cd /usr/local/nginx/ $ sbin/nginx -c /usr/local/nginx/nginx.conf

1	$ ps -ef \| grep nginx

root     107034      1  0 Oct31 ?        00:00:00 nginx: master process sbin/nginx
nobody   107036 107034  0 Oct31 ?        00:00:00 nginx: worker process
nobody   107266 107265  0 Oct31 ?        00:00:00 tsar --check --apache --cpu --mem --load --io --traffic --tcp --partition --nginx --swap
root     107270  97588  0 Oct31 pts/1    00:00:00 grep nginx

阅读全文 »

Presto：分布式 SQL 查询引擎

发表于 2020-09-06 更新于 2022-07-17 分类于 SQL 本文字数： 35k 阅读时长 ≈ 32 分钟

Presto 是什么？

Presto™ (PrestoDB™) is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to petabytes.

Presto™ (PrestoSQL™, a.k.a. Trino™) is a high performance, distributed SQL query engine for big data.

下文将详细介绍二者的区别

基本概念

组件

Coordinator

　负责管理 Worker 和 MetaStore 节点，以及接受客户端查询请求，并进行 SQL 的语法解析（Parser）、执行计划生成与优化（Planner）和查询任务的调度（Scheduler）

Coordinator 通过 RESTful 接口与 Client 和 Worker 交互

Worker

　负责具体的查询计算和数据读写

Discovery Server

　负责发现集群的各个节点，用于节点间心跳监控

一般 Discovery Server 混布在 Coordinator 节点上，也支持单独部署

阅读全文 »

Scala 实战

发表于 2018-06-06 更新于 2022-07-17 分类于语言本文字数： 9.5k 阅读时长 ≈ 9 分钟

实用技巧

List

List(1, 9, 2, 4, 5) span (_ < 3)       // (List(1), List(9, 2, 4, 5))  碰到不符合就结束

List(1, 9, 2, 4, 5) partition (_ < 3)  // (List(1, 2), List(9, 4, 5))  扫描所有

List(1, 9, 2, 4, 5) splitAt 2          // (List(1, 9), List(2, 4, 5))  以下标为分割点

List(1, 9, 2, 4, 5) groupBy (5 < _)    // Map(false -> List(1, 2, 4, 5), true -> List(9))  分割成 Map 对象，以 Boolean 类型为 Key

Iterator

grouped

import scala.collection.{AbstractIterator, mutable}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.BigquerySparkSession._

val conf = new SparkConf()
val builder = SparkSession.builder().config(conf).enableHiveSupport()
val spark = builder.getOrCreateBigquerySparkSession()
val df = spark.sql("use db; select * from table")

val dataset = df.rdd.mapPartitions(iter => {

  // 将每个 partition 中的多行数据，以 100 为长度作为一组，进行一次批处理
  iter.grouped(100)
    .flatMap(rows => {
      val records = new mutable.MutableList[String]()
      rows.foreach(row => records.add(JSON.toJSONString(row, false)))
      records
    })
})

val filteredEmptyLine = dataset
  .filter(_ != null)
  .map(JSON.toJSONString(_, false))
  .filter(_.trim.length != 0)

阅读全文 »