Posted in Spark

Một số kinh nghiệm làm spark streaming

  • Xóa checkpoints khi run lại job , bởi nếu không sẽ thường bị lỗi KafkaError , nếu trong job đó có Accumulator thì sẽ bị lỗi cast từ Interger sang Long
  • Cố gắng ít stages nhất có thể . Nếu map 1 lần kafka mà k persist hay cache lại sẽ load lại đúng offset đó trong kafka . Sẽ lâu
  • Lưu lại checkpoints nếu job sparkstreaming chết …. initRdd
  • Updating
  • TreeSet…mất bản ghi …
  • Thiết kế key value sao cho ít stages nhất ….
  • ByteArray for key
  • put accumulator to mapPartitions or UPdateStateBykey . Set accumulator về 0 nếu k , giá trị sẽ bị cache lại
  • Check WebUI
  • In ra Accumulator
  • Queue streaming –> tăng batch duration
Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s